1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS: Hei. 3 00:00:08,870 --> 00:00:09,980 Tervetuloa kaikille. 4 00:00:09,980 --> 00:00:11,216 Nimeni on Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Olen juniori [kuultavissa] opiskelu tietojenkäsittelytiede jossa keskitytään 6 00:00:15,220 --> 00:00:16,410 laskennallinen kielitiede. 7 00:00:16,410 --> 00:00:19,310 Joten minun toissijainen on kieli ja kielellinen teoria. 8 00:00:19,310 --> 00:00:21,870 Olen todella innoissani opettaa teille hieman siitä kenttään. 9 00:00:21,870 --> 00:00:24,300 Se on erittäin jännittävä alue opiskelemaan. 10 00:00:24,300 --> 00:00:27,260 Myös paljon potentiaalia tulevaisuutta. 11 00:00:27,260 --> 00:00:30,160 Joten, olen todella innoissani, että te harkitsevat hankkeita 12 00:00:30,160 --> 00:00:31,160 laskennallinen kielitiede. 13 00:00:31,160 --> 00:00:35,460 Ja minä olen enemmän kuin mielellään neuvoja joku teistä jos päätät 14 00:00:35,460 --> 00:00:37,090 harjoittaa yksi niistä. 15 00:00:37,090 --> 00:00:40,010 >> Joten ensiksi, mitkä ovat laskennallisia kielitiede? 16 00:00:40,010 --> 00:00:44,630 Joten laskennallinen kielitiede on leikkauspisteessä kielitieteen ja 17 00:00:44,630 --> 00:00:46,390 tietotekniikassa. 18 00:00:46,390 --> 00:00:47,415 Joten, mikä on kielitiede? 19 00:00:47,415 --> 00:00:48,490 Mikä on tietojenkäsittelytiede? 20 00:00:48,490 --> 00:00:51,580 No alkaen kielitiede, mitä otamme ovat kieliä. 21 00:00:51,580 --> 00:00:54,960 Joten kielitiede on todella tutkimus luonnollisen kielen yleensä. 22 00:00:54,960 --> 00:00:58,330 Niin luonnollinen kieli - puhumme kieli, että me todella käyttävät 23 00:00:58,330 --> 00:00:59,770 kommunikoida toistensa kanssa. 24 00:00:59,770 --> 00:01:02,200 Joten emme tarkalleen puhu noin C tai Java. 25 00:01:02,200 --> 00:01:05,900 Me puhumme enemmän Englanti ja Kiinan ja muiden kielten että me 26 00:01:05,900 --> 00:01:07,780 käyttävät kommunikoida toistensa kanssa. 27 00:01:07,780 --> 00:01:12,470 >> Haastava juttu se on, että nyt meillä on lähes 7000 28 00:01:12,470 --> 00:01:14,260 maailman kielten. 29 00:01:14,260 --> 00:01:19,520 Joten on varsin korkea lajike kielten että voimme tutkia. 30 00:01:19,520 --> 00:01:22,600 Ja sitten luulet, että se on luultavasti hyvin vaikea tehdä, esimerkiksi 31 00:01:22,600 --> 00:01:26,960 käännös yhdestä kielestä muut, koska olet 32 00:01:26,960 --> 00:01:28,240 lähes 7000 heistä. 33 00:01:28,240 --> 00:01:31,450 Joten, jos luulet tehdä käännös yhdestä kielestä muut olette 34 00:01:31,450 --> 00:01:35,840 on lähes yli miljoona erilaisia ​​yhdistelmiä, että voit 35 00:01:35,840 --> 00:01:37,330 on kielikohtaisesti. 36 00:01:37,330 --> 00:01:40,820 Joten se on todella haastavaa tehdä joitakin Tällainen esimerkki käännös järjestelmä 37 00:01:40,820 --> 00:01:43,540 jokainen kieli. 38 00:01:43,540 --> 00:01:47,120 >> Joten, kielitiede kohtelee syntaksin, semantiikka, pragmatiikka. 39 00:01:47,120 --> 00:01:49,550 Te ette juuri tarvitse tietää, mitä ne ovat. 40 00:01:49,550 --> 00:01:55,090 Mutta erittäin mielenkiintoinen asia on, että kuin syntyperäinen puhuja, kun opit 41 00:01:55,090 --> 00:01:59,010 kieltä kuin lapsi, olet itse oppia kaikki nuo asiat - syntaksin semantiikka 42 00:01:59,010 --> 00:02:00,500 ja pragmatiikka - 43 00:02:00,500 --> 00:02:01,430 itse. 44 00:02:01,430 --> 00:02:04,820 Ja kenenkään ei tarvitse opettaa sinulle syntaksi sinua ymmärtämään, miten lauseet ovat 45 00:02:04,820 --> 00:02:05,290 jäsennelty. 46 00:02:05,290 --> 00:02:07,980 Niin, se on todella mielenkiintoista, koska se on jotain, joka tulee hyvin 47 00:02:07,980 --> 00:02:10,389 intuitiivisesti. 48 00:02:10,389 --> 00:02:13,190 >> Ja mitä te viette alkaen tietojenkäsittelytiede? 49 00:02:13,190 --> 00:02:16,700 No, tärkeintä, että me on tietotekniikassa on ensimmäinen 50 00:02:16,700 --> 00:02:19,340 kaikki, tekoäly ja koneoppiminen. 51 00:02:19,340 --> 00:02:22,610 Joten, mitä me yritämme tehdä laskennallinen kielitiede on opettaa 52 00:02:22,610 --> 00:02:26,990 tietokoneesi miten tehdä jotain kielen. 53 00:02:26,990 --> 00:02:28,630 >> Niin, esimerkiksi kone käännös. 54 00:02:28,630 --> 00:02:32,490 Yritän opettaa minun tietokone, kuinka tietää, miten siirtyminen yhdestä 55 00:02:32,490 --> 00:02:33,310 kieli muille. 56 00:02:33,310 --> 00:02:35,790 Joten, pohjimmiltaan kuin opetus tietokone kahdella kielellä. 57 00:02:35,790 --> 00:02:38,870 Jos teen luonnollisen kielen käsittely, joka on kyseessä on esimerkiksi 58 00:02:38,870 --> 00:02:41,810 Facebookin Graph haku, opetat tietokoneesi miten ymmärtää 59 00:02:41,810 --> 00:02:42,730 kyselyitä hyvin. 60 00:02:42,730 --> 00:02:48,130 >> Joten, jos sanot "kuvia minun ystäviä. "Facebook ei kohtele että 61 00:02:48,130 --> 00:02:51,130 koko merkkijono, joka on vain joukko sanoja. 62 00:02:51,130 --> 00:02:56,020 Se todella ymmärtää suhteessa välillä "valokuvia" ja "ystäväni" ja 63 00:02:56,020 --> 00:02:59,620 ymmärtää, että "valokuvat" ovat omaisuutta "ystäväni." 64 00:02:59,620 --> 00:03:02,350 >> Niin, se on osa, esimerkiksi luonnollisen kielen käsittely. 65 00:03:02,350 --> 00:03:04,790 Se yrittää ymmärtää, mitä on suhde 66 00:03:04,790 --> 00:03:07,520 sanat lauseen. 67 00:03:07,520 --> 00:03:11,170 Ja suuri kysymys on, voitko opettaa tietokoneen miten puhua 68 00:03:11,170 --> 00:03:12,650 kieltä yleensä? 69 00:03:12,650 --> 00:03:17,810 Joka on hyvin mielenkiintoinen kysymys ajatella, ikään kuin ehkä tulevaisuudessa, 70 00:03:17,810 --> 00:03:19,930 aiot pystyä puhua matkapuhelimeesi. 71 00:03:19,930 --> 00:03:23,290 Kind of kuten mitä teemme Siri mutta jotain enemmän kuin, voit itse 72 00:03:23,290 --> 00:03:25,690 sanoa mitä haluat ja puhelin tulee ymmärtää kaiken. 73 00:03:25,690 --> 00:03:28,350 Ja se voi olla seurata kysymyksiä ja vatvoa. 74 00:03:28,350 --> 00:03:30,880 Se on jotain todella jännittävää, mielestäni. 75 00:03:30,880 --> 00:03:33,070 >> Niin, jotain luonnollista kieltä. 76 00:03:33,070 --> 00:03:36,220 Jotain todella mielenkiintoista luonnollisella kielellä on se, että, ja tämä on 77 00:03:36,220 --> 00:03:38,470 luottoa minun kielitiede professori, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Hän antaa esimerkin ja uskon se on todella mielenkiintoinen. 79 00:03:40,830 --> 00:03:47,060 Koska opimme kieltä siitä, kun olemme syntyneet ja sitten meidän native 80 00:03:47,060 --> 00:03:49,170 kieli eräänlainen kasvaa meille. 81 00:03:49,170 --> 00:03:52,570 >> Ja pohjimmiltaan opit kieltä minimaalinen input, eikö? 82 00:03:52,570 --> 00:03:56,700 Olet juuri panosta oman vanhemmat, mitä kieli kuulostaa 83 00:03:56,700 --> 00:03:58,770 pidät ja vain oppia se. 84 00:03:58,770 --> 00:04:02,240 Niin, se on mielenkiintoista, koska jos tarkastellaan noita lauseita esimerkiksi. 85 00:04:02,240 --> 00:04:06,980 Näytät ", Mary laittaa takki joka kerran hän lähtee talosta. " 86 00:04:06,980 --> 00:04:10,650 >> Tässä tapauksessa se on mahdollista saada sana "hän" viittaa Mary, eikö? 87 00:04:10,650 --> 00:04:13,500 Voit sanoa "Mary laittaa takki joka kerta Mary lähtee 88 00:04:13,500 --> 00:04:14,960 talo. ", niin se käy hyvin. 89 00:04:14,960 --> 00:04:19,370 Mutta sitten jos tarkastellaan lause "Hän laittaa takki joka kerta Mary 90 00:04:19,370 --> 00:04:22,850 lähtee talosta. "tiedät sen mahdotonta sanoa, että "hän" on 91 00:04:22,850 --> 00:04:24,260 viitaten Mary. 92 00:04:24,260 --> 00:04:27,070 >> Ei ole tapa sanoa, että "Mary asettaa on takki joka kerta Mary lehdet 93 00:04:27,070 --> 00:04:30,790 talon. "Niin se on mielenkiintoista, koska tämä on sellainen intuitio 94 00:04:30,790 --> 00:04:32,890 että jokainen syntyperäinen puhuja on. 95 00:04:32,890 --> 00:04:36,370 Eikä kukaan opetettiin, että tämä on siten, että syntaksin toimii. 96 00:04:36,370 --> 00:04:41,930 Ja että voit vain tämä ", hän" viittaa Mary tässä ensimmäisessä tapauksessa 97 00:04:41,930 --> 00:04:44,260 ja oikeastaan ​​tämä toinen myös, mutta ei tässä yksi. 98 00:04:44,260 --> 00:04:46,500 Mutta jokainen tavallaan saa jotta saman vastauksen. 99 00:04:46,500 --> 00:04:48,580 Kaikki ovat yhtä mieltä siitä. 100 00:04:48,580 --> 00:04:53,280 Joten se on todella mielenkiintoista, miten vaikka et tiedä kaikkia sääntöjä 101 00:04:53,280 --> 00:04:55,575 omalla kielellä sellainen ymmärtää miten kieli toimii. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Joten mielenkiintoinen asia luonnon kieli on, että sinun ei tarvitse 104 00:05:01,530 --> 00:05:06,970 tiedä mitään syntaksin tietää, jos lause on kieliopin tai ungrammatical varten 105 00:05:06,970 --> 00:05:08,810 Useimmissa tapauksissa. 106 00:05:08,810 --> 00:05:13,220 Mikä saa sinut ajattelemaan, että ehkä mitä tapahtuu on, että läpi elämän, sinua 107 00:05:13,220 --> 00:05:17,410 vain pitää saada enemmän ja enemmän lauseita teille puhunut. 108 00:05:17,410 --> 00:05:19,800 Ja sitten pitää ulkoa kaikki lauseet. 109 00:05:19,800 --> 00:05:24,230 Ja sitten kun joku kertoo sinulle jotain, kuulet, että lause ja 110 00:05:24,230 --> 00:05:27,040 sinä katsot sanastoa lauseiden ja katso jos 111 00:05:27,040 --> 00:05:28,270 että lause on siellä. 112 00:05:28,270 --> 00:05:29,830 Ja jos se on siellä sinua sanovat, että se kieliopin. 113 00:05:29,830 --> 00:05:31,740 Jos se ei ole sanot se on ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> Tuossa tapauksessa sanoisit, oh, niin sinulla on valtava luettelo kaikista 115 00:05:35,150 --> 00:05:36,140 mahdollista lauseita. 116 00:05:36,140 --> 00:05:38,240 Ja sitten kun kuulet lauseen, tiedät, jos se on kieliopin tai 117 00:05:38,240 --> 00:05:39,450 ei perustu tämän. 118 00:05:39,450 --> 00:05:42,360 Asia on, että jos tarkastellaan lause, esimerkiksi " 119 00:05:42,360 --> 00:05:47,540 viisi-johdossa CS50 TFs keitetyt sokea mustekala käyttäen DAPA muki. "Se on 120 00:05:47,540 --> 00:05:49,630 ehdottomasti ei lause että olet kuullut ennen. 121 00:05:49,630 --> 00:05:52,380 Mutta samalla tiedät sen melko paljon kieliopin, eikö? 122 00:05:52,380 --> 00:05:55,570 Ei ole kielioppivirheitä ja voit sanoa, että 123 00:05:55,570 --> 00:05:57,020 se on mahdollista lause. 124 00:05:57,020 --> 00:06:01,300 >> Joten se tekee meistä ajattelevat, että todella siten, että opimme kieltä ei ole vain 125 00:06:01,300 --> 00:06:07,090 ottaa valtava tietokanta mahdollisista sanoja tai lauseita, mutta enemmän 126 00:06:07,090 --> 00:06:11,490 ymmärtäminen suhde sanat Näitä virkkeitä. 127 00:06:11,490 --> 00:06:14,570 Onko järkeä? 128 00:06:14,570 --> 00:06:19,370 Näin on, niin kysymys on, voiko tietokoneet oppia kieliä? 129 00:06:19,370 --> 00:06:21,490 Voimmeko opettaa kielen tietokoneisiin? 130 00:06:21,490 --> 00:06:24,230 >> Joten, nyt ajatella eroa välillä syntyperäinen kielen puhuja 131 00:06:24,230 --> 00:06:25,460 ja tietokone. 132 00:06:25,460 --> 00:06:27,340 Joten, mitä tapahtuu puhujan? 133 00:06:27,340 --> 00:06:30,430 No, syntyperäinen puhuja oppii kieli altistumisesta sitä. 134 00:06:30,430 --> 00:06:34,200 Yleensä sen varhaislapsuudessa vuotta. 135 00:06:34,200 --> 00:06:38,570 Joten periaatteessa, sinun täytyy vain vauva, ja sinun pitää puhua siitä, ja se 136 00:06:38,570 --> 00:06:40,540 vain oppii puhumaan kieli, eikö? 137 00:06:40,540 --> 00:06:42,660 Joten, olet periaatteessa antaa tulo vauva. 138 00:06:42,660 --> 00:06:45,200 Joten, voit väittää, että tietokone voi tehdä sama asia, eikö? 139 00:06:45,200 --> 00:06:49,510 Voi vain antaa kieli syötteenä tietokoneelle. 140 00:06:49,510 --> 00:06:53,410 >> Kuten esimerkiksi joukko tiedostoja että on kirjoja Englanti. 141 00:06:53,410 --> 00:06:56,190 Ehkä se on yksi tapa, että te voisi mahdollisesti opettaa 142 00:06:56,190 --> 00:06:57,850 tietokone Englanti, eikö? 143 00:06:57,850 --> 00:07:01,000 Ja itse asiassa, jos ajattelee sitä, se vie ehkä pari 144 00:07:01,000 --> 00:07:02,680 päivää lukea kirjaa. 145 00:07:02,680 --> 00:07:05,760 Saat tietokone kestää sekunnin katsokaa kaikki sanat kirjan. 146 00:07:05,760 --> 00:07:10,810 Voit siis ajatella, että voi olla vain tämän argumentti työpanoksen ympärilläsi, 147 00:07:10,810 --> 00:07:15,440 se ei riitä sanoa, että se on jotain, että vain ihmiset voivat tehdä. 148 00:07:15,440 --> 00:07:17,680 Voit ajatella tietokoneita voi myös saada palautetta. 149 00:07:17,680 --> 00:07:21,170 >> Toinen asia on, että äidinkielenään myös aivot, joka on 150 00:07:21,170 --> 00:07:23,870 kielten oppimisen valmiudet. 151 00:07:23,870 --> 00:07:27,020 Mutta jos ajattelee sitä, aivot on kiinteä asia. 152 00:07:27,020 --> 00:07:30,450 Kun olet syntynyt, se on jo asetettu - 153 00:07:30,450 --> 00:07:31,320 tämä on aivot. 154 00:07:31,320 --> 00:07:34,660 Ja kun kasvaa, voit vain saada enemmän tuloon kieltä ja ehkä ravinteita 155 00:07:34,660 --> 00:07:35,960 ja muita juttuja. 156 00:07:35,960 --> 00:07:38,170 Mutta aika paljon aivoihin on kiinteä asia. 157 00:07:38,170 --> 00:07:41,290 >> Joten voit sanoa, no, ehkä voit rakentaa tietokone, jossa on joukko 158 00:07:41,290 --> 00:07:45,890 toimintoja ja että vain matkivat kielten oppimisen valmiudet. 159 00:07:45,890 --> 00:07:49,630 Joten siinä mielessä, voisi sanoa, no, minä voi olla tietokone, jossa on kaikki 160 00:07:49,630 --> 00:07:52,270 asioita minun täytyy oppia kieltä. 161 00:07:52,270 --> 00:07:56,200 Ja viimeinen asia on, että natiivi puhuja oppii yrityksen ja erehdyksen. 162 00:07:56,200 --> 00:08:01,090 Joten periaatteessa toinen tärkeä asia kielen oppiminen on, että olet sellainen 163 00:08:01,090 --> 00:08:05,340 ja oppia asioita tekemällä yleistyksiä siitä, mitä kuulet. 164 00:08:05,340 --> 00:08:10,280 >> Joten kun varttuvat opit, että jotkut sanat ovat enemmän kuin sanat, 165 00:08:10,280 --> 00:08:11,820 jotkut muut niistä ovat adjektiiveja. 166 00:08:11,820 --> 00:08:14,250 Ja sinun ei tarvitse olla mitään tuntemus kielitiede 167 00:08:14,250 --> 00:08:15,040 ymmärtää, että. 168 00:08:15,040 --> 00:08:18,560 Mutta vain tietää olemassa joitakin sanoja on sijoitettu osaan 169 00:08:18,560 --> 00:08:22,570 virkkeen ja toiset muilla osia lauseen. 170 00:08:22,570 --> 00:08:26,110 >> Ja että kun teet jotain, joka on kuten lause, joka ei ole oikein - 171 00:08:26,110 --> 00:08:28,770 ehkä siksi yli yleistys esimerkiksi. 172 00:08:28,770 --> 00:08:32,210 Ehkä kun olet nuori, huomaat että monikko on yleensä 173 00:08:32,210 --> 00:08:35,809 muodostetaan asettamalla s sanan lopussa. 174 00:08:35,809 --> 00:08:40,042 Ja sitten yrität tehdä monikko "Hirvieläinten" kuin "peuroja" tai "hammas", kuten 175 00:08:40,042 --> 00:08:44,780 "Tooths." Niin sitten vanhempasi tai joku korjaa sinua ja sanoo ei, 176 00:08:44,780 --> 00:08:49,020 monikko "hirvieläinten" on "hirvi" ja monikko "hammas" on "hampaat." Ja sitten 177 00:08:49,020 --> 00:08:50,060 opit niitä asioita. 178 00:08:50,060 --> 00:08:51,520 Joten voit oppia ja erehdyksen. 179 00:08:51,520 --> 00:08:53,100 >> Mutta voit myös tehdä tietokoneen kanssa. 180 00:08:53,100 --> 00:08:55,310 Sinulla voi olla jotain kutsutaan vahvistaminen oppimista. 181 00:08:55,310 --> 00:08:58,560 Joka on pohjimmiltaan sama kuin antaisi tietokone palkita, kun se tekee 182 00:08:58,560 --> 00:08:59,410 jotain kunnolla. 183 00:08:59,410 --> 00:09:04,710 Ja antaa sille vastakohta palkita ja kun se tekee jotain väärin. 184 00:09:04,710 --> 00:09:07,410 Voit itse nähdä, että jos menet Google Käännä ja yrität 185 00:09:07,410 --> 00:09:10,220 kääntää lause, se kysyy palautetta. 186 00:09:10,220 --> 00:09:13,240 Joten jos sanot, Voi, on parempi käännös tämä lause. 187 00:09:13,240 --> 00:09:18,140 Voit kirjoittaa sen ylös ja sitten jos paljon ihmiset pitää sanoa, että on parempi 188 00:09:18,140 --> 00:09:21,560 käännös, se vain oppii, että se pitäisi käyttää käännös sijaan 189 00:09:21,560 --> 00:09:22,960 yksi sen antaa. 190 00:09:22,960 --> 00:09:28,830 >> Niin, se on hyvin filosofinen kysymys nähdä, jos tietokoneita aiotaan 191 00:09:28,830 --> 00:09:30,340 voi puhua tai ei tulevaisuudessa. 192 00:09:30,340 --> 00:09:34,440 Mutta minulla on suuria toiveita, että he voivat perustu pelkästään nämä väitteet. 193 00:09:34,440 --> 00:09:38,570 Mutta se on vain enemmän filosofinen kysymys. 194 00:09:38,570 --> 00:09:43,460 >> Joten vaikka tietokoneet silti voi puhua, mitkä ovat asioita, joita voimme tehdä? 195 00:09:43,460 --> 00:09:47,070 Joitakin todella hienoja asioita ovat tietojen luokittelu. 196 00:09:47,070 --> 00:09:53,210 Niinpä esimerkiksi, te tiedätte että sähköpostipalvelut tehdä, sillä 197 00:09:53,210 --> 00:09:55,580 Esimerkiksi roskapostin suodatus. 198 00:09:55,580 --> 00:09:59,070 Joten kun saat roskapostia, se yrittää suodattaa toiseen ruutuun. 199 00:09:59,070 --> 00:10:00,270 Joten miten se tehdään? 200 00:10:00,270 --> 00:10:06,080 Se ei ole kuin tietokone vain tietää mitä sähköpostiosoitteet lähettävät roskapostia. 201 00:10:06,080 --> 00:10:09,130 Joten se on enemmän perustuu sisältöön viestin, tai ehkä nimen tai 202 00:10:09,130 --> 00:10:11,310 ehkä jotkut kuvio, joka sinulla on. 203 00:10:11,310 --> 00:10:15,690 >> Joten periaatteessa, mitä voit tehdä, on saada paljon tietoa, sähköposteja, jotka ovat roskapostia, 204 00:10:15,690 --> 00:10:19,980 sähköpostit, jotka eivät ole roskapostia, ja oppia, mitä Tällainen malleja teillä on 205 00:10:19,980 --> 00:10:21,000 ne, jotka ovat roskapostia. 206 00:10:21,000 --> 00:10:23,260 Ja tämä on osa laskennallisen kielitiede. 207 00:10:23,260 --> 00:10:24,720 Sitä kutsutaan tiedon luokittelun. 208 00:10:24,720 --> 00:10:28,100 Ja me todella tulee nähdä esimerkki, että seuraavassa dioja. 209 00:10:28,100 --> 00:10:32,910 >> Toinen asia on luonnollista kieltä käsittely, joka on asia, joka 210 00:10:32,910 --> 00:10:36,580 Kuvaaja Hae tekee kerroit voit kirjoittaa lauseen. 211 00:10:36,580 --> 00:10:38,690 Ja se uskoo, että ymmärrät mitä on merkitystä ja antaa 212 00:10:38,690 --> 00:10:39,940 sinulle paremman tuloksen. 213 00:10:39,940 --> 00:10:43,880 Oikeastaan, jos menet Google tai Bing ja etsit jotain Lady 214 00:10:43,880 --> 00:10:47,060 Gagan korkeus, olet todella menossa saada 5 '1 "informaation sijaan 215 00:10:47,060 --> 00:10:50,170 hänen koska se todella ymmärtää mitä puhut. 216 00:10:50,170 --> 00:10:52,140 Joten se on osa luonnollista kielen käsittelyyn. 217 00:10:52,140 --> 00:10:57,000 >> Vai myös silloin, kun käytät Siri, ensin sinulla on algoritmi, joka yrittää 218 00:10:57,000 --> 00:11:01,130 kääntää mitä sanot sanoiksi, tekstimuodossa. 219 00:11:01,130 --> 00:11:03,690 Ja sitten se yrittää kääntää että osaksi merkitys. 220 00:11:03,690 --> 00:11:06,570 Niin, että kaikki osa luonnon kielen käsittelyyn. 221 00:11:06,570 --> 00:11:08,320 >> Sitten on machine translation - 222 00:11:08,320 --> 00:11:10,300 joka on itse asiassa yksi suosikeistani - 223 00:11:10,300 --> 00:11:14,060 joka on juuri kääntämiseen kielestä toiseen. 224 00:11:14,060 --> 00:11:17,950 Voit siis ajatella, että kun teet machine translation, sinulla on 225 00:11:17,950 --> 00:11:19,750 loputtomia mahdollisuuksia lauseita. 226 00:11:19,750 --> 00:11:22,960 Joten ei ole tapa vain tallentaa jokainen käännös. 227 00:11:22,960 --> 00:11:27,440 Joten sinun täytyy keksiä mielenkiintoisia algoritmit pystyä 228 00:11:27,440 --> 00:11:30,110 kääntää joka ikinen virke jollakin tavalla. 229 00:11:30,110 --> 00:11:32,483 >> Teillä on kysyttävää tähän mennessä? 230 00:11:32,483 --> 00:11:34,450 Ei? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Joten mitä aiomme nähdä tänään? 233 00:11:36,900 --> 00:11:39,300 Ensinnäkin aion puhua luokitusta ongelma. 234 00:11:39,300 --> 00:11:41,440 Niin yksi että olin sanovat roskapostia. 235 00:11:41,440 --> 00:11:46,820 Mitä aion tehdä, on, koska lyrics laulun, voit yrittää selvittää 236 00:11:46,820 --> 00:11:49,810 suurella todennäköisyydellä kuka on laulaja? 237 00:11:49,810 --> 00:11:53,590 Oletetaan, että minulla on kappaleita Lady Gaga ja Katy Perry, jos annan sinulle 238 00:11:53,590 --> 00:11:58,130 uusi biisi, voit selvittää, jos se Katy Perry vai Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> Toinen, olen juuri menossa puhumaan noin segmentointi ongelma. 240 00:12:01,490 --> 00:12:05,780 Joten en tiedä, jos te tiedätte, mutta Kiina, japani, muista Itä-Aasian 241 00:12:05,780 --> 00:12:08,090 kieliä, ja muita kieliä yleisesti, ei ole 242 00:12:08,090 --> 00:12:09,830 välilyönnit sanojen. 243 00:12:09,830 --> 00:12:13,540 Ja sitten jos ajattelee niin, että tietokoneesi sellainen yrittää 244 00:12:13,540 --> 00:12:18,600 ymmärtää luonnollisen kielen käsittely, siinä tarkastellaan sanoja ja 245 00:12:18,600 --> 00:12:21,500 yrittää ymmärtää suhteiden niiden välillä, eikö? 246 00:12:21,500 --> 00:12:25,440 Mutta sitten jos sinulla on kiinalainen, ja te on nolla välilyöntejä, se on todella vaikea 247 00:12:25,440 --> 00:12:28,360 selville, mitä on suhde sanoja, koska niillä ei ole mitään 248 00:12:28,360 --> 00:12:29,530 sanoja ensin. 249 00:12:29,530 --> 00:12:32,600 Joten sinun täytyy tehdä jotain kutsutaan segmentointi mikä tarkoittaa vain laskemisesta 250 00:12:32,600 --> 00:12:36,490 välejä mitä me kutsuisi sanat näissä kielissä. 251 00:12:36,490 --> 00:12:37,740 Järkeä? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> Ja sitten me aiomme puhua syntaksin. 254 00:12:41,540 --> 00:12:44,050 Joten vain vähän luonnollisia kielen käsittelyyn. 255 00:12:44,050 --> 00:12:45,420 Se tulee olemaan vain yleiskatsaus. 256 00:12:45,420 --> 00:12:50,700 Joten tänään, periaatteessa mitä haluan tehdä on antaa teille hieman 257 00:12:50,700 --> 00:12:53,930 sisällä mitkä ovat mahdollisuudet että voit tehdä laskennallisin 258 00:12:53,930 --> 00:12:54,960 kielitiede. 259 00:12:54,960 --> 00:13:00,410 Ja sitten näet, mitä ajattelet on viileä joukossa asioita. 260 00:13:00,410 --> 00:13:02,270 Ja ehkä voit ajatella hankkeen ja tule juttelemaan. 261 00:13:02,270 --> 00:13:05,260 Ja voin antaa sinulle neuvoja miten toteuttaa se. 262 00:13:05,260 --> 00:13:09,060 >> Joten syntaksin tulee olemaan hieman noin Graph Etsi ja kone 263 00:13:09,060 --> 00:13:09,670 käännös. 264 00:13:09,670 --> 00:13:13,650 Olen juuri menossa antaa esimerkki siitä, miten voit esimerkiksi kääntää 265 00:13:13,650 --> 00:13:16,020 jotain Portugalin ja Englanti. 266 00:13:16,020 --> 00:13:17,830 Kuulostaako hyvältä? 267 00:13:17,830 --> 00:13:19,293 >> Joten ensin, luokittelun ongelma. 268 00:13:19,293 --> 00:13:23,590 Sanon, että tämä osa seminaarin tulee olemaan haastavin 269 00:13:23,590 --> 00:13:27,560 yksi vain koska siellä tulee olevan jonkin verran koodausta. 270 00:13:27,560 --> 00:13:29,470 Mutta se tulee olemaan Python. 271 00:13:29,470 --> 00:13:34,380 Tiedän te tiedä Python, joten Olen juuri menossa selittää aavalla 272 00:13:34,380 --> 00:13:35,750 tasolla sitä, mitä olen tekemässä. 273 00:13:35,750 --> 00:13:40,900 Ja sinun ei tarvitse oikeastaan ​​piittaa paljon syntaksin koska se on 274 00:13:40,900 --> 00:13:42,140 jotain te voi oppia. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Kuulostaa hyvältä. 277 00:13:43,580 --> 00:13:46,020 >> Niin mikä on luokitus ongelma? 278 00:13:46,020 --> 00:13:49,140 Joten olet antanut joitakin sanoituksia laulu, ja haluat arvata 279 00:13:49,140 --> 00:13:50,620 joka laulaa sitä. 280 00:13:50,620 --> 00:13:54,045 Ja tämä voi olla mitä tahansa ja muita ongelmia. 281 00:13:54,045 --> 00:13:59,980 Joten se voidaan esimerkiksi olet presidentinvaalikampanjan ja sinulla on 282 00:13:59,980 --> 00:14:02,610 puheen, ja haluat löytää , jos se oli esimerkiksi 283 00:14:02,610 --> 00:14:04,470 Obama tai Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Tai voit olla nippu sähköposteja ja haluat selvittää, jos ne ovat 285 00:14:07,700 --> 00:14:08,890 roskapostia tai ei. 286 00:14:08,890 --> 00:14:11,440 Niin se vain luokittelemalla joitakin tiedot perustuvat sanat 287 00:14:11,440 --> 00:14:13,790 että olet siellä. 288 00:14:13,790 --> 00:14:16,295 >> Niin tehdä, että sinun täytyy tehdä joitakin oletuksia. 289 00:14:16,295 --> 00:14:20,570 Joten paljon laskennallinen kielitiede tekee oletuksia, 290 00:14:20,570 --> 00:14:24,100 yleensä järkevää oletuksia, jotta voit saada hyviä tuloksia. 291 00:14:24,100 --> 00:14:26,670 Yritetään luoda malli siitä. 292 00:14:26,670 --> 00:14:31,290 Ja sitten kokeilla sitä ja katso jos se toimii, jos se antaa sinulle hyvä tarkkuus. 293 00:14:31,290 --> 00:14:33,940 Ja jos niin käy, niin olet yrittää parantaa sitä. 294 00:14:33,940 --> 00:14:37,640 Jos se ei, olet kuin, OK, ehkä en pitäisi tehdä erilaisen oletuksen. 295 00:14:37,640 --> 00:14:44,030 >> Niin oletetaan, että aiomme tehdä on, että taiteilija yleensä laulaa 296 00:14:44,030 --> 00:14:49,220 aiheesta, useita kertoja, ja ehkä käyttää sanoja useita kertoja vain 297 00:14:49,220 --> 00:14:50,270 koska he ovat tottuneet siihen. 298 00:14:50,270 --> 00:14:51,890 Voit vain kuvitella ystäväsi. 299 00:14:51,890 --> 00:14:57,350 Olen varma, että te kaikki on ystäviä jotka sanovat niiden allekirjoitus lause, 300 00:14:57,350 --> 00:14:59,260 kirjaimellisesti joka ikinen lause - 301 00:14:59,260 --> 00:15:02,660 kuten jotkut tiettyä sanaa tai tiettyjä lause, että he sanovat varten 302 00:15:02,660 --> 00:15:04,020 jokainen lause. 303 00:15:04,020 --> 00:15:07,920 >> Ja mitä voit sanoa on, että jos näet lause, joka on allekirjoitus 304 00:15:07,920 --> 00:15:11,450 lause, voit arvata, että luultavasti ystäväsi on 305 00:15:11,450 --> 00:15:13,310 yksi sanoen se, eikö? 306 00:15:13,310 --> 00:15:18,410 Niin teet että oletus ja sitten se miten luoda malli. 307 00:15:18,410 --> 00:15:24,440 >> Esimerkiksi, että aion antaa palaa kuinka Lady Gaga, esimerkiksi ihmisiä 308 00:15:24,440 --> 00:15:27,430 sanoa, että hän käyttää "vauva" varten kaikki hänen ykkönen kappaleita. 309 00:15:27,430 --> 00:15:32,270 Ja oikeastaan ​​tämä on video, joka näyttää hänen sanomalla sanan "vauva" varten 310 00:15:32,270 --> 00:15:33,410 eri kappaleita. 311 00:15:33,410 --> 00:15:33,860 >> [VIDEOTOISTOSTA] 312 00:15:33,860 --> 00:15:34,310 >> - (Laulaen) Baby. 313 00:15:34,310 --> 00:15:36,220 Vauva. 314 00:15:36,220 --> 00:15:37,086 Vauva. 315 00:15:37,086 --> 00:15:37,520 Vauva. 316 00:15:37,520 --> 00:15:37,770 Vauva. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Vauva. 319 00:15:39,243 --> 00:15:40,085 Vauva. 320 00:15:40,085 --> 00:15:40,510 Vauva. 321 00:15:40,510 --> 00:15:40,850 Vauva. 322 00:15:40,850 --> 00:15:41,090 >> [END VIDEOTOISTOSTA- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS: Niin on, luulen, 40 kappaleita täällä, jossa hän sanoo 324 00:15:44,020 --> 00:15:48,690 sana "vauva". Joten voit periaatteessa arvata että jos näet kappale, jolla on 325 00:15:48,690 --> 00:15:52,180 sana "vauva" on joitakin korkean todennäköisyys, että se on Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Mutta yritetään kehittää tätä Vielä enemmän muodollisesti. 327 00:15:56,450 --> 00:16:00,470 >> Joten nämä ovat sanoituksia kappaleita Lady Gaga ja Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Joten sinä katsot Lady Gaga, näet ne on paljon tapahtumia "baby" 329 00:16:04,120 --> 00:16:07,710 paljon tapahtumia ja "tapa." Ja sitten Katy Perry on paljon esiintymiä 330 00:16:07,710 --> 00:16:10,360 "," Paljon esiintymiä "tulen." 331 00:16:10,360 --> 00:16:14,560 >> Joten periaatteessa mitä haluamme tehdä, on, saat lyyrinen. 332 00:16:14,560 --> 00:16:20,480 Oletetaan, että saat lyric varten laulu, joka on "vauva" vain "vauva". Jos 333 00:16:20,480 --> 00:16:24,750 juuri saada sana "vauva" ja tämä on kaikki tiedot, jonka saat 334 00:16:24,750 --> 00:16:27,880 Lady Gaga ja Katy Perry, kukapa Arvaatko on henkilö 335 00:16:27,880 --> 00:16:29,370 joka laulaa laulun? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga tai Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, eikö? 338 00:16:33,150 --> 00:16:37,400 Koska hän on ainoa, joka sanoo "Vauva". Tämä kuulostaa tyhmä, eikö? 339 00:16:37,400 --> 00:16:38,760 OK, tämä on todella helppoa. 340 00:16:38,760 --> 00:16:41,860 Olen vain katsomalla kaksi kappaletta ja Tietenkin hän on ainoa, jolla on 341 00:16:41,860 --> 00:16:42,660 "Vauva". 342 00:16:42,660 --> 00:16:44,740 >> Mutta mitä jos sinulla on nippu sanoja? 343 00:16:44,740 --> 00:16:50,900 Jos sinulla on todellinen lyric, jotain kuten "vauva, minä vain 344 00:16:50,900 --> 00:16:51,610 meni tapaamaan [? CFT?] 345 00:16:51,610 --> 00:16:54,020 luento "tai jotain sinne päin, ja sitten sinun todella täytyy selvittää - 346 00:16:54,020 --> 00:16:55,780 perustuvat kaikki nämä sanat - 347 00:16:55,780 --> 00:16:58,350 kuka on taiteilija, joka luultavasti lauloi tämän laulun? 348 00:16:58,350 --> 00:17:01,860 Joten yritetään kehittää Tässä hieman pidemmälle. 349 00:17:01,860 --> 00:17:05,630 >> OK, joten perustua pelkästään tietoihin, että me sai, näyttää siltä, ​​että Gaga on luultavasti 350 00:17:05,630 --> 00:17:06,260 laulaja. 351 00:17:06,260 --> 00:17:07,904 Mutta miten voimme kirjoittaa Tämän virallisemmin? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 Ja siellä tulee olemaan hieman vähän tilastoja. 354 00:17:13,140 --> 00:17:15,880 Joten jos eksyt, kokeile ymmärtää käsite. 355 00:17:15,880 --> 00:17:18,700 Sillä ei ole väliä, jos ymmärrät yhtälöt aivan hyvin. 356 00:17:18,700 --> 00:17:22,150 Tämä kaikki tulee olemaan verkossa. 357 00:17:22,150 --> 00:17:25,490 >> Joten periaatteessa mitä olen laskettaessa on Todennäköisyys, että tämä laulu on by 358 00:17:25,490 --> 00:17:28,040 Lady Gaga otetaan huomioon, että - 359 00:17:28,040 --> 00:17:30,660 joten tämä tankoväline koska - 360 00:17:30,660 --> 00:17:33,680 Näin sana "vauva". Onko järkeä? 361 00:17:33,680 --> 00:17:35,540 Joten yritän laskea että todennäköisyys. 362 00:17:35,540 --> 00:17:38,540 >> Joten ei tämä lause nimeltään Bayes lause, joka sanoo, että 363 00:17:38,540 --> 00:17:43,330 todennäköisyys tietyn B, on todennäköisyys B annetaan, kertaa 364 00:17:43,330 --> 00:17:47,660 todennäköisyys, yli todennäköisyys B. Tämä on pitkä yhtälö. 365 00:17:47,660 --> 00:17:51,970 Mutta mitä sinun täytyy ymmärtää alkaen se on, että tämä on mitä haluan 366 00:17:51,970 --> 00:17:52,830 laskea, eikö? 367 00:17:52,830 --> 00:17:56,570 Niin todennäköisyys, että että laulu on vuoteen Lady Gaga koska olen nähnyt sanan 368 00:17:56,570 --> 00:17:58,230 "Vauva". 369 00:17:58,230 --> 00:18:02,960 >> Ja nyt, mitä Saan on todennäköisyys sana "vauva" annettuja 370 00:18:02,960 --> 00:18:04,390 että minulla on Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 Ja mitä on se, että pohjimmiltaan? 372 00:18:07,220 --> 00:18:10,500 Tämä tarkoittaa sitä, mikä on todennäköisyys nähdä sana "vauva" 373 00:18:10,500 --> 00:18:12,130 in Gaga lyrics? 374 00:18:12,130 --> 00:18:16,240 Jos haluan laskea, että hyvin yksinkertaisella tavalla, se on vain numero 375 00:18:16,240 --> 00:18:23,640 kertaa näen "vauva" over kokonaismäärä sanojen Gaga lyrics, eikö? 376 00:18:23,640 --> 00:18:27,600 Mikä on taajuus, näen että sana Gagan toimii? 377 00:18:27,600 --> 00:18:30,530 Järkeä? 378 00:18:30,530 --> 00:18:33,420 >> Toinen termi on todennäköisyys Gaga. 379 00:18:33,420 --> 00:18:34,360 Mitä se tarkoittaa? 380 00:18:34,360 --> 00:18:38,550 Tämä tarkoittaa periaatteessa sitä, mikä on todennäköisyys luokittelussa 381 00:18:38,550 --> 00:18:40,690 lyriikoita kuin Gaga? 382 00:18:40,690 --> 00:18:45,320 Ja se on outo, mutta Ajatellaan esimerkkinä. 383 00:18:45,320 --> 00:18:49,230 Joten sanotaan, että todennäköisyys ottaa "vauva" in biisi on sama 384 00:18:49,230 --> 00:18:51,760 Gaga ja Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Mutta Britney Spears on kahdesti enemmän kappaleita kuin Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Joten jos joku vain satunnaisesti saat lyrics "baby", ensimmäinen asia, sinun 387 00:19:00,570 --> 00:19:04,710 tarkastella on, mikä on todennäköisyys ottaa "vauva" in Gaga biisi "vauva" 388 00:19:04,710 --> 00:19:05,410 vuonna Britney laulu? 389 00:19:05,410 --> 00:19:06,460 Ja se on sama asia. 390 00:19:06,460 --> 00:19:10,040 >> Joten toinen asia, että näet on, No, mikä on todennäköisyys 391 00:19:10,040 --> 00:19:13,770 Tämän lyric itsessään on Gaga lyric, ja mikä on todennäköisyys 392 00:19:13,770 --> 00:19:15,380 että Britney lyric? 393 00:19:15,380 --> 00:19:18,950 Joten koska Britney on niin paljon enemmän lyrics kuin Gaga, olet luultavasti 394 00:19:18,950 --> 00:19:21,470 sanoa, no, tämä on luultavasti Britney lyyrinen. 395 00:19:21,470 --> 00:19:23,340 Joten siksi meillä on tämä termi täällä. 396 00:19:23,340 --> 00:19:24,670 Todennäköisyys Gaga. 397 00:19:24,670 --> 00:19:26,950 Järkevää? 398 00:19:26,950 --> 00:19:28,660 Onko se? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> Ja viimeinen on vain todennäköisyys "baby", joka ei 401 00:19:33,500 --> 00:19:34,810 oikeastaan ​​väliä, että paljon. 402 00:19:34,810 --> 00:19:39,940 Mutta se todennäköisyys näkeminen "vauva" Englanti. 403 00:19:39,940 --> 00:19:42,725 Me yleensä eivät välitä, että paljon, että termi. 404 00:19:42,725 --> 00:19:44,490 Onko järkeä? 405 00:19:44,490 --> 00:19:48,110 Joten todennäköisyys Gaga on kutsutaan ennen todennäköisyys 406 00:19:48,110 --> 00:19:49,530 luokan Gaga. 407 00:19:49,530 --> 00:19:53,840 Koska se tarkoittaa vain sitä, että mikä on todennäköisyys ottaa tämän luokan - 408 00:19:53,840 --> 00:19:55,520 joka on Gaga - 409 00:19:55,520 --> 00:19:59,350 vain yleensä vain ilman ehtoja. 410 00:19:59,350 --> 00:20:02,560 >> Ja sitten kun minulla on todennäköisyys Gaga annetaan "baby", me kutsumme sitä plus 411 00:20:02,560 --> 00:20:06,160 teary todennäköisyys, koska se on todennäköisyys, että 412 00:20:06,160 --> 00:20:08,300 Gaga annetaan jonkin verran näyttöä. 413 00:20:08,300 --> 00:20:11,050 Joten annan sinulle todisteet että olen nähnyt sanan vauvan ja 414 00:20:11,050 --> 00:20:12,690 laulu järkeä? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Jos siis laskenut, että kullekin kappaleet Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 mitä se olisi - 419 00:20:25,916 --> 00:20:27,730 ilmeisesti, en voi siirtää tämän. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Todennäköisyys Gaga on jotain, 2 yli 24, kertaa 1/2, 422 00:20:36,920 --> 00:20:38,260 yli 2 yli 53. 423 00:20:38,260 --> 00:20:40,640 Sillä ei ole väliä, jos tiedät mitä nämä luvut ovat peräisin. 424 00:20:40,640 --> 00:20:44,750 Mutta se on vain numero, joka on menossa olla enemmän kuin 0, eikö? 425 00:20:44,750 --> 00:20:48,610 >> Ja sitten kun teen Katy Perry, todennäköisyys "vauva" annetaan Katy on 426 00:20:48,610 --> 00:20:49,830 jo 0, eikö? 427 00:20:49,830 --> 00:20:52,820 Koska ei ole mitään "vauva" Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Niin sitten tämä tulee 0, ja Gaga voittoa, mikä tarkoittaa, että Gaga on 429 00:20:56,360 --> 00:20:57,310 luultavasti laulaja. 430 00:20:57,310 --> 00:20:58,560 Onko järkeä? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Joten jos haluan tehdä asiasta virallisen, Voin itse tehdä malli 435 00:21:11,750 --> 00:21:12,700 useita sanoja. 436 00:21:12,700 --> 00:21:14,610 Joten haluan sanoa, että minulla on jotain kuten "vauva, olen 437 00:21:14,610 --> 00:21:16,030 tulessa ", tai jotain. 438 00:21:16,030 --> 00:21:17,760 Joten se on useita sanoja. 439 00:21:17,760 --> 00:21:20,880 Ja tässä tapauksessa, näet että "vauva" on Gaga, 440 00:21:20,880 --> 00:21:21,710 mutta se ei ole Katy. 441 00:21:21,710 --> 00:21:24,940 Ja "palo" on Katy, mutta se ei ole Gaga, eikö? 442 00:21:24,940 --> 00:21:27,200 Niin se alkaa hankalampi, eikö? 443 00:21:27,200 --> 00:21:31,440 Koska näyttää siltä, ​​että melkein on tasan kaksi. 444 00:21:31,440 --> 00:21:36,980 >> Joten mitä sinun tarvitsee tehdä on olettaa riippumattomuus joukossa sanoja. 445 00:21:36,980 --> 00:21:41,210 Joten periaatteessa mitä se tarkoittaa, että Olen vain laskettaessa, mikä on 446 00:21:41,210 --> 00:21:44,330 todennäköisyys nähdä "vauva", mikä on todennäköisyys nähdä "I" ja 447 00:21:44,330 --> 00:21:46,670 "Olen", ja "on" ja "palo" kaikki erikseen. 448 00:21:46,670 --> 00:21:48,670 Sitten olen kertomalla ne kaikki. 449 00:21:48,670 --> 00:21:52,420 Ja näen mikä on todennäköisyys nähdä koko lause. 450 00:21:52,420 --> 00:21:55,210 Järkeä? 451 00:21:55,210 --> 00:22:00,270 >> Joten periaatteessa, jos minulla on vain yksi sana, mitä haluan löytää on arg max, 452 00:22:00,270 --> 00:22:05,385 mikä tarkoittaa, mikä on luokka, joka on antaa minulle suurin todennäköisyys? 453 00:22:05,385 --> 00:22:10,010 Joten mikä on luokka, joka antaa minulle suurimman todennäköisyyden, 454 00:22:10,010 --> 00:22:11,940 todennäköisyys luokan tiettyä sanaa. 455 00:22:11,940 --> 00:22:17,610 Joten tässä tapauksessa, Gaga annetaan "baby." Tai Katy annetaan "baby." Järkeä? 456 00:22:17,610 --> 00:22:21,040 >> Ja pelkästään Bayes, että yhtälö, että näytin, 457 00:22:21,040 --> 00:22:24,780 luomme tämän jakeen. 458 00:22:24,780 --> 00:22:28,750 Ainoa asia on, että näet, että todennäköisyys sana annetaan 459 00:22:28,750 --> 00:22:31,370 luokka muuttuu riippuen on luokka, eikö? 460 00:22:31,370 --> 00:22:34,260 Määrä "vauvan" s että minulla on in Gaga on erilainen kuin Katy. 461 00:22:34,260 --> 00:22:37,640 Todennäköisyys luokan myös muutoksia, koska se on vain numero 462 00:22:37,640 --> 00:22:39,740 kappaleita jokainen niistä on. 463 00:22:39,740 --> 00:22:43,980 >> Mutta todennäköisyys sana itse tulee olemaan sama kaikille 464 00:22:43,980 --> 00:22:44,740 taiteilijoita, eikö? 465 00:22:44,740 --> 00:22:47,150 Niin todennäköisyys, että sana on juuri, mikä on todennäköisyys 466 00:22:47,150 --> 00:22:49,820 nähdä, että sana Englanti kieli? 467 00:22:49,820 --> 00:22:51,420 Joten se on sama kaikille niistä. 468 00:22:51,420 --> 00:22:55,790 Joten koska tämä on vakio, voimme vain pudota tämä ja siitä välitä. 469 00:22:55,790 --> 00:23:00,230 Joten tämä on todella yhtälö etsimme. 470 00:23:00,230 --> 00:23:03,360 >> Ja jos minulla on useita sanoja, olen vielä menossa on ennen 471 00:23:03,360 --> 00:23:04,610 todennäköisyys täällä. 472 00:23:04,610 --> 00:23:06,980 Ainoa asia on, että olen kertomalla todennäköisyys 473 00:23:06,980 --> 00:23:08,490 kaikki muut sanat. 474 00:23:08,490 --> 00:23:10,110 Joten olen kertomalla ne kaikki. 475 00:23:10,110 --> 00:23:12,610 Järkeä? 476 00:23:12,610 --> 00:23:18,440 Se näyttää oudolta, mutta periaatteessa sitä, laskea ennen tämän luokan ja 477 00:23:18,440 --> 00:23:22,100 Sitten kerrotaan todennäköisyys kunkin sanoista on tässä luokassa. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> Ja te tiedätte, että todennäköisyys sana annetaan luokka tulee olemaan 480 00:23:29,150 --> 00:23:34,520 monta kertaa huomaat, että sana tämän luokan, jaettuna määrä 481 00:23:34,520 --> 00:23:37,020 sanoja teillä on, että luokan yleensä. 482 00:23:37,020 --> 00:23:37,990 Järkeä? 483 00:23:37,990 --> 00:23:41,680 Se on vain, kuinka "vauva" oli 2 yli sanojen määrästä 484 00:23:41,680 --> 00:23:43,020 Minulla oli lyrics. 485 00:23:43,020 --> 00:23:45,130 Joten taajuus. 486 00:23:45,130 --> 00:23:46,260 >> Mutta on yksi asia. 487 00:23:46,260 --> 00:23:51,250 Muista kuinka oli osoittaa, että todennäköisyys "vauva" on lyrics 488 00:23:51,250 --> 00:23:56,350 Katy Perry on 0 vain siksi Katy Perry ei ole "vauva" ollenkaan? 489 00:23:56,350 --> 00:24:04,900 Mutta se kuulostaa hieman tyly vain yksinkertaisesti sanoa, että sanoitukset eivät voi olla 490 00:24:04,900 --> 00:24:10,040 taiteilija vain koska heillä ei ole että sana erityisesti milloin tahansa. 491 00:24:10,040 --> 00:24:13,330 >> Joten voit vain sanoa, hyvin, jos ei ole tätä sanaa, aion 492 00:24:13,330 --> 00:24:15,640 antaa sinulle pienemmän todennäköisyys, mutta olen vain aio 493 00:24:15,640 --> 00:24:17,420 antaa sinulle 0 heti. 494 00:24:17,420 --> 00:24:21,040 Koska ehkä se oli jotain, "Tulipalo, tulipalo, tulipalo, tulipalo", joka on 495 00:24:21,040 --> 00:24:21,990 täysin Katy Perry. 496 00:24:21,990 --> 00:24:26,060 Ja sitten "vauva" ja se vain menee 0 heti, koska siellä oli yksi 497 00:24:26,060 --> 00:24:27,250 "Vauva". 498 00:24:27,250 --> 00:24:31,440 >> Joten periaatteessa mitä teemme, on jotain nimeltään Laplace tasoitusta. 499 00:24:31,440 --> 00:24:36,260 Ja tämä tarkoittaa vain sitä, että annan jonkinlaisella todennäköisyydellä jopa sanat 500 00:24:36,260 --> 00:24:37,850 joita ei ole olemassa. 501 00:24:37,850 --> 00:24:43,170 Joten mitä teen, on että kun olen laskennassa, olen aina lisää 1 502 00:24:43,170 --> 00:24:44,180 osoittaja. 503 00:24:44,180 --> 00:24:48,060 Joten vaikka sana ei ole, Tässä tapauksessa, jos tämä on 0, olen silti 504 00:24:48,060 --> 00:24:51,250 Laskettaessa tätä 1 yli kokonaismäärä sanoja. 505 00:24:51,250 --> 00:24:55,060 Muuten, saan kuinka monta sanaa Minulla ja lisään 1. 506 00:24:55,060 --> 00:24:58,300 Joten Luotan molemmissa tapauksissa. 507 00:24:58,300 --> 00:25:00,430 Järkeä? 508 00:25:00,430 --> 00:25:03,060 >> Joten nyt tehkäämme joitakin koodausta. 509 00:25:03,060 --> 00:25:06,440 Aion täytyy tehdä se melko nopeasti, mutta se on vain tärkeää, että 510 00:25:06,440 --> 00:25:08,600 kaverit ymmärtävät käsitteet. 511 00:25:08,600 --> 00:25:13,450 Joten mitä me yritämme tehdä on juuri toteuttaa tämän 512 00:25:13,450 --> 00:25:14,330 asia, että juuri sanoin - 513 00:25:14,330 --> 00:25:19,110 Haluan laittaa lyrics from Lady Gaga ja Katy Perry. 514 00:25:19,110 --> 00:25:22,980 Ja ohjelma tulee pystyä eli jos nämä uudet sanoitukset ovat Gaga 515 00:25:22,980 --> 00:25:24,170 tai Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Järkeä? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Joten minulla on tämä ohjelma aion soittaa classify.py. 519 00:25:30,710 --> 00:25:31,970 Joten tämä on Python. 520 00:25:31,970 --> 00:25:34,210 Se on uusi ohjelmointikieli. 521 00:25:34,210 --> 00:25:38,020 Se on hyvin samanlainen joissakin tapoja C ja PHP. 522 00:25:38,020 --> 00:25:43,180 Se muistuttaa, koska jos haluat oppia Python kun tietää C, se on 523 00:25:43,180 --> 00:25:46,270 todellakaan ole niin paljon haastetta vain koska Python on paljon helpompaa 524 00:25:46,270 --> 00:25:47,520 kuin C ensinnäkin. 525 00:25:47,520 --> 00:25:49,370 Ja paljon asioita on jo täytäntöön sinulle. 526 00:25:49,370 --> 00:25:56,820 Joten miten kuten PHP on useita toimintoja, lajitella luettelon, tai liittää jotain 527 00:25:56,820 --> 00:25:58,780 to array, tai blaa, blaa, blaa. 528 00:25:58,780 --> 00:26:00,690 Python on kaikki nekin. 529 00:26:00,690 --> 00:26:05,960 >> Joten olen juuri menossa selittää nopeasti miten voisimme tehdä luokitusta 530 00:26:05,960 --> 00:26:07,860 ongelma täällä. 531 00:26:07,860 --> 00:26:13,230 Sanotaan siis, että tässä tapauksessa, minulla on lyrics from Gaga ja Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Siten, että minulla on niitä lyrics on, että ensimmäinen sana lyrics on 533 00:26:21,880 --> 00:26:25,250 taiteilijan nimi ja loput on lyrics. 534 00:26:25,250 --> 00:26:29,470 Joten haluan sanoa, että minulla on tämän luettelon joista ensimmäinen on sanoittanut Gaga. 535 00:26:29,470 --> 00:26:31,930 Joten tässä olen oikealla tiellä. 536 00:26:31,930 --> 00:26:35,270 Ja seuraava on Katy, ja se on myös sanoitukset. 537 00:26:35,270 --> 00:26:38,040 >> Joten tämä on, miten voit julistaa muuttuja Python. 538 00:26:38,040 --> 00:26:40,200 Sinun ei tarvitse antaa tietotyyppi. 539 00:26:40,200 --> 00:26:43,150 Sinä vain kirjoittaa "lyrics" ikään kuin PHP. 540 00:26:43,150 --> 00:26:44,890 Järkeä? 541 00:26:44,890 --> 00:26:47,770 >> Mitkä ovat asioita, joita minun täytyy laskea pystyä laskemaan 542 00:26:47,770 --> 00:26:49,360 todennäköisyyksiä? 543 00:26:49,360 --> 00:26:55,110 Minun täytyy laskea "prioritodennäköisyydet" Kunkin eri 544 00:26:55,110 --> 00:26:56,710 luokat, jotka minulla on. 545 00:26:56,710 --> 00:27:06,680 Minun täytyy laskea "posteriors" tai melko paljon todennäköisyydet 546 00:27:06,680 --> 00:27:12,150 kunkin eri sanoja, jotka Voin olla kunkin taiteilijan. 547 00:27:12,150 --> 00:27:17,210 Joten sisällä Gaga, esimerkiksi aion on lista kuinka monta kertaa näen 548 00:27:17,210 --> 00:27:19,250 kukin sanoja. 549 00:27:19,250 --> 00:27:20,760 Järkeä? 550 00:27:20,760 --> 00:27:25,370 >> Ja lopuksi, olen juuri menossa luettelon nimeltä "sanoja", joka on juuri menossa 551 00:27:25,370 --> 00:27:29,780 olla kuinka monta sanaa I ovat kunkin taiteilijan. 552 00:27:29,780 --> 00:27:33,760 Joten Gaga, esimerkiksi kun katson sanoittaja, olin mielestäni 24 553 00:27:33,760 --> 00:27:34,750 sanat yhteensä. 554 00:27:34,750 --> 00:27:38,970 Joten tämä lista on vain täytyy Gaga 24, ja Katy toiseen numeroon. 555 00:27:38,970 --> 00:27:40,130 Järkeä? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Joten nyt oikeastaan, nyt Siirry koodausta. 558 00:27:42,530 --> 00:27:45,270 Joten Python, voit itse palata joukko eri 559 00:27:45,270 --> 00:27:46,630 asioita toiminto. 560 00:27:46,630 --> 00:27:50,810 Joten aion luoda tämän toiminnon nimeltään "ehdollinen", joka on menossa 561 00:27:50,810 --> 00:27:53,890 palauttaa kaikki ne asiat, "Priorit", "todennäköisyyksiä", ja 562 00:27:53,890 --> 00:28:05,690 "Sanoja". Niin "ehdollinen", ja se on aiotaan vaarantaa "lyrics." 563 00:28:05,690 --> 00:28:11,510 >> Joten nyt haluan sinun todella kirjoittaa tätä toimintoa. 564 00:28:11,510 --> 00:28:17,750 Niin niin, että voin kirjoittaa tämän Toiminto Sain määritelty tämän 565 00:28:17,750 --> 00:28:20,620 toimimaan "def." Niin tein "def ehdollinen, "ja se kestää 566 00:28:20,620 --> 00:28:28,700 "Lyrics." Ja mitä tämä aikoo tehdä on ensinnäkin, minulla on aiempia tuomioita 567 00:28:28,700 --> 00:28:31,030 että haluan laskea. 568 00:28:31,030 --> 00:28:34,330 >> Niin niin, että voin tehdä tämä on luoda sanakirja Python, joka 569 00:28:34,330 --> 00:28:37,320 on melko sama asia kuin hash taulukon tai se on kuin iteratiivinen 570 00:28:37,320 --> 00:28:40,480 array PHP. 571 00:28:40,480 --> 00:28:44,150 Näin minä julistaa sanakirja. 572 00:28:44,150 --> 00:28:53,580 Ja periaatteessa mitä tämä tarkoittaa, että prioritodennäköisyydet of Gaga on 0,5, jos esimerkiksi 573 00:28:53,580 --> 00:28:57,200 50% sanoitukset ovat alkaen Gaga, 50% on peräisin Katy. 574 00:28:57,200 --> 00:28:58,450 Järkeä? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Joten minun täytyy selvittää, miten laskea prioritodennäköisyydet. 577 00:29:03,680 --> 00:29:07,120 >> Seuraavan ne, jotka minun täytyy tehdä myös, ovat todennäköisyydet ja sanoja. 578 00:29:07,120 --> 00:29:17,100 Niin todennäköisyydet Gaga on luettelo kaikki todennäköisyydet, että olen 579 00:29:17,100 --> 00:29:19,160 on kunkin sanoja Gaga. 580 00:29:19,160 --> 00:29:23,880 Joten jos menen todennäköisyyksiä Gaga "Vauva", esimerkiksi, se antaa minulle 581 00:29:23,880 --> 00:29:28,750 jotain 2 yli 24 tässä tapauksessa. 582 00:29:28,750 --> 00:29:30,070 Järkeä? 583 00:29:30,070 --> 00:29:36,120 Joten en mene "todennäköisyyksiä," mene "Gaga" kauha, joka on luettelo kaikista 584 00:29:36,120 --> 00:29:40,550 Gaga sanat, sitten menen "vauva" ja näen todennäköisyydellä. 585 00:29:40,550 --> 00:29:45,940 >> Ja lopuksi minulla on tämä "Sanat" sanakirja. 586 00:29:45,940 --> 00:29:53,620 Joten tässä, "todennäköisyyksiä." Ja sitten "Sanoja". Joten jos teen "sanoja", "Gaga" 587 00:29:53,620 --> 00:29:58,330 mitä tulee tapahtumaan on, että se aio antaa minulle 24, sanomalla, että minä 588 00:29:58,330 --> 00:30:01,990 on 24 sanoja lyrics from Gaga. 589 00:30:01,990 --> 00:30:04,110 Järkevää? 590 00:30:04,110 --> 00:30:07,070 Joten tässä, "sanoja" on yhtä kuin Dah-Dah-dah. 591 00:30:07,070 --> 00:30:07,620 Kunnossa 592 00:30:07,620 --> 00:30:12,210 >> Joten mitä aion tehdä, on Aion kerrata enemmän kuin lyrics, joten 593 00:30:12,210 --> 00:30:14,490 kukin naruja Minulla on luettelossa. 594 00:30:14,490 --> 00:30:18,040 Ja aion laskea niitä asioita kunkin ehdokkaita. 595 00:30:18,040 --> 00:30:19,950 Järkevää? 596 00:30:19,950 --> 00:30:21,700 Joten minun täytyy tehdä silmukka. 597 00:30:21,700 --> 00:30:26,300 >> Joten Python mitä voin tehdä on "linja in lyrics. "sama asia kuin 598 00:30:26,300 --> 00:30:28,000 "Jokaiselle" lausunto PHP. 599 00:30:28,000 --> 00:30:33,420 Muistakaa, kuinka se oli PHP voisin sanoa "jokaiselle lyrics kuten 600 00:30:33,420 --> 00:30:35,220 line. "Järkevää? 601 00:30:35,220 --> 00:30:38,900 Vien kullekin viivalle, tässä tapauksessa tämä merkkijono ja seuraava 602 00:30:38,900 --> 00:30:44,540 string joten kullekin viivalle, mitä olen aikoo tehdä, on ensimmäinen, aion 603 00:30:44,540 --> 00:30:49,150 jakaa tämä rivi luettelo sanat toisistaan ​​välilyönnillä. 604 00:30:49,150 --> 00:30:53,730 >> Niin cool juttu Python on, että voisit vain Google kuten "kuinka voin 605 00:30:53,730 --> 00:30:58,220 jakaa merkkijonon sanoiksi? "Ja se on aio kertoa teille, miten se tehdään. 606 00:30:58,220 --> 00:31:04,890 Ja tapa tehdä se, se on vain "line = Line.split () "ja se on pohjimmiltaan 607 00:31:04,890 --> 00:31:08,640 aikoo antaa sinulle listan kukin sanoja tässä. 608 00:31:08,640 --> 00:31:09,620 Järkevää? 609 00:31:09,620 --> 00:31:15,870 Joten nyt, että tein, että haluan tietää kuka on laulaja tuon laulun. 610 00:31:15,870 --> 00:31:20,130 Ja tehdä, että minun täytyy vain saada ensimmäinen osa array, eikö? 611 00:31:20,130 --> 00:31:26,390 Joten voin vain sanoa, että olen "laulaja = Line (0) "Järkevää? 612 00:31:26,390 --> 00:31:32,010 >> Ja sitten mitä minun täytyy tehdä, on aluksi kaikki, aion päivittää kuinka monta 613 00:31:32,010 --> 00:31:36,130 sanoen minulla on kohdassa "Gaga." joten olen vain aio laskea, kuinka monta sanaa I 614 00:31:36,130 --> 00:31:38,690 on tässä luettelossa, eikö? 615 00:31:38,690 --> 00:31:41,910 Koska tämä on kuinka monta sanaa minulla on vuonna sanoitukset ja olen juuri menossa 616 00:31:41,910 --> 00:31:44,120 lisää se "Gaga" array. 617 00:31:44,120 --> 00:31:47,090 Onko järkeä? 618 00:31:47,090 --> 00:31:49,010 Älä keskittyä liikaa syntaksin. 619 00:31:49,010 --> 00:31:50,430 Ajatella enemmän käsitteitä. 620 00:31:50,430 --> 00:31:52,400 Se on tärkein osa. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Joten mitä voin tehdä on, jos "Gaga" on jo tässä luettelossa, joten "jos laulaja 623 00:32:00,260 --> 00:32:03,190 lause ", joka tarkoittaa sitä, että olen jo on sanat Gaga. 624 00:32:03,190 --> 00:32:06,640 Haluan vain lisätä ylimääräisiä jotakin sen. 625 00:32:06,640 --> 00:32:15,810 Joten mitä teen on "sanoja (laulaja) + = Len (line) - 1 ". 626 00:32:15,810 --> 00:32:18,250 Ja sitten voin vain tehdä Viivan pituus. 627 00:32:18,250 --> 00:32:21,860 Joten kuinka monta elementtiä I on jono. 628 00:32:21,860 --> 00:32:27,060 Ja minun täytyy tehdä miinus 1 vain siksi ensimmäistä alkiota on vain 629 00:32:27,060 --> 00:32:29,180 laulaja ja tämä ei ole lyrics. 630 00:32:29,180 --> 00:32:31,420 Järkevää? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Else", se tarkoittaa, että haluan itse aseta Gaga listaan. 633 00:32:35,820 --> 00:32:45,990 Joten en vain "sanoja (laulaja) = Len (line) - 1, "anteeksi. 634 00:32:45,990 --> 00:32:49,200 Joten ainoa ero näiden kahden välillä linjat on, että tämä yksi, se ei ole 635 00:32:49,200 --> 00:32:51,080 vielä olemassa, joten olen vain alustamatta. 636 00:32:51,080 --> 00:32:53,820 Tämä yksi Olen oikeastaan ​​lisäämällä. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Joten tämä oli lisäämällä sanoja. 639 00:32:59,480 --> 00:33:03,040 >> Nyt haluan lisätä aiempia tuomioita. 640 00:33:03,040 --> 00:33:05,480 Joten miten voin laskea prioritodennäköisyydet? 641 00:33:05,480 --> 00:33:11,580 Prioritodennäköisyydet voidaan laskea kuinka monta kertaa. 642 00:33:11,580 --> 00:33:15,340 Joten kuinka monta kertaa näet, että laulaja joukossa kaikki laulajat, että olet 643 00:33:15,340 --> 00:33:16,380 on, eikö? 644 00:33:16,380 --> 00:33:18,810 Joten Gaga ja Katy Perry, Tässä tapauksessa näen Gaga 645 00:33:18,810 --> 00:33:20,570 kerran, Katy Perry kerran. 646 00:33:20,570 --> 00:33:23,320 >> Joten periaatteessa prioritodennäköisyydet Gaga ja Katy Perry olisi 647 00:33:23,320 --> 00:33:24,390 vain yksi, eikö? 648 00:33:24,390 --> 00:33:26,500 Sinä vain, kuinka monta kertaa Näen taiteilija. 649 00:33:26,500 --> 00:33:28,740 Joten tämä on erittäin helppo laskea. 650 00:33:28,740 --> 00:33:34,100 Voin vain jotain vastaavaa samankaltaisina ", jos laulaja aiempia tuomioita, "olen juuri menossa 651 00:33:34,100 --> 00:33:38,970 lisätä 1 niiden aiempia tuomioita ruutuun. 652 00:33:38,970 --> 00:33:51,000 Joten, "aiempia tuomioita (laulaa)" + = 1 "ja sitten" muuten " Aion tehdä "aiempia tuomioita (laulaja) 653 00:33:51,000 --> 00:33:55,000 = 1. "Järkevää? 654 00:33:55,000 --> 00:34:00,080 >> Joten jos sitä ei ole olemassa Sain laittaa kuin 1, muuten en vain lisätä 1. 655 00:34:00,080 --> 00:34:11,280 OK, joten nyt kaikki, että olen vielä tekemättä on myös lisätä kunkin sanoja 656 00:34:11,280 --> 00:34:12,290 todennäköisyyksiä. 657 00:34:12,290 --> 00:34:14,889 Joten minun täytyy laskea kuinka monta kertaa Näen jokaisen sanoja. 658 00:34:14,889 --> 00:34:18,780 Joten minun täytyy vain tehdä uuden silmukan linjaa. 659 00:34:18,780 --> 00:34:25,190 >> Niin ensimmäinen asia, että aion tehdä, on tarkistaa, jos laulaja on jo 660 00:34:25,190 --> 00:34:26,969 todennäköisyydet array. 661 00:34:26,969 --> 00:34:31,739 Joten olen tarkistaa, jos laulaja ei on todennäköisyydet array, olen vain 662 00:34:31,739 --> 00:34:34,480 menossa alustaa yksi niistä. 663 00:34:34,480 --> 00:34:36,400 Se ei ole edes array, anteeksi, se on sanakirja. 664 00:34:36,400 --> 00:34:43,080 Joten todennäköisyydet laulaja on menossa olla avoin sanakirja, joten olen 665 00:34:43,080 --> 00:34:45,830 vain alustetaan sanakirja sitä. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> Ja nyt en voi itse tehdä silmukka laskea kunkin sanat " 668 00:34:58,330 --> 00:35:00,604 todennäköisyyksiä. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Joten mitä voin tehdä on silmukka. 671 00:35:04,160 --> 00:35:06,590 Joten olen juuri menossa kerrata rivin yli. 672 00:35:06,590 --> 00:35:15,320 Niin niin, että voin tehdä, että Python on "for i in välillä." 1 673 00:35:15,320 --> 00:35:19,200 koska haluan aloittaa toisen elementti, koska ensimmäinen on 674 00:35:19,200 --> 00:35:20,260 laulaja nimi. 675 00:35:20,260 --> 00:35:24,990 Joten yhdestä asti Viivan pituus. 676 00:35:24,990 --> 00:35:29,760 Ja kun en vaihtelevat sen itse mennä alkaen kuten täällä 1 Len 677 00:35:29,760 --> 00:35:30,740 line miinus 1. 678 00:35:30,740 --> 00:35:33,810 Joten se jo tekee, että asia tehdä n miinus 1 paneelit, joka on hyvin 679 00:35:33,810 --> 00:35:35,500 kätevä. 680 00:35:35,500 --> 00:35:37,850 Järkevää? 681 00:35:37,850 --> 00:35:42,770 >> Joten kullekin näistä, mitä aion tehdä, on, aivan kuten toinen, 682 00:35:42,770 --> 00:35:50,320 Aion tarkistaa, jos sana tässä asema linja on jo 683 00:35:50,320 --> 00:35:51,570 todennäköisyyksiä. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 Ja sitten kuten sanoin täällä, todennäköisyydet sanoja, kuten laitoin 686 00:35:57,260 --> 00:35:58,400 "Todennäköisyyksiä (laulaja)". 687 00:35:58,400 --> 00:35:59,390 Joten nimi laulaja. 688 00:35:59,390 --> 00:36:03,450 Joten jos se jo "Probabilit (laulaja)", se tarkoittaa, että minun 689 00:36:03,450 --> 00:36:11,960 haluat lisätä 1 sitä, joten aion do "todennäköisyyksiä (laulaja)", ja 690 00:36:11,960 --> 00:36:14,100 sana on nimeltään "rivi (i)". 691 00:36:14,100 --> 00:36:22,630 Aion lisätä 1 ja "muu" Olen vain menossa alustaa sen 1. 692 00:36:22,630 --> 00:36:23,880 "Line (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Järkevää? 695 00:36:28,420 --> 00:36:30,180 >> Joten, olen laskenut kaikki ryhmät. 696 00:36:30,180 --> 00:36:36,580 Joten nyt kaikki, että minun täytyy tehdä tämä on vain "palata aiempia tuomioita, 697 00:36:36,580 --> 00:36:43,230 todennäköisyydet ja sanat. "Mennään onko olemassa mitään, OK. 698 00:36:43,230 --> 00:36:45,690 Näyttää siltä, ​​kaikki toimii toistaiseksi. 699 00:36:45,690 --> 00:36:46,900 Niin, että on järkevää? 700 00:36:46,900 --> 00:36:47,750 Jollain tavalla? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Joten nyt minulla on kaikki todennäköisyydet. 703 00:36:51,980 --> 00:36:55,100 Joten nyt ainoa asia mitä on jäljellä on vain on, että asia, joka 704 00:36:55,100 --> 00:36:58,650 laskee tuotteen kaikkien todennäköisyydet kun saan lyrics. 705 00:36:58,650 --> 00:37:06,270 >> Joten haluan sanoa, että haluan nyt soittaa tämä toiminto "luokitella ()" ja 706 00:37:06,270 --> 00:37:08,880 asia, että toiminto vie on vain väite. 707 00:37:08,880 --> 00:37:13,170 Sanotaan "Baby, olen tulessa" ja se on menossa selvittää, mitä on 708 00:37:13,170 --> 00:37:14,490 Todennäköisyys, että tämä on Gaga? 709 00:37:14,490 --> 00:37:16,405 Mikä on todennäköisyys, , että tämä on Katie? 710 00:37:16,405 --> 00:37:19,690 Kuulostaako hyvältä? 711 00:37:19,690 --> 00:37:25,750 Joten olen juuri menossa on luotava uusi toiminto nimeltään "luokitella ()" ja 712 00:37:25,750 --> 00:37:29,180 se vie jonkin verran lyrics samoin. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 Ja sitä paitsi lyrics Olen myös täytyy lähettää aiempia tuomioita, 715 00:37:36,160 --> 00:37:37,700 todennäköisyydet ja sanoja. 716 00:37:37,700 --> 00:37:44,000 Joten aion lähettää lyrics, aiempia tuomioita, todennäköisyyksiä, sanoja. 717 00:37:44,000 --> 00:37:51,840 >> Joten tämä on ryhtynyt lyrics, aiempia tuomioita, todennäköisyyksiä, sanoja. 718 00:37:51,840 --> 00:37:53,530 Joten, mitä se tekee? 719 00:37:53,530 --> 00:37:57,180 Se pohjimmiltaan on menossa läpi kaikki mahdollista ehdokkaista 720 00:37:57,180 --> 00:37:58,510 on laulajana. 721 00:37:58,510 --> 00:37:59,425 Ja missä ovat ne ehdokkaat? 722 00:37:59,425 --> 00:38:01,020 He ovat prioritodennäköisyydet, eikö? 723 00:38:01,020 --> 00:38:02,710 Joten minulla on kaikki nämä siellä. 724 00:38:02,710 --> 00:38:07,870 Joten aion olla sanakirja kaikista mahdollisista ehdokkaista. 725 00:38:07,870 --> 00:38:14,220 Ja sitten kunkin ehdokkaan aiempia tuomioita, niin se tarkoittaa, että se tulee 726 00:38:14,220 --> 00:38:17,740 olla Gaga, Katie jos olisin Enemmän se olisi enemmän. 727 00:38:17,740 --> 00:38:20,410 Aion alkaa mitata Tämän todennäköisyyden. 728 00:38:20,410 --> 00:38:28,310 Todennäköisyys kuten näimme PowerPoint on ennen kertaa 729 00:38:28,310 --> 00:38:30,800 tuotteen kunkin muut todennäköisyydet. 730 00:38:30,800 --> 00:38:32,520 >> Joten en voi tehdä saman täällä. 731 00:38:32,520 --> 00:38:36,330 Voin vain tehdä todennäköisyys on aluksi juuri ennen. 732 00:38:36,330 --> 00:38:40,340 Joten rikosrekisteri ehdokas. 733 00:38:40,340 --> 00:38:40,870 Oikea? 734 00:38:40,870 --> 00:38:45,360 Ja nyt minun täytyy kerrata kaikkia sanoja, jotka minulla on lyrics olla 735 00:38:45,360 --> 00:38:48,820 voi lisätä todennäköisyyttä kullekin niistä, OK? 736 00:38:48,820 --> 00:38:57,900 Joten, "sanaan lyrics" mitä aion vain, jos sana on 737 00:38:57,900 --> 00:39:01,640 "Todennäköisyyksiä (ehdokas)", joka tarkoittaa, että se on sana, joka 738 00:39:01,640 --> 00:39:03,640 ehdokas on niiden lyrics - 739 00:39:03,640 --> 00:39:05,940 esimerkiksi "vauva" Gaga - 740 00:39:05,940 --> 00:39:11,710 mitä aion tehdä, on, että todennäköisyys on menossa kerrottava 741 00:39:11,710 --> 00:39:22,420 1 plus todennäköisyydet ehdokas, joka sana. 742 00:39:22,420 --> 00:39:25,710 Ja sitä kutsutaan "sana". 743 00:39:25,710 --> 00:39:32,440 Tämä jaettuna sanojen määrä että minulla on, että ehdokas. 744 00:39:32,440 --> 00:39:37,450 Kokonaismäärä sanoja, jotka minulla on laulaja, että minä katson. 745 00:39:37,450 --> 00:39:40,290 >> "Else". se tarkoittaa että se on uusi sana niin se olisi kuin esimerkiksi 746 00:39:40,290 --> 00:39:41,860 "Fire" Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Joten haluan vain tehdä 1 yli "Sana (ehdokas)". 748 00:39:45,760 --> 00:39:47,710 Joten en halua laittaa tähän termi tässä. 749 00:39:47,710 --> 00:39:50,010 >> Joten se tulee olemaan periaatteessa kopioimalla tämän. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Mutta aion poistaa tämän osan. 752 00:39:56,000 --> 00:39:57,610 Niin se vain olemaan 1 tuosta. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Kuulostaako hyvältä? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 Ja nyt lopussa, olen juuri menossa tulostaa nimi ehdokas ja 757 00:40:09,700 --> 00:40:15,750 todennäköisyys, että sinulla on ottaa S niiden sanoitukset. 758 00:40:15,750 --> 00:40:16,200 Järkevää? 759 00:40:16,200 --> 00:40:18,390 Ja minä itse ei edes Tarvitsen tätä sanakirja. 760 00:40:18,390 --> 00:40:19,510 Järkevää? 761 00:40:19,510 --> 00:40:21,810 >> Joten katsotaanpas, jos tämä todella toimii. 762 00:40:21,810 --> 00:40:24,880 Joten jos juoksen tämän, se ei toimi. 763 00:40:24,880 --> 00:40:26,130 Odota sekunti. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Sanat (ehdokas)", "sanat (ehdokas)", se on 766 00:40:31,720 --> 00:40:33,750 nimen array. 767 00:40:33,750 --> 00:40:41,435 OK Niin, se sanoo, että on joitakin bug varten ehdokas aiempia tuomioita. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Haluan vain rentoutua hieman. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Kokeillaan. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Joten se antaa Katy Perry on tämä todennäköisyys tämän kertaa 10 774 00:40:58,710 --> 00:41:02,200 miinus 7, ja Gaga on tämä kertaa 10 miinus 6. 775 00:41:02,200 --> 00:41:05,610 Niin näet se osoittaa, että Gaga on suurempi todennäköisyys. 776 00:41:05,610 --> 00:41:09,260 Joten "Baby, olen Fire" on luultavasti Gaga laulu. 777 00:41:09,260 --> 00:41:10,580 Järkevää? 778 00:41:10,580 --> 00:41:12,030 Joten tämä on mitä me teimme. 779 00:41:12,030 --> 00:41:16,010 >> Tämä koodi tulee olemaan julkaistaan ​​verkossa, joten te voi tarkistaa sen. 780 00:41:16,010 --> 00:41:20,720 Ehkä käyttää joitakin sitä, jos haluat tehdä hankkeen tai jotain vastaavaa. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 Tämä oli vain osoittaa mitä laskennallisia 783 00:41:25,930 --> 00:41:27,230 kielitiede koodi näyttää. 784 00:41:27,230 --> 00:41:33,040 Mutta nyt mennään enemmän korkean tason kamaa. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Joten muita ongelmia I puhui - 787 00:41:35,150 --> 00:41:37,550 segmentointi ongelma on ensimmäinen niistä. 788 00:41:37,550 --> 00:41:40,820 Joten olet täällä Japani. 789 00:41:40,820 --> 00:41:43,420 Ja sitten näet, että ei ole välilyöntejä. 790 00:41:43,420 --> 00:41:49,110 Joten tämä on periaatteessa sitä, että se on yläosassa tuoli, eikö? 791 00:41:49,110 --> 00:41:50,550 Puhutko Japani? 792 00:41:50,550 --> 00:41:52,840 Se on yläosassa tuoli, eikö? 793 00:41:52,840 --> 00:41:54,480 >> Opiskelija: En tiedä mitä kanji tuolla on. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS: Se [puhutaan JAPANIN] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Joten se tarkoittaa periaatteessa puheenjohtajana alkuun. 797 00:42:00,960 --> 00:42:03,620 Joten jos sinulla on ollut laittaa tilaa se olisi täällä. 798 00:42:03,620 --> 00:42:05,970 Ja sitten on [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Mikä tarkoittaa periaatteessa sitä Mr. Ueda. 800 00:42:09,040 --> 00:42:13,180 Ja näet, että "Ueda" ja olet tilaa ja sitten "san." Niin näet, että 801 00:42:13,180 --> 00:42:15,470 täällä on "UE" on kuin itsestään. 802 00:42:15,470 --> 00:42:17,750 Ja tässä se on luonteeltaan sen vieressä. 803 00:42:17,750 --> 00:42:21,720 >> Joten se ei ole kuin näissä kielissä merkkiä eli sanan niin sinun 804 00:42:21,720 --> 00:42:23,980 vain laittaa paljon tiloja. 805 00:42:23,980 --> 00:42:25,500 Hahmot toisiinsa. 806 00:42:25,500 --> 00:42:28,680 Ja ne voivat olla yhdessä kuten kaksi, kolme, yksi. 807 00:42:28,680 --> 00:42:34,520 Joten sinulla todella on luoda jonkinlainen on tapa toteuttaa näitä tiloja. 808 00:42:34,520 --> 00:42:38,850 >> Ja tämä asia on, että jos saat tietoja näistä Aasian kieliä, 809 00:42:38,850 --> 00:42:40,580 kaikki tulee unsegmented. 810 00:42:40,580 --> 00:42:45,940 Koska kukaan joka kirjoittaa japanilainen tai kiinalaisen kirjoittaa välilyönneillä. 811 00:42:45,940 --> 00:42:48,200 Aina olet kirjoittamassa kiina, Japani voit vain kirjoittaa kaiken 812 00:42:48,200 --> 00:42:48,710 ilman välilyöntejä. 813 00:42:48,710 --> 00:42:52,060 Se ei ole järkevää laittaa tiloihin. 814 00:42:52,060 --> 00:42:57,960 Joten sitten kun saat tietoja, joidenkin Itä-Aasian kieltä, jos haluat 815 00:42:57,960 --> 00:43:00,760 itse tehdä jotain, että sinun täytyy ensimmäisenä luokassaan. 816 00:43:00,760 --> 00:43:05,130 >> Ajatella tehdä esimerkki lyrics ilman välilyöntejä. 817 00:43:05,130 --> 00:43:07,950 Joten vain sanoja, jotka olet on lauseita, eikö? 818 00:43:07,950 --> 00:43:09,470 Erotetaan pisteillä. 819 00:43:09,470 --> 00:43:13,930 Mutta sitten ottaa vain lause ei todella auttaa tietojen antamisesta 820 00:43:13,930 --> 00:43:17,760 keitä nämä sanoitukset ovat vuoteen. 821 00:43:17,760 --> 00:43:18,120 Oikea? 822 00:43:18,120 --> 00:43:20,010 Joten sinun tulisi asettaa tilat ensin. 823 00:43:20,010 --> 00:43:21,990 Joten miten voit tehdä sen? 824 00:43:21,990 --> 00:43:24,920 >> Niin sitten tulee ajatus kielen malli, joka on jotain todella 825 00:43:24,920 --> 00:43:26,870 tärkeää laskennallisen kielitiede. 826 00:43:26,870 --> 00:43:32,790 Niin kielen malli on periaatteessa taulukko todennäköisyydet joka osoittaa 827 00:43:32,790 --> 00:43:36,260 ensinnäkin mikä on todennäköisyys ottaa sana kielellä? 828 00:43:36,260 --> 00:43:39,590 Joten siitä, kuinka usein sana on. 829 00:43:39,590 --> 00:43:43,130 Ja sitten myös esittää riippuvuutta sanojen lauseessa. 830 00:43:43,130 --> 00:43:51,500 >> Joten tärkein ajatus on, jos muukalainen tuli teille ja sanoi lause 831 00:43:51,500 --> 00:43:55,600 teille, mikä on todennäköisyys, että Esimerkiksi "tämä on minun sisko [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 oli lause, että henkilö sanoi? 833 00:43:57,480 --> 00:44:00,380 Joten ilmeisesti jotkut lauseet ovat yleisempiä kuin toiset. 834 00:44:00,380 --> 00:44:04,450 Esimerkiksi "hyvää huomenta" tai "hyvä yö "tai" Hei ", on paljon enemmän 835 00:44:04,450 --> 00:44:08,260 yhteistä kuin useimmat lauseita että meillä on Englanti. 836 00:44:08,260 --> 00:44:11,060 Joten miksi nämä lauseet useammin? 837 00:44:11,060 --> 00:44:14,060 >> Ensinnäkin, se johtuu olet sanoja, jotka ovat useammin. 838 00:44:14,060 --> 00:44:20,180 Niinpä esimerkiksi, jos sanot, koira on iso, ja koira on jättimäinen, sinun 839 00:44:20,180 --> 00:44:23,880 yleensä luultavasti kuulla koira on iso useammin, koska "iso" on enemmän 840 00:44:23,880 --> 00:44:27,260 yleisiä Englanti kuin "jättimäinen." Niin, yksi 841 00:44:27,260 --> 00:44:30,100 asioita on sana taajuus. 842 00:44:30,100 --> 00:44:34,490 >> Toinen asia, joka on todella tärkeää on vain 843 00:44:34,490 --> 00:44:35,490 sanojen järjestys. 844 00:44:35,490 --> 00:44:39,500 Niin, se on yhteinen sanoa "kissa on laatikon sisällä. ", mutta et yleensä 845 00:44:39,500 --> 00:44:44,250 nähdä "ruudun sisällä on kissa." niin voit nähdä, että siellä on jonkin verran merkitystä 846 00:44:44,250 --> 00:44:46,030 järjestyksessä sanoja. 847 00:44:46,030 --> 00:44:50,160 Et voi vain sanoa, että nämä kaksi lauseilla on sama todennäköisyys 848 00:44:50,160 --> 00:44:53,010 vain koska he ovat samoja sanoja. 849 00:44:53,010 --> 00:44:55,550 Et oikeastaan ​​tarvitse huolehtia noin järjestys samoin. 850 00:44:55,550 --> 00:44:57,650 Järkeä? 851 00:44:57,650 --> 00:44:59,490 >> Joten mitä me teemme? 852 00:44:59,490 --> 00:45:01,550 Joten mitä voisin yrittää saada sinut? 853 00:45:01,550 --> 00:45:04,400 Yritän saada mitä me soita n gramman malleja. 854 00:45:04,400 --> 00:45:09,095 Joten n gramman mallien periaatteessa olettaa että jokaista sanaa, että 855 00:45:09,095 --> 00:45:10,960 sinulla on lause. 856 00:45:10,960 --> 00:45:15,020 Se todennäköisyys, että että sana ei riipu ainoastaan 857 00:45:15,020 --> 00:45:18,395 taajuus, että sana kielellä, vaan myös sanoja, jotka 858 00:45:18,395 --> 00:45:19,860 ympäröivät sitä. 859 00:45:19,860 --> 00:45:25,810 >> Niinpä esimerkiksi, yleensä kun näet jotain on tai olet 860 00:45:25,810 --> 00:45:28,040 luultavasti menossa katsomaan substantiivi sen jälkeen, eikö? 861 00:45:28,040 --> 00:45:31,750 Koska kun on prepositio Yleensä se kestää substantiivi jälkeen. 862 00:45:31,750 --> 00:45:35,540 Tai jos sinulla on verbi, joka on transitiivinen et yleensä menossa 863 00:45:35,540 --> 00:45:36,630 on substantiivi lause. 864 00:45:36,630 --> 00:45:38,780 Niin se tulee olla substantiivi jonnekin ympärille. 865 00:45:38,780 --> 00:45:44,950 >> Joten periaatteessa, mitä se on, että se katsoo, todennäköisyys, että 866 00:45:44,950 --> 00:45:47,960 sanoja vierekkäin, kun olet laskettaessa 867 00:45:47,960 --> 00:45:49,050 todennäköisyys lauseen. 868 00:45:49,050 --> 00:45:50,960 Ja sitähän kieli malli on periaatteessa. 869 00:45:50,960 --> 00:45:54,620 Vain sanoa mitä todennäköisyys ottaa tietyn 870 00:45:54,620 --> 00:45:57,120 lause kielellä? 871 00:45:57,120 --> 00:45:59,110 Joten miksi se on hyödyllistä, pohjimmiltaan? 872 00:45:59,110 --> 00:46:02,390 Ja ennen kaikkea, mikä on n gramman malli sitten? 873 00:46:02,390 --> 00:46:08,850 >> Joten n gramman malli tarkoittaa sitä, että jokaisen sanan riippuu 874 00:46:08,850 --> 00:46:12,700 Seuraavan N miinus 1 sanaa. 875 00:46:12,700 --> 00:46:18,150 Joten periaatteessa, se tarkoittaa, että jos katson, esimerkiksi kello CS50 TF, kun 876 00:46:18,150 --> 00:46:21,500 Olen laskettaessa todennäköisyys lause, voit olla kuten " 877 00:46:21,500 --> 00:46:25,280 todennäköisyys ottaa sanan "" kertaa todennäköisyys ottaa " 878 00:46:25,280 --> 00:46:31,720 CS50 "kertaa todennäköisyys, että "CS50 TF." Joten periaatteessa, luen 879 00:46:31,720 --> 00:46:35,720 kaikki mahdolliset keinot veny. 880 00:46:35,720 --> 00:46:41,870 >> Ja sitten yleensä kun teet tämän, kuten projekti, laitat N olla 881 00:46:41,870 --> 00:46:42,600 alhainen arvo. 882 00:46:42,600 --> 00:46:45,930 Niin, yleensä bigrams tai trigrams. 883 00:46:45,930 --> 00:46:51,090 Niin että voit vain laskea kaksi sanaa, ryhmä kaksi sanaa, tai kolme sanaa, 884 00:46:51,090 --> 00:46:52,620 vain suorituskykyyn liittyviä ongelmia. 885 00:46:52,620 --> 00:46:56,395 Ja myös siksi ehkä jos sinulla on jotain "CS50 TF." Kun 886 00:46:56,395 --> 00:47:00,510 on "TF", on erittäin tärkeää, että "CS50" on vieressä, eikö? 887 00:47:00,510 --> 00:47:04,050 Nämä kaksi asiaa ovat yleensä vierekkäin. 888 00:47:04,050 --> 00:47:06,410 >> Jos ajattelet "TF", se on luultavasti menossa on mitä 889 00:47:06,410 --> 00:47:07,890 class se TF'ing varten. 890 00:47:07,890 --> 00:47:11,330 Myös "" on todella tärkeää varten CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Mutta jos sinulla on jotain "CS50 TF meni luokkaan ja antoivat 892 00:47:14,570 --> 00:47:20,060 opiskelijat karkkia. "" Candy "ja" " ei ole mitään yhteyttä oikeasti, eikö? 893 00:47:20,060 --> 00:47:23,670 Ne ovat niin kaukana toisistaan, että se ei ole oikeastaan ​​väliä, mitä 894 00:47:23,670 --> 00:47:25,050 sanoja olet. 895 00:47:25,050 --> 00:47:31,210 >> Niin tekemällä kaksikieliopillisesta tai trigram, se vain tarkoittaa, että olet rajoittamalla 896 00:47:31,210 --> 00:47:33,430 itse joitakin sanoja jotka ovat noin. 897 00:47:33,430 --> 00:47:35,810 Järkeä? 898 00:47:35,810 --> 00:47:40,630 Joten kun haluat tehdä segmentointi, pohjimmiltaan, mitä haluat tehdä, on nähdä 899 00:47:40,630 --> 00:47:44,850 mitkä ovat kaikki mahdollisia tapoja, joilla voit segmentin lause. 900 00:47:44,850 --> 00:47:49,090 >> Niin että näet mitä on todennäköisyys jokainen näistä lauseita 901 00:47:49,090 --> 00:47:50,880 olemassa kielellä? 902 00:47:50,880 --> 00:47:53,410 Joten mitä teet on kuin, no, Yritän laittaa tilaa täällä. 903 00:47:53,410 --> 00:47:55,570 Joten voit laittaa tilaa siellä ja näet mitä on 904 00:47:55,570 --> 00:47:57,590 todennäköisyys että lause? 905 00:47:57,590 --> 00:48:00,240 Sitten olet kuten, OK, ehkä joka ei ollut niin hyvä. 906 00:48:00,240 --> 00:48:03,420 Joten laitoin tilaa siellä ja tilaa siellä, ja voit laskea 907 00:48:03,420 --> 00:48:06,240 todennäköisyys nyt, ja näet, että se on suurempi todennäköisyys. 908 00:48:06,240 --> 00:48:12,160 >> Joten tämä on algoritmi nimeltään TANGO segmentointi algoritmi, joka on 909 00:48:12,160 --> 00:48:14,990 todella jotain, että olisi todella jäähtyä projekti, joka 910 00:48:14,990 --> 00:48:20,860 pohjimmiltaan vie unsegmented tekstistä, joka voi olla Japanin tai Kiinan tai ehkä 911 00:48:20,860 --> 00:48:26,080 Englanti ilman välilyöntejä ja yrittää sijoittaa välilyönnit sanojen ja se tekee 912 00:48:26,080 --> 00:48:29,120 että käyttämällä kielen mallin ja yrittää nähdä, mikä on korkein 913 00:48:29,120 --> 00:48:31,270 todennäköisyys saat. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Joten tämä on segmentointi. 916 00:48:33,800 --> 00:48:35,450 >> Nyt syntaksin. 917 00:48:35,450 --> 00:48:40,940 Joten, syntaksia käytetään niin monia asioita juuri nyt. 918 00:48:40,940 --> 00:48:44,880 Joten Graph haun, Siri melko paljon kaikenlaista luonnon 919 00:48:44,880 --> 00:48:46,490 kielen käsittelyyn olet. 920 00:48:46,490 --> 00:48:49,140 Niin mitkä ovat tärkeitä asioita syntaksi? 921 00:48:49,140 --> 00:48:52,390 Joten, lauseita on yleensä mitä kutsumme ainesosia. 922 00:48:52,390 --> 00:48:57,080 Jotka ovat ikään kuin sanaryhmien , joilla on tehtävä lauseessa. 923 00:48:57,080 --> 00:49:02,220 Ja he eivät voi todella olla päässä toisistaan. 924 00:49:02,220 --> 00:49:07,380 >> Joten, jos sanon, esimerkiksi "Lauren rakastaa Milo. "Tiedän, että" Lauren "on 925 00:49:07,380 --> 00:49:10,180 osatekijä ja sitten "rakastaa Milo "on myös toinen. 926 00:49:10,180 --> 00:49:16,860 Koska et voi sanoa kuin "Lauren Milo rakastaa "on sama merkitys. 927 00:49:16,860 --> 00:49:18,020 Se ei tule olla sama merkitys. 928 00:49:18,020 --> 00:49:22,500 Tai en voi sanoa kuin "Milo Lauren rakastaa. "Kaiken ei sama 929 00:49:22,500 --> 00:49:25,890 eli näin. 930 00:49:25,890 --> 00:49:31,940 >> Joten kaksi tärkeämpää asioita syntaksin ovat leksikaalisen tyyppejä, joilla on 931 00:49:31,940 --> 00:49:35,390 pohjimmiltaan toimintoon ovat sanoja itse. 932 00:49:35,390 --> 00:49:39,180 Joten sinun täytyy tietää, että "Lauren" ja "Milo" ovat substantiiveja. 933 00:49:39,180 --> 00:49:41,040 "Rakkaus" on verbi. 934 00:49:41,040 --> 00:49:45,660 Ja toinen tärkeä asia on että he phrasal tyyppejä. 935 00:49:45,660 --> 00:49:48,990 Niin tiedät, että "rakastaa Milo" on todella sanallinen lause. 936 00:49:48,990 --> 00:49:52,390 Joten kun sanon "Lauren," Tiedän, että Lauren tekee jotain. 937 00:49:52,390 --> 00:49:53,620 Mitä hän tekee? 938 00:49:53,620 --> 00:49:54,570 Hän rakastava Milo. 939 00:49:54,570 --> 00:49:56,440 Joten se on koko juttu. 940 00:49:56,440 --> 00:50:01,640 Mutta sen komponenttien substantiivi ja verbi. 941 00:50:01,640 --> 00:50:04,210 Mutta yhdessä ne tekevät verbilausekkeen. 942 00:50:04,210 --> 00:50:08,680 >> Joten, mitä voimme itse tehdä kanssa laskennallinen kielitiede? 943 00:50:08,680 --> 00:50:13,810 Joten, jos minulla on jotain esimerkiksi "Ystävät Allison." Näen jos vain 944 00:50:13,810 --> 00:50:17,440 ei syntaktinen puu tietäisin, että "Ystävät" on substantiivi lause se on 945 00:50:17,440 --> 00:50:21,480 substantiivi ja sitten "Allison" on prepositio lause, jossa "on" on 946 00:50:21,480 --> 00:50:24,810 ehdotus ja "Allison" on substantiivi. 947 00:50:24,810 --> 00:50:30,910 Mitä voisin tehdä on opettaa tietokone että kun minulla on substantiivi lause yksi ja 948 00:50:30,910 --> 00:50:33,080 sitten prepositio lause. 949 00:50:33,080 --> 00:50:39,020 Joten tässä tapauksessa, "ystävät" ja sitten "ja Milo "Tiedän, että tämä tarkoittaa, että 950 00:50:39,020 --> 00:50:43,110 NP2, toinen omistaa NP1. 951 00:50:43,110 --> 00:50:47,680 >> Joten en voi luoda jonkinlainen suhde, jonkinlainen toiminto sitä. 952 00:50:47,680 --> 00:50:52,370 Joten aina kun näen tätä rakennetta, jonka vastaa täsmälleen kanssa "ystäviä 953 00:50:52,370 --> 00:50:56,030 Allison, "Tiedän, että Allison omistaa ystäviä. 954 00:50:56,030 --> 00:50:58,830 Joten ystävät ovat jotain että Allison on. 955 00:50:58,830 --> 00:50:59,610 Järkevää? 956 00:50:59,610 --> 00:51:01,770 Joten tämä on pohjimmiltaan Kuvaaja Haku ei. 957 00:51:01,770 --> 00:51:04,360 Se vain luo säännöt On paljon asioita. 958 00:51:04,360 --> 00:51:08,190 Niin "ystävät Allison", "ystäväni jotka elävät Cambridge "," ystäväni 959 00:51:08,190 --> 00:51:12,970 jotka menevät Harvardiin. "Se luo säännöt sillä kaikki nuo asiat. 960 00:51:12,970 --> 00:51:14,930 >> Nyt machine translation. 961 00:51:14,930 --> 00:51:18,850 Joten, kone käännös on myös jotain tilastollista. 962 00:51:18,850 --> 00:51:21,340 Ja itse jos saat mukana laskennallinen kielitiede, paljon 963 00:51:21,340 --> 00:51:23,580 teidän juttuja tulee olemaan tilastoja. 964 00:51:23,580 --> 00:51:26,670 Niin kuin olin tekemässä esimerkiksi paljon todennäköisyyksien että olin 965 00:51:26,670 --> 00:51:30,540 laskettaessa, ja sitten saat tähän hyvin pieni määrä, joka on lopullinen 966 00:51:30,540 --> 00:51:33,180 todennäköisyys, ja sitähän antaa sinulle vastauksen. 967 00:51:33,180 --> 00:51:37,540 Machine translation käyttää myös tilastollinen malli. 968 00:51:37,540 --> 00:51:44,790 Ja jos haluat ajatella koneen käännös mahdollisimman yksinkertaisella 969 00:51:44,790 --> 00:51:48,970 Muuten, mitä voit ajatella on vain kääntää sana sanalta, eikö? 970 00:51:48,970 --> 00:51:52,150 >> Kun opettelet kielen ensimmäistä kertaa, se on yleensä mitä 971 00:51:52,150 --> 00:51:52,910 teet, eikö? 972 00:51:52,910 --> 00:51:57,050 Jos haluat kääntää lause oman käytetyn kielen 973 00:51:57,050 --> 00:52:00,060 opettelet, yleensä ensin sinun kääntämään jokaisen sanan 974 00:52:00,060 --> 00:52:03,180 yksilöllisesti, ja yrität sitten laittaa sanat paikalleen. 975 00:52:03,180 --> 00:52:07,100 >> Joten jos halusin kääntää tämän, [Portugaliksi] 976 00:52:07,100 --> 00:52:10,430 joka tarkoittaa "valkoinen kissa juoksi pois." Jos haluaisin kääntää sen 977 00:52:10,430 --> 00:52:13,650 Portugali ja Englanti, mitä voi tehdä on, ensin, minä vain 978 00:52:13,650 --> 00:52:14,800 kääntää sanasta sanaan. 979 00:52:14,800 --> 00:52:20,570 Joten "o" on "," "Gato", "kissa" "Branco", "valkoinen" ja sitten "fugio" on 980 00:52:20,570 --> 00:52:21,650 "Juoksi pois." 981 00:52:21,650 --> 00:52:26,130 >> Niin sitten minulla on kaikki sanat täällä, mutta he eivät ole järjestyksessä. 982 00:52:26,130 --> 00:52:29,590 Se on kuin "kissa valkoinen karkasi" joka on ungrammatical. 983 00:52:29,590 --> 00:52:34,490 Joten, voin olla toinen vaihe, joka aiotaan löytää ihanteellinen 984 00:52:34,490 --> 00:52:36,610 sijoitetaan kunkin sanoja. 985 00:52:36,610 --> 00:52:40,240 Joten tiedän, että olen itse haluavat olla "Valkoinen kissa" eikä "kissa valkoinen." Niin 986 00:52:40,240 --> 00:52:46,050 mitä voin tehdä on, kaikkein naiivi menetelmä olisi luoda kaikille 987 00:52:46,050 --> 00:52:49,720 mahdollista permutaatiot sanoen kantoja. 988 00:52:49,720 --> 00:52:53,300 Ja sitten nähdä, mikä on suurin todennäköisyys mukaan 989 00:52:53,300 --> 00:52:54,970 minun kielen malli. 990 00:52:54,970 --> 00:52:58,390 Ja sitten kun löydän yksi, joka on suurin todennäköisyys siihen, mikä on 991 00:52:58,390 --> 00:53:01,910 luultavasti "valkoinen kissa karkasi" se on minun käännös. 992 00:53:01,910 --> 00:53:06,710 >> Ja tämä on yksinkertainen tapa selittää kuinka paljon machine translation 993 00:53:06,710 --> 00:53:07,910 algoritmit. 994 00:53:07,910 --> 00:53:08,920 Onko järkeä? 995 00:53:08,920 --> 00:53:12,735 Tämä on myös jotain todella jännittävää että te voi ehkä etsintään 996 00:53:12,735 --> 00:53:13,901 opinnäytetyö, joo? 997 00:53:13,901 --> 00:53:15,549 >> Opiskelija: No, sanoit se oli naiivi tapa, niin mitä 998 00:53:15,549 --> 00:53:17,200 ei-naiivi tavalla? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS: ei-naiivi tavalla? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Joten ensimmäinen asia, joka on paha mieli tämä menetelmä on, että olen juuri kääntänyt 1002 00:53:22,860 --> 00:53:24,330 sanoja, sana sanalta. 1003 00:53:24,330 --> 00:53:30,570 Mutta joskus on sanoja, jotka voi olla useita käännöksiä. 1004 00:53:30,570 --> 00:53:32,210 Aion yrittää ajatella jotain. 1005 00:53:32,210 --> 00:53:37,270 Esimerkiksi "manga" portugaliksi voi joko "mankeli" tai "hihassa." Niin 1006 00:53:37,270 --> 00:53:40,450 kun yrität kääntää sana sanan, se saattaa antaa sinulle 1007 00:53:40,450 --> 00:53:42,050 jotain, joka ei ole mitään järkeä. 1008 00:53:42,050 --> 00:53:45,770 >> Joten te todella haluavat tarkastellaan kaikkia mahdolliset käännökset 1009 00:53:45,770 --> 00:53:49,840 sanoja ja nähdä, ensinnäkin, mikä on järjestys. 1010 00:53:49,840 --> 00:53:52,000 Puhuimme permutoidaan asioita? 1011 00:53:52,000 --> 00:53:54,150 Jos haluat nähdä kaikki mahdolliset tilausten ja Valitse yksi eniten 1012 00:53:54,150 --> 00:53:54,990 todennäköisyys? 1013 00:53:54,990 --> 00:53:57,860 Voit myös valita kaikki mahdolliset käännöksiä jokaiselle 1014 00:53:57,860 --> 00:54:00,510 sana ja katso sitten - 1015 00:54:00,510 --> 00:54:01,950 yhdistettynä permutaatiot - 1016 00:54:01,950 --> 00:54:03,710 kumpi on suurin todennäköisyys. 1017 00:54:03,710 --> 00:54:08,590 >> Plus, voit myös katsoa ole vain sanoja, mutta lauseita. 1018 00:54:08,590 --> 00:54:11,700 joten voit analysoida suhteita sanat ja sitten saada 1019 00:54:11,700 --> 00:54:13,210 parempaa käännöstä. 1020 00:54:13,210 --> 00:54:16,690 Myös jotain muuta, joten tämä lukukausi Olen oikeastaan ​​tekemässä tutkimusta 1021 00:54:16,690 --> 00:54:19,430 Kiina-Englanti kone käännös, niin kääntämiseen 1022 00:54:19,430 --> 00:54:20,940 Kiinasta Englanti. 1023 00:54:20,940 --> 00:54:26,760 >> Ja mitä teemme on paitsi käyttäen tilastollinen malli, joka on vain 1024 00:54:26,760 --> 00:54:30,570 nähdä todennäköisyydet nähdä Joissakin asema lauseen, olen 1025 00:54:30,570 --> 00:54:35,360 oikeastaan ​​myös lisäämällä joitakin syntaksin minun malli, sanoen, oh, jos näen tällaista 1026 00:54:35,360 --> 00:54:39,420 rakentamisen, tämä on mitä haluan muuttaa sen kun kääntää. 1027 00:54:39,420 --> 00:54:43,880 Joten voit myös lisätä jonkinlainen osa syntaksin tehdä 1028 00:54:43,880 --> 00:54:47,970 käännös tehokkaampi ja tarkempi. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Joten miten voit päästä alkuun, jos haluat tehdä jotain laskennallisen 1031 00:54:51,010 --> 00:54:51,980 kielitiede? 1032 00:54:51,980 --> 00:54:54,560 >> Ensin valitset projektin , johon kielellä. 1033 00:54:54,560 --> 00:54:56,310 Joten, siellä on niin paljon siellä. 1034 00:54:56,310 --> 00:54:58,420 On niin monia asioita voi tehdä. 1035 00:54:58,420 --> 00:55:00,510 Ja sitten voi ajatella mallin joita voit käyttää. 1036 00:55:00,510 --> 00:55:04,710 Yleensä se ajattelu oletukset, kuten kuten, oh, kun olin 1037 00:55:04,710 --> 00:55:05,770 kuten ajattelu lyrics. 1038 00:55:05,770 --> 00:55:09,510 Olin kuin hyvin, jos haluan selvittää ulos joka kirjoitti tämän, en luultavasti halua 1039 00:55:09,510 --> 00:55:15,400 katsomaan sanoja henkilöstä ja kuka käyttää sitä sanaa kovin usein. 1040 00:55:15,400 --> 00:55:18,470 Joten yritä tehdä oletuksia ja yritä ajatella malleja. 1041 00:55:18,470 --> 00:55:21,395 Ja sitten voit myös hakea verkosta sellainen ongelma, että sinulla on, 1042 00:55:21,395 --> 00:55:24,260 ja se tulee ehdottaa teille malleja, jotka ehkä 1043 00:55:24,260 --> 00:55:26,560 mallinnettu että asia hyvin. 1044 00:55:26,560 --> 00:55:29,080 >> Ja myös voit aina sähköpostitse minulle. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 Ja voin vain vastata kysymyksiisi. 1047 00:55:34,940 --> 00:55:38,600 Voimme jopa ehkä tavata niin voin antaa ehdotuksia keinoista 1048 00:55:38,600 --> 00:55:41,490 hankkeen toteutuksen aikana. 1049 00:55:41,490 --> 00:55:45,610 Ja tarkoitan jos saat mukana laskennallinen kielitiede, se tulee 1050 00:55:45,610 --> 00:55:46,790 olla suuri. 1051 00:55:46,790 --> 00:55:48,370 Olet menossa nähdä siellä on niin paljon potentiaalia. 1052 00:55:48,370 --> 00:55:52,060 Ja teollisuus haluaa palkata olet niin huono takia. 1053 00:55:52,060 --> 00:55:54,720 Joten toivon te nauttinut tätä. 1054 00:55:54,720 --> 00:55:57,030 Jos teillä mitään kysymyksiä, voit kysyä minulta tämän jälkeen. 1055 00:55:57,030 --> 00:55:58,280 Mutta kiitos. 1056 00:55:58,280 --> 00:56:00,150