1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS: Hej. 3 00:00:08,870 --> 00:00:09,980 Witam wszystkich. 4 00:00:09,980 --> 00:00:11,216 Nazywam się Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Jestem młodszy w [niesłyszalne] studia informatyka z naciskiem na 6 00:00:15,220 --> 00:00:16,410 lingwistyki komputerowej. 7 00:00:16,410 --> 00:00:19,310 Tak jest w moim języku wtórny i teorii lingwistycznej. 8 00:00:19,310 --> 00:00:21,870 Jestem bardzo podekscytowany, aby uczyć chłopaki trochę o tej dziedzinie. 9 00:00:21,870 --> 00:00:24,300 To bardzo ekscytujące obszar do zbadania. 10 00:00:24,300 --> 00:00:27,260 Również z dużym potencjałem przyszłości. 11 00:00:27,260 --> 00:00:30,160 Tak, jestem bardzo podekscytowany, że chłopaki rozważają projekty w 12 00:00:30,160 --> 00:00:31,160 lingwistyki komputerowej. 13 00:00:31,160 --> 00:00:35,460 I będę bardziej niż szczęśliwy, aby doradzać każdy z was, jeśli zdecydujesz się 14 00:00:35,460 --> 00:00:37,090 realizować jeden z nich. 15 00:00:37,090 --> 00:00:40,010 >> Więc przede wszystkim, jakie są obliczeniowa językoznawstwo? 16 00:00:40,010 --> 00:00:44,630 Językoznawstwo obliczeniowe jest tak skrzyżowanie między językoznawstwa i 17 00:00:44,630 --> 00:00:46,390 informatyka. 18 00:00:46,390 --> 00:00:47,415 Więc, co jest językoznawstwo? 19 00:00:47,415 --> 00:00:48,490 Co to jest ekonomia? 20 00:00:48,490 --> 00:00:51,580 Cóż z językoznawstwa, co bierzemy to języki. 21 00:00:51,580 --> 00:00:54,960 Tak faktycznie jest lingwistyka nauka języka naturalnego w ogóle. 22 00:00:54,960 --> 00:00:58,330 Język tak naturalne - mówimy o język, który rzeczywiście używamy do 23 00:00:58,330 --> 00:00:59,770 komunikować się ze sobą. 24 00:00:59,770 --> 00:01:02,200 Więc nie będziemy dokładnie mówić o C lub Java. 25 00:01:02,200 --> 00:01:05,900 Mówimy więcej o języku angielskim i Języki chińskie i inne, które 26 00:01:05,900 --> 00:01:07,780 wykorzystania do komunikowania się ze sobą. 27 00:01:07,780 --> 00:01:12,470 >> Trudne rzeczą, że jest to, że teraz mamy prawie 7000 28 00:01:12,470 --> 00:01:14,260 języki świata. 29 00:01:14,260 --> 00:01:19,520 Więc są dość wysokie odmiany języków, które możemy badać. 30 00:01:19,520 --> 00:01:22,600 A następnie, że jest to prawdopodobnie Bardzo trudne do wykonania, na przykład 31 00:01:22,600 --> 00:01:26,960 tłumaczenie z jednego języka na innych, biorąc pod uwagę, że masz 32 00:01:26,960 --> 00:01:28,240 Prawie 7000 z nich. 33 00:01:28,240 --> 00:01:31,450 Tak więc, jeśli myślisz, że robi tłumaczenie z jednego języka na inny jesteś 34 00:01:31,450 --> 00:01:35,840 ma prawie ponad milion różne kombinacje, które można 35 00:01:35,840 --> 00:01:37,330 mają z języka na język. 36 00:01:37,330 --> 00:01:40,820 Więc jest to naprawdę trudne do zrobienia niektóre rodzaj systemu tłumaczeń na przykład 37 00:01:40,820 --> 00:01:43,540 każdy język. 38 00:01:43,540 --> 00:01:47,120 >> Tak, językoznawstwo traktuje z składni, semantyka, pragmatyka. 39 00:01:47,120 --> 00:01:49,550 Chłopaki nie muszą dokładnie wiedzieć, co oni są. 40 00:01:49,550 --> 00:01:55,090 Ale bardzo ciekawe jest to, że jako native speaker, gdy nauczysz się 41 00:01:55,090 --> 00:01:59,010 język jako dziecko, to rzeczywiście nauczyć wszystkie z tych rzeczy - semantyka składni 42 00:01:59,010 --> 00:02:00,500 i pragmatyka - 43 00:02:00,500 --> 00:02:01,430 samodzielnie. 44 00:02:01,430 --> 00:02:04,820 I nikt nie ma nauczyć się składni zrozumieć, jak zdania są 45 00:02:04,820 --> 00:02:05,290 zorganizowany. 46 00:02:05,290 --> 00:02:07,980 Tak, to bardzo ciekawe, ponieważ to jest coś, co przychodzi bardzo 47 00:02:07,980 --> 00:02:10,389 intuicyjnie. 48 00:02:10,389 --> 00:02:13,190 >> A co zabierasz ze informatyka? 49 00:02:13,190 --> 00:02:16,700 Cóż, najważniejsze, że my mają w informatyce jest przede 50 00:02:16,700 --> 00:02:19,340 wszystko, sztuczna inteligencja i uczenie maszynowe. 51 00:02:19,340 --> 00:02:22,610 Więc, co staramy się robić lingwistyki jest uczyć 52 00:02:22,610 --> 00:02:26,990 komputer jak coś zrobić z językiem. 53 00:02:26,990 --> 00:02:28,630 >> Tak więc, na przykład, w maszynie tłumaczenie. 54 00:02:28,630 --> 00:02:32,490 Staram się uczyć moje komputera how wiedzieć, jak przejście z jednego 55 00:02:32,490 --> 00:02:33,310 Język do drugiej. 56 00:02:33,310 --> 00:02:35,790 Tak więc, w zasadzie jak nauczanie Komputer dwóch językach. 57 00:02:35,790 --> 00:02:38,870 Jeśli zrobić przetwarzania języka naturalnego, który jest na przykład przypadek 58 00:02:38,870 --> 00:02:41,810 Facebook w Graph Search, uczysz komputer jak zrozumieć 59 00:02:41,810 --> 00:02:42,730 Zapytania dobrze. 60 00:02:42,730 --> 00:02:48,130 >> Więc, jeśli powiesz "zdjęcia z moich przyjaciele. "Facebook, że nie traktuje 61 00:02:48,130 --> 00:02:51,130 jako cały ciąg, który ma tylko kilka słów. 62 00:02:51,130 --> 00:02:56,020 To rzeczywiście rozumie zależność między "Zdjęcia" i "znajomych" i 63 00:02:56,020 --> 00:02:59,620 rozumie, że "zdjęcia" są własnością "moich przyjaciół." 64 00:02:59,620 --> 00:03:02,350 >> Tak więc, jest to część, na przykład przetwarzanie języka naturalnego. 65 00:03:02,350 --> 00:03:04,790 Próbuje zrozumieć, co jest relacja między 66 00:03:04,790 --> 00:03:07,520 słowa w zdaniu. 67 00:03:07,520 --> 00:03:11,170 I pytanie brzmi, można nauczyć komputer, jak mówić 68 00:03:11,170 --> 00:03:12,650 język w ogóle? 69 00:03:12,650 --> 00:03:17,810 Co jest bardzo ciekawe pytanie że, jak może w przyszłości 70 00:03:17,810 --> 00:03:19,930 będziesz w stanie rozmowy na telefon komórkowy. 71 00:03:19,930 --> 00:03:23,290 Coś jak to, co robimy z Siri, ale coś więcej jak możesz rzeczywiście 72 00:03:23,290 --> 00:03:25,690 powiedzieć, co chcesz, a telefon będzie zrozumieć wszystko. 73 00:03:25,690 --> 00:03:28,350 I może mieć dodatkowe pytania i rozmawiać. 74 00:03:28,350 --> 00:03:30,880 To jest coś naprawdę ekscytujące, w mojej opinii. 75 00:03:30,880 --> 00:03:33,070 >> Tak, coś w językach naturalnych. 76 00:03:33,070 --> 00:03:36,220 Coś naprawdę ciekawego Języki naturalne jest to, że i to jest 77 00:03:36,220 --> 00:03:38,470 językoznawstwo kredyt do mojego profesora, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Ona daje przykład i myślę, to jest naprawdę interesujące. 79 00:03:40,830 --> 00:03:47,060 Ponieważ uczymy się języka od kiedy my urodził, a następnie nasz rodzimy 80 00:03:47,060 --> 00:03:49,170 język rodzaj rośnie na nas. 81 00:03:49,170 --> 00:03:52,570 >> I w zasadzie można nauczyć się języka z minimalnym nakładzie, prawda? 82 00:03:52,570 --> 00:03:56,700 Jesteś po prostu coraz sygnału wejściowego z Rodzice, co brzmi język 83 00:03:56,700 --> 00:03:58,770 jak i po prostu się go nauczyć. 84 00:03:58,770 --> 00:04:02,240 Tak, to ciekawe, bo jeśli spojrzeć w tych zdaniach, na przykład. 85 00:04:02,240 --> 00:04:06,980 Wyglądasz, "Mary wkłada płaszcz każdego razem, kiedy wychodzi z domu. " 86 00:04:06,980 --> 00:04:10,650 >> W tym przypadku, to jest możliwe, aby słowo "ona" odnoszą się do Maryi, prawda? 87 00:04:10,650 --> 00:04:13,500 Możesz powiedzieć: "Maryja stawia na płaszczu za każdym razem, Mary pozostawia 88 00:04:13,500 --> 00:04:14,960 dom. "tak, że jest w porządku. 89 00:04:14,960 --> 00:04:19,370 Ale jeśli spojrzeć na zdanie "Ona wkłada płaszcz każdym Maryja 90 00:04:19,370 --> 00:04:22,850 wychodzi z domu. "wiesz, że to można powiedzieć, że "ona" jest 91 00:04:22,850 --> 00:04:24,260 odwołując się do Maryi. 92 00:04:24,260 --> 00:04:27,070 >> Nie ma sposobu na powiedzenie, że "Maryja kładzie na każdym płaszczem liści Maryja 93 00:04:27,070 --> 00:04:30,790 dom. "Więc to jest interesujące, ponieważ jest to rodzaj intuicji 94 00:04:30,790 --> 00:04:32,890 że każdy native speaker ma. 95 00:04:32,890 --> 00:04:36,370 I nikt nie uczył, że jest to sposób, w jaki działa składnia. 96 00:04:36,370 --> 00:04:41,930 I że można mieć tylko to "ona" odwołując się do Maryi w tym pierwszym przypadku, 97 00:04:41,930 --> 00:04:44,260 i faktycznie w tym inne również, ale nie jest to. 98 00:04:44,260 --> 00:04:46,500 Ale każdy rodzaj pobiera do tej samej odpowiedzi. 99 00:04:46,500 --> 00:04:48,580 Wszyscy zgadzają się na to. 100 00:04:48,580 --> 00:04:53,280 Więc jest to naprawdę ciekawe, jak chociaż nie znasz wszystkie zasady 101 00:04:53,280 --> 00:04:55,575 w języku, którego rodzaj zrozumieć jak działa język. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Tak ciekawe o naturalne języka jest to, że nie masz do 104 00:05:01,530 --> 00:05:06,970 znam żadnej składni wiedzieć, czy zdanie jest gramatyczna lub ungrammatical dla 105 00:05:06,970 --> 00:05:08,810 większości przypadków. 106 00:05:08,810 --> 00:05:13,220 Co sprawia, że ​​może być to, co zdarza się, że przez całe swoje życie, jesteś 107 00:05:13,220 --> 00:05:17,410 po prostu zachować się coraz bardziej zdania powiedział do ciebie. 108 00:05:17,410 --> 00:05:19,800 A następnie zachować zapamiętywanie wszystkich zdań. 109 00:05:19,800 --> 00:05:24,230 I wtedy, gdy ktoś mówi, coś, słyszysz to zdanie i 110 00:05:24,230 --> 00:05:27,040 obejrzysz słownika zdań i sprawdzić, czy 111 00:05:27,040 --> 00:05:28,270 to zdanie jest. 112 00:05:28,270 --> 00:05:29,830 A jeśli jest tam jesteś powiedzieć, że jest gramatyczna. 113 00:05:29,830 --> 00:05:31,740 Jeśli to nie można powiedzieć, że to ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> Tak więc, w tym przypadku, można by powiedzieć, oh, więc masz ogromną listę wszystkich 115 00:05:35,150 --> 00:05:36,140 ewentualne zdania. 116 00:05:36,140 --> 00:05:38,240 A następnie po usłyszeniu wyroku, wiesz, czy to gramatyczne lub 117 00:05:38,240 --> 00:05:39,450 nie opiera się na tym. 118 00:05:39,450 --> 00:05:42,360 Chodzi o to, że jeśli spojrzeć na zdanie, na przykład " 119 00:05:42,360 --> 00:05:47,540 pięć-headed CS50 TF gotowane niewidomych ośmiornice wykorzystujące kubek DAPA. "To 120 00:05:47,540 --> 00:05:49,630 na pewno nie zdanie że słyszał. 121 00:05:49,630 --> 00:05:52,380 Ale jednocześnie wiesz, że to prawie gramatyczna, prawda? 122 00:05:52,380 --> 00:05:55,570 Nie ma żadnych błędów gramatycznych i można powiedzieć, że 123 00:05:55,570 --> 00:05:57,020 to jest możliwe zdanie. 124 00:05:57,020 --> 00:06:01,300 >> Więc to każe nam myśleć, że rzeczywiście sposób, w jaki uczymy się języka jest nie tylko 125 00:06:01,300 --> 00:06:07,090 poprzez ogromną bazę można słowa lub zdania, ale więcej 126 00:06:07,090 --> 00:06:11,490 zrozumienia zależność pomiędzy słów w tych zdaniach. 127 00:06:11,490 --> 00:06:14,570 Czy to ma sens? 128 00:06:14,570 --> 00:06:19,370 Tak, to pytanie jest, może komputery uczyć się języków? 129 00:06:19,370 --> 00:06:21,490 Możemy nauczyć języka na komputerach? 130 00:06:21,490 --> 00:06:24,230 >> Więc pomyślmy różnicy między native speaker języka 131 00:06:24,230 --> 00:06:25,460 i komputer. 132 00:06:25,460 --> 00:06:27,340 Więc, co się dzieje, do głośnika? 133 00:06:27,340 --> 00:06:30,430 Cóż, native speaker uczy język z narażenia na nią. 134 00:06:30,430 --> 00:06:34,200 Wysyłka wczesnych latach dzieciństwa. 135 00:06:34,200 --> 00:06:38,570 Tak więc, w zasadzie, po prostu mieć dziecko, i rozmawiać z nim, i to 136 00:06:38,570 --> 00:06:40,540 po prostu uczy się mówić język, prawda? 137 00:06:40,540 --> 00:06:42,660 Tak, jesteś w zasadzie daje Wejście do dziecka. 138 00:06:42,660 --> 00:06:45,200 Tak więc, można argumentować, że komputer może zrobić to samo, prawda? 139 00:06:45,200 --> 00:06:49,510 Możesz po prostu dać jezyk jako wejście do komputera. 140 00:06:49,510 --> 00:06:53,410 >> Jak na przykład kilka plików że mają książki w języku angielskim. 141 00:06:53,410 --> 00:06:56,190 Być może to jest jeden sposób, który mógłby uczyć 142 00:06:56,190 --> 00:06:57,850 Komputer angielski, prawda? 143 00:06:57,850 --> 00:07:01,000 I rzeczywiście, jeśli myślisz o tym, to ma być może kilka 144 00:07:01,000 --> 00:07:02,680 dni czytać książki. 145 00:07:02,680 --> 00:07:05,760 Dla komputera zajmuje chwilę, aby patrzeć na wszystkich słów w książce. 146 00:07:05,760 --> 00:07:10,810 Więc można pomyśleć, że to może być tylko Argument wkład wokół ciebie, 147 00:07:10,810 --> 00:07:15,440 to nie wystarczy, aby powiedzieć, że jest to coś, że tylko ludzie mogą zrobić. 148 00:07:15,440 --> 00:07:17,680 Możesz myśleć komputerów Można również uzyskać wejście. 149 00:07:17,680 --> 00:07:21,170 >> Drugą rzeczą jest to, że native speakerzy również mózg, który ma 150 00:07:21,170 --> 00:07:23,870 możliwość nauki języka. 151 00:07:23,870 --> 00:07:27,020 Ale jeśli myślisz o tym, Mózg jest solidny rzeczą. 152 00:07:27,020 --> 00:07:30,450 Kiedy urodził się, to już zestaw - 153 00:07:30,450 --> 00:07:31,320 to jest twój mózg. 154 00:07:31,320 --> 00:07:34,660 A jak dorośniesz, to po prostu więcej Wejście od języka, a może odżywcze 155 00:07:34,660 --> 00:07:35,960 i inne rzeczy. 156 00:07:35,960 --> 00:07:38,170 Ale dość dużo mózg jest solidny rzeczą. 157 00:07:38,170 --> 00:07:41,290 >> Więc można powiedzieć, no, może można zbudować komputer, który ma kilka 158 00:07:41,290 --> 00:07:45,890 funkcje i metody, które po prostu naśladują możliwość nauki języka. 159 00:07:45,890 --> 00:07:49,630 Więc w tym sensie, że można powiedzieć, dobrze, może mieć komputer, który ma wszystko 160 00:07:49,630 --> 00:07:52,270 rzeczy potrzebne do nauki języka. 161 00:07:52,270 --> 00:07:56,200 I ostatnia rzecz to, że rodzimy głośnik uczy się od prób i błędów. 162 00:07:56,200 --> 00:08:01,090 Więc w zasadzie kolejna ważna rzecz w nauka języka jest to, że rodzaj 163 00:08:01,090 --> 00:08:05,340 z dowiedzieć się rzeczy, przez co uogólnienia, co słyszysz. 164 00:08:05,340 --> 00:08:10,280 >> Tak jak rosną Ci się, że Niektóre słowa są jak rzeczowniki, 165 00:08:10,280 --> 00:08:11,820 niektóre z nich są inne przymiotniki. 166 00:08:11,820 --> 00:08:14,250 I nie trzeba mieć dowolny wiedza z językoznawstwa 167 00:08:14,250 --> 00:08:15,040 to zrozumieć. 168 00:08:15,040 --> 00:08:18,560 Ale po prostu wiem, że jest kilka słów są umieszczone w pewnej części 169 00:08:18,560 --> 00:08:22,570 zdanie i inni w innych części zdania. 170 00:08:22,570 --> 00:08:26,110 >> I że kiedy robisz coś, co jest jak wyrok, który nie jest prawidłowy - 171 00:08:26,110 --> 00:08:28,770 być może z powodu uogólnienia na na przykład. 172 00:08:28,770 --> 00:08:32,210 Może kiedy dorasta, można zauważyć, że liczba mnoga jest zazwyczaj 173 00:08:32,210 --> 00:08:35,809 utworzone poprzez umieszczenie s przy koniec słowa. 174 00:08:35,809 --> 00:08:40,042 , A następnie spróbować zrobić liczbę mnogą "Jeleń" AS "jeleni" lub "ząb" jak 175 00:08:40,042 --> 00:08:44,780 "Tooths". Więc twoi rodzice lub ktoś koryguje cię i mówi: nie, 176 00:08:44,780 --> 00:08:49,020 liczba mnoga od "jeleni" jest "Jeleń", a liczba mnoga od "zęba" to "zęby". A następnie 177 00:08:49,020 --> 00:08:50,060 dowiedzieć się tych rzeczy. 178 00:08:50,060 --> 00:08:51,520 Więc dowiedzieć się z prób i błędów. 179 00:08:51,520 --> 00:08:53,100 >> Ale można też zrobić z komputerem. 180 00:08:53,100 --> 00:08:55,310 Możesz mieć coś, co nazywa nauka zbrojenia. 181 00:08:55,310 --> 00:08:58,560 Która jest w zasadzie jak daje komputer, gdy to nie nagroda 182 00:08:58,560 --> 00:08:59,410 coś poprawnie. 183 00:08:59,410 --> 00:09:04,710 I nadanie jej przeciwieństwo nagrodę i kiedy to robi coś złego. 184 00:09:04,710 --> 00:09:07,410 Rzeczywiście można zobaczyć, że jeśli się do Google Translate i próby 185 00:09:07,410 --> 00:09:10,220 przetłumaczyć zdanie, że prosi o opinie. 186 00:09:10,220 --> 00:09:13,240 Więc jeśli mówisz, oh, jest lepiej Tłumaczenie do tego zdania. 187 00:09:13,240 --> 00:09:18,140 Możesz wpisać go, a następnie, jeśli dużo ludzie ciągle mówią, że jest lepiej 188 00:09:18,140 --> 00:09:21,560 Tłumaczenie, że to właśnie dowiaduje się, że należy użyć zamiast tego tłumaczenia 189 00:09:21,560 --> 00:09:22,960 jeden to dawał. 190 00:09:22,960 --> 00:09:28,830 >> Tak, to jest pytanie bardzo filozoficzne aby sprawdzić, czy komputery będą w 191 00:09:28,830 --> 00:09:30,340 w stanie rozmowy, czy też nie w przyszłości. 192 00:09:30,340 --> 00:09:34,440 Ale mam nadzieje, że się da tylko na podstawie tych argumentów. 193 00:09:34,440 --> 00:09:38,570 Ale to jest po prostu bardziej filozoficzny pytanie. 194 00:09:38,570 --> 00:09:43,460 >> Tak więc, podczas gdy komputery wciąż nie może mówić, jakie są rzeczy, które możemy zrobić? 195 00:09:43,460 --> 00:09:47,070 Niektóre rzeczy są naprawdę fajne Klasyfikacja danych. 196 00:09:47,070 --> 00:09:53,210 Tak więc, na przykład, wiecie że usługi e-mail nie, dla 197 00:09:53,210 --> 00:09:55,580 przykład, filtrowanie spamu. 198 00:09:55,580 --> 00:09:59,070 Więc gdy otrzymasz spam, to stara się filtrować na innym polu. 199 00:09:59,070 --> 00:10:00,270 Więc jak to zrobić? 200 00:10:00,270 --> 00:10:06,080 To nie jest tak, że komputer po prostu wie Adresy e-mail są co wysyłać spam. 201 00:10:06,080 --> 00:10:09,130 Więc jest to bardziej na podstawie treści wiadomość, a może tytuł lub 202 00:10:09,130 --> 00:10:11,310 może jakiś wzór, który masz. 203 00:10:11,310 --> 00:10:15,690 >> Tak więc, w zasadzie, co możesz zrobić, to Wiele danych z e-maili, które są spamem, 204 00:10:15,690 --> 00:10:19,980 e-maile, które nie są spamem i dowiedz się, co rodzaju wzorców masz w 205 00:10:19,980 --> 00:10:21,000 te, które są spamem. 206 00:10:21,000 --> 00:10:23,260 I to jest część obliczeniowa językoznawstwo. 207 00:10:23,260 --> 00:10:24,720 To się nazywa klasyfikacja danych. 208 00:10:24,720 --> 00:10:28,100 A my rzeczywiście zobaczymy Przykład że w kolejnych slajdów. 209 00:10:28,100 --> 00:10:32,910 >> Drugą rzeczą jest to język naturalny przetwarzania, które jest rzeczą, że 210 00:10:32,910 --> 00:10:36,580 Wykres Szukaj robi z najmu piszesz zdanie. 211 00:10:36,580 --> 00:10:38,690 I ufa Ci zrozumieć, co jest sens i daje 212 00:10:38,690 --> 00:10:39,940 jesteś lepszy wynik. 213 00:10:39,940 --> 00:10:43,880 Właściwie, jeśli pójdziesz do Google lub Bing i wyszukać coś Bożej 214 00:10:43,880 --> 00:10:47,060 Wysokość Gaga, jesteś rzeczywiście dzieje dostać 5 '1 "zamiast informacji 215 00:10:47,060 --> 00:10:50,170 od niej, bo to faktycznie rozumie to, co mówisz. 216 00:10:50,170 --> 00:10:52,140 Więc to jest częścią naturalnego przetwarzania języka. 217 00:10:52,140 --> 00:10:57,000 >> Lub też, gdy używasz Siri, pierwszy masz algorytm, który próbuje 218 00:10:57,000 --> 00:11:01,130 tłumaczyć, co mówisz słowami, w tekście. 219 00:11:01,130 --> 00:11:03,690 , A następnie stara się tłumaczyć że w ten sposób. 220 00:11:03,690 --> 00:11:06,570 Tak, że wszystko jest częścią naturalnego przetwarzania języka. 221 00:11:06,570 --> 00:11:08,320 >> Wtedy masz tłumaczenia maszynowego - 222 00:11:08,320 --> 00:11:10,300 co jest rzeczywiście jednym z moich ulubionych - 223 00:11:10,300 --> 00:11:14,060 który jest tylko tłumaczeniem z Język do drugiego. 224 00:11:14,060 --> 00:11:17,950 Więc można pomyśleć, że kiedy robisz tłumaczenie maszynowe, masz 225 00:11:17,950 --> 00:11:19,750 nieskończone możliwości zdań. 226 00:11:19,750 --> 00:11:22,960 Tak więc nie ma mowy, po prostu przechowywanie każdego tłumaczenia. 227 00:11:22,960 --> 00:11:27,440 Więc trzeba wymyślić ciekawy Algorytmy móc 228 00:11:27,440 --> 00:11:30,110 tłumaczyć każdy zdanie w jakiś sposób. 229 00:11:30,110 --> 00:11:32,483 >> Macie jakieś pytania do tej pory? 230 00:11:32,483 --> 00:11:34,450 Nie? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> Tak więc to, co mamy zamiar zobaczyć dziś? 233 00:11:36,900 --> 00:11:39,300 Przede wszystkim mam zamiar mówić o Problem klasyfikacji. 234 00:11:39,300 --> 00:11:41,440 Tak, że byłem jednym mówiąc o spam. 235 00:11:41,440 --> 00:11:46,820 Podane informacje Tekst i słowa piosenki, co mam zamiar zrobić, to, do piosenki, możesz spróbować dowiedzieć się, 236 00:11:46,820 --> 00:11:49,810 z wysokim prawdopodobieństwem kto jest piosenkarką? 237 00:11:49,810 --> 00:11:53,590 Powiedzmy, że mam piosenki z Lady Gaga i Katy Perry, jeśli dam ci 238 00:11:53,590 --> 00:11:58,130 nowa piosenka, można dowiedzieć się, czy to Katy Perry czy Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> Drugi, mam zamiar porozmawiać o problem segmentacji. 240 00:12:01,490 --> 00:12:05,780 Więc nie wiem, czy wiecie, ale Chiński, japoński, innych wschodnioazjatyckich 241 00:12:05,780 --> 00:12:08,090 Języki i inne języki na ogół nie ma 242 00:12:08,090 --> 00:12:09,830 Przestrzenie między słowami. 243 00:12:09,830 --> 00:12:13,540 A jeśli myślisz o tym, jak to Twój rodzaj komputera z prób do 244 00:12:13,540 --> 00:12:18,600 zrozumieć przetwarzania języka naturalnego, wygląda na słowa i 245 00:12:18,600 --> 00:12:21,500 stara się zrozumieć relacje między nimi, prawda? 246 00:12:21,500 --> 00:12:25,440 Ale jeśli masz chiński, a ty mają zero miejsca, jest to naprawdę trudne do 247 00:12:25,440 --> 00:12:28,360 dowiedzieć się, jaka jest relacja między słowa, bo nie ma żadnych 248 00:12:28,360 --> 00:12:29,530 słowa na początku. 249 00:12:29,530 --> 00:12:32,600 Więc trzeba zrobić coś, co nazywa segmentacji, które oznacza po prostu oddanie 250 00:12:32,600 --> 00:12:36,490 przestrzenie między co my nazywamy słowa w tych językach. 251 00:12:36,490 --> 00:12:37,740 Ma sens? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> A następnie jedziemy do mówić o składni. 254 00:12:41,540 --> 00:12:44,050 Więc trochę o naturalne przetwarzania języka. 255 00:12:44,050 --> 00:12:45,420 To będzie po prostu przegląd. 256 00:12:45,420 --> 00:12:50,700 Więc dzisiaj, w zasadzie to, co chcę zrobić jest dać wam trochę 257 00:12:50,700 --> 00:12:53,930 wewnątrz, jakie są możliwości , które można zrobić z obliczeniowych 258 00:12:53,930 --> 00:12:54,960 językoznawstwo. 259 00:12:54,960 --> 00:13:00,410 A następnie można zobaczyć, co myślisz jest cool wśród tych rzeczy. 260 00:13:00,410 --> 00:13:02,270 A może myślisz o projekcie i pochodzą ze mną rozmawiać. 261 00:13:02,270 --> 00:13:05,260 I mogę dać rady , w jaki sposób jego realizacji. 262 00:13:05,260 --> 00:13:09,060 >> Więc składnia będzie trochę o Graph Search i maszyny 263 00:13:09,060 --> 00:13:09,670 tłumaczenie. 264 00:13:09,670 --> 00:13:13,650 Mam zamiar dać przykład, jak Możesz, na przykład, w tłumaczeniu 265 00:13:13,650 --> 00:13:16,020 coś z portugalskiego na angielski. 266 00:13:16,020 --> 00:13:17,830 Brzmi dobrze? 267 00:13:17,830 --> 00:13:19,293 >> Więc po pierwsze, problem klasyfikacji. 268 00:13:19,293 --> 00:13:23,590 Powiem, że ta część seminarium będzie największym wyzwaniem 269 00:13:23,590 --> 00:13:27,560 jeden tylko dlatego, że się dzieje być niektóre kodowania. 270 00:13:27,560 --> 00:13:29,470 Ale to będzie Python. 271 00:13:29,470 --> 00:13:34,380 Wiem, że chłopaki nie wiem Pythona, więc Ja tylko wyjaśnię na wysoki 272 00:13:34,380 --> 00:13:35,750 poziom, co robię. 273 00:13:35,750 --> 00:13:40,900 I nie trzeba się naprawdę dbają zbyt wiele o składni, ponieważ jest to 274 00:13:40,900 --> 00:13:42,140 coś wam może się nauczyć. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Brzmi dobrze. 277 00:13:43,580 --> 00:13:46,020 >> Więc jaki jest problem klasyfikacji? 278 00:13:46,020 --> 00:13:49,140 Więc biorąc pod uwagę pewne słowa do piosenki i chcesz się domyślić 279 00:13:49,140 --> 00:13:50,620 kto śpiewa go. 280 00:13:50,620 --> 00:13:54,045 I może być w jakiejkolwiek innych problemów. 281 00:13:54,045 --> 00:13:59,980 Tak więc może on być, na przykład, mieć kampania prezydencka i masz 282 00:13:59,980 --> 00:14:02,610 mowy, a chcesz znaleźć czy był, na przykład, 283 00:14:02,610 --> 00:14:04,470 Obama i Mitt Romney. 284 00:14:04,470 --> 00:14:07,700 Czy można mieć kilka e-maili i Aby dowiedzieć się, czy są one 285 00:14:07,700 --> 00:14:08,890 spam czy nie. 286 00:14:08,890 --> 00:14:11,440 Więc to jest po prostu klasyfikacji niektórych Dane oparte na słowa 287 00:14:11,440 --> 00:14:13,790 że masz tam. 288 00:14:13,790 --> 00:14:16,295 >> Tak, aby to zrobić, trzeba poczynić pewne założenia. 289 00:14:16,295 --> 00:14:20,570 Tak wiele o lingwistyce obliczeniowej robi założenia, 290 00:14:20,570 --> 00:14:24,100 zazwyczaj inteligentne założenia, tak aby można uzyskać dobre rezultaty. 291 00:14:24,100 --> 00:14:26,670 Stara się stworzyć model dla niego. 292 00:14:26,670 --> 00:14:31,290 A następnie go wypróbować i zobaczyć, czy to działa, jeśli to daje dobrą dokładność. 293 00:14:31,290 --> 00:14:33,940 A jeśli tak, to spróbuj to poprawić. 294 00:14:33,940 --> 00:14:37,640 Jeśli nie, jesteś jak, OK, może powinien dokonać innego założenia. 295 00:14:37,640 --> 00:14:44,030 >> Tak więc założenie, że będziemy sprawiają, że artysta zazwyczaj śpiewa 296 00:14:44,030 --> 00:14:49,220 na dany temat wiele razy, a może używa słowa tak wiele razy 297 00:14:49,220 --> 00:14:50,270 bo są do tego przyzwyczajeni. 298 00:14:50,270 --> 00:14:51,890 Możesz tylko myśleć o swoim przyjacielem. 299 00:14:51,890 --> 00:14:57,350 Jestem pewien, że wy wszyscy mają przyjaciół które mówią, że ich zdanie podpisu, 300 00:14:57,350 --> 00:14:59,260 dosłownie na każdym jednym zdaniu - 301 00:14:59,260 --> 00:15:02,660 jak jakiś określony wyraz lub niektórych szczególnych zdanie, które mówią o 302 00:15:02,660 --> 00:15:04,020 każdy zdanie. 303 00:15:04,020 --> 00:15:07,920 >> A co można powiedzieć, to to, że jeśli widzisz Zdanie, które ma podpisu 304 00:15:07,920 --> 00:15:11,450 zdanie, można się domyślać, że prawdopodobnie Twój przyjaciel jest 305 00:15:11,450 --> 00:15:13,310 jeden mówi, prawda? 306 00:15:13,310 --> 00:15:18,410 Więc przyjąć takie założenie, a następnie To, w jaki sposób stworzyć model. 307 00:15:18,410 --> 00:15:24,440 >> Przykład, że mam zamiar dać to na jak Lady Gaga, na przykład, ludzie 308 00:15:24,440 --> 00:15:27,430 powiedzieć, że używa "dziecko" dla wszystkie jej piosenki. numer jeden 309 00:15:27,430 --> 00:15:32,270 I rzeczywiście jest to film, który pokazuje, jej mówiąc słowo "dziecko" dla 310 00:15:32,270 --> 00:15:33,410 różne utwory. 311 00:15:33,410 --> 00:15:33,860 >> [ODTWARZANIE] 312 00:15:33,860 --> 00:15:34,310 >> - (Śpiewa) Dziecko. 313 00:15:34,310 --> 00:15:36,220 Dziecko. 314 00:15:36,220 --> 00:15:37,086 Dziecko. 315 00:15:37,086 --> 00:15:37,520 Dziecko. 316 00:15:37,520 --> 00:15:37,770 Dziecko. 317 00:15:37,770 --> 00:15:38,822 Lasek. 318 00:15:38,822 --> 00:15:39,243 Dziecko. 319 00:15:39,243 --> 00:15:40,085 Dziecko. 320 00:15:40,085 --> 00:15:40,510 Dziecko. 321 00:15:40,510 --> 00:15:40,850 Dziecko. 322 00:15:40,850 --> 00:15:41,090 >> [KONIEC ODTWARZANIE- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS: Tak jest, jak sądzę, 40 utworów, w których tutaj mówi 324 00:15:44,020 --> 00:15:48,690 Słowo "dziecko". Tak więc można w zasadzie odgadnąć że jeśli widzisz utwór, do którego 325 00:15:48,690 --> 00:15:52,180 Słowo "dziecko", jest trochę wysoka Prawdopodobieństwo, że to Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Ale spróbujmy rozwinąć ten jeszcze bardziej formalnie. 327 00:15:56,450 --> 00:16:00,470 >> To są słowa do piosenek Lady Gaga i Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Więc spójrz na Lady Gaga, widać, że mają wiele zdarzeń z "dzieckiem" 329 00:16:04,120 --> 00:16:07,710 Wiele wystąpień "sposób." A następnie Katy Perry ma wiele wystąpień 330 00:16:07,710 --> 00:16:10,360 "," Wiele wystąpień "ognia". 331 00:16:10,360 --> 00:16:14,560 >> Więc w zasadzie to, co chcemy zrobić to, masz liryczny. 332 00:16:14,560 --> 00:16:20,480 Powiedzmy, że masz tekst utworu na Piosenka to "dziecko", tylko "dziecko". Jeśli 333 00:16:20,480 --> 00:16:24,750 jesteś po prostu słowo "dziecko", a to to wszystkie dane, które masz od 334 00:16:24,750 --> 00:16:27,880 Lady Gaga i Katy Perry, który by się domyślić jest osoba 335 00:16:27,880 --> 00:16:29,370 kto śpiewa piosenkę? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga i Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, prawda? 338 00:16:33,150 --> 00:16:37,400 Dlatego, że jest jedynym, który mówi "Dziecko". To brzmi głupio, prawda? 339 00:16:37,400 --> 00:16:38,760 OK, to jest bardzo proste. 340 00:16:38,760 --> 00:16:41,860 Po prostu patrząc na dwóch piosenek i Oczywiście, że jest jedynym, który ma 341 00:16:41,860 --> 00:16:42,660 "Dziecko". 342 00:16:42,660 --> 00:16:44,740 >> Ale co, jeśli masz kilka słów? 343 00:16:44,740 --> 00:16:50,900 Jeśli masz coś rzeczywistego liryczny, jak: "dziecko, po prostu 344 00:16:50,900 --> 00:16:51,610 poszliśmy zobaczyć [? CFT?] 345 00:16:51,610 --> 00:16:54,020 Wykład "lub coś w tym stylu, a wtedy trzeba rzeczywiście dowiedzieć się - 346 00:16:54,020 --> 00:16:55,780 na podstawie wszystkich tych słów - 347 00:16:55,780 --> 00:16:58,350 kto jest artystą, który prawdopodobnie śpiewał tę piosenkę? 348 00:16:58,350 --> 00:17:01,860 Więc staram się rozwijać to trochę dalej. 349 00:17:01,860 --> 00:17:05,630 >> OK, więc oparte tylko na danych, które ma, wydaje się, że Gaga jest prawdopodobnie 350 00:17:05,630 --> 00:17:06,260 piosenkarka. 351 00:17:06,260 --> 00:17:07,904 Ale jak możemy napisać to bardziej formalnie? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 I tam będzie trochę Trochę statystyk. 354 00:17:13,140 --> 00:17:15,880 Więc jeśli się zgubisz, po prostu spróbuj zrozumieć pojęcie. 355 00:17:15,880 --> 00:17:18,700 Nie ma znaczenia, czy rozumiesz równania doskonale. 356 00:17:18,700 --> 00:17:22,150 To wszystko dzieje się w Internecie. 357 00:17:22,150 --> 00:17:25,490 >> Więc w zasadzie, co mam obliczania jest prawdopodobieństwo, że ta piosenka jest przez 358 00:17:25,490 --> 00:17:28,040 Lady Gaga jako że - 359 00:17:28,040 --> 00:17:30,660 więc ten pasek oznacza, że ​​podano - 360 00:17:30,660 --> 00:17:33,680 Widziałem słowo "dziecko". Czy to ma sens? 361 00:17:33,680 --> 00:17:35,540 Więc staram się obliczyć że prawdopodobieństwo. 362 00:17:35,540 --> 00:17:38,540 >> Więc nie jest to twierdzenie nazywane Twierdzenie Bayesa, który mówi, że 363 00:17:38,540 --> 00:17:43,330 prawdopodobieństwo danej B, jest prawdopodobieństwo B otrzymał, czasy 364 00:17:43,330 --> 00:17:47,660 Prawdopodobieństwo, ponad prawdopodobieństwa B. Jest to długi równanie. 365 00:17:47,660 --> 00:17:51,970 Ale to, co trzeba zrozumieć, z to jest, że to jest to, co chcę 366 00:17:51,970 --> 00:17:52,830 obliczyć, prawda? 367 00:17:52,830 --> 00:17:56,570 Tak więc prawdopodobieństwo, że ta piosenka jest przez Lady Gaga jako że widziałem słowo 368 00:17:56,570 --> 00:17:58,230 "Dziecko". 369 00:17:58,230 --> 00:18:02,960 >> A teraz o co mi chodzi to prawdopodobieństwo słowo "dziecko" podano 370 00:18:02,960 --> 00:18:04,390 że mam Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 A co to jest w zasadzie? 372 00:18:07,220 --> 00:18:10,500 Co to znaczy to, co jest prawdopodobieństwo widząc słowo "dziecko" 373 00:18:10,500 --> 00:18:12,130 Teksty piosenek Gaga w? 374 00:18:12,130 --> 00:18:16,240 Jeśli chcę, aby obliczyć, że w bardzo Prosty sposób, to tylko liczba 375 00:18:16,240 --> 00:18:23,640 razy widzę "dziecko" na ogólnej liczby słów piosenki Gaga, prawda? 376 00:18:23,640 --> 00:18:27,600 Co to jest częstotliwość, że widzę to słowo w pracy Gagi? 377 00:18:27,600 --> 00:18:30,530 Ma sens? 378 00:18:30,530 --> 00:18:33,420 >> Drugi termin jest prawdopodobieństwo Gaga. 379 00:18:33,420 --> 00:18:34,360 Co to znaczy? 380 00:18:34,360 --> 00:18:38,550 Że w zasadzie oznacza, to, co jest prawdopodobieństwo klasyfikacji 381 00:18:38,550 --> 00:18:40,690 niektóre teksty jak Gaga? 382 00:18:40,690 --> 00:18:45,320 I to jest trochę dziwne, ale pomyślmy o przykład. 383 00:18:45,320 --> 00:18:49,230 Więc powiedzmy, że prawdopodobieństwo konieczności "dziecko" w piosence jest taki sam 384 00:18:49,230 --> 00:18:51,760 dla Gagi i Britney Spears. 385 00:18:51,760 --> 00:18:54,950 Ale Britney Spears ma dwa razy więcej utworów niż Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Więc jeśli ktoś po prostu losowo daje teksty piosenek z "dzieckiem", pierwszą rzeczą, którą 387 00:19:00,570 --> 00:19:04,710 spojrzeć na to, jakie jest prawdopodobieństwo konieczności "dziecko" w piosence Gaga, "dziecko" 388 00:19:04,710 --> 00:19:05,410 w piosence Britney? 389 00:19:05,410 --> 00:19:06,460 I to samo. 390 00:19:06,460 --> 00:19:10,040 >> Więc druga rzecz, że zobaczysz to, dobrze, co to jest prawdopodobieństwo 391 00:19:10,040 --> 00:19:13,770 ten sam liryczny jest liryczny Gaga, i jakie jest prawdopodobieństwo 392 00:19:13,770 --> 00:19:15,380 jest liryczny Britney? 393 00:19:15,380 --> 00:19:18,950 Więc od Britney ma tak wiele więcej tekstów niż Gaga, prawdopodobnie 394 00:19:18,950 --> 00:19:21,470 powiedzmy, dobrze, że jest to prawdopodobnie liryczny Britney. 395 00:19:21,470 --> 00:19:23,340 Więc dlatego mamy to nazwać tutaj. 396 00:19:23,340 --> 00:19:24,670 Prawdopodobieństwo Gaga. 397 00:19:24,670 --> 00:19:26,950 Ma sens? 398 00:19:26,950 --> 00:19:28,660 Nie? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> I ostatnia jest tylko prawdopodobieństwo z "dzieckiem", która nie 401 00:19:33,500 --> 00:19:34,810 ma znaczenia, że ​​dużo. 402 00:19:34,810 --> 00:19:39,940 Ale to prawdopodobieństwo widząc "dziecko" w języku angielskim. 403 00:19:39,940 --> 00:19:42,725 Zwykle nie obchodzi, że wiele o tym okresie. 404 00:19:42,725 --> 00:19:44,490 Czy to ma sens? 405 00:19:44,490 --> 00:19:48,110 Tak więc prawdopodobieństwo Gaga zwany przed prawdopodobieństwo 406 00:19:48,110 --> 00:19:49,530 z Gaga klasy. 407 00:19:49,530 --> 00:19:53,840 Bo to po prostu oznacza, że ​​to, co jest prawdopodobieństwo posiadania tej klasy - 408 00:19:53,840 --> 00:19:55,520 który jest Gaga - 409 00:19:55,520 --> 00:19:59,350 tak na ogół, wystarczy bez warunków. 410 00:19:59,350 --> 00:20:02,560 >> I wtedy, gdy mam prawdopodobieństwo Gaga dane "dziecko", my nazywamy to Plus 411 00:20:02,560 --> 00:20:06,160 łzami prawdopodobieństwo, ponieważ jest prawdopodobieństwo konieczności 412 00:20:06,160 --> 00:20:08,300 Gaga podane jakieś dowody. 413 00:20:08,300 --> 00:20:11,050 Więc daję ci dowody Widziałem, że słowa i dziecka 414 00:20:11,050 --> 00:20:12,690 Piosenka ma sens? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Jeśli więc obliczyć, że dla każdego utwory dla Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 co byłoby - 419 00:20:25,916 --> 00:20:27,730 najwyraźniej, że nie można przenieść tego. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Prawdopodobieństwo Gaga będzie coś, 2 na 24 razy 1/2, 422 00:20:36,920 --> 00:20:38,260 ponad 2 na 53. 423 00:20:38,260 --> 00:20:40,640 Nie ma znaczenia, jeśli wiesz, co liczby te pochodzą. 424 00:20:40,640 --> 00:20:44,750 Ale to tylko numer, który będzie być więcej niż 0, prawda? 425 00:20:44,750 --> 00:20:48,610 >> A kiedy ja Katy Perry, prawdopodobieństwo "baby" Katy jest podane 426 00:20:48,610 --> 00:20:49,830 już 0, prawda? 427 00:20:49,830 --> 00:20:52,820 Bo nie ma "dziecko" w Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Tak więc staje się 0, a Gaga zwycięstw, co oznacza, że ​​Gaga jest 429 00:20:56,360 --> 00:20:57,310 Prawdopodobnie piosenkarka. 430 00:20:57,310 --> 00:20:58,560 Czy to ma sens? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Więc jeśli chcesz, aby ten bardziej oficjalny, Mogę właściwie zrobić model 435 00:21:11,750 --> 00:21:12,700 dla wielu słów. 436 00:21:12,700 --> 00:21:14,610 Więc powiedzmy, że mam coś jak, "kochanie, jestem 437 00:21:14,610 --> 00:21:16,030 w ogniu ", czy coś takiego. 438 00:21:16,030 --> 00:21:17,760 Więc to ma wiele słów. 439 00:21:17,760 --> 00:21:20,880 I w tym przypadku, można zobaczyć że "dzieci" jest Gaga, 440 00:21:20,880 --> 00:21:21,710 ale to nie jest w Katy. 441 00:21:21,710 --> 00:21:24,940 I "ogień" jest w Katy, ale to nie jest w Gaga, prawda? 442 00:21:24,940 --> 00:21:27,200 Więc to coraz trudniejsze, prawda? 443 00:21:27,200 --> 00:21:31,440 Ponieważ wydaje się, że prawie mieć krawat między nimi. 444 00:21:31,440 --> 00:21:36,980 >> Więc co trzeba zrobić, to założyć, niezależność między słowami. 445 00:21:36,980 --> 00:21:41,210 Więc w zasadzie, co to oznacza to, że Ja tylko obliczenia, co jest 446 00:21:41,210 --> 00:21:44,330 prawdopodobieństwo zobaczenia "dziecko", co jest prawdopodobieństwo zobaczenia "ja", a 447 00:21:44,330 --> 00:21:46,670 "Jestem" i "na" i "ogień" wszystko oddzielnie. 448 00:21:46,670 --> 00:21:48,670 Wtedy ja mnożąc je wszystkie. 449 00:21:48,670 --> 00:21:52,420 I widzę, jakie jest prawdopodobieństwo, widząc całe zdanie. 450 00:21:52,420 --> 00:21:55,210 Ma sens? 451 00:21:55,210 --> 00:22:00,270 >> Więc w zasadzie, jeśli mam tylko jedno słowo, co chcę znaleźć jest arg max, 452 00:22:00,270 --> 00:22:05,385 co oznacza, to, co jest, że jest klasa daje mi największe prawdopodobieństwo? 453 00:22:05,385 --> 00:22:10,010 Więc co jest klasa, która daje mnie najwyższy prawdopodobieństwo 454 00:22:10,010 --> 00:22:11,940 prawdopodobieństwo klasy danego słowa. 455 00:22:11,940 --> 00:22:17,610 Więc w tym przypadku, Gaga dane "dziecko". Lub Katy dane "dziecko". Ma sens? 456 00:22:17,610 --> 00:22:21,040 >> I właśnie z Bayesa, że Równanie, które pokazałem, 457 00:22:21,040 --> 00:22:24,780 tworzymy tę frakcję. 458 00:22:24,780 --> 00:22:28,750 Jedyną rzeczą jest to, że widać, że Prawdopodobieństwo słowa podane 459 00:22:28,750 --> 00:22:31,370 zmienia się w zależności od klasy od klasy, prawda? 460 00:22:31,370 --> 00:22:34,260 Liczba "dziecko" s, które mam w Gaga różni się od Katy. 461 00:22:34,260 --> 00:22:37,640 Prawdopodobieństwa klasy również zmiany, bo to po prostu numer 462 00:22:37,640 --> 00:22:39,740 pieśni każdy z nich ma. 463 00:22:39,740 --> 00:22:43,980 >> Jednakże prawdopodobieństwo tego słowa będzie taka sama dla wszystkich 464 00:22:43,980 --> 00:22:44,740 artyści, prawda? 465 00:22:44,740 --> 00:22:47,150 Tak więc prawdopodobieństwo tego słowa jest tylko to, co jest prawdopodobieństwo 466 00:22:47,150 --> 00:22:49,820 widząc to słowo w Język angielski? 467 00:22:49,820 --> 00:22:51,420 Więc to jest taki sam dla wszystkich. 468 00:22:51,420 --> 00:22:55,790 Tak, ponieważ jest to stała, możemy po prostu spadek ten i nie dbam o to. 469 00:22:55,790 --> 00:23:00,230 Tak więc będzie to rzeczywiście Równanie szukamy. 470 00:23:00,230 --> 00:23:03,360 >> A jeśli mam wiele słów, jestem nadal będziemy mieć przed 471 00:23:03,360 --> 00:23:04,610 prawdopodobieństwo tutaj. 472 00:23:04,610 --> 00:23:06,980 Jedyną rzeczą jest to, że ja, mnożąc prawdopodobieństwo 473 00:23:06,980 --> 00:23:08,490 wszystkie inne słowa. 474 00:23:08,490 --> 00:23:10,110 Więc jestem mnożąc je wszystkie. 475 00:23:10,110 --> 00:23:12,610 Ma sens? 476 00:23:12,610 --> 00:23:18,440 Wygląda to dziwnie, ale w zasadzie oznacza, obliczyć przed klasy, i 477 00:23:18,440 --> 00:23:22,100 następnie pomnożyć przez prawdopodobieństwo każdego słów znajdujących się w tej klasie. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> I wiesz, że prawdopodobieństwo Słowo podana klasa będzie 480 00:23:29,150 --> 00:23:34,520 ile razy można zauważyć, że słowo klasa ta podzielona przez liczbę 481 00:23:34,520 --> 00:23:37,020 słowa, które masz w Klasa w ogóle. 482 00:23:37,020 --> 00:23:37,990 Ma sens? 483 00:23:37,990 --> 00:23:41,680 To jest po prostu jak "dziecko" było 2 nad liczba słów, które 484 00:23:41,680 --> 00:23:43,020 Miałem w tekstach. 485 00:23:43,020 --> 00:23:45,130 Tak właśnie częstotliwość. 486 00:23:45,130 --> 00:23:46,260 >> Ale jest jedna rzecz. 487 00:23:46,260 --> 00:23:51,250 Pamiętam, jak byłem pokazując, że prawdopodobieństwo będących piosenki "Baby" z 488 00:23:51,250 --> 00:23:56,350 z Katy Perry był tylko dlatego, że Katy 0 Perry nie ma "dziecko" w ogóle? 489 00:23:56,350 --> 00:24:04,900 Ale brzmi to trochę trudne do zaledwie po prostu powiedzieć, że teksty nie mogą być z 490 00:24:04,900 --> 00:24:10,040 Artysta po prostu dlatego, że nie ma słowo w szczególności w dowolnym czasie. 491 00:24:10,040 --> 00:24:13,330 >> Więc może po prostu powiedzieć, dobrze, jeśli nie ma tego słowa, mam zamiar 492 00:24:13,330 --> 00:24:15,640 daje mniejsze prawdopodobieństwo, ale ja po prostu nie będzie 493 00:24:15,640 --> 00:24:17,420 daje 0 od razu. 494 00:24:17,420 --> 00:24:21,040 Ponieważ może to było coś w stylu: "Ogień, ogień, ogień, ogień", który jest 495 00:24:21,040 --> 00:24:21,990 całkowicie Katy Perry. 496 00:24:21,990 --> 00:24:26,060 A następnie "dziecko" i to tylko po to, aby 0 od razu, bo był jeden 497 00:24:26,060 --> 00:24:27,250 "Dziecko". 498 00:24:27,250 --> 00:24:31,440 >> Więc w zasadzie to, co robimy, jest czymś nazywa Laplace wygładzanie. 499 00:24:31,440 --> 00:24:36,260 A to po prostu oznacza, że ​​daję pewne prawdopodobieństwo nawet do słów 500 00:24:36,260 --> 00:24:37,850 że nie istnieją. 501 00:24:37,850 --> 00:24:43,170 Więc co zrobić, jest to, że kiedy jestem obliczania tego, zawsze dodać 1 do 502 00:24:43,170 --> 00:24:44,180 licznik. 503 00:24:44,180 --> 00:24:48,060 Więc nawet jeśli słowo nie istnieje, w W tym przypadku, jeżeli jest to 0, nadal jestem 504 00:24:48,060 --> 00:24:51,250 obliczenia to jak 1 na całkowita liczba słów. 505 00:24:51,250 --> 00:24:55,060 W przeciwnym razie, rozumiem, jak wiele słów Mam i ja dodać 1. 506 00:24:55,060 --> 00:24:58,300 Więc liczę na obu przypadkach. 507 00:24:58,300 --> 00:25:00,430 Ma sens? 508 00:25:00,430 --> 00:25:03,060 >> Więc teraz zróbmy jakieś kodowanie. 509 00:25:03,060 --> 00:25:06,440 Mam zamiar zrobić to dość szybko, ale to jest po prostu ważne, aby 510 00:25:06,440 --> 00:25:08,600 Chłopaki zrozumieć pojęcia. 511 00:25:08,600 --> 00:25:13,450 Więc to, co staramy się robić to jest dokładnie to, wdrożenia 512 00:25:13,450 --> 00:25:14,330 rzecz, że ja po prostu powiedział - 513 00:25:14,330 --> 00:25:19,110 Chcę umieścić słowa z Lady Gaga i Katy Perry. 514 00:25:19,110 --> 00:25:22,980 Oraz program będzie mógł powiedzieć, czy te nowe piosenki są od Gagi 515 00:25:22,980 --> 00:25:24,170 czy Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Ma sens? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Więc mam ten program mam zamiar zadzwonić classify.py. 519 00:25:30,710 --> 00:25:31,970 Więc to jest Python. 520 00:25:31,970 --> 00:25:34,210 Jest to nowy język programowania. 521 00:25:34,210 --> 00:25:38,020 To jest bardzo podobny w kilku sposoby na C i PHP. 522 00:25:38,020 --> 00:25:43,180 Jest podobny, ponieważ jeśli chcesz nauczyć się Pythona po wiedząc C, to 523 00:25:43,180 --> 00:25:46,270 naprawdę nie jest wielkie wyzwanie tylko dlatego, że Python jest dużo łatwiejsze 524 00:25:46,270 --> 00:25:47,520 nie C, przede wszystkim. 525 00:25:47,520 --> 00:25:49,370 I wiele rzeczy już są realizowane dla Ciebie. 526 00:25:49,370 --> 00:25:56,820 Tak, jak jak PHP ma funkcje, które posortować listę, lub dodać coś 527 00:25:56,820 --> 00:25:58,780 do tablicy, lub bla, bla, bla. 528 00:25:58,780 --> 00:26:00,690 Python posiada wszystkie te, jak również. 529 00:26:00,690 --> 00:26:05,960 >> Więc jestem po prostu się szybko wyjaśnić w jaki sposób możemy zrobić klasyfikacji 530 00:26:05,960 --> 00:26:07,860 problem tutaj. 531 00:26:07,860 --> 00:26:13,230 Powiedzmy, że w tym przypadku, mam Tekst piosenki z Gaga i Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Sposób, że mam to, że te słowa pierwsze słowo tekstu jest 533 00:26:21,880 --> 00:26:25,250 nazwa artysty oraz Reszta to słowa. 534 00:26:25,250 --> 00:26:29,470 Więc powiedzmy, że mam tę listę w Tekst i słowa piosenki Gagi, która jest pierwsza. 535 00:26:29,470 --> 00:26:31,930 Więc tutaj jestem na dobrej drodze. 536 00:26:31,930 --> 00:26:35,270 A następny jest Katy, i ma też słowa. 537 00:26:35,270 --> 00:26:38,040 >> Tak to jest, jak się oświadczyć zmienna w Pythonie. 538 00:26:38,040 --> 00:26:40,200 Nie musisz dać typ danych. 539 00:26:40,200 --> 00:26:43,150 Po prostu napisać "teksty" Trochę jak w PHP. 540 00:26:43,150 --> 00:26:44,890 Ma sens? 541 00:26:44,890 --> 00:26:47,770 >> Więc jakie są rzeczy, które muszę obliczyć, aby móc obliczyć 542 00:26:47,770 --> 00:26:49,360 prawdopodobieństwa? 543 00:26:49,360 --> 00:26:55,110 Mam do obliczenia "a priori" każdego inaczej 544 00:26:55,110 --> 00:26:56,710 Klasy, które mam. 545 00:26:56,710 --> 00:27:06,680 Mam do obliczenia "posteriors," lub dość dużo prawdopodobieństwo 546 00:27:06,680 --> 00:27:12,150 każdy z poszczególnych słów Mogę mieć dla każdego artysty. 547 00:27:12,150 --> 00:27:17,210 Tak więc w ciągu Gaga, na przykład, mam zamiar mieć listę ile razy widzę 548 00:27:17,210 --> 00:27:19,250 każde z tych słów. 549 00:27:19,250 --> 00:27:20,760 Ma sens? 550 00:27:20,760 --> 00:27:25,370 >> I wreszcie, po prostu będzie musiał lista nazywa się "Słowa", który jest po prostu będzie 551 00:27:25,370 --> 00:27:29,780 mieć jak wiele słów I mają dla każdego artysty. 552 00:27:29,780 --> 00:27:33,760 Więc dla Gagi, na przykład, kiedy patrzę do słów, ja, myślę, że 24 553 00:27:33,760 --> 00:27:34,750 słowa w sumie. 554 00:27:34,750 --> 00:27:38,970 Więc ta lista jest po prostu będzie musiał Gaga 24, a Katy inny numer. 555 00:27:38,970 --> 00:27:40,130 Ma sens? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Więc teraz, rzeczywiście, niech Do kodowania. 558 00:27:42,530 --> 00:27:45,270 Więc w Pythonie, można rzeczywiście powrót kilka różnych 559 00:27:45,270 --> 00:27:46,630 rzeczy z funkcji. 560 00:27:46,630 --> 00:27:50,810 Więc mam zamiar utworzyć tę funkcję nazwie "warunkowa", który będzie 561 00:27:50,810 --> 00:27:53,890 , aby powrócić wszystkie z tych rzeczy, "Kapłani," w "prawdopodobieństwa", a 562 00:27:53,890 --> 00:28:05,690 "słowa". Więc "warunkowe", a to będzie wzywając do "tekstu". 563 00:28:05,690 --> 00:28:11,510 >> Więc teraz chcę, żebyś naprawdę Napisać funkcję. 564 00:28:11,510 --> 00:28:17,750 Tak droga, że ​​mogę napisać to Funkcja jest zdefiniowana w tym właśnie 565 00:28:17,750 --> 00:28:20,620 funkcjonować z "def". Więc zrobiłem "def warunkowego, "i to przy 566 00:28:20,620 --> 00:28:28,700 "Słowa". A co to będzie zrobić jest, przede wszystkim, mam priori 567 00:28:28,700 --> 00:28:31,030 że chcę obliczyć. 568 00:28:31,030 --> 00:28:34,330 >> Tak sposób, że można to zrobić, to stworzyć Słownik w Pythonie, które 569 00:28:34,330 --> 00:28:37,320 jest prawie to samo, co hash stół, lub jak to jest iteracyjny 570 00:28:37,320 --> 00:28:40,480 Tablica w PHP. 571 00:28:40,480 --> 00:28:44,150 To jest jak Oświadczam słownika. 572 00:28:44,150 --> 00:28:53,580 I w zasadzie oznacza to, że przeorowie z Gaga 0.5, na przykład w przypadku 573 00:28:53,580 --> 00:28:57,200 50% tekstów są od Gaga, 50% pochodzi z Katy. 574 00:28:57,200 --> 00:28:58,450 Ma sens? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Więc muszę dowiedzieć się, jak do obliczania prawdopodobieństw a priori. 577 00:29:03,680 --> 00:29:07,120 >> Kolejne z nich, że muszę to zrobić, również, są prawdopodobieństwa i słowa. 578 00:29:07,120 --> 00:29:17,100 Więc prawdopodobieństwo Gaga lista wszystkich prawdopodobieństw, że 579 00:29:17,100 --> 00:29:19,160 mają dla każdego z wyrazów dla Gagi. 580 00:29:19,160 --> 00:29:23,880 Więc jeśli pójdę do prawdopodobieństw Gaga "Dziecko", na przykład, to da mi 581 00:29:23,880 --> 00:29:28,750 coś jak 2 na 24 w tym przypadku. 582 00:29:28,750 --> 00:29:30,070 Ma sens? 583 00:29:30,070 --> 00:29:36,120 Więc idę do "prawdopodobieństwa", przejdź do "Gaga" wiadro, że ma listę wszystkich 584 00:29:36,120 --> 00:29:40,550 słowa Gaga, a następnie przejść do "dziecka" i widzę prawdopodobieństwa. 585 00:29:40,550 --> 00:29:45,940 >> I wreszcie mam to "Słowa" słownika. 586 00:29:45,940 --> 00:29:53,620 Więc, "prawdopodobieństwa". A następnie "słowa". Więc jeśli ja "słowa:" "Gaga" 587 00:29:53,620 --> 00:29:58,330 co wydarzy się to, że jest to da mi 24, mówiąc, że 588 00:29:58,330 --> 00:30:01,990 ma 24 wyrazów ciągu tekstu z Gaga. 589 00:30:01,990 --> 00:30:04,110 Ma sens? 590 00:30:04,110 --> 00:30:07,070 Więc, "słowa" równa Dah-Dah-Dah. 591 00:30:07,070 --> 00:30:07,620 Dobrze 592 00:30:07,620 --> 00:30:12,210 >> Więc, co mam zamiar zrobić, to będę iteracyjne nad każdym z tekstów, więc 593 00:30:12,210 --> 00:30:14,490 każdego z ciągów Mam na liście. 594 00:30:14,490 --> 00:30:18,040 I idę do obliczania tych rzeczy Dla każdego z kandydatów. 595 00:30:18,040 --> 00:30:19,950 Ma sens? 596 00:30:19,950 --> 00:30:21,700 Więc muszę zrobić dla pętli. 597 00:30:21,700 --> 00:30:26,300 >> W Pythonie, więc co mogę zrobić, to "dla linii w tekstach. "to samo, co 598 00:30:26,300 --> 00:30:28,000 "Dla każdego" oświadczenie w PHP. 599 00:30:28,000 --> 00:30:33,420 Pamiętam, jak gdyby to było PHP mogłem powiedzieć "dla każdego tekstu, jak 600 00:30:33,420 --> 00:30:35,220 linia. "To ma sens? 601 00:30:35,220 --> 00:30:38,900 Więc biorę każdej z linii, w tym przypadek, ten ciąg i następne 602 00:30:38,900 --> 00:30:44,540 Ciąg więc dla każdej z linii, co mam zamiar zrobić, to po pierwsze, mam zamiar 603 00:30:44,540 --> 00:30:49,150 podzielić ten wiersz na liście wyrazy oddzielone spacjami. 604 00:30:49,150 --> 00:30:53,730 >> Tak Świetną rzeczą jest to, że Python można po prostu Google jak: "Jak mogę 605 00:30:53,730 --> 00:30:58,220 podzielić ciąg w słowa? "I to jest powiem ci, jak to zrobić. 606 00:30:58,220 --> 00:31:04,890 I sposób na to, że to tylko "linia = Line.split () "i to w zasadzie 607 00:31:04,890 --> 00:31:08,640 będzie Ci listę z każdy z tu słowa. 608 00:31:08,640 --> 00:31:09,620 Ma sens? 609 00:31:09,620 --> 00:31:15,870 Więc teraz, że ja, że ​​chcę wiedzieć który jest wokalista tej piosenki. 610 00:31:15,870 --> 00:31:20,130 A do tego po prostu trzeba uzyskać pierwszy element tablicy, prawda? 611 00:31:20,130 --> 00:31:26,390 Więc mogę tylko powiedzieć, że "piosenkarka = Linia (0) "ma sens? 612 00:31:26,390 --> 00:31:32,010 >> A następnie, co muszę zrobić, to przede wszystko, mam zamiar zaktualizować ile 613 00:31:32,010 --> 00:31:36,130 słowa mam w "Gaga". więc jestem będzie obliczyć, ile wyrazów i 614 00:31:36,130 --> 00:31:38,690 ma na tej liście, prawda? 615 00:31:38,690 --> 00:31:41,910 Ponieważ jest to, jak wiele słów mam w tekstach, a ja po prostu się do 616 00:31:41,910 --> 00:31:44,120 dodać go do "Gaga" tablicy. 617 00:31:44,120 --> 00:31:47,090 Czy to ma sens? 618 00:31:47,090 --> 00:31:49,010 Nie za bardzo skupiają się na składni. 619 00:31:49,010 --> 00:31:50,430 Myśleć o koncepcji. 620 00:31:50,430 --> 00:31:52,400 To jest najważniejsza część. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Więc co można zrobić, to jest, czy "Gaga" jest już w tym wykazie, tak ", jeśli piosenkarka w 623 00:32:00,260 --> 00:32:03,190 Słowa ", co oznacza, że ​​już mają słowa przez Gaga. 624 00:32:03,190 --> 00:32:06,640 Chcę tylko dodać dodatkowe Słowa do tego. 625 00:32:06,640 --> 00:32:15,810 Więc co mam zrobić, to "słowa (Singer) + = Len (linia) - 1 ". 626 00:32:15,810 --> 00:32:18,250 I wtedy mogę po prostu zrobić długość linii. 627 00:32:18,250 --> 00:32:21,860 Tak jak wiele elementów I ma w tablicy. 628 00:32:21,860 --> 00:32:27,060 I muszę zrobić minus 1 tylko dlatego, Pierwszy element tablicy jest tylko 629 00:32:27,060 --> 00:32:29,180 piosenkarz i to nie są słowa. 630 00:32:29,180 --> 00:32:31,420 Ma sens? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Else", to znaczy, że chcę, aby właściwie wstawić Gaga na liście. 633 00:32:35,820 --> 00:32:45,990 Więc po prostu zrobić "słowa (piosenkarka) = Len (linia) - 1, "przepraszam. 634 00:32:45,990 --> 00:32:49,200 Tak więc jedynie różnice pomiędzy tymi dwoma Linie jest ten, że nie ma 635 00:32:49,200 --> 00:32:51,080 istnieje jeszcze, więc jestem inicjalizacji. 636 00:32:51,080 --> 00:32:53,820 Ten Jestem rzeczywiście dodanie. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Więc to było dodanie do słowa. 639 00:32:59,480 --> 00:33:03,040 >> Teraz chcę dodać do priors. 640 00:33:03,040 --> 00:33:05,480 Więc jak mam wyliczyć a priori? 641 00:33:05,480 --> 00:33:11,580 Prawdopodobieństwa a priori można obliczyć przez ile razy. 642 00:33:11,580 --> 00:33:15,340 Więc ile razy widać, że piosenkarka wśród wszystkich śpiewaków, że Ty 643 00:33:15,340 --> 00:33:16,380 mieć, prawda? 644 00:33:16,380 --> 00:33:18,810 Więc dla Gaga i Katy Perry, w tym przypadku, widzę Gaga 645 00:33:18,810 --> 00:33:20,570 raz, Katy Perry raz. 646 00:33:20,570 --> 00:33:23,320 >> Więc w zasadzie prawdopodobieństwa a priori dla Gaga i byłoby dla Katy Perry 647 00:33:23,320 --> 00:33:24,390 być tylko jeden, prawda? 648 00:33:24,390 --> 00:33:26,500 Po prostu, ile razy Widzę artystę. 649 00:33:26,500 --> 00:33:28,740 Więc to jest bardzo łatwe do obliczenia. 650 00:33:28,740 --> 00:33:34,100 Mogę tylko coś podobnego, jak np. "jeśli Piosenkarka w priors, "Idę 651 00:33:34,100 --> 00:33:38,970 dodać 1 do swojej skrzynki priors. 652 00:33:38,970 --> 00:33:51,000 Tak więc, "Kapłani (śpiewa)" + = 1 ", a następnie" inny " Mam zamiar zrobić "a priori (Singer) 653 00:33:51,000 --> 00:33:55,000 = 1. "To ma sens? 654 00:33:55,000 --> 00:34:00,080 >> Więc jeśli to nie istnieje po prostu umieścić jako 1, w przeciwnym razie po prostu dodać 1. 655 00:34:00,080 --> 00:34:11,280 OK, więc teraz wszystko, co mam do zrobienia jest również dodanie każdego ze słów 656 00:34:11,280 --> 00:34:12,290 prawdopodobieństwa. 657 00:34:12,290 --> 00:34:14,889 Więc muszę się liczyć, ile razy Widzę siebie słów. 658 00:34:14,889 --> 00:34:18,780 Więc po prostu trzeba zrobić kolejny do pętli w linii. 659 00:34:18,780 --> 00:34:25,190 >> Tak więc pierwszą rzeczą, że mam zamiar zrobić, to sprawdzić, czy piosenkarka ma już 660 00:34:25,190 --> 00:34:26,969 Prawdopodobieństwa tablicy. 661 00:34:26,969 --> 00:34:31,739 Więc jestem sprawdzenie, czy piosenkarka nie posiada tablicę prawdopodobieństw, jestem 662 00:34:31,739 --> 00:34:34,480 zamierza zainicjować jeden dla nich. 663 00:34:34,480 --> 00:34:36,400 To nie jest nawet tablica, przepraszam, jest to słownik. 664 00:34:36,400 --> 00:34:43,080 Więc prawdopodobieństwo piosenkarka zamierza być otwarty słownik, więc jestem 665 00:34:43,080 --> 00:34:45,830 tylko inicjowanie słownik dla niego. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> A teraz mogę rzeczywiście zrobić dla pętli do obliczania każdego ze słów " 668 00:34:58,330 --> 00:35:00,604 prawdopodobieństwa. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Więc co mogę zrobić, to dla pętli. 671 00:35:04,160 --> 00:35:06,590 Więc jestem po prostu się do iteracji na tablicy. 672 00:35:06,590 --> 00:35:15,320 Tak sposób, że można to zrobić w Pythonie jest "for i in range". Od 1 673 00:35:15,320 --> 00:35:19,200 bo chcę rozpocząć w drugim elementem, ponieważ pierwszy z nich jest 674 00:35:19,200 --> 00:35:20,260 Nazwa piosenkarka. 675 00:35:20,260 --> 00:35:24,990 Tak więc od jednego do długość linii. 676 00:35:24,990 --> 00:35:29,760 I kiedy tak naprawdę nie wahają się go z jak tu od 1 do LEN 677 00:35:29,760 --> 00:35:30,740 linia minus 1. 678 00:35:30,740 --> 00:35:33,810 Więc to już nie robi to coś z n minus 1 do tablic, które jest bardzo 679 00:35:33,810 --> 00:35:35,500 wygodne. 680 00:35:35,500 --> 00:35:37,850 Ma sens? 681 00:35:37,850 --> 00:35:42,770 >> Więc dla każdego z nich, co mam zamiar nie jest, podobnie jak w drugim, 682 00:35:42,770 --> 00:35:50,320 Idę sprawdzić, czy słowo to położenie w linii jest już 683 00:35:50,320 --> 00:35:51,570 prawdopodobieństwa. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 A potem jak już powiedziałem tutaj, prawdopodobieństwa słowa, jak w I umieścić 686 00:35:57,260 --> 00:35:58,400 Prawdopodobieństwa "(Singer)". 687 00:35:58,400 --> 00:35:59,390 Więc nazwa wykonawcy. 688 00:35:59,390 --> 00:36:03,450 Więc jeśli to jest już w "Probabilit (piosenkarka)", oznacza to, że 689 00:36:03,450 --> 00:36:11,960 dodać 1 do niego, więc mam zamiar zrobić "(Singer) prawdopodobieństwa", oraz 690 00:36:11,960 --> 00:36:14,100 Słowo jest "linii (i)". 691 00:36:14,100 --> 00:36:22,630 Mam zamiar dodać 1 i "innego" Jestem po prostu zamierza zainicjować go do 1. 692 00:36:22,630 --> 00:36:23,880 "Linia (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Ma sens? 695 00:36:28,420 --> 00:36:30,180 >> Tak więc, obliczono wszystkich tablic. 696 00:36:30,180 --> 00:36:36,580 Tak, teraz wszystko, co musisz zrobić, aby to jest po prostu "wrócić priori, 697 00:36:36,580 --> 00:36:43,230 prawdopodobieństwa i słowa. "Chodźmy zobaczyć, czy są jakieś, OK. 698 00:36:43,230 --> 00:36:45,690 Wydaje się, wszystko działa do tej pory. 699 00:36:45,690 --> 00:36:46,900 Tak, to ma sens? 700 00:36:46,900 --> 00:36:47,750 W jakiś sposób? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Więc teraz mam wszystkie prawdopodobne. 703 00:36:51,980 --> 00:36:55,100 Teraz jedyne co mi pozostało jest po prostu mieć to coś, że 704 00:36:55,100 --> 00:36:58,650 oblicza się iloczyn wszystkich prawdopodobieństw kiedy się słowa. 705 00:36:58,650 --> 00:37:06,270 >> Powiedzmy, że chcę teraz dzwonić Funkcja "klasyfikowanie ()" i 706 00:37:06,270 --> 00:37:08,880 rzecz, że funkcja przyjmuje jest tylko argumentem. 707 00:37:08,880 --> 00:37:13,170 Powiedzmy, że "Kochanie, jestem w ogniu" i jest zamiar dowiedzieć się, co jest 708 00:37:13,170 --> 00:37:14,490 Prawdopodobieństwo to jest Gaga? 709 00:37:14,490 --> 00:37:16,405 Jakie jest prawdopodobieństwo, że Katie? 710 00:37:16,405 --> 00:37:19,690 Brzmi dobrze? 711 00:37:19,690 --> 00:37:25,750 Więc jestem po prostu będzie trzeba tworzyć Nowa funkcja o nazwie "klasyfikacji ()" i 712 00:37:25,750 --> 00:37:29,180 to zajmie trochę teksty piosenek, jak również. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 A poza tym ja też teksty muszą wysyłać priori, 715 00:37:36,160 --> 00:37:37,700 prawdopodobieństwa i słowa. 716 00:37:37,700 --> 00:37:44,000 Więc mam zamiar wysłać teksty, a priori, prawdopodobieństwa, słowa. 717 00:37:44,000 --> 00:37:51,840 >> Więc to bierze teksty, a priori, prawdopodobieństwa, słowa. 718 00:37:51,840 --> 00:37:53,530 Więc, co to robi? 719 00:37:53,530 --> 00:37:57,180 To w zasadzie będzie przejść przez wszystkie możliwe, że kandydaci 720 00:37:57,180 --> 00:37:58,510 mieć jako piosenkarka. 721 00:37:58,510 --> 00:37:59,425 A gdzie są te kandydaci? 722 00:37:59,425 --> 00:38:01,020 Są w priors, prawda? 723 00:38:01,020 --> 00:38:02,710 Tak mam wszystkie te tam. 724 00:38:02,710 --> 00:38:07,870 Więc mam zamiar mieć słownika wszystkich potencjalnych kandydatów. 725 00:38:07,870 --> 00:38:14,220 A następnie dla każdego kandydata w prawdopodobieństwa a priori, więc to oznacza, że ​​to będzie 726 00:38:14,220 --> 00:38:17,740 być Gaga, Katie gdybym miał więcej byłoby więcej. 727 00:38:17,740 --> 00:38:20,410 Mam zamiar rozpocząć obliczenia to prawdopodobieństwo. 728 00:38:20,410 --> 00:38:28,310 Prawdopodobieństwo, jak widzieliśmy w PowerPoint jest uprzednie razy 729 00:38:28,310 --> 00:38:30,800 Produkt każdej z Inne prawdopodobieństwa. 730 00:38:30,800 --> 00:38:32,520 >> Więc można zrobić tutaj sam. 731 00:38:32,520 --> 00:38:36,330 Mogę tylko zrobić prawdopodobieństwo jest początkowo tylko przed. 732 00:38:36,330 --> 00:38:40,340 Tak priors kandydata. 733 00:38:40,340 --> 00:38:40,870 Prawda? 734 00:38:40,870 --> 00:38:45,360 I teraz mam do iteracyjne nad wszystkie Słowa, które mam w tekstach być 735 00:38:45,360 --> 00:38:48,820 w stanie dodać prawdopodobieństwa dla każdego z nich, w porządku? 736 00:38:48,820 --> 00:38:57,900 Tak więc, "na słowo w teksty" co zamierzam zrobić to, jeśli słowo jest w 737 00:38:57,900 --> 00:39:01,640 "prawdopodobieństw (kandydujących)", który Oznacza to, że jest to słowo, które 738 00:39:01,640 --> 00:39:03,640 kandydat posiada w swoich tekstach - 739 00:39:03,640 --> 00:39:05,940 na przykład, "dziecko" dla Gaga - 740 00:39:05,940 --> 00:39:11,710 co mam zamiar zrobić, to, że prawdopodobieństwo zostanie pomnożona 741 00:39:11,710 --> 00:39:22,420 przez 1 plus prawdopodobieństw Kandydat na to słowo. 742 00:39:22,420 --> 00:39:25,710 I to się nazywa "Słowo". 743 00:39:25,710 --> 00:39:32,440 Ten podzielony przez liczbę słów że mam do tego kandydata. 744 00:39:32,440 --> 00:39:37,450 Całkowita liczba słów, które mam dla piosenkarza, że ​​patrzę. 745 00:39:37,450 --> 00:39:40,290 >> "Inaczej". oznacza to, że jest to nowe słowo tak, że to będzie jak na przykład 746 00:39:40,290 --> 00:39:41,860 "Ogień" do Lady Gagi. 747 00:39:41,860 --> 00:39:45,760 Więc po prostu chcę zrobić 1 na "Słowo (kandydat)". 748 00:39:45,760 --> 00:39:47,710 Więc nie chcę, aby umieścić ten termin tutaj. 749 00:39:47,710 --> 00:39:50,010 >> Więc to będzie w zasadzie kopiowanie i wklejanie tego. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Ale mam zamiar usunąć tę część. 752 00:39:56,000 --> 00:39:57,610 Więc to tylko będzie 1 nad tym. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Brzmi dobrze? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 A teraz na koniec, jestem po prostu będzie wydrukować nazwisko kandydata oraz 757 00:40:09,700 --> 00:40:15,750 prawdopodobieństwo, że masz z mając S na ich teksty. 758 00:40:15,750 --> 00:40:16,200 Ma sens? 759 00:40:16,200 --> 00:40:18,390 I nawet nie w rzeczywistości Potrzebujemy tego słownika. 760 00:40:18,390 --> 00:40:19,510 Ma sens? 761 00:40:19,510 --> 00:40:21,810 >> Więc zobaczymy, czy to faktycznie działa. 762 00:40:21,810 --> 00:40:24,880 Więc jeśli to uruchomić, to nie działa. 763 00:40:24,880 --> 00:40:26,130 Odczekaj chwilę. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Słowa (kandydujących)", "słowa (kandydujących)", to 766 00:40:31,720 --> 00:40:33,750 Nazwa tej tablicy. 767 00:40:33,750 --> 00:40:41,435 OK, więc to mówi, że jest jakiś błąd dla kandydata w priors. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Pozwól mi po prostu odpocząć trochę. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Spróbujmy. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Więc daje to Katy Perry ma Prawdopodobieństwo to razy 10 do 774 00:40:58,710 --> 00:41:02,200 minus 7, a Gaga ma to razy 10 do minus 6. 775 00:41:02,200 --> 00:41:05,610 Więc widać, że pokazuje, że Gaga ma większe prawdopodobieństwo. 776 00:41:05,610 --> 00:41:09,260 Tak "Kochanie, jestem w ogniu" jest Prawdopodobnie piosenka Gaga. 777 00:41:09,260 --> 00:41:10,580 Ma sens? 778 00:41:10,580 --> 00:41:12,030 Więc to jest to, co zrobiliśmy. 779 00:41:12,030 --> 00:41:16,010 >> Ten kod ma być umieszczone w Internecie, tak chłopaki mogą to sprawdzić. 780 00:41:16,010 --> 00:41:20,720 Może korzystać z niego na kilka, jeśli chcesz zrobić projekt lub coś podobnego. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 To było po prostu pokazać co obliczeniowa 783 00:41:25,930 --> 00:41:27,230 Kod lingwistyka wygląda. 784 00:41:27,230 --> 00:41:33,040 Ale teraz chodźmy do więcej rzeczy wysoki poziom. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Więc ja się inne problemy mówił o - 787 00:41:35,150 --> 00:41:37,550 Problem segmentacji jest pierwszym z nich. 788 00:41:37,550 --> 00:41:40,820 Więc masz tu Japończyków. 789 00:41:40,820 --> 00:41:43,420 I wtedy zobaczysz, że nie ma spacji. 790 00:41:43,420 --> 00:41:49,110 Tak to jest w zasadzie oznacza, że ​​jest to góry na krześle, tak? 791 00:41:49,110 --> 00:41:50,550 Mówisz po japońsku? 792 00:41:50,550 --> 00:41:52,840 To top krzesła, prawda? 793 00:41:52,840 --> 00:41:54,480 >> Student: Nie wiem, co kanji tam jest. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS: To [EGZAMIN japońskich] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Więc to w zasadzie oznacza przewodniczenie górze. 797 00:42:00,960 --> 00:42:03,620 Więc jeśli miał umieścić spację byłoby tutaj. 798 00:42:03,620 --> 00:42:05,970 I wtedy masz [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 Co oznacza, panie Ueda. 800 00:42:09,040 --> 00:42:13,180 I widzisz, że "Ueda" i masz miejsca, a następnie "san". Więc widać, że 801 00:42:13,180 --> 00:42:15,470 tu jesteś "Ue" jest jak sama. 802 00:42:15,470 --> 00:42:17,750 I tu ma charakter obok niego. 803 00:42:17,750 --> 00:42:21,720 >> Więc to nie jest tak, jak w tych językach znaki oznaczające słowo to więc 804 00:42:21,720 --> 00:42:23,980 wystarczy umieścić dużo przestrzeni. 805 00:42:23,980 --> 00:42:25,500 Postacie dotyczą siebie. 806 00:42:25,500 --> 00:42:28,680 I mogą być wspólnie jak dwa, trzy, jeden. 807 00:42:28,680 --> 00:42:34,520 Więc trzeba rzeczywiście stworzyć jakiś o sposób wprowadzenia tych przestrzeni. 808 00:42:34,520 --> 00:42:38,850 >> I to jest to, że gdy masz Dane z tych języków azjatyckich, 809 00:42:38,850 --> 00:42:40,580 wszystko pochodzi niesegmentowany. 810 00:42:40,580 --> 00:42:45,940 Bo nikt, kto pisze po japońsku lub chiński pisze ze spacjami. 811 00:42:45,940 --> 00:42:48,200 Każdym razem, gdy piszesz chiński, Japoński po prostu napisać wszystko 812 00:42:48,200 --> 00:42:48,710 bez spacji. 813 00:42:48,710 --> 00:42:52,060 To nie ma sensu umieścić spacji. 814 00:42:52,060 --> 00:42:57,960 Więc kiedy się dane z, niektóre Wschód języków azjatyckich, jeśli chcesz 815 00:42:57,960 --> 00:43:00,760 faktycznie coś z tym zrobić masz do pierwszego segmentu. 816 00:43:00,760 --> 00:43:05,130 >> Myśleć robi przykład słowa bez spacji. 817 00:43:05,130 --> 00:43:07,950 Więc jedyne słowa, które trzeba będzie zdania, prawda? 818 00:43:07,950 --> 00:43:09,470 Oddzielonych kropkami. 819 00:43:09,470 --> 00:43:13,930 Ale potem, będzie tylko zdanie naprawdę nie pomaga na udzielaniu informacji 820 00:43:13,930 --> 00:43:17,760 kto te teksty są przez. 821 00:43:17,760 --> 00:43:18,120 Prawda? 822 00:43:18,120 --> 00:43:20,010 Należy więc stawia pierwsze miejsca. 823 00:43:20,010 --> 00:43:21,990 Więc w jaki sposób można to zrobić? 824 00:43:21,990 --> 00:43:24,920 >> Tak to jest pomysł na języku Model, który jest czymś naprawdę 825 00:43:24,920 --> 00:43:26,870 ważne dla obliczeniowych językoznawstwo. 826 00:43:26,870 --> 00:43:32,790 Więc model jest w zasadzie językiem Tabela prawdopodobieństw, że pokazy 827 00:43:32,790 --> 00:43:36,260 Przede wszystkim, co jest prawdopodobieństwo mieć słowo w języku? 828 00:43:36,260 --> 00:43:39,590 Więc widać, jak często słowo. 829 00:43:39,590 --> 00:43:43,130 A następnie również pokazujący zależność między wyrazami w zdaniu. 830 00:43:43,130 --> 00:43:51,500 >> Tak więc główną ideą jest, jeśli ktoś obcy przyszedł do ciebie i powiedział zdanie na 831 00:43:51,500 --> 00:43:55,600 ci, jakie jest prawdopodobieństwo, że dla Przykład: "To jest moja siostra [GTF?"?] 832 00:43:55,600 --> 00:43:57,480 był zdania, że ​​człowiek mówi? 833 00:43:57,480 --> 00:44:00,380 Więc oczywiście niektóre zdania są częściej niż inne. 834 00:44:00,380 --> 00:44:04,450 Na przykład, "dzień dobry" lub "dobry noc "lub" Cześć ", jest znacznie bardziej 835 00:44:04,450 --> 00:44:08,260 powszechne niż w większości zdań że mamy po angielsku. 836 00:44:08,260 --> 00:44:11,060 Więc dlaczego są te zdania częstsze? 837 00:44:11,060 --> 00:44:14,060 >> Przede wszystkim dlatego, że masz Słowa, które są częstsze. 838 00:44:14,060 --> 00:44:20,180 Tak więc, na przykład, jeśli powiesz, że pies jest duży, a pies jest gigantyczny, to 839 00:44:20,180 --> 00:44:23,880 Prawdopodobnie usłyszeć zazwyczaj jest duży pies częściej, bo "duży" jest bardziej 840 00:44:23,880 --> 00:44:27,260 często w języku angielskim niż "gigantyczny". Tak więc, jednym z 841 00:44:27,260 --> 00:44:30,100 rzeczy jest częstotliwość słowo. 842 00:44:30,100 --> 00:44:34,490 >> Drugą rzeczą, która jest naprawdę Istotne jest po prostu 843 00:44:34,490 --> 00:44:35,490 Kolejność słów. 844 00:44:35,490 --> 00:44:39,500 Tak, to jest wspólne, aby powiedzieć "kot jest wewnątrz pola. ", ale zwykle nie 845 00:44:39,500 --> 00:44:44,250 zobacz w "oknie w środku jest kot." tak widzisz, że jest jakaś znaczenie 846 00:44:44,250 --> 00:44:46,030 w kolejności słowa. 847 00:44:46,030 --> 00:44:50,160 Nie można po prostu powiedzieć, że te dwa zdania ma takie samo prawdopodobieństwo 848 00:44:50,160 --> 00:44:53,010 tylko dlatego, że mają te same słowa. 849 00:44:53,010 --> 00:44:55,550 Trzeba rzeczywiście obchodzi o zamówienie, jak również. 850 00:44:55,550 --> 00:44:57,650 Ma sens? 851 00:44:57,650 --> 00:44:59,490 >> Więc co robimy? 852 00:44:59,490 --> 00:45:01,550 Więc co ja mogę postarać się o ciebie? 853 00:45:01,550 --> 00:45:04,400 Próbuję Ci to, co zadzwoń modele N-gram. 854 00:45:04,400 --> 00:45:09,095 Więc modele n-gram w zasadzie przyjąć, że każde słowo 855 00:45:09,095 --> 00:45:10,960 masz w zdaniu. 856 00:45:10,960 --> 00:45:15,020 To prawdopodobieństwo, że mając słowo nie zależy nie tylko od 857 00:45:15,020 --> 00:45:18,395 Częstość występowania tego słowa w języku, ale również od słów 858 00:45:18,395 --> 00:45:19,860 otaczają go. 859 00:45:19,860 --> 00:45:25,810 >> Tak na przykład, zazwyczaj gdy widzisz coś na co jesteś lub 860 00:45:25,810 --> 00:45:28,040 Prawdopodobnie zobaczymy rzeczownik po nim, prawda? 861 00:45:28,040 --> 00:45:31,750 Bo gdy masz przyimka zazwyczaj bierze rzeczownika po nim. 862 00:45:31,750 --> 00:45:35,540 Lub jeśli masz czasownik jest przechodni zwykle będą 863 00:45:35,540 --> 00:45:36,630 mają rzeczownik frazę. 864 00:45:36,630 --> 00:45:38,780 Więc to będzie mieć rzeczownik gdzieś wokół niego. 865 00:45:38,780 --> 00:45:44,950 >> Tak więc, w zasadzie, co robi jest to, że uważa prawdopodobieństwo konieczności 866 00:45:44,950 --> 00:45:47,960 Słowa obok siebie, przy jesteś obliczania 867 00:45:47,960 --> 00:45:49,050 prawdopodobieństwo zdania. 868 00:45:49,050 --> 00:45:50,960 I to właśnie język model jest w zasadzie. 869 00:45:50,960 --> 00:45:54,620 Tylko, że to, co jest prawdopodobieństwo mieć specyficzny 870 00:45:54,620 --> 00:45:57,120 zdanie w języku? 871 00:45:57,120 --> 00:45:59,110 Więc dlaczego tak jest, że przydatne, w zasadzie? 872 00:45:59,110 --> 00:46:02,390 A przede wszystkim to, co jest Model n-gram, a następnie? 873 00:46:02,390 --> 00:46:08,850 >> Więc modelu n-gramów oznacza, że Każde słowo zależy 874 00:46:08,850 --> 00:46:12,700 następny N minus 1 słowa. 875 00:46:12,700 --> 00:46:18,150 Tak więc, w zasadzie, to znaczy, że jeśli patrzę, Na przykład, w przypadku TF CS50 876 00:46:18,150 --> 00:46:21,500 Jestem obliczania prawdopodobieństwa zdanie, będziesz jak " 877 00:46:21,500 --> 00:46:25,280 prawdopodobieństwo posiadania słowo "" razy prawdopodobieństwo konieczności " 878 00:46:25,280 --> 00:46:31,720 CS50 "razy prawdopodobieństwo konieczności "TF CS50." Tak więc, w zasadzie, liczę 879 00:46:31,720 --> 00:46:35,720 wszystkie możliwe sposoby rozciągania go. 880 00:46:35,720 --> 00:46:41,870 >> I wtedy zwykle, gdy to robisz, jak w projekcie, można umieścić N będzie 881 00:46:41,870 --> 00:46:42,600 niska wartość. 882 00:46:42,600 --> 00:46:45,930 Tak, zazwyczaj bigrams lub trygramów. 883 00:46:45,930 --> 00:46:51,090 Tak, że po prostu liczyć dwa słowy, grupa dwóch lub trzech słów, słów, 884 00:46:51,090 --> 00:46:52,620 tylko na problemy z wydajnością. 885 00:46:52,620 --> 00:46:56,395 A także dlatego, że być może, jeśli masz coś jak "The CS50 TF". Kiedy 886 00:46:56,395 --> 00:47:00,510 mają "TF", jest to bardzo ważne, że "CS50" jest obok niego, prawda? 887 00:47:00,510 --> 00:47:04,050 Te dwie rzeczy są zwykle obok siebie. 888 00:47:04,050 --> 00:47:06,410 >> Jeśli uważasz, że z "FT", to chyba będzie miał co 889 00:47:06,410 --> 00:47:07,890 Klasa to TF'ing dla. 890 00:47:07,890 --> 00:47:11,330 Również "" jest bardzo ważne dla CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Ale jeśli masz coś w stylu "The CS50 TF poszliśmy do klasy i dał ich 892 00:47:14,570 --> 00:47:20,060 studentów cukierka. "" Cukierki "i" " nie mają związku naprawdę, prawda? 893 00:47:20,060 --> 00:47:23,670 Oni są tak odległe od siebie, że to nie ma znaczenia, co 894 00:47:23,670 --> 00:47:25,050 Słowa trzeba. 895 00:47:25,050 --> 00:47:31,210 >> Więc wykonując bigram lub trygram, to oznacza po prostu, że jesteś ograniczenie 896 00:47:31,210 --> 00:47:33,430 sobie na kilka słów które są w pobliżu. 897 00:47:33,430 --> 00:47:35,810 Ma sens? 898 00:47:35,810 --> 00:47:40,630 Więc jeśli chcesz zrobić segmentacji, w zasadzie to, co chcesz zrobić, to zobaczyć 899 00:47:40,630 --> 00:47:44,850 jakie są wszystkie możliwe sposoby można segmentu zdanie. 900 00:47:44,850 --> 00:47:49,090 >> Tak, że można zobaczyć to, co jest prawdopodobieństwo każdego z tych zdań 901 00:47:49,090 --> 00:47:50,880 istniejących w języku? 902 00:47:50,880 --> 00:47:53,410 Więc co możesz zrobić, to jak, dobrze, niech ja staram się umieścić tu miejsca. 903 00:47:53,410 --> 00:47:55,570 Więc umieścić tam przestrzeń i zobaczyć, jakie jest 904 00:47:55,570 --> 00:47:57,590 prawdopodobieństwo tego zdania? 905 00:47:57,590 --> 00:48:00,240 Wtedy jesteś jak, OK, może , że nie było to dobre. 906 00:48:00,240 --> 00:48:03,420 Więc umieścić tam przestrzeń i przestrzeń tam, i obliczyć 907 00:48:03,420 --> 00:48:06,240 prawdopodobieństwo, teraz, i widać, że to jest większe prawdopodobieństwo. 908 00:48:06,240 --> 00:48:12,160 >> Więc to jest algorytm o nazwie TANGO algorytmu segmentacji, który jest 909 00:48:12,160 --> 00:48:14,990 faktycznie coś, co byłoby naprawdę fajne dla projektu, który 910 00:48:14,990 --> 00:48:20,860 w zasadzie tekst niesegmentowany która trwa może być japoński czy chiński, a może 911 00:48:20,860 --> 00:48:26,080 Angielski bez spacji i stara się umieścić odstępy między słowami i to robi 912 00:48:26,080 --> 00:48:29,120 że za pomocą modelu, a język starając się zobaczyć, co jest najwyższym 913 00:48:29,120 --> 00:48:31,270 prawdopodobieństwem można dostać. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Więc to jest segmentacja. 916 00:48:33,800 --> 00:48:35,450 >> Teraz składnia. 917 00:48:35,450 --> 00:48:40,940 Tak więc, postać jest używany do tak wiele rzeczy w tej chwili. 918 00:48:40,940 --> 00:48:44,880 Szukaj więc na wykres, na Siri dla prawie każdy rodzaj naturalnego 919 00:48:44,880 --> 00:48:46,490 przetwarzania języka masz. 920 00:48:46,490 --> 00:48:49,140 Więc jakie są ważne rzeczy o składni? 921 00:48:49,140 --> 00:48:52,390 Tak więc, ogólnie mają zdania co nazywamy składniki. 922 00:48:52,390 --> 00:48:57,080 Które są jakby grup słów które pełnią funkcję w zdaniu. 923 00:48:57,080 --> 00:49:02,220 I nie mogą być naprawdę od siebie. 924 00:49:02,220 --> 00:49:07,380 >> Tak więc, jeśli powiem, na przykład, "Laura kocha Milo. "Wiem, że" Laura "jest 925 00:49:07,380 --> 00:49:10,180 składnik, a następnie "miłości Milo "jest również inny. 926 00:49:10,180 --> 00:49:16,860 Bo nie można powiedzieć, jak "Lauren Milo lubi "mają to samo znaczenie. 927 00:49:16,860 --> 00:49:18,020 To nie będzie mieć to samo znaczenie. 928 00:49:18,020 --> 00:49:22,500 I nie mogę powiedzieć, jak "Milo Lauren kocha. "Nie wszystko jest takie same 929 00:49:22,500 --> 00:49:25,890 czyli robić. 930 00:49:25,890 --> 00:49:31,940 >> Tak więc dwie ważne rzeczy o bardziej składnia są rodzaje leksykalne, które jest 931 00:49:31,940 --> 00:49:35,390 zasadzie, że funkcja ma słów przez siebie. 932 00:49:35,390 --> 00:49:39,180 Więc musisz wiedzieć, że "Laura" i "Milo" są rzeczownikami. 933 00:49:39,180 --> 00:49:41,040 "Miłość" to czasownik. 934 00:49:41,040 --> 00:49:45,660 I drugie ważne jest to, że są phrasal typy. 935 00:49:45,660 --> 00:49:48,990 Więc wiesz, że "kocha Milo" jest rzeczywiście werbalne wyrażenie. 936 00:49:48,990 --> 00:49:52,390 Więc kiedy mówię, "Laura", wiem, że Laura robi coś. 937 00:49:52,390 --> 00:49:53,620 Co ona robi? 938 00:49:53,620 --> 00:49:54,570 Ona kochać Milo. 939 00:49:54,570 --> 00:49:56,440 Więc to jest cała sprawa. 940 00:49:56,440 --> 00:50:01,640 Ale jego elementy są rzeczownik i czasownik. 941 00:50:01,640 --> 00:50:04,210 Ale razem, robią zwrot czasownik. 942 00:50:04,210 --> 00:50:08,680 >> Tak więc, co możemy zrobić z rzeczywistości lingwistyka komputerowa? 943 00:50:08,680 --> 00:50:13,810 Tak więc, jeśli mam coś na przykład "przyjaciele" Allison. Rozumiem, jeśli tylko 944 00:50:13,810 --> 00:50:17,440 drzewo syntaktyczne nie wiem, że będzie "Przyjaciele" to wyrażenie to jest rzeczownik 945 00:50:17,440 --> 00:50:21,480 rzeczownik, a następnie "Allison" jest przyimkowy zdanie, w którym "z" jest 946 00:50:21,480 --> 00:50:24,810 propozycja i "Allison" jest rzeczownikiem. 947 00:50:24,810 --> 00:50:30,910 Co mogę zrobić, to nauczyć komputer że kiedy mam rzeczownik frazę jeden i 948 00:50:30,910 --> 00:50:33,080 następnie przyimkowy zdanie. 949 00:50:33,080 --> 00:50:39,020 Więc w tym przypadku, "przyjaciele", a następnie "z Milo: "Wiem, że oznacza to, że 950 00:50:39,020 --> 00:50:43,110 NP2, drugi, posiada NP1. 951 00:50:43,110 --> 00:50:47,680 >> Więc mogę stworzyć jakąś związku, jakaś funkcja do niego. 952 00:50:47,680 --> 00:50:52,370 Więc gdy widzę tę strukturę, która Zastępuje dokładnie z "przyjaciółmi 953 00:50:52,370 --> 00:50:56,030 Allison: "Wiem, że Allison posiada przyjaciół. 954 00:50:56,030 --> 00:50:58,830 Więc to coś przyjaciele że Allison ma. 955 00:50:58,830 --> 00:50:59,610 Ma sens? 956 00:50:59,610 --> 00:51:01,770 Tak to jest w zasadzie to, co Wykres Szukaj robi. 957 00:51:01,770 --> 00:51:04,360 To po prostu tworzy reguły do wielu rzeczy. 958 00:51:04,360 --> 00:51:08,190 So "znajomi", "Allison moi przyjaciele kto mieszka w Cambridge, "" przyjaciół 959 00:51:08,190 --> 00:51:12,970 którzy udają się do Harvardu. "Tworzy zasady dla wszystkich tych rzeczy. 960 00:51:12,970 --> 00:51:14,930 >> Teraz tłumaczenie maszynowe. 961 00:51:14,930 --> 00:51:18,850 Tak, jest również tłumaczenie maszynowe coś statystyczny. 962 00:51:18,850 --> 00:51:21,340 I rzeczywiście, jeśli wziąć udział w lingwistyka komputerowa, dużo 963 00:51:21,340 --> 00:51:23,580 swoje rzeczy będzie statystyka. 964 00:51:23,580 --> 00:51:26,670 Tak robiłem na przykład z Wiele prawdopodobieństw, że jestem 965 00:51:26,670 --> 00:51:30,540 obliczenia, a następnie dostać się do tego bardzo mała liczba, która jest ostateczna 966 00:51:30,540 --> 00:51:33,180 prawdopodobieństwo, i to, co daje odpowiedź. 967 00:51:33,180 --> 00:51:37,540 Urządzenie korzysta również tłumaczenie Model statystyczny. 968 00:51:37,540 --> 00:51:44,790 A jeśli chcesz, aby myśleć o maszynie Tłumaczenie w najprostszy możliwy 969 00:51:44,790 --> 00:51:48,970 sposób, co można myśleć tylko tłumaczyć słowo po słowie, prawda? 970 00:51:48,970 --> 00:51:52,150 >> Kiedy nauka języka dla pierwszy raz, to co zwykle 971 00:51:52,150 --> 00:51:52,910 to zrobić, prawda? 972 00:51:52,910 --> 00:51:57,050 Jeśli chcesz przetłumaczyć zdanie w swoim języku do języka 973 00:51:57,050 --> 00:52:00,060 uczysz się, zazwyczaj pierwsze, tłumaczyć każdego ze słów 974 00:52:00,060 --> 00:52:03,180 indywidualnie, a następnie spróbuj umieścić słowa na miejsce. 975 00:52:03,180 --> 00:52:07,100 >> Więc gdybym chciał przetłumaczyć, [EGZAMIN Portugalski] 976 00:52:07,100 --> 00:52:10,430 co oznacza "biały kot uciekł." Gdybym chciał przetłumaczyć go z 977 00:52:10,430 --> 00:52:13,650 Portugalski na angielski, co ja może zrobić to, po pierwsze, po prostu 978 00:52:13,650 --> 00:52:14,800 tłumaczyć słowo po słowie. 979 00:52:14,800 --> 00:52:20,570 Tak "o" jest "," "Gato", "kot" "Branco", "zielony", a następnie "fugio" jest 980 00:52:20,570 --> 00:52:21,650 "Uciekł". 981 00:52:21,650 --> 00:52:26,130 >> Więc mam wszystkie słowa tutaj, ale nie są w porządku. 982 00:52:26,130 --> 00:52:29,590 To jest jak "biały kot uciekł" który jest niegramatyczne. 983 00:52:29,590 --> 00:52:34,490 Tak, to mogę mieć drugi etap, który będzie znalezienie ideału 984 00:52:34,490 --> 00:52:36,610 pozycji dla każdego słowa. 985 00:52:36,610 --> 00:52:40,240 Tak, wiem, że tak naprawdę chce mieć "Biały kot" zamiast "kot biały." Tak 986 00:52:40,240 --> 00:52:46,050 co mogę zrobić, to metoda najbardziej naiwny byłaby wytwarzającego 987 00:52:46,050 --> 00:52:49,720 możliwych permutacji słowa, z pozycji. 988 00:52:49,720 --> 00:52:53,300 A następnie sprawdzić, który z nich ma najwyższe prawdopodobieństwo według 989 00:52:53,300 --> 00:52:54,970 do mojego modelu językowego. 990 00:52:54,970 --> 00:52:58,390 A potem, kiedy znajdę ten, który ma najwyższe prawdopodobieństwo to, co 991 00:52:58,390 --> 00:53:01,910 prawdopodobnie "biały kot uciekł" to moje tłumaczenie. 992 00:53:01,910 --> 00:53:06,710 >> I to jest prosty sposób wyjaśnić jak dużo tłumaczenia maszynowego 993 00:53:06,710 --> 00:53:07,910 algorytmy pracy. 994 00:53:07,910 --> 00:53:08,920 Czy to ma sens? 995 00:53:08,920 --> 00:53:12,735 Jest również coś naprawdę ekscytujące że chłopaki mogą być może poszukiwania 996 00:53:12,735 --> 00:53:13,901 Ostateczny projekt, tak? 997 00:53:13,901 --> 00:53:15,549 >> Student: No, powiedział, że to naiwny sposób, więc to, co jest 998 00:53:15,549 --> 00:53:17,200 nie naiwny sposób? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS: nie naiwny sposób? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Tak więc pierwszą rzeczą, że jest źle ta metoda jest to, że po prostu przetłumaczone 1002 00:53:22,860 --> 00:53:24,330 słowa, słowo po słowie. 1003 00:53:24,330 --> 00:53:30,570 Ale czasem trzeba słów może mieć wiele tłumaczeń. 1004 00:53:30,570 --> 00:53:32,210 Mam zamiar starać się myśleć czegoś. 1005 00:53:32,210 --> 00:53:37,270 Na przykład, "manga" w Portugalii puszki albo być "Magiel" lub "rękaw". Tak 1006 00:53:37,270 --> 00:53:40,450 gdy próbujesz przetłumaczyć słowo słowem, to może być co daje 1007 00:53:40,450 --> 00:53:42,050 coś, co nie ma sensu. 1008 00:53:42,050 --> 00:53:45,770 >> Więc rzeczywiście chcesz spojrzeć na wszystko ewentualne tłumaczenia 1009 00:53:45,770 --> 00:53:49,840 słowa i zobaczyć, przede wszystkim, co to jest rozkaz. 1010 00:53:49,840 --> 00:53:52,000 Rozmawialiśmy o permutating rzeczy? 1011 00:53:52,000 --> 00:53:54,150 Aby zobaczyć wszystkie możliwe zlecenia i wybrać jedną z najwyższych 1012 00:53:54,150 --> 00:53:54,990 prawdopodobieństwo? 1013 00:53:54,990 --> 00:53:57,860 Można również wybrać wszystkie możliwe Tłumaczenia dla każdego 1014 00:53:57,860 --> 00:54:00,510 słowo, a następnie zobaczyć - 1015 00:54:00,510 --> 00:54:01,950 w połączeniu z permutacji - 1016 00:54:01,950 --> 00:54:03,710 których jeden ma największe prawdopodobieństwo. 1017 00:54:03,710 --> 00:54:08,590 >> Plus, można również spojrzeć na nie tylko słowa, ale zwroty. 1018 00:54:08,590 --> 00:54:11,700 tak można analizować relacje między słowa, a następnie uzyskać 1019 00:54:11,700 --> 00:54:13,210 lepsze tłumaczenie. 1020 00:54:13,210 --> 00:54:16,690 Też coś innego, więc w tym semestrze Jestem rzeczywiście robi badania w 1021 00:54:16,690 --> 00:54:19,430 Chiński-Angielski tłumaczenie maszynowe, więc tłumaczenia z 1022 00:54:19,430 --> 00:54:20,940 Chiński na angielski. 1023 00:54:20,940 --> 00:54:26,760 >> I coś robimy, to, oprócz wykorzystania Model statystyczny, który jest po prostu 1024 00:54:26,760 --> 00:54:30,570 widząc prawdopodobieństwo zobaczenia niektórych pozycji w zdaniu, jestem 1025 00:54:30,570 --> 00:54:35,360 faktycznie dodając również do mojego trochę składni Model, mówiąc, oh, jeśli widzę tego rodzaju 1026 00:54:35,360 --> 00:54:39,420 budowy, to jest to, co chcę zmienić go, gdy w tłumaczeniu. 1027 00:54:39,420 --> 00:54:43,880 Więc można również dodać jakieś element składni, aby 1028 00:54:43,880 --> 00:54:47,970 tłumaczenie na bardziej efektywne i bardziej precyzyjne. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Tak, jak można zacząć, jeśli chcesz zrobić coś w obliczeniowych 1031 00:54:51,010 --> 00:54:51,980 językoznawstwo? 1032 00:54:51,980 --> 00:54:54,560 >> Po pierwsze, należy wybrać projekt która obejmuje języki. 1033 00:54:54,560 --> 00:54:56,310 Tak więc, jest tak wiele tam. 1034 00:54:56,310 --> 00:54:58,420 Jest tak wiele rzeczy można zrobić. 1035 00:54:58,420 --> 00:55:00,510 I wtedy można myśleć o modelu które można użyć. 1036 00:55:00,510 --> 00:55:04,710 Zazwyczaj oznacza to myślenie Założenia, jak jak, och, kiedy byłem 1037 00:55:04,710 --> 00:55:05,770 jak myślenia tekstów. 1038 00:55:05,770 --> 00:55:09,510 Byłem jak, dobrze, jeśli chcę, aby dowiedzieć się, kto to napisał, pewnie chcą 1039 00:55:09,510 --> 00:55:15,400 spojrzeć na słowa używane i osoba zobaczyć, kto używa tego słowa bardzo często. 1040 00:55:15,400 --> 00:55:18,470 Więc starają się założenia i staram się myśleć o modelach. 1041 00:55:18,470 --> 00:55:21,395 A następnie można również wyszukiwać w Internecie rodzaj problemu, który masz, 1042 00:55:21,395 --> 00:55:24,260 i to się sugerować do Ciebie modeli, które może 1043 00:55:24,260 --> 00:55:26,560 modelowane, że coś dobrze. 1044 00:55:26,560 --> 00:55:29,080 >> A także zawsze możesz napisz do mnie. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 I mogę tylko odpowiedzieć na Twoje pytania. 1047 00:55:34,940 --> 00:55:38,600 Możemy nawet może spotkać się tak mogę dać wskazówki na temat sposobów 1048 00:55:38,600 --> 00:55:41,490 realizacji projektu. 1049 00:55:41,490 --> 00:55:45,610 I mam na myśli, jeśli angażują się lingwistyka komputerowa, to będzie 1050 00:55:45,610 --> 00:55:46,790 się świetnie. 1051 00:55:46,790 --> 00:55:48,370 Będziesz tam zobaczyć jest tak wielki potencjał. 1052 00:55:48,370 --> 00:55:52,060 I przemysł chce zatrudnić jesteś tak źle z tego powodu. 1053 00:55:52,060 --> 00:55:54,720 Więc mam nadzieję, że chłopaki bardzo zadowoleni z tego. 1054 00:55:54,720 --> 00:55:57,030 Jeśli macie jakieś pytania, możesz poprosić mnie po tym. 1055 00:55:57,030 --> 00:55:58,280 Ale dziękuję. 1056 00:55:58,280 --> 00:56:00,150