1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS: Хей. 3 00:00:08,870 --> 00:00:09,980 Добре дошли на всички. 4 00:00:09,980 --> 00:00:11,216 Моето име е Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 Аз съм младши в [недоловим] изучаване компютърни науки с фокус в 6 00:00:15,220 --> 00:00:16,410 компютърната лингвистика. 7 00:00:16,410 --> 00:00:19,310 Така че ми е вторична в езика и езикова теория. 8 00:00:19,310 --> 00:00:21,870 Аз съм наистина развълнуван да научи вас, момчета малко за областта. 9 00:00:21,870 --> 00:00:24,300 Това е една много интересна област за изследване. 10 00:00:24,300 --> 00:00:27,260 Също така с много потенциал за бъдещето. 11 00:00:27,260 --> 00:00:30,160 Така че, аз съм много развълнуван, че вие, момчета, се обмисля проекти в 12 00:00:30,160 --> 00:00:31,160 компютърната лингвистика. 13 00:00:31,160 --> 00:00:35,460 И аз ще бъда повече от щастлив да съветва някой от вас, ако решите да 14 00:00:35,460 --> 00:00:37,090 преследват една от тези. 15 00:00:37,090 --> 00:00:40,010 >> Така че на първо място това, което са изчислителна лингвистика? 16 00:00:40,010 --> 00:00:44,630 Така че компютърната лингвистика е на пресичане между лингвистиката и 17 00:00:44,630 --> 00:00:46,390 компютърни науки. 18 00:00:46,390 --> 00:00:47,415 Така че, това, което е лингвистика? 19 00:00:47,415 --> 00:00:48,490 Какво е компютърни науки? 20 00:00:48,490 --> 00:00:51,580 Ами от лингвистиката, какво ние приемаме, са езиците. 21 00:00:51,580 --> 00:00:54,960 Така че лингвистиката е всъщност изследването на естествен език като цяло. 22 00:00:54,960 --> 00:00:58,330 Така естествен език - ние говорим за език, който ние всъщност се използва за 23 00:00:58,330 --> 00:00:59,770 комуникират помежду си. 24 00:00:59,770 --> 00:01:02,200 Така че ние не сме точно говориш за C или Java. 25 00:01:02,200 --> 00:01:05,900 Говорим повече за английски език и Китайски и други езици, които ние 26 00:01:05,900 --> 00:01:07,780 използвате, за да комуникират един с друг. 27 00:01:07,780 --> 00:01:12,470 >> Предизвикателният нещо за това е, че точно сега имаме почти 7000 28 00:01:12,470 --> 00:01:14,260 езици в света. 29 00:01:14,260 --> 00:01:19,520 Така че има доста висок разнообразие на езици, които можем да учат. 30 00:01:19,520 --> 00:01:22,600 И тогава си мислиш, че това е може би много трудно да се направи, например, 31 00:01:22,600 --> 00:01:26,960 превод от един език в друга, като се има предвид, че имате 32 00:01:26,960 --> 00:01:28,240 почти 7000 от тях. 33 00:01:28,240 --> 00:01:31,450 Така че, ако мислите, че за правене на превод от един език на другия ви 34 00:01:31,450 --> 00:01:35,840 има почти повече от един милион различни комбинации, които можете да 35 00:01:35,840 --> 00:01:37,330 имаме от език с езика. 36 00:01:37,330 --> 00:01:40,820 Така че това е наистина предизвикателство да се направят някои вид система например за превод 37 00:01:40,820 --> 00:01:43,540 всеки един език. 38 00:01:43,540 --> 00:01:47,120 >> Така че, лингвистика третира с синтаксис, семантика, прагматика. 39 00:01:47,120 --> 00:01:49,550 Вие, момчета, не се нуждаят от точно да знам какво са те. 40 00:01:49,550 --> 00:01:55,090 Но много интересно нещо е, че като роден език, когато се научиш 41 00:01:55,090 --> 00:01:59,010 език като дете, вие всъщност се учи всички тези неща - синтактични семантика 42 00:01:59,010 --> 00:02:00,500 и прагматика - 43 00:02:00,500 --> 00:02:01,430 от себе си. 44 00:02:01,430 --> 00:02:04,820 И никой няма да ви научи синтаксис за можете да разберете как изречения са 45 00:02:04,820 --> 00:02:05,290 структурирана. 46 00:02:05,290 --> 00:02:07,980 Така че, това е наистина интересно, защото това е нещо, което идва много 47 00:02:07,980 --> 00:02:10,389 интуитивно. 48 00:02:10,389 --> 00:02:13,190 >> И какво са ти като от компютърната наука? 49 00:02:13,190 --> 00:02:16,700 Е, най-важното нещо, което ние имат по компютърни науки е първият от 50 00:02:16,700 --> 00:02:19,340 всички, изкуствен интелект и машинно обучение. 51 00:02:19,340 --> 00:02:22,610 Така че, това, което ние се опитваме да правим компютърна лингвистика е науча 52 00:02:22,610 --> 00:02:26,990 компютъра си как да се направи нещо с език. 53 00:02:26,990 --> 00:02:28,630 >> Така, например, в машина превод. 54 00:02:28,630 --> 00:02:32,490 Опитвам се да науча моя компютър как да знаете как да се преход от едно 55 00:02:32,490 --> 00:02:33,310 език на другия. 56 00:02:33,310 --> 00:02:35,790 Така че, общо взето като Обучението на компютърни два езика. 57 00:02:35,790 --> 00:02:38,870 Ако го направя обработка на естествен език, какъвто е случаят например на 58 00:02:38,870 --> 00:02:41,810 Facebook е Graph Search, ви научи компютъра си как да се разбере 59 00:02:41,810 --> 00:02:42,730 заявки добре. 60 00:02:42,730 --> 00:02:48,130 >> Така че, ако ти кажа "снимките на моя приятели. "Facebook не лекуват, че 61 00:02:48,130 --> 00:02:51,130 като цяло низ, който има само куп думи. 62 00:02:51,130 --> 00:02:56,020 То всъщност разбира връзката между "Снимки" и "моите приятели" и 63 00:02:56,020 --> 00:02:59,620 разбира, че "снимки" са собственост на "моите приятели". 64 00:02:59,620 --> 00:03:02,350 >> Така че, това е част от, например, обработка на естествен език. 65 00:03:02,350 --> 00:03:04,790 Той се опитва да разбере какво е връзката между 66 00:03:04,790 --> 00:03:07,520 на думите в изречение. 67 00:03:07,520 --> 00:03:11,170 И големият въпрос е, може ли преподават компютър как да говорят 68 00:03:11,170 --> 00:03:12,650 език, като цяло? 69 00:03:12,650 --> 00:03:17,810 Което е много интересен въпрос, да Мисля, че като че ли може би в бъдеще, 70 00:03:17,810 --> 00:03:19,930 ти започваш да бъде в състояние да консултирайте се с Вашия мобилен телефон. 71 00:03:19,930 --> 00:03:23,290 Нещо като това, което правим с Siri, но нещо по-скоро като, всъщност можете да 72 00:03:23,290 --> 00:03:25,690 казват каквото си искат и телефона ще се разбере всичко. 73 00:03:25,690 --> 00:03:28,350 И тя може да има последващи действия въпроси и продължавай да говориш. 74 00:03:28,350 --> 00:03:30,880 Това е нещо наистина вълнуващо, по мое мнение. 75 00:03:30,880 --> 00:03:33,070 >> Така че, нещо за естествените езици. 76 00:03:33,070 --> 00:03:36,220 Нещо наистина интересно за естествените езици е, че и това е 77 00:03:36,220 --> 00:03:38,470 кредит за моя лингвистика професор, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 Тя дава за пример и аз мисля, това е наистина интересно. 79 00:03:40,830 --> 00:03:47,060 Тъй като ние се учим език от времето, когато ние сме родени и след това родната ни 80 00:03:47,060 --> 00:03:49,170 език вид расте върху нас. 81 00:03:49,170 --> 00:03:52,570 >> И в общи линии да научите език от минимално участие, нали? 82 00:03:52,570 --> 00:03:56,700 Ти просто се на сигнала от вашия родители на това, което звучи вашия език 83 00:03:56,700 --> 00:03:58,770 харесва и просто го научат. 84 00:03:58,770 --> 00:04:02,240 Така че, това е интересно, защото, ако се вгледате в тези изречения, например. 85 00:04:02,240 --> 00:04:06,980 Изглеждаш, "Мери си слага палто всеки време тя напуска къщата. " 86 00:04:06,980 --> 00:04:10,650 >> В този случай, че е възможно да има думата "тя" се отнасят до Мери, нали? 87 00:04:10,650 --> 00:04:13,500 Може да се каже, "Мери си слага палто всеки път, когато Мери напуска 88 00:04:13,500 --> 00:04:14,960 къща. ", така че е добре. 89 00:04:14,960 --> 00:04:19,370 Но след това, ако се вгледате в изречението "Тя си слага палто всеки път Mary 90 00:04:19,370 --> 00:04:22,850 напуска къщата. "знаеш, че е невъзможно да се каже, че "тя" е 91 00:04:22,850 --> 00:04:24,260 позовавайки се Мери. 92 00:04:24,260 --> 00:04:27,070 >> Няма начин да се каже, че "Мери поставя върху палто всеки път Mary напуска 93 00:04:27,070 --> 00:04:30,790 къщата. "Така че това е интересно, защото това е вид на интуицията 94 00:04:30,790 --> 00:04:32,890 че всеки англоговорящ има. 95 00:04:32,890 --> 00:04:36,370 И никой не е научил, че това е начина, по който работи синтаксис. 96 00:04:36,370 --> 00:04:41,930 И че можете да имате само това "тя" позовавайки се Mary в този първи случай, 97 00:04:41,930 --> 00:04:44,260 и всъщност в другия също, но не в този. 98 00:04:44,260 --> 00:04:46,500 Но всеки вид получава на същия отговор. 99 00:04:46,500 --> 00:04:48,580 Всички са съгласни с това. 100 00:04:48,580 --> 00:04:53,280 Така че това е наистина интересно как въпреки не знаете всички правила 101 00:04:53,280 --> 00:04:55,575 на вашия език някак си разбирам как работи езика. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> Така че интересното нещо за природен език е, че не е нужно да се 104 00:05:01,530 --> 00:05:06,970 познавам никакъв синтаксис да знам, ако едно изречение е граматическа или ungrammatical за 105 00:05:06,970 --> 00:05:08,810 повечето случаи. 106 00:05:08,810 --> 00:05:13,220 Кое ви кара да мислите, че може би това, което се случва, е, че през живота си, 107 00:05:13,220 --> 00:05:17,410 просто продължавай все повече и повече изречения казаха за вас. 108 00:05:17,410 --> 00:05:19,800 И тогава ще се запази запомняне всички присъди. 109 00:05:19,800 --> 00:05:24,230 И тогава, когато някой ви каже, нещо, чу ли това изречение и 110 00:05:24,230 --> 00:05:27,040 погледнете в речника си на изречения и да видим дали 111 00:05:27,040 --> 00:05:28,270 това изречение е там. 112 00:05:28,270 --> 00:05:29,830 И ако той е там ви Казват, че е граматическа. 113 00:05:29,830 --> 00:05:31,740 Ако това не е ли казал, че е ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> Така че, в този случай, бих казал, о, така че имате огромен списък на всички 115 00:05:35,150 --> 00:05:36,140 възможни присъди. 116 00:05:36,140 --> 00:05:38,240 И тогава, когато чуете едно изречение, Знаете ли дали това е граматическа или 117 00:05:38,240 --> 00:05:39,450 не се основава на това. 118 00:05:39,450 --> 00:05:42,360 Работата е там, че ако се вгледате в едно изречение, например, "The 119 00:05:42,360 --> 00:05:47,540 пет глави CS50 TFS варени слепите октопод с помощта на DAPA чаша. "Това е 120 00:05:47,540 --> 00:05:49,630 Определено не е присъда че сте чували преди. 121 00:05:49,630 --> 00:05:52,380 Но в същото време знаеш, че е доста много граматични, нали? 122 00:05:52,380 --> 00:05:55,570 Има още няма граматически грешки и може да се каже, че 123 00:05:55,570 --> 00:05:57,020 това е възможно изречение. 124 00:05:57,020 --> 00:06:01,300 >> Така че това ни кара да мислим, че всъщност така, че ние се учим език е не само 125 00:06:01,300 --> 00:06:07,090 от наличието на огромна база данни на възможно думи или изречения, но повече от 126 00:06:07,090 --> 00:06:11,490 разбиране на връзката между думи в тези изречения. 127 00:06:11,490 --> 00:06:14,570 Това прави ли смисъл? 128 00:06:14,570 --> 00:06:19,370 Така че, тогава въпросът е, може ли компютри изучаване на чужди езици? 129 00:06:19,370 --> 00:06:21,490 Можем ли да научи език с компютри? 130 00:06:21,490 --> 00:06:24,230 >> Така че, нека да мислим за разликата между англоговорящ на език 131 00:06:24,230 --> 00:06:25,460 и компютър. 132 00:06:25,460 --> 00:06:27,340 Така че, това, което се случва на говорителя? 133 00:06:27,340 --> 00:06:30,430 Е, местният научава език от излагането на него. 134 00:06:30,430 --> 00:06:34,200 Обикновено неговите ранни години детство. 135 00:06:34,200 --> 00:06:38,570 Така че, общо взето, можете просто да има бебе, и продължаваш да говориш с него, и да го 136 00:06:38,570 --> 00:06:40,540 просто се научава как да се говори на езика, нали? 137 00:06:40,540 --> 00:06:42,660 Така че, вие основно даване вход за бебето. 138 00:06:42,660 --> 00:06:45,200 Така че, след това можете да се твърди, че един компютър може да направи същото нещо, нали? 139 00:06:45,200 --> 00:06:49,510 Можете просто да се даде език като вход към компютъра. 140 00:06:49,510 --> 00:06:53,410 >> Като например един куп файлове че има книги на английски език. 141 00:06:53,410 --> 00:06:56,190 Може би това е един начин, по който би могъл да се научи 142 00:06:56,190 --> 00:06:57,850 компютър английски, нали? 143 00:06:57,850 --> 00:07:01,000 И в действителност, ако си мислиш за него, тя ще ви отведе може би няколко 144 00:07:01,000 --> 00:07:02,680 дни, за да прочетат една книга. 145 00:07:02,680 --> 00:07:05,760 За компютър отнема секунда разгледаме всички думи в една книга. 146 00:07:05,760 --> 00:07:10,810 Така че можеш да се сетиш, че може да бъде само това аргумент на вход от около теб, 147 00:07:10,810 --> 00:07:15,440 това не е достатъчно, за да се каже, че това е нещо, че само хората могат да направят. 148 00:07:15,440 --> 00:07:17,680 Можете да мислите компютри също могат да получат вход. 149 00:07:17,680 --> 00:07:21,170 >> Второто нещо е, че е роден език също в мозъка, който е 150 00:07:21,170 --> 00:07:23,870 езиковото обучение способности. 151 00:07:23,870 --> 00:07:27,020 Но ако си мислиш за него, мозък е нещо твърдо. 152 00:07:27,020 --> 00:07:30,450 Когато се роди, той вече е определен - 153 00:07:30,450 --> 00:07:31,320 това е вашият мозък. 154 00:07:31,320 --> 00:07:34,660 И като пораснеш, можете просто да се по- въвеждане на език, а може би и хранителни вещества 155 00:07:34,660 --> 00:07:35,960 и други неща. 156 00:07:35,960 --> 00:07:38,170 Но почти мозъка е нещо твърдо. 157 00:07:38,170 --> 00:07:41,290 >> Така че може да се каже, добре, може би ще изграждане на компютър, който има куп 158 00:07:41,290 --> 00:07:45,890 функции и методи, които само имитират езиковото обучение способности. 159 00:07:45,890 --> 00:07:49,630 Така че в този смисъл може да се каже, добре, аз може да има компютър, който разполага с всички 160 00:07:49,630 --> 00:07:52,270 неща, които трябва да научат езика. 161 00:07:52,270 --> 00:07:56,200 И последното нещо, което е, че е родом говорител се учи от опита и грешката. 162 00:07:56,200 --> 00:08:01,090 Така че основно друго важно нещо в изучаването на езици е, че вид 163 00:08:01,090 --> 00:08:05,340 на научите неща, като обобщения на това, което чувате. 164 00:08:05,340 --> 00:08:10,280 >> Така че, както се израстването ви научат, че някои думи са по-скоро като съществителни, 165 00:08:10,280 --> 00:08:11,820 някои други такива са прилагателни. 166 00:08:11,820 --> 00:08:14,250 И не е нужно да има някакви познания по лингвистика 167 00:08:14,250 --> 00:08:15,040 да се разбере това. 168 00:08:15,040 --> 00:08:18,560 Но ти просто знаеш, че има някои думи са разположени в някоя част на 169 00:08:18,560 --> 00:08:22,570 изречение и някои други, в други части на изречението. 170 00:08:22,570 --> 00:08:26,110 >> И че когато правиш нещо, което е като едно изречение, което не е вярно - 171 00:08:26,110 --> 00:08:28,770 Може би защото на над генерализация например. 172 00:08:28,770 --> 00:08:32,210 Може би, когато сте расте, можете да забележите че множествено число е обикновено 173 00:08:32,210 --> 00:08:35,809 формиран чрез поставяне на S в на края на думата. 174 00:08:35,809 --> 00:08:40,042 И тогава ще се опитаме да направим множествено число на "елен", като "елен" или "зъб" като 175 00:08:40,042 --> 00:08:44,780 "tooths." Така че след това на родителите си или някой ви поправя и казва, не, 176 00:08:44,780 --> 00:08:49,020 множествено число на "елен" е "елен", а множествено число на "зъб" е "зъби." И след това 177 00:08:49,020 --> 00:08:50,060 можете да научите тези неща. 178 00:08:50,060 --> 00:08:51,520 Така че можете да научите от опити и грешки. 179 00:08:51,520 --> 00:08:53,100 >> Но можете да направите това с компютър. 180 00:08:53,100 --> 00:08:55,310 Можете да имате нещо, наречено армировка обучение. 181 00:08:55,310 --> 00:08:58,560 Което е основно като даде компютър награда, когато го прави 182 00:08:58,560 --> 00:08:59,410 нещо правилно. 183 00:08:59,410 --> 00:09:04,710 И това дава обратното на награда и когато го прави нещо нередно. 184 00:09:04,710 --> 00:09:07,410 Всъщност можете да видите, че ако отидете да Google Translate и да се опитате да 185 00:09:07,410 --> 00:09:10,220 преведете изречение, то ви пита за обратна връзка. 186 00:09:10,220 --> 00:09:13,240 Така че, ако ви кажа, о, там е по-добър превод на това изречение. 187 00:09:13,240 --> 00:09:18,140 Можете да го въведете и след това, ако много хората продължават да казват, че е по-добре 188 00:09:18,140 --> 00:09:21,560 превод, той просто научава, че тя трябва да използвате вместо на този превод 189 00:09:21,560 --> 00:09:22,960 този, който го е давал. 190 00:09:22,960 --> 00:09:28,830 >> Така че, това е един много философски въпрос за да видите дали компютрите ще бъдат 191 00:09:28,830 --> 00:09:30,340 в състояние да говори или не в бъдеще. 192 00:09:30,340 --> 00:09:34,440 Но аз имам големи надежди, че те могат само въз основа на тези аргументи. 193 00:09:34,440 --> 00:09:38,570 Но това е просто повече от една философска въпрос. 194 00:09:38,570 --> 00:09:43,460 >> Така че, докато компютрите все още не могат да говорят, Кои са нещата, които можем да направим? 195 00:09:43,460 --> 00:09:47,070 Някои наистина готини неща са класификация данни. 196 00:09:47,070 --> 00:09:53,210 Така, например, вие знаете че имейл услуги да направят, за 197 00:09:53,210 --> 00:09:55,580 Например, филтриране на спам. 198 00:09:55,580 --> 00:09:59,070 Така че всеки път, когато получавате спам, то се опитва да се филтрира до друга кутия. 199 00:09:59,070 --> 00:10:00,270 И така, как да го направя това? 200 00:10:00,270 --> 00:10:06,080 Това не е като на компютъра просто не знае какво имейл адреси се изпращат спам. 201 00:10:06,080 --> 00:10:09,130 Така че това е по-въз основа на съдържанието на съобщението, или може би титлата, или 202 00:10:09,130 --> 00:10:11,310 може би някой модел, който имате. 203 00:10:11,310 --> 00:10:15,690 >> Така че, общо взето, това, което можете да направите, е да получите много данни от имейли, които са спам, 204 00:10:15,690 --> 00:10:19,980 имейли, които не са спам, и да научат какво вид на модели имате в 205 00:10:19,980 --> 00:10:21,000 такива, които са спам. 206 00:10:21,000 --> 00:10:23,260 И това е част от изчислителната лингвистика. 207 00:10:23,260 --> 00:10:24,720 Тя се нарича класификация на данни. 208 00:10:24,720 --> 00:10:28,100 И ние всъщност ще видите пример за това в следващите слайдове. 209 00:10:28,100 --> 00:10:32,910 >> Второто нещо, което е естествен език преработка, която е нещо, което 210 00:10:32,910 --> 00:10:36,580 Graph Search прави за отдаване под наем ти пиша едно изречение. 211 00:10:36,580 --> 00:10:38,690 И тя вярва, че разбирате какво е смисъла и дава 212 00:10:38,690 --> 00:10:39,940 ти по-добър резултат. 213 00:10:39,940 --> 00:10:43,880 Всъщност, ако отидете на Google или Bing и вие търсите нещо като Lady 214 00:10:43,880 --> 00:10:47,060 Височина Гага, вие всъщност ще за да получите 5 "1" вместо информация 215 00:10:47,060 --> 00:10:50,170 от нея, защото тя действително разбира какво говориш. 216 00:10:50,170 --> 00:10:52,140 Така че това е част от природното обработка език. 217 00:10:52,140 --> 00:10:57,000 >> Или също така, когато използвате Siri, първо имате алгоритъм, който се опитва да 218 00:10:57,000 --> 00:11:01,130 превода какво казваш в думи, в текст. 219 00:11:01,130 --> 00:11:03,690 И тогава той се опитва да се преведат че в смисъл. 220 00:11:03,690 --> 00:11:06,570 Така, че това е част от естествения обработка език. 221 00:11:06,570 --> 00:11:08,320 >> След това имате машинен превод - 222 00:11:08,320 --> 00:11:10,300 което е всъщност една от любимите ми - 223 00:11:10,300 --> 00:11:14,060 която е само превода от език на друг. 224 00:11:14,060 --> 00:11:17,950 Така че можеш да се сетиш, че когато правиш машинен превод, имате 225 00:11:17,950 --> 00:11:19,750 неограничени възможности от изречения. 226 00:11:19,750 --> 00:11:22,960 Така че няма начин просто да съхранявате всеки един превод. 227 00:11:22,960 --> 00:11:27,440 Така че ще трябва да излезе с интересна алгоритми, за да бъдат в състояние да 228 00:11:27,440 --> 00:11:30,110 превода на всеки един изречение по някакъв начин. 229 00:11:30,110 --> 00:11:32,483 >> Вие, момчета, имате някакви въпроси досега? 230 00:11:32,483 --> 00:11:34,450 Не? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> И така, какво ще видим днес? 233 00:11:36,900 --> 00:11:39,300 На първо място, аз отивам да се говори за проблема класификация. 234 00:11:39,300 --> 00:11:41,440 Така че този, който бях казва за спам. 235 00:11:41,440 --> 00:11:46,820 Това, което аз ще направя, е, дадени текстове на песни за една песен, може да се опитате да разбера 236 00:11:46,820 --> 00:11:49,810 с висока степен на вероятност който е певицата? 237 00:11:49,810 --> 00:11:53,590 Да кажем, че имам песни от Lady Gaga и Katy Perry, ако ти дам 238 00:11:53,590 --> 00:11:58,130 нова песен, може да ви разбера, ако това е Katy Perry или Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> Вторият, аз съм просто ще поговорим за проблема на сегментация. 240 00:12:01,490 --> 00:12:05,780 Така че аз не знам дали вие знаете, но Китайски, японски, другата East Asian 241 00:12:05,780 --> 00:12:08,090 езици, както и на други езици Като цяло, не е нужно 242 00:12:08,090 --> 00:12:09,830 интервали между думите. 243 00:12:09,830 --> 00:12:13,540 И тогава, ако си мислиш за начина, по който компютъра си вид се опитва да 244 00:12:13,540 --> 00:12:18,600 разбирам обработка на естествен език, той гледа на думите и 245 00:12:18,600 --> 00:12:21,500 се опитва да разбере отношенията между тях, нали? 246 00:12:21,500 --> 00:12:25,440 Но след това, ако имате китайски, а ти имат нулеви пространства, това е наистина трудно да се 247 00:12:25,440 --> 00:12:28,360 разберете каква е връзката между думи, тъй като те не могат да оказват никакво 248 00:12:28,360 --> 00:12:29,530 думи на първо време. 249 00:12:29,530 --> 00:12:32,600 Така че трябва да направим нещо, наречено сегментация която току-що е поставянето 250 00:12:32,600 --> 00:12:36,490 пространства между това, което ние ще се обади думи в тези езици. 251 00:12:36,490 --> 00:12:37,740 Направи ли смисъл? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> И тогава ние ще говорим за синтаксис. 254 00:12:41,540 --> 00:12:44,050 Така че просто малко за природен обработка език. 255 00:12:44,050 --> 00:12:45,420 Това ще бъде просто един преглед. 256 00:12:45,420 --> 00:12:50,700 Така че днес, в общи линии това, което искам да направя ви дам момчета малко на 257 00:12:50,700 --> 00:12:53,930 във вътрешността на това какви са възможностите , които можете да правите с изчислителна 258 00:12:53,930 --> 00:12:54,960 лингвистика. 259 00:12:54,960 --> 00:13:00,410 И тогава можете да видите какво мислите е прохладно сред тези неща. 260 00:13:00,410 --> 00:13:02,270 И може би можеш да се сетиш на проект и дойде да говори с мен. 261 00:13:02,270 --> 00:13:05,260 И мога да ви дам съвет за това как да го приложат. 262 00:13:05,260 --> 00:13:09,060 >> Така синтаксис ще бъде малко за Graph Search и машина 263 00:13:09,060 --> 00:13:09,670 превод. 264 00:13:09,670 --> 00:13:13,650 Аз съм просто ще дам един пример за това как бихте могли, например, превежда 265 00:13:13,650 --> 00:13:16,020 нещо от португалски на английски език. 266 00:13:16,020 --> 00:13:17,830 Звучи добре? 267 00:13:17,830 --> 00:13:19,293 >> Така че, на първо място, проблемът на класификация. 268 00:13:19,293 --> 00:13:23,590 Аз ще кажа, че тази част от семинара ще бъде най-голямото предизвикателство 269 00:13:23,590 --> 00:13:27,560 едно просто, защото там става за някои кодиране. 270 00:13:27,560 --> 00:13:29,470 Но това ще е Python. 271 00:13:29,470 --> 00:13:34,380 Знам, че вие, момчета, не знаят, Python, така че Отивам да се обясни в открито 272 00:13:34,380 --> 00:13:35,750 ниво, което аз правя. 273 00:13:35,750 --> 00:13:40,900 И не е нужно да ми пука прекалено много за синтаксиса, защото това е 274 00:13:40,900 --> 00:13:42,140 нещо, вие може да се научат. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 Звучи добре. 277 00:13:43,580 --> 00:13:46,020 >> Така че това, което е проблем за класификация? 278 00:13:46,020 --> 00:13:49,140 Значи дал някои текстове да една песен, а вие искате да се отгатне 279 00:13:49,140 --> 00:13:50,620 кой я пее. 280 00:13:50,620 --> 00:13:54,045 И това може да бъде за всякакъв вид други проблеми. 281 00:13:54,045 --> 00:13:59,980 Така че това може да бъде, например, може да има президентска кампания и имате 282 00:13:59,980 --> 00:14:02,610 реч, а вие искате да намерите , ако това е, например, 283 00:14:02,610 --> 00:14:04,470 Обама или Мит Ромни. 284 00:14:04,470 --> 00:14:07,700 Или можете да имате един куп имейли и искате да разбера, ако те са 285 00:14:07,700 --> 00:14:08,890 спам или не. 286 00:14:08,890 --> 00:14:11,440 Така че това е просто класифициране на някои данни въз основа на думите 287 00:14:11,440 --> 00:14:13,790 че имате там. 288 00:14:13,790 --> 00:14:16,295 >> Така че, за да направите това, вие трябва да се направят някои предположения. 289 00:14:16,295 --> 00:14:20,570 Така че много за компютърна лингвистика се правят предположения, 290 00:14:20,570 --> 00:14:24,100 обикновено интелигентни предположения, така че можете да получите добри резултати. 291 00:14:24,100 --> 00:14:26,670 Опитвайки се да се създаде модел за него. 292 00:14:26,670 --> 00:14:31,290 И след това да я изпробвате и да видим дали тя работи, ако той ви дава добра точност. 293 00:14:31,290 --> 00:14:33,940 И ако това е така, тогава вие опитайте се да я подобрим. 294 00:14:33,940 --> 00:14:37,640 Ако това не стане, вие сте като OK, може би аз трябва да се направи различно предположение. 295 00:14:37,640 --> 00:14:44,030 >> Така че предположението, че ние ще направи, е, че един художник обикновено пее 296 00:14:44,030 --> 00:14:49,220 за една тема няколко пъти, а може би използва думи, няколко пъти просто 297 00:14:49,220 --> 00:14:50,270 защото те са свикнали с него. 298 00:14:50,270 --> 00:14:51,890 Можете просто да мисля за вашия приятел. 299 00:14:51,890 --> 00:14:57,350 Сигурен съм, че вие, момчета, всички имат приятели които казват подписа си фраза, 300 00:14:57,350 --> 00:14:59,260 буквално за всяко едно изречение - 301 00:14:59,260 --> 00:15:02,660 като някаква конкретна дума или някои специфични фраза, която те казват за 302 00:15:02,660 --> 00:15:04,020 всяко едно изречение. 303 00:15:04,020 --> 00:15:07,920 >> И това, което мога да кажа е, че ако те видя присъда, която има подпис 304 00:15:07,920 --> 00:15:11,450 фраза, можете да се досетите, че вероятно вашият приятел е 305 00:15:11,450 --> 00:15:13,310 едно го казвам, нали? 306 00:15:13,310 --> 00:15:18,410 Така че направи това предположение и после Ето как можете да създадете модел. 307 00:15:18,410 --> 00:15:24,440 >> Примерът, че аз ще дам, е на как Lady Gaga, например, хора 308 00:15:24,440 --> 00:15:27,430 се каже, че тя използва "бебе" за всичките си номер едно песни. 309 00:15:27,430 --> 00:15:32,270 И всъщност това е едно видео, което показва, си казва думата "бебе" за 310 00:15:32,270 --> 00:15:33,410 различни песни. 311 00:15:33,410 --> 00:15:33,860 >> [VIDEO PLAYBACK] 312 00:15:33,860 --> 00:15:34,310 >> - (ПЕЕ) Бебе. 313 00:15:34,310 --> 00:15:36,220 Бебе. 314 00:15:36,220 --> 00:15:37,086 Бебе. 315 00:15:37,086 --> 00:15:37,520 Бебе. 316 00:15:37,520 --> 00:15:37,770 Бебе. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Бебе. 319 00:15:39,243 --> 00:15:40,085 Бебе. 320 00:15:40,085 --> 00:15:40,510 Бебе. 321 00:15:40,510 --> 00:15:40,850 Бебе. 322 00:15:40,850 --> 00:15:41,090 >> [END възпроизвеждане на видео- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS: Така че има, аз мисля, 40 песни тук, в което тя казва, че 324 00:15:44,020 --> 00:15:48,690 думата "бебе". Така че можете да основно предполагам че ако видите една песен, която има 325 00:15:48,690 --> 00:15:52,180 думата "бебе", има някои високо вероятност, че това е Lady Gaga. 326 00:15:52,180 --> 00:15:56,450 Но нека да се опитаме да развием тази още по-официално. 327 00:15:56,450 --> 00:16:00,470 >> Така че това са текстове на песни на Lady Gaga и Katy Perry. 328 00:16:00,470 --> 00:16:04,120 Така че погледнете Lady Gaga, можете да видите има много случаи на "бебе", а 329 00:16:04,120 --> 00:16:07,710 много случаи на "начин." И след това Katy Perry има много случаи на 330 00:16:07,710 --> 00:16:10,360 "За" много случаи на "пожар". 331 00:16:10,360 --> 00:16:14,560 >> Така че основно това, което ние искаме да направите, е да, вие получавате лиричен. 332 00:16:14,560 --> 00:16:20,480 Да речем, че имате по-лиричен за песен, която е "бебе", просто "бебе". Ако 333 00:16:20,480 --> 00:16:24,750 просто идва и думата "бебе", а това е всички данни, които имате от 334 00:16:24,750 --> 00:16:27,880 Lady Gaga и Katy Perry, който ще ли да се досетите, е лицето 335 00:16:27,880 --> 00:16:29,370 който пее песента? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga или Katy Perry? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga, нали? 338 00:16:33,150 --> 00:16:37,400 Защото тя е само един, който казва, "Бебе". Това звучи глупаво, нали? 339 00:16:37,400 --> 00:16:38,760 ОК, това е много лесно. 340 00:16:38,760 --> 00:16:41,860 Аз съм просто гледам на двете песни и на Разбира се, тя е единствената, която има 341 00:16:41,860 --> 00:16:42,660 "Бебе". 342 00:16:42,660 --> 00:16:44,740 >> Но какво, ако имате един куп думи? 343 00:16:44,740 --> 00:16:50,900 Ако имате действително лиричен, нещо като, "бебе, аз просто 344 00:16:50,900 --> 00:16:51,610 Отидох да видя [? CFT?] 345 00:16:51,610 --> 00:16:54,020 лекция ", или нещо такова, и тогава вие всъщност трябва да разбера - 346 00:16:54,020 --> 00:16:55,780 въз основа на всички тези думи - 347 00:16:55,780 --> 00:16:58,350 кой е художникът, който вероятно пееше тази песен? 348 00:16:58,350 --> 00:17:01,860 Така че нека да се опитаме да развием това малко по-нататък. 349 00:17:01,860 --> 00:17:05,630 >> ОК, така че въз основа само на данните, които ние Има, изглежда, че Гага е вероятно 350 00:17:05,630 --> 00:17:06,260 певицата. 351 00:17:06,260 --> 00:17:07,904 Но как може да се пише това по-официално? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 И там ще бъде малко малко статистика. 354 00:17:13,140 --> 00:17:15,880 Така че, ако сте се изгубили, просто опитайте да се разбере концепцията. 355 00:17:15,880 --> 00:17:18,700 Това няма значение, ако сте разбрали уравненията отлично. 356 00:17:18,700 --> 00:17:22,150 Това е всичко, няма да бъде на линия. 357 00:17:22,150 --> 00:17:25,490 >> Така че основно това, което аз съм изчисляване е вероятност, че тази песен е от 358 00:17:25,490 --> 00:17:28,040 Lady Gaga има предвид, че - 359 00:17:28,040 --> 00:17:30,660 така че това означава бар има предвид, че - 360 00:17:30,660 --> 00:17:33,680 Видях думата "бебе". Това прави ли смисъл? 361 00:17:33,680 --> 00:17:35,540 Така че аз се опитвам да се изчисли Тази вероятност. 362 00:17:35,540 --> 00:17:38,540 >> Така че там е тази теорема, наречен Бейс теорема, която казва, че 363 00:17:38,540 --> 00:17:43,330 вероятност на даден тип В, ​​е вероятност на Б, даден пъти 364 00:17:43,330 --> 00:17:47,660 вероятността, над вероятността Б. Това е дълго уравнение. 365 00:17:47,660 --> 00:17:51,970 Но това, което трябва да се разбере от това е, че това е, което искам да 366 00:17:51,970 --> 00:17:52,830 изчисли, нали? 367 00:17:52,830 --> 00:17:56,570 Така че вероятността, че тази песен е от Lady Gaga има предвид, че видях думата 368 00:17:56,570 --> 00:17:58,230 "Бебе". 369 00:17:58,230 --> 00:18:02,960 >> И сега това, което аз съм се е вероятност на думата "бебе", дадени 370 00:18:02,960 --> 00:18:04,390 че имам Lady Gaga. 371 00:18:04,390 --> 00:18:07,220 И какво е това същество? 372 00:18:07,220 --> 00:18:10,500 Какво означава това е, какво е вероятност да видя думата "бебе" 373 00:18:10,500 --> 00:18:12,130 в Gaga текстове на песни? 374 00:18:12,130 --> 00:18:16,240 Ако искам да се изчисли, че в много прост начин, това е просто броят на 375 00:18:16,240 --> 00:18:23,640 пъти виждам "бебе" над общия брой на думите в Gaga текстове, нали? 376 00:18:23,640 --> 00:18:27,600 Каква е честотата, че виждам тази дума в работата Гага? 377 00:18:27,600 --> 00:18:30,530 Направи ли смисъл? 378 00:18:30,530 --> 00:18:33,420 >> Вторият план е вероятност за Gaga. 379 00:18:33,420 --> 00:18:34,360 Какво означава това? 380 00:18:34,360 --> 00:18:38,550 Това по същество означава, каква е вероятност за класифициране 381 00:18:38,550 --> 00:18:40,690 някои текстове като Gaga? 382 00:18:40,690 --> 00:18:45,320 И това е малко странно, но нека помислим за пример. 383 00:18:45,320 --> 00:18:49,230 Така че нека да кажем, че вероятността от като "бебе" в една песен е същата 384 00:18:49,230 --> 00:18:51,760 за Gaga и Бритни Спиърс. 385 00:18:51,760 --> 00:18:54,950 Но Бритни Спиърс има два пъти повече песни, отколкото Lady Gaga. 386 00:18:54,950 --> 00:19:00,570 Така че, ако някой просто случайно ви дава текстове на песни на "бебе", първото нещо, което 387 00:19:00,570 --> 00:19:04,710 погледнете е, каква е вероятността от като "бебе" в Gaga песен, "бебе" 388 00:19:04,710 --> 00:19:05,410 в Britney песен? 389 00:19:05,410 --> 00:19:06,460 И това е едно и също нещо. 390 00:19:06,460 --> 00:19:10,040 >> Така че второто нещо, което ще видите, е, Е, каква е вероятността от 391 00:19:10,040 --> 00:19:13,770 този лиричен от само себе си, че е Gaga лиричен, и каква е вероятността от 392 00:19:13,770 --> 00:19:15,380 бъдеш Britney лиричен? 393 00:19:15,380 --> 00:19:18,950 Така че, тъй като Бритни има толкова много повече текстове на песни от Gaga, Вие вероятно ще 394 00:19:18,950 --> 00:19:21,470 да речем, добре, това е може би лиричен Бритни. 395 00:19:21,470 --> 00:19:23,340 Така че това е защо ние имаме това определям точно тук. 396 00:19:23,340 --> 00:19:24,670 Вероятност за Gaga. 397 00:19:24,670 --> 00:19:26,950 Има смисъл? 398 00:19:26,950 --> 00:19:28,660 Така ли е? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> И последната една е само вероятността на "бебе", която не се 401 00:19:33,500 --> 00:19:34,810 наистина значение, че много. 402 00:19:34,810 --> 00:19:39,940 Но това е вероятността от виждането "бебе" на английски език. 403 00:19:39,940 --> 00:19:42,725 Ние обикновено не ми пука, че много за този термин. 404 00:19:42,725 --> 00:19:44,490 Това прави ли смисъл? 405 00:19:44,490 --> 00:19:48,110 Така че вероятността от Gaga е наречен преди вероятността 406 00:19:48,110 --> 00:19:49,530 на Gaga клас. 407 00:19:49,530 --> 00:19:53,840 Защото това просто означава, че това, което е най- вероятност да се налага този клас - 408 00:19:53,840 --> 00:19:55,520 което е Gaga - 409 00:19:55,520 --> 00:19:59,350 просто като цяло, просто без никакви условия. 410 00:19:59,350 --> 00:20:02,560 >> И тогава, когато имам вероятност за Gaga дал "бебе", ние го наричаме плюс 411 00:20:02,560 --> 00:20:06,160 Teary вероятност, защото това е вероятността за 412 00:20:06,160 --> 00:20:08,300 Gaga дадени някои доказателства. 413 00:20:08,300 --> 00:20:11,050 Така че аз ти давам доказателства че видях думата бебето и 414 00:20:11,050 --> 00:20:12,690 песента да има смисъл? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> Така че, ако съм изчислил, че за всеки от песните за Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 какво ще бъде - 419 00:20:25,916 --> 00:20:27,730 очевидно, че не може да се движи това. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 Вероятността от Gaga ще бъде нещо подобно, две над 24 пъти по 1/2, 422 00:20:36,920 --> 00:20:38,260 над 2 над 53. 423 00:20:38,260 --> 00:20:40,640 Това няма значение, ако знаете какво тези числа идват. 424 00:20:40,640 --> 00:20:44,750 Но това е просто число, което се случва да бъде повече от 0, нали? 425 00:20:44,750 --> 00:20:48,610 >> И тогава, когато аз правя Katy Perry, на вероятност за "бебе", дадени Katy е 426 00:20:48,610 --> 00:20:49,830 вече 0, нали? 427 00:20:49,830 --> 00:20:52,820 Защото няма "бебе" в Katy Perry. 428 00:20:52,820 --> 00:20:56,360 Така че след това става 0 и Gaga победи, което означава, че Gaga е 429 00:20:56,360 --> 00:20:57,310 вероятно певицата. 430 00:20:57,310 --> 00:20:58,560 Това прави ли смисъл? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> Така че, ако искате да направите това по-официално, Всъщност мога да направя модел 435 00:21:11,750 --> 00:21:12,700 за няколко думи. 436 00:21:12,700 --> 00:21:14,610 Така че нека да кажа, че имам нещо като, "бейби, аз съм 437 00:21:14,610 --> 00:21:16,030 на огъня ", или нещо такова. 438 00:21:16,030 --> 00:21:17,760 Така че има много думи. 439 00:21:17,760 --> 00:21:20,880 И в този случай, можете да видите че "бебе" е в Gaga, 440 00:21:20,880 --> 00:21:21,710 но това не е в Katy. 441 00:21:21,710 --> 00:21:24,940 И "огън" е в Katy, но това не е в Gaga, нали? 442 00:21:24,940 --> 00:21:27,200 Така че става все по-сложни, нали? 443 00:21:27,200 --> 00:21:31,440 Защото изглежда, че почти има връзка между двете. 444 00:21:31,440 --> 00:21:36,980 >> Така че това, което трябва да направите е да се предположи, независимост между думите. 445 00:21:36,980 --> 00:21:41,210 Така че в общи линии това, което означава, че е, че Аз съм просто изчисление какъв е 446 00:21:41,210 --> 00:21:44,330 вероятност да видя "бебе", което е вероятността за виждане "I", и 447 00:21:44,330 --> 00:21:46,670 "Съм", ​​и "на" и "огън" всички поотделно. 448 00:21:46,670 --> 00:21:48,670 Тогава аз се умножи всички от тях. 449 00:21:48,670 --> 00:21:52,420 И аз виждам каква е вероятността да видя цялата изречение. 450 00:21:52,420 --> 00:21:55,210 Направи ли смисъл? 451 00:21:55,210 --> 00:22:00,270 >> Така че основно, ако имам само една дума, това, което искам да разбера е арг макс, 452 00:22:00,270 --> 00:22:05,385 което означава, че това е класът, че е че ми даде най-високата вероятност? 453 00:22:05,385 --> 00:22:10,010 Така че това, което е класът, който се дава ми най-голяма вероятност за 454 00:22:10,010 --> 00:22:11,940 вероятност от клас дадена дума. 455 00:22:11,940 --> 00:22:17,610 Така че в този случай, Gaga има предвид "бебе". Или Katy дал "бебе". Направи ли смисъл? 456 00:22:17,610 --> 00:22:21,040 >> И само от Бейс, че уравнение, което показах, 457 00:22:21,040 --> 00:22:24,780 ние създаваме тази фракция. 458 00:22:24,780 --> 00:22:28,750 Единственото нещо е, че виждате ли, че вероятността от дума Предвид 459 00:22:28,750 --> 00:22:31,370 промени класа в зависимост от класа, нали? 460 00:22:31,370 --> 00:22:34,260 Броят на "Baby" е, че имам в Gaga е различно от Katy. 461 00:22:34,260 --> 00:22:37,640 Вероятността от класа също промени, защото това е просто броя 462 00:22:37,640 --> 00:22:39,740 на песни всеки от тях има. 463 00:22:39,740 --> 00:22:43,980 >> Но вероятността на самата дума ще бъде една и съща за всички 464 00:22:43,980 --> 00:22:44,740 художници, нали? 465 00:22:44,740 --> 00:22:47,150 Така вероятността за дума просто, каква е вероятността от 466 00:22:47,150 --> 00:22:49,820 виждайки, че дума в Английски език? 467 00:22:49,820 --> 00:22:51,420 Така че това е един и същ за всички от тях. 468 00:22:51,420 --> 00:22:55,790 Така че, тъй като това е постоянно, ние можем просто пуснете това и не се грижи за него. 469 00:22:55,790 --> 00:23:00,230 Така че това ще бъде всъщност уравнение, което търсим. 470 00:23:00,230 --> 00:23:03,360 >> И ако имате няколко думи, аз съм все още продължава да има предварително 471 00:23:03,360 --> 00:23:04,610 вероятност тук. 472 00:23:04,610 --> 00:23:06,980 Единственото нещо е, че аз съм се умножи вероятността 473 00:23:06,980 --> 00:23:08,490 всички други думи. 474 00:23:08,490 --> 00:23:10,110 Така че аз съм се умножи всички от тях. 475 00:23:10,110 --> 00:23:12,610 Направи ли смисъл? 476 00:23:12,610 --> 00:23:18,440 Изглежда странно, но в общи линии означава, изчисли приор на класа, и 477 00:23:18,440 --> 00:23:22,100 след това се умножава по вероятността за всеки на думите са в този клас. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> И вие знаете, че вероятността от Думата даден клас ще бъде на 480 00:23:29,150 --> 00:23:34,520 брой пъти, които виждате тази дума в този клас, разделен на броя на 481 00:23:34,520 --> 00:23:37,020 думи, които имате в това клас като цяло. 482 00:23:37,020 --> 00:23:37,990 Направи ли смисъл? 483 00:23:37,990 --> 00:23:41,680 Това е просто как "бебе" е над 2 на броя на думите, които 484 00:23:41,680 --> 00:23:43,020 Имах в текста. 485 00:23:43,020 --> 00:23:45,130 Така че просто честотата. 486 00:23:45,130 --> 00:23:46,260 >> Но има едно нещо. 487 00:23:46,260 --> 00:23:51,250 Помниш ли как се показва, че вероятност на "Baby" са текстове на песни 488 00:23:51,250 --> 00:23:56,350 от Katy Perry е 0, само защото Katy Пери не е имал "бебе" на всички? 489 00:23:56,350 --> 00:24:04,900 Но това звучи малко грубо просто да просто да кажа, че текстовете не могат да бъдат от 490 00:24:04,900 --> 00:24:10,040 художник, само защото те не разполагат с тази дума по-специално по всяко време. 491 00:24:10,040 --> 00:24:13,330 >> Така бихте могли просто да кажа, добре, ако не разполагат с тази дума, аз отивам да 492 00:24:13,330 --> 00:24:15,640 да ви даде по-ниска вероятност, но аз просто няма да 493 00:24:15,640 --> 00:24:17,420 ви дам 0 веднага. 494 00:24:17,420 --> 00:24:21,040 Защото може би това е нещо подобно, "Огън, огън, пожар, пожар", което е 495 00:24:21,040 --> 00:24:21,990 напълно Katy Perry. 496 00:24:21,990 --> 00:24:26,060 И след това "бебе", и то само идва да 0 веднага, защото имаше една 497 00:24:26,060 --> 00:24:27,250 "Бебе". 498 00:24:27,250 --> 00:24:31,440 >> Така че основно това, което правим, е нещо, наречен на Лаплас изглаждане. 499 00:24:31,440 --> 00:24:36,260 И това просто означава, че давам някаква вероятност дори думите 500 00:24:36,260 --> 00:24:37,850 че не съществуват. 501 00:24:37,850 --> 00:24:43,170 Така че това, което правя, е, че когато съм изчисляване на това, аз винаги добавяйте 1 до 502 00:24:43,170 --> 00:24:44,180 числителя. 503 00:24:44,180 --> 00:24:48,060 Така че, дори ако думата не съществува, в този случай, ако това е 0, аз съм все още 504 00:24:48,060 --> 00:24:51,250 изчисляване на това като един над река Общият брой на думите. 505 00:24:51,250 --> 00:24:55,060 В противен случай, да получа колко думи Имам и аз се добавя 1. 506 00:24:55,060 --> 00:24:58,300 Така че аз съм се брои за двата случая. 507 00:24:58,300 --> 00:25:00,430 Направи ли смисъл? 508 00:25:00,430 --> 00:25:03,060 >> Така че сега нека да се направят някои кодиране. 509 00:25:03,060 --> 00:25:06,440 Ще трябва да го направим много бързо, но това е просто важно да 510 00:25:06,440 --> 00:25:08,600 момчета разбират понятията. 511 00:25:08,600 --> 00:25:13,450 Така че това, което ние се опитваме да направим е точно изпълнение на настоящото 512 00:25:13,450 --> 00:25:14,330 нещо, което току-що казах - 513 00:25:14,330 --> 00:25:19,110 Искам да се сложи текст от Lady Gaga и Katy Perry. 514 00:25:19,110 --> 00:25:22,980 И програмата ще бъде в състояние да казват, че ако тези нови текстове на песни са от Gaga 515 00:25:22,980 --> 00:25:24,170 или Katy Perry. 516 00:25:24,170 --> 00:25:25,800 Направи ли смисъл? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> Така че аз имам тази програма ще да се обадя classify.py. 519 00:25:30,710 --> 00:25:31,970 Така че това е Python. 520 00:25:31,970 --> 00:25:34,210 Това е нов език за програмиране. 521 00:25:34,210 --> 00:25:38,020 Той е много подобен на някои начини за C и PHP. 522 00:25:38,020 --> 00:25:43,180 Той е подобен, защото, ако искате да научат Python след знаейки, C, това е 523 00:25:43,180 --> 00:25:46,270 наистина не е много по-голямо предизвикателство просто защото Python е много по-лесно 524 00:25:46,270 --> 00:25:47,520 от С, на първо място. 525 00:25:47,520 --> 00:25:49,370 И много от нещата вече са изпълнява за вас. 526 00:25:49,370 --> 00:25:56,820 Така че просто как като PHP има функции, които сортирате списък или добавите нещо 527 00:25:56,820 --> 00:25:58,780 към масив, или дрън, дрън, дрън. 528 00:25:58,780 --> 00:26:00,690 Python има всички тези, както добре. 529 00:26:00,690 --> 00:26:05,960 >> Така че аз съм просто ще обясни бързо как бихме могли да направим за класирането 530 00:26:05,960 --> 00:26:07,860 проблем за тук. 531 00:26:07,860 --> 00:26:13,230 Така че нека да кажем, че в този случай, аз имам Текстове от Gaga и Katy Perry. 532 00:26:13,230 --> 00:26:21,880 Начинът, по който аз имам тези текстове е, че първата дума от текста е 533 00:26:21,880 --> 00:26:25,250 името на художника, и останалото е текста. 534 00:26:25,250 --> 00:26:29,470 Така че нека да кажа, че имам този списък в които първата е по текст на Gaga. 535 00:26:29,470 --> 00:26:31,930 Така че тук съм на прав път. 536 00:26:31,930 --> 00:26:35,270 И следващият е Katy, и но има също така текста. 537 00:26:35,270 --> 00:26:38,040 >> Така че това е начина, Вие декларирате, променлива в Python. 538 00:26:38,040 --> 00:26:40,200 Не е нужно да се даде на типа данни. 539 00:26:40,200 --> 00:26:43,150 Вие просто напишете "текстове", Нещо като в PHP. 540 00:26:43,150 --> 00:26:44,890 Направи ли смисъл? 541 00:26:44,890 --> 00:26:47,770 >> Така че какви са нещата, които трябва да изчисляване, за да може да се изчисли 542 00:26:47,770 --> 00:26:49,360 вероятности? 543 00:26:49,360 --> 00:26:55,110 Трябва да се изчислят "Приорите" на всеки от различните 544 00:26:55,110 --> 00:26:56,710 класове, които имам. 545 00:26:56,710 --> 00:27:06,680 Трябва да се изчислят "премоларите" или почти вероятностите 546 00:27:06,680 --> 00:27:12,150 всеки от различните думи, които I може да има за всеки творец. 547 00:27:12,150 --> 00:27:17,210 Така в рамките на Gaga, например, аз ще да има списък на колко пъти виждам 548 00:27:17,210 --> 00:27:19,250 всяка от думите. 549 00:27:19,250 --> 00:27:20,760 Направи ли смисъл? 550 00:27:20,760 --> 00:27:25,370 >> И накрая, аз съм просто ще има списък, наречен "думи", че е просто ще 551 00:27:25,370 --> 00:27:29,780 да има колко думи съм да има за всеки творец. 552 00:27:29,780 --> 00:27:33,760 Така че за Gaga, например, когато погледна до текстовете, бях, мисля, 24 553 00:27:33,760 --> 00:27:34,750 думи общо. 554 00:27:34,750 --> 00:27:38,970 Така че този списък е просто ще има Gaga 24, и Katy друг номер. 555 00:27:38,970 --> 00:27:40,130 Направи ли смисъл? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> Така че сега, всъщност, нека да отидете на кодирането. 558 00:27:42,530 --> 00:27:45,270 Така че в Python, всъщност можете да върне един куп различни 559 00:27:45,270 --> 00:27:46,630 неща от една функция. 560 00:27:46,630 --> 00:27:50,810 Така че аз отивам да се създаде тази функция наречената "условна", която ще 561 00:27:50,810 --> 00:27:53,890 да се върнат всички тези неща, за "присъди" на "вероятностите", а 562 00:27:53,890 --> 00:28:05,690 "думи." Така "условна", и това е ще се обади в "текстове." 563 00:28:05,690 --> 00:28:11,510 >> Така че сега искам да всъщност напиша тази функция. 564 00:28:11,510 --> 00:28:17,750 Така че начинът, по който мога да напиша това функция е просто определя този, 565 00:28:17,750 --> 00:28:20,620 функционира с "Def." Така че го направих "Def условно, "и то се бави 566 00:28:20,620 --> 00:28:28,700 "Текстове." И какво ще направи е, на първо място, аз имам моите предишни провинения 567 00:28:28,700 --> 00:28:31,030 че аз искам да се изчисли. 568 00:28:31,030 --> 00:28:34,330 >> Така че начинът, по който мога да го направя, е да създадете речник в Python, която 569 00:28:34,330 --> 00:28:37,320 е почти едно и също нещо като хеш маса, или това е като един повтарящ 570 00:28:37,320 --> 00:28:40,480 масив в PHP. 571 00:28:40,480 --> 00:28:44,150 Това е как аз декларирам речник. 572 00:28:44,150 --> 00:28:53,580 И в общи линии какво означава това е, че присъди на Gaga е 0.5, например, ако 573 00:28:53,580 --> 00:28:57,200 50% от текстовете са от Gaga, 50% са от Katy. 574 00:28:57,200 --> 00:28:58,450 Направи ли смисъл? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 Така че аз трябва да разбера как за изчисляване на Приорите. 577 00:29:03,680 --> 00:29:07,120 >> Следващите тези, които трябва да направя, също така, са вероятностите и думите. 578 00:29:07,120 --> 00:29:17,100 Така че вероятностите за Gaga списъка на всички вероятности, че аз 579 00:29:17,100 --> 00:29:19,160 имат за всяка от думите за Gaga. 580 00:29:19,160 --> 00:29:23,880 Така че, ако отида да вероятности на Gaga "Бебе", например, тя ще ми даде 581 00:29:23,880 --> 00:29:28,750 нещо като две над 24 в този случай. 582 00:29:28,750 --> 00:29:30,070 Направи ли смисъл? 583 00:29:30,070 --> 00:29:36,120 Така че аз отивам да "вероятностите", отидете на "Gaga" кофа, че има списък на всички 584 00:29:36,120 --> 00:29:40,550 думите Гага, тогава отидете на "бебе" и виждам вероятността. 585 00:29:40,550 --> 00:29:45,940 >> И най-накрая имам тази "Думите" речник. 586 00:29:45,940 --> 00:29:53,620 Така че тук, "вероятности." И след това "думи." Така че, ако го направя "думи", "Гага" 587 00:29:53,620 --> 00:29:58,330 какво ще се случи, е, че тя е ще ми даде 24, като каза, че аз 588 00:29:58,330 --> 00:30:01,990 има 24 думи в рамките на текстове от Gaga. 589 00:30:01,990 --> 00:30:04,110 Има смисъл? 590 00:30:04,110 --> 00:30:07,070 Така че тук, "думи" е равно на дрън-дрън-дрън. 591 00:30:07,070 --> 00:30:07,620 Добре 592 00:30:07,620 --> 00:30:12,210 >> Така че това, което аз ще направя, е, че ще обхождане на всеки един от текстовете, така че 593 00:30:12,210 --> 00:30:14,490 всяка от струните, че Имам в списъка. 594 00:30:14,490 --> 00:30:18,040 И аз отивам да се изчисли тези неща за всеки от кандидатите. 595 00:30:18,040 --> 00:30:19,950 Има смисъл? 596 00:30:19,950 --> 00:30:21,700 Така че аз трябва да направя, за линия. 597 00:30:21,700 --> 00:30:26,300 >> Така че в Python, което мога да направя е "за линия в текста. "Същото нещо като 598 00:30:26,300 --> 00:30:28,000 "За всеки" изявление в PHP. 599 00:30:28,000 --> 00:30:33,420 Помниш ли как, ако тя беше PHP можех казват "за всеки текст като 600 00:30:33,420 --> 00:30:35,220 линия. "Има смисъл? 601 00:30:35,220 --> 00:30:38,900 Така че аз съм като всяка от линиите, в това случай, този низ и следващата 602 00:30:38,900 --> 00:30:44,540 низ, така че за всяка от линиите, което аз съм ще направя, е на първо място, аз ще 603 00:30:44,540 --> 00:30:49,150 разделим тази линия в списък на думи, разделени с интервали. 604 00:30:49,150 --> 00:30:53,730 >> Така че готино нещо за Python е, че бихте могли просто Google като "Как мога да 605 00:30:53,730 --> 00:30:58,220 Разделя низ думи? "И това е Щях да ти кажа как да го направя. 606 00:30:58,220 --> 00:31:04,890 И начина, по който да го направи, това е просто "линия = Line.split () "и това е основно 607 00:31:04,890 --> 00:31:08,640 ще ви даде списък с всяка от думите тук. 608 00:31:08,640 --> 00:31:09,620 Има смисъл? 609 00:31:09,620 --> 00:31:15,870 Така че сега, че съм направил, че аз искам да знам който е вокалист на тази песен. 610 00:31:15,870 --> 00:31:20,130 И за да направя, че аз просто трябва да получи първият елемент на масива, нали? 611 00:31:20,130 --> 00:31:26,390 Така че мога само да кажа, че "певец = Линия (0) "Има смисъл? 612 00:31:26,390 --> 00:31:32,010 >> И след това какво трябва да направите, е, на първо място всички, аз отивам да се актуализира колко 613 00:31:32,010 --> 00:31:36,130 думи, които имат под "Gaga." така че аз съм просто ще изчисли колко думи съм 614 00:31:36,130 --> 00:31:38,690 има в този списък, нали? 615 00:31:38,690 --> 00:31:41,910 Тъй като това е колко думи имам в текста, а аз съм просто ще 616 00:31:41,910 --> 00:31:44,120 го добавите към "Gaga" масива. 617 00:31:44,120 --> 00:31:47,090 Това прави ли смисъл? 618 00:31:47,090 --> 00:31:49,010 Да не се фокусира твърде много върху синтаксиса. 619 00:31:49,010 --> 00:31:50,430 Мислете повече за понятията. 620 00:31:50,430 --> 00:31:52,400 Това е най-важната част. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> Така че това, което аз мога да го направя е, ако "Gaga" е които вече са в този списък, така че "ако певица в 623 00:32:00,260 --> 00:32:03,190 думи ", което означава, че вече има думи от Gaga. 624 00:32:03,190 --> 00:32:06,640 Аз просто искам да се добавят допълнителни думи за това. 625 00:32:06,640 --> 00:32:15,810 Така че това, което правя, е "думи (певица) + = Len (линия) - 1 ". 626 00:32:15,810 --> 00:32:18,250 И тогава аз може просто да направи дължина на линията. 627 00:32:18,250 --> 00:32:21,860 Е, как много елементи I има в масива. 628 00:32:21,860 --> 00:32:27,060 И аз трябва да направя минус 1, само защото първия елемент на масива е просто 629 00:32:27,060 --> 00:32:29,180 певица и тези, които не са текстове. 630 00:32:29,180 --> 00:32:31,420 Има смисъл? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "Else", това означава, че аз искам да всъщност вмъкнете Gaga в списъка. 633 00:32:35,820 --> 00:32:45,990 Така че аз просто правя "думи (певица) = Len (линия) - 1, "Съжалявам. 634 00:32:45,990 --> 00:32:49,200 Така че единствената разлика между двете линии е, че това, че не 635 00:32:49,200 --> 00:32:51,080 съществува все още, така че аз съм просто инициализиране. 636 00:32:51,080 --> 00:32:53,820 Това едно аз съм действително добавяне. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 Така че това е добавянето на думите. 639 00:32:59,480 --> 00:33:03,040 >> Сега искам да добавя към Приорите. 640 00:33:03,040 --> 00:33:05,480 И така, как мога да се изчисли Приорите? 641 00:33:05,480 --> 00:33:11,580 На Приорите могат да бъдат изчислени по колко пъти. 642 00:33:11,580 --> 00:33:15,340 Така че колко пъти те видя, че певицата сред всички на певците, че вие, 643 00:33:15,340 --> 00:33:16,380 има, нали? 644 00:33:16,380 --> 00:33:18,810 Така че за Gaga и Katy Perry, В този случай, аз виждам Gaga 645 00:33:18,810 --> 00:33:20,570 веднъж, Katy Perry веднъж. 646 00:33:20,570 --> 00:33:23,320 >> Така че основно на Приорите за Gaga и за Katy Perry ще 647 00:33:23,320 --> 00:33:24,390 да бъде само една, нали? 648 00:33:24,390 --> 00:33:26,500 Ти просто колко пъти Виждам художника. 649 00:33:26,500 --> 00:33:28,740 Така че това е много лесно да се изчисли. 650 00:33:28,740 --> 00:33:34,100 Не мога просто нещо подобно като като "ако певица в предишни провинения, "Аз съм просто ще 651 00:33:34,100 --> 00:33:38,970 да се добави едно да си кутия присъди. 652 00:33:38,970 --> 00:33:51,000 Така че, "присъди (пее)" + = 1 "и след това" друго " Отивам да направя "присъди (певица) 653 00:33:51,000 --> 00:33:55,000 = 1. "Има смисъл? 654 00:33:55,000 --> 00:34:00,080 >> Така че, ако тя не съществува Пуснах като един, в противен случай аз просто добавете 1. 655 00:34:00,080 --> 00:34:11,280 ОК, така че сега всичко, което остава да се направи е също така да добавите всеки един от думи към 656 00:34:11,280 --> 00:34:12,290 вероятности. 657 00:34:12,290 --> 00:34:14,889 Така че аз трябва да брои колко пъти Виждам всяка от думите. 658 00:34:14,889 --> 00:34:18,780 Така че аз просто трябва да се направи друг за линия в линията. 659 00:34:18,780 --> 00:34:25,190 >> Така че първото нещо, което ще направя, е проверите дали певицата вече има 660 00:34:25,190 --> 00:34:26,969 вероятности масив. 661 00:34:26,969 --> 00:34:31,739 Така че аз съм проверка, ако певицата не има вероятности масив, аз съм просто 662 00:34:31,739 --> 00:34:34,480 ще се инициализира един за тях. 663 00:34:34,480 --> 00:34:36,400 Тя дори не е масив, съжалявам, това е речник. 664 00:34:36,400 --> 00:34:43,080 Така че вероятностите за певица ще да бъде отворена речник, така че аз съм 665 00:34:43,080 --> 00:34:45,830 просто инициализиране на речник за него. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> И сега може да се прави за линия за изчисляване на всяка от думите " 668 00:34:58,330 --> 00:35:00,604 вероятности. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 Така че, това, което мога да направя е за линия. 671 00:35:04,160 --> 00:35:06,590 Така че аз съм просто ще обхождане над масива. 672 00:35:06,590 --> 00:35:15,320 Така че начинът, по който мога да направя, че в Python е "Защото в обхват." От 1 673 00:35:15,320 --> 00:35:19,200 защото аз искам да започне през втората елемент, тъй като първият от тях е 674 00:35:19,200 --> 00:35:20,260 име певица. 675 00:35:20,260 --> 00:35:24,990 Така че от една до дължина на линията. 676 00:35:24,990 --> 00:35:29,760 И когато го направя варира всъщност премине от като тук от 1 до дъл на 677 00:35:29,760 --> 00:35:30,740 Онлайн минус 1. 678 00:35:30,740 --> 00:35:33,810 Така че това вече прави това нещо за правене п минус 1 за масиви, които е много 679 00:35:33,810 --> 00:35:35,500 удобно. 680 00:35:35,500 --> 00:35:37,850 Има смисъл? 681 00:35:37,850 --> 00:35:42,770 >> Така че за всеки един от тях, това, което аз отивам да направите, е, точно като в другия, 682 00:35:42,770 --> 00:35:50,320 Отивам да проверя дали думата в този позиция в линията е вече в 683 00:35:50,320 --> 00:35:51,570 вероятности. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 И тогава, както казах тук, вероятности думи, както в I, пуснати 686 00:35:57,260 --> 00:35:58,400 "вероятности (певица)". 687 00:35:58,400 --> 00:35:59,390 Така че името на певицата. 688 00:35:59,390 --> 00:36:03,450 Така че, ако това е вече в "Probabilit (певица)", това означава, че аз 689 00:36:03,450 --> 00:36:11,960 искате да добавите 1 към него, така че аз отивам да направи "вероятности (певица)", както и на 690 00:36:11,960 --> 00:36:14,100 дума се нарича "линия (и)". 691 00:36:14,100 --> 00:36:22,630 Отивам да добавите 1 и "друго" Аз съм просто ще го инициализира към 1. 692 00:36:22,630 --> 00:36:23,880 "Линия (и)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 Има смисъл? 695 00:36:28,420 --> 00:36:30,180 >> Така че, аз изчислява всички масиви. 696 00:36:30,180 --> 00:36:36,580 Така че, сега всичко, което трябва да направите, за това е просто едно "завръщане присъди, 697 00:36:36,580 --> 00:36:43,230 вероятности и думи. "Да виж, ако има такива, OK. 698 00:36:43,230 --> 00:36:45,690 Изглежда всичко работи досега. 699 00:36:45,690 --> 00:36:46,900 Така, че има смисъл? 700 00:36:46,900 --> 00:36:47,750 По някакъв начин? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 Така че сега имам всички вероятности. 703 00:36:51,980 --> 00:36:55,100 Така че сега единственото нещо, което ми е останало е просто да има, че нещо, което 704 00:36:55,100 --> 00:36:58,650 изчислява произведението на всички вероятности, когато получа текстовете. 705 00:36:58,650 --> 00:37:06,270 >> Така че нека да кажем, че искам да се обадя тази функция "класифициране ()" и 706 00:37:06,270 --> 00:37:08,880 нещо, което функция може да отнеме е само един аргумент. 707 00:37:08,880 --> 00:37:13,170 Да речем, "Скъпа, аз съм на огън" и това е Ще разбера какво е 708 00:37:13,170 --> 00:37:14,490 вероятност, че това е Gaga? 709 00:37:14,490 --> 00:37:16,405 Каква е вероятността че това е Кейти? 710 00:37:16,405 --> 00:37:19,690 Звучи добре? 711 00:37:19,690 --> 00:37:25,750 Така че аз съм просто ще трябва да се създаде нова функция, наречена "класифициране ()" и 712 00:37:25,750 --> 00:37:29,180 това ще отнеме известно текстове на песни, както добре. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 И освен текстовете също така Трябва да изпратите Приорите г. 715 00:37:36,160 --> 00:37:37,700 вероятности и думите. 716 00:37:37,700 --> 00:37:44,000 Така че аз отивам да изпрати текстове на песни, присъди, вероятности, думи. 717 00:37:44,000 --> 00:37:51,840 >> Така че това е като текстове на песни, присъди, вероятности, думи. 718 00:37:51,840 --> 00:37:53,530 Така че, какво прави той? 719 00:37:53,530 --> 00:37:57,180 По същество това ще мине през всички възможните кандидати че сте 720 00:37:57,180 --> 00:37:58,510 имат като певица. 721 00:37:58,510 --> 00:37:59,425 И къде са тези кандидати? 722 00:37:59,425 --> 00:38:01,020 Те са в Приорите, нали? 723 00:38:01,020 --> 00:38:02,710 Така че аз имам всички онези там. 724 00:38:02,710 --> 00:38:07,870 Така че аз отивам да има речник на всички възможни кандидати. 725 00:38:07,870 --> 00:38:14,220 И тогава за всеки един кандидат в предишни провинения, така че това означава, че тя ще 726 00:38:14,220 --> 00:38:17,740 бъде Gaga, Кати, ако имах повече, че ще бъде повече. 727 00:38:17,740 --> 00:38:20,410 Отивам да започне изчисляването тази вероятност. 728 00:38:20,410 --> 00:38:28,310 Вероятността както видяхме в PowerPoint е предишните времена 729 00:38:28,310 --> 00:38:30,800 продукт на всеки от други вероятности. 730 00:38:30,800 --> 00:38:32,520 >> Така че мога да направя същото тук. 731 00:38:32,520 --> 00:38:36,330 Мога само да правя вероятност е първоначално само Приор. 732 00:38:36,330 --> 00:38:40,340 Така присъди на кандидата. 733 00:38:40,340 --> 00:38:40,870 Нали така? 734 00:38:40,870 --> 00:38:45,360 И сега аз трябва да обхождане на всички думи, които имам в текста, за да бъде 735 00:38:45,360 --> 00:38:48,820 можете да добавите вероятността за всеки от тях, нали? 736 00:38:48,820 --> 00:38:57,900 Така че, "за дума в текст" какво ще да направите, е, ако думата е в 737 00:38:57,900 --> 00:39:01,640 "вероятности (кандидат)", които означава, че това е дума, която на 738 00:39:01,640 --> 00:39:03,640 кандидат има в текстовете си - 739 00:39:03,640 --> 00:39:05,940 например, "бебе" за Gaga - 740 00:39:05,940 --> 00:39:11,710 това, което аз ще направя, е, че вероятност ще се умножава 741 00:39:11,710 --> 00:39:22,420 от 1 плюс вероятностите на кандидата за тази дума. 742 00:39:22,420 --> 00:39:25,710 И тя се нарича "дума". 743 00:39:25,710 --> 00:39:32,440 Това, разделен на броя на думи че имам за този кандидат. 744 00:39:32,440 --> 00:39:37,450 Общият брой на думите, че имам за певицата, че гледам. 745 00:39:37,450 --> 00:39:40,290 >> "Else." това означава, че това е нова дума така, че ще бъде като например 746 00:39:40,290 --> 00:39:41,860 "Огън" за Lady Gaga. 747 00:39:41,860 --> 00:39:45,760 Така че аз просто искам да направя едно над "Дума (кандидат)". 748 00:39:45,760 --> 00:39:47,710 Така че аз не искам да се сложи този термин тук. 749 00:39:47,710 --> 00:39:50,010 >> Така че това ще бъде основно копиране и поставяне на това. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 Но аз отивам да изтриете тази част. 752 00:39:56,000 --> 00:39:57,610 Така че това е просто ще бъде един над това. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 Звучи добре? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 И сега в крайна сметка, аз съм просто ще печат на името на кандидата и 757 00:40:09,700 --> 00:40:15,750 вероятността, че имате на имащ S на своите текстове. 758 00:40:15,750 --> 00:40:16,200 Има смисъл? 759 00:40:16,200 --> 00:40:18,390 И аз всъщност дори не се нуждаят от този речник. 760 00:40:18,390 --> 00:40:19,510 Има смисъл? 761 00:40:19,510 --> 00:40:21,810 >> Така че, нека да видим дали това наистина работи. 762 00:40:21,810 --> 00:40:24,880 Така че, ако аз тичам това, той не работи. 763 00:40:24,880 --> 00:40:26,130 Изчакайте една секунда. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Думи (кандидат)", "думи (кандидат)", това е 766 00:40:31,720 --> 00:40:33,750 на името на масива. 767 00:40:33,750 --> 00:40:41,435 ОК, така, той казва, че има някакъв бъг за кандидат в предишни провинения. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 Нека само да се успокоиш малко. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 Нека се опитаме. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> Така той дава Katy Perry има тази Вероятността това да се пъти 10 към 774 00:40:58,710 --> 00:41:02,200 минус 7 и Gaga има тази 10 пъти на минус 6. 775 00:41:02,200 --> 00:41:05,610 Така че виждате това показва, че Gaga има по-голяма вероятност. 776 00:41:05,610 --> 00:41:09,260 Така че, "Скъпа, аз съм на Fire" е Вероятно една песен Gaga. 777 00:41:09,260 --> 00:41:10,580 Има смисъл? 778 00:41:10,580 --> 00:41:12,030 Така че това е, което ние направихме. 779 00:41:12,030 --> 00:41:16,010 >> Този код ще бъде публикуван онлайн, така че вие ​​може да го проверим. 780 00:41:16,010 --> 00:41:20,720 Може да използвате някои от тях, ако искате да направи проект или нещо подобно. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 Това е само за да се покаже какво изчислителна 783 00:41:25,930 --> 00:41:27,230 лингвистика код изглежда. 784 00:41:27,230 --> 00:41:33,040 Но сега да вървим към по- високо ниво неща. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> Така че другите проблеми I Говорех за - 787 00:41:35,150 --> 00:41:37,550 Проблемът за сегментиране е първият от тях. 788 00:41:37,550 --> 00:41:40,820 Така че имате тук японски. 789 00:41:40,820 --> 00:41:43,420 И тогава ще видите, че няма интервали. 790 00:41:43,420 --> 00:41:49,110 Така че това е в общи линии означава, че е горната част на стола, нали? 791 00:41:49,110 --> 00:41:50,550 Вие говорите японски? 792 00:41:50,550 --> 00:41:52,840 Това е най-горната част на стола, нали? 793 00:41:52,840 --> 00:41:54,480 >> STUDENT: Аз не знам какво канджи там е. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS: Това е [ГОВОРЕНЕ ЯПОНСКИ] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 Така че в общи линии означава, председател на върха. 797 00:42:00,960 --> 00:42:03,620 Така че, ако трябваше да се сложи пространство че ще бъде тук. 798 00:42:03,620 --> 00:42:05,970 И тогава ще трябва [? Уеда-сан. ?] 799 00:42:05,970 --> 00:42:09,040 Което по същество означава, г-н Уеда. 800 00:42:09,040 --> 00:42:13,180 И вие виждате, че "Уеда" и имате пространство и след това "сан." Така че виждате, че 801 00:42:13,180 --> 00:42:15,470 тук "ЕС" е като от само себе си. 802 00:42:15,470 --> 00:42:17,750 И тук той има характер в непосредствена близост до него. 803 00:42:17,750 --> 00:42:21,720 >> Така че това не е като на тези езици символи, което означава една дума това, така че 804 00:42:21,720 --> 00:42:23,980 Просто постави много пространства. 805 00:42:23,980 --> 00:42:25,500 Знаците са свързани помежду си. 806 00:42:25,500 --> 00:42:28,680 И те могат да бъдат заедно като две, три, едно. 807 00:42:28,680 --> 00:42:34,520 Така че всъщност трябва да се създаде някакъв вид от пътя на въвеждане на тези пространства. 808 00:42:34,520 --> 00:42:38,850 >> И това нещо е, че всеки път, когато получите данни от тези азиатски езици, 809 00:42:38,850 --> 00:42:40,580 всичко идва Несегментиран. 810 00:42:40,580 --> 00:42:45,940 Защото никой, който пише японски или китайски пише с интервали. 811 00:42:45,940 --> 00:42:48,200 Всеки път, когато пишеш китайски, Японски просто напишете всичко 812 00:42:48,200 --> 00:42:48,710 без интервали. 813 00:42:48,710 --> 00:42:52,060 Той дори няма смисъл да се сложи пространства. 814 00:42:52,060 --> 00:42:57,960 Така че след това, когато можете да получите данни от някои East Asian език, ако искате да 815 00:42:57,960 --> 00:43:00,760 всъщност направи нещо с тази , което трябва да сегмент първи. 816 00:43:00,760 --> 00:43:05,130 >> Мислете за това по примера на текста без интервали. 817 00:43:05,130 --> 00:43:07,950 Така че само текстовете, които имате ще бъде изречения, нали? 818 00:43:07,950 --> 00:43:09,470 , Разделени с точки. 819 00:43:09,470 --> 00:43:13,930 Но след това като просто изречение ще не наистина да помогне за даване на информация 820 00:43:13,930 --> 00:43:17,760 на които тези текстове на песни са от. 821 00:43:17,760 --> 00:43:18,120 Нали така? 822 00:43:18,120 --> 00:43:20,010 Затова трябва да се поставя пространства първи. 823 00:43:20,010 --> 00:43:21,990 Така че как може да стане това? 824 00:43:21,990 --> 00:43:24,920 >> Така че след това идва и идеята на един език модел, който е нещо наистина 825 00:43:24,920 --> 00:43:26,870 важно за изчислителна лингвистика. 826 00:43:26,870 --> 00:43:32,790 Така че един модел език е в основата на таблица на вероятностите, която показва 827 00:43:32,790 --> 00:43:36,260 На първо място това е вероятността да има думата по език? 828 00:43:36,260 --> 00:43:39,590 Така показва как често една дума е. 829 00:43:39,590 --> 00:43:43,130 И тогава също показва връзката между думите в изречение. 830 00:43:43,130 --> 00:43:51,500 >> Така че основната идея е, че ако чужденец дойде за вас и каза едно изречение, за да 831 00:43:51,500 --> 00:43:55,600 вас, каква е вероятността, че за Например, "това е моята сестра [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 е изречението, че лицето, каза? 833 00:43:57,480 --> 00:44:00,380 Така че очевидно някои изречения са по-често от други. 834 00:44:00,380 --> 00:44:04,450 Например, "добро утро" или "добър нощ ", или" ей там ", е много по- 835 00:44:04,450 --> 00:44:08,260 често, отколкото повечето присъди че имаме английски език. 836 00:44:08,260 --> 00:44:11,060 Така че, защо са тези изречения по-често? 837 00:44:11,060 --> 00:44:14,060 >> На първо място, това е, защото имате думи, които са по-често. 838 00:44:14,060 --> 00:44:20,180 Така, например, ако ти кажа, кучето е голям, а кучето е гигантски, вие 839 00:44:20,180 --> 00:44:23,880 обикновено вероятно чуя кучето е голям по-често, тъй като "голям" е по- 840 00:44:23,880 --> 00:44:27,260 често на английски език от "гигантски". Така че, един от 841 00:44:27,260 --> 00:44:30,100 неща е думата честота. 842 00:44:30,100 --> 00:44:34,490 >> Второто нещо, което е наистина важно е само 843 00:44:34,490 --> 00:44:35,490 ред на думите. 844 00:44:35,490 --> 00:44:39,500 Така че, това е обичайно да се каже "котката е вътре в кутията. ", но обикновено не ги 845 00:44:39,500 --> 00:44:44,250 виж в "Кутията вътре е котката." така ще видите, че има известно значение 846 00:44:44,250 --> 00:44:46,030 в реда на думите. 847 00:44:46,030 --> 00:44:50,160 Не може просто да се каже, че тези две изречения имат еднаква вероятност 848 00:44:50,160 --> 00:44:53,010 просто защото те имат едни и същи думи. 849 00:44:53,010 --> 00:44:55,550 Вие всъщност трябва да се грижим за цел, както добре. 850 00:44:55,550 --> 00:44:57,650 Направи ли смисъл? 851 00:44:57,650 --> 00:44:59,490 >> И така, какво ще правим? 852 00:44:59,490 --> 00:45:01,550 Така че това, което може да се опита да ви донеса? 853 00:45:01,550 --> 00:45:04,400 Опитвам се да те накарам това, което ние наричаме моделите N-гр. 854 00:45:04,400 --> 00:45:09,095 Така N-гр модели основно поемат че за всяка дума, че 855 00:45:09,095 --> 00:45:10,960 Имате ли в едно изречение. 856 00:45:10,960 --> 00:45:15,020 Това е вероятността, че като Думата има, зависи не само от 857 00:45:15,020 --> 00:45:18,395 честота на тази дума в езика, но също така и върху думите, които 858 00:45:18,395 --> 00:45:19,860 са около него. 859 00:45:19,860 --> 00:45:25,810 >> Така например, обикновено, когато видите нещо подобно на или сте 860 00:45:25,810 --> 00:45:28,040 вероятно ще видим съществително след това, нали? 861 00:45:28,040 --> 00:45:31,750 Защото, когато имате предлог обикновено отнема съществително след това. 862 00:45:31,750 --> 00:45:35,540 Или ако имате глагол, който е преходен Вие обикновено ще 863 00:45:35,540 --> 00:45:36,630 има съществително фраза. 864 00:45:36,630 --> 00:45:38,780 Така че ще трябва съществително някъде около него. 865 00:45:38,780 --> 00:45:44,950 >> Така че, общо взето, това, което той прави, е, че счита, че вероятността за 866 00:45:44,950 --> 00:45:47,960 думи един до друг, когато сте изчисляване на 867 00:45:47,960 --> 00:45:49,050 вероятност от едно изречение. 868 00:45:49,050 --> 00:45:50,960 И това е, което език модел е в общи линии. 869 00:45:50,960 --> 00:45:54,620 Просто казвам, че това, което е вероятността на със специфична 870 00:45:54,620 --> 00:45:57,120 изречение на език? 871 00:45:57,120 --> 00:45:59,110 Така че, защо е толкова полезна, основно? 872 00:45:59,110 --> 00:46:02,390 И на първо място това е модел на н-грама, а след това? 873 00:46:02,390 --> 00:46:08,850 >> Така модел п-грам означава, че всяка дума зависи от 874 00:46:08,850 --> 00:46:12,700 Следващата N минус 1 думи. 875 00:46:12,700 --> 00:46:18,150 Така че, общо взето, това означава, че ако аз гледам, например, в CS50 TF когато 876 00:46:18,150 --> 00:46:21,500 Аз съм изчисляване на вероятността от изречението, ще бъде като "на 877 00:46:21,500 --> 00:46:25,280 вероятност да има думата "на" пъти вероятността за "на 878 00:46:25,280 --> 00:46:31,720 CS50 "пъти вероятността за "TF на CS50." Така че, общо взето, аз разчитам 879 00:46:31,720 --> 00:46:35,720 всички възможни начини за разтягане. 880 00:46:35,720 --> 00:46:41,870 >> И тогава обикновено, когато правиш това, като в рамките на проекта, ще ви постави N да бъде 881 00:46:41,870 --> 00:46:42,600 ниска стойност. 882 00:46:42,600 --> 00:46:45,930 Така че, обикновено имат bigrams или триграми. 883 00:46:45,930 --> 00:46:51,090 Така че просто брои две думи, група от две думи, или три думи, 884 00:46:51,090 --> 00:46:52,620 само за проблеми с производителността. 885 00:46:52,620 --> 00:46:56,395 И също така, защото може би ако имате нещо като "TF The CS50." Когато 886 00:46:56,395 --> 00:47:00,510 има "TF", че е много важно, че "CS50" е в непосредствена близост до него, нали? 887 00:47:00,510 --> 00:47:04,050 Тези две неща обикновено са един до друг. 888 00:47:04,050 --> 00:47:06,410 >> Ако мислите, че на "TF", това е може би ще има какво 889 00:47:06,410 --> 00:47:07,890 клас това е TF'ing за. 890 00:47:07,890 --> 00:47:11,330 Също така "най" е наистина важно за CS50 TF. 891 00:47:11,330 --> 00:47:14,570 Но ако имате нещо като "The CS50 TF отиде в клас и даде им 892 00:47:14,570 --> 00:47:20,060 студенти, някои бонбони. "" Candy "и" " нямат връзка наистина, нали? 893 00:47:20,060 --> 00:47:23,670 Те са толкова отдалечени един от друг, че това всъщност няма значение какво 894 00:47:23,670 --> 00:47:25,050 думи, които имате. 895 00:47:25,050 --> 00:47:31,210 >> Така че, като направите едно bigram или Trigram, тя просто означава, че сте ограничаване 896 00:47:31,210 --> 00:47:33,430 себе си някои думи които са около. 897 00:47:33,430 --> 00:47:35,810 Направи ли смисъл? 898 00:47:35,810 --> 00:47:40,630 Така че, когато искате да направите сегментиране, По принцип, това, което искате да направите, е да видим 899 00:47:40,630 --> 00:47:44,850 какви са всички възможни начини, по които можете сегмент на присъдата. 900 00:47:44,850 --> 00:47:49,090 >> Такава, че да видиш какво е вероятност на всеки от тези изречения 901 00:47:49,090 --> 00:47:50,880 съществуваща в езика? 902 00:47:50,880 --> 00:47:53,410 Така че това, което правите е като, добре, нека ми се опита да сложи пространство тук. 903 00:47:53,410 --> 00:47:55,570 Така че оставете разстояние там и ще видите какво е най- 904 00:47:55,570 --> 00:47:57,590 вероятност на това изречение? 905 00:47:57,590 --> 00:48:00,240 Тогава сте като, ОК, може би това не е толкова добра. 906 00:48:00,240 --> 00:48:03,420 Така че сложих пространство има и пространство там, и ще ви се изчисли 907 00:48:03,420 --> 00:48:06,240 вероятност сега, и ще видите, че е по-голяма вероятност. 908 00:48:06,240 --> 00:48:12,160 >> Така че това е един алгоритъм, наречен танго сегментацията на алгоритъм, който е 909 00:48:12,160 --> 00:48:14,990 всъщност нещо, което ще бъде наистина готино за един проект, който 910 00:48:14,990 --> 00:48:20,860 основно се Несегментиран текст, който може да бъде японски или китайски или може би 911 00:48:20,860 --> 00:48:26,080 English без интервали и се опитва да сложи интервали между думите и го прави 912 00:48:26,080 --> 00:48:29,120 че с помощта на модел и език Опитвам се да видим какво е най-високата 913 00:48:29,120 --> 00:48:31,270 вероятност можете да получите. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 Така че това е сегментация. 916 00:48:33,800 --> 00:48:35,450 >> Сега синтаксис. 917 00:48:35,450 --> 00:48:40,940 Така че, синтаксис се използва за толкова много неща точно сега. 918 00:48:40,940 --> 00:48:44,880 Така че за Graph Search, за Siri за почти всеки вид на природен 919 00:48:44,880 --> 00:48:46,490 обработка на език, който имате. 920 00:48:46,490 --> 00:48:49,140 Така че това, което са важните неща за синтаксис? 921 00:48:49,140 --> 00:48:52,390 Така че, изречения като цяло имат това, което ние наричаме избиратели. 922 00:48:52,390 --> 00:48:57,080 Кои са нещо като групи от думи , които имат функция в изречението. 923 00:48:57,080 --> 00:49:02,220 И те наистина не може да бъде един от друг. 924 00:49:02,220 --> 00:49:07,380 >> Така че, ако кажа, например, "Лорън обича Milo. "Знам, че" Lauren "е 925 00:49:07,380 --> 00:49:10,180 съставка и след това "любови Milo "и друг милион. 926 00:49:10,180 --> 00:49:16,860 Защото не може да се каже като "Lauren Milo обича "да имат същото значение. 927 00:49:16,860 --> 00:49:18,020 Това няма да има същото значение. 928 00:49:18,020 --> 00:49:22,500 Или аз не мога да кажа като "Milo Lauren обича. "Не всичко е едно и също 929 00:49:22,500 --> 00:49:25,890 което означава, че правиш. 930 00:49:25,890 --> 00:49:31,940 >> Така че двете по-важни неща за синтаксис са лексикални типове, които е 931 00:49:31,940 --> 00:49:35,390 основно функцията ви, че има думи сами по себе си. 932 00:49:35,390 --> 00:49:39,180 Така че трябва да се знае, че "Lauren" и "Milo" са съществителни. 933 00:49:39,180 --> 00:49:41,040 "Любов" е глагол. 934 00:49:41,040 --> 00:49:45,660 И второто важно нещо е, че те са phrasal видове. 935 00:49:45,660 --> 00:49:48,990 Така че, вие знаете, че "обича Milo" всъщност е словесен израз. 936 00:49:48,990 --> 00:49:52,390 Така че, когато казвам "Lauren," Аз знам, че Лорън се прави нещо. 937 00:49:52,390 --> 00:49:53,620 Какво прави тя? 938 00:49:53,620 --> 00:49:54,570 Тя е любяща Майло. 939 00:49:54,570 --> 00:49:56,440 Така че това е цялата работа. 940 00:49:56,440 --> 00:50:01,640 Но неговите компоненти са съществително и глагол. 941 00:50:01,640 --> 00:50:04,210 Но заедно, те правят глагол фраза. 942 00:50:04,210 --> 00:50:08,680 >> И така, какво всъщност можем да направим с компютърната лингвистика? 943 00:50:08,680 --> 00:50:13,810 Така че, ако имам нещо за пример "приятели на Алисън." Виждам, ако просто 944 00:50:13,810 --> 00:50:17,440 е синтактична дърво щях да разбера, че "Приятели" е съществително фраза е 945 00:50:17,440 --> 00:50:21,480 съществително и след това "на Allison" е prepositional фраза в които "за" е 946 00:50:21,480 --> 00:50:24,810 предложение и "Алисън" е съществително. 947 00:50:24,810 --> 00:50:30,910 Какво можех да направя, е науча моя компютър че когато имам съществително фраза една и 948 00:50:30,910 --> 00:50:33,080 тогава prepositional фраза. 949 00:50:33,080 --> 00:50:39,020 Така че в този случай, "приятели" и след това "на Milo "Знам, че това означава, че 950 00:50:39,020 --> 00:50:43,110 NP2, втората, притежава NP1. 951 00:50:43,110 --> 00:50:47,680 >> Така че мога да се създаде някакъв вид връзка, някаква функция за него. 952 00:50:47,680 --> 00:50:52,370 Така че всеки път, когато видите тази структура, която съвпада точно с "приятели на 953 00:50:52,370 --> 00:50:56,030 Алисън, "Знам, че Алисън притежава приятели. 954 00:50:56,030 --> 00:50:58,830 Така че приятелите са нещо че Allison има. 955 00:50:58,830 --> 00:50:59,610 Има смисъл? 956 00:50:59,610 --> 00:51:01,770 Така че това е основно това, което Graph Search прави. 957 00:51:01,770 --> 00:51:04,360 Тя просто създава правила за много неща. 958 00:51:04,360 --> 00:51:08,190 Толкова "приятели на Allison", "моите приятели които живеят в Cambridge "," моите приятели 959 00:51:08,190 --> 00:51:12,970 които отиват в Харвард. "Той създава правила за всички тези неща. 960 00:51:12,970 --> 00:51:14,930 >> Сега машинен превод. 961 00:51:14,930 --> 00:51:18,850 Така че, за машинен превод е също нещо статистическа. 962 00:51:18,850 --> 00:51:21,340 И всъщност, ако се включат в компютърната лингвистика, много 963 00:51:21,340 --> 00:51:23,580 нещата ще бъде статистиката. 964 00:51:23,580 --> 00:51:26,670 Така, както аз правех примера с много вероятности, че съм бил 965 00:51:26,670 --> 00:51:30,540 изчисляване, и след това можете да получите на този много малък брой, че е на финала 966 00:51:30,540 --> 00:51:33,180 вероятностите, и това е, което дава отговор. 967 00:51:33,180 --> 00:51:37,540 Машинен превод също използва статистически модел. 968 00:51:37,540 --> 00:51:44,790 А ако искате да се мисли за машина превод по най-простия 969 00:51:44,790 --> 00:51:48,970 начин, това, което мога да мисля е просто превежда дума по дума, нали? 970 00:51:48,970 --> 00:51:52,150 >> Когато сте изучаването на езика за за първи път, това е обикновено това, което 971 00:51:52,150 --> 00:51:52,910 и да правиш, нали? 972 00:51:52,910 --> 00:51:57,050 Ако искате, можете преведете изречение на вашия език на езика 973 00:51:57,050 --> 00:52:00,060 сте обучение, обикновено първо, превода на всяка от думите 974 00:52:00,060 --> 00:52:03,180 индивидуално, и след това да се опитате да се сложи думите на място. 975 00:52:03,180 --> 00:52:07,100 >> Така че, ако аз исках да преведе това, [ГОВОРЕНЕ ПОРТУГАЛСКАТА] 976 00:52:07,100 --> 00:52:10,430 което означава "бял котката избяга." Ако исках да го преведат от 977 00:52:10,430 --> 00:52:13,650 Португалски на английски, това, което аз може да направите, е, първо, аз просто 978 00:52:13,650 --> 00:52:14,800 превежда дума по дума. 979 00:52:14,800 --> 00:52:20,570 Така че "о" е "на", "Гато", "котка" "Бранко", "бяло", а после "fugio" е 980 00:52:20,570 --> 00:52:21,650 "Избяга". 981 00:52:21,650 --> 00:52:26,130 >> Така че след това имам всички думи тук, но те не са в ред. 982 00:52:26,130 --> 00:52:29,590 Това е като "котка бял избяга" който е ungrammatical. 983 00:52:29,590 --> 00:52:34,490 Така че, тогава може да има втора стъпка, която ще бъде намирането на идеала 984 00:52:34,490 --> 00:52:36,610 позиция за всяка от думите. 985 00:52:36,610 --> 00:52:40,240 Така че аз знам, че аз всъщност искам да имам "Бяла котка", вместо на "котка бял." Така 986 00:52:40,240 --> 00:52:46,050 това, което мога да направя е, най-наивен метод е да се създаде цялата 987 00:52:46,050 --> 00:52:49,720 възможни пермутации на думи, на нейните позиции. 988 00:52:49,720 --> 00:52:53,300 И тогава да видим кой има най- най-високата вероятност според 989 00:52:53,300 --> 00:52:54,970 на моя език модел. 990 00:52:54,970 --> 00:52:58,390 И тогава, когато аз намирам този, който има е най-високата вероятността, който е 991 00:52:58,390 --> 00:53:01,910 Вероятно "бялата котката избяга" това е моят превод. 992 00:53:01,910 --> 00:53:06,710 >> И това е просто начин да се обясни как много от машинния превод 993 00:53:06,710 --> 00:53:07,910 алгоритми работят. 994 00:53:07,910 --> 00:53:08,920 Това прави ли смисъл? 995 00:53:08,920 --> 00:53:12,735 Това също е нещо наистина вълнуващо че вие ​​може би се изследват за 996 00:53:12,735 --> 00:53:13,901 окончателния проект, така ли? 997 00:53:13,901 --> 00:53:15,549 >> STUDENT: Е, ти каза, че е наивния начин, така че това, което е 998 00:53:15,549 --> 00:53:17,200 не-наивен начин? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS: Не-наивен начин? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 Така че първото нещо, което е лошо за този метод е, че аз просто преведено 1002 00:53:22,860 --> 00:53:24,330 думи, дума по дума. 1003 00:53:24,330 --> 00:53:30,570 Но понякога имате думи, които може да има множество преводи. 1004 00:53:30,570 --> 00:53:32,210 Аз ще се опитам да мисля на нещо. 1005 00:53:32,210 --> 00:53:37,270 Например, "манга" на португалски консерва или да "поразят" или "ръкав". Така 1006 00:53:37,270 --> 00:53:40,450 , когато се опитвате да преведете дума по дума, тя може да ви се дава 1007 00:53:40,450 --> 00:53:42,050 нещо, което няма смисъл. 1008 00:53:42,050 --> 00:53:45,770 >> Така че вие ​​всъщност искате да погледнете всички възможните преводи на 1009 00:53:45,770 --> 00:53:49,840 думи и вижте, на първо място, какъв е редът. 1010 00:53:49,840 --> 00:53:52,000 Ние говорехме за permutating нещата? 1011 00:53:52,000 --> 00:53:54,150 За да видите всички възможни нареждания и изберете този с най-висок 1012 00:53:54,150 --> 00:53:54,990 вероятност? 1013 00:53:54,990 --> 00:53:57,860 Можете също така да изберете всички възможни преводи за всеки 1014 00:53:57,860 --> 00:54:00,510 дума и след това да видите - 1015 00:54:00,510 --> 00:54:01,950 комбиниран с пермутации - 1016 00:54:01,950 --> 00:54:03,710 кой е най-голяма вероятност. 1017 00:54:03,710 --> 00:54:08,590 >> Плюс това, можете да погледнете не само думи, но и фрази. 1018 00:54:08,590 --> 00:54:11,700 така че можете да анализира отношенията между думите и след това получи 1019 00:54:11,700 --> 00:54:13,210 по-добър превод. 1020 00:54:13,210 --> 00:54:16,690 Също нещо друго, така че този семестър Аз съм всъщност прави изследвания в 1021 00:54:16,690 --> 00:54:19,430 Китайско-английски машинен превод, така превежда от 1022 00:54:19,430 --> 00:54:20,940 Китайски на английски език. 1023 00:54:20,940 --> 00:54:26,760 >> И нещо, което правим е, освен с помощта на статистически модел, който е само 1024 00:54:26,760 --> 00:54:30,570 виждайки вероятностите на виждане някаква позиция в изречението, аз съм 1025 00:54:30,570 --> 00:54:35,360 всъщност също добавянето на някои синтаксис на моя модел, като каза, о, ако видя, че този вид 1026 00:54:35,360 --> 00:54:39,420 на строителство, това е, което искам за да го промените, когато Аз превеждам. 1027 00:54:39,420 --> 00:54:43,880 Така че можете да добавите някакъв вид елемент на синтаксиса за да направи 1028 00:54:43,880 --> 00:54:47,970 превод по-ефективно и по-точно. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> Така че как може да започнете, ако искате да се направи нещо в компютърната 1031 00:54:51,010 --> 00:54:51,980 лингвистика? 1032 00:54:51,980 --> 00:54:54,560 >> Първо, вие избирате един проект че включва езици. 1033 00:54:54,560 --> 00:54:56,310 Така че, има толкова много там. 1034 00:54:56,310 --> 00:54:58,420 Има толкова много неща, които можете да направите. 1035 00:54:58,420 --> 00:55:00,510 И тогава може да се мисли за един модел , които можете да използвате. 1036 00:55:00,510 --> 00:55:04,710 Обикновено това означава, че мисленето на предположения, тъй като като, о, когато бях 1037 00:55:04,710 --> 00:55:05,770 като мислене на текстовете. 1038 00:55:05,770 --> 00:55:09,510 Аз бях като, добре, ако искам да разбера от един, който е написал това, аз вероятно ще пожелаете 1039 00:55:09,510 --> 00:55:15,400 да разгледаме думите лицето използва и виж, който използва тази дума много често. 1040 00:55:15,400 --> 00:55:18,470 Така че се опитват да правят предположения и Опитвам се да мисля на модели. 1041 00:55:18,470 --> 00:55:21,395 И тогава можете да търсите онлайн за вида на проблема, който имате, 1042 00:55:21,395 --> 00:55:24,260 и че ще предложи да ви модели, които може би 1043 00:55:24,260 --> 00:55:26,560 моделира това нещо добре. 1044 00:55:26,560 --> 00:55:29,080 >> И също така винаги можете да ми пишете. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 И мога само да отговоря на вашите въпроси. 1047 00:55:34,940 --> 00:55:38,600 Можем дори да може да се срещнем за да мога да даде предложения относно начините за 1048 00:55:38,600 --> 00:55:41,490 осъществяването на Вашия проект. 1049 00:55:41,490 --> 00:55:45,610 И искам да кажа, ако се включат с компютърната лингвистика, че ще 1050 00:55:45,610 --> 00:55:46,790 да бъде страхотно. 1051 00:55:46,790 --> 00:55:48,370 Ще се видим там е толкова много потенциал. 1052 00:55:48,370 --> 00:55:52,060 И индустрията иска да наеме си толкова зле, защото от това. 1053 00:55:52,060 --> 00:55:54,720 Така че се надявам вие момчета се радваха това. 1054 00:55:54,720 --> 00:55:57,030 Ако вие имате някакви въпроси, можете да ме питате след това. 1055 00:55:57,030 --> 00:55:58,280 Но ви благодаря. 1056 00:55:58,280 --> 00:56:00,150