1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS Freitas: Hey. 3 00:00:08,870 --> 00:00:09,980 მოგესალმებით ყველას. 4 00:00:09,980 --> 00:00:11,216 ჩემი სახელი არის Lucas Freitas. 5 00:00:11,216 --> 00:00:15,220 მე უმცროსი at [INAUDIBLE] სწავლობს კომპიუტერულ მეცნიერებათა ერთად აქცენტი 6 00:00:15,220 --> 00:00:16,410 კომპიუტერული ლინგვისტიკა. 7 00:00:16,410 --> 00:00:19,310 ასე რომ, ჩემი საშუალო არის ენა და ლინგვისტური თეორია. 8 00:00:19,310 --> 00:00:21,870 მე ნამდვილად აღფრთოვანებული გასწავლით ბიჭები ცოტა სფეროში. 9 00:00:21,870 --> 00:00:24,300 ეს არის ძალიან საინტერესო ნაკვეთი შესწავლა. 10 00:00:24,300 --> 00:00:27,260 ასევე დიდი პოტენციალი მომავალში. 11 00:00:27,260 --> 00:00:30,160 ასე რომ, მე ნამდვილად აღფრთოვანებული, რომ თქვენ ბიჭები გათვალისწინებით პროექტები 12 00:00:30,160 --> 00:00:31,160 კომპიუტერული ლინგვისტიკა. 13 00:00:31,160 --> 00:00:35,460 და მე ვიქნები გახარებული ვურჩევ ნებისმიერი, თუ თქვენ გადაწყვიტეთ 14 00:00:35,460 --> 00:00:37,090 განახორციელოს ერთ იმ. 15 00:00:37,090 --> 00:00:40,010 >> ასე რომ, პირველ რიგში, რა არის კომპიუტერული ენათმეცნიერების? 16 00:00:40,010 --> 00:00:44,630 ასე რომ, კომპიუტერული ლინგვისტიკის არის გადაკვეთაზე შორის ენათმეცნიერებისა და 17 00:00:44,630 --> 00:00:46,390 კომპიუტერულ მეცნიერებაში. 18 00:00:46,390 --> 00:00:47,415 ასე რომ, რა არის ენათმეცნიერების? 19 00:00:47,415 --> 00:00:48,490 რა არის კომპიუტერული მეცნიერების? 20 00:00:48,490 --> 00:00:51,580 კარგად ენათმეცნიერების, რა ჩვენ ვართ ენებზე. 21 00:00:51,580 --> 00:00:54,960 ასე რომ, ენათმეცნიერების რეალურად შესწავლა ბუნებრივი ენის კულტურას. 22 00:00:54,960 --> 00:00:58,330 ასე რომ, ბუნებრივი ენაზე - ჩვენ ვსაუბრობთ ენა, რომ ჩვენ რეალურად გამოიყენოთ 23 00:00:58,330 --> 00:00:59,770 ერთმანეთთან. 24 00:00:59,770 --> 00:01:02,200 ასე რომ ჩვენ ზუსტად არ ვსაუბრობთ შესახებ C ან Java. 25 00:01:02,200 --> 00:01:05,900 ჩვენ ვსაუბრობთ უფრო მეტი ინგლისური და ჩინურ და სხვა ენებზე, რომ ჩვენ 26 00:01:05,900 --> 00:01:07,780 გამოიყენოთ ერთმანეთთან. 27 00:01:07,780 --> 00:01:12,470 >> რთული რამ, რომ ის არის, რომ ახლა ჩვენ თითქმის 7,000 28 00:01:12,470 --> 00:01:14,260 languages ​​მსოფლიოში. 29 00:01:14,260 --> 00:01:19,520 ასე რომ, არსებობს საკმაოდ მაღალი სხვადასხვა ენებზე, რომ ჩვენ შეგვიძლია შესწავლა. 30 00:01:19,520 --> 00:01:22,600 და მაშინ ვფიქრობ, რომ ეს, ალბათ, ძალიან რთულია ამის გაკეთება, მაგალითად, 31 00:01:22,600 --> 00:01:26,960 თარგმანი ერთი ენიდან მეორე მხრივ, იმის გათვალისწინებით, რომ თქვენ გაქვთ 32 00:01:26,960 --> 00:01:28,240 თითქმის 7,000 მათგანი. 33 00:01:28,240 --> 00:01:31,450 ასე რომ, თუ თქვენ ფიქრობთ აკეთებს თარგმანი ერთი ენიდან მეორე თქვენ 34 00:01:31,450 --> 00:01:35,840 თითქმის მილიონზე მეტი სხვადასხვა კომბინაციები, რომ თქვენ შეგიძლიათ 35 00:01:35,840 --> 00:01:37,330 ჰქონდეს ენის ენაზე. 36 00:01:37,330 --> 00:01:40,820 ასე რომ, ეს მართლაც რთული დაკავდით სახის მაგალითი თარგმანი სისტემა 37 00:01:40,820 --> 00:01:43,540 ყოველი ენა. 38 00:01:43,540 --> 00:01:47,120 >> ასე რომ, ენათმეცნიერების ეპყრობა სინტაქსი, სემანტიკა, pragmatics. 39 00:01:47,120 --> 00:01:49,550 თქვენ ბიჭები ზუსტად არ უნდა იცოდეს, რა ისინი. 40 00:01:49,550 --> 00:01:55,090 მაგრამ ძალიან საინტერესო ის არის, რომ როგორც მშობლიური ენა, როდესაც თქვენ ისწავლით 41 00:01:55,090 --> 00:01:59,010 ენის, როგორც ბავშვი, თქვენ რეალურად სწავლობენ ყველა იმ რამ - სინტაქსი სემანტიკა 42 00:01:59,010 --> 00:02:00,500 და pragmatics - 43 00:02:00,500 --> 00:02:01,430 თავს. 44 00:02:01,430 --> 00:02:04,820 და არავის აქვს გასწავლით სინტაქსი თქვენ უნდა გვესმოდეს, თუ როგორ წინადადებების არის 45 00:02:04,820 --> 00:02:05,290 სტრუქტურა. 46 00:02:05,290 --> 00:02:07,980 ასე რომ, ეს მართლაც საინტერესოა, რადგან ეს რაღაც რომ მოდის ძალიან 47 00:02:07,980 --> 00:02:10,389 ინტუიციურად. 48 00:02:10,389 --> 00:02:13,190 >> და რას იღებდა დან კომპიუტერული მეცნიერების? 49 00:02:13,190 --> 00:02:16,700 ისე, ყველაზე მთავარია, რომ ჩვენ აქვს კომპიუტერულ მეცნიერებაში პირველ 50 00:02:16,700 --> 00:02:19,340 ყველა, ხელოვნური ინტელექტი და მანქანა სწავლის. 51 00:02:19,340 --> 00:02:22,610 ასე რომ, რასაც ჩვენ ვცდილობთ აკეთებს კომპიუტერული ლინგვისტიკის არის ასწავლიან 52 00:02:22,610 --> 00:02:26,990 თქვენს კომპიუტერში როგორ უნდა გავაკეთოთ რაღაც, ენის. 53 00:02:26,990 --> 00:02:28,630 >> ასე, მაგალითად, მანქანა თარგმანი. 54 00:02:28,630 --> 00:02:32,490 ვცდილობ ასწავლიან ჩემს კომპიუტერს როგორ თუ როგორ უნდა გადასვლას ერთი 55 00:02:32,490 --> 00:02:33,310 ენის სხვა. 56 00:02:33,310 --> 00:02:35,790 ასე რომ, ძირითადად მინდა სწავლება კომპიუტერი ორ ენაზე. 57 00:02:35,790 --> 00:02:38,870 თუ გავაკეთო ბუნებრივი ენის დამუშავება, რომელიც იმ შემთხვევაში, თუ, მაგალითად, 58 00:02:38,870 --> 00:02:41,810 Facebook-ის Graph ძებნა, თქვენ ასწავლიან თქვენს კომპიუტერში როგორ უნდა გვესმოდეს 59 00:02:41,810 --> 00:02:42,730 queries კარგად. 60 00:02:42,730 --> 00:02:48,130 >> ასე რომ, თუ ვთქვათ "ფოტო ჩემი მეგობარი. "Facebook არ მკურნალობა, რომ 61 00:02:48,130 --> 00:02:51,130 როგორც მთელი სიმებიანი რომ აქვს მხოლოდ bunch სიტყვა. 62 00:02:51,130 --> 00:02:56,020 რეალურად ესმის მიზეზი შორის "ფოტო" და "ჩემი მეგობარი" და 63 00:02:56,020 --> 00:02:59,620 ესმის, რომ "ფოტოები" არიან ქონების "ჩემი მეგობარი". 64 00:02:59,620 --> 00:03:02,350 >> ასე რომ, ნაწილი, მაგალითად, ბუნებრივი ენის გადამუშავება. 65 00:03:02,350 --> 00:03:04,790 ის ცდილობს გაიგოს, თუ რა არის შორის 66 00:03:04,790 --> 00:03:07,520 სიტყვა სასჯელს. 67 00:03:07,520 --> 00:03:11,170 და დიდი კითხვა არის, შეგიძლიათ ასწავლიან კომპიუტერის როგორ საუბრობენ 68 00:03:11,170 --> 00:03:12,650 ენა ზოგადად? 69 00:03:12,650 --> 00:03:17,810 რომელიც არის ძალიან საინტერესო კითხვა ვფიქრობ, რომ, თითქოს, შესაძლოა, მომავალში, 70 00:03:17,810 --> 00:03:19,930 თქვენ აპირებს შეძლებს გაიგო თქვენს მობილურ ტელეფონზე. 71 00:03:19,930 --> 00:03:23,290 სახის მოსწონს რას ვაკეთებთ Siri მაგრამ რაღაც უფრო, შეგიძლიათ რეალურად 72 00:03:23,290 --> 00:03:25,690 ამბობენ, რომ რაც გაგიხარდებათ და ტელეფონი აპირებს მესმის ყველაფერი. 73 00:03:25,690 --> 00:03:28,350 და მას შეუძლია თვალყური შეკითხვები და შეინახოს საუბარი. 74 00:03:28,350 --> 00:03:30,880 რომ რაღაც მართლაც საინტერესო, ჩემი აზრით. 75 00:03:30,880 --> 00:03:33,070 >> ასე რომ, რაღაც ბუნებრივი ენებზე. 76 00:03:33,070 --> 00:03:36,220 რაღაც ნამდვილად საინტერესო ბუნებრივი languages ​​ის არის, რომ, და ეს არის 77 00:03:36,220 --> 00:03:38,470 საკრედიტო ჩემს ლინგვისტიკის პროფესორი, Maria Polinsky. 78 00:03:38,470 --> 00:03:40,830 იგი იძლევა მაგალითს და ვფიქრობ ეს მართლაც ძალიან საინტერესო. 79 00:03:40,830 --> 00:03:47,060 იმიტომ, რომ ჩვენ ვისწავლოთ ენა, როდესაც ჩვენ დაიბადა და მაშინ ჩვენი შექმნილი 80 00:03:47,060 --> 00:03:49,170 ენის სახის იზრდება us. 81 00:03:49,170 --> 00:03:52,570 >> და ძირითადად თქვენ ვისწავლოთ ენა ეხლა მინიმალური input, არა? 82 00:03:52,570 --> 00:03:56,700 თქვენ მხოლოდ მიღების შეიტანენ თქვენს მშობლები რა თქვენი ენა ხმები 83 00:03:56,700 --> 00:03:58,770 მინდა და უბრალოდ ვისწავლოთ იგი. 84 00:03:58,770 --> 00:04:02,240 ასე რომ, საინტერესოა, რადგან თუ გადავხედავთ იმ სასჯელს, მაგალითად. 85 00:04:02,240 --> 00:04:06,980 გადავხედავთ, "მერი აყენებს ქურთუკი ყველა ამჯერად იგი ტოვებს სახლს. " 86 00:04:06,980 --> 00:04:10,650 >> ამ შემთხვევაში, შესაძლებელია, რომ აქვს სიტყვა "მან" ეხება მერი, არა? 87 00:04:10,650 --> 00:04:13,500 თქვენ შეიძლება ითქვას, "მერი აყენებს ქურთუკი ყოველ ჯერზე Mary ტოვებს 88 00:04:13,500 --> 00:04:14,960 სახლი. "ასე რომ ჯარიმა. 89 00:04:14,960 --> 00:04:19,370 მაგრამ შემდეგ, თუ გადავხედავთ სასჯელი "მან აყენებს ქურთუკი ყოველ ჯერზე Mary 90 00:04:19,370 --> 00:04:22,850 ტოვებს სახლს. "თქვენ იცით, რომ ეს შეუძლებელია იმის თქმა, რომ "ის" არის 91 00:04:22,850 --> 00:04:24,260 მხედველობაში მერი. 92 00:04:24,260 --> 00:04:27,070 >> არ არსებობს გზა, რომ "მერი აყენებს on ქურთუკი ყოველ ჯერზე Mary ტოვებს 93 00:04:27,070 --> 00:04:30,790 სახლი. "ასე რომ საინტერესოა, რადგან ეს არის ერთგვარი ინტუიცია 94 00:04:30,790 --> 00:04:32,890 რომ ყოველ მშობლიური აქვს. 95 00:04:32,890 --> 00:04:36,370 და არავინ ასწავლიდა, რომ ეს არის ისე, რომ სინტაქსი მუშაობს. 96 00:04:36,370 --> 00:04:41,930 და რომ თქვენ შეგიძლიათ მხოლოდ ეს "ის" მხედველობაში Mary ამ პირველ შემთხვევაში, 97 00:04:41,930 --> 00:04:44,260 და რეალურად ამ სხვა ძალიან, მაგრამ არა ამ ერთი. 98 00:04:44,260 --> 00:04:46,500 მაგრამ ყველა სახის იღებს იგივე პასუხი. 99 00:04:46,500 --> 00:04:48,580 ყველა თანხმდება, რომ. 100 00:04:48,580 --> 00:04:53,280 ასე რომ, ეს მართლაც საინტერესოა, როგორ თუმცა თქვენ არ იცით ყველა წესები 101 00:04:53,280 --> 00:04:55,575 თქვენს ენაზე თქვენ სახის მესმის, როგორ ენაზე მუშაობს. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> ასე რომ საინტერესო რამ ბუნებრივი ენა არის ის, რომ თქვენ არ უნდა 104 00:05:01,530 --> 00:05:06,970 ვიცი არც სინტაქსი თუ სასჯელი არის გრამატიკული ან ungrammatical for 105 00:05:06,970 --> 00:05:08,810 ხშირ შემთხვევაში. 106 00:05:08,810 --> 00:05:13,220 რაც ფიქრობთ, რომ იქნებ რა ხდება, რომ თქვენს ცხოვრებაში, თქვენ 107 00:05:13,220 --> 00:05:17,410 უბრალოდ შეინახოს უფრო და უფრო წინადადებების უთხრა თქვენ. 108 00:05:17,410 --> 00:05:19,800 და მაშინ თქვენ გაქვთ იმახსოვრებდა ყველა სასჯელს. 109 00:05:19,800 --> 00:05:24,230 და მაშინ, როდესაც ვინმე გიჩვენებთ რაღაც, თქვენ გვესმის, რომ წინადადება და 110 00:05:24,230 --> 00:05:27,040 გადავხედავთ თქვენი ლექსიკა სასჯელს და თუ 111 00:05:27,040 --> 00:05:28,270 რომ განაჩენი არის. 112 00:05:28,270 --> 00:05:29,830 და თუ ეს იქ თქვენ ამბობენ, რომ ეს გრამატიკული. 113 00:05:29,830 --> 00:05:31,740 თუ ეს არ ამბობთ, რომ ეს ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> ასე რომ, ამ შემთხვევაში, თქვენ ვიტყოდი, oh, ასე რომ თქვენ გაქვთ უზარმაზარი ჩამონათვალი 115 00:05:35,150 --> 00:05:36,140 შესაძლებელია სასჯელს. 116 00:05:36,140 --> 00:05:38,240 და მაშინ, როდესაც გესმით წინადადება, თქვენ იცით, თუ ის გრამატიკული ან 117 00:05:38,240 --> 00:05:39,450 არ ეფუძნება, რომ. 118 00:05:39,450 --> 00:05:42,360 საქმე ისაა, რომ თუ გადავხედავთ წინადადება, მაგალითად, "The 119 00:05:42,360 --> 00:05:47,540 ხუთ ხელმძღვანელობდა CS50 TFs მოხარშული ბრმა octopus გამოყენებით DAPA mug. "ეს 120 00:05:47,540 --> 00:05:49,630 ნამდვილად არ არის სასჯელი რომ გამიგია. 121 00:05:49,630 --> 00:05:52,380 მაგრამ ამავე დროს, თქვენ იცით, რომ ეს საკმაოდ ბევრი გრამატიკული, არა? 122 00:05:52,380 --> 00:05:55,570 არ არსებობს გრამატიკული შეცდომები და შეიძლება ითქვას, რომ 123 00:05:55,570 --> 00:05:57,020 ეს შესაძლებელია სასჯელს. 124 00:05:57,020 --> 00:06:01,300 >> ასე რომ, ეს გვაფიქრებინებს, რომ, ფაქტობრივად, ისე, რომ ჩვენ ვისწავლოთ ენა არ არის მხოლოდ 125 00:06:01,300 --> 00:06:07,090 რომელსაც უზარმაზარი მონაცემთა ბაზა, შესაძლებელია სიტყვა ან სასჯელი, მაგრამ უფრო 126 00:06:07,090 --> 00:06:11,490 გაგება შორის სიტყვები იმ სასჯელს. 127 00:06:11,490 --> 00:06:14,570 ამჯამად რომ აზრი? 128 00:06:14,570 --> 00:06:19,370 ასეა, მაშინ კითხვა, სისტემაში კომპიუტერები ვისწავლოთ ენებზე? 129 00:06:19,370 --> 00:06:21,490 შეგვიძლია ვასწავლოთ ენის კომპიუტერი? 130 00:06:21,490 --> 00:06:24,230 >> ასე რომ, მოდით ვიფიქროთ, რა განსხვავებაა შორის მშობლიური ენა 131 00:06:24,230 --> 00:06:25,460 და კომპიუტერი. 132 00:06:25,460 --> 00:06:27,340 ასე რომ, რა ხდება სპიკერი? 133 00:06:27,340 --> 00:06:30,430 ისე, მშობლიური გაიგებს ენის ზემოქმედებისაგან იგი. 134 00:06:30,430 --> 00:06:34,200 როგორც წესი, მისი ადრეული ბავშვობის განმავლობაში. 135 00:06:34,200 --> 00:06:38,570 ასე რომ, ძირითადად, თქვენ უბრალოდ უნდა ბავშვი, და თქვენ გაქვთ საუბარი, და ეს 136 00:06:38,570 --> 00:06:40,540 უბრალოდ გაიგებს, როგორ საუბრობენ ენა, უფლება? 137 00:06:40,540 --> 00:06:42,660 ასე რომ, თქვენ ძირითადად აძლევდა შეყვანის ბავშვი. 138 00:06:42,660 --> 00:06:45,200 ასე რომ, მაშინ შეიძლება ითქვას, რომ კომპიუტერი შეგვიძლია გავაკეთოთ იგივე, არა? 139 00:06:45,200 --> 00:06:49,510 შეგიძლიათ უბრალოდ მისცეს ენა როგორც შეყვანის კომპიუტერს. 140 00:06:49,510 --> 00:06:53,410 >> მაგალითად bunch of ფაილი რომ აქვს წიგნი ინგლისურ ენაზე. 141 00:06:53,410 --> 00:06:56,190 შესაძლოა, რომ ერთი გზა, რომ თქვენ შეიძლება ასწავლიან 142 00:06:56,190 --> 00:06:57,850 კომპიუტერული English, არა? 143 00:06:57,850 --> 00:07:01,000 და რეალურად, თუ ფიქრობთ ამის შესახებ, იგი მოგაწვდით იქნებ რამდენიმე 144 00:07:01,000 --> 00:07:02,680 დღის წაიკითხეთ წიგნი. 145 00:07:02,680 --> 00:07:05,760 კომპიუტერი სჭირდება მეორე შევხედოთ ყველა სიტყვა წიგნი. 146 00:07:05,760 --> 00:07:10,810 ასე რომ თქვენ შეგიძლიათ ვფიქრობ, რომ შეიძლება მხოლოდ ამ არგუმენტი შეიტანენ თქვენს გარშემო, 147 00:07:10,810 --> 00:07:15,440 ეს არ არის საკმარისი იმისათვის, რომ ვთქვათ, რომ ეს არის ის, რაღაც, რომ მხოლოდ ადამიანს შეუძლია გააკეთოს. 148 00:07:15,440 --> 00:07:17,680 შეგიძლიათ წარმოიდგინოთ, კომპიუტერი ასევე შეგიძლიათ მიიღოთ შეყვანა. 149 00:07:17,680 --> 00:07:21,170 >> მეორე ის არის, რომ შექმნილი მშობლიურ ასევე აქვს ტვინის, რომ აქვს 150 00:07:21,170 --> 00:07:23,870 ენის შესწავლის შესაძლებლობა. 151 00:07:23,870 --> 00:07:27,020 მაგრამ თუ ფიქრობთ ამის შესახებ, ტვინის არის კარგი რამ. 152 00:07:27,020 --> 00:07:30,450 როცა დაიბადა, ის უკვე შექმნილია - 153 00:07:30,450 --> 00:07:31,320 ეს არის თქვენი ტვინის. 154 00:07:31,320 --> 00:07:34,660 და როგორც თქვენ იზრდებიან, თქვენ უბრალოდ მეტი შეყვანის ენაზე და იქნებ ნუტრიენტები 155 00:07:34,660 --> 00:07:35,960 და სხვა პერსონალი. 156 00:07:35,960 --> 00:07:38,170 მაგრამ საკმაოდ ბევრი თქვენი ტვინის არის კარგი რამ. 157 00:07:38,170 --> 00:07:41,290 >> ასე რომ, შეიძლება ითქვას, ასევე, შესაძლოა, თქვენ შეგიძლიათ აშენება კომპიუტერი, რომელსაც აქვს bunch of 158 00:07:41,290 --> 00:07:45,890 ფუნქციები და მეთოდები, რომ მხოლოდ mimic ენის შესწავლის შესაძლებლობა. 159 00:07:45,890 --> 00:07:49,630 ასე რომ, ამ თვალსაზრისით, თქვენ შეიძლება ითქვას, ასევე, მე შეიძლება ჰქონდეს კომპიუტერი, რომელსაც აქვს ყველა 160 00:07:49,630 --> 00:07:52,270 რამ უნდა ვისწავლოთ ენაზე. 161 00:07:52,270 --> 00:07:56,200 და ბოლო ისაა, რომ შექმნილი სპიკერი გაიგებს სასამართლო და შეცდომა. 162 00:07:56,200 --> 00:08:01,090 ასე რომ, ძირითადად ერთი მნიშვნელოვანი რამ ენის შემსწავლელი არის, რომ თქვენ ერთგვარი 163 00:08:01,090 --> 00:08:05,340 საქართველოს ვისწავლოთ რამ, რაც დისკუსია, თუ რა გესმით. 164 00:08:05,340 --> 00:08:10,280 >> ასე რომ, როგორც თქვენ იზრდება იცით, რომ ზოგიერთი სიტყვები უფრო არსებითი, 165 00:08:10,280 --> 00:08:11,820 ზოგიერთი სხვა პირობა ზედსართავები. 166 00:08:11,820 --> 00:08:14,250 და თქვენ არ უნდა ჰქონდეს რაიმე ცოდნა ლინგვისტიკის 167 00:08:14,250 --> 00:08:15,040 უნდა გვესმოდეს, რომ. 168 00:08:15,040 --> 00:08:18,560 მაგრამ უბრალოდ ვიცი, არსებობს გარკვეული სიტყვები პოზიციონირებული გარკვეული ნაწილი 169 00:08:18,560 --> 00:08:22,570 წინადადება და ზოგი სხვა ნაწილების სასჯელს. 170 00:08:22,570 --> 00:08:26,110 >> და რომ, როდესაც თქვენ, რომ რაღაც ისევე როგორც სასჯელი, რომ არ არის სწორი - 171 00:08:26,110 --> 00:08:28,770 იქნებ იმიტომ, რომ ზედმეტად განზოგადება მაგალითად. 172 00:08:28,770 --> 00:08:32,210 შესაძლოა, როდესაც თქვენ იზრდებიან, თქვენ შეამჩნევთ რომ მრავლობითი, როგორც წესი, 173 00:08:32,210 --> 00:08:35,809 ჩამოყალიბდა აყენებს S at ბოლოს სიტყვა. 174 00:08:35,809 --> 00:08:40,042 და მაშინ ცდილობენ გააკეთონ მრავლობითი "ირმის", როგორც "ირმები" ან "კბილი", როგორც 175 00:08:40,042 --> 00:08:44,780 "Tooths". ასე რომ თქვენი მშობლები ან ვინმე შეასწორებს თქვენ და ამბობს, არა, 176 00:08:44,780 --> 00:08:49,020 მრავლობითი "ირმის" არის "ირმის", და მრავლობითი "კბილის" არის "კბილი". და შემდეგ 177 00:08:49,020 --> 00:08:50,060 თქვენ ვისწავლოთ იმ რამ. 178 00:08:50,060 --> 00:08:51,520 ასე, რომ თქვენ ვისწავლოთ სასამართლო და შეცდომა. 179 00:08:51,520 --> 00:08:53,100 >> მაგრამ ასევე შეგიძლიათ გააკეთოთ, რომ კომპიუტერი. 180 00:08:53,100 --> 00:08:55,310 თქვენ შეგიძლიათ რაღაც მოუწოდა გამაგრება სწავლება. 181 00:08:55,310 --> 00:08:58,560 რომელიც ძირითადად მოსწონს მიცემა კომპიუტერული ჯილდო, როცა ეს ასეა, 182 00:08:58,560 --> 00:08:59,410 რაღაც სწორად. 183 00:08:59,410 --> 00:09:04,710 და ვაძლევთ მას საპირისპირო ჯილდო და როდესაც იგი აკეთებს რაღაც. 184 00:09:04,710 --> 00:09:07,410 თქვენ შეგიძლიათ რეალურად ვხედავთ, რომ თუ to Google Translate და თქვენ ცდილობენ 185 00:09:07,410 --> 00:09:10,220 თარგმნა წინადადება, რომ მოგთხოვთ კავშირი. 186 00:09:10,220 --> 00:09:13,240 ასე რომ, თუ თქვენ ამბობთ, oh, არსებობს უკეთესი თარგმანი ამ სასჯელს. 187 00:09:13,240 --> 00:09:18,140 შეგიძლიათ ჩაწეროთ ეს და შემდეგ თუ ბევრი ადამიანი შენარჩუნება და განაცხადა, რომ უკეთესი 188 00:09:18,140 --> 00:09:21,560 თარგმანი, უბრალოდ გაიგებს, რომ ის უნდა გამოვიყენოთ, რომ თარგმანი ნაცვლად 189 00:09:21,560 --> 00:09:22,960 ერთი ეს აძლევდა. 190 00:09:22,960 --> 00:09:28,830 >> ასე რომ, ეს ძალიან ფილოსოფიური კითხვა თუ კომპიუტერი იქნება 191 00:09:28,830 --> 00:09:30,340 შეუძლია გაიგო თუ არა მომავალში. 192 00:09:30,340 --> 00:09:34,440 მაგრამ მე დიდი იმედი, რომ მათ შეუძლიათ უბრალოდ ეფუძნება იმ არგუმენტები. 193 00:09:34,440 --> 00:09:38,570 მაგრამ ეს მხოლოდ უფრო ფილოსოფიური კითხვა. 194 00:09:38,570 --> 00:09:43,460 >> ასე რომ, ხოლო კომპიუტერები ჯერ კიდევ ვერ გაიგო, რა არის ის, რაც ჩვენ შეგვიძლია გავაკეთოთ? 195 00:09:43,460 --> 00:09:47,070 რამდენიმე მართლაც მაგარი რამ არის მონაცემთა კლასიფიკაცია. 196 00:09:47,070 --> 00:09:53,210 ასე, მაგალითად, თქვენ ბიჭები ვიცი რომ ელექტრონული ფოსტის მომსახურების გავაკეთოთ, რომ 197 00:09:53,210 --> 00:09:55,580 მაგალითად, spam ფილტრაცია. 198 00:09:55,580 --> 00:09:59,070 ასე რომ, როდესაც თქვენ მიიღებთ spam, ის ცდილობს, რათა გავფილტროთ სხვა ყუთში. 199 00:09:59,070 --> 00:10:00,270 ასე რომ, თუ იგი ამის გაკეთება? 200 00:10:00,270 --> 00:10:06,080 ეს იმას არ ნიშნავს რომ კომპიუტერი მხოლოდ იცის რა ელფოსტა გაგზავნის spam. 201 00:10:06,080 --> 00:10:09,130 ასე რომ, ეს უფრო საფუძველზე შინაარსი გაგზავნა, ან იქნებ სათაური ან 202 00:10:09,130 --> 00:10:11,310 შესაძლოა, რამდენიმე ნიმუში, რომ თქვენ გაქვთ. 203 00:10:11,310 --> 00:10:15,690 >> ასე რომ, ძირითადად, თუ რა შეგიძლიათ გააკეთოთ ბევრი მონაცემები წერილებს, რომლებიც spam, 204 00:10:15,690 --> 00:10:19,980 წერილებს, რომლებიც არ არიან spam, და გაიგოთ სახის ნიმუში გაქვთ 205 00:10:19,980 --> 00:10:21,000 პირობა, რომ spam. 206 00:10:21,000 --> 00:10:23,260 და ეს არის ნაწილი გამოთვლითი ლინგვისტიკა. 207 00:10:23,260 --> 00:10:24,720 ეს მოუწოდა მონაცემები კლასიფიკაცია. 208 00:10:24,720 --> 00:10:28,100 და ჩვენ რეალურად აპირებს ვხედავ მაგალითი, რომ მომდევნო სლაიდები. 209 00:10:28,100 --> 00:10:32,910 >> მეორე ის არის ბუნებრივი ენა დამუშავება, რომელიც არის ის, რომ 210 00:10:32,910 --> 00:10:36,580 Graph ძებნა აკეთებს გაქირავების წერთ სასჯელს. 211 00:10:36,580 --> 00:10:38,690 და ის ენდობა გესმით რა მნიშვნელობა და აძლევს 212 00:10:38,690 --> 00:10:39,940 თქვენ უკეთესი შედეგი. 213 00:10:39,940 --> 00:10:43,880 რეალურად, თუ Google ან Bing და თქვენ მოძებნოთ რაღაც Lady 214 00:10:43,880 --> 00:10:47,060 გაგა სიმაღლე, თქვენ რეალურად აპირებს მიიღოს 5 '1 "ნაცვლად ინფორმაცია 215 00:10:47,060 --> 00:10:50,170 მისი, რადგან იგი რეალურად ესმის რაც თქვენ ვსაუბრობთ. 216 00:10:50,170 --> 00:10:52,140 ასე რომ, ნაწილი ბუნებრივი ენის გადამუშავება. 217 00:10:52,140 --> 00:10:57,000 >> ან ასევე, როდესაც თქვენ იყენებთ Siri, პირველი თქვენ გაქვთ ალგორითმი, რომელიც ცდილობს 218 00:10:57,000 --> 00:11:01,130 თარგმნოს თუ რას ამბობდა შევიდა სიტყვა, ტექსტში. 219 00:11:01,130 --> 00:11:03,690 და მაშინ იგი ცდილობს თარგმნოს რომ შევიდა მნიშვნელობა. 220 00:11:03,690 --> 00:11:06,570 ისე, რომ ყველა ნაწილი ბუნებრივი ენის გადამუშავება. 221 00:11:06,570 --> 00:11:08,320 >> მაშინ თქვენ გაქვთ მანქანური თარგმანი - 222 00:11:08,320 --> 00:11:10,300 რომელიც რეალურად ერთი ჩემი რჩეულები - 223 00:11:10,300 --> 00:11:14,060 რომელიც მხოლოდ თარგმნიან დან ენიდან მეორეზე. 224 00:11:14,060 --> 00:11:17,950 ასე რომ თქვენ შეგიძლიათ ვფიქრობ, რომ როდესაც თქვენ აკეთებთ მანქანური თარგმანი, თქვენ უნდა 225 00:11:17,950 --> 00:11:19,750 უსასრულო შესაძლებლობები სასჯელს. 226 00:11:19,750 --> 00:11:22,960 ასე რომ არ არსებობს გზა უბრალოდ შენახვა ყოველი თარგმანი. 227 00:11:22,960 --> 00:11:27,440 ასე რომ თქვენ უნდა ამუშავება საინტერესო ალგორითმები შეძლებს 228 00:11:27,440 --> 00:11:30,110 თარგმნა ყველა ერთი განაჩენი რამდენიმე გზა. 229 00:11:30,110 --> 00:11:32,483 >> თქვენ ბიჭები გაქვთ რაიმე შეკითხვები აქამდე? 230 00:11:32,483 --> 00:11:34,450 არა? 231 00:11:34,450 --> 00:11:34,830 OK. 232 00:11:34,830 --> 00:11:36,900 >> ასე რომ, რასაც ჩვენ ვაპირებთ ვხედავ დღეს? 233 00:11:36,900 --> 00:11:39,300 პირველ რიგში, მე ვაპირებ ვისაუბრო კლასიფიკაციის პრობლემა. 234 00:11:39,300 --> 00:11:41,440 ასე რომ, ერთი, რომ მე ვიყავი ამბობს spam. 235 00:11:41,440 --> 00:11:46,820 რა მე ვაპირებ რომ გააკეთოთ, არის, თუ გავითვალისწინებთ სიმღერები სიმღერა, შეგიძლიათ ცდილობენ გაერკვნენ 236 00:11:46,820 --> 00:11:49,810 მაღალი ალბათობა ვინ არის მომღერალი? 237 00:11:49,810 --> 00:11:53,590 ვთქვათ, რომ მე სიმღერა Lady გაგა და Katy Perry, თუ მე მოგცემთ 238 00:11:53,590 --> 00:11:58,130 ახალი სიმღერა, შეგიძლიათ გაერკვნენ, თუ ეს Katy Perry და Lady Gaga? 239 00:11:58,130 --> 00:12:01,490 >> მეორე, მე უბრალოდ აპირებს გაიგო შესახებ სეგმენტაციის პრობლემა. 240 00:12:01,490 --> 00:12:05,780 ასე რომ, მე არ ვიცი, თუ ბიჭები ვიცი, მაგრამ ჩინური, იაპონური, სხვა აღმოსავლეთ აზიის 241 00:12:05,780 --> 00:12:08,090 ენებზე, და სხვა ენებზე ზოგადად, არ აქვს 242 00:12:08,090 --> 00:12:09,830 ფართები შორის სიტყვა. 243 00:12:09,830 --> 00:12:13,540 და თუ ფიქრობთ ამის შესახებ, ისე, რომ თქვენს კომპიუტერში სახის ცდილობს 244 00:12:13,540 --> 00:12:18,600 მესმის ბუნებრივი ენის დამუშავება, იგი უყურებს სიტყვა და 245 00:12:18,600 --> 00:12:21,500 ცდილობს მესმის ურთიერთობები მათ შორის, არა? 246 00:12:21,500 --> 00:12:25,440 მაგრამ შემდეგ, თუ თქვენ გაქვთ ჩინური, და თქვენ ნულოვანი ფართები, ეს მართლაც რთული 247 00:12:25,440 --> 00:12:28,360 გაირკვეს, თუ რა ურთიერთკავშირი არსებობს დღეს სიტყვები, რადგან მათ არ აქვთ 248 00:12:28,360 --> 00:12:29,530 სიტყვა პირველი. 249 00:12:29,530 --> 00:12:32,600 ასე, რომ თქვენ უნდა გავაკეთოთ რაღაც მოუწოდა სეგმენტაცია რომელიც მხოლოდ იმას ნიშნავს აყენებს 250 00:12:32,600 --> 00:12:36,490 ფართები შორის, რასაც ჩვენ მინდა მოვუწოდო სიტყვები იმ ენებზე. 251 00:12:36,490 --> 00:12:37,740 აზრი? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> და მაშინ ჩვენ ვაპირებთ ლაპარაკი სინტაქსი. 254 00:12:41,540 --> 00:12:44,050 ასე რომ, უბრალოდ ცოტა ბუნებრივი ენის გადამუშავება. 255 00:12:44,050 --> 00:12:45,420 ის აპირებს იყოს მხოლოდ მიმოხილვა. 256 00:12:45,420 --> 00:12:50,700 ასე რომ, დღეს, ძირითადად, რა მინდა არის მოგცემთ ბიჭებს ცოტა 257 00:12:50,700 --> 00:12:53,930 შიგნით რა შესაძლებლობები რომ შეგიძლიათ გააკეთოთ გამოთვლითი 258 00:12:53,930 --> 00:12:54,960 ლინგვისტიკა. 259 00:12:54,960 --> 00:13:00,410 და მაშინ დაინახავ, რა ფიქრობთ არის მაგარი შორის რამ. 260 00:13:00,410 --> 00:13:02,270 და იქნებ შეგიძლიათ წარმოიდგინოთ, რომ პროექტი და მოვიდა გაიგო ჩემთვის. 261 00:13:02,270 --> 00:13:05,260 მე და მოგცემთ რჩევებს როგორ უნდა განახორციელოს იგი. 262 00:13:05,260 --> 00:13:09,060 >> ასე რომ სინტაქსი იქნება ცოტა შესახებ Graph ძებნა და მანქანა 263 00:13:09,060 --> 00:13:09,670 თარგმანი. 264 00:13:09,670 --> 00:13:13,650 მე უბრალოდ აპირებს მაგალითია, თუ როგორ თქვენ შეიძლება, მაგალითად, თარგმნა 265 00:13:13,650 --> 00:13:16,020 რაღაც Portuguese ინგლისური. 266 00:13:16,020 --> 00:13:17,830 ხმები კარგი? 267 00:13:17,830 --> 00:13:19,293 >> ასე რომ, პირველი, კლასიფიკაციის პრობლემა. 268 00:13:19,293 --> 00:13:23,590 მე ვიტყვი, რომ ამ ნაწილში სემინარი იქნება ყველაზე რთული 269 00:13:23,590 --> 00:13:27,560 ერთი მხოლოდ იმიტომ, რომ იქ უნდა იყოს გარკვეული კოდირება. 270 00:13:27,560 --> 00:13:29,470 მაგრამ ეს იქნება Python. 271 00:13:29,470 --> 00:13:34,380 მე ვიცი, რომ თქვენ ბიჭები არ ვიცი, Python, ასე რომ, მე უბრალოდ აპირებს ასახსნელად მაღალი 272 00:13:34,380 --> 00:13:35,750 გახდება, რასაც მე ვაკეთებ. 273 00:13:35,750 --> 00:13:40,900 და თქვენ არ უნდა ნამდვილად აღელვებს ძალიან ბევრი შესახებ syntax იმიტომ, რომ 274 00:13:40,900 --> 00:13:42,140 რაღაც ბიჭები შეიძლება ვისწავლოთ. 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 ჟღერს კარგი. 277 00:13:43,580 --> 00:13:46,020 >> რა არის კლასიფიკაციის პრობლემა? 278 00:13:46,020 --> 00:13:49,140 ასე რომ თქვენ მოცემული ზოგიერთი სიმღერები სიმღერა, და გსურთ ვხვდები 279 00:13:49,140 --> 00:13:50,620 ვინც მღერის იგი. 280 00:13:50,620 --> 00:13:54,045 და ეს შეიძლება იყოს ნებისმიერი სახის სხვა პრობლემები. 281 00:13:54,045 --> 00:13:59,980 ასე რომ, ეს შეიძლება იყოს, მაგალითად, თქვენ გაქვთ საპრეზიდენტო კამპანია და თქვენ 282 00:13:59,980 --> 00:14:02,610 სიტყვის, და თქვენ გსურთ იპოვოთ იმ შემთხვევაში, თუ ეს იყო, მაგალითად, 283 00:14:02,610 --> 00:14:04,470 ობამას ან MITT Romney. 284 00:14:04,470 --> 00:14:07,700 ან თქვენ შეგიძლიათ აქვს bunch of წერილებს და გსურთ გაერკვნენ, თუ ისინი 285 00:14:07,700 --> 00:14:08,890 spam თუ არა. 286 00:14:08,890 --> 00:14:11,440 ასე რომ, ეს უბრალოდ კლასიფიკაციის ზოგიერთი მონაცემები ეფუძნება სიტყვები 287 00:14:11,440 --> 00:14:13,790 ის, რომ თქვენ იქ. 288 00:14:13,790 --> 00:14:16,295 >> ასე რომ ამის გაკეთება, თქვენ უნდა გარკვეული ვარაუდები. 289 00:14:16,295 --> 00:14:20,570 ასე რომ, ბევრი რამ კომპიუტერული ლინგვისტიკის მიღების ვარაუდები, 290 00:14:20,570 --> 00:14:24,100 როგორც წესი, smart ვარაუდები, რომ თქვენ შეგიძლიათ მიიღოს კარგი შედეგები. 291 00:14:24,100 --> 00:14:26,670 ცდილობს შექმნას მოდელი მას. 292 00:14:26,670 --> 00:14:31,290 და შემდეგ ცდილობენ გარეთ და თუ მუშაობს, თუ ეს გაძლევთ კარგი სიზუსტით. 293 00:14:31,290 --> 00:14:33,940 და თუ ეს ასეა, მაშინ თქვენ ცდილობენ გააუმჯობესოს ის. 294 00:14:33,940 --> 00:14:37,640 თუ ეს არ, თქვენ, როგორიცაა, OK, იქნებ მე უნდა მიიღოს სხვადასხვა ვარაუდი. 295 00:14:37,640 --> 00:14:44,030 >> ასე რომ ვარაუდი, რომ ჩვენ ვაპირებთ ის არის, რომ ხელოვანი, როგორც წესი, მღერის 296 00:14:44,030 --> 00:14:49,220 შესახებ თემა რამდენჯერმე, და იქნებ იყენებს სიტყვა რამდენჯერმე მხოლოდ 297 00:14:49,220 --> 00:14:50,270 რადგან ისინი გამოიყენება იგი. 298 00:14:50,270 --> 00:14:51,890 შეგიძლიათ უბრალოდ ფიქრობთ, თქვენი მეგობარი. 299 00:14:51,890 --> 00:14:57,350 დარწმუნებული ვარ, ბიჭები ყველა მეგობრები რომ ვთქვათ, მათი ხელმოწერის ფრაზა 300 00:14:57,350 --> 00:14:59,260 ფაქტიურად ყველა ერთი წინადადება - 301 00:14:59,260 --> 00:15:02,660 ისევე როგორც გარკვეული სიტყვა ან კონკრეტული ფრაზა, რომ ვთქვა, 302 00:15:02,660 --> 00:15:04,020 ყოველი სასჯელი. 303 00:15:04,020 --> 00:15:07,920 >> და რა შეიძლება ითქვას, ის არის, რომ თუ ხედავთ წინადადება, რომ აქვს ხელმოწერა 304 00:15:07,920 --> 00:15:11,450 ფრაზა, შეგიძლიათ ვფიქრობ, რომ, ალბათ, თქვენი მეგობარი არის 305 00:15:11,450 --> 00:15:13,310 ერთი, რომ ეს, არა? 306 00:15:13,310 --> 00:15:18,410 ასე, რომ თქვენ მიიღოს, რომ ვარაუდი და შემდეგ ეს არის ის, თუ როგორ შექმნათ მოდელი. 307 00:15:18,410 --> 00:15:24,440 >> მაგალითად, მე ვაპირებ მისთვის არის როგორ Lady Gaga, მაგალითად, ადამიანი 308 00:15:24,440 --> 00:15:27,430 ამბობენ, რომ იგი იყენებს "baby" ამისთვის ყველა მისი ნომერ სიმღერები. 309 00:15:27,430 --> 00:15:32,270 და რეალურად ეს არის ვიდეო, რომელიც გვიჩვენებს, მას განაცხადა, რომ სიტყვა "ბავშვი" და 310 00:15:32,270 --> 00:15:33,410 სხვადასხვა სიმღერები. 311 00:15:33,410 --> 00:15:33,860 >> [ვიდეო აღწარმოების] 312 00:15:33,860 --> 00:15:34,310 >> - (სიმღერა) Baby. 313 00:15:34,310 --> 00:15:36,220 Baby. 314 00:15:36,220 --> 00:15:37,086 Baby. 315 00:15:37,086 --> 00:15:37,520 Baby. 316 00:15:37,520 --> 00:15:37,770 Baby. 317 00:15:37,770 --> 00:15:38,822 Babe. 318 00:15:38,822 --> 00:15:39,243 Baby. 319 00:15:39,243 --> 00:15:40,085 Baby. 320 00:15:40,085 --> 00:15:40,510 Baby. 321 00:15:40,510 --> 00:15:40,850 Baby. 322 00:15:40,850 --> 00:15:41,090 >> [END ვიდეო აღწარმოების- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS Freitas: ასე რომ, ვფიქრობ, 40 სიმღერები აქ, რომელშიც იგი ამბობს, რომ 324 00:15:44,020 --> 00:15:48,690 სიტყვა "ბავშვი". ასე რომ თქვენ შეგიძლიათ ძირითადად ვხვდები იმ შემთხვევაში, თუ ხედავთ სიმღერა რომ აქვს 325 00:15:48,690 --> 00:15:52,180 სიტყვა "ბავშვი," არსებობს გარკვეული მაღალი ალბათობა იმისა, რომ ეს ლედი გაგა. 326 00:15:52,180 --> 00:15:56,450 მაგრამ მოდით ცდილობენ განავითარონ კიდევ უფრო ფორმალურად. 327 00:15:56,450 --> 00:16:00,470 >> ასე რომ ეს არის სიმღერები სიმღერები ლედი გაგა და Katy Perry. 328 00:16:00,470 --> 00:16:04,120 ასე, რომ თქვენ შევხედოთ ლედი გაგა, ხედავთ, აქვს ბევრი შემთხვევები "baby" 329 00:16:04,120 --> 00:16:07,710 ბევრი შემთხვევები "გზა". და შემდეგ Katy Perry აქვს უამრავი შემთხვევები 330 00:16:07,710 --> 00:16:10,360 "" ბევრი შემთხვევები "ცეცხლი". 331 00:16:10,360 --> 00:16:14,560 >> ასე რომ, ძირითადად, რაც ჩვენ გვსურს გავაკეთოთ არის, თქვენ ლირიკული. 332 00:16:14,560 --> 00:16:20,480 ვთქვათ, რომ თქვენ ლირიკული აქვს სიმღერა რომ არის "baby", მხოლოდ "ბავშვი." იმ შემთხვევაში, თუ 333 00:16:20,480 --> 00:16:24,750 თქვენ უბრალოდ სიტყვა "ბავშვი" და ამ ყველა მონაცემები, რომ თქვენ გაქვთ ეხლა 334 00:16:24,750 --> 00:16:27,880 ლედი გაგა და Katy Perry, რომელიც თქვენ გამოიცანით არის ადამიანი 335 00:16:27,880 --> 00:16:29,370 რომელიც მღერის სიმღერას? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga ან Katy Perry? 337 00:16:32,360 --> 00:16:33,150 ლედი გაგა, არა? 338 00:16:33,150 --> 00:16:37,400 იმიტომ, რომ ის ერთადერთია, ვინც ამბობს, რომ "ბავშვი". ეს ჟღერს სულელური, არა? 339 00:16:37,400 --> 00:16:38,760 OK, ეს ნამდვილად არ არის ადვილი. 340 00:16:38,760 --> 00:16:41,860 მე უბრალოდ ეძებს ორი სიმღერა და რა თქმა უნდა, ის ერთადერთი, რომელსაც აქვს 341 00:16:41,860 --> 00:16:42,660 "ბავშვი". 342 00:16:42,660 --> 00:16:44,740 >> მაგრამ რა, თუ თქვენ გაქვთ bunch of სიტყვები? 343 00:16:44,740 --> 00:16:50,900 თუ თქვენ გაქვთ ფაქტობრივი lyric, რაღაც როგორიცაა, "ბავშვი, მე, უბრალოდ, 344 00:16:50,900 --> 00:16:51,610 წავიდა ვხედავ [? CFT?] 345 00:16:51,610 --> 00:16:54,020 ლექცია "ან რამე მაგდაგვარს და მაშინ რეალურად უნდა გაერკვნენ, - 346 00:16:54,020 --> 00:16:55,780 საფუძველზე ყველა იმ სიტყვებით - 347 00:16:55,780 --> 00:16:58,350 ვინ არის მხატვარი, რომელმაც, ალბათ, მღეროდა ამ სიმღერას? 348 00:16:58,350 --> 00:17:01,860 მოდით ცდილობენ განავითარონ ეს ცოტა უფრო. 349 00:17:01,860 --> 00:17:05,630 >> OK, ასე რომ მხოლოდ მონაცემები, რომ ჩვენ მიიღო, როგორც ჩანს, გაგა, ალბათ, 350 00:17:05,630 --> 00:17:06,260 მომღერალი. 351 00:17:06,260 --> 00:17:07,904 მაგრამ როგორ შეიძლება ჩვენ წერენ ეს უფრო ფორმალურად? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 და იქ იქნება პატარა ცოტა სტატისტიკა. 354 00:17:13,140 --> 00:17:15,880 ასე რომ, თუ დაკარგა, უბრალოდ ცდილობენ მესმის კონცეფცია. 355 00:17:15,880 --> 00:17:18,700 არ აქვს მნიშვნელობა, თუ გესმით განტოლებათა კარგად. 356 00:17:18,700 --> 00:17:22,150 ეს ყველაფერი იქნება ონლაინ რეჟიმში. 357 00:17:22,150 --> 00:17:25,490 >> ასე რომ, ძირითადად, რაც მე გაანგარიშების არის ალბათობა იმისა, რომ ეს სიმღერა არის 358 00:17:25,490 --> 00:17:28,040 Lady Gaga იმის გათვალისწინებით, რომ - 359 00:17:28,040 --> 00:17:30,660 ასე რომ, ეს ბარი ნიშნავს რომ - 360 00:17:30,660 --> 00:17:33,680 ვნახე სიტყვა "ბავშვი". ამჯამად რომ აზრი? 361 00:17:33,680 --> 00:17:35,540 ასე რომ, მე ვცდილობ რომ გამოვთვალოთ რომ ალბათობა. 362 00:17:35,540 --> 00:17:38,540 >> ასე არ არის, ეს თეორემა ეწოდება Bayes თეორემა, რომელიც ამბობს, რომ 363 00:17:38,540 --> 00:17:43,330 ალბათობა მოცემული B არის ალბათობა B მოცემული, ჯერ 364 00:17:43,330 --> 00:17:47,660 ალბათობა, მეტი ალბათობა ბ ეს არის ხანგრძლივი განტოლება. 365 00:17:47,660 --> 00:17:51,970 მაგრამ ის, რაც თქვენ უნდა გვესმოდეს, ეხლა რომ არის, რომ ეს არის ის, რაც მე მინდა 366 00:17:51,970 --> 00:17:52,830 გამოთვლა, არა? 367 00:17:52,830 --> 00:17:56,570 ამიტომ ალბათობა იმისა, რომ ეს სიმღერა არის Lady Gaga რომ ვნახე სიტყვა 368 00:17:56,570 --> 00:17:58,230 "ბავშვი". 369 00:17:58,230 --> 00:18:02,960 >> და ახლა რა მე მისაღებად არის ალბათობა სიტყვა "ბავშვი" გადაეცა 370 00:18:02,960 --> 00:18:04,390 რომ მაქვს ლედი გაგა. 371 00:18:04,390 --> 00:18:07,220 და რა არის, რომ ძირითადად? 372 00:18:07,220 --> 00:18:10,500 რას ნიშნავს ეს, რა არის ალბათობა ხედავს სიტყვა "ბავშვი" 373 00:18:10,500 --> 00:18:12,130 in Gaga სიმღერები? 374 00:18:12,130 --> 00:18:16,240 თუ მინდა გამოთვლა, რომ ძალიან მარტივი გზა, უბრალოდ რაოდენობის 375 00:18:16,240 --> 00:18:23,640 ჯერ მე ვერ ვხედავ "baby" მეტი საერთო რაოდენობის სიტყვების Gaga სიმღერები, არა? 376 00:18:23,640 --> 00:18:27,600 რა არის სიხშირე, რომ მე ვერ ვხედავ რომ სიტყვა Gaga-ს მუშაობა? 377 00:18:27,600 --> 00:18:30,530 აზრი? 378 00:18:30,530 --> 00:18:33,420 >> მეორე ვადით არის ალბათობა გაგა. 379 00:18:33,420 --> 00:18:34,360 რას ნიშნავს ეს? 380 00:18:34,360 --> 00:18:38,550 ეს ნიშნავს იმას, თუ რა არის ალბათობის კლასიფიკაციის 381 00:18:38,550 --> 00:18:40,690 ზოგიერთი სიმღერები როგორც გაგა? 382 00:18:40,690 --> 00:18:45,320 და ეს არის სახის უცნაური, მაგრამ მოდით ვიფიქროთ მაგალითი. 383 00:18:45,320 --> 00:18:49,230 მოდით ვთქვათ, რომ ალბათობა რომელსაც "Baby" სიმღერა არის იგივე 384 00:18:49,230 --> 00:18:51,760 განთავსების გაგა და Britney Spears. 385 00:18:51,760 --> 00:18:54,950 მაგრამ Britney Spears ორჯერ სხვა სიმღერები, გარდა ლედი გაგა. 386 00:18:54,950 --> 00:19:00,570 ასე რომ, თუ ვინმე უბრალოდ შემთხვევით გაძლევთ სიმღერები "ბავშვი," პირველი, რაც თქვენ 387 00:19:00,570 --> 00:19:04,710 შევხედოთ, რა არის ალბათობა რომელსაც "baby" წელს Gaga სიმღერა "Baby" 388 00:19:04,710 --> 00:19:05,410 წელს Britney სიმღერა? 389 00:19:05,410 --> 00:19:06,460 და ეს იგივე. 390 00:19:06,460 --> 00:19:10,040 >> ასე რომ, მეორე ის, რომ თქვენ ნახავთ არის, კარგად, რა არის ალბათობა 391 00:19:10,040 --> 00:19:13,770 ამ ლირიკული თავისთავად მყოფი გაგა lyric, და რა არის ალბათობა 392 00:19:13,770 --> 00:19:15,380 მიმდინარეობს Britney ლირიკული? 393 00:19:15,380 --> 00:19:18,950 ასე რომ, რადგან Britney ამდენი მეტი ლექსები გარდა გაგა, თქვენ ალბათ 394 00:19:18,950 --> 00:19:21,470 ვთქვათ, ისე, ეს, ალბათ, Britney ლირიკული. 395 00:19:21,470 --> 00:19:23,340 ასე რომ, ამიტომ ჩვენ ამ ტერმინი უფლება აქ. 396 00:19:23,340 --> 00:19:24,670 ალბათობა გაგა. 397 00:19:24,670 --> 00:19:26,950 აზრი? 398 00:19:26,950 --> 00:19:28,660 აკეთებს? 399 00:19:28,660 --> 00:19:29,370 OK. 400 00:19:29,370 --> 00:19:33,500 >> და ბოლოს ერთი უბრალოდ ალბათობა of "ბავშვი", რომელიც არ 401 00:19:33,500 --> 00:19:34,810 ნამდვილად აქვს, რომ ბევრად. 402 00:19:34,810 --> 00:19:39,940 მაგრამ ალბათობა ხედავს "baby" ინგლისურ ენაზე. 403 00:19:39,940 --> 00:19:42,725 როგორც წესი, ჩვენ არ მაინტერესებს, რომ ბევრი რომ ვადით. 404 00:19:42,725 --> 00:19:44,490 ამჯამად რომ აზრი? 405 00:19:44,490 --> 00:19:48,110 ასე რომ, ალბათობა Gaga არის ე.წ. წინასწარი ალბათობა 406 00:19:48,110 --> 00:19:49,530 კლასი გაგა. 407 00:19:49,530 --> 00:19:53,840 იმის გამო, რომ ეს მხოლოდ იმას ნიშნავს, რომ, რა არის ალბათობის მქონე, რომ კლასი - 408 00:19:53,840 --> 00:19:55,520 რომელიც Gaga - 409 00:19:55,520 --> 00:19:59,350 უბრალოდ, ზოგადად, მხოლოდ ერთად არ პირობებით. 410 00:19:59,350 --> 00:20:02,560 >> და მაშინ, როდესაც მე მაქვს ალბათობის გაგა მიეცეს "baby", ჩვენ მას პლუს 411 00:20:02,560 --> 00:20:06,160 teary ალბათობა, რადგან ის ალბათობის მქონე 412 00:20:06,160 --> 00:20:08,300 გაგა მოცემული ზოგიერთი მტკიცებულება. 413 00:20:08,300 --> 00:20:11,050 ამიტომ მე გაძლევთ მტკიცებულება რომ ვნახე სიტყვა ბავშვი და 414 00:20:11,050 --> 00:20:12,690 სიმღერა აზრი? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 OK. 417 00:20:16,410 --> 00:20:22,400 >> ასე რომ, თუ მე გათვლილი, რომ თითოეული სიმღერები ლედი გაგა, 418 00:20:22,400 --> 00:20:25,916 რა, რომ იქნება - 419 00:20:25,916 --> 00:20:27,730 როგორც ჩანს, ვერ გადავა ეს. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 ალბათობა Gaga იქნება რაღაც, 2 ზე 24 ჯერ 1/2, 422 00:20:36,920 --> 00:20:38,260 დაახლოებით 2 ზე 53. 423 00:20:38,260 --> 00:20:40,640 არ აქვს მნიშვნელობა, თუ იცით რას ეს ციფრები მოდის. 424 00:20:40,640 --> 00:20:44,750 მაგრამ ეს მხოლოდ იმ ნომერზე, რომელიც აპირებს უნდა იყოს უფრო მეტი ვიდრე 0, არა? 425 00:20:44,750 --> 00:20:48,610 >> და მაშინ, როდესაც გავაკეთო Katy Perry, ალბათობა "ბავშვი" მოცემული Katy არის 426 00:20:48,610 --> 00:20:49,830 უკვე 0, არა? 427 00:20:49,830 --> 00:20:52,820 რადგან იქ არ არის "ბავშვი" in Katy Perry. 428 00:20:52,820 --> 00:20:56,360 ასე რომ მაშინ ეს ხდება 0, და გაგა მოგება, რაც იმას ნიშნავს, რომ გაგა არის 429 00:20:56,360 --> 00:20:57,310 ალბათ მომღერალი. 430 00:20:57,310 --> 00:20:58,560 ამჯამად რომ აზრი? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 OK. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> ასე რომ, თუ მინდა, რომ ეს უფრო ოფიციალური, შემიძლია რეალურად გავაკეთოთ მოდელი 435 00:21:11,750 --> 00:21:12,700 მრავალი სიტყვა. 436 00:21:12,700 --> 00:21:14,610 მოდით ვთქვათ, რომ მაქვს რაღაც როგორიცაა: "ბავშვი ვარ, 437 00:21:14,610 --> 00:21:16,030 ცეცხლი, "ან რამე. 438 00:21:16,030 --> 00:21:17,760 ასე რომ, ეს მრავლობითი სიტყვა. 439 00:21:17,760 --> 00:21:20,880 და ამ შემთხვევაში, თქვენ ხედავთ, რომ "ბავშვი" არის გაგა, 440 00:21:20,880 --> 00:21:21,710 მაგრამ ეს არ Katy. 441 00:21:21,710 --> 00:21:24,940 და "ცეცხლი" არის Katy, მაგრამ ეს არ არის გაგა, არა? 442 00:21:24,940 --> 00:21:27,200 ასე რომ, ის მიღების trickier, არა? 443 00:21:27,200 --> 00:21:31,440 იმის გამო, რომ, როგორც ჩანს, თქვენ თითქმის აქვს ჰალსტუხი შორის. 444 00:21:31,440 --> 00:21:36,980 >> ასე რომ, ის, რაც თქვენ უნდა გააკეთოთ ვივარაუდოთ, დამოუკიდებლობის შორის სიტყვა. 445 00:21:36,980 --> 00:21:41,210 ასე რომ, ძირითადად, რას ნიშნავს ის არის, რომ მე მხოლოდ გამოთვლის თუ რა არის 446 00:21:41,210 --> 00:21:44,330 ალბათობა ხედავს "ბავშვი," რა არის ალბათობა ხედავს "მე" და 447 00:21:44,330 --> 00:21:46,670 "ვარ", და "ი" და "ცეცხლი" ყველა ცალკე. 448 00:21:46,670 --> 00:21:48,670 მაშინ მე გამრავლებით ყველა მათგანი. 449 00:21:48,670 --> 00:21:52,420 და მე ხედავს, რა არის ალბათობა ხედავს მთელი სასჯელი. 450 00:21:52,420 --> 00:21:55,210 აზრი? 451 00:21:55,210 --> 00:22:00,270 >> ასე რომ, ძირითადად, თუ მაქვს მხოლოდ ერთი სიტყვა, რაც მე მინდა, რომ იპოვოთ არის Arg max, 452 00:22:00,270 --> 00:22:05,385 რაც იმას ნიშნავს, რა არის კლასი, რომელიც არის მაძლევს მაღალი ალბათობა? 453 00:22:05,385 --> 00:22:10,010 რა არის კლასი, რომელიც იძლევა ჩემთვის ყველაზე დიდი ალბათობა 454 00:22:10,010 --> 00:22:11,940 ალბათობა დონის მოცემული სიტყვა. 455 00:22:11,940 --> 00:22:17,610 ასე რომ, ამ შემთხვევაში, გაგა მოცემული "ბავშვი." ან Katy მოცემული "ბავშვი." აზრი? 456 00:22:17,610 --> 00:22:21,040 >> და მხოლოდ Bayes, რომელიც განტოლება, რომ მე აჩვენა, 457 00:22:21,040 --> 00:22:24,780 ჩვენ ვქმნით ამ ფრაქცია. 458 00:22:24,780 --> 00:22:28,750 მხოლოდ ის არის, რომ თქვენ ხედავთ, რომ ალბათობა სიტყვა ეძლევა 459 00:22:28,750 --> 00:22:31,370 დონის ცვლილებები დამოკიდებულია იმ დონის, არა? 460 00:22:31,370 --> 00:22:34,260 ნომერი "baby" s რომ მაქვს in Gaga განსხვავდება Katy. 461 00:22:34,260 --> 00:22:37,640 ალბათობა დონის ასევე ცვლილებები, რადგან ეს არის მხოლოდ ნომერი 462 00:22:37,640 --> 00:22:39,740 სიმღერები თითოეული მათგანი აქვს. 463 00:22:39,740 --> 00:22:43,980 >> მაგრამ ალბათობა სიტყვა თავად იქნება იგივე 464 00:22:43,980 --> 00:22:44,740 მხატვრები, არა? 465 00:22:44,740 --> 00:22:47,150 ასე რომ, ალბათობა სიტყვა უბრალოდ, რა არის ალბათობა 466 00:22:47,150 --> 00:22:49,820 ვხედავთ, რომ სიტყვა ინგლისური ენის? 467 00:22:49,820 --> 00:22:51,420 ასე რომ, ეს იგივე ყველა მათგანი. 468 00:22:51,420 --> 00:22:55,790 ასე რომ, რადგან ეს არის მუდმივი, ჩვენ შეგვიძლია მხოლოდ ჩამოაგდეს და არ აინტერესებს ეს. 469 00:22:55,790 --> 00:23:00,230 ასე რომ, ეს იქნება რეალურად განტოლება ჩვენ ვეძებთ. 470 00:23:00,230 --> 00:23:03,360 >> და თუ მე რამდენიმე სიტყვა, მე ვარ კვლავ აპირებს აქვს წინასწარი 471 00:23:03,360 --> 00:23:04,610 ალბათობა აქ. 472 00:23:04,610 --> 00:23:06,980 მხოლოდ ის არის, რომ მე გამრავლებით ალბათობა 473 00:23:06,980 --> 00:23:08,490 ყველა სხვა სიტყვა. 474 00:23:08,490 --> 00:23:10,110 ამიტომ მე გამრავლებით ყველა მათგანი. 475 00:23:10,110 --> 00:23:12,610 აზრი? 476 00:23:12,610 --> 00:23:18,440 ეს გამოიყურება უცნაური, მაგრამ, ძირითადად, ნიშნავს, გამოვთვალოთ წინასწარი კლასის და 477 00:23:18,440 --> 00:23:22,100 მაშინ გამრავლების მიერ ალბათობა თითოეული სიტყვა, რომ ამ კლასში. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> და თქვენ იცით, რომ ალბათობა სიტყვა ეძლევა კლასი იქნება 480 00:23:29,150 --> 00:23:34,520 რამდენჯერმე ხედავთ, რომ სიტყვა რომ კლასი იყოფა ნომერი 481 00:23:34,520 --> 00:23:37,020 სიტყვა თქვენ, რომ კლასი კულტურას. 482 00:23:37,020 --> 00:23:37,990 აზრი? 483 00:23:37,990 --> 00:23:41,680 ის, თუ რამდენად "Baby" 2 მეტი სიტყვების რაოდენობა, რომელიც 484 00:23:41,680 --> 00:23:43,020 მქონდა სიმღერები. 485 00:23:43,020 --> 00:23:45,130 ასე რომ მხოლოდ სიხშირე. 486 00:23:45,130 --> 00:23:46,260 >> მაგრამ არსებობს ერთი რამ. 487 00:23:46,260 --> 00:23:51,250 მახსოვს, როგორ მე აჩვენებს, რომ ალბათობა "baby" მიმდინარეობს სიმღერები 488 00:23:51,250 --> 00:23:56,350 ეხლა Katy Perry 0 მხოლოდ იმიტომ, რომ Katy Perry არ აქვს "ბავშვი" საერთოდ? 489 00:23:56,350 --> 00:24:04,900 მაგრამ ეს ჟღერს ცოტა უხეში მხოლოდ უბრალოდ ამბობენ, რომ ლექსები არ შეიძლება იყოს 490 00:24:04,900 --> 00:24:10,040 მხატვარი მხოლოდ იმიტომ, რომ მათ არ აქვთ რომ სიტყვა, კერძოდ, ნებისმიერ დროს. 491 00:24:10,040 --> 00:24:13,330 >> ასე რომ თქვენ შეიძლება უბრალოდ, ვამბობთ, ასევე, თუ თქვენ არ აქვს ამ სიტყვას, მე ვაპირებ 492 00:24:13,330 --> 00:24:15,640 მოგცემთ დაბალია ალბათობა, მაგრამ მე უბრალოდ არ აპირებს 493 00:24:15,640 --> 00:24:17,420 მოგცემთ 0 დაუყოვნებლივ. 494 00:24:17,420 --> 00:24:21,040 იმის გამო, რომ იქნებ ეს იყო რაღაც, "ცეცხლი, ცეცხლი, ცეცხლი, ცეცხლი", რომელიც 495 00:24:21,040 --> 00:24:21,990 სრულიად Katy Perry. 496 00:24:21,990 --> 00:24:26,060 და შემდეგ "ბავშვი," და ეს მხოლოდ მიდის 0 დაუყოვნებლივ, რადგან არ იყო ერთი 497 00:24:26,060 --> 00:24:27,250 "ბავშვი". 498 00:24:27,250 --> 00:24:31,440 >> ასე რომ, ძირითადად თუ რას ვაკეთებთ არის ის, ე.წ. Laplace დამარბილებელი. 499 00:24:31,440 --> 00:24:36,260 და ეს მხოლოდ იმას ნიშნავს, რომ მე ვაძლევთ ზოგიერთი ალბათობა კი სიტყვები 500 00:24:36,260 --> 00:24:37,850 რომ არ არსებობს. 501 00:24:37,850 --> 00:24:43,170 ასე რომ, რა გავაკეთო, რომ როდესაც მე ვარ გამოთვლის ამ, მე ყოველთვის დაამატოთ 1 502 00:24:43,170 --> 00:24:44,180 მრიცხველი. 503 00:24:44,180 --> 00:24:48,060 ისე კი, თუ სიტყვა არ არსებობს, in ამ შემთხვევაში, თუ ეს არის 0, მე მაინც 504 00:24:48,060 --> 00:24:51,250 საანგარიშო ეს 1 მეტი საერთო რაოდენობის სიტყვები. 505 00:24:51,250 --> 00:24:55,060 წინააღმდეგ შემთხვევაში, მე კიდევ რამდენი სიტყვა მაქვს მე და დაამატეთ 1. 506 00:24:55,060 --> 00:24:58,300 ასე რომ, მე დათვლის ორივე შემთხვევაში. 507 00:24:58,300 --> 00:25:00,430 აზრი? 508 00:25:00,430 --> 00:25:03,060 >> ახლა მოდით დაკავდით კოდირების. 509 00:25:03,060 --> 00:25:06,440 მე ვაპირებ უნდა გავაკეთოთ საკმაოდ სწრაფად, მაგრამ ეს მხოლოდ მნიშვნელოვანია, რომ თქვენ 510 00:25:06,440 --> 00:25:08,600 ბიჭებს ესმით ცნებები. 511 00:25:08,600 --> 00:25:13,450 ასე რომ, რასაც ჩვენ ვცდილობთ გავაკეთოთ ზუსტად შევასრულებთ 512 00:25:13,450 --> 00:25:14,330 რამ, რომ მე უბრალოდ განაცხადა - 513 00:25:14,330 --> 00:25:19,110 მინდა დააყენოს სიმღერები საწყისი ლედი გაგა და Katy Perry. 514 00:25:19,110 --> 00:25:22,980 და პროგრამა აპირებს შეძლებს ამბობენ, რომ თუ ეს ახალი სიმღერები არის ეხლა გაგა 515 00:25:22,980 --> 00:25:24,170 ან Katy Perry. 516 00:25:24,170 --> 00:25:25,800 აზრი? 517 00:25:25,800 --> 00:25:27,530 OK. 518 00:25:27,530 --> 00:25:30,710 >> ასე რომ, მე ამ პროგრამის მე ვაპირებ მოვუწოდებთ classify.py. 519 00:25:30,710 --> 00:25:31,970 ასე რომ, ეს არის Python. 520 00:25:31,970 --> 00:25:34,210 ეს არის ახალი პროგრამირების ენა. 521 00:25:34,210 --> 00:25:38,020 ეს ძალიან ჰგავს ზოგიერთი გზები C და PHP. 522 00:25:38,020 --> 00:25:43,180 ეს მსგავსი რადგან თუ გსურთ ვისწავლოთ Python შემდეგ იცის C, ის 523 00:25:43,180 --> 00:25:46,270 ნამდვილად არ არის, რომ ბევრი გამოწვევა მხოლოდ იმიტომ, რომ Python ბევრად უფრო ადვილია, 524 00:25:46,270 --> 00:25:47,520 ვიდრე C, პირველ რიგში. 525 00:25:47,520 --> 00:25:49,370 და ბევრი რამ უკვე რეალიზებულია თქვენთვის. 526 00:25:49,370 --> 00:25:56,820 ასე რომ, თუ რამდენად მოსწონს PHP აქვს ფუნქციები, დასალაგებლად სიაში, ან დამატება, რაღაც 527 00:25:56,820 --> 00:25:58,780 მასივი, ან blah, blah, blah. 528 00:25:58,780 --> 00:26:00,690 Python აქვს ყველა იმ ასევე. 529 00:26:00,690 --> 00:26:05,960 >> ამიტომ მე უბრალოდ აპირებს ახსნას სწრაფად როგორ შეგვიძლია გავაკეთოთ კლასიფიკაცია 530 00:26:05,960 --> 00:26:07,860 პრობლემა აქ. 531 00:26:07,860 --> 00:26:13,230 მოდით ვთქვათ, რომ ამ შემთხვევაში, მე მაქვს სიმღერები საწყისი გაგა და Katy Perry. 532 00:26:13,230 --> 00:26:21,880 ისე, რომ მე არ მაქვს იმ ლექსები არის, რომ პირველი სიტყვა სიმღერები არის 533 00:26:21,880 --> 00:26:25,250 სახელი მხატვარი, და დანარჩენი სიმღერები. 534 00:26:25,250 --> 00:26:29,470 მოდით ვთქვათ, რომ მე ამ სიაში რომელიც პირველი ლექსები გაგა. 535 00:26:29,470 --> 00:26:31,930 ასე რომ აქ მე ვარ სწორ გზაზე. 536 00:26:31,930 --> 00:26:35,270 და შემდეგი ერთი Katy და მას აქვს აგრეთვე სიმღერები. 537 00:26:35,270 --> 00:26:38,040 >> ასე რომ, ეს არის, თუ როგორ აცხადებენ ცვლადი Python. 538 00:26:38,040 --> 00:26:40,200 თქვენ არ მისცეს მონაცემები ტიპის. 539 00:26:40,200 --> 00:26:43,150 თქვენ უბრალოდ დაწერეთ "ლექსები" სახის მოსწონს PHP. 540 00:26:43,150 --> 00:26:44,890 აზრი? 541 00:26:44,890 --> 00:26:47,770 >> რა არის რამ, რომ მე უნდა გამოვთვალოთ შეძლებს გამოვთვალოთ 542 00:26:47,770 --> 00:26:49,360 ალბათობა? 543 00:26:49,360 --> 00:26:55,110 მე უნდა გამოვთვალოთ "Priors" თითოეული სხვადასხვა 544 00:26:55,110 --> 00:26:56,710 კლასების, რომ მაქვს. 545 00:26:56,710 --> 00:27:06,680 მე უნდა გამოვთვალოთ "posteriors" ან საკმაოდ ბევრი ალბათობების 546 00:27:06,680 --> 00:27:12,150 თითოეული სხვადასხვა სიტყვა, რომ შემიძლია აქვს, თითოეული მხატვარი. 547 00:27:12,150 --> 00:27:17,210 ასე რომ, გაგა, მაგალითად, მე ვაპირებ აქვს სია, რამდენჯერ მე ვერ ვხედავ 548 00:27:17,210 --> 00:27:19,250 თითოეული სიტყვა. 549 00:27:19,250 --> 00:27:20,760 აზრი? 550 00:27:20,760 --> 00:27:25,370 >> და ბოლოს, მე უბრალოდ აპირებს სიაში სახელწოდებით "სიტყვა", რომელიც მხოლოდ აპირებს 551 00:27:25,370 --> 00:27:29,780 აქვს რამდენი სიტყვა I ყოველი მხატვარი. 552 00:27:29,780 --> 00:27:33,760 ასე რომ, გაგა, მაგალითად, როდესაც ვუყურებ რომ სიმღერები, მე ვფიქრობ, რომ 24 553 00:27:33,760 --> 00:27:34,750 სიტყვა შეადგენს. 554 00:27:34,750 --> 00:27:38,970 ასე რომ, ამ სიაში მხოლოდ აპირებს აქვს Gaga 24 და Katy სხვა ნომერზე. 555 00:27:38,970 --> 00:27:40,130 აზრი? 556 00:27:40,130 --> 00:27:40,560 OK. 557 00:27:40,560 --> 00:27:42,530 >> ახლა, რეალურად, მოდით წასვლა კოდირების. 558 00:27:42,530 --> 00:27:45,270 ასე რომ, Python, შეგიძლიათ რეალურად დაბრუნებას bunch სხვადასხვა 559 00:27:45,270 --> 00:27:46,630 რამ ფუნქცია. 560 00:27:46,630 --> 00:27:50,810 ამიტომ მე ვაპირებ, რათა შეიქმნას ამ ფუნქციის ე.წ. "პირობითი", რომელიც აპირებს 561 00:27:50,810 --> 00:27:53,890 დაბრუნდეს ყველა იმ რამ, "Priors", "ალბათობა," და 562 00:27:53,890 --> 00:28:05,690 "სიტყვა". ასე რომ "პირობითი" და ეს იქნება მოუწოდებდა შევიდა "ლექსები". 563 00:28:05,690 --> 00:28:11,510 >> ასე რომ, ახლა მინდა, რომ რეალურად წერენ ამ ფუნქციას. 564 00:28:11,510 --> 00:28:17,750 ასე რომ, ისე, რომ მე შეგიძლიათ დაწეროთ ამ ფუნქცია მე უბრალოდ განისაზღვრება ამ 565 00:28:17,750 --> 00:28:20,620 ფუნქციონირებას "def". ასე რომ, მე "def პირობითი, "და ის აღება 566 00:28:20,620 --> 00:28:28,700 "ლექსები". და რას აპირებს არის, პირველ რიგში, მე მაქვს ჩემი Priors 567 00:28:28,700 --> 00:28:31,030 რომ მინდა გამოთვლა. 568 00:28:31,030 --> 00:28:34,330 >> ასე რომ, ისე, რომ შემიძლია ამის გაკეთება არის შექმნას ლექსიკონი Python, რომელიც 569 00:28:34,330 --> 00:28:37,320 არის საკმაოდ ბევრი იგივე, რაც hash მაგიდა, ან ეს როგორც iterative 570 00:28:37,320 --> 00:28:40,480 array in PHP. 571 00:28:40,480 --> 00:28:44,150 ეს არის, თუ როგორ ვაცხადებ ლექსიკონი. 572 00:28:44,150 --> 00:28:53,580 და ძირითადად რა ეს იმას ნიშნავს, რომ Priors გაგა 0.5, მაგალითად, თუ 573 00:28:53,580 --> 00:28:57,200 50% ლექსები არიან გაგა, 50% არიან Katy. 574 00:28:57,200 --> 00:28:58,450 აზრი? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 ამიტომ უნდა გაერკვნენ, თუ როგორ გამოვთვალოთ Priors. 577 00:29:03,680 --> 00:29:07,120 >> შემდეგი პირობა, რომ მე უნდა გავაკეთოთ, ასევე, არის ალბათობა და სიტყვები. 578 00:29:07,120 --> 00:29:17,100 ასე რომ, ალბათობა გაგა სია ყველა ალბათობა, რომ მე 579 00:29:17,100 --> 00:29:19,160 აქვს თითოეული სიტყვა გაგა. 580 00:29:19,160 --> 00:29:23,880 ასე რომ, თუ მე წასვლა ალბათობა გაგა "ბავშვი", მაგალითად, რომ თქვენ მაძლევს 581 00:29:23,880 --> 00:29:28,750 რაღაც 2 ზე 24 ამ შემთხვევაში. 582 00:29:28,750 --> 00:29:30,070 აზრი? 583 00:29:30,070 --> 00:29:36,120 ასე რომ, მე წასვლა "ალბათობა" წასვლა "გაგა" bucket რომ აქვს ჩამონათვალი 584 00:29:36,120 --> 00:29:40,550 გაგა სიტყვა, მაშინ მე წასვლა "ბავშვი" და მე ვხედავ ალბათობა. 585 00:29:40,550 --> 00:29:45,940 >> და ბოლოს, მე ამ "სიტყვა" ლექსიკონი. 586 00:29:45,940 --> 00:29:53,620 ასე რომ, აქ, "ალბათობა". და შემდეგ "სიტყვა". ასე რომ, თუ "სიტყვა", "გაგა" 587 00:29:53,620 --> 00:29:58,330 რა მოხდება არის ის, რომ აპირებს მომეცი 24, რომ მე 588 00:29:58,330 --> 00:30:01,990 24 სიტყვა ფარგლებში სიმღერები საწყისი გაგა. 589 00:30:01,990 --> 00:30:04,110 აზრი? 590 00:30:04,110 --> 00:30:07,070 ასე რომ აქ, "სიტყვა" შეადგენს dah-dah-dah. 591 00:30:07,070 --> 00:30:07,620 OK 592 00:30:07,620 --> 00:30:12,210 >> მერე რა მე ვაპირებ ამის გაკეთებას, მე ვაპირებ iterate მეტი თითოეულ ლექსები, ასე რომ, 593 00:30:12,210 --> 00:30:14,490 თითოეული სტრიქონები, მაქვს სიაში. 594 00:30:14,490 --> 00:30:18,040 და მე ვაპირებ გამოთვლა იმ რამ, თითოეული კანდიდატი. 595 00:30:18,040 --> 00:30:19,950 აზრი? 596 00:30:19,950 --> 00:30:21,700 ასე რომ, მე უნდა გავაკეთოთ ამისთვის loop. 597 00:30:21,700 --> 00:30:26,300 >> ასე რომ, Python, თუ რა შემიძლია არის "ხაზი ამ სიმღერები. "იგივე როგორც 598 00:30:26,300 --> 00:30:28,000 "თითოეული" განცხადება PHP. 599 00:30:28,000 --> 00:30:33,420 მახსოვს, როგორ იყო თუ არა PHP შემეძლო ამბობენ, რომ "თითოეული სიმღერები, როგორც 600 00:30:33,420 --> 00:30:35,220 ხაზი. "აზრი? 601 00:30:35,220 --> 00:30:38,900 ასე რომ, მე აღების თითოეული ხაზები, ამ შემთხვევაში, ეს სიმებიანი და მომავალი 602 00:30:38,900 --> 00:30:44,540 string ასე რომ თითოეული ხაზი რა ვარ ვაპირებთ გავაკეთოთ არის პირველი, მე ვაპირებ 603 00:30:44,540 --> 00:30:49,150 გაყოფილი ამ ხაზის შევიდა სიაში სიტყვა მაქს. 604 00:30:49,150 --> 00:30:53,730 >> ასე cool რამ Python ის არის, რომ შეგიძლიათ უბრალოდ Google როგორიცაა "როგორ შემიძლია 605 00:30:53,730 --> 00:30:58,220 გაყოფილი string შევიდა სიტყვა? "და ეს ვაპირებ გითხრათ, თუ როგორ უნდა გავაკეთოთ. 606 00:30:58,220 --> 00:31:04,890 და გზა ამის გაკეთება, უბრალოდ "ხაზი = Line.split () "და ეს, ძირითადად, 607 00:31:04,890 --> 00:31:08,640 აპირებს მოგცემთ სიაში თითოეული სიტყვა აქ. 608 00:31:08,640 --> 00:31:09,620 აზრი? 609 00:31:09,620 --> 00:31:15,870 ახლა რომ მე რომ მინდა ვიცოდე ვინ არის მომღერალი, რომ სიმღერა. 610 00:31:15,870 --> 00:31:20,130 და გავაკეთოთ, რომ მე უბრალოდ უნდა მიიღოს პირველი ელემენტია მასივი, არა? 611 00:31:20,130 --> 00:31:26,390 ასე რომ, მე შემიძლია მხოლოდ ვთქვა, რომ "მომღერალი = Line (0) "აზრი? 612 00:31:26,390 --> 00:31:32,010 >> და მერე რა უნდა გავაკეთოთ, პირველ ყველა, მე ვაპირებ განახლება რამდენი 613 00:31:32,010 --> 00:31:36,130 სიტყვა მაქვს ქვეშ "გაგა". ასე რომ მე უბრალოდ აპირებს გამოთვალოთ რამდენი სიტყვა I 614 00:31:36,130 --> 00:31:38,690 აქვს ამ სიაში, უფლება? 615 00:31:38,690 --> 00:31:41,910 რადგან ეს არის რამდენი სიტყვა მაქვს ამ სიმღერები და მე უბრალოდ აპირებს 616 00:31:41,910 --> 00:31:44,120 დაამატოთ ეს "გაგა" მასივი. 617 00:31:44,120 --> 00:31:47,090 ამჯამად რომ აზრი? 618 00:31:47,090 --> 00:31:49,010 არ ფოკუსირება ძალიან ბევრი სინტაქსი. 619 00:31:49,010 --> 00:31:50,430 ვფიქრობ, რომ უფრო მეტი ცნებები. 620 00:31:50,430 --> 00:31:52,400 ეს არის ყველაზე მნიშვნელოვანი ნაწილი. 621 00:31:52,400 --> 00:31:52,720 OK. 622 00:31:52,720 --> 00:32:00,260 >> ასე რომ, რაც შემიძლია, ის არის, თუ "გაგა" არის უკვე, რომ სიაში, ასე რომ, "თუ მომღერალი 623 00:32:00,260 --> 00:32:03,190 სიტყვა "რაც იმას ნიშნავს, რომ მე უკვე აქვს სიტყვა გაგა. 624 00:32:03,190 --> 00:32:06,640 მე უბრალოდ მინდა, რომ დაამატოთ დამატებითი სიტყვა რომ. 625 00:32:06,640 --> 00:32:15,810 ასე რომ, რა გავაკეთო არის "სიტყვა (მომღერალი) + = Len (ხაზი) ​​- 1. " 626 00:32:15,810 --> 00:32:18,250 და მაშინ მე შემიძლია უბრალოდ სიგრძის ხაზი. 627 00:32:18,250 --> 00:32:21,860 ასე რომ, რამდენი ელემენტები I აქვს მასივი. 628 00:32:21,860 --> 00:32:27,060 და მე უნდა გავაკეთოთ მინუს 1 მხოლოდ იმიტომ, პირველი ელემენტია მასივი მხოლოდ 629 00:32:27,060 --> 00:32:29,180 მომღერალი და ის არ არის ტექსტი. 630 00:32:29,180 --> 00:32:31,420 აზრი? 631 00:32:31,420 --> 00:32:32,780 OK. 632 00:32:32,780 --> 00:32:35,820 >> "დანარჩენი", ეს ნიშნავს, რომ მინდა რეალურად ჩადეთ Gaga შეყვანილი. 633 00:32:35,820 --> 00:32:45,990 ასე რომ, მე მხოლოდ "სიტყვა (მომღერალი) = Len (line) - 1, "sorry. 634 00:32:45,990 --> 00:32:49,200 ასე რომ ერთადერთი განსხვავება ორ ხაზები არის ის, რომ ამ ერთი, ეს არ 635 00:32:49,200 --> 00:32:51,080 არსებობს ჯერ კიდევ, ასე რომ მე უბრალოდ ინიციალიზაციისას იგი. 636 00:32:51,080 --> 00:32:53,820 ეს ერთი მე რეალურად დასძინა. 637 00:32:53,820 --> 00:32:55,570 OK. 638 00:32:55,570 --> 00:32:59,480 ასე რომ, ეს იყო და დასძინა, რომ სიტყვა. 639 00:32:59,480 --> 00:33:03,040 >> ახლა მინდა დაამატოთ Priors. 640 00:33:03,040 --> 00:33:05,480 ასე რომ, როგორ შემიძლია გამოთვლა Priors? 641 00:33:05,480 --> 00:33:11,580 Priors შეიძლება გამოითვლება რამდენი ჯერ. 642 00:33:11,580 --> 00:33:15,340 ასე რამდენჯერ თქვენ ხედავთ, რომ მომღერალი შორის მომღერლები, რომ თქვენ 643 00:33:15,340 --> 00:33:16,380 აქვს, არა? 644 00:33:16,380 --> 00:33:18,810 ასე რომ გაგა და Katy Perry, ამ შემთხვევაში, მე ვერ ვხედავ Gaga 645 00:33:18,810 --> 00:33:20,570 ერთხელ, Katy Perry ერთხელ. 646 00:33:20,570 --> 00:33:23,320 >> ასე რომ, ძირითადად Priors განთავსების Gaga და Katy Perry იქნება 647 00:33:23,320 --> 00:33:24,390 მხოლოდ ერთი, არა? 648 00:33:24,390 --> 00:33:26,500 უბრალოდ რამდენჯერ მე ვხედავ, მხატვარი. 649 00:33:26,500 --> 00:33:28,740 ასე რომ, ეს ძალიან ადვილია გამოთვლა. 650 00:33:28,740 --> 00:33:34,100 შემიძლია უბრალოდ რაღაც მსგავსი, როგორიცაა "თუ მომღერალი Priors, "მე უბრალოდ აპირებს 651 00:33:34,100 --> 00:33:38,970 დაამატოთ 1 მათი Priors ყუთში. 652 00:33:38,970 --> 00:33:51,000 ასე რომ, "Priors (მღერიან)" + = 1 "და შემდეგ" სხვაგან " მე ვაპირებ ამის გაკეთებას "Priors (მომღერალი) 653 00:33:51,000 --> 00:33:55,000 = 1. "აზრი? 654 00:33:55,000 --> 00:34:00,080 >> ასე რომ, თუ არ არსებობს მე უბრალოდ დააყენა როგორც 1, წინააღმდეგ შემთხვევაში მე უბრალოდ დაამატოთ 1. 655 00:34:00,080 --> 00:34:11,280 OK, ასე რომ, ახლა ყველა, რომ მე არ დაუტოვებიათ გავაკეთოთ ასევე დაამატოთ თითოეულ სიტყვები 656 00:34:11,280 --> 00:34:12,290 ალბათობა. 657 00:34:12,290 --> 00:34:14,889 ამიტომ უნდა ითვლიან რამდენჯერ მე ვხედავ თითოეული სიტყვა. 658 00:34:14,889 --> 00:34:18,780 ასე რომ მე უბრალოდ უნდა გავაკეთოთ ერთი for loop in ხაზი. 659 00:34:18,780 --> 00:34:25,190 >> ასე რომ, პირველი, რაც მე ვაპირებ გავაკეთოთ არის შეამოწმეთ თუ მომღერალი უკვე აქვს 660 00:34:25,190 --> 00:34:26,969 ალბათობა მასივი. 661 00:34:26,969 --> 00:34:31,739 ამიტომ მე შემოწმების თუ მომღერალი არ აქვს ალბათობა მასივი, მე უბრალოდ 662 00:34:31,739 --> 00:34:34,480 აპირებს ინიციალიზაცია ერთი მათგანი. 663 00:34:34,480 --> 00:34:36,400 ეს კი არ მასივი, უკაცრავად, ეს ლექსიკონი. 664 00:34:36,400 --> 00:34:43,080 ასე რომ, ალბათობა მომღერალი აპირებს იყოს ღია ლექსიკონი, ამიტომ მე 665 00:34:43,080 --> 00:34:45,830 უბრალოდ ინიციალიზებისას ლექსიკონი იგი. 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> და ახლა შემიძლია რეალურად გავაკეთოთ ამისთვის მარყუჟის გამოვთვალოთ თითოეული სიტყვა " 668 00:34:58,330 --> 00:35:00,604 ალბათობა. 669 00:35:00,604 --> 00:35:01,540 OK. 670 00:35:01,540 --> 00:35:04,160 ასე რომ, რაც შემიძლია არის ამისთვის loop. 671 00:35:04,160 --> 00:35:06,590 ამიტომ მე უბრალოდ აპირებს iterate მეტი მასივი. 672 00:35:06,590 --> 00:35:15,320 ასე რომ, ისე, რომ შემიძლია, რომ Python არის "მე სპექტრს". 1 673 00:35:15,320 --> 00:35:19,200 იმიტომ, რომ მინდა, რომ დაიწყოს მეორე ელემენტის რადგან პირველი არის 674 00:35:19,200 --> 00:35:20,260 მომღერალი სახელი. 675 00:35:20,260 --> 00:35:24,990 ასე რომ, ერთი მდე სიგრძის ხაზი. 676 00:35:24,990 --> 00:35:29,760 და როდესაც მე დიაპაზონი რეალურად წავიდეს ისევე როგორც აქ 1 len შესახებ 677 00:35:29,760 --> 00:35:30,740 ონლაინ მინუს 1. 678 00:35:30,740 --> 00:35:33,810 ასე რომ, უკვე აკეთებს, რომ რამ აკეთებს n მინუს 1 მასივები, რომელიც ძალიან 679 00:35:33,810 --> 00:35:35,500 მოსახერხებელია. 680 00:35:35,500 --> 00:35:37,850 აზრი? 681 00:35:37,850 --> 00:35:42,770 >> ასე რომ თითოეული ამ, რა მე ვაპირებ გავაკეთოთ, არის, ისევე, როგორც მეორე, 682 00:35:42,770 --> 00:35:50,320 მე ვაპირებ შეამოწმოს თუ სიტყვა ამ პოზიცია ხაზი უკვე 683 00:35:50,320 --> 00:35:51,570 ალბათობა. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 და შემდეგ, როგორც ვთქვი, აქ ალბათობა სიტყვა, როგორც I-მა 686 00:35:57,260 --> 00:35:58,400 "ალბათობა (მომღერალი)". 687 00:35:58,400 --> 00:35:59,390 ასე რომ, საქართველოს სახელით მომღერალი. 688 00:35:59,390 --> 00:36:03,450 ასე რომ, თუ ეს უკვე "Probabilit (მომღერალი)", ეს ნიშნავს, რომ მე 689 00:36:03,450 --> 00:36:11,960 გსურთ დაამატოთ 1, ასე რომ მე ვაპირებ გავაკეთოთ "ალბათობა (მომღერალი)", და 690 00:36:11,960 --> 00:36:14,100 სიტყვა ეწოდება "ხაზი (i)". 691 00:36:14,100 --> 00:36:22,630 მე ვაპირებ, რომ დაამატოთ 1 და "სხვას" მე უბრალოდ აპირებს ინიციალიზაცია იგი 1. 692 00:36:22,630 --> 00:36:23,880 "Line (i)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 აზრი? 695 00:36:28,420 --> 00:36:30,180 >> ასე რომ, მე გამოითვლება ყველა მასივები. 696 00:36:30,180 --> 00:36:36,580 ასე რომ, ახლა ყველა, რომ მე უნდა გააკეთოს ამ ერთი უბრალოდ "დაბრუნდება Priors, 697 00:36:36,580 --> 00:36:43,230 ალბათობა და სიტყვები. "მოდით თუ არსებობს რაიმე, OK. 698 00:36:43,230 --> 00:36:45,690 როგორც ჩანს, ყველაფერი მუშაობს ჯერჯერობით. 699 00:36:45,690 --> 00:36:46,900 ასე რომ, აზრი? 700 00:36:46,900 --> 00:36:47,750 რამდენიმე გზა? 701 00:36:47,750 --> 00:36:49,280 OK. 702 00:36:49,280 --> 00:36:51,980 ასე რომ, ახლა მე ყველა ალბათობა. 703 00:36:51,980 --> 00:36:55,100 ახლა ერთადერთი, რაც მე არ დაუტოვებიათ მხოლოდ აქვს, რომ, რაც 704 00:36:55,100 --> 00:36:58,650 ითვლის პროდუქტის ყველა ალბათობა როდესაც მივიღებ სიმღერები. 705 00:36:58,650 --> 00:37:06,270 >> მოდით ვთქვათ, რომ მინდა ახლა მოვუწოდებთ ეს ფუნქცია "კლასიფიცირება ()" და 706 00:37:06,270 --> 00:37:08,880 რამ, რომ ფუნქცია იღებს უბრალოდ არგუმენტი. 707 00:37:08,880 --> 00:37:13,170 ვთქვათ "Baby, მე ვარ ცეცხლი" და ეს აპირებს გაერკვნენ, თუ რა არის 708 00:37:13,170 --> 00:37:14,490 ალბათობა იმისა, რომ ეს არის Gaga? 709 00:37:14,490 --> 00:37:16,405 რა არის ალბათობა რომ ეს არის ქეთი? 710 00:37:16,405 --> 00:37:19,690 ხმები კარგი? 711 00:37:19,690 --> 00:37:25,750 ასე რომ მე უბრალოდ აპირებს უნდა შეიქმნას ახალი ფუნქცია ე.წ. "კლასიფიცირება ()" და 712 00:37:25,750 --> 00:37:29,180 ის აპირებს ზოგიერთი სიმღერები ასევე. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 და გარდა ამისა, სიმღერები ასევე უნდა გააგზავნოთ Priors, 715 00:37:36,160 --> 00:37:37,700 ალბათობა და სიტყვები. 716 00:37:37,700 --> 00:37:44,000 ამიტომ მე ვაპირებ გაგზავნას ლექსები, Priors, ალბათობა, სიტყვა. 717 00:37:44,000 --> 00:37:51,840 >> ასე რომ, ეს ხდება სიმღერები, Priors, ალბათობა, სიტყვა. 718 00:37:51,840 --> 00:37:53,530 ასე, რას აკეთებთ? 719 00:37:53,530 --> 00:37:57,180 ეს ძირითადად ხდება გავლა ყველა შესაძლო კანდიდატები, რომ თქვენ 720 00:37:57,180 --> 00:37:58,510 აქვს, როგორც მომღერალი. 721 00:37:58,510 --> 00:37:59,425 და სად არიან კანდიდატები? 722 00:37:59,425 --> 00:38:01,020 ისინი იმ Priors, არა? 723 00:38:01,020 --> 00:38:02,710 ასე რომ მე ყველა იმ არსებობს. 724 00:38:02,710 --> 00:38:07,870 ამიტომ მე ვაპირებ აქვს ლექსიკონი ყველა შესაძლო კანდიდატი. 725 00:38:07,870 --> 00:38:14,220 და მაშინ თითოეული კანდიდატი Priors, ასე რომ, ეს ნიშნავს, რომ ის აპირებს 726 00:38:14,220 --> 00:38:17,740 იყოს გაგა, ქეთი თუ მქონდა უფრო, რომ ეს იქნება უფრო. 727 00:38:17,740 --> 00:38:20,410 მე ვაპირებ დაიწყება გაანგარიშების ეს ალბათობა. 728 00:38:20,410 --> 00:38:28,310 ალბათობა, როგორც დავინახეთ PowerPoint არის წინასწარი ჯერ 729 00:38:28,310 --> 00:38:30,800 პროდუქტის თითოეული სხვა ალბათობა. 730 00:38:30,800 --> 00:38:32,520 >> ასე, რომ შეიძლება იგივეს აქ. 731 00:38:32,520 --> 00:38:36,330 მე შემიძლია უბრალოდ ალბათობა არის თავდაპირველად უბრალოდ ადრე. 732 00:38:36,330 --> 00:38:40,340 ასე რომ, Priors კანდიდატი. 733 00:38:40,340 --> 00:38:40,870 უფლება? 734 00:38:40,870 --> 00:38:45,360 და ახლა მე უნდა iterate ყველა სიტყვა, რომელიც მაქვს სიმღერები უნდა იყოს 735 00:38:45,360 --> 00:38:48,820 შეუძლია დაამატოთ ალბათობა თითოეული მათგანი, OK? 736 00:38:48,820 --> 00:38:57,900 ასე რომ, "სიტყვა in ლექსები" რა მე ვაპირებ უნდა გავაკეთოთ არის ის, თუ სიტყვა არის 737 00:38:57,900 --> 00:39:01,640 "ალბათობა (კანდიდატი)", რომელიც იმას ნიშნავს, რომ ეს სიტყვა, რომელიც 738 00:39:01,640 --> 00:39:03,640 პრეტენდენტს მათი ლექსები - 739 00:39:03,640 --> 00:39:05,940 მაგალითად, "ბავშვის" ამისთვის Gaga - 740 00:39:05,940 --> 00:39:11,710 ის, რაც მე ვაპირებ ამის გაკეთებას ის არის, რომ ალბათობა უნდა გამრავლდეს 741 00:39:11,710 --> 00:39:22,420 1 plus ალბათობა of კანდიდატის, რომ სიტყვა. 742 00:39:22,420 --> 00:39:25,710 და ეს ე.წ. "სიტყვა". 743 00:39:25,710 --> 00:39:32,440 ეს იყოფა სიტყვები რომ მაქვს, რომ კანდიდატი. 744 00:39:32,440 --> 00:39:37,450 საერთო რაოდენობის სიტყვები, რომ მაქვს მომღერალი რომ მე ეძებს. 745 00:39:37,450 --> 00:39:40,290 >> "დანარჩენი". ეს იმას ნიშნავს, რომ ეს არის ახალი სიტყვა ასე რომ მინდა იყოს მაგალითად 746 00:39:40,290 --> 00:39:41,860 "ცეცხლის" ლედი გაგა. 747 00:39:41,860 --> 00:39:45,760 ასე რომ მე უბრალოდ გსურთ 1 მეტი "სიტყვა (კანდიდატი)". 748 00:39:45,760 --> 00:39:47,710 ასე რომ, მე არ მინდა, რომ ეს ტერმინი აქ. 749 00:39:47,710 --> 00:39:50,010 >> ასე რომ, ეს იქნება, ძირითადად, გადაწერა და pasting ამ. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 მაგრამ მე ვაპირებ წაშლა ამ ნაწილში. 752 00:39:56,000 --> 00:39:57,610 ასე რომ, ეს უბრალოდ იქნება 1 მეტი რომ. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 ხმები კარგი? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 და ახლა დასასრულს, მე უბრალოდ აპირებს ამობეჭდოთ სახელით კანდიდატი და 757 00:40:09,700 --> 00:40:15,750 ალბათობა, რომ თქვენ გაქვთ მქონე S მათი სიმღერები. 758 00:40:15,750 --> 00:40:16,200 აზრი? 759 00:40:16,200 --> 00:40:18,390 და მე რეალურად კი არა გვჭირდება ეს ლექსიკონი. 760 00:40:18,390 --> 00:40:19,510 აზრი? 761 00:40:19,510 --> 00:40:21,810 >> ასე რომ, ვნახოთ, თუ ეს რეალურად მუშაობს. 762 00:40:21,810 --> 00:40:24,880 ასე რომ, თუ მე აწარმოებს, ეს არ იმუშავებს. 763 00:40:24,880 --> 00:40:26,130 დაველოდოთ ერთი მეორე. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "Words (კანდიდატი)", "სიტყვა (კანდიდატი)", ეს არის ის, 766 00:40:31,720 --> 00:40:33,750 სახელი მასივი. 767 00:40:33,750 --> 00:40:41,435 OK ასე რომ, იგი აცხადებს, რომ არსებობს რამდენიმე bug განთავსების კანდიდატი Priors. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 ნება მომეცით უბრალოდ chill ცოტა. 770 00:40:48,760 --> 00:40:50,360 OK. 771 00:40:50,360 --> 00:40:51,305 მოდით ცდილობენ. 772 00:40:51,305 --> 00:40:51,720 OK. 773 00:40:51,720 --> 00:40:58,710 >> ასე რომ, ეს იძლევა Katy Perry აქვს ალბათობა ამ დროს 10 დან 774 00:40:58,710 --> 00:41:02,200 მინუს 7, და გაგა აქვს ჯერ 10 დან მინუს 6. 775 00:41:02,200 --> 00:41:05,610 ასე რომ, თქვენ ხედავთ, იგი გვიჩვენებს, რომ გაგა აქვს უმაღლესი ალბათობა. 776 00:41:05,610 --> 00:41:09,260 ასე რომ, "Baby, მე on Fire" არის ალბათ Gaga სიმღერა. 777 00:41:09,260 --> 00:41:10,580 აზრი? 778 00:41:10,580 --> 00:41:12,030 ასე რომ, ეს არის ის, რაც ჩვენ გავაკეთეთ. 779 00:41:12,030 --> 00:41:16,010 >> ეს კოდი უნდა posted შემოსული, ასე რომ თქვენ ბიჭები შეიძლება შეამოწმეთ იგი out. 780 00:41:16,010 --> 00:41:20,720 იქნებ გამოვიყენოთ ის, თუ გსურთ გავაკეთოთ პროექტის ან რაღაც მსგავსი. 781 00:41:20,720 --> 00:41:22,150 OK. 782 00:41:22,150 --> 00:41:25,930 ეს იყო მხოლოდ აჩვენოს რა გამოთვლითი 783 00:41:25,930 --> 00:41:27,230 ენათმეცნიერების კოდი ჰგავს. 784 00:41:27,230 --> 00:41:33,040 მაგრამ ახლა მოდით წავიდეთ მეტი მაღალი დონის პერსონალი. 785 00:41:33,040 --> 00:41:33,340 OK. 786 00:41:33,340 --> 00:41:35,150 >> ასე რომ, სხვა პრობლემები I იყო საუბარი - 787 00:41:35,150 --> 00:41:37,550 სეგმენტაციის პრობლემა პირველი მათგანი. 788 00:41:37,550 --> 00:41:40,820 ასე, რომ თქვენ აქ იაპონური. 789 00:41:40,820 --> 00:41:43,420 და მაშინ ნახავთ, რომ არ არსებობს ფართები. 790 00:41:43,420 --> 00:41:49,110 ასე რომ, ეს ნიშნავს იმას, რომ ყველაზე სკამის, არა? 791 00:41:49,110 --> 00:41:50,550 თქვენ საუბარი Japanese? 792 00:41:50,550 --> 00:41:52,840 ეს არის ყველაზე თავმჯდომარე, არა? 793 00:41:52,840 --> 00:41:54,480 >> სტუდენტი: მე არ ვიცი, რა kanji იქ არის. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS Freitas: ეს [წარმოთქმული სიტყვის იაპონიის] 795 00:41:57,010 --> 00:41:57,950 OK. 796 00:41:57,950 --> 00:42:00,960 ასე რომ, ეს ნიშნავს იმას, თავმჯდომარე თავზე. 797 00:42:00,960 --> 00:42:03,620 ასე რომ, თუ თქვენ უნდა დააყენოს სივრცეში ეს იქნება აქ. 798 00:42:03,620 --> 00:42:05,970 და შემდეგ თქვენ უნდა [? Ueda-san. ?] 799 00:42:05,970 --> 00:42:09,040 რომელიც ძირითადად იმას ნიშნავს, ბატონი Ueda. 800 00:42:09,040 --> 00:42:13,180 და ხედავთ, რომ "Ueda" და თქვენ სივრცე და შემდეგ "san". ასე რომ, თქვენ ხედავთ, რომ 801 00:42:13,180 --> 00:42:15,470 აქ თქვენ "ue" ჰგავს თავისთავად. 802 00:42:15,470 --> 00:42:17,750 და აქ მას აქვს ხასიათი შემდეგი მას. 803 00:42:17,750 --> 00:42:21,720 >> ასე რომ, ეს იმას არ ნიშნავს, იმ ენებზე სიმბოლო რაც იმას ნიშნავს სიტყვა, ასე რომ თქვენ 804 00:42:21,720 --> 00:42:23,980 უბრალოდ დააყენა ბევრი ფართები. 805 00:42:23,980 --> 00:42:25,500 პერსონაჯები ეხება ერთმანეთს. 806 00:42:25,500 --> 00:42:28,680 და ისინი შეიძლება ერთად ისევე, როგორც ორი, სამი, ერთი. 807 00:42:28,680 --> 00:42:34,520 ასე, რომ თქვენ რეალურად უნდა შეიქმნას გარკვეული სახის გზა აყენებს იმ ფართები. 808 00:42:34,520 --> 00:42:38,850 >> და ეს ის არის, რომ როდესაც თქვენ მიიღებთ მონაცემები იმ აზიური ენები, 809 00:42:38,850 --> 00:42:40,580 ყველაფერი მოდის unsegmented. 810 00:42:40,580 --> 00:42:45,940 იმის გამო, რომ არავინ წერს Japanese ან ჩინელი წერს ფართები. 811 00:42:45,940 --> 00:42:48,200 როდესაც თქვენ წერა ჩინური, Japanese თქვენ უბრალოდ დაწერეთ ყველაფერი 812 00:42:48,200 --> 00:42:48,710 ერთად არ ფართები. 813 00:42:48,710 --> 00:42:52,060 ეს იმას კი არ აქვს აზრი დააყენოს ფართები. 814 00:42:52,060 --> 00:42:57,960 ასე რომ, როდესაც თქვენ მონაცემებს, ზოგიერთი აღმოსავლეთ აზიის ენაზე თუ გსურთ 815 00:42:57,960 --> 00:43:00,760 რეალურად რაღაც, რომ თქვენ უნდა სეგმენტის პირველი. 816 00:43:00,760 --> 00:43:05,130 >> ვფიქრობ, ამის მაგალითია სიმღერები გარეშე სივრცეებს. 817 00:43:05,130 --> 00:43:07,950 ასე რომ, მხოლოდ ლექსები, რომ თქვენ გაქვთ იქნება სასჯელი, არა? 818 00:43:07,950 --> 00:43:09,470 გამოყოფილი. 819 00:43:09,470 --> 00:43:13,930 მაგრამ შემდეგ, რომელსაც მხოლოდ განაჩენი იქნება ნამდვილად არ შეუწყობს მიცემის ინფორმაცია 820 00:43:13,930 --> 00:43:17,760 ვინც იმ ლექსები არიან. 821 00:43:17,760 --> 00:43:18,120 უფლება? 822 00:43:18,120 --> 00:43:20,010 ასე რომ თქვენ უნდა აყენებს ფართები პირველი. 823 00:43:20,010 --> 00:43:21,990 ასე როგორ შეიძლება ამის გაკეთება? 824 00:43:21,990 --> 00:43:24,920 >> ასე რომ, შემდეგ მოდის იდეა ენა მოდელი, რომელიც მართლაც რაღაც 825 00:43:24,920 --> 00:43:26,870 მნიშვნელოვანია გამოთვლითი ლინგვისტიკა. 826 00:43:26,870 --> 00:43:32,790 ასე რომ, ენა მოდელის ძირითადად მაგიდასთან ალბათობა, რომ შოუები 827 00:43:32,790 --> 00:43:36,260 უპირველეს ყოვლისა, რა არის ალბათობა მქონე სიტყვა ენაზე? 828 00:43:36,260 --> 00:43:39,590 ასე რომ, თუ როგორ ხშირად სიტყვა. 829 00:43:39,590 --> 00:43:43,130 და შემდეგ ასევე გვიჩვენებს მიზეზი შორის სიტყვა სასჯელს. 830 00:43:43,130 --> 00:43:51,500 >> ასე რომ, მთავარი იდეა არის, თუ უცხო მოვიდა თქვენ და განაცხადა, რომ წინადადება 831 00:43:51,500 --> 00:43:55,600 თქვენ, რა არის ალბათობა, რომ მაგალითად, "ეს არის ჩემი დის [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 იყო წინადადება, რომ პირი განაცხადა? 833 00:43:57,480 --> 00:44:00,380 ასე რომ აშკარად რაღაც წინადადებების არის უფრო ხშირია, ვიდრე სხვები. 834 00:44:00,380 --> 00:44:04,450 მაგალითად, "დილა", ან "კარგი ღამით, "ან" hey იქ, "ბევრად უფრო 835 00:44:04,450 --> 00:44:08,260 საერთო, ვიდრე ყველაზე სასჯელს რომ ჩვენ ინგლისური. 836 00:44:08,260 --> 00:44:11,060 რატომ არიან იმ სასჯელს უფრო ხშირად? 837 00:44:11,060 --> 00:44:14,060 >> პირველ რიგში, ეს იმიტომ, რომ თქვენ გაქვთ სიტყვები, რომ უფრო ხშირი. 838 00:44:14,060 --> 00:44:20,180 ასე, მაგალითად, თუ ამბობენ, რომ ძაღლი არის დიდი და ძაღლი არის გიგანტური, თქვენ 839 00:44:20,180 --> 00:44:23,880 როგორც წესი, ალბათ მოვისმინოთ ძაღლი არის დიდი უფრო ხშირად იმიტომ, რომ "დიდი" უფრო 840 00:44:23,880 --> 00:44:27,260 ხშირია English, ვიდრე "გიგანტური". ასე რომ, ერთი 841 00:44:27,260 --> 00:44:30,100 რამ არის სიტყვა სიხშირე. 842 00:44:30,100 --> 00:44:34,490 >> მეორე რამ, რაც მართლაც მთავარია მხოლოდ 843 00:44:34,490 --> 00:44:35,490 ბრძანებით სიტყვა. 844 00:44:35,490 --> 00:44:39,500 ასე რომ, ეს საერთო აცხადებენ, რომ "კატა შიგნით ყუთში. "მაგრამ თქვენ არ ჩვეულებრივ 845 00:44:39,500 --> 00:44:44,250 ვხედავ "ყუთი შიგნით კატა". ასე რომ, ხედავთ, რომ არსებობს გარკვეული მნიშვნელობა 846 00:44:44,250 --> 00:44:46,030 ბრძანებით სიტყვა. 847 00:44:46,030 --> 00:44:50,160 თქვენ არ შეგიძლიათ უბრალოდ ვთქვა, რომ ეს ორი წინადადებების აქვს იგივე ალბათობა 848 00:44:50,160 --> 00:44:53,010 მხოლოდ იმიტომ, რომ მათ აქვთ იგივე სიტყვები. 849 00:44:53,010 --> 00:44:55,550 თქვენ ნამდვილად უნდა იზრუნოს შესახებ, რათა ასევე. 850 00:44:55,550 --> 00:44:57,650 აზრი? 851 00:44:57,650 --> 00:44:59,490 >> მერე რა ვქნათ? 852 00:44:59,490 --> 00:45:01,550 მერე რა მე შეიძლება ცდილობენ თქვენ? 853 00:45:01,550 --> 00:45:04,400 ვცდილობ მისაღებად თქვენ რაც ჩვენ მოვუწოდებთ n-gram მოდელები. 854 00:45:04,400 --> 00:45:09,095 ასე რომ, n-gram მოდელები ძირითადად ვივარაუდოთ, რომ თითოეული სიტყვა, რომელიც 855 00:45:09,095 --> 00:45:10,960 თქვენ გაქვთ თავისუფლების აღკვეთა მიუსაჯა. 856 00:45:10,960 --> 00:45:15,020 ეს ალბათობა მქონე, რომ სიტყვა არსებობს დამოკიდებულია არა მხოლოდ 857 00:45:15,020 --> 00:45:18,395 სიხშირის რომ სიტყვა ენა, არამედ სიტყვა, რომ 858 00:45:18,395 --> 00:45:19,860 რომლებიც მის ირგვლივ. 859 00:45:19,860 --> 00:45:25,810 >> ასე მაგალითად, როგორც წესი, როდესაც თქვენ ხედავთ, რაღაც ან at თქვენ 860 00:45:25,810 --> 00:45:28,040 ალბათ აპირებს ვხედავ noun მას შემდეგ, არა? 861 00:45:28,040 --> 00:45:31,750 იმის გამო, რომ, როდესაც თქვენ გაქვთ წინდებული როგორც წესი, ეს ხდება noun შემდეგ. 862 00:45:31,750 --> 00:45:35,540 თუ თქვენ გაქვთ ზმნა, რომ გარდამავალი თქვენ, როგორც წესი ვაპირებთ 863 00:45:35,540 --> 00:45:36,630 აქვს noun ფრაზა. 864 00:45:36,630 --> 00:45:38,780 ასე რომ, ის აპირებს აქვს noun სადღაც გარშემო. 865 00:45:38,780 --> 00:45:44,950 >> ასე რომ, ძირითადად, თუ რას აკეთებს არის ის, რომ მიიჩნევს ალბათობა მქონე 866 00:45:44,950 --> 00:45:47,960 სიტყვა ერთმანეთს, როდესაც თქვენ გაანგარიშების 867 00:45:47,960 --> 00:45:49,050 ალბათობა სასჯელს. 868 00:45:49,050 --> 00:45:50,960 და ეს რა ენა მოდელი არის ძირითადად. 869 00:45:50,960 --> 00:45:54,620 უბრალოდ ვამბობ, რა არის ალბათობა მქონე კონკრეტული 870 00:45:54,620 --> 00:45:57,120 სასჯელს ენა? 871 00:45:57,120 --> 00:45:59,110 რატომ არის, რომ სასარგებლო, ძირითადად? 872 00:45:59,110 --> 00:46:02,390 და, პირველ რიგში, რა არის n-gram მოდელი, მაშინ? 873 00:46:02,390 --> 00:46:08,850 >> ასე რომ, n-gram მოდელი ნიშნავს, რომ თითოეული სიტყვა დამოკიდებულია 874 00:46:08,850 --> 00:46:12,700 შემდეგი N მინუს 1 სიტყვა. 875 00:46:12,700 --> 00:46:18,150 ასე რომ, ძირითადად, ეს ნიშნავს, რომ, თუ გავითვალისწინებთ, მაგალითად, CS50 TF როდესაც 876 00:46:18,150 --> 00:46:21,500 მე გაანგარიშების ალბათობა წინადადება, თქვენ, როგორიცაა " 877 00:46:21,500 --> 00:46:25,280 ალბათობა, რომ სიტყვა "" ჯერ ალბათობა მქონე " 878 00:46:25,280 --> 00:46:31,720 CS50 "ჯერ ალბათობა მქონე "CS50 TF". ასე რომ, ძირითადად, მე იმედი 879 00:46:31,720 --> 00:46:35,720 ყველა შესაძლო გზები გაჭიმვა იგი. 880 00:46:35,720 --> 00:46:41,870 >> და შემდეგ, როგორც წესი, როდესაც თქვენ აკეთებთ ამ, როგორც პროექტი, თქვენ დააყენა N უნდა იყოს 881 00:46:41,870 --> 00:46:42,600 დაბალი ღირებულება. 882 00:46:42,600 --> 00:46:45,930 ასე რომ, როგორც წესი, აქვს bigrams ან Trigrams. 883 00:46:45,930 --> 00:46:51,090 ასე, რომ თქვენ მხოლოდ ითვლიან ორი სიტყვა, ჯგუფი ორი სიტყვა, ან სამი სიტყვა, 884 00:46:51,090 --> 00:46:52,620 მხოლოდ შესრულების საკითხები. 885 00:46:52,620 --> 00:46:56,395 და ასევე იმის გამო, შესაძლოა, თუ თქვენ გაქვთ რაღაც "CS50 TF". როდესაც თქვენ 886 00:46:56,395 --> 00:47:00,510 აქვს "TF," ეს ძალიან მნიშვნელოვანია, რომ "CS50" შემდეგ ეს, არა? 887 00:47:00,510 --> 00:47:04,050 ეს ორი რამ, როგორც წესი, შემდეგი ერთმანეთს. 888 00:47:04,050 --> 00:47:06,410 >> თუ ფიქრობთ, "TF", ეს, ალბათ, აპირებს თუ რა 889 00:47:06,410 --> 00:47:07,890 class ის TF'ing ამისთვის. 890 00:47:07,890 --> 00:47:11,330 ასევე "და" მართლაც მნიშვნელოვანი განთავსების CS50 TF. 891 00:47:11,330 --> 00:47:14,570 მაგრამ თუ თქვენ გაქვთ რაღაც "CS50 TF წავიდა კლასი და მისცა მათ 892 00:47:14,570 --> 00:47:20,060 სტუდენტები ზოგიერთი Candy "." Candy "და" " არ აქვთ ნამდვილად, არა? 893 00:47:20,060 --> 00:47:23,670 ისინი იმდენად დაშორებული ერთმანეთს, რომ ეს ნამდვილად არ აქვს მნიშვნელობა, რა 894 00:47:23,670 --> 00:47:25,050 სიტყვა გაქვთ. 895 00:47:25,050 --> 00:47:31,210 >> ასე რომ ამით bigram ან trigram, ეს მხოლოდ იმას ნიშნავს, რომ თქვენ ზღუდავს 896 00:47:31,210 --> 00:47:33,430 თავს ზოგიერთი სიტყვა რომ გარშემო. 897 00:47:33,430 --> 00:47:35,810 აზრი? 898 00:47:35,810 --> 00:47:40,630 ასე რომ, როდესაც გსურთ სეგმენტაცია, ძირითადად, რა გსურთ არის ვხედავ 899 00:47:40,630 --> 00:47:44,850 რა არის ყველა შესაძლო გზები, თქვენ შეგიძლიათ სეგმენტი სასჯელს. 900 00:47:44,850 --> 00:47:49,090 >> ისეთი, რომ ხედავთ რა არის ალბათობა თითოეული იმ სასჯელს 901 00:47:49,090 --> 00:47:50,880 არსებული ენაზე? 902 00:47:50,880 --> 00:47:53,410 ასე რომ, თუ რას აკეთებთ ჰგავს, კარგად, მოდით მე ვცდილობ სივრცეში აქ. 903 00:47:53,410 --> 00:47:55,570 ასე, რომ თქვენ დააყენა სივრცეში არსებობს და ხედავთ რა არის 904 00:47:55,570 --> 00:47:57,590 ალბათობა, რომ განაჩენი? 905 00:47:57,590 --> 00:48:00,240 მაშინ თქვენ, ისევე როგორც, OK, იქნებ რომ არ იყო, რომ კარგი. 906 00:48:00,240 --> 00:48:03,420 ამიტომ დააყენა სივრცეში არსებობს და სივრცეში იქ, და თქვენ გამოთვალოთ 907 00:48:03,420 --> 00:48:06,240 ალბათობა ახლა, და თქვენ ნახავთ, რომ ეს უფრო მაღალი ალბათობა. 908 00:48:06,240 --> 00:48:12,160 >> ასე რომ, ეს არის ალგორითმი მოუწოდა TANGO სეგმენტაცია ალგორითმი, რომელიც 909 00:48:12,160 --> 00:48:14,990 რეალურად, რომ რაღაც იქნება მართლა მაგარი პროექტი, რომელიც 910 00:48:14,990 --> 00:48:20,860 ძირითადად იღებს unsegmented ტექსტი, რომელიც შეიძლება იაპონური ან ჩინური ან იქნებ 911 00:48:20,860 --> 00:48:26,080 English გარეშე ფართები და ცდილობს დააყენა ფართები შორის სიტყვები და ეს იმას 912 00:48:26,080 --> 00:48:29,120 რომ გამოყენებით ენა მოდელი და ცდილობს დაინახოს, თუ რა არის ყველაზე მაღალი 913 00:48:29,120 --> 00:48:31,270 ალბათობა შეგიძლიათ მიიღოთ. 914 00:48:31,270 --> 00:48:32,230 OK. 915 00:48:32,230 --> 00:48:33,800 ასე რომ, ეს სეგმენტაცია. 916 00:48:33,800 --> 00:48:35,450 >> ახლა სინტაქსი. 917 00:48:35,450 --> 00:48:40,940 ასე რომ, სინტაქსი გამოიყენება ამდენი რამ ახლა. 918 00:48:40,940 --> 00:48:44,880 ასე Graph ძებნა, რადგან Siri for საკმაოდ ბევრი ნებისმიერი სახის ბუნებრივი 919 00:48:44,880 --> 00:48:46,490 ენის დამუშავება გაქვთ. 920 00:48:46,490 --> 00:48:49,140 რა არის მნიშვნელოვანი რამ სინტაქსი? 921 00:48:49,140 --> 00:48:52,390 ასე რომ, სასჯელს ზოგადად აქვს რაც ჩვენ მოვუწოდებთ შემადგენელს. 922 00:48:52,390 --> 00:48:57,080 რომელიც სახის მოსწონს ჯგუფების სიტყვები რომ აქვს ფუნქცია სასჯელს. 923 00:48:57,080 --> 00:49:02,220 და ისინი ნამდვილად ვერ იქნება გარდა ერთმანეთს. 924 00:49:02,220 --> 00:49:07,380 >> ასე რომ, თუ მე ვიტყვი, მაგალითად, "ლორენ უყვარს Milo. "მე ვიცი, რომ" Lauren "არის 925 00:49:07,380 --> 00:49:10,180 დამფუძნებელი და შემდეგ "უყვარს Milo "ასევე კიდევ ერთი. 926 00:49:10,180 --> 00:49:16,860 იმის გამო, რომ ვერ ვიტყვი, როგორიცაა "Lauren Milo უყვარს "აქვს იგივე მნიშვნელობა აქვს. 927 00:49:16,860 --> 00:49:18,020 ის არ აპირებს იგივე მნიშვნელობა. 928 00:49:18,020 --> 00:49:22,500 ან მე ვერ ვიტყვი, როგორიცაა "Milo Lauren უყვარს. "ყველაფერი აქვს იგივე 929 00:49:22,500 --> 00:49:25,890 რაც იმას ნიშნავს, აკეთებს, რომ. 930 00:49:25,890 --> 00:49:31,940 >> ასე რომ, კიდევ ორი ​​მნიშვნელოვანი რამ სინტაქსი არის ლექსიკური ტიპი რომელიც 931 00:49:31,940 --> 00:49:35,390 ძირითადად ფუნქცია, რომ თქვენ აქვს სიტყვა თავად. 932 00:49:35,390 --> 00:49:39,180 ასე, რომ თქვენ უნდა იცოდეს, რომ "Lauren" და "Milo" არის არსებითი. 933 00:49:39,180 --> 00:49:41,040 "სიყვარული" არის ზმნა. 934 00:49:41,040 --> 00:49:45,660 და მეორე მნიშვნელოვანი ის არის, რომ ისინი phrasal ტიპის. 935 00:49:45,660 --> 00:49:48,990 ასე რომ თქვენ იცით, რომ "უყვარს Milo" ფაქტიურად სიტყვიერი ფრაზა. 936 00:49:48,990 --> 00:49:52,390 ასე რომ, როდესაც ვამბობ "Lauren," მე ვიცი, რომ Lauren აკეთებს რაღაც. 937 00:49:52,390 --> 00:49:53,620 რა არის ის აკეთებს? 938 00:49:53,620 --> 00:49:54,570 ის მოსიყვარულე Milo. 939 00:49:54,570 --> 00:49:56,440 ასე რომ მთელი რამ. 940 00:49:56,440 --> 00:50:01,640 მაგრამ მისი კომპონენტები noun და ზმნა. 941 00:50:01,640 --> 00:50:04,210 მაგრამ ერთად, ისინი ზმნის ფრაზა. 942 00:50:04,210 --> 00:50:08,680 >> ასე რომ, რა შეგვიძლია რეალურად ვუყოთ კომპიუტერული ლინგვისტიკის? 943 00:50:08,680 --> 00:50:13,810 ასე რომ, თუ მაქვს რამე მაგალითად "მეგობარი Allison". მე ვხედავ, თუ უბრალოდ 944 00:50:13,810 --> 00:50:17,440 არ სინტაქსური ხე მინდა იცოდეთ, რომ "მეგობრები" არის noun ფრაზა ეს არის 945 00:50:17,440 --> 00:50:21,480 noun და შემდეგ "საქართველოს Allison" არის prepositional ფრაზა რომელშიც "და" არის 946 00:50:21,480 --> 00:50:24,810 წინადადება და "Allison" არის არსებითი. 947 00:50:24,810 --> 00:50:30,910 რა შეიძლება გავაკეთოთ ასწავლიან ჩემს კომპიუტერში რომ, როდესაც მე მაქვს noun ფრაზა ერთი და 948 00:50:30,910 --> 00:50:33,080 მაშინ prepositional ფრაზა. 949 00:50:33,080 --> 00:50:39,020 ასე რომ, ამ შემთხვევაში, "მეგობრები" და შემდეგ "საქართველოს Milo "ვიცი, რომ ეს ნიშნავს, რომ 950 00:50:39,020 --> 00:50:43,110 NP2, მეორე, ფლობს NP1. 951 00:50:43,110 --> 00:50:47,680 >> ასე რომ, შეგიძლიათ შექმნათ რაიმე სახის ურთიერთობა, გარკვეული ფუნქცია მას. 952 00:50:47,680 --> 00:50:52,370 ასე რომ როდესაც მე ვხედავ ამ სტრუქტურა, რომელიც მატჩები სწორედ "მეგობრები 953 00:50:52,370 --> 00:50:56,030 Allison, "ვიცი, რომ Allison ფლობს მეგობარი. 954 00:50:56,030 --> 00:50:58,830 ასე რომ მეგობრები არიან რაღაც რომ Allison აქვს. 955 00:50:58,830 --> 00:50:59,610 აზრი? 956 00:50:59,610 --> 00:51:01,770 ასე რომ, ეს არის ძირითადად რა Graph ძებნა აკეთებს. 957 00:51:01,770 --> 00:51:04,360 უბრალოდ ქმნის წესები ბევრი რამ. 958 00:51:04,360 --> 00:51:08,190 ასე რომ "მეგობარი Allison", "ჩემი მეგობარი რომლებიც ცხოვრობენ Cambridge "," ჩემი მეგობარი 959 00:51:08,190 --> 00:51:12,970 რომლებიც დადიან Harvard. "ეს ქმნის წესები ყველა იმ რამ. 960 00:51:12,970 --> 00:51:14,930 >> ახლა მანქანით თარგმანი. 961 00:51:14,930 --> 00:51:18,850 ასე რომ, მანქანური თარგმანი, ასევე რაღაც სტატისტიკური. 962 00:51:18,850 --> 00:51:21,340 და რეალურად თუ ჩაერთოს კომპიუტერული ლინგვისტიკის, ბევრი 963 00:51:21,340 --> 00:51:23,580 თქვენი პერსონალი იქნება სტატისტიკა. 964 00:51:23,580 --> 00:51:26,670 ასე რომ, როგორც მე აკეთებდა მაგალითად ბევრი ალბათობა, რომ მე ვიყავი 965 00:51:26,670 --> 00:51:30,540 გაანგარიშების, და შემდეგ თქვენ მიიღებთ ამ ძალიან მცირე რაოდენობის, რომ საბოლოო 966 00:51:30,540 --> 00:51:33,180 ალბათობა, რომ ის, რაც გაძლევთ პასუხი. 967 00:51:33,180 --> 00:51:37,540 მანქანური თარგმანი იყენებს სტატისტიკური მოდელი. 968 00:51:37,540 --> 00:51:44,790 და თუ გვინდა ვიფიქროთ მანქანა თარგმანი მარტივი შესაძლო 969 00:51:44,790 --> 00:51:48,970 გზა, რა შეიძლება ვიფიქროთ მხოლოდ ვთარგმნით სიტყვა სიტყვით, არა? 970 00:51:48,970 --> 00:51:52,150 >> როდესაც თქვენ სწავლის ენა პირველად, რომელიც, როგორც წესი, რა 971 00:51:52,150 --> 00:51:52,910 თქვენ, არა? 972 00:51:52,910 --> 00:51:57,050 თუ გსურთ თარგმნოს სასჯელი თქვენს ენაზე ენა 973 00:51:57,050 --> 00:52:00,060 თქვენ სწავლის, როგორც წესი, პირველ რიგში, თქვენ თარგმნა თითოეული სიტყვა 974 00:52:00,060 --> 00:52:03,180 ინდივიდუალურად და შემდეგ თქვენ ცდილობენ დააყენა სიტყვა შევიდა ადგილი. 975 00:52:03,180 --> 00:52:07,100 >> ასე რომ, თუ მინდოდა თარგმნოს ეს, [წარმოთქმული სიტყვის პორტუგალიის] 976 00:52:07,100 --> 00:52:10,430 რაც ნიშნავს "თეთრი კატა გაიქცა." თუ მინდოდა თარგმნოს იგი 977 00:52:10,430 --> 00:52:13,650 პორტუგალური English, რაც მე შეიძლება გავაკეთოთ, არის ის, პირველ რიგში, მე უბრალოდ 978 00:52:13,650 --> 00:52:14,800 თარგმნის სიტყვასიტყვით. 979 00:52:14,800 --> 00:52:20,570 ასე რომ, "o" არის "", "gato", "კატა" "Branco", "თეთრი" და შემდეგ "fugio" არის 980 00:52:20,570 --> 00:52:21,650 "გაიქცა". 981 00:52:21,650 --> 00:52:26,130 >> ასე რომ მაშინ მე ყველა სიტყვა აქ, მაგრამ ისინი არ მიზნით. 982 00:52:26,130 --> 00:52:29,590 ეს იგივეა, "კატა თეთრი გაიქცა" რომელიც ungrammatical. 983 00:52:29,590 --> 00:52:34,490 ასეა, მაშინ მე შემიძლია აქვს მეორე ნაბიჯი, რომელიც უნდა იპოვო იდეალური 984 00:52:34,490 --> 00:52:36,610 პოზიცია თითოეული სიტყვა. 985 00:52:36,610 --> 00:52:40,240 ასე რომ, მე ვიცი, რომ მე რეალურად მინდა, რომ "თეთრი კატა" ნაცვლად "კატა თეთრი." ასე რომ, 986 00:52:40,240 --> 00:52:46,050 რა შემიძლია არის, ყველაზე გულუბრყვილო მეთოდი იქნება შექმნა ყველა 987 00:52:46,050 --> 00:52:49,720 შესაძლო permutations of ვთქვათ, თანამდებობაზე. 988 00:52:49,720 --> 00:52:53,300 და მერე ვნახოთ, რომელი ერთი აქვს მაღალი ალბათობა მიხედვით 989 00:52:53,300 --> 00:52:54,970 ჩემს ენაზე მოდელი. 990 00:52:54,970 --> 00:52:58,390 და მაშინ, როდესაც მე ერთი, რომ აქვს ყველაზე მაღალი ალბათობა, რაც არის 991 00:52:58,390 --> 00:53:01,910 ალბათ, "თეთრი კატა გაიქცა" რომ ჩემი თარგმანი. 992 00:53:01,910 --> 00:53:06,710 >> და ეს არის მარტივი გზა აეხსნა რამდენად ბევრი მანქანური თარგმანი 993 00:53:06,710 --> 00:53:07,910 ალგორითმები მუშაობა. 994 00:53:07,910 --> 00:53:08,920 ამჯამად რომ აზრი? 995 00:53:08,920 --> 00:53:12,735 ეს არის ასევე რაღაც ნამდვილად საინტერესო რომ თქვენ ბიჭები შეიძლება იქნებ შეისწავლონ 996 00:53:12,735 --> 00:53:13,901 საბოლოო პროექტი, yeah? 997 00:53:13,901 --> 00:53:15,549 >> სტუდენტი: კარგად, თქვენ განაცხადა, რომ ის გულუბრყვილო გზა, ასე, რა არის 998 00:53:15,549 --> 00:53:17,200 არასამთავრობო გულუბრყვილო გზა? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS Freitas: არასამთავრობო გულუბრყვილო გზა? 1000 00:53:18,400 --> 00:53:19,050 OK. 1001 00:53:19,050 --> 00:53:22,860 ასე რომ, პირველი, რაც არის ცუდი ამ მეთოდით ის არის, რომ მე უბრალოდ თარგმნა 1002 00:53:22,860 --> 00:53:24,330 სიტყვა, სიტყვა სიტყვას. 1003 00:53:24,330 --> 00:53:30,570 მაგრამ ზოგჯერ თქვენ უნდა სიტყვა, რომ შეიძლება მქონდეს თარგმანი. 1004 00:53:30,570 --> 00:53:32,210 მე ვაპირებ ცდილობენ ვფიქრობ რაღაც. 1005 00:53:32,210 --> 00:53:37,270 მაგალითად, "მანგას" პორტუგალიის can იყოს "mangle" ან "ყდის". ასე რომ, 1006 00:53:37,270 --> 00:53:40,450 როდესაც თქვენ ცდილობთ თარგმნოს სიტყვა სიტყვა, შეიძლება გაწვდით 1007 00:53:40,450 --> 00:53:42,050 რაღაც, რომ აზრი არ აქვს. 1008 00:53:42,050 --> 00:53:45,770 >> ასე, რომ თქვენ ნამდვილად გინდათ გადავხედავთ ყველა შესაძლო თარგმანი 1009 00:53:45,770 --> 00:53:49,840 სიტყვა და ვხედავ, პირველ რიგში, რა არის მიზნით. 1010 00:53:49,840 --> 00:53:52,000 ჩვენ ვსაუბრობთ permutating რამ? 1011 00:53:52,000 --> 00:53:54,150 იმისათვის, რომ ნახოთ ყველა შესაძლო ბრძანებები და აირჩიოს ერთი უმაღლესი 1012 00:53:54,150 --> 00:53:54,990 ალბათობა? 1013 00:53:54,990 --> 00:53:57,860 თქვენ ასევე შეგიძლიათ ყველა შესაძლო მეხსიერება თითოეული 1014 00:53:57,860 --> 00:54:00,510 სიტყვა და მერე ვნახოთ - 1015 00:54:00,510 --> 00:54:01,950 ერთად permutations - 1016 00:54:01,950 --> 00:54:03,710 რომელიც ერთი ყველაზე მაღალი ალბათობა. 1017 00:54:03,710 --> 00:54:08,590 >> გარდა ამისა, ასევე შეგიძლიათ შევხედოთ არა მხოლოდ სიტყვები, არამედ ფრაზები. 1018 00:54:08,590 --> 00:54:11,700 ასე რომ თქვენ შეგიძლიათ გაანალიზოს შორის ურთიერთობებში სიტყვა და შემდეგ მიიღოს 1019 00:54:11,700 --> 00:54:13,210 უკეთესი თარგმანი. 1020 00:54:13,210 --> 00:54:16,690 ასევე რაღაც, ასე რომ ამ სემესტრში მე რეალურად აკეთებს კვლევა 1021 00:54:16,690 --> 00:54:19,430 ჩინური English მანქანური თარგმანი, ასე თარგმნიან დან 1022 00:54:19,430 --> 00:54:20,940 Chinese ინგლისურად. 1023 00:54:20,940 --> 00:54:26,760 >> და რაღაც გავაკეთოთ, არის ის, გარდა გამოყენებით სტატისტიკური მოდელი, რომელიც მხოლოდ 1024 00:54:26,760 --> 00:54:30,570 ხედავს ალბათობა ხედავს ზოგიერთი პოზიცია წინადადება, მე ვარ 1025 00:54:30,570 --> 00:54:35,360 რეალურად ასევე დასძინა ზოგიერთი სინტაქსური ჩემს მოდელი, ამბობს, oh, თუ მე ვერ ვხედავ ამ სახის 1026 00:54:35,360 --> 00:54:39,420 სამშენებლო, ეს არის ის, რაც მე მინდა შეცვლის, როდესაც მე თარგმნა. 1027 00:54:39,420 --> 00:54:43,880 ასე რომ თქვენ ასევე შეგიძლიათ დაამატოთ გარკვეული სახის ელემენტის სინტაქსი, რათა 1028 00:54:43,880 --> 00:54:47,970 თარგმანი უფრო ეფექტური და უფრო ზუსტი. 1029 00:54:47,970 --> 00:54:48,550 OK. 1030 00:54:48,550 --> 00:54:51,010 >> ასე როგორ შეიძლება დავიწყოთ, თუ გსურთ რაღაც გამოთვლითი 1031 00:54:51,010 --> 00:54:51,980 ენათმეცნიერების? 1032 00:54:51,980 --> 00:54:54,560 >> პირველი, თქვენ პროექტი რომელიც მოიცავს ენებზე. 1033 00:54:54,560 --> 00:54:56,310 ასე რომ, არსებობს ამდენი არსებობს. 1034 00:54:56,310 --> 00:54:58,420 იქ ძალიან ბევრი რამ შეგიძლიათ გააკეთოთ. 1035 00:54:58,420 --> 00:55:00,510 და შემდეგ შეიძლება ვიფიქროთ მოდელი რომ თქვენ შეგიძლიათ გამოიყენოთ. 1036 00:55:00,510 --> 00:55:04,710 როგორც წესი, ეს ნიშნავს, რომ აზროვნება ვარაუდები, როგორც მოსწონს, oh, როდესაც მე ვიყავი 1037 00:55:04,710 --> 00:55:05,770 ისევე როგორც აზროვნების სიმღერები. 1038 00:55:05,770 --> 00:55:09,510 მე კი, როგორიცაა, ასევე, თუ მინდა გაერკვნენ გარეთ რომელმაც დაწერა ეს, მე ალბათ მინდა 1039 00:55:09,510 --> 00:55:15,400 შევხედოთ სიტყვა პირი გამოყენებული და ვხედავ, ვინც იყენებს, რომ სიტყვა ძალიან ხშირად. 1040 00:55:15,400 --> 00:55:18,470 ამიტომ ცდილობენ ვარაუდები და ცდილობენ ვფიქრობ მოდელები. 1041 00:55:18,470 --> 00:55:21,395 და მაშინ ასევე შეგიძლიათ მოძებნოთ ონლაინ სახის პრობლემა, რომელიც თქვენ გაქვთ, 1042 00:55:21,395 --> 00:55:24,260 და ის აპირებს ვარაუდობენ თქვენ მოდელები, შესაძლოა, 1043 00:55:24,260 --> 00:55:26,560 მოდელირებული რომ რამ კარგად. 1044 00:55:26,560 --> 00:55:29,080 >> ასევე თქვენ ყოველთვის შეგიძლიათ მომაწოდეთ. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 და მე შემიძლია მხოლოდ უპასუხოს თქვენს შეკითხვებს. 1047 00:55:34,940 --> 00:55:38,600 ჩვენ კი შეიძლება შეხვდეს, ასე რომ მე არ შემიძლია მისცეს წინადადებები გზები 1048 00:55:38,600 --> 00:55:41,490 ახორციელებს თქვენი პროექტი. 1049 00:55:41,490 --> 00:55:45,610 და ვგულისხმობ, თუ თქვენ ჩართული კომპიუტერული ლინგვისტიკის, ის აპირებს 1050 00:55:45,610 --> 00:55:46,790 უნდა იყოს დიდი. 1051 00:55:46,790 --> 00:55:48,370 თქვენ ვაპირებთ ვხედავ არის იმდენად პოტენციალი. 1052 00:55:48,370 --> 00:55:52,060 და ინდუსტრიის უნდა აიყვანოს თქვენ ისე ცუდი გამო. 1053 00:55:52,060 --> 00:55:54,720 ასე რომ, იმედი მაქვს, რომ თქვენ ბიჭები სარგებლობდა ამ. 1054 00:55:54,720 --> 00:55:57,030 თუ ბიჭები გაქვთ რაიმე შეკითხვები, თქვენ შეგიძლიათ მკითხავთ შემდეგ. 1055 00:55:57,030 --> 00:55:58,280 მაგრამ მადლობა. 1056 00:55:58,280 --> 00:56:00,150