1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> LUCAS Freitas: Hey.

3
00:00:08,870 --> 00:00:09,980
მოგესალმებით ყველას.

4
00:00:09,980 --> 00:00:11,216
ჩემი სახელი არის Lucas Freitas.

5
00:00:11,216 --> 00:00:15,220
მე უმცროსი at [INAUDIBLE] სწავლობს
კომპიუტერულ მეცნიერებათა ერთად აქცენტი

6
00:00:15,220 --> 00:00:16,410
კომპიუტერული ლინგვისტიკა.

7
00:00:16,410 --> 00:00:19,310
ასე რომ, ჩემი საშუალო არის ენა
და ლინგვისტური თეორია.

8
00:00:19,310 --> 00:00:21,870
მე ნამდვილად აღფრთოვანებული გასწავლით ბიჭები
ცოტა სფეროში.

9
00:00:21,870 --> 00:00:24,300
ეს არის ძალიან საინტერესო ნაკვეთი შესწავლა.

10
00:00:24,300 --> 00:00:27,260
ასევე დიდი პოტენციალი
მომავალში.

11
00:00:27,260 --> 00:00:30,160
ასე რომ, მე ნამდვილად აღფრთოვანებული, რომ თქვენ ბიჭები
გათვალისწინებით პროექტები

12
00:00:30,160 --> 00:00:31,160
კომპიუტერული ლინგვისტიკა.

13
00:00:31,160 --> 00:00:35,460
და მე ვიქნები გახარებული ვურჩევ
ნებისმიერი, თუ თქვენ გადაწყვიტეთ

14
00:00:35,460 --> 00:00:37,090
განახორციელოს ერთ იმ.

15
00:00:37,090 --> 00:00:40,010
>> ასე რომ, პირველ რიგში, რა არის კომპიუტერული
ენათმეცნიერების?

16
00:00:40,010 --> 00:00:44,630
ასე რომ, კომპიუტერული ლინგვისტიკის არის
გადაკვეთაზე შორის ენათმეცნიერებისა და

17
00:00:44,630 --> 00:00:46,390
კომპიუტერულ მეცნიერებაში.

18
00:00:46,390 --> 00:00:47,415
ასე რომ, რა არის ენათმეცნიერების?

19
00:00:47,415 --> 00:00:48,490
რა არის კომპიუტერული მეცნიერების?

20
00:00:48,490 --> 00:00:51,580
კარგად ენათმეცნიერების, რა
ჩვენ ვართ ენებზე.

21
00:00:51,580 --> 00:00:54,960
ასე რომ, ენათმეცნიერების რეალურად შესწავლა
ბუნებრივი ენის კულტურას.

22
00:00:54,960 --> 00:00:58,330
ასე რომ, ბუნებრივი ენაზე - ჩვენ ვსაუბრობთ
ენა, რომ ჩვენ რეალურად გამოიყენოთ

23
00:00:58,330 --> 00:00:59,770
ერთმანეთთან.

24
00:00:59,770 --> 00:01:02,200
ასე რომ ჩვენ ზუსტად არ ვსაუბრობთ
შესახებ C ან Java.

25
00:01:02,200 --> 00:01:05,900
ჩვენ ვსაუბრობთ უფრო მეტი ინგლისური და
ჩინურ და სხვა ენებზე, რომ ჩვენ

26
00:01:05,900 --> 00:01:07,780
გამოიყენოთ ერთმანეთთან.

27
00:01:07,780 --> 00:01:12,470
>> რთული რამ, რომ ის არის, რომ
ახლა ჩვენ თითქმის 7,000

28
00:01:12,470 --> 00:01:14,260
languages ​​მსოფლიოში.

29
00:01:14,260 --> 00:01:19,520
ასე რომ, არსებობს საკმაოდ მაღალი სხვადასხვა
ენებზე, რომ ჩვენ შეგვიძლია შესწავლა.

30
00:01:19,520 --> 00:01:22,600
და მაშინ ვფიქრობ, რომ ეს, ალბათ,
ძალიან რთულია ამის გაკეთება, მაგალითად,

31
00:01:22,600 --> 00:01:26,960
თარგმანი ერთი ენიდან
მეორე მხრივ, იმის გათვალისწინებით, რომ თქვენ გაქვთ

32
00:01:26,960 --> 00:01:28,240
თითქმის 7,000 მათგანი.

33
00:01:28,240 --> 00:01:31,450
ასე რომ, თუ თქვენ ფიქრობთ აკეთებს თარგმანი
ერთი ენიდან მეორე თქვენ

34
00:01:31,450 --> 00:01:35,840
თითქმის მილიონზე მეტი
სხვადასხვა კომბინაციები, რომ თქვენ შეგიძლიათ

35
00:01:35,840 --> 00:01:37,330
ჰქონდეს ენის ენაზე.

36
00:01:37,330 --> 00:01:40,820
ასე რომ, ეს მართლაც რთული დაკავდით
სახის მაგალითი თარგმანი სისტემა

37
00:01:40,820 --> 00:01:43,540
ყოველი ენა.

38
00:01:43,540 --> 00:01:47,120
>> ასე რომ, ენათმეცნიერების ეპყრობა სინტაქსი,
სემანტიკა, pragmatics.

39
00:01:47,120 --> 00:01:49,550
თქვენ ბიჭები ზუსტად არ უნდა
იცოდეს, რა ისინი.

40
00:01:49,550 --> 00:01:55,090
მაგრამ ძალიან საინტერესო ის არის, რომ
როგორც მშობლიური ენა, როდესაც თქვენ ისწავლით

41
00:01:55,090 --> 00:01:59,010
ენის, როგორც ბავშვი, თქვენ რეალურად სწავლობენ
ყველა იმ რამ - სინტაქსი სემანტიკა

42
00:01:59,010 --> 00:02:00,500
და pragmatics -

43
00:02:00,500 --> 00:02:01,430
თავს.

44
00:02:01,430 --> 00:02:04,820
და არავის აქვს გასწავლით სინტაქსი
თქვენ უნდა გვესმოდეს, თუ როგორ წინადადებების არის

45
00:02:04,820 --> 00:02:05,290
სტრუქტურა.

46
00:02:05,290 --> 00:02:07,980
ასე რომ, ეს მართლაც საინტერესოა, რადგან
ეს რაღაც რომ მოდის ძალიან

47
00:02:07,980 --> 00:02:10,389
ინტუიციურად.

48
00:02:10,389 --> 00:02:13,190
>> და რას იღებდა დან
კომპიუტერული მეცნიერების?

49
00:02:13,190 --> 00:02:16,700
ისე, ყველაზე მთავარია, რომ ჩვენ
აქვს კომპიუტერულ მეცნიერებაში პირველ

50
00:02:16,700 --> 00:02:19,340
ყველა, ხელოვნური ინტელექტი
და მანქანა სწავლის.

51
00:02:19,340 --> 00:02:22,610
ასე რომ, რასაც ჩვენ ვცდილობთ აკეთებს
კომპიუტერული ლინგვისტიკის არის ასწავლიან

52
00:02:22,610 --> 00:02:26,990
თქვენს კომპიუტერში როგორ უნდა გავაკეთოთ რაღაც,
ენის.

53
00:02:26,990 --> 00:02:28,630
>> ასე, მაგალითად, მანქანა
თარგმანი.

54
00:02:28,630 --> 00:02:32,490
ვცდილობ ასწავლიან ჩემს კომპიუტერს როგორ
თუ როგორ უნდა გადასვლას ერთი

55
00:02:32,490 --> 00:02:33,310
ენის სხვა.

56
00:02:33,310 --> 00:02:35,790
ასე რომ, ძირითადად მინდა სწავლება
კომპიუტერი ორ ენაზე.

57
00:02:35,790 --> 00:02:38,870
თუ გავაკეთო ბუნებრივი ენის დამუშავება,
რომელიც იმ შემთხვევაში, თუ, მაგალითად,

58
00:02:38,870 --> 00:02:41,810
Facebook-ის Graph ძებნა, თქვენ ასწავლიან
თქვენს კომპიუტერში როგორ უნდა გვესმოდეს

59
00:02:41,810 --> 00:02:42,730
queries კარგად.

60
00:02:42,730 --> 00:02:48,130
>> ასე რომ, თუ ვთქვათ "ფოტო ჩემი
მეგობარი. "Facebook არ მკურნალობა, რომ

61
00:02:48,130 --> 00:02:51,130
როგორც მთელი სიმებიანი რომ აქვს
მხოლოდ bunch სიტყვა.

62
00:02:51,130 --> 00:02:56,020
რეალურად ესმის მიზეზი
შორის "ფოტო" და "ჩემი მეგობარი" და

63
00:02:56,020 --> 00:02:59,620
ესმის, რომ "ფოტოები" არიან
ქონების "ჩემი მეგობარი".

64
00:02:59,620 --> 00:03:02,350
>> ასე რომ, ნაწილი, მაგალითად,
ბუნებრივი ენის გადამუშავება.

65
00:03:02,350 --> 00:03:04,790
ის ცდილობს გაიგოს, თუ რა
არის შორის

66
00:03:04,790 --> 00:03:07,520
სიტყვა სასჯელს.

67
00:03:07,520 --> 00:03:11,170
და დიდი კითხვა არის, შეგიძლიათ
ასწავლიან კომპიუტერის როგორ საუბრობენ

68
00:03:11,170 --> 00:03:12,650
ენა ზოგადად?

69
00:03:12,650 --> 00:03:17,810
რომელიც არის ძალიან საინტერესო კითხვა
ვფიქრობ, რომ, თითქოს, შესაძლოა, მომავალში,

70
00:03:17,810 --> 00:03:19,930
თქვენ აპირებს შეძლებს
გაიგო თქვენს მობილურ ტელეფონზე.

71
00:03:19,930 --> 00:03:23,290
სახის მოსწონს რას ვაკეთებთ Siri მაგრამ
რაღაც უფრო, შეგიძლიათ რეალურად

72
00:03:23,290 --> 00:03:25,690
ამბობენ, რომ რაც გაგიხარდებათ და ტელეფონი
აპირებს მესმის ყველაფერი.

73
00:03:25,690 --> 00:03:28,350
და მას შეუძლია თვალყური შეკითხვები
და შეინახოს საუბარი.

74
00:03:28,350 --> 00:03:30,880
რომ რაღაც მართლაც საინტერესო,
ჩემი აზრით.

75
00:03:30,880 --> 00:03:33,070
>> ასე რომ, რაღაც ბუნებრივი ენებზე.

76
00:03:33,070 --> 00:03:36,220
რაღაც ნამდვილად საინტერესო
ბუნებრივი languages ​​ის არის, რომ, და ეს არის

77
00:03:36,220 --> 00:03:38,470
საკრედიტო ჩემს ლინგვისტიკის პროფესორი,
Maria Polinsky.

78
00:03:38,470 --> 00:03:40,830
იგი იძლევა მაგალითს და ვფიქრობ
ეს მართლაც ძალიან საინტერესო.

79
00:03:40,830 --> 00:03:47,060
იმიტომ, რომ ჩვენ ვისწავლოთ ენა, როდესაც
ჩვენ დაიბადა და მაშინ ჩვენი შექმნილი

80
00:03:47,060 --> 00:03:49,170
ენის სახის იზრდება us.

81
00:03:49,170 --> 00:03:52,570
>> და ძირითადად თქვენ ვისწავლოთ ენა
ეხლა მინიმალური input, არა?

82
00:03:52,570 --> 00:03:56,700
თქვენ მხოლოდ მიღების შეიტანენ თქვენს
მშობლები რა თქვენი ენა ხმები

83
00:03:56,700 --> 00:03:58,770
მინდა და უბრალოდ ვისწავლოთ იგი.

84
00:03:58,770 --> 00:04:02,240
ასე რომ, საინტერესოა, რადგან თუ გადავხედავთ
იმ სასჯელს, მაგალითად.

85
00:04:02,240 --> 00:04:06,980
გადავხედავთ, "მერი აყენებს ქურთუკი ყველა
ამჯერად იგი ტოვებს სახლს. "

86
00:04:06,980 --> 00:04:10,650
>> ამ შემთხვევაში, შესაძლებელია, რომ აქვს
სიტყვა "მან" ეხება მერი, არა?

87
00:04:10,650 --> 00:04:13,500
თქვენ შეიძლება ითქვას, "მერი აყენებს ქურთუკი
ყოველ ჯერზე Mary ტოვებს

88
00:04:13,500 --> 00:04:14,960
სახლი. "ასე რომ ჯარიმა.

89
00:04:14,960 --> 00:04:19,370
მაგრამ შემდეგ, თუ გადავხედავთ სასჯელი
"მან აყენებს ქურთუკი ყოველ ჯერზე Mary

90
00:04:19,370 --> 00:04:22,850
ტოვებს სახლს. "თქვენ იცით, რომ ეს
შეუძლებელია იმის თქმა, რომ "ის" არის

91
00:04:22,850 --> 00:04:24,260
მხედველობაში მერი.

92
00:04:24,260 --> 00:04:27,070
>> არ არსებობს გზა, რომ "მერი აყენებს
on ქურთუკი ყოველ ჯერზე Mary ტოვებს

93
00:04:27,070 --> 00:04:30,790
სახლი. "ასე რომ საინტერესოა, რადგან
ეს არის ერთგვარი ინტუიცია

94
00:04:30,790 --> 00:04:32,890
რომ ყოველ მშობლიური აქვს.

95
00:04:32,890 --> 00:04:36,370
და არავინ ასწავლიდა, რომ ეს არის
ისე, რომ სინტაქსი მუშაობს.

96
00:04:36,370 --> 00:04:41,930
და რომ თქვენ შეგიძლიათ მხოლოდ ეს "ის"
მხედველობაში Mary ამ პირველ შემთხვევაში,

97
00:04:41,930 --> 00:04:44,260
და რეალურად ამ სხვა
ძალიან, მაგრამ არა ამ ერთი.

98
00:04:44,260 --> 00:04:46,500
მაგრამ ყველა სახის იღებს
იგივე პასუხი.

99
00:04:46,500 --> 00:04:48,580
ყველა თანხმდება, რომ.

100
00:04:48,580 --> 00:04:53,280
ასე რომ, ეს მართლაც საინტერესოა, როგორ თუმცა
თქვენ არ იცით ყველა წესები

101
00:04:53,280 --> 00:04:55,575
თქვენს ენაზე თქვენ სახის მესმის,
როგორ ენაზე მუშაობს.

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> ასე რომ საინტერესო რამ ბუნებრივი
ენა არის ის, რომ თქვენ არ უნდა

104
00:05:01,530 --> 00:05:06,970
ვიცი არც სინტაქსი თუ სასჯელი
არის გრამატიკული ან ungrammatical for

105
00:05:06,970 --> 00:05:08,810
ხშირ შემთხვევაში.

106
00:05:08,810 --> 00:05:13,220
რაც ფიქრობთ, რომ იქნებ რა
ხდება, რომ თქვენს ცხოვრებაში, თქვენ

107
00:05:13,220 --> 00:05:17,410
უბრალოდ შეინახოს უფრო და უფრო
წინადადებების უთხრა თქვენ.

108
00:05:17,410 --> 00:05:19,800
და მაშინ თქვენ გაქვთ იმახსოვრებდა
ყველა სასჯელს.

109
00:05:19,800 --> 00:05:24,230
და მაშინ, როდესაც ვინმე გიჩვენებთ
რაღაც, თქვენ გვესმის, რომ წინადადება და

110
00:05:24,230 --> 00:05:27,040
გადავხედავთ თქვენი ლექსიკა
სასჯელს და თუ

111
00:05:27,040 --> 00:05:28,270
რომ განაჩენი არის.

112
00:05:28,270 --> 00:05:29,830
და თუ ეს იქ თქვენ
ამბობენ, რომ ეს გრამატიკული.

113
00:05:29,830 --> 00:05:31,740
თუ ეს არ ამბობთ, რომ ეს
ungrammatical.

114
00:05:31,740 --> 00:05:35,150
>> ასე რომ, ამ შემთხვევაში, თქვენ ვიტყოდი, oh,
ასე რომ თქვენ გაქვთ უზარმაზარი ჩამონათვალი

115
00:05:35,150 --> 00:05:36,140
შესაძლებელია სასჯელს.

116
00:05:36,140 --> 00:05:38,240
და მაშინ, როდესაც გესმით წინადადება,
თქვენ იცით, თუ ის გრამატიკული ან

117
00:05:38,240 --> 00:05:39,450
არ ეფუძნება, რომ.

118
00:05:39,450 --> 00:05:42,360
საქმე ისაა, რომ თუ გადავხედავთ
წინადადება, მაგალითად, "The

119
00:05:42,360 --> 00:05:47,540
ხუთ ხელმძღვანელობდა CS50 TFs მოხარშული ბრმა
octopus გამოყენებით DAPA mug. "ეს

120
00:05:47,540 --> 00:05:49,630
ნამდვილად არ არის სასჯელი
რომ გამიგია.

121
00:05:49,630 --> 00:05:52,380
მაგრამ ამავე დროს, თქვენ იცით, რომ ეს
საკმაოდ ბევრი გრამატიკული, არა?

122
00:05:52,380 --> 00:05:55,570
არ არსებობს გრამატიკული შეცდომები
და შეიძლება ითქვას, რომ

123
00:05:55,570 --> 00:05:57,020
ეს შესაძლებელია სასჯელს.

124
00:05:57,020 --> 00:06:01,300
>> ასე რომ, ეს გვაფიქრებინებს, რომ, ფაქტობრივად,
ისე, რომ ჩვენ ვისწავლოთ ენა არ არის მხოლოდ

125
00:06:01,300 --> 00:06:07,090
რომელსაც უზარმაზარი მონაცემთა ბაზა, შესაძლებელია
სიტყვა ან სასჯელი, მაგრამ უფრო

126
00:06:07,090 --> 00:06:11,490
გაგება შორის
სიტყვები იმ სასჯელს.

127
00:06:11,490 --> 00:06:14,570
ამჯამად რომ აზრი?

128
00:06:14,570 --> 00:06:19,370
ასეა, მაშინ კითხვა, სისტემაში
კომპიუტერები ვისწავლოთ ენებზე?

129
00:06:19,370 --> 00:06:21,490
შეგვიძლია ვასწავლოთ ენის კომპიუტერი?

130
00:06:21,490 --> 00:06:24,230
>> ასე რომ, მოდით ვიფიქროთ, რა განსხვავებაა
შორის მშობლიური ენა

131
00:06:24,230 --> 00:06:25,460
და კომპიუტერი.

132
00:06:25,460 --> 00:06:27,340
ასე რომ, რა ხდება სპიკერი?

133
00:06:27,340 --> 00:06:30,430
ისე, მშობლიური გაიგებს
ენის ზემოქმედებისაგან იგი.

134
00:06:30,430 --> 00:06:34,200
როგორც წესი, მისი ადრეული ბავშვობის განმავლობაში.

135
00:06:34,200 --> 00:06:38,570
ასე რომ, ძირითადად, თქვენ უბრალოდ უნდა ბავშვი,
და თქვენ გაქვთ საუბარი, და ეს

136
00:06:38,570 --> 00:06:40,540
უბრალოდ გაიგებს, როგორ საუბრობენ
ენა, უფლება?

137
00:06:40,540 --> 00:06:42,660
ასე რომ, თქვენ ძირითადად აძლევდა
შეყვანის ბავშვი.

138
00:06:42,660 --> 00:06:45,200
ასე რომ, მაშინ შეიძლება ითქვას, რომ კომპიუტერი
შეგვიძლია გავაკეთოთ იგივე, არა?

139
00:06:45,200 --> 00:06:49,510
შეგიძლიათ უბრალოდ მისცეს ენა
როგორც შეყვანის კომპიუტერს.

140
00:06:49,510 --> 00:06:53,410
>> მაგალითად bunch of ფაილი
რომ აქვს წიგნი ინგლისურ ენაზე.

141
00:06:53,410 --> 00:06:56,190
შესაძლოა, რომ ერთი გზა, რომ თქვენ
შეიძლება ასწავლიან

142
00:06:56,190 --> 00:06:57,850
კომპიუტერული English, არა?

143
00:06:57,850 --> 00:07:01,000
და რეალურად, თუ ფიქრობთ ამის შესახებ,
იგი მოგაწვდით იქნებ რამდენიმე

144
00:07:01,000 --> 00:07:02,680
დღის წაიკითხეთ წიგნი.

145
00:07:02,680 --> 00:07:05,760
კომპიუტერი სჭირდება მეორე
შევხედოთ ყველა სიტყვა წიგნი.

146
00:07:05,760 --> 00:07:10,810
ასე რომ თქვენ შეგიძლიათ ვფიქრობ, რომ შეიძლება მხოლოდ ამ
არგუმენტი შეიტანენ თქვენს გარშემო,

147
00:07:10,810 --> 00:07:15,440
ეს არ არის საკმარისი იმისათვის, რომ ვთქვათ, რომ ეს არის ის,
რაღაც, რომ მხოლოდ ადამიანს შეუძლია გააკეთოს.

148
00:07:15,440 --> 00:07:17,680
შეგიძლიათ წარმოიდგინოთ, კომპიუტერი
ასევე შეგიძლიათ მიიღოთ შეყვანა.

149
00:07:17,680 --> 00:07:21,170
>> მეორე ის არის, რომ შექმნილი მშობლიურ
ასევე აქვს ტვინის, რომ აქვს

150
00:07:21,170 --> 00:07:23,870
ენის შესწავლის შესაძლებლობა.

151
00:07:23,870 --> 00:07:27,020
მაგრამ თუ ფიქრობთ ამის შესახებ,
ტვინის არის კარგი რამ.

152
00:07:27,020 --> 00:07:30,450
როცა დაიბადა, ის უკვე შექმნილია -

153
00:07:30,450 --> 00:07:31,320
ეს არის თქვენი ტვინის.

154
00:07:31,320 --> 00:07:34,660
და როგორც თქვენ იზრდებიან, თქვენ უბრალოდ მეტი
შეყვანის ენაზე და იქნებ ნუტრიენტები

155
00:07:34,660 --> 00:07:35,960
და სხვა პერსონალი.

156
00:07:35,960 --> 00:07:38,170
მაგრამ საკმაოდ ბევრი თქვენი ტვინის
არის კარგი რამ.

157
00:07:38,170 --> 00:07:41,290
>> ასე რომ, შეიძლება ითქვას, ასევე, შესაძლოა, თქვენ შეგიძლიათ
აშენება კომპიუტერი, რომელსაც აქვს bunch of

158
00:07:41,290 --> 00:07:45,890
ფუნქციები და მეთოდები, რომ მხოლოდ mimic
ენის შესწავლის შესაძლებლობა.

159
00:07:45,890 --> 00:07:49,630
ასე რომ, ამ თვალსაზრისით, თქვენ შეიძლება ითქვას, ასევე, მე
შეიძლება ჰქონდეს კომპიუტერი, რომელსაც აქვს ყველა

160
00:07:49,630 --> 00:07:52,270
რამ უნდა ვისწავლოთ ენაზე.

161
00:07:52,270 --> 00:07:56,200
და ბოლო ისაა, რომ შექმნილი
სპიკერი გაიგებს სასამართლო და შეცდომა.

162
00:07:56,200 --> 00:08:01,090
ასე რომ, ძირითადად ერთი მნიშვნელოვანი რამ
ენის შემსწავლელი არის, რომ თქვენ ერთგვარი

163
00:08:01,090 --> 00:08:05,340
საქართველოს ვისწავლოთ რამ, რაც
დისკუსია, თუ რა გესმით.

164
00:08:05,340 --> 00:08:10,280
>> ასე რომ, როგორც თქვენ იზრდება იცით, რომ
ზოგიერთი სიტყვები უფრო არსებითი,

165
00:08:10,280 --> 00:08:11,820
ზოგიერთი სხვა პირობა ზედსართავები.

166
00:08:11,820 --> 00:08:14,250
და თქვენ არ უნდა ჰქონდეს რაიმე
ცოდნა ლინგვისტიკის

167
00:08:14,250 --> 00:08:15,040
უნდა გვესმოდეს, რომ.

168
00:08:15,040 --> 00:08:18,560
მაგრამ უბრალოდ ვიცი, არსებობს გარკვეული სიტყვები
პოზიციონირებული გარკვეული ნაწილი

169
00:08:18,560 --> 00:08:22,570
წინადადება და ზოგი სხვა
ნაწილების სასჯელს.

170
00:08:22,570 --> 00:08:26,110
>> და რომ, როდესაც თქვენ, რომ რაღაც
ისევე როგორც სასჯელი, რომ არ არის სწორი -

171
00:08:26,110 --> 00:08:28,770
იქნებ იმიტომ, რომ ზედმეტად განზოგადება
მაგალითად.

172
00:08:28,770 --> 00:08:32,210
შესაძლოა, როდესაც თქვენ იზრდებიან, თქვენ შეამჩნევთ
რომ მრავლობითი, როგორც წესი,

173
00:08:32,210 --> 00:08:35,809
ჩამოყალიბდა აყენებს S at
ბოლოს სიტყვა.

174
00:08:35,809 --> 00:08:40,042
და მაშინ ცდილობენ გააკეთონ მრავლობითი
"ირმის", როგორც "ირმები" ან "კბილი", როგორც

175
00:08:40,042 --> 00:08:44,780
"Tooths". ასე რომ თქვენი მშობლები ან
ვინმე შეასწორებს თქვენ და ამბობს, არა,

176
00:08:44,780 --> 00:08:49,020
მრავლობითი "ირმის" არის "ირმის", და
მრავლობითი "კბილის" არის "კბილი". და შემდეგ

177
00:08:49,020 --> 00:08:50,060
თქვენ ვისწავლოთ იმ რამ.

178
00:08:50,060 --> 00:08:51,520
ასე, რომ თქვენ ვისწავლოთ სასამართლო და შეცდომა.

179
00:08:51,520 --> 00:08:53,100
>> მაგრამ ასევე შეგიძლიათ გააკეთოთ, რომ
კომპიუტერი.

180
00:08:53,100 --> 00:08:55,310
თქვენ შეგიძლიათ რაღაც მოუწოდა
გამაგრება სწავლება.

181
00:08:55,310 --> 00:08:58,560
რომელიც ძირითადად მოსწონს მიცემა
კომპიუტერული ჯილდო, როცა ეს ასეა,

182
00:08:58,560 --> 00:08:59,410
რაღაც სწორად.

183
00:08:59,410 --> 00:09:04,710
და ვაძლევთ მას საპირისპირო ჯილდო
და როდესაც იგი აკეთებს რაღაც.

184
00:09:04,710 --> 00:09:07,410
თქვენ შეგიძლიათ რეალურად ვხედავთ, რომ თუ
to Google Translate და თქვენ ცდილობენ

185
00:09:07,410 --> 00:09:10,220
თარგმნა წინადადება, რომ
მოგთხოვთ კავშირი.

186
00:09:10,220 --> 00:09:13,240
ასე რომ, თუ თქვენ ამბობთ, oh, არსებობს უკეთესი
თარგმანი ამ სასჯელს.

187
00:09:13,240 --> 00:09:18,140
შეგიძლიათ ჩაწეროთ ეს და შემდეგ თუ ბევრი
ადამიანი შენარჩუნება და განაცხადა, რომ უკეთესი

188
00:09:18,140 --> 00:09:21,560
თარგმანი, უბრალოდ გაიგებს, რომ ის
უნდა გამოვიყენოთ, რომ თარგმანი ნაცვლად

189
00:09:21,560 --> 00:09:22,960
ერთი ეს აძლევდა.

190
00:09:22,960 --> 00:09:28,830
>> ასე რომ, ეს ძალიან ფილოსოფიური კითხვა
თუ კომპიუტერი იქნება

191
00:09:28,830 --> 00:09:30,340
შეუძლია გაიგო თუ არა მომავალში.

192
00:09:30,340 --> 00:09:34,440
მაგრამ მე დიდი იმედი, რომ მათ შეუძლიათ
უბრალოდ ეფუძნება იმ არგუმენტები.

193
00:09:34,440 --> 00:09:38,570
მაგრამ ეს მხოლოდ უფრო ფილოსოფიური
კითხვა.

194
00:09:38,570 --> 00:09:43,460
>> ასე რომ, ხოლო კომპიუტერები ჯერ კიდევ ვერ გაიგო,
რა არის ის, რაც ჩვენ შეგვიძლია გავაკეთოთ?

195
00:09:43,460 --> 00:09:47,070
რამდენიმე მართლაც მაგარი რამ არის
მონაცემთა კლასიფიკაცია.

196
00:09:47,070 --> 00:09:53,210
ასე, მაგალითად, თქვენ ბიჭები ვიცი
რომ ელექტრონული ფოსტის მომსახურების გავაკეთოთ, რომ

197
00:09:53,210 --> 00:09:55,580
მაგალითად, spam ფილტრაცია.

198
00:09:55,580 --> 00:09:59,070
ასე რომ, როდესაც თქვენ მიიღებთ spam, ის
ცდილობს, რათა გავფილტროთ სხვა ყუთში.

199
00:09:59,070 --> 00:10:00,270
ასე რომ, თუ იგი ამის გაკეთება?

200
00:10:00,270 --> 00:10:06,080
ეს იმას არ ნიშნავს რომ კომპიუტერი მხოლოდ იცის
რა ელფოსტა გაგზავნის spam.

201
00:10:06,080 --> 00:10:09,130
ასე რომ, ეს უფრო საფუძველზე შინაარსი
გაგზავნა, ან იქნებ სათაური ან

202
00:10:09,130 --> 00:10:11,310
შესაძლოა, რამდენიმე ნიმუში, რომ თქვენ გაქვთ.

203
00:10:11,310 --> 00:10:15,690
>> ასე რომ, ძირითადად, თუ რა შეგიძლიათ გააკეთოთ
ბევრი მონაცემები წერილებს, რომლებიც spam,

204
00:10:15,690 --> 00:10:19,980
წერილებს, რომლებიც არ არიან spam, და გაიგოთ
სახის ნიმუში გაქვთ

205
00:10:19,980 --> 00:10:21,000
პირობა, რომ spam.

206
00:10:21,000 --> 00:10:23,260
და ეს არის ნაწილი გამოთვლითი
ლინგვისტიკა.

207
00:10:23,260 --> 00:10:24,720
ეს მოუწოდა მონაცემები კლასიფიკაცია.

208
00:10:24,720 --> 00:10:28,100
და ჩვენ რეალურად აპირებს ვხედავ
მაგალითი, რომ მომდევნო სლაიდები.

209
00:10:28,100 --> 00:10:32,910
>> მეორე ის არის ბუნებრივი ენა
დამუშავება, რომელიც არის ის, რომ

210
00:10:32,910 --> 00:10:36,580
Graph ძებნა აკეთებს გაქირავების
წერთ სასჯელს.

211
00:10:36,580 --> 00:10:38,690
და ის ენდობა გესმით რა
მნიშვნელობა და აძლევს

212
00:10:38,690 --> 00:10:39,940
თქვენ უკეთესი შედეგი.

213
00:10:39,940 --> 00:10:43,880
რეალურად, თუ Google ან Bing
და თქვენ მოძებნოთ რაღაც Lady

214
00:10:43,880 --> 00:10:47,060
გაგა სიმაღლე, თქვენ რეალურად აპირებს
მიიღოს 5 '1 "ნაცვლად ინფორმაცია

215
00:10:47,060 --> 00:10:50,170
მისი, რადგან იგი რეალურად ესმის
რაც თქვენ ვსაუბრობთ.

216
00:10:50,170 --> 00:10:52,140
ასე რომ, ნაწილი ბუნებრივი
ენის გადამუშავება.

217
00:10:52,140 --> 00:10:57,000
>> ან ასევე, როდესაც თქვენ იყენებთ Siri, პირველი
თქვენ გაქვთ ალგორითმი, რომელიც ცდილობს

218
00:10:57,000 --> 00:11:01,130
თარგმნოს თუ რას ამბობდა
შევიდა სიტყვა, ტექსტში.

219
00:11:01,130 --> 00:11:03,690
და მაშინ იგი ცდილობს თარგმნოს
რომ შევიდა მნიშვნელობა.

220
00:11:03,690 --> 00:11:06,570
ისე, რომ ყველა ნაწილი ბუნებრივი
ენის გადამუშავება.

221
00:11:06,570 --> 00:11:08,320
>> მაშინ თქვენ გაქვთ მანქანური თარგმანი -

222
00:11:08,320 --> 00:11:10,300
რომელიც რეალურად ერთი
ჩემი რჩეულები -

223
00:11:10,300 --> 00:11:14,060
რომელიც მხოლოდ თარგმნიან დან
ენიდან მეორეზე.

224
00:11:14,060 --> 00:11:17,950
ასე რომ თქვენ შეგიძლიათ ვფიქრობ, რომ როდესაც თქვენ აკეთებთ
მანქანური თარგმანი, თქვენ უნდა

225
00:11:17,950 --> 00:11:19,750
უსასრულო შესაძლებლობები სასჯელს.

226
00:11:19,750 --> 00:11:22,960
ასე რომ არ არსებობს გზა უბრალოდ შენახვა
ყოველი თარგმანი.

227
00:11:22,960 --> 00:11:27,440
ასე რომ თქვენ უნდა ამუშავება საინტერესო
ალგორითმები შეძლებს

228
00:11:27,440 --> 00:11:30,110
თარგმნა ყველა ერთი
განაჩენი რამდენიმე გზა.

229
00:11:30,110 --> 00:11:32,483
>> თქვენ ბიჭები გაქვთ რაიმე შეკითხვები აქამდე?

230
00:11:32,483 --> 00:11:34,450
არა?

231
00:11:34,450 --> 00:11:34,830
OK.

232
00:11:34,830 --> 00:11:36,900
>> ასე რომ, რასაც ჩვენ ვაპირებთ ვხედავ დღეს?

233
00:11:36,900 --> 00:11:39,300
პირველ რიგში, მე ვაპირებ ვისაუბრო
კლასიფიკაციის პრობლემა.

234
00:11:39,300 --> 00:11:41,440
ასე რომ, ერთი, რომ მე ვიყავი
ამბობს spam.

235
00:11:41,440 --> 00:11:46,820
რა მე ვაპირებ რომ გააკეთოთ, არის, თუ გავითვალისწინებთ სიმღერები
სიმღერა, შეგიძლიათ ცდილობენ გაერკვნენ

236
00:11:46,820 --> 00:11:49,810
მაღალი ალბათობა
ვინ არის მომღერალი?

237
00:11:49,810 --> 00:11:53,590
ვთქვათ, რომ მე სიმღერა Lady
გაგა და Katy Perry, თუ მე მოგცემთ

238
00:11:53,590 --> 00:11:58,130
ახალი სიმღერა, შეგიძლიათ გაერკვნენ, თუ
ეს Katy Perry და Lady Gaga?

239
00:11:58,130 --> 00:12:01,490
>> მეორე, მე უბრალოდ აპირებს გაიგო
შესახებ სეგმენტაციის პრობლემა.

240
00:12:01,490 --> 00:12:05,780
ასე რომ, მე არ ვიცი, თუ ბიჭები ვიცი, მაგრამ
ჩინური, იაპონური, სხვა აღმოსავლეთ აზიის

241
00:12:05,780 --> 00:12:08,090
ენებზე, და სხვა ენებზე
ზოგადად, არ აქვს

242
00:12:08,090 --> 00:12:09,830
ფართები შორის სიტყვა.

243
00:12:09,830 --> 00:12:13,540
და თუ ფიქრობთ ამის შესახებ, ისე, რომ
თქვენს კომპიუტერში სახის ცდილობს

244
00:12:13,540 --> 00:12:18,600
მესმის ბუნებრივი ენის დამუშავება,
იგი უყურებს სიტყვა და

245
00:12:18,600 --> 00:12:21,500
ცდილობს მესმის ურთიერთობები
მათ შორის, არა?

246
00:12:21,500 --> 00:12:25,440
მაგრამ შემდეგ, თუ თქვენ გაქვთ ჩინური, და თქვენ
ნულოვანი ფართები, ეს მართლაც რთული

247
00:12:25,440 --> 00:12:28,360
გაირკვეს, თუ რა ურთიერთკავშირი არსებობს დღეს
სიტყვები, რადგან მათ არ აქვთ

248
00:12:28,360 --> 00:12:29,530
სიტყვა პირველი.

249
00:12:29,530 --> 00:12:32,600
ასე, რომ თქვენ უნდა გავაკეთოთ რაღაც მოუწოდა
სეგმენტაცია რომელიც მხოლოდ იმას ნიშნავს აყენებს

250
00:12:32,600 --> 00:12:36,490
ფართები შორის, რასაც ჩვენ მინდა მოვუწოდო
სიტყვები იმ ენებზე.

251
00:12:36,490 --> 00:12:37,740
აზრი?

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> და მაშინ ჩვენ ვაპირებთ
ლაპარაკი სინტაქსი.

254
00:12:41,540 --> 00:12:44,050
ასე რომ, უბრალოდ ცოტა ბუნებრივი
ენის გადამუშავება.

255
00:12:44,050 --> 00:12:45,420
ის აპირებს იყოს მხოლოდ მიმოხილვა.

256
00:12:45,420 --> 00:12:50,700
ასე რომ, დღეს, ძირითადად, რა მინდა
არის მოგცემთ ბიჭებს ცოტა

257
00:12:50,700 --> 00:12:53,930
შიგნით რა შესაძლებლობები
რომ შეგიძლიათ გააკეთოთ გამოთვლითი

258
00:12:53,930 --> 00:12:54,960
ლინგვისტიკა.

259
00:12:54,960 --> 00:13:00,410
და მაშინ დაინახავ, რა ფიქრობთ
არის მაგარი შორის რამ.

260
00:13:00,410 --> 00:13:02,270
და იქნებ შეგიძლიათ წარმოიდგინოთ, რომ პროექტი
და მოვიდა გაიგო ჩემთვის.

261
00:13:02,270 --> 00:13:05,260
მე და მოგცემთ რჩევებს
როგორ უნდა განახორციელოს იგი.

262
00:13:05,260 --> 00:13:09,060
>> ასე რომ სინტაქსი იქნება ცოტა
შესახებ Graph ძებნა და მანქანა

263
00:13:09,060 --> 00:13:09,670
თარგმანი.

264
00:13:09,670 --> 00:13:13,650
მე უბრალოდ აპირებს მაგალითია, თუ როგორ
თქვენ შეიძლება, მაგალითად, თარგმნა

265
00:13:13,650 --> 00:13:16,020
რაღაც Portuguese ინგლისური.

266
00:13:16,020 --> 00:13:17,830
ხმები კარგი?

267
00:13:17,830 --> 00:13:19,293
>> ასე რომ, პირველი, კლასიფიკაციის პრობლემა.

268
00:13:19,293 --> 00:13:23,590
მე ვიტყვი, რომ ამ ნაწილში სემინარი
იქნება ყველაზე რთული

269
00:13:23,590 --> 00:13:27,560
ერთი მხოლოდ იმიტომ, რომ იქ
უნდა იყოს გარკვეული კოდირება.

270
00:13:27,560 --> 00:13:29,470
მაგრამ ეს იქნება Python.

271
00:13:29,470 --> 00:13:34,380
მე ვიცი, რომ თქვენ ბიჭები არ ვიცი, Python, ასე რომ,
მე უბრალოდ აპირებს ასახსნელად მაღალი

272
00:13:34,380 --> 00:13:35,750
გახდება, რასაც მე ვაკეთებ.

273
00:13:35,750 --> 00:13:40,900
და თქვენ არ უნდა ნამდვილად აღელვებს ძალიან
ბევრი შესახებ syntax იმიტომ, რომ

274
00:13:40,900 --> 00:13:42,140
რაღაც ბიჭები შეიძლება ვისწავლოთ.

275
00:13:42,140 --> 00:13:42,540
OK?

276
00:13:42,540 --> 00:13:43,580
ჟღერს კარგი.

277
00:13:43,580 --> 00:13:46,020
>> რა არის კლასიფიკაციის პრობლემა?

278
00:13:46,020 --> 00:13:49,140
ასე რომ თქვენ მოცემული ზოგიერთი სიმღერები
სიმღერა, და გსურთ ვხვდები

279
00:13:49,140 --> 00:13:50,620
ვინც მღერის იგი.

280
00:13:50,620 --> 00:13:54,045
და ეს შეიძლება იყოს ნებისმიერი სახის
სხვა პრობლემები.

281
00:13:54,045 --> 00:13:59,980
ასე რომ, ეს შეიძლება იყოს, მაგალითად, თქვენ გაქვთ
საპრეზიდენტო კამპანია და თქვენ

282
00:13:59,980 --> 00:14:02,610
სიტყვის, და თქვენ გსურთ იპოვოთ
იმ შემთხვევაში, თუ ეს იყო, მაგალითად,

283
00:14:02,610 --> 00:14:04,470
ობამას ან MITT Romney.

284
00:14:04,470 --> 00:14:07,700
ან თქვენ შეგიძლიათ აქვს bunch of წერილებს და
გსურთ გაერკვნენ, თუ ისინი

285
00:14:07,700 --> 00:14:08,890
spam თუ არა.

286
00:14:08,890 --> 00:14:11,440
ასე რომ, ეს უბრალოდ კლასიფიკაციის ზოგიერთი
მონაცემები ეფუძნება სიტყვები

287
00:14:11,440 --> 00:14:13,790
ის, რომ თქვენ იქ.

288
00:14:13,790 --> 00:14:16,295
>> ასე რომ ამის გაკეთება, თქვენ უნდა
გარკვეული ვარაუდები.

289
00:14:16,295 --> 00:14:20,570
ასე რომ, ბევრი რამ კომპიუტერული ლინგვისტიკის
მიღების ვარაუდები,

290
00:14:20,570 --> 00:14:24,100
როგორც წესი, smart ვარაუდები, რომ
თქვენ შეგიძლიათ მიიღოს კარგი შედეგები.

291
00:14:24,100 --> 00:14:26,670
ცდილობს შექმნას მოდელი მას.

292
00:14:26,670 --> 00:14:31,290
და შემდეგ ცდილობენ გარეთ და თუ მუშაობს,
თუ ეს გაძლევთ კარგი სიზუსტით.

293
00:14:31,290 --> 00:14:33,940
და თუ ეს ასეა, მაშინ თქვენ
ცდილობენ გააუმჯობესოს ის.

294
00:14:33,940 --> 00:14:37,640
თუ ეს არ, თქვენ, როგორიცაა, OK, იქნებ მე
უნდა მიიღოს სხვადასხვა ვარაუდი.

295
00:14:37,640 --> 00:14:44,030
>> ასე რომ ვარაუდი, რომ ჩვენ ვაპირებთ
ის არის, რომ ხელოვანი, როგორც წესი, მღერის

296
00:14:44,030 --> 00:14:49,220
შესახებ თემა რამდენჯერმე, და იქნებ
იყენებს სიტყვა რამდენჯერმე მხოლოდ

297
00:14:49,220 --> 00:14:50,270
რადგან ისინი გამოიყენება იგი.

298
00:14:50,270 --> 00:14:51,890
შეგიძლიათ უბრალოდ ფიქრობთ, თქვენი მეგობარი.

299
00:14:51,890 --> 00:14:57,350
დარწმუნებული ვარ, ბიჭები ყველა მეგობრები
რომ ვთქვათ, მათი ხელმოწერის ფრაზა

300
00:14:57,350 --> 00:14:59,260
ფაქტიურად ყველა ერთი წინადადება -

301
00:14:59,260 --> 00:15:02,660
ისევე როგორც გარკვეული სიტყვა ან კონკრეტული
ფრაზა, რომ ვთქვა,

302
00:15:02,660 --> 00:15:04,020
ყოველი სასჯელი.

303
00:15:04,020 --> 00:15:07,920
>> და რა შეიძლება ითქვას, ის არის, რომ თუ ხედავთ
წინადადება, რომ აქვს ხელმოწერა

304
00:15:07,920 --> 00:15:11,450
ფრაზა, შეგიძლიათ ვფიქრობ, რომ, ალბათ,
თქვენი მეგობარი არის

305
00:15:11,450 --> 00:15:13,310
ერთი, რომ ეს, არა?

306
00:15:13,310 --> 00:15:18,410
ასე, რომ თქვენ მიიღოს, რომ ვარაუდი და შემდეგ
ეს არის ის, თუ როგორ შექმნათ მოდელი.

307
00:15:18,410 --> 00:15:24,440
>> მაგალითად, მე ვაპირებ მისთვის არის
როგორ Lady Gaga, მაგალითად, ადამიანი

308
00:15:24,440 --> 00:15:27,430
ამბობენ, რომ იგი იყენებს "baby" ამისთვის
ყველა მისი ნომერ სიმღერები.

309
00:15:27,430 --> 00:15:32,270
და რეალურად ეს არის ვიდეო, რომელიც გვიჩვენებს,
მას განაცხადა, რომ სიტყვა "ბავშვი" და

310
00:15:32,270 --> 00:15:33,410
სხვადასხვა სიმღერები.

311
00:15:33,410 --> 00:15:33,860
>> [ვიდეო აღწარმოების]

312
00:15:33,860 --> 00:15:34,310
>> - (სიმღერა) Baby.

313
00:15:34,310 --> 00:15:36,220
Baby.

314
00:15:36,220 --> 00:15:37,086
Baby.

315
00:15:37,086 --> 00:15:37,520
Baby.

316
00:15:37,520 --> 00:15:37,770
Baby.

317
00:15:37,770 --> 00:15:38,822
Babe.

318
00:15:38,822 --> 00:15:39,243
Baby.

319
00:15:39,243 --> 00:15:40,085
Baby.

320
00:15:40,085 --> 00:15:40,510
Baby.

321
00:15:40,510 --> 00:15:40,850
Baby.

322
00:15:40,850 --> 00:15:41,090
>> [END ვიდეო აღწარმოების-

323
00:15:41,090 --> 00:15:44,020
>> LUCAS Freitas: ასე რომ, ვფიქრობ,
40 სიმღერები აქ, რომელშიც იგი ამბობს, რომ

324
00:15:44,020 --> 00:15:48,690
სიტყვა "ბავშვი". ასე რომ თქვენ შეგიძლიათ ძირითადად ვხვდები
იმ შემთხვევაში, თუ ხედავთ სიმღერა რომ აქვს

325
00:15:48,690 --> 00:15:52,180
სიტყვა "ბავშვი," არსებობს გარკვეული მაღალი
ალბათობა იმისა, რომ ეს ლედი გაგა.

326
00:15:52,180 --> 00:15:56,450
მაგრამ მოდით ცდილობენ განავითარონ
კიდევ უფრო ფორმალურად.

327
00:15:56,450 --> 00:16:00,470
>> ასე რომ ეს არის სიმღერები სიმღერები
ლედი გაგა და Katy Perry.

328
00:16:00,470 --> 00:16:04,120
ასე, რომ თქვენ შევხედოთ ლედი გაგა, ხედავთ,
აქვს ბევრი შემთხვევები "baby"

329
00:16:04,120 --> 00:16:07,710
ბევრი შემთხვევები "გზა". და შემდეგ
Katy Perry აქვს უამრავი შემთხვევები

330
00:16:07,710 --> 00:16:10,360
"" ბევრი შემთხვევები "ცეცხლი".

331
00:16:10,360 --> 00:16:14,560
>> ასე რომ, ძირითადად, რაც ჩვენ გვსურს
გავაკეთოთ არის, თქვენ ლირიკული.

332
00:16:14,560 --> 00:16:20,480
ვთქვათ, რომ თქვენ ლირიკული აქვს
სიმღერა რომ არის "baby", მხოლოდ "ბავშვი." იმ შემთხვევაში, თუ

333
00:16:20,480 --> 00:16:24,750
თქვენ უბრალოდ სიტყვა "ბავშვი" და ამ
ყველა მონაცემები, რომ თქვენ გაქვთ ეხლა

334
00:16:24,750 --> 00:16:27,880
ლედი გაგა და Katy Perry, რომელიც
თქვენ გამოიცანით არის ადამიანი

335
00:16:27,880 --> 00:16:29,370
რომელიც მღერის სიმღერას?

336
00:16:29,370 --> 00:16:32,360
Lady Gaga ან Katy Perry?

337
00:16:32,360 --> 00:16:33,150
ლედი გაგა, არა?

338
00:16:33,150 --> 00:16:37,400
იმიტომ, რომ ის ერთადერთია, ვინც ამბობს, რომ
"ბავშვი". ეს ჟღერს სულელური, არა?

339
00:16:37,400 --> 00:16:38,760
OK, ეს ნამდვილად არ არის ადვილი.

340
00:16:38,760 --> 00:16:41,860
მე უბრალოდ ეძებს ორი სიმღერა და
რა თქმა უნდა, ის ერთადერთი, რომელსაც აქვს

341
00:16:41,860 --> 00:16:42,660
"ბავშვი".

342
00:16:42,660 --> 00:16:44,740
>> მაგრამ რა, თუ თქვენ გაქვთ bunch of სიტყვები?

343
00:16:44,740 --> 00:16:50,900
თუ თქვენ გაქვთ ფაქტობრივი lyric, რაღაც
როგორიცაა, "ბავშვი, მე, უბრალოდ,

344
00:16:50,900 --> 00:16:51,610
წავიდა ვხედავ [? CFT?]

345
00:16:51,610 --> 00:16:54,020
ლექცია "ან რამე მაგდაგვარს და
მაშინ რეალურად უნდა გაერკვნენ, -

346
00:16:54,020 --> 00:16:55,780
საფუძველზე ყველა იმ სიტყვებით -

347
00:16:55,780 --> 00:16:58,350
ვინ არის მხატვარი, რომელმაც, ალბათ,
მღეროდა ამ სიმღერას?

348
00:16:58,350 --> 00:17:01,860
მოდით ცდილობენ განავითარონ
ეს ცოტა უფრო.

349
00:17:01,860 --> 00:17:05,630
>> OK, ასე რომ მხოლოდ მონაცემები, რომ ჩვენ
მიიღო, როგორც ჩანს, გაგა, ალბათ,

350
00:17:05,630 --> 00:17:06,260
მომღერალი.

351
00:17:06,260 --> 00:17:07,904
მაგრამ როგორ შეიძლება ჩვენ წერენ
ეს უფრო ფორმალურად?

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
და იქ იქნება პატარა
ცოტა სტატისტიკა.

354
00:17:13,140 --> 00:17:15,880
ასე რომ, თუ დაკარგა, უბრალოდ ცდილობენ
მესმის კონცეფცია.

355
00:17:15,880 --> 00:17:18,700
არ აქვს მნიშვნელობა, თუ გესმით
განტოლებათა კარგად.

356
00:17:18,700 --> 00:17:22,150
ეს ყველაფერი იქნება ონლაინ რეჟიმში.

357
00:17:22,150 --> 00:17:25,490
>> ასე რომ, ძირითადად, რაც მე გაანგარიშების არის
ალბათობა იმისა, რომ ეს სიმღერა არის

358
00:17:25,490 --> 00:17:28,040
Lady Gaga იმის გათვალისწინებით, რომ -

359
00:17:28,040 --> 00:17:30,660
ასე რომ, ეს ბარი ნიშნავს რომ -

360
00:17:30,660 --> 00:17:33,680
ვნახე სიტყვა "ბავშვი".
ამჯამად რომ აზრი?

361
00:17:33,680 --> 00:17:35,540
ასე რომ, მე ვცდილობ რომ გამოვთვალოთ
რომ ალბათობა.

362
00:17:35,540 --> 00:17:38,540
>> ასე არ არის, ეს თეორემა ეწოდება
Bayes თეორემა, რომელიც ამბობს, რომ

363
00:17:38,540 --> 00:17:43,330
ალბათობა მოცემული B არის
ალბათობა B მოცემული, ჯერ

364
00:17:43,330 --> 00:17:47,660
ალბათობა, მეტი ალბათობა
ბ ეს არის ხანგრძლივი განტოლება.

365
00:17:47,660 --> 00:17:51,970
მაგრამ ის, რაც თქვენ უნდა გვესმოდეს, ეხლა
რომ არის, რომ ეს არის ის, რაც მე მინდა

366
00:17:51,970 --> 00:17:52,830
გამოთვლა, არა?

367
00:17:52,830 --> 00:17:56,570
ამიტომ ალბათობა იმისა, რომ ეს სიმღერა არის
Lady Gaga რომ ვნახე სიტყვა

368
00:17:56,570 --> 00:17:58,230
"ბავშვი".

369
00:17:58,230 --> 00:18:02,960
>> და ახლა რა მე მისაღებად არის
ალბათობა სიტყვა "ბავშვი" გადაეცა

370
00:18:02,960 --> 00:18:04,390
რომ მაქვს ლედი გაგა.

371
00:18:04,390 --> 00:18:07,220
და რა არის, რომ ძირითადად?

372
00:18:07,220 --> 00:18:10,500
რას ნიშნავს ეს, რა არის
ალბათობა ხედავს სიტყვა "ბავშვი"

373
00:18:10,500 --> 00:18:12,130
in Gaga სიმღერები?

374
00:18:12,130 --> 00:18:16,240
თუ მინდა გამოთვლა, რომ ძალიან
მარტივი გზა, უბრალოდ რაოდენობის

375
00:18:16,240 --> 00:18:23,640
ჯერ მე ვერ ვხედავ "baby" მეტი საერთო რაოდენობის
სიტყვების Gaga სიმღერები, არა?

376
00:18:23,640 --> 00:18:27,600
რა არის სიხშირე, რომ მე ვერ ვხედავ
რომ სიტყვა Gaga-ს მუშაობა?

377
00:18:27,600 --> 00:18:30,530
აზრი?

378
00:18:30,530 --> 00:18:33,420
>> მეორე ვადით არის
ალბათობა გაგა.

379
00:18:33,420 --> 00:18:34,360
რას ნიშნავს ეს?

380
00:18:34,360 --> 00:18:38,550
ეს ნიშნავს იმას, თუ რა არის
ალბათობის კლასიფიკაციის

381
00:18:38,550 --> 00:18:40,690
ზოგიერთი სიმღერები როგორც გაგა?

382
00:18:40,690 --> 00:18:45,320
და ეს არის სახის უცნაური, მაგრამ
მოდით ვიფიქროთ მაგალითი.

383
00:18:45,320 --> 00:18:49,230
მოდით ვთქვათ, რომ ალბათობა
რომელსაც "Baby" სიმღერა არის იგივე

384
00:18:49,230 --> 00:18:51,760
განთავსების გაგა და Britney Spears.

385
00:18:51,760 --> 00:18:54,950
მაგრამ Britney Spears ორჯერ
სხვა სიმღერები, გარდა ლედი გაგა.

386
00:18:54,950 --> 00:19:00,570
ასე რომ, თუ ვინმე უბრალოდ შემთხვევით გაძლევთ
სიმღერები "ბავშვი," პირველი, რაც თქვენ

387
00:19:00,570 --> 00:19:04,710
შევხედოთ, რა არის ალბათობა
რომელსაც "baby" წელს Gaga სიმღერა "Baby"

388
00:19:04,710 --> 00:19:05,410
წელს Britney სიმღერა?

389
00:19:05,410 --> 00:19:06,460
და ეს იგივე.

390
00:19:06,460 --> 00:19:10,040
>> ასე რომ, მეორე ის, რომ თქვენ ნახავთ არის,
კარგად, რა არის ალბათობა

391
00:19:10,040 --> 00:19:13,770
ამ ლირიკული თავისთავად მყოფი გაგა lyric,
და რა არის ალბათობა

392
00:19:13,770 --> 00:19:15,380
მიმდინარეობს Britney ლირიკული?

393
00:19:15,380 --> 00:19:18,950
ასე რომ, რადგან Britney ამდენი მეტი ლექსები
გარდა გაგა, თქვენ ალბათ

394
00:19:18,950 --> 00:19:21,470
ვთქვათ, ისე, ეს, ალბათ,
Britney ლირიკული.

395
00:19:21,470 --> 00:19:23,340
ასე რომ, ამიტომ ჩვენ ამ
ტერმინი უფლება აქ.

396
00:19:23,340 --> 00:19:24,670
ალბათობა გაგა.

397
00:19:24,670 --> 00:19:26,950
აზრი?

398
00:19:26,950 --> 00:19:28,660
აკეთებს?

399
00:19:28,660 --> 00:19:29,370
OK.

400
00:19:29,370 --> 00:19:33,500
>> და ბოლოს ერთი უბრალოდ ალბათობა
of "ბავშვი", რომელიც არ

401
00:19:33,500 --> 00:19:34,810
ნამდვილად აქვს, რომ ბევრად.

402
00:19:34,810 --> 00:19:39,940
მაგრამ ალბათობა
ხედავს "baby" ინგლისურ ენაზე.

403
00:19:39,940 --> 00:19:42,725
როგორც წესი, ჩვენ არ მაინტერესებს, რომ
ბევრი რომ ვადით.

404
00:19:42,725 --> 00:19:44,490
ამჯამად რომ აზრი?

405
00:19:44,490 --> 00:19:48,110
ასე რომ, ალბათობა Gaga არის
ე.წ. წინასწარი ალბათობა

406
00:19:48,110 --> 00:19:49,530
კლასი გაგა.

407
00:19:49,530 --> 00:19:53,840
იმის გამო, რომ ეს მხოლოდ იმას ნიშნავს, რომ, რა არის
ალბათობის მქონე, რომ კლასი -

408
00:19:53,840 --> 00:19:55,520
რომელიც Gaga -

409
00:19:55,520 --> 00:19:59,350
უბრალოდ, ზოგადად, მხოლოდ
ერთად არ პირობებით.

410
00:19:59,350 --> 00:20:02,560
>> და მაშინ, როდესაც მე მაქვს ალბათობის
გაგა მიეცეს "baby", ჩვენ მას პლუს

411
00:20:02,560 --> 00:20:06,160
teary ალბათობა, რადგან ის
ალბათობის მქონე

412
00:20:06,160 --> 00:20:08,300
გაგა მოცემული ზოგიერთი მტკიცებულება.

413
00:20:08,300 --> 00:20:11,050
ამიტომ მე გაძლევთ მტკიცებულება
რომ ვნახე სიტყვა ბავშვი და

414
00:20:11,050 --> 00:20:12,690
სიმღერა აზრი?

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
OK.

417
00:20:16,410 --> 00:20:22,400
>> ასე რომ, თუ მე გათვლილი, რომ თითოეული
სიმღერები ლედი გაგა,

418
00:20:22,400 --> 00:20:25,916
რა, რომ იქნება -

419
00:20:25,916 --> 00:20:27,730
როგორც ჩანს, ვერ გადავა ეს.

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
ალბათობა Gaga იქნება
რაღაც, 2 ზე 24 ჯერ 1/2,

422
00:20:36,920 --> 00:20:38,260
დაახლოებით 2 ზე 53.

423
00:20:38,260 --> 00:20:40,640
არ აქვს მნიშვნელობა, თუ იცით რას
ეს ციფრები მოდის.

424
00:20:40,640 --> 00:20:44,750
მაგრამ ეს მხოლოდ იმ ნომერზე, რომელიც აპირებს
უნდა იყოს უფრო მეტი ვიდრე 0, არა?

425
00:20:44,750 --> 00:20:48,610
>> და მაშინ, როდესაც გავაკეთო Katy Perry,
ალბათობა "ბავშვი" მოცემული Katy არის

426
00:20:48,610 --> 00:20:49,830
უკვე 0, არა?

427
00:20:49,830 --> 00:20:52,820
რადგან იქ არ არის "ბავშვი"
in Katy Perry.

428
00:20:52,820 --> 00:20:56,360
ასე რომ მაშინ ეს ხდება 0, და გაგა
მოგება, რაც იმას ნიშნავს, რომ გაგა არის

429
00:20:56,360 --> 00:20:57,310
ალბათ მომღერალი.

430
00:20:57,310 --> 00:20:58,560
ამჯამად რომ აზრი?

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
OK.

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> ასე რომ, თუ მინდა, რომ ეს უფრო ოფიციალური,
შემიძლია რეალურად გავაკეთოთ მოდელი

435
00:21:11,750 --> 00:21:12,700
მრავალი სიტყვა.

436
00:21:12,700 --> 00:21:14,610
მოდით ვთქვათ, რომ მაქვს რაღაც
როგორიცაა: "ბავშვი ვარ,

437
00:21:14,610 --> 00:21:16,030
ცეცხლი, "ან რამე.

438
00:21:16,030 --> 00:21:17,760
ასე რომ, ეს მრავლობითი სიტყვა.

439
00:21:17,760 --> 00:21:20,880
და ამ შემთხვევაში, თქვენ ხედავთ,
რომ "ბავშვი" არის გაგა,

440
00:21:20,880 --> 00:21:21,710
მაგრამ ეს არ Katy.

441
00:21:21,710 --> 00:21:24,940
და "ცეცხლი" არის Katy, მაგრამ
ეს არ არის გაგა, არა?

442
00:21:24,940 --> 00:21:27,200
ასე რომ, ის მიღების trickier, არა?

443
00:21:27,200 --> 00:21:31,440
იმის გამო, რომ, როგორც ჩანს, თქვენ თითქმის
აქვს ჰალსტუხი შორის.

444
00:21:31,440 --> 00:21:36,980
>> ასე რომ, ის, რაც თქვენ უნდა გააკეთოთ ვივარაუდოთ,
დამოუკიდებლობის შორის სიტყვა.

445
00:21:36,980 --> 00:21:41,210
ასე რომ, ძირითადად, რას ნიშნავს ის არის, რომ
მე მხოლოდ გამოთვლის თუ რა არის

446
00:21:41,210 --> 00:21:44,330
ალბათობა ხედავს "ბავშვი," რა არის
ალბათობა ხედავს "მე" და

447
00:21:44,330 --> 00:21:46,670
"ვარ", და "ი" და "ცეცხლი"
ყველა ცალკე.

448
00:21:46,670 --> 00:21:48,670
მაშინ მე გამრავლებით ყველა მათგანი.

449
00:21:48,670 --> 00:21:52,420
და მე ხედავს, რა არის ალბათობა
ხედავს მთელი სასჯელი.

450
00:21:52,420 --> 00:21:55,210
აზრი?

451
00:21:55,210 --> 00:22:00,270
>> ასე რომ, ძირითადად, თუ მაქვს მხოლოდ ერთი სიტყვა,
რაც მე მინდა, რომ იპოვოთ არის Arg max,

452
00:22:00,270 --> 00:22:05,385
რაც იმას ნიშნავს, რა არის კლასი, რომელიც არის
მაძლევს მაღალი ალბათობა?

453
00:22:05,385 --> 00:22:10,010
რა არის კლასი, რომელიც იძლევა
ჩემთვის ყველაზე დიდი ალბათობა

454
00:22:10,010 --> 00:22:11,940
ალბათობა დონის მოცემული სიტყვა.

455
00:22:11,940 --> 00:22:17,610
ასე რომ, ამ შემთხვევაში, გაგა მოცემული "ბავშვი."
ან Katy მოცემული "ბავშვი." აზრი?

456
00:22:17,610 --> 00:22:21,040
>> და მხოლოდ Bayes, რომელიც
განტოლება, რომ მე აჩვენა,

457
00:22:21,040 --> 00:22:24,780
ჩვენ ვქმნით ამ ფრაქცია.

458
00:22:24,780 --> 00:22:28,750
მხოლოდ ის არის, რომ თქვენ ხედავთ, რომ
ალბათობა სიტყვა ეძლევა

459
00:22:28,750 --> 00:22:31,370
დონის ცვლილებები დამოკიდებულია
იმ დონის, არა?

460
00:22:31,370 --> 00:22:34,260
ნომერი "baby" s რომ მაქვს
in Gaga განსხვავდება Katy.

461
00:22:34,260 --> 00:22:37,640
ალბათობა დონის ასევე
ცვლილებები, რადგან ეს არის მხოლოდ ნომერი

462
00:22:37,640 --> 00:22:39,740
სიმღერები თითოეული მათგანი აქვს.

463
00:22:39,740 --> 00:22:43,980
>> მაგრამ ალბათობა სიტყვა თავად
იქნება იგივე

464
00:22:43,980 --> 00:22:44,740
მხატვრები, არა?

465
00:22:44,740 --> 00:22:47,150
ასე რომ, ალბათობა სიტყვა
უბრალოდ, რა არის ალბათობა

466
00:22:47,150 --> 00:22:49,820
ვხედავთ, რომ სიტყვა
ინგლისური ენის?

467
00:22:49,820 --> 00:22:51,420
ასე რომ, ეს იგივე ყველა მათგანი.

468
00:22:51,420 --> 00:22:55,790
ასე რომ, რადგან ეს არის მუდმივი, ჩვენ შეგვიძლია მხოლოდ
ჩამოაგდეს და არ აინტერესებს ეს.

469
00:22:55,790 --> 00:23:00,230
ასე რომ, ეს იქნება რეალურად
განტოლება ჩვენ ვეძებთ.

470
00:23:00,230 --> 00:23:03,360
>> და თუ მე რამდენიმე სიტყვა, მე ვარ
კვლავ აპირებს აქვს წინასწარი

471
00:23:03,360 --> 00:23:04,610
ალბათობა აქ.

472
00:23:04,610 --> 00:23:06,980
მხოლოდ ის არის, რომ მე გამრავლებით
ალბათობა

473
00:23:06,980 --> 00:23:08,490
ყველა სხვა სიტყვა.

474
00:23:08,490 --> 00:23:10,110
ამიტომ მე გამრავლებით ყველა მათგანი.

475
00:23:10,110 --> 00:23:12,610
აზრი?

476
00:23:12,610 --> 00:23:18,440
ეს გამოიყურება უცნაური, მაგრამ, ძირითადად, ნიშნავს,
გამოვთვალოთ წინასწარი კლასის და

477
00:23:18,440 --> 00:23:22,100
მაშინ გამრავლების მიერ ალბათობა თითოეული
სიტყვა, რომ ამ კლასში.

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> და თქვენ იცით, რომ ალბათობა
სიტყვა ეძლევა კლასი იქნება

480
00:23:29,150 --> 00:23:34,520
რამდენჯერმე ხედავთ, რომ სიტყვა
რომ კლასი იყოფა ნომერი

481
00:23:34,520 --> 00:23:37,020
სიტყვა თქვენ, რომ
კლასი კულტურას.

482
00:23:37,020 --> 00:23:37,990
აზრი?

483
00:23:37,990 --> 00:23:41,680
ის, თუ რამდენად "Baby" 2 მეტი
სიტყვების რაოდენობა, რომელიც

484
00:23:41,680 --> 00:23:43,020
მქონდა სიმღერები.

485
00:23:43,020 --> 00:23:45,130
ასე რომ მხოლოდ სიხშირე.

486
00:23:45,130 --> 00:23:46,260
>> მაგრამ არსებობს ერთი რამ.

487
00:23:46,260 --> 00:23:51,250
მახსოვს, როგორ მე აჩვენებს, რომ
ალბათობა "baby" მიმდინარეობს სიმღერები

488
00:23:51,250 --> 00:23:56,350
ეხლა Katy Perry 0 მხოლოდ იმიტომ, რომ Katy
Perry არ აქვს "ბავშვი" საერთოდ?

489
00:23:56,350 --> 00:24:04,900
მაგრამ ეს ჟღერს ცოტა უხეში მხოლოდ
უბრალოდ ამბობენ, რომ ლექსები არ შეიძლება იყოს

490
00:24:04,900 --> 00:24:10,040
მხატვარი მხოლოდ იმიტომ, რომ მათ არ აქვთ
რომ სიტყვა, კერძოდ, ნებისმიერ დროს.

491
00:24:10,040 --> 00:24:13,330
>> ასე რომ თქვენ შეიძლება უბრალოდ, ვამბობთ, ასევე, თუ თქვენ
არ აქვს ამ სიტყვას, მე ვაპირებ

492
00:24:13,330 --> 00:24:15,640
მოგცემთ დაბალია ალბათობა,
მაგრამ მე უბრალოდ არ აპირებს

493
00:24:15,640 --> 00:24:17,420
მოგცემთ 0 დაუყოვნებლივ.

494
00:24:17,420 --> 00:24:21,040
იმის გამო, რომ იქნებ ეს იყო რაღაც,
"ცეცხლი, ცეცხლი, ცეცხლი, ცეცხლი", რომელიც

495
00:24:21,040 --> 00:24:21,990
სრულიად Katy Perry.

496
00:24:21,990 --> 00:24:26,060
და შემდეგ "ბავშვი," და ეს მხოლოდ მიდის
0 დაუყოვნებლივ, რადგან არ იყო ერთი

497
00:24:26,060 --> 00:24:27,250
"ბავშვი".

498
00:24:27,250 --> 00:24:31,440
>> ასე რომ, ძირითადად თუ რას ვაკეთებთ არის ის,
ე.წ. Laplace დამარბილებელი.

499
00:24:31,440 --> 00:24:36,260
და ეს მხოლოდ იმას ნიშნავს, რომ მე ვაძლევთ
ზოგიერთი ალბათობა კი სიტყვები

500
00:24:36,260 --> 00:24:37,850
რომ არ არსებობს.

501
00:24:37,850 --> 00:24:43,170
ასე რომ, რა გავაკეთო, რომ როდესაც მე ვარ
გამოთვლის ამ, მე ყოველთვის დაამატოთ 1

502
00:24:43,170 --> 00:24:44,180
მრიცხველი.

503
00:24:44,180 --> 00:24:48,060
ისე კი, თუ სიტყვა არ არსებობს, in
ამ შემთხვევაში, თუ ეს არის 0, მე მაინც

504
00:24:48,060 --> 00:24:51,250
საანგარიშო ეს 1 მეტი
საერთო რაოდენობის სიტყვები.

505
00:24:51,250 --> 00:24:55,060
წინააღმდეგ შემთხვევაში, მე კიდევ რამდენი სიტყვა
მაქვს მე და დაამატეთ 1.

506
00:24:55,060 --> 00:24:58,300
ასე რომ, მე დათვლის ორივე შემთხვევაში.

507
00:24:58,300 --> 00:25:00,430
აზრი?

508
00:25:00,430 --> 00:25:03,060
>> ახლა მოდით დაკავდით კოდირების.

509
00:25:03,060 --> 00:25:06,440
მე ვაპირებ უნდა გავაკეთოთ საკმაოდ სწრაფად,
მაგრამ ეს მხოლოდ მნიშვნელოვანია, რომ თქვენ

510
00:25:06,440 --> 00:25:08,600
ბიჭებს ესმით ცნებები.

511
00:25:08,600 --> 00:25:13,450
ასე რომ, რასაც ჩვენ ვცდილობთ გავაკეთოთ
ზუსტად შევასრულებთ

512
00:25:13,450 --> 00:25:14,330
რამ, რომ მე უბრალოდ განაცხადა -

513
00:25:14,330 --> 00:25:19,110
მინდა დააყენოს სიმღერები საწყისი
ლედი გაგა და Katy Perry.

514
00:25:19,110 --> 00:25:22,980
და პროგრამა აპირებს შეძლებს
ამბობენ, რომ თუ ეს ახალი სიმღერები არის ეხლა გაგა

515
00:25:22,980 --> 00:25:24,170
ან Katy Perry.

516
00:25:24,170 --> 00:25:25,800
აზრი?

517
00:25:25,800 --> 00:25:27,530
OK.

518
00:25:27,530 --> 00:25:30,710
>> ასე რომ, მე ამ პროგრამის მე ვაპირებ
მოვუწოდებთ classify.py.

519
00:25:30,710 --> 00:25:31,970
ასე რომ, ეს არის Python.

520
00:25:31,970 --> 00:25:34,210
ეს არის ახალი პროგრამირების ენა.

521
00:25:34,210 --> 00:25:38,020
ეს ძალიან ჰგავს ზოგიერთი
გზები C და PHP.

522
00:25:38,020 --> 00:25:43,180
ეს მსგავსი რადგან თუ გსურთ
ვისწავლოთ Python შემდეგ იცის C, ის

523
00:25:43,180 --> 00:25:46,270
ნამდვილად არ არის, რომ ბევრი გამოწვევა
მხოლოდ იმიტომ, რომ Python ბევრად უფრო ადვილია,

524
00:25:46,270 --> 00:25:47,520
ვიდრე C, პირველ რიგში.

525
00:25:47,520 --> 00:25:49,370
და ბევრი რამ უკვე
რეალიზებულია თქვენთვის.

526
00:25:49,370 --> 00:25:56,820
ასე რომ, თუ რამდენად მოსწონს PHP აქვს ფუნქციები,
დასალაგებლად სიაში, ან დამატება, რაღაც

527
00:25:56,820 --> 00:25:58,780
მასივი, ან blah, blah, blah.

528
00:25:58,780 --> 00:26:00,690
Python აქვს ყველა იმ ასევე.

529
00:26:00,690 --> 00:26:05,960
>> ამიტომ მე უბრალოდ აპირებს ახსნას სწრაფად
როგორ შეგვიძლია გავაკეთოთ კლასიფიკაცია

530
00:26:05,960 --> 00:26:07,860
პრობლემა აქ.

531
00:26:07,860 --> 00:26:13,230
მოდით ვთქვათ, რომ ამ შემთხვევაში, მე მაქვს
სიმღერები საწყისი გაგა და Katy Perry.

532
00:26:13,230 --> 00:26:21,880
ისე, რომ მე არ მაქვს იმ ლექსები არის, რომ
პირველი სიტყვა სიმღერები არის

533
00:26:21,880 --> 00:26:25,250
სახელი მხატვარი, და
დანარჩენი სიმღერები.

534
00:26:25,250 --> 00:26:29,470
მოდით ვთქვათ, რომ მე ამ სიაში
რომელიც პირველი ლექსები გაგა.

535
00:26:29,470 --> 00:26:31,930
ასე რომ აქ მე ვარ სწორ გზაზე.

536
00:26:31,930 --> 00:26:35,270
და შემდეგი ერთი Katy და
მას აქვს აგრეთვე სიმღერები.

537
00:26:35,270 --> 00:26:38,040
>> ასე რომ, ეს არის, თუ როგორ აცხადებენ
ცვლადი Python.

538
00:26:38,040 --> 00:26:40,200
თქვენ არ მისცეს მონაცემები ტიპის.

539
00:26:40,200 --> 00:26:43,150
თქვენ უბრალოდ დაწერეთ "ლექსები"
სახის მოსწონს PHP.

540
00:26:43,150 --> 00:26:44,890
აზრი?

541
00:26:44,890 --> 00:26:47,770
>> რა არის რამ, რომ მე უნდა
გამოვთვალოთ შეძლებს გამოვთვალოთ

542
00:26:47,770 --> 00:26:49,360
ალბათობა?

543
00:26:49,360 --> 00:26:55,110
მე უნდა გამოვთვალოთ "Priors"
თითოეული სხვადასხვა

544
00:26:55,110 --> 00:26:56,710
კლასების, რომ მაქვს.

545
00:26:56,710 --> 00:27:06,680
მე უნდა გამოვთვალოთ "posteriors"
ან საკმაოდ ბევრი ალბათობების

546
00:27:06,680 --> 00:27:12,150
თითოეული სხვადასხვა სიტყვა, რომ
შემიძლია აქვს, თითოეული მხატვარი.

547
00:27:12,150 --> 00:27:17,210
ასე რომ, გაგა, მაგალითად, მე ვაპირებ
აქვს სია, რამდენჯერ მე ვერ ვხედავ

548
00:27:17,210 --> 00:27:19,250
თითოეული სიტყვა.

549
00:27:19,250 --> 00:27:20,760
აზრი?

550
00:27:20,760 --> 00:27:25,370
>> და ბოლოს, მე უბრალოდ აპირებს
სიაში სახელწოდებით "სიტყვა", რომელიც მხოლოდ აპირებს

551
00:27:25,370 --> 00:27:29,780
აქვს რამდენი სიტყვა I
ყოველი მხატვარი.

552
00:27:29,780 --> 00:27:33,760
ასე რომ, გაგა, მაგალითად, როდესაც ვუყურებ
რომ სიმღერები, მე ვფიქრობ, რომ 24

553
00:27:33,760 --> 00:27:34,750
სიტყვა შეადგენს.

554
00:27:34,750 --> 00:27:38,970
ასე რომ, ამ სიაში მხოლოდ აპირებს აქვს
Gaga 24 და Katy სხვა ნომერზე.

555
00:27:38,970 --> 00:27:40,130
აზრი?

556
00:27:40,130 --> 00:27:40,560
OK.

557
00:27:40,560 --> 00:27:42,530
>> ახლა, რეალურად, მოდით
წასვლა კოდირების.

558
00:27:42,530 --> 00:27:45,270
ასე რომ, Python, შეგიძლიათ რეალურად
დაბრუნებას bunch სხვადასხვა

559
00:27:45,270 --> 00:27:46,630
რამ ფუნქცია.

560
00:27:46,630 --> 00:27:50,810
ამიტომ მე ვაპირებ, რათა შეიქმნას ამ ფუნქციის
ე.წ. "პირობითი", რომელიც აპირებს

561
00:27:50,810 --> 00:27:53,890
დაბრუნდეს ყველა იმ რამ,
"Priors", "ალბათობა," და

562
00:27:53,890 --> 00:28:05,690
"სიტყვა". ასე რომ "პირობითი" და ეს
იქნება მოუწოდებდა შევიდა "ლექსები".

563
00:28:05,690 --> 00:28:11,510
>> ასე რომ, ახლა მინდა, რომ რეალურად
წერენ ამ ფუნქციას.

564
00:28:11,510 --> 00:28:17,750
ასე რომ, ისე, რომ მე შეგიძლიათ დაწეროთ ამ
ფუნქცია მე უბრალოდ განისაზღვრება ამ

565
00:28:17,750 --> 00:28:20,620
ფუნქციონირებას "def". ასე რომ, მე "def
პირობითი, "და ის აღება

566
00:28:20,620 --> 00:28:28,700
"ლექსები". და რას აპირებს
არის, პირველ რიგში, მე მაქვს ჩემი Priors

567
00:28:28,700 --> 00:28:31,030
რომ მინდა გამოთვლა.

568
00:28:31,030 --> 00:28:34,330
>> ასე რომ, ისე, რომ შემიძლია ამის გაკეთება არის შექმნას
ლექსიკონი Python, რომელიც

569
00:28:34,330 --> 00:28:37,320
არის საკმაოდ ბევრი იგივე, რაც hash
მაგიდა, ან ეს როგორც iterative

570
00:28:37,320 --> 00:28:40,480
array in PHP.

571
00:28:40,480 --> 00:28:44,150
ეს არის, თუ როგორ ვაცხადებ ლექსიკონი.

572
00:28:44,150 --> 00:28:53,580
და ძირითადად რა ეს იმას ნიშნავს, რომ
Priors გაგა 0.5, მაგალითად, თუ

573
00:28:53,580 --> 00:28:57,200
50% ლექსები არიან
გაგა, 50% არიან Katy.

574
00:28:57,200 --> 00:28:58,450
აზრი?

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
ამიტომ უნდა გაერკვნენ, თუ როგორ
გამოვთვალოთ Priors.

577
00:29:03,680 --> 00:29:07,120
>> შემდეგი პირობა, რომ მე უნდა გავაკეთოთ, ასევე,
არის ალბათობა და სიტყვები.

578
00:29:07,120 --> 00:29:17,100
ასე რომ, ალბათობა გაგა სია
ყველა ალბათობა, რომ მე

579
00:29:17,100 --> 00:29:19,160
აქვს თითოეული სიტყვა გაგა.

580
00:29:19,160 --> 00:29:23,880
ასე რომ, თუ მე წასვლა ალბათობა გაგა
"ბავშვი", მაგალითად, რომ თქვენ მაძლევს

581
00:29:23,880 --> 00:29:28,750
რაღაც 2 ზე 24 ამ შემთხვევაში.

582
00:29:28,750 --> 00:29:30,070
აზრი?

583
00:29:30,070 --> 00:29:36,120
ასე რომ, მე წასვლა "ალბათობა" წასვლა
"გაგა" bucket რომ აქვს ჩამონათვალი

584
00:29:36,120 --> 00:29:40,550
გაგა სიტყვა, მაშინ მე წასვლა "ბავშვი"
და მე ვხედავ ალბათობა.

585
00:29:40,550 --> 00:29:45,940
>> და ბოლოს, მე ამ
"სიტყვა" ლექსიკონი.

586
00:29:45,940 --> 00:29:53,620
ასე რომ, აქ, "ალბათობა". და შემდეგ
"სიტყვა". ასე რომ, თუ "სიტყვა", "გაგა"

587
00:29:53,620 --> 00:29:58,330
რა მოხდება არის ის, რომ
აპირებს მომეცი 24, რომ მე

588
00:29:58,330 --> 00:30:01,990
24 სიტყვა ფარგლებში სიმღერები საწყისი გაგა.

589
00:30:01,990 --> 00:30:04,110
აზრი?

590
00:30:04,110 --> 00:30:07,070
ასე რომ აქ, "სიტყვა" შეადგენს dah-dah-dah.

591
00:30:07,070 --> 00:30:07,620
OK

592
00:30:07,620 --> 00:30:12,210
>> მერე რა მე ვაპირებ ამის გაკეთებას, მე ვაპირებ
iterate მეტი თითოეულ ლექსები, ასე რომ,

593
00:30:12,210 --> 00:30:14,490
თითოეული სტრიქონები,
მაქვს სიაში.

594
00:30:14,490 --> 00:30:18,040
და მე ვაპირებ გამოთვლა იმ რამ,
თითოეული კანდიდატი.

595
00:30:18,040 --> 00:30:19,950
აზრი?

596
00:30:19,950 --> 00:30:21,700
ასე რომ, მე უნდა გავაკეთოთ ამისთვის loop.

597
00:30:21,700 --> 00:30:26,300
>> ასე რომ, Python, თუ რა შემიძლია არის "ხაზი
ამ სიმღერები. "იგივე როგორც

598
00:30:26,300 --> 00:30:28,000
"თითოეული" განცხადება PHP.

599
00:30:28,000 --> 00:30:33,420
მახსოვს, როგორ იყო თუ არა PHP შემეძლო
ამბობენ, რომ "თითოეული სიმღერები, როგორც

600
00:30:33,420 --> 00:30:35,220
ხაზი. "აზრი?

601
00:30:35,220 --> 00:30:38,900
ასე რომ, მე აღების თითოეული ხაზები, ამ
შემთხვევაში, ეს სიმებიანი და მომავალი

602
00:30:38,900 --> 00:30:44,540
string ასე რომ თითოეული ხაზი რა ვარ
ვაპირებთ გავაკეთოთ არის პირველი, მე ვაპირებ

603
00:30:44,540 --> 00:30:49,150
გაყოფილი ამ ხაზის შევიდა სიაში
სიტყვა მაქს.

604
00:30:49,150 --> 00:30:53,730
>> ასე cool რამ Python ის არის, რომ
შეგიძლიათ უბრალოდ Google როგორიცაა "როგორ შემიძლია

605
00:30:53,730 --> 00:30:58,220
გაყოფილი string შევიდა სიტყვა? "და ეს
ვაპირებ გითხრათ, თუ როგორ უნდა გავაკეთოთ.

606
00:30:58,220 --> 00:31:04,890
და გზა ამის გაკეთება, უბრალოდ "ხაზი
= Line.split () "და ეს, ძირითადად,

607
00:31:04,890 --> 00:31:08,640
აპირებს მოგცემთ სიაში
თითოეული სიტყვა აქ.

608
00:31:08,640 --> 00:31:09,620
აზრი?

609
00:31:09,620 --> 00:31:15,870
ახლა რომ მე რომ მინდა ვიცოდე
ვინ არის მომღერალი, რომ სიმღერა.

610
00:31:15,870 --> 00:31:20,130
და გავაკეთოთ, რომ მე უბრალოდ უნდა მიიღოს
პირველი ელემენტია მასივი, არა?

611
00:31:20,130 --> 00:31:26,390
ასე რომ, მე შემიძლია მხოლოდ ვთქვა, რომ "მომღერალი
= Line (0) "აზრი?

612
00:31:26,390 --> 00:31:32,010
>> და მერე რა უნდა გავაკეთოთ, პირველ
ყველა, მე ვაპირებ განახლება რამდენი

613
00:31:32,010 --> 00:31:36,130
სიტყვა მაქვს ქვეშ "გაგა". ასე რომ მე უბრალოდ
აპირებს გამოთვალოთ რამდენი სიტყვა I

614
00:31:36,130 --> 00:31:38,690
აქვს ამ სიაში, უფლება?

615
00:31:38,690 --> 00:31:41,910
რადგან ეს არის რამდენი სიტყვა მაქვს
ამ სიმღერები და მე უბრალოდ აპირებს

616
00:31:41,910 --> 00:31:44,120
დაამატოთ ეს "გაგა" მასივი.

617
00:31:44,120 --> 00:31:47,090
ამჯამად რომ აზრი?

618
00:31:47,090 --> 00:31:49,010
არ ფოკუსირება ძალიან ბევრი სინტაქსი.

619
00:31:49,010 --> 00:31:50,430
ვფიქრობ, რომ უფრო მეტი ცნებები.

620
00:31:50,430 --> 00:31:52,400
ეს არის ყველაზე მნიშვნელოვანი ნაწილი.

621
00:31:52,400 --> 00:31:52,720
OK.

622
00:31:52,720 --> 00:32:00,260
>> ასე რომ, რაც შემიძლია, ის არის, თუ "გაგა" არის
უკვე, რომ სიაში, ასე რომ, "თუ მომღერალი

623
00:32:00,260 --> 00:32:03,190
სიტყვა "რაც იმას ნიშნავს, რომ მე უკვე
აქვს სიტყვა გაგა.

624
00:32:03,190 --> 00:32:06,640
მე უბრალოდ მინდა, რომ დაამატოთ დამატებითი
სიტყვა რომ.

625
00:32:06,640 --> 00:32:15,810
ასე რომ, რა გავაკეთო არის "სიტყვა (მომღერალი)
+ = Len (ხაზი) ​​- 1. "

626
00:32:15,810 --> 00:32:18,250
და მაშინ მე შემიძლია უბრალოდ
სიგრძის ხაზი.

627
00:32:18,250 --> 00:32:21,860
ასე რომ, რამდენი ელემენტები I
აქვს მასივი.

628
00:32:21,860 --> 00:32:27,060
და მე უნდა გავაკეთოთ მინუს 1 მხოლოდ იმიტომ,
პირველი ელემენტია მასივი მხოლოდ

629
00:32:27,060 --> 00:32:29,180
მომღერალი და ის არ არის ტექსტი.

630
00:32:29,180 --> 00:32:31,420
აზრი?

631
00:32:31,420 --> 00:32:32,780
OK.

632
00:32:32,780 --> 00:32:35,820
>> "დანარჩენი", ეს ნიშნავს, რომ მინდა რეალურად
ჩადეთ Gaga შეყვანილი.

633
00:32:35,820 --> 00:32:45,990
ასე რომ, მე მხოლოდ "სიტყვა (მომღერალი)
= Len (line) - 1, "sorry.

634
00:32:45,990 --> 00:32:49,200
ასე რომ ერთადერთი განსხვავება ორ
ხაზები არის ის, რომ ამ ერთი, ეს არ

635
00:32:49,200 --> 00:32:51,080
არსებობს ჯერ კიდევ, ასე რომ მე უბრალოდ
ინიციალიზაციისას იგი.

636
00:32:51,080 --> 00:32:53,820
ეს ერთი მე რეალურად დასძინა.

637
00:32:53,820 --> 00:32:55,570
OK.

638
00:32:55,570 --> 00:32:59,480
ასე რომ, ეს იყო და დასძინა, რომ სიტყვა.

639
00:32:59,480 --> 00:33:03,040
>> ახლა მინდა დაამატოთ Priors.

640
00:33:03,040 --> 00:33:05,480
ასე რომ, როგორ შემიძლია გამოთვლა Priors?

641
00:33:05,480 --> 00:33:11,580
Priors შეიძლება გამოითვლება
რამდენი ჯერ.

642
00:33:11,580 --> 00:33:15,340
ასე რამდენჯერ თქვენ ხედავთ, რომ მომღერალი
შორის მომღერლები, რომ თქვენ

643
00:33:15,340 --> 00:33:16,380
აქვს, არა?

644
00:33:16,380 --> 00:33:18,810
ასე რომ გაგა და Katy Perry,
ამ შემთხვევაში, მე ვერ ვხედავ Gaga

645
00:33:18,810 --> 00:33:20,570
ერთხელ, Katy Perry ერთხელ.

646
00:33:20,570 --> 00:33:23,320
>> ასე რომ, ძირითადად Priors განთავსების Gaga
და Katy Perry იქნება

647
00:33:23,320 --> 00:33:24,390
მხოლოდ ერთი, არა?

648
00:33:24,390 --> 00:33:26,500
უბრალოდ რამდენჯერ
მე ვხედავ, მხატვარი.

649
00:33:26,500 --> 00:33:28,740
ასე რომ, ეს ძალიან ადვილია გამოთვლა.

650
00:33:28,740 --> 00:33:34,100
შემიძლია უბრალოდ რაღაც მსგავსი, როგორიცაა "თუ
მომღერალი Priors, "მე უბრალოდ აპირებს

651
00:33:34,100 --> 00:33:38,970
დაამატოთ 1 მათი Priors ყუთში.

652
00:33:38,970 --> 00:33:51,000
ასე რომ, "Priors (მღერიან)" + = 1 "და შემდეგ" სხვაგან "
მე ვაპირებ ამის გაკეთებას "Priors (მომღერალი)

653
00:33:51,000 --> 00:33:55,000
= 1. "აზრი?

654
00:33:55,000 --> 00:34:00,080
>> ასე რომ, თუ არ არსებობს მე უბრალოდ დააყენა
როგორც 1, წინააღმდეგ შემთხვევაში მე უბრალოდ დაამატოთ 1.

655
00:34:00,080 --> 00:34:11,280
OK, ასე რომ, ახლა ყველა, რომ მე არ დაუტოვებიათ გავაკეთოთ
ასევე დაამატოთ თითოეულ სიტყვები

656
00:34:11,280 --> 00:34:12,290
ალბათობა.

657
00:34:12,290 --> 00:34:14,889
ამიტომ უნდა ითვლიან რამდენჯერ
მე ვხედავ თითოეული სიტყვა.

658
00:34:14,889 --> 00:34:18,780
ასე რომ მე უბრალოდ უნდა გავაკეთოთ ერთი
for loop in ხაზი.

659
00:34:18,780 --> 00:34:25,190
>> ასე რომ, პირველი, რაც მე ვაპირებ გავაკეთოთ არის
შეამოწმეთ თუ მომღერალი უკვე აქვს

660
00:34:25,190 --> 00:34:26,969
ალბათობა მასივი.

661
00:34:26,969 --> 00:34:31,739
ამიტომ მე შემოწმების თუ მომღერალი არ
აქვს ალბათობა მასივი, მე უბრალოდ

662
00:34:31,739 --> 00:34:34,480
აპირებს ინიციალიზაცია ერთი მათგანი.

663
00:34:34,480 --> 00:34:36,400
ეს კი არ მასივი, უკაცრავად,
ეს ლექსიკონი.

664
00:34:36,400 --> 00:34:43,080
ასე რომ, ალბათობა მომღერალი აპირებს
იყოს ღია ლექსიკონი, ამიტომ მე

665
00:34:43,080 --> 00:34:45,830
უბრალოდ ინიციალიზებისას ლექსიკონი იგი.

666
00:34:45,830 --> 00:34:46,820
OK?

667
00:34:46,820 --> 00:34:58,330
>> და ახლა შემიძლია რეალურად გავაკეთოთ ამისთვის მარყუჟის
გამოვთვალოთ თითოეული სიტყვა "

668
00:34:58,330 --> 00:35:00,604
ალბათობა.

669
00:35:00,604 --> 00:35:01,540
OK.

670
00:35:01,540 --> 00:35:04,160
ასე რომ, რაც შემიძლია არის ამისთვის loop.

671
00:35:04,160 --> 00:35:06,590
ამიტომ მე უბრალოდ აპირებს iterate
მეტი მასივი.

672
00:35:06,590 --> 00:35:15,320
ასე რომ, ისე, რომ შემიძლია, რომ Python
არის "მე სპექტრს". 1

673
00:35:15,320 --> 00:35:19,200
იმიტომ, რომ მინდა, რომ დაიწყოს მეორე
ელემენტის რადგან პირველი არის

674
00:35:19,200 --> 00:35:20,260
მომღერალი სახელი.

675
00:35:20,260 --> 00:35:24,990
ასე რომ, ერთი მდე
სიგრძის ხაზი.

676
00:35:24,990 --> 00:35:29,760
და როდესაც მე დიაპაზონი რეალურად წავიდეს
ისევე როგორც აქ 1 len შესახებ

677
00:35:29,760 --> 00:35:30,740
ონლაინ მინუს 1.

678
00:35:30,740 --> 00:35:33,810
ასე რომ, უკვე აკეთებს, რომ რამ აკეთებს
n მინუს 1 მასივები, რომელიც ძალიან

679
00:35:33,810 --> 00:35:35,500
მოსახერხებელია.

680
00:35:35,500 --> 00:35:37,850
აზრი?

681
00:35:37,850 --> 00:35:42,770
>> ასე რომ თითოეული ამ, რა მე ვაპირებ
გავაკეთოთ, არის, ისევე, როგორც მეორე,

682
00:35:42,770 --> 00:35:50,320
მე ვაპირებ შეამოწმოს თუ სიტყვა ამ
პოზიცია ხაზი უკვე

683
00:35:50,320 --> 00:35:51,570
ალბათობა.

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
და შემდეგ, როგორც ვთქვი, აქ ალბათობა
სიტყვა, როგორც I-მა

686
00:35:57,260 --> 00:35:58,400
"ალბათობა (მომღერალი)".

687
00:35:58,400 --> 00:35:59,390
ასე რომ, საქართველოს სახელით მომღერალი.

688
00:35:59,390 --> 00:36:03,450
ასე რომ, თუ ეს უკვე
"Probabilit (მომღერალი)", ეს ნიშნავს, რომ მე

689
00:36:03,450 --> 00:36:11,960
გსურთ დაამატოთ 1, ასე რომ მე ვაპირებ
გავაკეთოთ "ალბათობა (მომღერალი)", და

690
00:36:11,960 --> 00:36:14,100
სიტყვა ეწოდება "ხაზი (i)".

691
00:36:14,100 --> 00:36:22,630
მე ვაპირებ, რომ დაამატოთ 1 და "სხვას" მე უბრალოდ
აპირებს ინიციალიზაცია იგი 1.

692
00:36:22,630 --> 00:36:23,880
"Line (i)".

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
აზრი?

695
00:36:28,420 --> 00:36:30,180
>> ასე რომ, მე გამოითვლება ყველა მასივები.

696
00:36:30,180 --> 00:36:36,580
ასე რომ, ახლა ყველა, რომ მე უნდა გააკეთოს
ამ ერთი უბრალოდ "დაბრუნდება Priors,

697
00:36:36,580 --> 00:36:43,230
ალბათობა და სიტყვები. "მოდით
თუ არსებობს რაიმე, OK.

698
00:36:43,230 --> 00:36:45,690
როგორც ჩანს, ყველაფერი მუშაობს ჯერჯერობით.

699
00:36:45,690 --> 00:36:46,900
ასე რომ, აზრი?

700
00:36:46,900 --> 00:36:47,750
რამდენიმე გზა?

701
00:36:47,750 --> 00:36:49,280
OK.

702
00:36:49,280 --> 00:36:51,980
ასე რომ, ახლა მე ყველა ალბათობა.

703
00:36:51,980 --> 00:36:55,100
ახლა ერთადერთი, რაც მე არ დაუტოვებიათ
მხოლოდ აქვს, რომ, რაც

704
00:36:55,100 --> 00:36:58,650
ითვლის პროდუქტის ყველა
ალბათობა როდესაც მივიღებ სიმღერები.

705
00:36:58,650 --> 00:37:06,270
>> მოდით ვთქვათ, რომ მინდა ახლა მოვუწოდებთ
ეს ფუნქცია "კლასიფიცირება ()" და

706
00:37:06,270 --> 00:37:08,880
რამ, რომ ფუნქცია იღებს
უბრალოდ არგუმენტი.

707
00:37:08,880 --> 00:37:13,170
ვთქვათ "Baby, მე ვარ ცეცხლი" და ეს
აპირებს გაერკვნენ, თუ რა არის

708
00:37:13,170 --> 00:37:14,490
ალბათობა იმისა, რომ ეს არის Gaga?

709
00:37:14,490 --> 00:37:16,405
რა არის ალბათობა
რომ ეს არის ქეთი?

710
00:37:16,405 --> 00:37:19,690
ხმები კარგი?

711
00:37:19,690 --> 00:37:25,750
ასე რომ მე უბრალოდ აპირებს უნდა შეიქმნას
ახალი ფუნქცია ე.წ. "კლასიფიცირება ()" და

712
00:37:25,750 --> 00:37:29,180
ის აპირებს ზოგიერთი
სიმღერები ასევე.

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
და გარდა ამისა, სიმღერები ასევე
უნდა გააგზავნოთ Priors,

715
00:37:36,160 --> 00:37:37,700
ალბათობა და სიტყვები.

716
00:37:37,700 --> 00:37:44,000
ამიტომ მე ვაპირებ გაგზავნას ლექსები, Priors,
ალბათობა, სიტყვა.

717
00:37:44,000 --> 00:37:51,840
>> ასე რომ, ეს ხდება სიმღერები, Priors,
ალბათობა, სიტყვა.

718
00:37:51,840 --> 00:37:53,530
ასე, რას აკეთებთ?

719
00:37:53,530 --> 00:37:57,180
ეს ძირითადად ხდება გავლა ყველა
შესაძლო კანდიდატები, რომ თქვენ

720
00:37:57,180 --> 00:37:58,510
აქვს, როგორც მომღერალი.

721
00:37:58,510 --> 00:37:59,425
და სად არიან კანდიდატები?

722
00:37:59,425 --> 00:38:01,020
ისინი იმ Priors, არა?

723
00:38:01,020 --> 00:38:02,710
ასე რომ მე ყველა იმ არსებობს.

724
00:38:02,710 --> 00:38:07,870
ამიტომ მე ვაპირებ აქვს ლექსიკონი
ყველა შესაძლო კანდიდატი.

725
00:38:07,870 --> 00:38:14,220
და მაშინ თითოეული კანდიდატი
Priors, ასე რომ, ეს ნიშნავს, რომ ის აპირებს

726
00:38:14,220 --> 00:38:17,740
იყოს გაგა, ქეთი თუ მქონდა
უფრო, რომ ეს იქნება უფრო.

727
00:38:17,740 --> 00:38:20,410
მე ვაპირებ დაიწყება გაანგარიშების
ეს ალბათობა.

728
00:38:20,410 --> 00:38:28,310
ალბათობა, როგორც დავინახეთ
PowerPoint არის წინასწარი ჯერ

729
00:38:28,310 --> 00:38:30,800
პროდუქტის თითოეული
სხვა ალბათობა.

730
00:38:30,800 --> 00:38:32,520
>> ასე, რომ შეიძლება იგივეს აქ.

731
00:38:32,520 --> 00:38:36,330
მე შემიძლია უბრალოდ ალბათობა არის
თავდაპირველად უბრალოდ ადრე.

732
00:38:36,330 --> 00:38:40,340
ასე რომ, Priors კანდიდატი.

733
00:38:40,340 --> 00:38:40,870
უფლება?

734
00:38:40,870 --> 00:38:45,360
და ახლა მე უნდა iterate ყველა
სიტყვა, რომელიც მაქვს სიმღერები უნდა იყოს

735
00:38:45,360 --> 00:38:48,820
შეუძლია დაამატოთ ალბათობა
თითოეული მათგანი, OK?

736
00:38:48,820 --> 00:38:57,900
ასე რომ, "სიტყვა in ლექსები" რა მე ვაპირებ
უნდა გავაკეთოთ არის ის, თუ სიტყვა არის

737
00:38:57,900 --> 00:39:01,640
"ალბათობა (კანდიდატი)", რომელიც
იმას ნიშნავს, რომ ეს სიტყვა, რომელიც

738
00:39:01,640 --> 00:39:03,640
პრეტენდენტს მათი ლექსები -

739
00:39:03,640 --> 00:39:05,940
მაგალითად, "ბავშვის" ამისთვის Gaga -

740
00:39:05,940 --> 00:39:11,710
ის, რაც მე ვაპირებ ამის გაკეთებას ის არის, რომ
ალბათობა უნდა გამრავლდეს

741
00:39:11,710 --> 00:39:22,420
1 plus ალბათობა of
კანდიდატის, რომ სიტყვა.

742
00:39:22,420 --> 00:39:25,710
და ეს ე.წ. "სიტყვა".

743
00:39:25,710 --> 00:39:32,440
ეს იყოფა სიტყვები
რომ მაქვს, რომ კანდიდატი.

744
00:39:32,440 --> 00:39:37,450
საერთო რაოდენობის სიტყვები, რომ მაქვს
მომღერალი რომ მე ეძებს.

745
00:39:37,450 --> 00:39:40,290
>> "დანარჩენი". ეს იმას ნიშნავს, რომ ეს არის ახალი სიტყვა
ასე რომ მინდა იყოს მაგალითად

746
00:39:40,290 --> 00:39:41,860
"ცეცხლის" ლედი გაგა.

747
00:39:41,860 --> 00:39:45,760
ასე რომ მე უბრალოდ გსურთ 1 მეტი
"სიტყვა (კანდიდატი)".

748
00:39:45,760 --> 00:39:47,710
ასე რომ, მე არ მინდა, რომ ეს ტერმინი აქ.

749
00:39:47,710 --> 00:39:50,010
>> ასე რომ, ეს იქნება, ძირითადად,
გადაწერა და pasting ამ.

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
მაგრამ მე ვაპირებ წაშლა ამ ნაწილში.

752
00:39:56,000 --> 00:39:57,610
ასე რომ, ეს უბრალოდ იქნება 1 მეტი რომ.

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
ხმები კარგი?

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
და ახლა დასასრულს, მე უბრალოდ აპირებს
ამობეჭდოთ სახელით კანდიდატი და

757
00:40:09,700 --> 00:40:15,750
ალბათობა, რომ თქვენ გაქვთ
მქონე S მათი სიმღერები.

758
00:40:15,750 --> 00:40:16,200
აზრი?

759
00:40:16,200 --> 00:40:18,390
და მე რეალურად კი არა
გვჭირდება ეს ლექსიკონი.

760
00:40:18,390 --> 00:40:19,510
აზრი?

761
00:40:19,510 --> 00:40:21,810
>> ასე რომ, ვნახოთ, თუ ეს რეალურად მუშაობს.

762
00:40:21,810 --> 00:40:24,880
ასე რომ, თუ მე აწარმოებს, ეს არ იმუშავებს.

763
00:40:24,880 --> 00:40:26,130
დაველოდოთ ერთი მეორე.

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
"Words (კანდიდატი)", "სიტყვა (კანდიდატი)",
ეს არის ის,

766
00:40:31,720 --> 00:40:33,750
სახელი მასივი.

767
00:40:33,750 --> 00:40:41,435
OK ასე რომ, იგი აცხადებს, რომ არსებობს რამდენიმე bug
განთავსების კანდიდატი Priors.

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
ნება მომეცით უბრალოდ chill ცოტა.

770
00:40:48,760 --> 00:40:50,360
OK.

771
00:40:50,360 --> 00:40:51,305
მოდით ცდილობენ.

772
00:40:51,305 --> 00:40:51,720
OK.

773
00:40:51,720 --> 00:40:58,710
>> ასე რომ, ეს იძლევა Katy Perry აქვს
ალბათობა ამ დროს 10 დან

774
00:40:58,710 --> 00:41:02,200
მინუს 7, და გაგა აქვს
ჯერ 10 დან მინუს 6.

775
00:41:02,200 --> 00:41:05,610
ასე რომ, თქვენ ხედავთ, იგი გვიჩვენებს, რომ გაგა
აქვს უმაღლესი ალბათობა.

776
00:41:05,610 --> 00:41:09,260
ასე რომ, "Baby, მე on Fire" არის
ალბათ Gaga სიმღერა.

777
00:41:09,260 --> 00:41:10,580
აზრი?

778
00:41:10,580 --> 00:41:12,030
ასე რომ, ეს არის ის, რაც ჩვენ გავაკეთეთ.

779
00:41:12,030 --> 00:41:16,010
>> ეს კოდი უნდა posted შემოსული,
ასე რომ თქვენ ბიჭები შეიძლება შეამოწმეთ იგი out.

780
00:41:16,010 --> 00:41:20,720
იქნებ გამოვიყენოთ ის, თუ გსურთ
გავაკეთოთ პროექტის ან რაღაც მსგავსი.

781
00:41:20,720 --> 00:41:22,150
OK.

782
00:41:22,150 --> 00:41:25,930
ეს იყო მხოლოდ აჩვენოს
რა გამოთვლითი

783
00:41:25,930 --> 00:41:27,230
ენათმეცნიერების კოდი ჰგავს.

784
00:41:27,230 --> 00:41:33,040
მაგრამ ახლა მოდით წავიდეთ მეტი
მაღალი დონის პერსონალი.

785
00:41:33,040 --> 00:41:33,340
OK.

786
00:41:33,340 --> 00:41:35,150
>> ასე რომ, სხვა პრობლემები I
იყო საუბარი -

787
00:41:35,150 --> 00:41:37,550
სეგმენტაციის პრობლემა
პირველი მათგანი.

788
00:41:37,550 --> 00:41:40,820
ასე, რომ თქვენ აქ იაპონური.

789
00:41:40,820 --> 00:41:43,420
და მაშინ ნახავთ, რომ
არ არსებობს ფართები.

790
00:41:43,420 --> 00:41:49,110
ასე რომ, ეს ნიშნავს იმას, რომ
ყველაზე სკამის, არა?

791
00:41:49,110 --> 00:41:50,550
თქვენ საუბარი Japanese?

792
00:41:50,550 --> 00:41:52,840
ეს არის ყველაზე თავმჯდომარე, არა?

793
00:41:52,840 --> 00:41:54,480
>> სტუდენტი: მე არ ვიცი, რა
kanji იქ არის.

794
00:41:54,480 --> 00:41:57,010
>> LUCAS Freitas: ეს [წარმოთქმული სიტყვის იაპონიის]

795
00:41:57,010 --> 00:41:57,950
OK.

796
00:41:57,950 --> 00:42:00,960
ასე რომ, ეს ნიშნავს იმას, თავმჯდომარე თავზე.

797
00:42:00,960 --> 00:42:03,620
ასე რომ, თუ თქვენ უნდა დააყენოს სივრცეში
ეს იქნება აქ.

798
00:42:03,620 --> 00:42:05,970
და შემდეგ თქვენ უნდა [? Ueda-san. ?]

799
00:42:05,970 --> 00:42:09,040
რომელიც ძირითადად იმას ნიშნავს, ბატონი Ueda.

800
00:42:09,040 --> 00:42:13,180
და ხედავთ, რომ "Ueda" და თქვენ
სივრცე და შემდეგ "san". ასე რომ, თქვენ ხედავთ, რომ

801
00:42:13,180 --> 00:42:15,470
აქ თქვენ "ue" ჰგავს თავისთავად.

802
00:42:15,470 --> 00:42:17,750
და აქ მას აქვს ხასიათი
შემდეგი მას.

803
00:42:17,750 --> 00:42:21,720
>> ასე რომ, ეს იმას არ ნიშნავს, იმ ენებზე
სიმბოლო რაც იმას ნიშნავს სიტყვა, ასე რომ თქვენ

804
00:42:21,720 --> 00:42:23,980
უბრალოდ დააყენა ბევრი ფართები.

805
00:42:23,980 --> 00:42:25,500
პერსონაჯები ეხება ერთმანეთს.

806
00:42:25,500 --> 00:42:28,680
და ისინი შეიძლება ერთად
ისევე, როგორც ორი, სამი, ერთი.

807
00:42:28,680 --> 00:42:34,520
ასე, რომ თქვენ რეალურად უნდა შეიქმნას გარკვეული სახის
გზა აყენებს იმ ფართები.

808
00:42:34,520 --> 00:42:38,850
>> და ეს ის არის, რომ როდესაც თქვენ მიიღებთ
მონაცემები იმ აზიური ენები,

809
00:42:38,850 --> 00:42:40,580
ყველაფერი მოდის unsegmented.

810
00:42:40,580 --> 00:42:45,940
იმის გამო, რომ არავინ წერს Japanese
ან ჩინელი წერს ფართები.

811
00:42:45,940 --> 00:42:48,200
როდესაც თქვენ წერა ჩინური,
Japanese თქვენ უბრალოდ დაწერეთ ყველაფერი

812
00:42:48,200 --> 00:42:48,710
ერთად არ ფართები.

813
00:42:48,710 --> 00:42:52,060
ეს იმას კი არ აქვს აზრი
დააყენოს ფართები.

814
00:42:52,060 --> 00:42:57,960
ასე რომ, როდესაც თქვენ მონაცემებს, ზოგიერთი
აღმოსავლეთ აზიის ენაზე თუ გსურთ

815
00:42:57,960 --> 00:43:00,760
რეალურად რაღაც, რომ
თქვენ უნდა სეგმენტის პირველი.

816
00:43:00,760 --> 00:43:05,130
>> ვფიქრობ, ამის მაგალითია
სიმღერები გარეშე სივრცეებს.

817
00:43:05,130 --> 00:43:07,950
ასე რომ, მხოლოდ ლექსები, რომ თქვენ გაქვთ
იქნება სასჯელი, არა?

818
00:43:07,950 --> 00:43:09,470
გამოყოფილი.

819
00:43:09,470 --> 00:43:13,930
მაგრამ შემდეგ, რომელსაც მხოლოდ განაჩენი იქნება
ნამდვილად არ შეუწყობს მიცემის ინფორმაცია

820
00:43:13,930 --> 00:43:17,760
ვინც იმ ლექსები არიან.

821
00:43:17,760 --> 00:43:18,120
უფლება?

822
00:43:18,120 --> 00:43:20,010
ასე რომ თქვენ უნდა აყენებს ფართები პირველი.

823
00:43:20,010 --> 00:43:21,990
ასე როგორ შეიძლება ამის გაკეთება?

824
00:43:21,990 --> 00:43:24,920
>> ასე რომ, შემდეგ მოდის იდეა ენა
მოდელი, რომელიც მართლაც რაღაც

825
00:43:24,920 --> 00:43:26,870
მნიშვნელოვანია გამოთვლითი
ლინგვისტიკა.

826
00:43:26,870 --> 00:43:32,790
ასე რომ, ენა მოდელის ძირითადად
მაგიდასთან ალბათობა, რომ შოუები

827
00:43:32,790 --> 00:43:36,260
უპირველეს ყოვლისა, რა არის ალბათობა
მქონე სიტყვა ენაზე?

828
00:43:36,260 --> 00:43:39,590
ასე რომ, თუ როგორ ხშირად სიტყვა.

829
00:43:39,590 --> 00:43:43,130
და შემდეგ ასევე გვიჩვენებს მიზეზი
შორის სიტყვა სასჯელს.

830
00:43:43,130 --> 00:43:51,500
>> ასე რომ, მთავარი იდეა არის, თუ უცხო მოვიდა
თქვენ და განაცხადა, რომ წინადადება

831
00:43:51,500 --> 00:43:55,600
თქვენ, რა არის ალბათობა, რომ
მაგალითად, "ეს არის ჩემი დის [? GTF"?]

832
00:43:55,600 --> 00:43:57,480
იყო წინადადება, რომ პირი განაცხადა?

833
00:43:57,480 --> 00:44:00,380
ასე რომ აშკარად რაღაც წინადადებების არის
უფრო ხშირია, ვიდრე სხვები.

834
00:44:00,380 --> 00:44:04,450
მაგალითად, "დილა", ან "კარგი
ღამით, "ან" hey იქ, "ბევრად უფრო

835
00:44:04,450 --> 00:44:08,260
საერთო, ვიდრე ყველაზე სასჯელს
რომ ჩვენ ინგლისური.

836
00:44:08,260 --> 00:44:11,060
რატომ არიან იმ სასჯელს
უფრო ხშირად?

837
00:44:11,060 --> 00:44:14,060
>> პირველ რიგში, ეს იმიტომ, რომ თქვენ გაქვთ
სიტყვები, რომ უფრო ხშირი.

838
00:44:14,060 --> 00:44:20,180
ასე, მაგალითად, თუ ამბობენ, რომ ძაღლი არის
დიდი და ძაღლი არის გიგანტური, თქვენ

839
00:44:20,180 --> 00:44:23,880
როგორც წესი, ალბათ მოვისმინოთ ძაღლი არის დიდი
უფრო ხშირად იმიტომ, რომ "დიდი" უფრო

840
00:44:23,880 --> 00:44:27,260
ხშირია English, ვიდრე "გიგანტური".
ასე რომ, ერთი

841
00:44:27,260 --> 00:44:30,100
რამ არის სიტყვა სიხშირე.

842
00:44:30,100 --> 00:44:34,490
>> მეორე რამ, რაც მართლაც
მთავარია მხოლოდ

843
00:44:34,490 --> 00:44:35,490
ბრძანებით სიტყვა.

844
00:44:35,490 --> 00:44:39,500
ასე რომ, ეს საერთო აცხადებენ, რომ "კატა
შიგნით ყუთში. "მაგრამ თქვენ არ ჩვეულებრივ

845
00:44:39,500 --> 00:44:44,250
ვხედავ "ყუთი შიგნით კატა". ასე რომ,
ხედავთ, რომ არსებობს გარკვეული მნიშვნელობა

846
00:44:44,250 --> 00:44:46,030
ბრძანებით სიტყვა.

847
00:44:46,030 --> 00:44:50,160
თქვენ არ შეგიძლიათ უბრალოდ ვთქვა, რომ ეს ორი
წინადადებების აქვს იგივე ალბათობა

848
00:44:50,160 --> 00:44:53,010
მხოლოდ იმიტომ, რომ მათ აქვთ იგივე სიტყვები.

849
00:44:53,010 --> 00:44:55,550
თქვენ ნამდვილად უნდა იზრუნოს
შესახებ, რათა ასევე.

850
00:44:55,550 --> 00:44:57,650
აზრი?

851
00:44:57,650 --> 00:44:59,490
>> მერე რა ვქნათ?

852
00:44:59,490 --> 00:45:01,550
მერე რა მე შეიძლება ცდილობენ თქვენ?

853
00:45:01,550 --> 00:45:04,400
ვცდილობ მისაღებად თქვენ რაც ჩვენ
მოვუწოდებთ n-gram მოდელები.

854
00:45:04,400 --> 00:45:09,095
ასე რომ, n-gram მოდელები ძირითადად ვივარაუდოთ,
რომ თითოეული სიტყვა, რომელიც

855
00:45:09,095 --> 00:45:10,960
თქვენ გაქვთ თავისუფლების აღკვეთა მიუსაჯა.

856
00:45:10,960 --> 00:45:15,020
ეს ალბათობა მქონე, რომ
სიტყვა არსებობს დამოკიდებულია არა მხოლოდ

857
00:45:15,020 --> 00:45:18,395
სიხშირის რომ სიტყვა ენა,
არამედ სიტყვა, რომ

858
00:45:18,395 --> 00:45:19,860
რომლებიც მის ირგვლივ.

859
00:45:19,860 --> 00:45:25,810
>> ასე მაგალითად, როგორც წესი, როდესაც თქვენ ხედავთ,
რაღაც ან at თქვენ

860
00:45:25,810 --> 00:45:28,040
ალბათ აპირებს ვხედავ
noun მას შემდეგ, არა?

861
00:45:28,040 --> 00:45:31,750
იმის გამო, რომ, როდესაც თქვენ გაქვთ წინდებული
როგორც წესი, ეს ხდება noun შემდეგ.

862
00:45:31,750 --> 00:45:35,540
თუ თქვენ გაქვთ ზმნა, რომ გარდამავალი
თქვენ, როგორც წესი ვაპირებთ

863
00:45:35,540 --> 00:45:36,630
აქვს noun ფრაზა.

864
00:45:36,630 --> 00:45:38,780
ასე რომ, ის აპირებს აქვს noun
სადღაც გარშემო.

865
00:45:38,780 --> 00:45:44,950
>> ასე რომ, ძირითადად, თუ რას აკეთებს არის ის, რომ
მიიჩნევს ალბათობა მქონე

866
00:45:44,950 --> 00:45:47,960
სიტყვა ერთმანეთს, როდესაც
თქვენ გაანგარიშების

867
00:45:47,960 --> 00:45:49,050
ალბათობა სასჯელს.

868
00:45:49,050 --> 00:45:50,960
და ეს რა ენა
მოდელი არის ძირითადად.

869
00:45:50,960 --> 00:45:54,620
უბრალოდ ვამბობ, რა არის ალბათობა
მქონე კონკრეტული

870
00:45:54,620 --> 00:45:57,120
სასჯელს ენა?

871
00:45:57,120 --> 00:45:59,110
რატომ არის, რომ სასარგებლო, ძირითადად?

872
00:45:59,110 --> 00:46:02,390
და, პირველ რიგში, რა არის
n-gram მოდელი, მაშინ?

873
00:46:02,390 --> 00:46:08,850
>> ასე რომ, n-gram მოდელი ნიშნავს, რომ
თითოეული სიტყვა დამოკიდებულია

874
00:46:08,850 --> 00:46:12,700
შემდეგი N მინუს 1 სიტყვა.

875
00:46:12,700 --> 00:46:18,150
ასე რომ, ძირითადად, ეს ნიშნავს, რომ, თუ გავითვალისწინებთ,
მაგალითად, CS50 TF როდესაც

876
00:46:18,150 --> 00:46:21,500
მე გაანგარიშების ალბათობა
წინადადება, თქვენ, როგორიცაა "

877
00:46:21,500 --> 00:46:25,280
ალბათობა, რომ სიტყვა ""
ჯერ ალბათობა მქონე "

878
00:46:25,280 --> 00:46:31,720
CS50 "ჯერ ალბათობა მქონე
"CS50 TF". ასე რომ, ძირითადად, მე იმედი

879
00:46:31,720 --> 00:46:35,720
ყველა შესაძლო გზები გაჭიმვა იგი.

880
00:46:35,720 --> 00:46:41,870
>> და შემდეგ, როგორც წესი, როდესაც თქვენ აკეთებთ ამ,
როგორც პროექტი, თქვენ დააყენა N უნდა იყოს

881
00:46:41,870 --> 00:46:42,600
დაბალი ღირებულება.

882
00:46:42,600 --> 00:46:45,930
ასე რომ, როგორც წესი, აქვს bigrams ან Trigrams.

883
00:46:45,930 --> 00:46:51,090
ასე, რომ თქვენ მხოლოდ ითვლიან ორი სიტყვა,
ჯგუფი ორი სიტყვა, ან სამი სიტყვა,

884
00:46:51,090 --> 00:46:52,620
მხოლოდ შესრულების საკითხები.

885
00:46:52,620 --> 00:46:56,395
და ასევე იმის გამო, შესაძლოა, თუ თქვენ გაქვთ
რაღაც "CS50 TF". როდესაც თქვენ

886
00:46:56,395 --> 00:47:00,510
აქვს "TF," ეს ძალიან მნიშვნელოვანია, რომ
"CS50" შემდეგ ეს, არა?

887
00:47:00,510 --> 00:47:04,050
ეს ორი რამ, როგორც წესი,
შემდეგი ერთმანეთს.

888
00:47:04,050 --> 00:47:06,410
>> თუ ფიქრობთ, "TF", ეს, ალბათ,
აპირებს თუ რა

889
00:47:06,410 --> 00:47:07,890
class ის TF'ing ამისთვის.

890
00:47:07,890 --> 00:47:11,330
ასევე "და" მართლაც მნიშვნელოვანი
განთავსების CS50 TF.

891
00:47:11,330 --> 00:47:14,570
მაგრამ თუ თქვენ გაქვთ რაღაც "CS50
TF წავიდა კლასი და მისცა მათ

892
00:47:14,570 --> 00:47:20,060
სტუდენტები ზოგიერთი Candy "." Candy "და" "
არ აქვთ ნამდვილად, არა?

893
00:47:20,060 --> 00:47:23,670
ისინი იმდენად დაშორებული ერთმანეთს, რომ
ეს ნამდვილად არ აქვს მნიშვნელობა, რა

894
00:47:23,670 --> 00:47:25,050
სიტყვა გაქვთ.

895
00:47:25,050 --> 00:47:31,210
>> ასე რომ ამით bigram ან trigram, ეს
მხოლოდ იმას ნიშნავს, რომ თქვენ ზღუდავს

896
00:47:31,210 --> 00:47:33,430
თავს ზოგიერთი სიტყვა
რომ გარშემო.

897
00:47:33,430 --> 00:47:35,810
აზრი?

898
00:47:35,810 --> 00:47:40,630
ასე რომ, როდესაც გსურთ სეგმენტაცია,
ძირითადად, რა გსურთ არის ვხედავ

899
00:47:40,630 --> 00:47:44,850
რა არის ყველა შესაძლო გზები,
თქვენ შეგიძლიათ სეგმენტი სასჯელს.

900
00:47:44,850 --> 00:47:49,090
>> ისეთი, რომ ხედავთ რა არის
ალბათობა თითოეული იმ სასჯელს

901
00:47:49,090 --> 00:47:50,880
არსებული ენაზე?

902
00:47:50,880 --> 00:47:53,410
ასე რომ, თუ რას აკეთებთ ჰგავს, კარგად, მოდით
მე ვცდილობ სივრცეში აქ.

903
00:47:53,410 --> 00:47:55,570
ასე, რომ თქვენ დააყენა სივრცეში არსებობს
და ხედავთ რა არის

904
00:47:55,570 --> 00:47:57,590
ალბათობა, რომ განაჩენი?

905
00:47:57,590 --> 00:48:00,240
მაშინ თქვენ, ისევე როგორც, OK, იქნებ
რომ არ იყო, რომ კარგი.

906
00:48:00,240 --> 00:48:03,420
ამიტომ დააყენა სივრცეში არსებობს და სივრცეში
იქ, და თქვენ გამოთვალოთ

907
00:48:03,420 --> 00:48:06,240
ალბათობა ახლა, და თქვენ ნახავთ, რომ
ეს უფრო მაღალი ალბათობა.

908
00:48:06,240 --> 00:48:12,160
>> ასე რომ, ეს არის ალგორითმი მოუწოდა TANGO
სეგმენტაცია ალგორითმი, რომელიც

909
00:48:12,160 --> 00:48:14,990
რეალურად, რომ რაღაც იქნება მართლა
მაგარი პროექტი, რომელიც

910
00:48:14,990 --> 00:48:20,860
ძირითადად იღებს unsegmented ტექსტი, რომელიც
შეიძლება იაპონური ან ჩინური ან იქნებ

911
00:48:20,860 --> 00:48:26,080
English გარეშე ფართები და ცდილობს დააყენა
ფართები შორის სიტყვები და ეს იმას

912
00:48:26,080 --> 00:48:29,120
რომ გამოყენებით ენა მოდელი და
ცდილობს დაინახოს, თუ რა არის ყველაზე მაღალი

913
00:48:29,120 --> 00:48:31,270
ალბათობა შეგიძლიათ მიიღოთ.

914
00:48:31,270 --> 00:48:32,230
OK.

915
00:48:32,230 --> 00:48:33,800
ასე რომ, ეს სეგმენტაცია.

916
00:48:33,800 --> 00:48:35,450
>> ახლა სინტაქსი.

917
00:48:35,450 --> 00:48:40,940
ასე რომ, სინტაქსი გამოიყენება
ამდენი რამ ახლა.

918
00:48:40,940 --> 00:48:44,880
ასე Graph ძებნა, რადგან Siri for
საკმაოდ ბევრი ნებისმიერი სახის ბუნებრივი

919
00:48:44,880 --> 00:48:46,490
ენის დამუშავება გაქვთ.

920
00:48:46,490 --> 00:48:49,140
რა არის მნიშვნელოვანი
რამ სინტაქსი?

921
00:48:49,140 --> 00:48:52,390
ასე რომ, სასჯელს ზოგადად აქვს
რაც ჩვენ მოვუწოდებთ შემადგენელს.

922
00:48:52,390 --> 00:48:57,080
რომელიც სახის მოსწონს ჯგუფების სიტყვები
რომ აქვს ფუნქცია სასჯელს.

923
00:48:57,080 --> 00:49:02,220
და ისინი ნამდვილად ვერ იქნება
გარდა ერთმანეთს.

924
00:49:02,220 --> 00:49:07,380
>> ასე რომ, თუ მე ვიტყვი, მაგალითად, "ლორენ უყვარს
Milo. "მე ვიცი, რომ" Lauren "არის

925
00:49:07,380 --> 00:49:10,180
დამფუძნებელი და შემდეგ "უყვარს
Milo "ასევე კიდევ ერთი.

926
00:49:10,180 --> 00:49:16,860
იმის გამო, რომ ვერ ვიტყვი, როგორიცაა "Lauren Milo
უყვარს "აქვს იგივე მნიშვნელობა აქვს.

927
00:49:16,860 --> 00:49:18,020
ის არ აპირებს
იგივე მნიშვნელობა.

928
00:49:18,020 --> 00:49:22,500
ან მე ვერ ვიტყვი, როგორიცაა "Milo Lauren
უყვარს. "ყველაფერი აქვს იგივე

929
00:49:22,500 --> 00:49:25,890
რაც იმას ნიშნავს, აკეთებს, რომ.

930
00:49:25,890 --> 00:49:31,940
>> ასე რომ, კიდევ ორი ​​მნიშვნელოვანი რამ
სინტაქსი არის ლექსიკური ტიპი რომელიც

931
00:49:31,940 --> 00:49:35,390
ძირითადად ფუნქცია, რომ თქვენ
აქვს სიტყვა თავად.

932
00:49:35,390 --> 00:49:39,180
ასე, რომ თქვენ უნდა იცოდეს, რომ "Lauren"
და "Milo" არის არსებითი.

933
00:49:39,180 --> 00:49:41,040
"სიყვარული" არის ზმნა.

934
00:49:41,040 --> 00:49:45,660
და მეორე მნიშვნელოვანი ის არის,
რომ ისინი phrasal ტიპის.

935
00:49:45,660 --> 00:49:48,990
ასე რომ თქვენ იცით, რომ "უყვარს Milo"
ფაქტიურად სიტყვიერი ფრაზა.

936
00:49:48,990 --> 00:49:52,390
ასე რომ, როდესაც ვამბობ "Lauren," მე ვიცი, რომ
Lauren აკეთებს რაღაც.

937
00:49:52,390 --> 00:49:53,620
რა არის ის აკეთებს?

938
00:49:53,620 --> 00:49:54,570
ის მოსიყვარულე Milo.

939
00:49:54,570 --> 00:49:56,440
ასე რომ მთელი რამ.

940
00:49:56,440 --> 00:50:01,640
მაგრამ მისი კომპონენტები
noun და ზმნა.

941
00:50:01,640 --> 00:50:04,210
მაგრამ ერთად, ისინი ზმნის ფრაზა.

942
00:50:04,210 --> 00:50:08,680
>> ასე რომ, რა შეგვიძლია რეალურად ვუყოთ
კომპიუტერული ლინგვისტიკის?

943
00:50:08,680 --> 00:50:13,810
ასე რომ, თუ მაქვს რამე მაგალითად
"მეგობარი Allison". მე ვხედავ, თუ უბრალოდ

944
00:50:13,810 --> 00:50:17,440
არ სინტაქსური ხე მინდა იცოდეთ, რომ
"მეგობრები" არის noun ფრაზა ეს არის

945
00:50:17,440 --> 00:50:21,480
noun და შემდეგ "საქართველოს Allison" არის
prepositional ფრაზა რომელშიც "და" არის

946
00:50:21,480 --> 00:50:24,810
წინადადება და "Allison" არის არსებითი.

947
00:50:24,810 --> 00:50:30,910
რა შეიძლება გავაკეთოთ ასწავლიან ჩემს კომპიუტერში
რომ, როდესაც მე მაქვს noun ფრაზა ერთი და

948
00:50:30,910 --> 00:50:33,080
მაშინ prepositional ფრაზა.

949
00:50:33,080 --> 00:50:39,020
ასე რომ, ამ შემთხვევაში, "მეგობრები" და შემდეგ "საქართველოს
Milo "ვიცი, რომ ეს ნიშნავს, რომ

950
00:50:39,020 --> 00:50:43,110
NP2, მეორე, ფლობს NP1.

951
00:50:43,110 --> 00:50:47,680
>> ასე რომ, შეგიძლიათ შექმნათ რაიმე სახის ურთიერთობა,
გარკვეული ფუნქცია მას.

952
00:50:47,680 --> 00:50:52,370
ასე რომ როდესაც მე ვხედავ ამ სტრუქტურა, რომელიც
მატჩები სწორედ "მეგობრები

953
00:50:52,370 --> 00:50:56,030
Allison, "ვიცი, რომ Allison
ფლობს მეგობარი.

954
00:50:56,030 --> 00:50:58,830
ასე რომ მეგობრები არიან რაღაც
რომ Allison აქვს.

955
00:50:58,830 --> 00:50:59,610
აზრი?

956
00:50:59,610 --> 00:51:01,770
ასე რომ, ეს არის ძირითადად რა
Graph ძებნა აკეთებს.

957
00:51:01,770 --> 00:51:04,360
უბრალოდ ქმნის წესები
ბევრი რამ.

958
00:51:04,360 --> 00:51:08,190
ასე რომ "მეგობარი Allison", "ჩემი მეგობარი
რომლებიც ცხოვრობენ Cambridge "," ჩემი მეგობარი

959
00:51:08,190 --> 00:51:12,970
რომლებიც დადიან Harvard. "ეს ქმნის წესები
ყველა იმ რამ.

960
00:51:12,970 --> 00:51:14,930
>> ახლა მანქანით თარგმანი.

961
00:51:14,930 --> 00:51:18,850
ასე რომ, მანქანური თარგმანი, ასევე
რაღაც სტატისტიკური.

962
00:51:18,850 --> 00:51:21,340
და რეალურად თუ ჩაერთოს
კომპიუტერული ლინგვისტიკის, ბევრი

963
00:51:21,340 --> 00:51:23,580
თქვენი პერსონალი იქნება სტატისტიკა.

964
00:51:23,580 --> 00:51:26,670
ასე რომ, როგორც მე აკეთებდა მაგალითად
ბევრი ალბათობა, რომ მე ვიყავი

965
00:51:26,670 --> 00:51:30,540
გაანგარიშების, და შემდეგ თქვენ მიიღებთ ამ
ძალიან მცირე რაოდენობის, რომ საბოლოო

966
00:51:30,540 --> 00:51:33,180
ალბათობა, რომ ის, რაც
გაძლევთ პასუხი.

967
00:51:33,180 --> 00:51:37,540
მანქანური თარგმანი იყენებს
სტატისტიკური მოდელი.

968
00:51:37,540 --> 00:51:44,790
და თუ გვინდა ვიფიქროთ მანქანა
თარგმანი მარტივი შესაძლო

969
00:51:44,790 --> 00:51:48,970
გზა, რა შეიძლება ვიფიქროთ მხოლოდ
ვთარგმნით სიტყვა სიტყვით, არა?

970
00:51:48,970 --> 00:51:52,150
>> როდესაც თქვენ სწავლის ენა
პირველად, რომელიც, როგორც წესი, რა

971
00:51:52,150 --> 00:51:52,910
თქვენ, არა?

972
00:51:52,910 --> 00:51:57,050
თუ გსურთ თარგმნოს სასჯელი
თქვენს ენაზე ენა

973
00:51:57,050 --> 00:52:00,060
თქვენ სწავლის, როგორც წესი, პირველ რიგში, თქვენ
თარგმნა თითოეული სიტყვა

974
00:52:00,060 --> 00:52:03,180
ინდივიდუალურად და შემდეგ თქვენ ცდილობენ
დააყენა სიტყვა შევიდა ადგილი.

975
00:52:03,180 --> 00:52:07,100
>> ასე რომ, თუ მინდოდა თარგმნოს ეს,
[წარმოთქმული სიტყვის პორტუგალიის]

976
00:52:07,100 --> 00:52:10,430
რაც ნიშნავს "თეთრი კატა გაიქცა."
თუ მინდოდა თარგმნოს იგი

977
00:52:10,430 --> 00:52:13,650
პორტუგალური English, რაც მე
შეიძლება გავაკეთოთ, არის ის, პირველ რიგში, მე უბრალოდ

978
00:52:13,650 --> 00:52:14,800
თარგმნის სიტყვასიტყვით.

979
00:52:14,800 --> 00:52:20,570
ასე რომ, "o" არის "", "gato", "კატა"
"Branco", "თეთრი" და შემდეგ "fugio" არის

980
00:52:20,570 --> 00:52:21,650
"გაიქცა".

981
00:52:21,650 --> 00:52:26,130
>> ასე რომ მაშინ მე ყველა სიტყვა აქ,
მაგრამ ისინი არ მიზნით.

982
00:52:26,130 --> 00:52:29,590
ეს იგივეა, "კატა თეთრი გაიქცა"
რომელიც ungrammatical.

983
00:52:29,590 --> 00:52:34,490
ასეა, მაშინ მე შემიძლია აქვს მეორე ნაბიჯი, რომელიც
უნდა იპოვო იდეალური

984
00:52:34,490 --> 00:52:36,610
პოზიცია თითოეული სიტყვა.

985
00:52:36,610 --> 00:52:40,240
ასე რომ, მე ვიცი, რომ მე რეალურად მინდა, რომ
"თეთრი კატა" ნაცვლად "კატა თეთრი." ასე რომ,

986
00:52:40,240 --> 00:52:46,050
რა შემიძლია არის, ყველაზე გულუბრყვილო მეთოდი
იქნება შექმნა ყველა

987
00:52:46,050 --> 00:52:49,720
შესაძლო permutations of
ვთქვათ, თანამდებობაზე.

988
00:52:49,720 --> 00:52:53,300
და მერე ვნახოთ, რომელი ერთი აქვს
მაღალი ალბათობა მიხედვით

989
00:52:53,300 --> 00:52:54,970
ჩემს ენაზე მოდელი.

990
00:52:54,970 --> 00:52:58,390
და მაშინ, როდესაც მე ერთი, რომ აქვს
ყველაზე მაღალი ალბათობა, რაც არის

991
00:52:58,390 --> 00:53:01,910
ალბათ, "თეთრი კატა გაიქცა"
რომ ჩემი თარგმანი.

992
00:53:01,910 --> 00:53:06,710
>> და ეს არის მარტივი გზა აეხსნა
რამდენად ბევრი მანქანური თარგმანი

993
00:53:06,710 --> 00:53:07,910
ალგორითმები მუშაობა.

994
00:53:07,910 --> 00:53:08,920
ამჯამად რომ აზრი?

995
00:53:08,920 --> 00:53:12,735
ეს არის ასევე რაღაც ნამდვილად საინტერესო
რომ თქვენ ბიჭები შეიძლება იქნებ შეისწავლონ

996
00:53:12,735 --> 00:53:13,901
საბოლოო პროექტი, yeah?

997
00:53:13,901 --> 00:53:15,549
>> სტუდენტი: კარგად, თქვენ განაცხადა, რომ ის
გულუბრყვილო გზა, ასე, რა არის

998
00:53:15,549 --> 00:53:17,200
არასამთავრობო გულუბრყვილო გზა?

999
00:53:17,200 --> 00:53:18,400
>> LUCAS Freitas: არასამთავრობო გულუბრყვილო გზა?

1000
00:53:18,400 --> 00:53:19,050
OK.

1001
00:53:19,050 --> 00:53:22,860
ასე რომ, პირველი, რაც არის ცუდი
ამ მეთოდით ის არის, რომ მე უბრალოდ თარგმნა

1002
00:53:22,860 --> 00:53:24,330
სიტყვა, სიტყვა სიტყვას.

1003
00:53:24,330 --> 00:53:30,570
მაგრამ ზოგჯერ თქვენ უნდა სიტყვა, რომ
შეიძლება მქონდეს თარგმანი.

1004
00:53:30,570 --> 00:53:32,210
მე ვაპირებ ცდილობენ ვფიქრობ
რაღაც.

1005
00:53:32,210 --> 00:53:37,270
მაგალითად, "მანგას" პორტუგალიის can
იყოს "mangle" ან "ყდის". ასე რომ,

1006
00:53:37,270 --> 00:53:40,450
როდესაც თქვენ ცდილობთ თარგმნოს სიტყვა
სიტყვა, შეიძლება გაწვდით

1007
00:53:40,450 --> 00:53:42,050
რაღაც, რომ აზრი არ აქვს.

1008
00:53:42,050 --> 00:53:45,770
>> ასე, რომ თქვენ ნამდვილად გინდათ გადავხედავთ ყველა
შესაძლო თარგმანი

1009
00:53:45,770 --> 00:53:49,840
სიტყვა და ვხედავ, პირველ რიგში,
რა არის მიზნით.

1010
00:53:49,840 --> 00:53:52,000
ჩვენ ვსაუბრობთ permutating
რამ?

1011
00:53:52,000 --> 00:53:54,150
იმისათვის, რომ ნახოთ ყველა შესაძლო ბრძანებები და
აირჩიოს ერთი უმაღლესი

1012
00:53:54,150 --> 00:53:54,990
ალბათობა?

1013
00:53:54,990 --> 00:53:57,860
თქვენ ასევე შეგიძლიათ ყველა შესაძლო
მეხსიერება თითოეული

1014
00:53:57,860 --> 00:54:00,510
სიტყვა და მერე ვნახოთ -

1015
00:54:00,510 --> 00:54:01,950
ერთად permutations -

1016
00:54:01,950 --> 00:54:03,710
რომელიც ერთი ყველაზე მაღალი ალბათობა.

1017
00:54:03,710 --> 00:54:08,590
>> გარდა ამისა, ასევე შეგიძლიათ შევხედოთ არა
მხოლოდ სიტყვები, არამედ ფრაზები.

1018
00:54:08,590 --> 00:54:11,700
ასე რომ თქვენ შეგიძლიათ გაანალიზოს შორის ურთიერთობებში
სიტყვა და შემდეგ მიიღოს

1019
00:54:11,700 --> 00:54:13,210
უკეთესი თარგმანი.

1020
00:54:13,210 --> 00:54:16,690
ასევე რაღაც, ასე რომ ამ სემესტრში
მე რეალურად აკეთებს კვლევა

1021
00:54:16,690 --> 00:54:19,430
ჩინური English მანქანური თარგმანი,
ასე თარგმნიან დან

1022
00:54:19,430 --> 00:54:20,940
Chinese ინგლისურად.

1023
00:54:20,940 --> 00:54:26,760
>> და რაღაც გავაკეთოთ, არის ის, გარდა გამოყენებით
სტატისტიკური მოდელი, რომელიც მხოლოდ

1024
00:54:26,760 --> 00:54:30,570
ხედავს ალბათობა ხედავს
ზოგიერთი პოზიცია წინადადება, მე ვარ

1025
00:54:30,570 --> 00:54:35,360
რეალურად ასევე დასძინა ზოგიერთი სინტაქსური ჩემს
მოდელი, ამბობს, oh, თუ მე ვერ ვხედავ ამ სახის

1026
00:54:35,360 --> 00:54:39,420
სამშენებლო, ეს არის ის, რაც მე მინდა
შეცვლის, როდესაც მე თარგმნა.

1027
00:54:39,420 --> 00:54:43,880
ასე რომ თქვენ ასევე შეგიძლიათ დაამატოთ გარკვეული სახის
ელემენტის სინტაქსი, რათა

1028
00:54:43,880 --> 00:54:47,970
თარგმანი უფრო ეფექტური
და უფრო ზუსტი.

1029
00:54:47,970 --> 00:54:48,550
OK.

1030
00:54:48,550 --> 00:54:51,010
>> ასე როგორ შეიძლება დავიწყოთ, თუ გსურთ
რაღაც გამოთვლითი

1031
00:54:51,010 --> 00:54:51,980
ენათმეცნიერების?

1032
00:54:51,980 --> 00:54:54,560
>> პირველი, თქვენ პროექტი
რომელიც მოიცავს ენებზე.

1033
00:54:54,560 --> 00:54:56,310
ასე რომ, არსებობს ამდენი არსებობს.

1034
00:54:56,310 --> 00:54:58,420
იქ ძალიან ბევრი რამ შეგიძლიათ გააკეთოთ.

1035
00:54:58,420 --> 00:55:00,510
და შემდეგ შეიძლება ვიფიქროთ მოდელი
რომ თქვენ შეგიძლიათ გამოიყენოთ.

1036
00:55:00,510 --> 00:55:04,710
როგორც წესი, ეს ნიშნავს, რომ აზროვნება
ვარაუდები, როგორც მოსწონს, oh, როდესაც მე ვიყავი

1037
00:55:04,710 --> 00:55:05,770
ისევე როგორც აზროვნების სიმღერები.

1038
00:55:05,770 --> 00:55:09,510
მე კი, როგორიცაა, ასევე, თუ მინდა გაერკვნენ
გარეთ რომელმაც დაწერა ეს, მე ალბათ მინდა

1039
00:55:09,510 --> 00:55:15,400
შევხედოთ სიტყვა პირი გამოყენებული და
ვხედავ, ვინც იყენებს, რომ სიტყვა ძალიან ხშირად.

1040
00:55:15,400 --> 00:55:18,470
ამიტომ ცდილობენ ვარაუდები და
ცდილობენ ვფიქრობ მოდელები.

1041
00:55:18,470 --> 00:55:21,395
და მაშინ ასევე შეგიძლიათ მოძებნოთ ონლაინ
სახის პრობლემა, რომელიც თქვენ გაქვთ,

1042
00:55:21,395 --> 00:55:24,260
და ის აპირებს ვარაუდობენ
თქვენ მოდელები, შესაძლოა,

1043
00:55:24,260 --> 00:55:26,560
მოდელირებული რომ რამ კარგად.

1044
00:55:26,560 --> 00:55:29,080
>> ასევე თქვენ ყოველთვის შეგიძლიათ მომაწოდეთ.

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com.

1046
00:55:31,140 --> 00:55:34,940
და მე შემიძლია მხოლოდ უპასუხოს თქვენს შეკითხვებს.

1047
00:55:34,940 --> 00:55:38,600
ჩვენ კი შეიძლება შეხვდეს, ასე რომ მე არ შემიძლია
მისცეს წინადადებები გზები

1048
00:55:38,600 --> 00:55:41,490
ახორციელებს თქვენი პროექტი.

1049
00:55:41,490 --> 00:55:45,610
და ვგულისხმობ, თუ თქვენ ჩართული
კომპიუტერული ლინგვისტიკის, ის აპირებს

1050
00:55:45,610 --> 00:55:46,790
უნდა იყოს დიდი.

1051
00:55:46,790 --> 00:55:48,370
თქვენ ვაპირებთ ვხედავ არის
იმდენად პოტენციალი.

1052
00:55:48,370 --> 00:55:52,060
და ინდუსტრიის უნდა აიყვანოს
თქვენ ისე ცუდი გამო.

1053
00:55:52,060 --> 00:55:54,720
ასე რომ, იმედი მაქვს, რომ თქვენ ბიჭები სარგებლობდა ამ.

1054
00:55:54,720 --> 00:55:57,030
თუ ბიჭები გაქვთ რაიმე შეკითხვები,
თქვენ შეგიძლიათ მკითხავთ შემდეგ.

1055
00:55:57,030 --> 00:55:58,280
მაგრამ მადლობა.

1056
00:55:58,280 --> 00:56:00,150