1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> Lucas Freitas: Hey.

3
00:00:08,870 --> 00:00:09,980
Chào mừng tất cả mọi người.

4
00:00:09,980 --> 00:00:11,216
Tên tôi là Lucas Freitas.

5
00:00:11,216 --> 00:00:15,220
Tôi là một sinh viên năm [nghe được] học
khoa học máy tính với một tập trung trong

6
00:00:15,220 --> 00:00:16,410
ngôn ngữ học tính toán.

7
00:00:16,410 --> 00:00:19,310
Vì vậy, trung học của tôi là trong ngôn ngữ
và lý thuyết ngôn ngữ học.

8
00:00:19,310 --> 00:00:21,870
Tôi thực sự vui mừng để dạy các bạn
một chút về lĩnh vực này.

9
00:00:21,870 --> 00:00:24,300
Đó là một khu vực rất thú vị để nghiên cứu.

10
00:00:24,300 --> 00:00:27,260
Còn với rất nhiều tiềm năng
cho tương lai.

11
00:00:27,260 --> 00:00:30,160
Vì vậy, tôi thực sự vui mừng rằng các bạn
đang xem xét các dự án trong

12
00:00:30,160 --> 00:00:31,160
ngôn ngữ học tính toán.

13
00:00:31,160 --> 00:00:35,460
Và tôi sẽ được hạnh phúc hơn để tư vấn cho hơn
bất kỳ của bạn nếu bạn quyết định

14
00:00:35,460 --> 00:00:37,090
theo đuổi một trong những.

15
00:00:37,090 --> 00:00:40,010
>> Vì vậy, trước tất cả những gì là tính toán
ngôn ngữ học?

16
00:00:40,010 --> 00:00:44,630
Ngôn ngữ học để tính toán là
giao nhau giữa ngôn ngữ học và

17
00:00:44,630 --> 00:00:46,390
khoa học máy tính.

18
00:00:46,390 --> 00:00:47,415
Vì vậy, ngôn ngữ học là gì?

19
00:00:47,415 --> 00:00:48,490
Khoa học máy tính là gì?

20
00:00:48,490 --> 00:00:51,580
Cũng từ ngôn ngữ học, những gì
chúng ta là ngôn ngữ.

21
00:00:51,580 --> 00:00:54,960
Vì vậy, ngôn ngữ học thực sự là nghiên cứu
của ngôn ngữ tự nhiên nói chung.

22
00:00:54,960 --> 00:00:58,330
Ngôn ngữ rất tự nhiên - chúng ta nói về
ngôn ngữ mà chúng ta thực sự sử dụng để

23
00:00:58,330 --> 00:00:59,770
giao tiếp với nhau.

24
00:00:59,770 --> 00:01:02,200
Vì vậy, chúng tôi không chính xác nói
về C hoặc Java.

25
00:01:02,200 --> 00:01:05,900
Chúng ta đang nói nhiều hơn về tiếng Anh và
Trung Quốc và các ngôn ngữ khác mà chúng tôi

26
00:01:05,900 --> 00:01:07,780
sử dụng để giao tiếp với nhau.

27
00:01:07,780 --> 00:01:12,470
>> Điều khó khăn về điều đó là
ngay bây giờ chúng tôi có gần 7.000

28
00:01:12,470 --> 00:01:14,260
thứ tiếng trên thế giới.

29
00:01:14,260 --> 00:01:19,520
Vì vậy, có khá nhiều loại cao
ngôn ngữ mà chúng ta có thể nghiên cứu.

30
00:01:19,520 --> 00:01:22,600
Và sau đó bạn nghĩ rằng nó có thể là
rất khó để làm, ví dụ,

31
00:01:22,600 --> 00:01:26,960
dịch từ một ngôn ngữ đến
khác, xem xét rằng bạn có

32
00:01:26,960 --> 00:01:28,240
gần 7.000 trong số họ.

33
00:01:28,240 --> 00:01:31,450
Vì vậy, nếu bạn nghĩ rằng làm dịch
từ một ngôn ngữ khác, bạn

34
00:01:31,450 --> 00:01:35,840
có gần như hơn một triệu
kết hợp khác nhau mà bạn có thể

35
00:01:35,840 --> 00:01:37,330
có từ ngôn ngữ đến ngôn ngữ.

36
00:01:37,330 --> 00:01:40,820
Vì vậy, nó thực sự thách thức để làm một số
loại hệ thống ví dụ dịch thuật

37
00:01:40,820 --> 00:01:43,540
mọi ngôn ngữ duy nhất.

38
00:01:43,540 --> 00:01:47,120
>> Vì vậy, ngôn ngữ học đối xử với cú pháp,
ngữ nghĩa, ngữ dụng.

39
00:01:47,120 --> 00:01:49,550
Các bạn không cần phải chính xác
để biết được những gì họ đang có.

40
00:01:49,550 --> 00:01:55,090
Nhưng điều rất thú vị là
như một người bản xứ, khi bạn học

41
00:01:55,090 --> 00:01:59,010
ngôn ngữ như đứa trẻ, bạn thực sự học
tất cả những điều - ngữ nghĩa cú pháp

42
00:01:59,010 --> 00:02:00,500
và ngữ dụng -

43
00:02:00,500 --> 00:02:01,430
của chính mình.

44
00:02:01,430 --> 00:02:04,820
Và không ai có để dạy cho bạn cú pháp cho
bạn hiểu như thế nào câu được

45
00:02:04,820 --> 00:02:05,290
cấu trúc.

46
00:02:05,290 --> 00:02:07,980
Vì vậy, nó thực sự thú vị bởi vì
nó là cái gì mà đi kèm rất

47
00:02:07,980 --> 00:02:10,389
trực giác.

48
00:02:10,389 --> 00:02:13,190
>> Và những gì được bạn lấy từ
khoa học máy tính?

49
00:02:13,190 --> 00:02:16,700
Vâng, điều quan trọng nhất mà chúng tôi
có trong khoa học máy tính là đầu tiên của

50
00:02:16,700 --> 00:02:19,340
tất cả, trí tuệ nhân tạo
và học máy.

51
00:02:19,340 --> 00:02:22,610
Vì vậy, những gì chúng tôi đang cố gắng để làm
ngôn ngữ học tính toán là dạy

52
00:02:22,610 --> 00:02:26,990
máy tính của bạn làm thế nào để làm điều gì đó
với ngôn ngữ.

53
00:02:26,990 --> 00:02:28,630
>> Vì vậy, ví dụ, trong máy
dịch.

54
00:02:28,630 --> 00:02:32,490
Tôi đang cố gắng để dạy làm thế nào máy tính của tôi
biết làm thế nào để chuyển từ một

55
00:02:32,490 --> 00:02:33,310
ngôn ngữ khác.

56
00:02:33,310 --> 00:02:35,790
Vì vậy, về cơ bản giống như giảng dạy
một máy tính hai ngôn ngữ.

57
00:02:35,790 --> 00:02:38,870
Nếu tôi làm xử lý ngôn ngữ tự nhiên,
đó là trường hợp ví dụ của

58
00:02:38,870 --> 00:02:41,810
Facebook Biểu đồ tìm kiếm, bạn dạy
máy tính của bạn làm thế nào để hiểu

59
00:02:41,810 --> 00:02:42,730
truy vấn tốt.

60
00:02:42,730 --> 00:02:48,130
>> Vì vậy, nếu bạn nói "các bức ảnh của tôi
bạn bè. "Facebook không điều trị mà

61
00:02:48,130 --> 00:02:51,130
như là một chuỗi toàn có
chỉ là một nhóm các từ.

62
00:02:51,130 --> 00:02:56,020
Nó thực sự hiểu được mối quan hệ
giữa "hình ảnh" và "bạn bè của tôi" và

63
00:02:56,020 --> 00:02:59,620
hiểu rằng "hình ảnh" là
tài sản của "bạn bè của tôi."

64
00:02:59,620 --> 00:03:02,350
>> Vì vậy, đó là một phần của, ví dụ,
xử lý ngôn ngữ tự nhiên.

65
00:03:02,350 --> 00:03:04,790
Nó đang cố gắng để hiểu những gì
là mối quan hệ giữa

66
00:03:04,790 --> 00:03:07,520
các từ trong một câu.

67
00:03:07,520 --> 00:03:11,170
Và câu hỏi lớn là, có thể bạn
dạy cho một máy tính làm thế nào để nói chuyện

68
00:03:11,170 --> 00:03:12,650
một ngôn ngữ nói chung?

69
00:03:12,650 --> 00:03:17,810
Đó là một câu hỏi rất thú vị
nghĩ rằng, nếu có thể trong tương lai,

70
00:03:17,810 --> 00:03:19,930
bạn sẽ có thể
nói chuyện với điện thoại di động của bạn.

71
00:03:19,930 --> 00:03:23,290
Giống như những gì chúng tôi làm với Siri nhưng
một cái gì đó giống như, bạn có thể thực sự

72
00:03:23,290 --> 00:03:25,690
nói bất cứ điều gì bạn muốn và điện thoại
sẽ hiểu tất cả mọi thứ.

73
00:03:25,690 --> 00:03:28,350
Và nó có thể có theo dõi câu hỏi
và tiếp tục nói chuyện.

74
00:03:28,350 --> 00:03:30,880
Đó là một cái gì đó thực sự thú vị,
theo ý kiến ​​của tôi.

75
00:03:30,880 --> 00:03:33,070
>> Vì vậy, một cái gì đó về ngôn ngữ tự nhiên.

76
00:03:33,070 --> 00:03:36,220
Một cái gì đó thực sự thú vị về
ngôn ngữ tự nhiên là, và đây là

77
00:03:36,220 --> 00:03:38,470
tín dụng đối với giáo sư ngôn ngữ học của tôi,
Maria Polinsky.

78
00:03:38,470 --> 00:03:40,830
Cô cho một ví dụ và tôi nghĩ
nó thực sự thú vị.

79
00:03:40,830 --> 00:03:47,060
Bởi vì chúng ta học ngôn ngữ từ khi
chúng ta sinh ra và sau đó bản địa của chúng tôi

80
00:03:47,060 --> 00:03:49,170
ngôn ngữ loại mọc trên chúng ta.

81
00:03:49,170 --> 00:03:52,570
>> Và về cơ bản bạn học ngôn ngữ
từ đầu vào tối thiểu, phải không?

82
00:03:52,570 --> 00:03:56,700
Bạn chỉ nhận được đầu vào từ của bạn
cha mẹ về những gì ngôn ngữ của bạn âm thanh

83
00:03:56,700 --> 00:03:58,770
thích và bạn chỉ cần tìm hiểu nó.

84
00:03:58,770 --> 00:04:02,240
Vì vậy, nó là thú vị bởi vì nếu bạn nhìn
vào những câu, ví dụ.

85
00:04:02,240 --> 00:04:06,980
Bạn nhìn ", Mary đặt trên một chiếc áo khoác hàng
thời gian cô rời khỏi nhà. "

86
00:04:06,980 --> 00:04:10,650
>> Trong trường hợp này, nó có thể có
từ "cô" tham khảo Mary, phải không?

87
00:04:10,650 --> 00:04:13,500
Bạn có thể nói "Đức Maria đặt trên một chiếc áo khoác
mỗi khi Mary rời

88
00:04:13,500 --> 00:04:14,960
nhà. "vì vậy đó là tốt.

89
00:04:14,960 --> 00:04:19,370
Nhưng sau đó nếu bạn nhìn vào câu
"Cô ấy đặt trên một chiếc áo khoác mỗi khi Mary

90
00:04:19,370 --> 00:04:22,850
bỏ nhà đi. "bạn biết đó là
không thể nói rằng "cô ấy" là

91
00:04:22,850 --> 00:04:24,260
đề cập đến Đức Maria.

92
00:04:24,260 --> 00:04:27,070
>> Không có cách nào nói rằng "Mary đặt
trên một chiếc áo khoác mỗi khi Mary lá

93
00:04:27,070 --> 00:04:30,790
nhà. "Vì vậy, nó là thú vị bởi vì
đây là loại trực giác

94
00:04:30,790 --> 00:04:32,890
rằng mỗi người bản xứ có.

95
00:04:32,890 --> 00:04:36,370
Và không ai được dạy rằng đây là
cách mà các cú pháp làm việc.

96
00:04:36,370 --> 00:04:41,930
Và rằng bạn chỉ có thể có điều này "cô"
đề cập đến Đức Maria trong trường hợp đầu tiên này,

97
00:04:41,930 --> 00:04:44,260
và thực sự trong khác này
quá, nhưng không phải trong một này.

98
00:04:44,260 --> 00:04:46,500
Nhưng tất cả mọi người loại được
câu trả lời tương tự.

99
00:04:46,500 --> 00:04:48,580
Tất cả mọi người đồng ý về điều đó.

100
00:04:48,580 --> 00:04:53,280
Vì vậy, nó thực sự thú vị như thế nào mặc dù
bạn không biết tất cả các quy tắc

101
00:04:53,280 --> 00:04:55,575
trong ngôn ngữ của bạn, bạn hiểu loại
như thế nào là ngôn ngữ làm việc.

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> Vì vậy, điều thú vị về thiên nhiên
ngôn ngữ là bạn không cần phải

104
00:05:01,530 --> 00:05:06,970
biết bất kỳ cú pháp để biết nếu một câu
là ngữ pháp hoặc sai ngữ pháp và cho

105
00:05:06,970 --> 00:05:08,810
hầu hết các trường hợp.

106
00:05:08,810 --> 00:05:13,220
Mà làm cho bạn nghĩ rằng có lẽ những gì
xảy ra là thông qua cuộc sống của bạn, bạn

107
00:05:13,220 --> 00:05:17,410
chỉ cần giữ nhận được nhiều hơn và nhiều hơn nữa
câu nói cho bạn.

108
00:05:17,410 --> 00:05:19,800
Và sau đó bạn tiếp tục ghi nhớ
tất cả các câu.

109
00:05:19,800 --> 00:05:24,230
Và sau đó khi ai đó nói với bạn
một cái gì đó, bạn nghe câu đó và

110
00:05:24,230 --> 00:05:27,040
bạn nhìn vào từ vựng của bạn
câu và xem

111
00:05:27,040 --> 00:05:28,270
câu đó là có.

112
00:05:28,270 --> 00:05:29,830
Và nếu nó có bạn
nói đó là ngữ pháp.

113
00:05:29,830 --> 00:05:31,740
Nếu nó không phải là bạn nói đó là
sai ngữ pháp.

114
00:05:31,740 --> 00:05:35,150
>> Vì vậy, trong trường hợp đó, bạn sẽ nói, oh,
để bạn có một danh sách rất lớn của tất cả các

115
00:05:35,150 --> 00:05:36,140
câu có thể.

116
00:05:36,140 --> 00:05:38,240
Và sau đó khi bạn nghe một câu,
bạn biết nếu nó ngữ pháp hay

117
00:05:38,240 --> 00:05:39,450
không dựa trên đó.

118
00:05:39,450 --> 00:05:42,360
Điều là nếu bạn nhìn vào
một câu, ví dụ, "Các

119
00:05:42,360 --> 00:05:47,540
năm đầu CS50 TF nấu chín người mù
bạch tuộc sử dụng một cốc DAPA. "Đó là

120
00:05:47,540 --> 00:05:49,630
chắc chắn không phải là một câu
mà bạn nghe trước đây.

121
00:05:49,630 --> 00:05:52,380
Nhưng đồng thời bạn biết đó là
khá nhiều ngữ pháp, phải không?

122
00:05:52,380 --> 00:05:55,570
Không có lỗi ngữ pháp
và bạn có thể nói rằng

123
00:05:55,570 --> 00:05:57,020
đó là một câu có thể.

124
00:05:57,020 --> 00:06:01,300
>> Vì vậy, nó làm cho chúng ta nghĩ rằng thực sự
cách mà chúng ta học ngôn ngữ không chỉ là

125
00:06:01,300 --> 00:06:07,090
bởi có một cơ sở dữ liệu khổng lồ có thể
từ hoặc câu, nhưng nhiều hơn

126
00:06:07,090 --> 00:06:11,490
sự hiểu biết về mối quan hệ giữa
từ trong những câu.

127
00:06:11,490 --> 00:06:14,570
Điều đó có ý nghĩa?

128
00:06:14,570 --> 00:06:19,370
Vì vậy, sau đó câu hỏi là, có thể
máy tính học ngôn ngữ?

129
00:06:19,370 --> 00:06:21,490
Chúng ta có thể dạy ngôn ngữ cho máy tính?

130
00:06:21,490 --> 00:06:24,230
>> Vì vậy, chúng ta hãy nghĩ đến sự khác biệt
giữa một người bản xứ của một ngôn ngữ

131
00:06:24,230 --> 00:06:25,460
và một máy tính.

132
00:06:25,460 --> 00:06:27,340
Vì vậy, những gì xảy ra cho người nói?

133
00:06:27,340 --> 00:06:30,430
Vâng, người bản xứ học một
ngôn ngữ tiếp xúc với nó.

134
00:06:30,430 --> 00:06:34,200
Thường năm thời thơ ấu của mình.

135
00:06:34,200 --> 00:06:38,570
Vì vậy, về cơ bản, bạn chỉ cần có một em bé,
và bạn tiếp tục nói chuyện với nó, và nó

136
00:06:38,570 --> 00:06:40,540
chỉ biết làm thế nào để nói chuyện
ngôn ngữ, phải không?

137
00:06:40,540 --> 00:06:42,660
Vì vậy, bạn về cơ bản cho
đầu vào cho em bé.

138
00:06:42,660 --> 00:06:45,200
Vì vậy, sau đó bạn có thể tranh luận rằng một máy tính
có thể làm điều tương tự, phải không?

139
00:06:45,200 --> 00:06:49,510
Bạn chỉ có thể cung cấp cho ngôn ngữ
làm đầu vào cho máy tính.

140
00:06:49,510 --> 00:06:53,410
>> Ví dụ như một bó của tập tin
có sách bằng tiếng Anh.

141
00:06:53,410 --> 00:06:56,190
Có lẽ đó là một trong những cách mà bạn
có thể có thể dạy một

142
00:06:56,190 --> 00:06:57,850
máy tính tiếng Anh, phải không?

143
00:06:57,850 --> 00:07:01,000
Và trong thực tế, nếu bạn nghĩ về nó,
nó sẽ đưa bạn có thể một vài

144
00:07:01,000 --> 00:07:02,680
ngày để đọc một cuốn sách.

145
00:07:02,680 --> 00:07:05,760
Cho một máy tính phải mất một giây để
nhìn vào tất cả các từ trong một cuốn sách.

146
00:07:05,760 --> 00:07:10,810
Vì vậy, bạn có thể nghĩ rằng có thể chỉ này
tham số đầu vào từ xung quanh bạn,

147
00:07:10,810 --> 00:07:15,440
đó là không đủ để nói rằng đó là
cái gì mà chỉ có con người có thể làm.

148
00:07:15,440 --> 00:07:17,680
Bạn có thể nghĩ rằng máy tính
cũng có thể có được đầu vào.

149
00:07:17,680 --> 00:07:21,170
>> Điều thứ hai là người bản ngữ
cũng có một bộ não có

150
00:07:21,170 --> 00:07:23,870
khả năng học ngôn ngữ.

151
00:07:23,870 --> 00:07:27,020
Nhưng nếu bạn nghĩ về nó,
một bộ não là một điều chắc chắn.

152
00:07:27,020 --> 00:07:30,450
Khi bạn được sinh ra, nó đã được thiết lập -

153
00:07:30,450 --> 00:07:31,320
đây là bộ não của bạn.

154
00:07:31,320 --> 00:07:34,660
Và khi bạn lớn lên, bạn chỉ cần nhận được nhiều hơn
đầu vào của ngôn ngữ và có thể các chất dinh dưỡng

155
00:07:34,660 --> 00:07:35,960
và các công cụ khác.

156
00:07:35,960 --> 00:07:38,170
Nhưng khá nhiều bộ não của bạn
là một điều chắc chắn.

157
00:07:38,170 --> 00:07:41,290
>> Vì vậy, bạn có thể nói, tốt, có thể bạn có thể
xây dựng một máy tính có một loạt các

158
00:07:41,290 --> 00:07:45,890
chức năng và phương pháp mà chỉ bắt chước
khả năng học ngôn ngữ.

159
00:07:45,890 --> 00:07:49,630
Vì vậy, trong ý nghĩa đó, bạn có thể nói, tốt, tôi
có thể có một máy tính có tất cả các

160
00:07:49,630 --> 00:07:52,270
điều tôi cần phải học ngôn ngữ.

161
00:07:52,270 --> 00:07:56,200
Và điều cuối cùng là một người gốc
loa học từ thử và sai.

162
00:07:56,200 --> 00:08:01,090
Vì vậy, về cơ bản một điều quan trọng trong
học ngôn ngữ là bạn loại

163
00:08:01,090 --> 00:08:05,340
của học những điều bằng cách
khái quát về những gì bạn nghe thấy.

164
00:08:05,340 --> 00:08:10,280
>> Vì vậy, bạn đang lớn lên bạn biết rằng
một số từ đều giống như danh từ,

165
00:08:10,280 --> 00:08:11,820
một số những người khác là tính từ.

166
00:08:11,820 --> 00:08:14,250
Và bạn không cần phải có bất kỳ
kiến thức về ngôn ngữ học

167
00:08:14,250 --> 00:08:15,040
để hiểu điều đó.

168
00:08:15,040 --> 00:08:18,560
Nhưng bạn chỉ cần biết có một số từ
được định vị trong một số phần của

169
00:08:18,560 --> 00:08:22,570
câu và một số người khác trong khác
các bộ phận của câu.

170
00:08:22,570 --> 00:08:26,110
>> Và rằng khi bạn làm điều gì đó có nghĩa là
như một câu mà không phải là chính xác -

171
00:08:26,110 --> 00:08:28,770
có lẽ vì một sự tổng quát hơn
ví dụ.

172
00:08:28,770 --> 00:08:32,210
Có lẽ khi bạn lớn lên, bạn nhận thấy
mà số nhiều thường là

173
00:08:32,210 --> 00:08:35,809
hình thành bằng cách đặt một S tại
cuối của từ đó.

174
00:08:35,809 --> 00:08:40,042
Và sau đó bạn cố gắng làm việc nhiều của
"Nai" là "nai" hay "răng" như

175
00:08:40,042 --> 00:08:44,780
"Tooths." Vì vậy, sau đó cha mẹ của bạn hoặc
một người nào đó sửa chữa và bạn nói, không,

176
00:08:44,780 --> 00:08:49,020
số nhiều của "con nai" là "nai", và
số nhiều của "răng" là "răng". Và sau đó

177
00:08:49,020 --> 00:08:50,060
bạn tìm hiểu những điều đó.

178
00:08:50,060 --> 00:08:51,520
Vì vậy, bạn học hỏi từ thử và sai.

179
00:08:51,520 --> 00:08:53,100
>> Nhưng bạn cũng có thể làm điều đó
với một máy tính.

180
00:08:53,100 --> 00:08:55,310
Bạn có thể có một cái gì đó gọi là
học tập tăng cường.

181
00:08:55,310 --> 00:08:58,560
Đó là cơ bản giống như cho một
máy tính một phần thưởng bất cứ khi nào nó

182
00:08:58,560 --> 00:08:59,410
một cái gì đó một cách chính xác.

183
00:08:59,410 --> 00:09:04,710
Và đem lại cho nó trái ngược với một phần thưởng
và khi nó làm điều gì đó sai.

184
00:09:04,710 --> 00:09:07,410
Bạn thực sự có thể thấy rằng nếu bạn đi
Google Translate và bạn cố gắng

185
00:09:07,410 --> 00:09:10,220
dịch một câu, nó
yêu cầu bạn cho ý kiến ​​phản hồi.

186
00:09:10,220 --> 00:09:13,240
Vì vậy, nếu bạn nói, oh, có một tốt hơn
dịch cho câu này.

187
00:09:13,240 --> 00:09:18,140
Bạn có thể gõ nó lên và sau đó nếu nhiều
người tiếp tục nói rằng đó là một tốt hơn

188
00:09:18,140 --> 00:09:21,560
dịch, nó chỉ biết rằng nó
nên sử dụng dịch thay vì

189
00:09:21,560 --> 00:09:22,960
một trong nó đã được đưa ra.

190
00:09:22,960 --> 00:09:28,830
>> Vì vậy, nó là một câu hỏi rất triết học
để xem nếu máy tính đang có được

191
00:09:28,830 --> 00:09:30,340
có thể nói chuyện hay không trong tương lai.

192
00:09:30,340 --> 00:09:34,440
Nhưng tôi có hy vọng rằng họ có thể
chỉ dựa trên những lập luận.

193
00:09:34,440 --> 00:09:38,570
Nhưng nó chỉ là chi tiết của một triết học
câu hỏi.

194
00:09:38,570 --> 00:09:43,460
>> Vì vậy, trong khi máy tính vẫn không thể nói chuyện,
những điều mà chúng ta có thể làm là gì?

195
00:09:43,460 --> 00:09:47,070
Một số điều thực sự mát mẻ là
phân loại dữ liệu.

196
00:09:47,070 --> 00:09:53,210
Vì vậy, ví dụ, bạn biết
các dịch vụ email làm,

197
00:09:53,210 --> 00:09:55,580
Ví dụ, lọc thư rác.

198
00:09:55,580 --> 00:09:59,070
Vì vậy, bất cứ khi nào quý vị nhận được thư rác, nó
cố gắng để lọc hộp khác.

199
00:09:59,070 --> 00:10:00,270
Vì vậy, làm thế nào để nó làm điều đó?

200
00:10:00,270 --> 00:10:06,080
Nó không giống như các máy tính chỉ biết
địa chỉ email những gì đang gửi thư rác.

201
00:10:06,080 --> 00:10:09,130
Vì vậy, nó hơn dựa trên nội dung của
tin nhắn, hoặc có thể là tiêu đề, hoặc

202
00:10:09,130 --> 00:10:11,310
có thể một số mẫu mà bạn có.

203
00:10:11,310 --> 00:10:15,690
>> Vì vậy, về cơ bản, những gì bạn có thể làm là có được một
rất nhiều dữ liệu của email là thư rác,

204
00:10:15,690 --> 00:10:19,980
email mà không phải là thư rác, và tìm hiểu những gì
loại mô hình bạn có trong

205
00:10:19,980 --> 00:10:21,000
những người mà là thư rác.

206
00:10:21,000 --> 00:10:23,260
Và điều này là một phần của tính toán
ngôn ngữ học.

207
00:10:23,260 --> 00:10:24,720
Nó được gọi là phân loại dữ liệu.

208
00:10:24,720 --> 00:10:28,100
Và chúng tôi đang thực sự sẽ thấy một
ví dụ đó trong các slide tiếp theo.

209
00:10:28,100 --> 00:10:32,910
>> Điều thứ hai là ngôn ngữ tự nhiên
xử lý là điều mà các

210
00:10:32,910 --> 00:10:36,580
Tìm kiếm đồ thị đang làm để cho
bạn viết một câu.

211
00:10:36,580 --> 00:10:38,690
Và nó tin tưởng bạn hiểu những gì
là ý nghĩa và mang lại cho

212
00:10:38,690 --> 00:10:39,940
bạn một kết quả tốt hơn.

213
00:10:39,940 --> 00:10:43,880
Trên thực tế, nếu bạn đi đến Google hay Bing
và bạn tìm kiếm một cái gì đó như Lady

214
00:10:43,880 --> 00:10:47,060
Chiều cao của Gaga, bạn đang thực sự đi
để có được 5 '1 "thay vì thông tin

215
00:10:47,060 --> 00:10:50,170
từ cô ấy bởi vì nó thực sự hiểu
những gì bạn đang nói về.

216
00:10:50,170 --> 00:10:52,140
Vì vậy, đó là một phần của tự nhiên
xử lý ngôn ngữ.

217
00:10:52,140 --> 00:10:57,000
>> Hoặc cũng có khi bạn đang sử dụng Siri, đầu tiên
bạn có một thuật toán mà cố gắng để

218
00:10:57,000 --> 00:11:01,130
dịch những gì bạn đang nói
thành các từ, trong văn bản.

219
00:11:01,130 --> 00:11:03,690
Và sau đó nó sẽ cố gắng để dịch
đó vào ý nghĩa.

220
00:11:03,690 --> 00:11:06,570
Vì vậy, đó là tất cả một phần của tự nhiên
xử lý ngôn ngữ.

221
00:11:06,570 --> 00:11:08,320
>> Sau đó, bạn có dịch máy -

222
00:11:08,320 --> 00:11:10,300
mà thực sự là một
yêu thích của tôi -

223
00:11:10,300 --> 00:11:14,060
mà chỉ là dịch từ
một ngôn ngữ khác.

224
00:11:14,060 --> 00:11:17,950
Vì vậy, bạn có thể nghĩ rằng khi bạn đang làm
dịch máy, bạn có

225
00:11:17,950 --> 00:11:19,750
khả năng vô hạn của câu.

226
00:11:19,750 --> 00:11:22,960
Vì vậy, không có cách nào chỉ lưu trữ
mỗi bản dịch duy nhất.

227
00:11:22,960 --> 00:11:27,440
Vì vậy, bạn có để đến với thú vị
các thuật toán để có thể

228
00:11:27,440 --> 00:11:30,110
dịch mỗi đơn
câu một cách nào đó.

229
00:11:30,110 --> 00:11:32,483
>> Bạn có bất kỳ câu hỏi cho đến nay?

230
00:11:32,483 --> 00:11:34,450
Không?

231
00:11:34,450 --> 00:11:34,830
OK.

232
00:11:34,830 --> 00:11:36,900
>> Vì vậy, những gì chúng ta sẽ thấy ngày nay?

233
00:11:36,900 --> 00:11:39,300
Trước hết, tôi sẽ nói về
vấn đề phân loại.

234
00:11:39,300 --> 00:11:41,440
Vì vậy, một trong đó là tôi
nói về thư rác.

235
00:11:41,440 --> 00:11:46,820
Những gì tôi sẽ làm là, lời bài hát được
một bài hát, bạn có thể thử để tìm ra

236
00:11:46,820 --> 00:11:49,810
với xác suất cao
ai là ca sĩ?

237
00:11:49,810 --> 00:11:53,590
Hãy nói rằng tôi có những bài hát của Lady
Gaga và Katy Perry, nếu tôi cung cấp cho bạn một

238
00:11:53,590 --> 00:11:58,130
bài hát mới, bạn có thể tìm ra nếu
đó là Katy Perry hay Lady Gaga?

239
00:11:58,130 --> 00:12:01,490
>> Thứ hai, tôi chỉ cần đi để nói chuyện
về vấn đề phân khúc.

240
00:12:01,490 --> 00:12:05,780
Vì vậy, tôi không biết nếu các bạn biết, nhưng
Trung Quốc, Nhật Bản, Đông Nam Á khác

241
00:12:05,780 --> 00:12:08,090
ngôn ngữ, và các ngôn ngữ khác
nói chung, không có

242
00:12:08,090 --> 00:12:09,830
không gian giữa các từ.

243
00:12:09,830 --> 00:12:13,540
Và sau đó nếu bạn suy nghĩ về cách mà
loại máy tính của bạn cố gắng để

244
00:12:13,540 --> 00:12:18,600
hiểu xử lý ngôn ngữ tự nhiên,
nó nhìn vào những lời nói và

245
00:12:18,600 --> 00:12:21,500
cố gắng để hiểu các mối quan hệ
giữa chúng, phải không?

246
00:12:21,500 --> 00:12:25,440
Nhưng sau đó nếu bạn có Trung Quốc, và bạn
có không gian, nó thực sự khó

247
00:12:25,440 --> 00:12:28,360
tìm hiểu mối quan hệ giữa những gì là
từ, bởi vì họ không có bất kỳ

248
00:12:28,360 --> 00:12:29,530
từ lần đầu tiên.

249
00:12:29,530 --> 00:12:32,600
Vì vậy, bạn phải làm một cái gì đó gọi là
Phân khúc mà chỉ có nghĩa là đặt

250
00:12:32,600 --> 00:12:36,490
khoảng trống giữa những gì chúng tôi muốn gọi
từ trong những ngôn ngữ.

251
00:12:36,490 --> 00:12:37,740
Có ý nghĩa?

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> Và sau đó chúng ta sẽ
nói về cú pháp.

254
00:12:41,540 --> 00:12:44,050
Vì vậy chỉ cần một chút về tự nhiên
xử lý ngôn ngữ.

255
00:12:44,050 --> 00:12:45,420
Nó sẽ được chỉ là một cái nhìn tổng quan.

256
00:12:45,420 --> 00:12:50,700
Vì vậy, ngày hôm nay, về cơ bản những gì tôi muốn làm
được cung cấp cho các bạn một chút của một

257
00:12:50,700 --> 00:12:53,930
bên trong của các khả năng là gì
mà bạn có thể làm với tính toán

258
00:12:53,930 --> 00:12:54,960
ngôn ngữ học.

259
00:12:54,960 --> 00:13:00,410
Và sau đó bạn có thể xem những gì bạn nghĩ
là mát mẻ trong những điều đó.

260
00:13:00,410 --> 00:13:02,270
Và có thể bạn có thể nghĩ đến một dự án
và đến nói chuyện với tôi.

261
00:13:02,270 --> 00:13:05,260
Và tôi có thể cung cấp cho bạn lời khuyên
làm thế nào để thực hiện nó.

262
00:13:05,260 --> 00:13:09,060
>> Vì vậy, cú pháp là có được một chút
Biểu đồ về tìm kiếm và máy

263
00:13:09,060 --> 00:13:09,670
dịch.

264
00:13:09,670 --> 00:13:13,650
Tôi chỉ sẽ cung cấp cho một ví dụ về cách
bạn có thể, ví dụ, dịch

265
00:13:13,650 --> 00:13:16,020
một cái gì đó từ Bồ Đào Nha sang tiếng Anh.

266
00:13:16,020 --> 00:13:17,830
Âm thanh tốt?

267
00:13:17,830 --> 00:13:19,293
>> Vì vậy, đầu tiên, vấn đề phân loại.

268
00:13:19,293 --> 00:13:23,590
Tôi sẽ nói rằng một phần của hội thảo
sẽ là những thách thức

269
00:13:23,590 --> 00:13:27,560
một chỉ vì có đi
là một số mã hóa.

270
00:13:27,560 --> 00:13:29,470
Nhưng nó sẽ là Python.

271
00:13:29,470 --> 00:13:34,380
Tôi biết các bạn không biết Python, vì vậy
Tôi chỉ sẽ giải thích trên cao

272
00:13:34,380 --> 00:13:35,750
cấp những gì tôi đang làm.

273
00:13:35,750 --> 00:13:40,900
Và bạn không cần phải thực sự quan tâm quá
nhiều về cú pháp vì đó là

274
00:13:40,900 --> 00:13:42,140
một cái gì đó các bạn có thể học hỏi.

275
00:13:42,140 --> 00:13:42,540
OK?

276
00:13:42,540 --> 00:13:43,580
Âm thanh tốt.

277
00:13:43,580 --> 00:13:46,020
>> Vì vậy vấn đề phân loại là gì?

278
00:13:46,020 --> 00:13:49,140
Vì vậy, bạn đang đưa ra một số lời bài hát
một bài hát, và bạn muốn đoán

279
00:13:49,140 --> 00:13:50,620
người hát nó.

280
00:13:50,620 --> 00:13:54,045
Và điều này có thể cho bất cứ loại nào
các vấn đề khác.

281
00:13:54,045 --> 00:13:59,980
Vì vậy, nó có thể được, ví dụ, bạn có một
chiến dịch tranh cử và bạn có một

282
00:13:59,980 --> 00:14:02,610
bài phát biểu, và bạn muốn tìm
ra nếu nó là, ví dụ,

283
00:14:02,610 --> 00:14:04,470
Obama hay Mitt Romney.

284
00:14:04,470 --> 00:14:07,700
Hoặc bạn có thể có một loạt các email và
bạn muốn tìm hiểu xem họ có

285
00:14:07,700 --> 00:14:08,890
thư rác hay không.

286
00:14:08,890 --> 00:14:11,440
Vì vậy, nó chỉ phân loại một số
dữ liệu dựa trên các từ

287
00:14:11,440 --> 00:14:13,790
mà bạn đã có.

288
00:14:13,790 --> 00:14:16,295
>> Vì vậy, để làm điều đó, bạn phải
làm cho một số giả định.

289
00:14:16,295 --> 00:14:20,570
Vì vậy, rất nhiều về ngôn ngữ học tính toán
đang làm giả định,

290
00:14:20,570 --> 00:14:24,100
giả định thường thông minh, do đó
bạn có thể nhận được kết quả tốt.

291
00:14:24,100 --> 00:14:26,670
Cố gắng để tạo ra một mô hình cho nó.

292
00:14:26,670 --> 00:14:31,290
Và sau đó thử nó ra và xem nếu nó hoạt động,
nếu nó mang lại cho bạn độ chính xác tốt.

293
00:14:31,290 --> 00:14:33,940
Và nếu có, sau đó bạn
cố gắng để cải thiện nó.

294
00:14:33,940 --> 00:14:37,640
Nếu không, bạn giống như, OK, có lẽ tôi
nên làm cho một giả định khác nhau.

295
00:14:37,640 --> 00:14:44,030
>> Vì vậy, giả định rằng chúng ta sẽ
làm là một nghệ sĩ thường hát

296
00:14:44,030 --> 00:14:49,220
về một chủ đề nhiều lần, và có thể
sử dụng từ nhiều lần chỉ

297
00:14:49,220 --> 00:14:50,270
bởi vì họ đang sử dụng để nó.

298
00:14:50,270 --> 00:14:51,890
Bạn chỉ có thể nghĩ về bạn của bạn.

299
00:14:51,890 --> 00:14:57,350
Tôi chắc rằng các bạn đều có bạn bè
mà nói cụm từ chữ ký của họ,

300
00:14:57,350 --> 00:14:59,260
nghĩa là cho mỗi câu duy nhất -

301
00:14:59,260 --> 00:15:02,660
như một số từ cụ thể hoặc một số cụ thể
cụm từ mà họ nói cho

302
00:15:02,660 --> 00:15:04,020
mỗi câu duy nhất.

303
00:15:04,020 --> 00:15:07,920
>> Và những gì bạn có thể nói là nếu bạn nhìn thấy
một câu mà có một chữ ký

304
00:15:07,920 --> 00:15:11,450
cụm từ, bạn có thể đoán rằng có thể
bạn của bạn là

305
00:15:11,450 --> 00:15:13,310
một câu nói, đúng không?

306
00:15:13,310 --> 00:15:18,410
Vì vậy, bạn làm cho giả định đó và sau đó
đó là cách bạn tạo ra một mô hình.

307
00:15:18,410 --> 00:15:24,440
>> Ví dụ mà tôi sẽ đưa ra là trên
cách Lady Gaga, ví dụ, người

308
00:15:24,440 --> 00:15:27,430
nói rằng cô sử dụng "em bé" cho
tất cả các số một của cô bài hát.

309
00:15:27,430 --> 00:15:32,270
Và thực sự đây là một đoạn video mà chương trình
cô nói những từ "em bé" cho

310
00:15:32,270 --> 00:15:33,410
bài hát khác nhau.

311
00:15:33,410 --> 00:15:33,860
>> [VIDEO XEM LẠI]

312
00:15:33,860 --> 00:15:34,310
>> - (Hát) Baby.

313
00:15:34,310 --> 00:15:36,220
Em bé.

314
00:15:36,220 --> 00:15:37,086
Em bé.

315
00:15:37,086 --> 00:15:37,520
Em bé.

316
00:15:37,520 --> 00:15:37,770
Em bé.

317
00:15:37,770 --> 00:15:38,822
Babe.

318
00:15:38,822 --> 00:15:39,243
Em bé.

319
00:15:39,243 --> 00:15:40,085
Em bé.

320
00:15:40,085 --> 00:15:40,510
Em bé.

321
00:15:40,510 --> 00:15:40,850
Em bé.

322
00:15:40,850 --> 00:15:41,090
>> [END Video Playback-

323
00:15:41,090 --> 00:15:44,020
>> Lucas Freitas: Vì vậy, có, tôi nghĩ rằng,
40 bài hát ở đây, trong đó bà cho biết

324
00:15:44,020 --> 00:15:48,690
từ "em bé." Vì vậy, về cơ bản bạn có thể đoán
rằng nếu bạn thấy một bài hát mà có

325
00:15:48,690 --> 00:15:52,180
từ "em bé," có một số cao
xác suất mà nó Lady Gaga.

326
00:15:52,180 --> 00:15:56,450
Nhưng chúng ta hãy cố gắng phát triển này
hơn nữa chính thức hơn.

327
00:15:56,450 --> 00:16:00,470
>> Vì vậy, đây là những lời bài hát các bài hát bằng cách
Lady Gaga và Katy Perry.

328
00:16:00,470 --> 00:16:04,120
Vì vậy, bạn nhìn vào Lady Gaga, bạn sẽ thấy họ
có rất nhiều sự cố của "em bé", một

329
00:16:04,120 --> 00:16:07,710
rất nhiều lần xuất hiện của "con đường." Và sau đó
Katy Perry đã có rất nhiều lần xuất hiện của

330
00:16:07,710 --> 00:16:10,360
"Các", rất nhiều lần xuất hiện của "lửa".

331
00:16:10,360 --> 00:16:14,560
>> Vì vậy, về cơ bản những gì chúng ta muốn
làm là, bạn nhận được một lời.

332
00:16:14,560 --> 00:16:20,480
Hãy nói rằng bạn nhận được một lời cho một
bài hát đó là "em bé", chỉ là "em bé." Nếu

333
00:16:20,480 --> 00:16:24,750
bạn chỉ cần có được chữ "em bé", và điều này
là tất cả các dữ liệu mà bạn có từ

334
00:16:24,750 --> 00:16:27,880
Lady Gaga và Katy Perry, những người sẽ
bạn đoán là người

335
00:16:27,880 --> 00:16:29,370
ca sĩ đang hát bài hát này?

336
00:16:29,370 --> 00:16:32,360
Lady Gaga hay Katy Perry?

337
00:16:32,360 --> 00:16:33,150
Lady Gaga, phải không?

338
00:16:33,150 --> 00:16:37,400
Bởi vì cô ấy là người duy nhất nói
"Em bé." Điều này nghe ngu ngốc, phải không?

339
00:16:37,400 --> 00:16:38,760
OK, điều này là rất dễ dàng.

340
00:16:38,760 --> 00:16:41,860
Tôi chỉ nhìn vào hai bài hát và của
Tất nhiên, cô ấy là người duy nhất có

341
00:16:41,860 --> 00:16:42,660
"Em bé."

342
00:16:42,660 --> 00:16:44,740
>> Nhưng nếu bạn có một loạt các từ ngữ?

343
00:16:44,740 --> 00:16:50,900
Nếu bạn có một lời thực tế, một cái gì đó
như, "em bé, tôi chỉ

344
00:16:50,900 --> 00:16:51,610
đi xem một [? CFT?]

345
00:16:51,610 --> 00:16:54,020
bài giảng, "hoặc một cái gì đó như thế, và
sau đó bạn thực sự phải tìm ra -

346
00:16:54,020 --> 00:16:55,780
dựa trên tất cả những lời đó -

347
00:16:55,780 --> 00:16:58,350
là người nghệ sĩ có thể
hát bài hát này?

348
00:16:58,350 --> 00:17:01,860
Vì vậy, hãy cố gắng phát triển
này một chút nữa.

349
00:17:01,860 --> 00:17:05,630
>> OK, vì vậy chỉ dựa vào dữ liệu mà chúng tôi
có, có vẻ như Gaga có lẽ là

350
00:17:05,630 --> 00:17:06,260
các ca sĩ.

351
00:17:06,260 --> 00:17:07,904
Nhưng làm thế nào chúng ta có thể viết
này chính thức hơn?

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
Và có sẽ là một chút
bit số liệu thống kê.

354
00:17:13,140 --> 00:17:15,880
Vì vậy, nếu bạn bị lạc, chỉ cần cố gắng
để hiểu được khái niệm.

355
00:17:15,880 --> 00:17:18,700
Nó không quan trọng nếu bạn hiểu
các phương trình hoàn toàn tốt.

356
00:17:18,700 --> 00:17:22,150
Đây là tất cả sẽ được trực tuyến.

357
00:17:22,150 --> 00:17:25,490
>> Vì vậy, về cơ bản những gì tôi đang tính toán là
xác suất mà bài hát này là do

358
00:17:25,490 --> 00:17:28,040
Lady Gaga cho rằng -

359
00:17:28,040 --> 00:17:30,660
để thanh này có nghĩa là cho rằng -

360
00:17:30,660 --> 00:17:33,680
Tôi thấy từ "em bé."
Điều đó có ý nghĩa?

361
00:17:33,680 --> 00:17:35,540
Vì vậy, tôi đang cố gắng để tính toán
rằng xác suất.

362
00:17:35,540 --> 00:17:38,540
>> Vì vậy, có lý này được gọi là
Định lý Bayes mà nói rằng

363
00:17:38,540 --> 00:17:43,330
xác suất của A B đưa ra, là
xác suất của B cho A, lần

364
00:17:43,330 --> 00:17:47,660
xác suất của A, hơn xác suất
B. Đây là một phương trình dài.

365
00:17:47,660 --> 00:17:51,970
Nhưng những gì bạn phải hiểu từ
đó là điều này là những gì tôi muốn

366
00:17:51,970 --> 00:17:52,830
tính toán, phải không?

367
00:17:52,830 --> 00:17:56,570
Vì vậy, xác suất mà bài hát đó là bằng cách
Lady Gaga cho rằng tôi đã nhìn thấy từ

368
00:17:56,570 --> 00:17:58,230
"Em bé."

369
00:17:58,230 --> 00:18:02,960
>> Và bây giờ những gì tôi nhận được là
xác suất của các từ "bé" cho

370
00:18:02,960 --> 00:18:04,390
mà tôi có Lady Gaga.

371
00:18:04,390 --> 00:18:07,220
Và đó là những gì cơ bản?

372
00:18:07,220 --> 00:18:10,500
Điều này có nghĩa là, là những gì
khả năng nhìn thấy từ "em bé"

373
00:18:10,500 --> 00:18:12,130
trong lời bài hát Gaga?

374
00:18:12,130 --> 00:18:16,240
Nếu tôi muốn tính toán rằng trong một rất
cách đơn giản, nó chỉ là số lượng

375
00:18:16,240 --> 00:18:23,640
lần tôi nhìn thấy "em bé" trên tổng số
từ trong lời bài hát Gaga, phải không?

376
00:18:23,640 --> 00:18:27,600
Tần số mà tôi nhìn thấy là những gì
từ đó trong công việc của Gaga?

377
00:18:27,600 --> 00:18:30,530
Có ý nghĩa?

378
00:18:30,530 --> 00:18:33,420
>> Thuật ngữ thứ hai là
Xác suất của Gaga.

379
00:18:33,420 --> 00:18:34,360
Điều đó có nghĩa gì?

380
00:18:34,360 --> 00:18:38,550
Về cơ bản có nghĩa là, là những gì
khả năng phân loại

381
00:18:38,550 --> 00:18:40,690
một số lời bài hát như Gaga?

382
00:18:40,690 --> 00:18:45,320
Và đó là loại kỳ lạ, nhưng
chúng ta hãy nghĩ về một ví dụ.

383
00:18:45,320 --> 00:18:49,230
Vì vậy, chúng ta hãy nói rằng xác suất của
có "em bé" trong một bài hát tương tự

384
00:18:49,230 --> 00:18:51,760
cho Gaga và Britney Spears.

385
00:18:51,760 --> 00:18:54,950
Nhưng Britney Spears đã hai lần
bài hát hơn Lady Gaga.

386
00:18:54,950 --> 00:19:00,570
Vì vậy, nếu một người nào đó cung cấp cho bạn chỉ ngẫu nhiên
lời bài hát của "em bé", điều đầu tiên bạn

387
00:19:00,570 --> 00:19:04,710
xem xét là, xác suất là gì
có "em bé" trong một bài hát Gaga, "em bé"

388
00:19:04,710 --> 00:19:05,410
trong một bài hát của Britney?

389
00:19:05,410 --> 00:19:06,460
Và đó là điều tương tự.

390
00:19:06,460 --> 00:19:10,040
>> Vì vậy, điều thứ hai mà bạn sẽ thấy là,
tốt, khả năng là những gì

391
00:19:10,040 --> 00:19:13,770
lyric này tự nó là một lời Gaga,
và xác suất là gì

392
00:19:13,770 --> 00:19:15,380
là một Britney lyric?

393
00:19:15,380 --> 00:19:18,950
Vì vậy, kể từ khi Britney có rất nhiều lời bài hát
hơn Gaga, bạn sẽ có thể

394
00:19:18,950 --> 00:19:21,470
nói, tốt, điều này có lẽ là
một lời Britney.

395
00:19:21,470 --> 00:19:23,340
Vì vậy, đó là lý do tại sao chúng tôi có điều này
hạn ngay tại đây.

396
00:19:23,340 --> 00:19:24,670
Xác suất của Gaga.

397
00:19:24,670 --> 00:19:26,950
Làm cho tinh thần?

398
00:19:26,950 --> 00:19:28,660
Đúng không?

399
00:19:28,660 --> 00:19:29,370
OK.

400
00:19:29,370 --> 00:19:33,500
>> Và cuối cùng chỉ là xác suất
của "em bé" mà không

401
00:19:33,500 --> 00:19:34,810
thực sự quan trọng mà nhiều.

402
00:19:34,810 --> 00:19:39,940
Nhưng đó là xác suất
nhìn thấy "em bé" trong tiếng Anh.

403
00:19:39,940 --> 00:19:42,725
Chúng ta thường không quan tâm rằng
nhiều về thuật ngữ đó.

404
00:19:42,725 --> 00:19:44,490
Điều đó có ý nghĩa?

405
00:19:44,490 --> 00:19:48,110
Vì vậy, xác suất của Gaga là
được gọi là xác suất trước

406
00:19:48,110 --> 00:19:49,530
của Gaga lớp.

407
00:19:49,530 --> 00:19:53,840
Bởi vì nó chỉ có nghĩa là, là những gì
xác suất có lớp -

408
00:19:53,840 --> 00:19:55,520
đó là Gaga -

409
00:19:55,520 --> 00:19:59,350
chỉ nói chung, chỉ
không có điều kiện.

410
00:19:59,350 --> 00:20:02,560
>> Và sau đó khi tôi có khả năng
Gaga cho "em bé", chúng tôi gọi nó là cộng

411
00:20:02,560 --> 00:20:06,160
khóc một xác suất bởi vì nó
là khả năng có

412
00:20:06,160 --> 00:20:08,300
Gaga đưa ra một số bằng chứng.

413
00:20:08,300 --> 00:20:11,050
Vì vậy, tôi cho bạn bằng chứng
mà tôi thấy em bé từ và

414
00:20:11,050 --> 00:20:12,690
bài hát có ý nghĩa?

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
OK.

417
00:20:16,410 --> 00:20:22,400
>> Vì vậy, nếu tôi tính rằng đối với mỗi
các bài hát cho Lady Gaga,

418
00:20:22,400 --> 00:20:25,916
những gì mà có thể -

419
00:20:25,916 --> 00:20:27,730
rõ ràng, tôi không thể di chuyển này.

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
Xác suất của Gaga sẽ
một cái gì đó như thế, 2 trên 24, lần 1/2,

422
00:20:36,920 --> 00:20:38,260
hơn 2 hơn 53.

423
00:20:38,260 --> 00:20:40,640
Nó không quan trọng nếu bạn biết những gì
những con số này đang đến từ.

424
00:20:40,640 --> 00:20:44,750
Nhưng nó chỉ là một con số đó sẽ
được nhiều hơn 0, phải không?

425
00:20:44,750 --> 00:20:48,610
>> Và sau đó khi tôi làm Katy Perry,
xác suất của "bé" cho Katy là

426
00:20:48,610 --> 00:20:49,830
đã 0, phải không?

427
00:20:49,830 --> 00:20:52,820
Bởi vì không có "em bé"
trong Katy Perry.

428
00:20:52,820 --> 00:20:56,360
Vì vậy, sau đó điều này trở thành 0, và Gaga
chiến thắng, có nghĩa là Gaga

429
00:20:56,360 --> 00:20:57,310
có lẽ là ca sĩ.

430
00:20:57,310 --> 00:20:58,560
Điều đó có ý nghĩa?

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
OK.

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> Vì vậy, nếu tôi muốn làm chính thức này nhiều hơn,
Tôi thực sự có thể làm một mô hình

435
00:21:11,750 --> 00:21:12,700
cho nhiều từ.

436
00:21:12,700 --> 00:21:14,610
Vì vậy, hãy nói rằng tôi có một cái gì đó
như, "em bé, tôi

437
00:21:14,610 --> 00:21:16,030
trên lửa ", hoặc một cái gì đó.

438
00:21:16,030 --> 00:21:17,760
Vì vậy, nó có nhiều từ.

439
00:21:17,760 --> 00:21:20,880
Và trong trường hợp này, bạn có thể nhìn thấy
rằng "bé bự" này trong Gaga,

440
00:21:20,880 --> 00:21:21,710
nhưng nó không phải ở Katy.

441
00:21:21,710 --> 00:21:24,940
Và "lửa" là ở Katy, nhưng
nó không có trong Gaga, phải không?

442
00:21:24,940 --> 00:21:27,200
Vì vậy, nó nhận được phức tạp hơn, phải không?

443
00:21:27,200 --> 00:21:31,440
Bởi vì có vẻ như là bạn gần như
có một tie giữa hai người.

444
00:21:31,440 --> 00:21:36,980
>> Vì vậy, những gì bạn phải làm là giả định
không lệ thuộc giữa các từ.

445
00:21:36,980 --> 00:21:41,210
Vì vậy, về cơ bản điều đó có nghĩa là
Tôi chỉ tính toán những gì là

446
00:21:41,210 --> 00:21:44,330
khả năng nhìn thấy "em bé", là những gì
khả năng nhìn thấy "tôi", và

447
00:21:44,330 --> 00:21:46,670
"Là", và "trên" và "lửa"
tất cả các cách riêng biệt.

448
00:21:46,670 --> 00:21:48,670
Sau đó, tôi nhân tất cả trong số họ.

449
00:21:48,670 --> 00:21:52,420
Và tôi nhìn thấy xác suất là gì
nhìn thấy toàn bộ câu.

450
00:21:52,420 --> 00:21:55,210
Có ý nghĩa?

451
00:21:55,210 --> 00:22:00,270
>> Vì vậy, về cơ bản, nếu tôi chỉ có một từ,
những gì tôi muốn tìm max arg là,

452
00:22:00,270 --> 00:22:05,385
có nghĩa là, các lớp học đó là là những gì
đem lại cho tôi xác suất cao nhất?

453
00:22:05,385 --> 00:22:10,010
Vì vậy, các lớp học được cho là những gì
tôi xác suất cao nhất cho

454
00:22:10,010 --> 00:22:11,940
xác suất của lớp cho chữ.

455
00:22:11,940 --> 00:22:17,610
Vì vậy, trong trường hợp này, Gaga cho "em bé".
Hoặc Katy cho "em bé". Có ý nghĩa?

456
00:22:17,610 --> 00:22:21,040
>> Và chỉ từ Bayes, mà
phương trình mà tôi cho thấy,

457
00:22:21,040 --> 00:22:24,780
chúng tôi tạo ra phần này.

458
00:22:24,780 --> 00:22:28,750
Điều duy nhất là bạn thấy rằng
xác suất của từ cho các

459
00:22:28,750 --> 00:22:31,370
thay đổi class phụ thuộc
trên lớp, phải không?

460
00:22:31,370 --> 00:22:34,260
Số lượng các "em bé" của tôi có
trong Gaga khác với Katy.

461
00:22:34,260 --> 00:22:37,640
Xác suất của lớp cũng
thay đổi bởi vì nó chỉ số

462
00:22:37,640 --> 00:22:39,740
các bài hát mỗi trong số họ có.

463
00:22:39,740 --> 00:22:43,980
>> Nhưng xác suất của các từ chính nó
sẽ là như nhau cho tất cả các

464
00:22:43,980 --> 00:22:44,740
nghệ sĩ, phải không?

465
00:22:44,740 --> 00:22:47,150
Vì vậy, xác suất của từ này là
chỉ, xác suất là gì

466
00:22:47,150 --> 00:22:49,820
nhìn thấy từ đó trong
Ngôn ngữ tiếng Anh?

467
00:22:49,820 --> 00:22:51,420
Vì vậy, nó là như nhau cho tất cả chúng.

468
00:22:51,420 --> 00:22:55,790
Vì vậy, vì đây là không đổi, chúng ta có thể chỉ
thả và không quan tâm đến nó.

469
00:22:55,790 --> 00:23:00,230
Vì vậy, đây sẽ thực sự là
phương trình chúng tôi đang tìm kiếm.

470
00:23:00,230 --> 00:23:03,360
>> Và nếu tôi có nhiều từ, tôi
vẫn sẽ có trước

471
00:23:03,360 --> 00:23:04,610
xác suất đây.

472
00:23:04,610 --> 00:23:06,980
Điều duy nhất là tôi đang nhân
xác suất

473
00:23:06,980 --> 00:23:08,490
tất cả các từ khác.

474
00:23:08,490 --> 00:23:10,110
Vì vậy, tôi nhân tất cả trong số họ.

475
00:23:10,110 --> 00:23:12,610
Có ý nghĩa?

476
00:23:12,610 --> 00:23:18,440
Có vẻ lạ, nhưng về cơ bản có nghĩa là,
tính toán trước của lớp, và

477
00:23:18,440 --> 00:23:22,100
sau đó nhân với xác suất của mỗi
các từ được trong lớp đó.

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> Và bạn biết rằng xác suất của một
từ cho một lớp là có được các

480
00:23:29,150 --> 00:23:34,520
số lần bạn thấy từ đó trong
mà lớp, chia cho số

481
00:23:34,520 --> 00:23:37,020
Nói cách bạn có trong đó
lớp nói chung.

482
00:23:37,020 --> 00:23:37,990
Có ý nghĩa?

483
00:23:37,990 --> 00:23:41,680
Nó chỉ là cách "em bé" là 2 hơn
số lượng từ mà

484
00:23:41,680 --> 00:23:43,020
Tôi đã có trong lời bài hát.

485
00:23:43,020 --> 00:23:45,130
Vì vậy, chỉ là tần số.

486
00:23:45,130 --> 00:23:46,260
>> Nhưng có một điều.

487
00:23:46,260 --> 00:23:51,250
Nhớ làm thế nào tôi đã cho thấy rằng
xác suất của "em bé" là lời bài hát

488
00:23:51,250 --> 00:23:56,350
từ Katy Perry là 0 chỉ vì Katy
Perry không có "em bé" ở tất cả?

489
00:23:56,350 --> 00:24:04,900
Nhưng nó âm thanh một chút khắc nghiệt chỉ
chỉ đơn giản nói rằng lời bài hát không thể từ

490
00:24:04,900 --> 00:24:10,040
một nghệ sĩ chỉ vì họ không có
từ đó đặc biệt là bất cứ lúc nào.

491
00:24:10,040 --> 00:24:13,330
>> Vì vậy bạn chỉ có thể nói, tốt, nếu bạn
không có từ này, tôi sẽ

492
00:24:13,330 --> 00:24:15,640
cung cấp cho bạn một xác suất thấp hơn,
nhưng tôi chỉ không sẽ

493
00:24:15,640 --> 00:24:17,420
cung cấp cho bạn 0 ngay lập tức.

494
00:24:17,420 --> 00:24:21,040
Bởi vì có thể đó là một cái gì đó như,
"Cháy, chữa cháy, cháy, chữa cháy", mà là

495
00:24:21,040 --> 00:24:21,990
hoàn toàn Katy Perry.

496
00:24:21,990 --> 00:24:26,060
Và sau đó "em bé", và nó chỉ đi đến
0 ngay lập tức bởi vì có một

497
00:24:26,060 --> 00:24:27,250
"Em bé."

498
00:24:27,250 --> 00:24:31,440
>> Vì vậy, về cơ bản những gì chúng tôi làm là một cái gì đó
gọi là Laplace mịn.

499
00:24:31,440 --> 00:24:36,260
Và điều này chỉ có nghĩa là tôi đang cho
một số xác suất thậm chí đến từ

500
00:24:36,260 --> 00:24:37,850
không tồn tại.

501
00:24:37,850 --> 00:24:43,170
Vì vậy, những gì tôi làm là khi tôi
tính toán này, tôi luôn luôn thêm 1 vào

502
00:24:43,170 --> 00:24:44,180
tử số.

503
00:24:44,180 --> 00:24:48,060
Vì vậy, ngay cả khi từ không tồn tại, trong
trường hợp này, nếu điều này là 0, tôi vẫn còn

504
00:24:48,060 --> 00:24:51,250
tính toán này là 1 trong
tổng số từ.

505
00:24:51,250 --> 00:24:55,060
Nếu không, tôi nhận được bao nhiêu từ
Tôi có và tôi thêm 1.

506
00:24:55,060 --> 00:24:58,300
Vì vậy, tôi đếm cho cả hai trường hợp.

507
00:24:58,300 --> 00:25:00,430
Có ý nghĩa?

508
00:25:00,430 --> 00:25:03,060
>> Vì vậy, bây giờ chúng ta hãy làm một số mã hóa.

509
00:25:03,060 --> 00:25:06,440
Tôi sẽ phải làm điều đó khá nhanh,
nhưng nó chỉ quan trọng là bạn

510
00:25:06,440 --> 00:25:08,600
kẻ hiểu các khái niệm.

511
00:25:08,600 --> 00:25:13,450
Vì vậy, những gì chúng tôi đang cố gắng làm
được chính xác thực hiện điều này

512
00:25:13,450 --> 00:25:14,330
điều mà tôi vừa nói -

513
00:25:14,330 --> 00:25:19,110
Tôi muốn bạn đưa lời bài hát từ
Lady Gaga và Katy Perry.

514
00:25:19,110 --> 00:25:22,980
Và chương trình sẽ có thể
nói rằng nếu những lời bài hát mới từ Gaga

515
00:25:22,980 --> 00:25:24,170
hay Katy Perry.

516
00:25:24,170 --> 00:25:25,800
Có ý nghĩa?

517
00:25:25,800 --> 00:25:27,530
OK.

518
00:25:27,530 --> 00:25:30,710
>> Vì vậy, tôi có chương trình này tôi sẽ
gọi classify.py.

519
00:25:30,710 --> 00:25:31,970
Vì vậy, đây là Python.

520
00:25:31,970 --> 00:25:34,210
Đó là một ngôn ngữ lập trình mới.

521
00:25:34,210 --> 00:25:38,020
Nó rất giống trong một số
cách để C và PHP.

522
00:25:38,020 --> 00:25:43,180
Nó tương tự như bởi vì nếu bạn muốn
tìm hiểu Python sau khi biết C, đó là

523
00:25:43,180 --> 00:25:46,270
thực sự không phải là nhiều thách thức
chỉ vì Python là dễ dàng hơn nhiều

524
00:25:46,270 --> 00:25:47,520
hơn so với C, đầu tiên của tất cả.

525
00:25:47,520 --> 00:25:49,370
Và rất nhiều thứ đã
thực hiện cho bạn.

526
00:25:49,370 --> 00:25:56,820
Vì vậy, như thế nào như PHP có chức năng
sắp xếp một danh sách, hoặc nối thêm một cái gì đó

527
00:25:56,820 --> 00:25:58,780
để một mảng, hoặc blah, blah, blah.

528
00:25:58,780 --> 00:26:00,690
Python có tất cả những người là tốt.

529
00:26:00,690 --> 00:26:05,960
>> Vì vậy, tôi chỉ cần đi để giải thích một cách nhanh chóng
làm sao chúng ta có thể làm việc phân loại

530
00:26:05,960 --> 00:26:07,860
vấn đề cho ở đây.

531
00:26:07,860 --> 00:26:13,230
Vì vậy, hãy nói rằng trong trường hợp này, tôi có
lời bài hát từ Gaga và Katy Perry.

532
00:26:13,230 --> 00:26:21,880
Cách mà tôi có những lời bài hát là
từ đầu tiên của lời bài hát là

533
00:26:21,880 --> 00:26:25,250
tên của các nghệ sĩ, và
phần còn lại là lời bài hát.

534
00:26:25,250 --> 00:26:29,470
Vì vậy, hãy nói rằng tôi có danh sách này trong
mà đầu tiên là lời bài hát của Gaga.

535
00:26:29,470 --> 00:26:31,930
Vì vậy, ở đây tôi đi đúng hướng.

536
00:26:31,930 --> 00:26:35,270
Và tiếp theo là Katy, và
nó cũng có lời bài hát.

537
00:26:35,270 --> 00:26:38,040
>> Vì vậy, đây là cách bạn khai báo
một biến trong Python.

538
00:26:38,040 --> 00:26:40,200
Bạn không có để cung cấp cho các kiểu dữ liệu.

539
00:26:40,200 --> 00:26:43,150
Bạn chỉ cần viết "lời bài hát,"
loại thích trong PHP.

540
00:26:43,150 --> 00:26:44,890
Có ý nghĩa?

541
00:26:44,890 --> 00:26:47,770
>> Vì vậy, những điều mà tôi có là gì
tính toán để có thể tính toán

542
00:26:47,770 --> 00:26:49,360
xác suất?

543
00:26:49,360 --> 00:26:55,110
Tôi phải tính toán "tiền án"
của mỗi khác nhau

544
00:26:55,110 --> 00:26:56,710
các lớp học mà tôi có.

545
00:26:56,710 --> 00:27:06,680
Tôi phải tính toán "posteriors"
hoặc khá nhiều xác suất của

546
00:27:06,680 --> 00:27:12,150
mỗi từ khác nhau mà
Tôi có thể có cho mỗi nghệ sĩ.

547
00:27:12,150 --> 00:27:17,210
Vì vậy, trong Gaga, ví dụ, tôi sẽ
để có một danh sách bao nhiêu lần tôi nhìn thấy

548
00:27:17,210 --> 00:27:19,250
mỗi từ.

549
00:27:19,250 --> 00:27:20,760
Có ý nghĩa?

550
00:27:20,760 --> 00:27:25,370
>> Và cuối cùng, tôi chỉ cần đi để có một
danh sách được gọi là "chữ" mà là chỉ cần đi

551
00:27:25,370 --> 00:27:29,780
có bao nhiêu lời tôi
có cho mỗi nghệ sĩ.

552
00:27:29,780 --> 00:27:33,760
Vì vậy, cho Gaga, ví dụ, khi tôi nhìn
lời bài hát, tôi đã, tôi nghĩ rằng, 24

553
00:27:33,760 --> 00:27:34,750
từ trong tổng số.

554
00:27:34,750 --> 00:27:38,970
Vì vậy, danh sách này chỉ là sẽ có
Gaga 24, và Katy số khác.

555
00:27:38,970 --> 00:27:40,130
Có ý nghĩa?

556
00:27:40,130 --> 00:27:40,560
OK.

557
00:27:40,560 --> 00:27:42,530
>> Vì vậy, bây giờ, thực sự, chúng ta hãy
đi đến mã hóa.

558
00:27:42,530 --> 00:27:45,270
Vì vậy, trong Python, bạn có thể thực sự
trả về một loạt các khác nhau

559
00:27:45,270 --> 00:27:46,630
điều từ một hàm.

560
00:27:46,630 --> 00:27:50,810
Vì vậy, tôi sẽ tạo ra chức năng này
được gọi là "có điều kiện", mà là có

561
00:27:50,810 --> 00:27:53,890
trả lại tất cả những điều đó, các
"Tiền án", là "xác suất", và

562
00:27:53,890 --> 00:28:05,690
"Lời nói". Vì vậy, "có điều kiện", và đó là
sẽ được gọi vào "lời bài hát."

563
00:28:05,690 --> 00:28:11,510
>> Vì vậy, bây giờ tôi muốn bạn thực sự
viết chức năng này.

564
00:28:11,510 --> 00:28:17,750
Vì vậy, cách mà tôi có thể viết này
chức năng là tôi chỉ định nghĩa này

565
00:28:17,750 --> 00:28:20,620
hoạt động với "nét". Vì vậy, tôi đã làm "def
có điều kiện ", và nó dùng

566
00:28:20,620 --> 00:28:28,700
"Lời bài hát." Và điều này sẽ làm
là, trước hết, tôi có tiền án của tôi

567
00:28:28,700 --> 00:28:31,030
mà tôi muốn để tính toán.

568
00:28:31,030 --> 00:28:34,330
>> Vì vậy, cách mà tôi có thể làm điều này là tạo ra
một từ điển trong Python, mà

569
00:28:34,330 --> 00:28:37,320
là khá nhiều điều tương tự như một băm
bảng, hoặc nó giống như một lặp đi lặp lại

570
00:28:37,320 --> 00:28:40,480
mảng trong PHP.

571
00:28:40,480 --> 00:28:44,150
Đây là cách tôi tuyên bố một từ điển.

572
00:28:44,150 --> 00:28:53,580
Và về cơ bản điều này có nghĩa là
tiền án của Gaga là 0,5, ví dụ, nếu

573
00:28:53,580 --> 00:28:57,200
50% lời bài hát từ
Gaga, 50% là từ Katy.

574
00:28:57,200 --> 00:28:58,450
Có ý nghĩa?

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
Vì vậy, tôi phải tìm ra cách
để tính toán tiền án.

577
00:29:03,680 --> 00:29:07,120
>> Những người tiếp theo mà tôi phải làm, cũng,
là xác suất và các từ.

578
00:29:07,120 --> 00:29:17,100
Vì vậy, xác suất của Gaga là danh sách
của tất cả các xác suất mà tôi

579
00:29:17,100 --> 00:29:19,160
có cho mỗi từ cho Gaga.

580
00:29:19,160 --> 00:29:23,880
Vì vậy, nếu tôi đi đến xác suất của Gaga
"Em bé", ví dụ, nó sẽ cung cấp cho tôi

581
00:29:23,880 --> 00:29:28,750
một cái gì đó giống như 2 trên 24 trong trường hợp đó.

582
00:29:28,750 --> 00:29:30,070
Có ý nghĩa?

583
00:29:30,070 --> 00:29:36,120
Vì vậy, tôi đi đến "xác suất", đi đến
"Gaga" thùng đó có một danh sách của tất cả các

584
00:29:36,120 --> 00:29:40,550
từ Gaga, sau đó tôi đi đến "em bé"
và tôi thấy xác suất.

585
00:29:40,550 --> 00:29:45,940
>> Và cuối cùng tôi có điều này
"Chữ" từ điển.

586
00:29:45,940 --> 00:29:53,620
Vì vậy, ở đây, "xác suất". Và sau đó
"Lời nói". Vì vậy, nếu tôi làm "từ", "Gaga,"

587
00:29:53,620 --> 00:29:58,330
những gì sẽ xảy ra là nó
sẽ cung cấp cho tôi 24, nói rằng tôi

588
00:29:58,330 --> 00:30:01,990
có 24 chữ trong lời bài hát từ Gaga.

589
00:30:01,990 --> 00:30:04,110
Làm cho tinh thần?

590
00:30:04,110 --> 00:30:07,070
Vì vậy, ở đây, "lời" bằng dah-dah-dah.

591
00:30:07,070 --> 00:30:07,620
OK

592
00:30:07,620 --> 00:30:12,210
>> Vì vậy, những gì tôi sẽ làm là tôi sẽ
iterate qua từng lời bài hát, vì vậy

593
00:30:12,210 --> 00:30:14,490
mỗi chuỗi
Tôi có trong danh sách.

594
00:30:14,490 --> 00:30:18,040
Và tôi sẽ tính toán những điều
cho mỗi ứng cử viên.

595
00:30:18,040 --> 00:30:19,950
Làm cho tinh thần?

596
00:30:19,950 --> 00:30:21,700
Vì vậy, tôi phải làm một vòng lặp.

597
00:30:21,700 --> 00:30:26,300
>> Vì vậy, trong Python những gì tôi có thể làm là "cho dòng
trong lời bài hát. "Điều tương tự cũng như một

598
00:30:26,300 --> 00:30:28,000
"Cho từng" tuyên bố trong PHP.

599
00:30:28,000 --> 00:30:33,420
Nhớ làm thế nào nếu nó là PHP tôi có thể
nói "cho từng lời bài hát như

600
00:30:33,420 --> 00:30:35,220
dòng. "Làm cho tinh thần?

601
00:30:35,220 --> 00:30:38,900
Vì vậy, tôi đang tham gia mỗi dòng, trong này
trường hợp, chuỗi này và tiếp theo

602
00:30:38,900 --> 00:30:44,540
chuỗi để cho mỗi dòng những gì tôi
sẽ làm là đầu tiên, tôi sẽ

603
00:30:44,540 --> 00:30:49,150
chia dòng này vào một danh sách các
Nói cách bằng dấu cách.

604
00:30:49,150 --> 00:30:53,730
>> Vì vậy, điều thú vị về Python là
bạn chỉ có thể Google như "làm thế nào tôi có thể

605
00:30:53,730 --> 00:30:58,220
tách một chuỗi thành lời? "Và nó
sẽ cho bạn biết làm thế nào để làm điều đó.

606
00:30:58,220 --> 00:31:04,890
Và cách để làm điều đó, nó chỉ là "dòng
= Line.split () "và đó là cơ bản

607
00:31:04,890 --> 00:31:08,640
sẽ cung cấp cho bạn một danh sách với
mỗi từ đây.

608
00:31:08,640 --> 00:31:09,620
Làm cho tinh thần?

609
00:31:09,620 --> 00:31:15,870
Vì vậy, bây giờ mà tôi đã làm điều đó, tôi muốn biết
ai là ca sĩ của bài hát đó.

610
00:31:15,870 --> 00:31:20,130
Và để làm điều đó tôi chỉ cần có để có được
Yếu tố đầu tiên của mảng, phải không?

611
00:31:20,130 --> 00:31:26,390
Vì vậy, tôi chỉ có thể nói rằng tôi ", ca sĩ
= Dòng (0) "Làm cho tinh thần?

612
00:31:26,390 --> 00:31:32,010
>> Và sau đó là những gì tôi cần làm là, trước
tất cả, tôi sẽ cập nhật bao nhiêu

613
00:31:32,010 --> 00:31:36,130
Nói cách tôi có theo "Gaga." vì vậy tôi chỉ
sẽ tính toán bao nhiêu lời tôi

614
00:31:36,130 --> 00:31:38,690
có trong danh sách này, phải không?

615
00:31:38,690 --> 00:31:41,910
Bởi vì đây là bao nhiêu lời tôi có
trong lời bài hát và tôi chỉ cần đi đến

616
00:31:41,910 --> 00:31:44,120
thêm nó vào mảng "Gaga".

617
00:31:44,120 --> 00:31:47,090
Điều đó có ý nghĩa?

618
00:31:47,090 --> 00:31:49,010
Không tập trung quá nhiều vào các cú pháp.

619
00:31:49,010 --> 00:31:50,430
Suy nghĩ nhiều hơn về các khái niệm.

620
00:31:50,430 --> 00:31:52,400
Đó là phần quan trọng nhất.

621
00:31:52,400 --> 00:31:52,720
OK.

622
00:31:52,720 --> 00:32:00,260
>> Vì vậy, những gì tôi có thể làm điều đó là nếu "Gaga" là
đã có trong danh sách đó, vì vậy "nếu ca sĩ trong

623
00:32:00,260 --> 00:32:03,190
từ "có nghĩa là tôi đã
có từ bằng cách Gaga.

624
00:32:03,190 --> 00:32:06,640
Tôi chỉ muốn thêm thêm
từ đó.

625
00:32:06,640 --> 00:32:15,810
Vì vậy, những gì tôi làm "từ (ca sĩ) là
+ = Len (đường) - 1 ".

626
00:32:15,810 --> 00:32:18,250
Và sau đó tôi chỉ có thể làm
chiều dài của đường.

627
00:32:18,250 --> 00:32:21,860
Vậy làm thế nào nhiều yếu tố tôi
có trong mảng.

628
00:32:21,860 --> 00:32:27,060
Và tôi phải làm trừ đi 1 chỉ vì
các yếu tố đầu tiên của mảng chỉ là

629
00:32:27,060 --> 00:32:29,180
một ca sĩ và những người không phải lời bài hát.

630
00:32:29,180 --> 00:32:31,420
Làm cho tinh thần?

631
00:32:31,420 --> 00:32:32,780
OK.

632
00:32:32,780 --> 00:32:35,820
>> "Khác", nó có nghĩa là tôi muốn thực sự
chèn Gaga vào danh sách.

633
00:32:35,820 --> 00:32:45,990
Vì vậy, tôi chỉ cần làm "từ (ca sĩ)
= Len (đường) - 1 ", xin lỗi.

634
00:32:45,990 --> 00:32:49,200
Vì vậy, sự khác biệt duy nhất giữa hai
đường là một trong những điều này, nó không

635
00:32:49,200 --> 00:32:51,080
tồn tại, vì vậy tôi chỉ
khởi tạo nó.

636
00:32:51,080 --> 00:32:53,820
Điều này tôi thực sự thêm.

637
00:32:53,820 --> 00:32:55,570
OK.

638
00:32:55,570 --> 00:32:59,480
Vì vậy, điều này đã được thêm vào từ.

639
00:32:59,480 --> 00:33:03,040
>> Bây giờ tôi muốn thêm vào tiền án.

640
00:33:03,040 --> 00:33:05,480
Vì vậy, làm thế nào để tính toán tiền án?

641
00:33:05,480 --> 00:33:11,580
Các tiền án có thể được tính
bao nhiêu lần.

642
00:33:11,580 --> 00:33:15,340
Vì vậy, bao nhiêu lần bạn nhìn thấy ca sĩ
trong số tất cả các ca sĩ mà bạn

643
00:33:15,340 --> 00:33:16,380
có, phải không?

644
00:33:16,380 --> 00:33:18,810
Vì vậy, cho Gaga và Katy Perry,
trong trường hợp này, tôi thấy Gaga

645
00:33:18,810 --> 00:33:20,570
một lần, Katy Perry một lần.

646
00:33:20,570 --> 00:33:23,320
>> Vì vậy, về cơ bản các tiền án cho Gaga
và Katy Perry sẽ

647
00:33:23,320 --> 00:33:24,390
chỉ là một, phải không?

648
00:33:24,390 --> 00:33:26,500
Bạn chỉ cần bao nhiêu lần
Tôi thấy các nghệ sĩ.

649
00:33:26,500 --> 00:33:28,740
Vì vậy, đây là rất dễ dàng để tính toán.

650
00:33:28,740 --> 00:33:34,100
Tôi có thể chỉ cần một cái gì đó tương tự như như "nếu
ca sĩ trong tiền án, "tôi chỉ cần đi

651
00:33:34,100 --> 00:33:38,970
thêm 1 hộp tiền án của họ.

652
00:33:38,970 --> 00:33:51,000
Vì vậy, "tiền án (hát)" + = 1 "và sau đó" khác "
Tôi sẽ làm "tiền án (ca sĩ)

653
00:33:51,000 --> 00:33:55,000
= 1. "Làm cho tinh thần?

654
00:33:55,000 --> 00:34:00,080
>> Vì vậy, nếu nó không tồn tại Tôi chỉ cần đặt
như 1, nếu không tôi chỉ cần thêm 1.

655
00:34:00,080 --> 00:34:11,280
OK, vì vậy bây giờ tất cả những gì tôi đã phải làm
cũng được thêm mỗi từ đến

656
00:34:11,280 --> 00:34:12,290
xác suất.

657
00:34:12,290 --> 00:34:14,889
Vì vậy tôi phải đếm bao nhiêu lần
Tôi thấy mỗi từ.

658
00:34:14,889 --> 00:34:18,780
Vì vậy, tôi chỉ phải làm khác
cho vòng lặp trong dòng.

659
00:34:18,780 --> 00:34:25,190
>> Vì vậy, trước điều mà tôi sẽ làm là
kiểm tra xem các ca sĩ đã có một

660
00:34:25,190 --> 00:34:26,969
xác suất mảng.

661
00:34:26,969 --> 00:34:31,739
Vì vậy, tôi kiểm tra nếu ca sĩ không
có một mảng xác suất, tôi chỉ

662
00:34:31,739 --> 00:34:34,480
sẽ khởi tạo một cho họ.

663
00:34:34,480 --> 00:34:36,400
Nó thậm chí không một mảng, xin lỗi,
đó là một từ điển.

664
00:34:36,400 --> 00:34:43,080
Vì vậy, xác suất của các ca sĩ sẽ
là một từ điển mở, vì vậy tôi

665
00:34:43,080 --> 00:34:45,830
chỉ khởi tạo một từ điển cho nó.

666
00:34:45,830 --> 00:34:46,820
OK?

667
00:34:46,820 --> 00:34:58,330
>> Và bây giờ tôi thực sự có thể làm cho vòng lặp
để tính toán mỗi từ '

668
00:34:58,330 --> 00:35:00,604
xác suất.

669
00:35:00,604 --> 00:35:01,540
OK.

670
00:35:01,540 --> 00:35:04,160
Vì vậy, những gì tôi có thể làm là cho vòng lặp.

671
00:35:04,160 --> 00:35:06,590
Vì vậy, tôi chỉ cần đi để lặp
trên mảng.

672
00:35:06,590 --> 00:35:15,320
Vì vậy, cách mà tôi có thể làm điều đó trong Python
là "cho tôi trong phạm vi." Từ 1

673
00:35:15,320 --> 00:35:19,200
bởi vì tôi muốn bắt đầu trong lần thứ hai
yếu tố bởi vì đầu tiên là một trong những

674
00:35:19,200 --> 00:35:20,260
tên ca sĩ.

675
00:35:20,260 --> 00:35:24,990
Vì vậy, từ một đến
chiều dài của đường.

676
00:35:24,990 --> 00:35:29,760
Và khi tôi khoảng nó thực sự đi từ
như ở đây từ 1 đến len của

677
00:35:29,760 --> 00:35:30,740
dòng trừ đi 1.

678
00:35:30,740 --> 00:35:33,810
Vì vậy, nó đã làm điều đó làm
n trừ đi 1 cho mảng rất

679
00:35:33,810 --> 00:35:35,500
thuận tiện.

680
00:35:35,500 --> 00:35:37,850
Làm cho tinh thần?

681
00:35:37,850 --> 00:35:42,770
>> Vì vậy, cho mỗi trong số này, những gì tôi sẽ
làm là, giống như trong một trong những khác,

682
00:35:42,770 --> 00:35:50,320
Tôi sẽ kiểm tra xem các từ trong này
vị trí trong dòng đã có trong

683
00:35:50,320 --> 00:35:51,570
xác suất.

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
Và sau đó như tôi đã nói ở đây, xác suất
từ, như trong tôi đặt

686
00:35:57,260 --> 00:35:58,400
"Xác suất (ca sĩ)".

687
00:35:58,400 --> 00:35:59,390
Vì vậy, tên của ca sĩ.

688
00:35:59,390 --> 00:36:03,450
Vì vậy, nếu nó đã có trong
"Probabilit (ca sĩ)", có nghĩa là tôi

689
00:36:03,450 --> 00:36:11,960
muốn thêm 1 vào nó, vì vậy tôi sẽ
làm "xác suất (ca sĩ)", và

690
00:36:11,960 --> 00:36:14,100
từ được gọi là "dòng (i)".

691
00:36:14,100 --> 00:36:22,630
Tôi sẽ thêm 1 và "khác" Tôi chỉ
sẽ khởi tạo nó để 1.

692
00:36:22,630 --> 00:36:23,880
"Line (i)".

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
Làm cho tinh thần?

695
00:36:28,420 --> 00:36:30,180
>> Vì vậy, tôi tính tất cả các mảng.

696
00:36:30,180 --> 00:36:36,580
Vì vậy, bây giờ tất cả những gì tôi phải làm cho
này chỉ là "trả lại tiền án,

697
00:36:36,580 --> 00:36:43,230
xác suất và lời nói. "Hãy
xem nếu có bất kỳ, OK.

698
00:36:43,230 --> 00:36:45,690
Có vẻ như tất cả mọi thứ đang làm việc cho đến nay.

699
00:36:45,690 --> 00:36:46,900
Vì vậy, có ý nghĩa?

700
00:36:46,900 --> 00:36:47,750
Một cách nào đó?

701
00:36:47,750 --> 00:36:49,280
OK.

702
00:36:49,280 --> 00:36:51,980
Vì vậy, bây giờ tôi có tất cả các xác suất.

703
00:36:51,980 --> 00:36:55,100
Vì vậy, bây giờ điều duy nhất tôi đã để lại
chỉ có điều đó

704
00:36:55,100 --> 00:36:58,650
tính toán các sản phẩm của tất cả các
xác suất khi tôi nhận được lời bài hát.

705
00:36:58,650 --> 00:37:06,270
>> Vì vậy, hãy nói rằng tôi muốn bây giờ gọi
chức năng này "phân loại ()" và

706
00:37:06,270 --> 00:37:08,880
điều chức năng mà mất
chỉ là một cuộc tranh cãi.

707
00:37:08,880 --> 00:37:13,170
Hãy nói rằng "Em yêu, tôi đang trên lửa" và nó
sẽ tìm ra những gì là

708
00:37:13,170 --> 00:37:14,490
xác suất này là Gaga?

709
00:37:14,490 --> 00:37:16,405
Xác suất là gì
rằng đây là Katie?

710
00:37:16,405 --> 00:37:19,690
Âm thanh tốt?

711
00:37:19,690 --> 00:37:25,750
Vì vậy tôi chỉ sẽ phải tạo ra một
chức năng mới được gọi là "phân loại ()" và

712
00:37:25,750 --> 00:37:29,180
nó sẽ mất một số
lời bài hát là tốt.

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
Và bên cạnh đó lời bài hát tôi cũng
phải gửi tiền án, các

715
00:37:36,160 --> 00:37:37,700
xác suất và các từ.

716
00:37:37,700 --> 00:37:44,000
Vì vậy, tôi sẽ gửi lời bài hát, tiền án,
xác suất, từ.

717
00:37:44,000 --> 00:37:51,840
>> Vì vậy, đây là lấy lời bài hát, tiền án,
xác suất, từ.

718
00:37:51,840 --> 00:37:53,530
Vì vậy, những gì nó làm gì?

719
00:37:53,530 --> 00:37:57,180
Nó về cơ bản là sẽ đi qua tất cả
các ứng cử viên có thể là bạn

720
00:37:57,180 --> 00:37:58,510
có như là một ca sĩ.

721
00:37:58,510 --> 00:37:59,425
Và ở đâu là những ứng cử viên?

722
00:37:59,425 --> 00:38:01,020
Họ Trong tiền án, phải không?

723
00:38:01,020 --> 00:38:02,710
Vì vậy, tôi có tất cả những có.

724
00:38:02,710 --> 00:38:07,870
Vì vậy, tôi sẽ có một từ điển
của tất cả các ứng cử viên có thể.

725
00:38:07,870 --> 00:38:14,220
Và sau đó cho mỗi ứng cử viên trong
tiền án, vì vậy nó có nghĩa là nó sẽ

726
00:38:14,220 --> 00:38:17,740
được Gaga, Katie nếu tôi đã có
hơn nó sẽ được nhiều hơn.

727
00:38:17,740 --> 00:38:20,410
Tôi sẽ bắt đầu tính toán
xác suất này.

728
00:38:20,410 --> 00:38:28,310
Xác suất như chúng ta đã thấy trong các
PowerPoint là lần trước khi các

729
00:38:28,310 --> 00:38:30,800
sản phẩm của mỗi
xác suất khác.

730
00:38:30,800 --> 00:38:32,520
>> Vì vậy, tôi có thể làm như vậy ở đây.

731
00:38:32,520 --> 00:38:36,330
Tôi chỉ có thể làm xác suất là
Ban đầu chỉ là trước.

732
00:38:36,330 --> 00:38:40,340
Vì vậy, tiền án của ứng viên.

733
00:38:40,340 --> 00:38:40,870
Phải không?

734
00:38:40,870 --> 00:38:45,360
Và bây giờ tôi phải lặp qua tất cả các
Nói cách mà tôi có trong lời bài hát được

735
00:38:45,360 --> 00:38:48,820
có thể thêm xác suất
cho mỗi người, OK?

736
00:38:48,820 --> 00:38:57,900
Vì vậy, "cho chữ trong lời bài hát" những gì tôi sẽ
làm là, nếu từ trong

737
00:38:57,900 --> 00:39:01,640
"Xác suất (ứng cử viên)", mà
có nghĩa là nó là một từ mà các

738
00:39:01,640 --> 00:39:03,640
ứng cử viên có trong lời bài hát của họ -

739
00:39:03,640 --> 00:39:05,940
ví dụ, "em bé" cho Gaga -

740
00:39:05,940 --> 00:39:11,710
những gì tôi sẽ làm là
khả năng sẽ được nhân

741
00:39:11,710 --> 00:39:22,420
1 cộng với xác suất của
các ứng cử viên cho từ đó.

742
00:39:22,420 --> 00:39:25,710
Và nó được gọi là "từ".

743
00:39:25,710 --> 00:39:32,440
Này chia cho số lượng từ
mà tôi đã cho ứng cử viên đó.

744
00:39:32,440 --> 00:39:37,450
Tổng số lượng từ mà tôi có
cho ca sĩ mà tôi đang nhìn vào.

745
00:39:37,450 --> 00:39:40,290
>> "Khac." có nghĩa là nó là một từ mới
do đó, nó muốn được như ví dụ

746
00:39:40,290 --> 00:39:41,860
"Lửa" cho Lady Gaga.

747
00:39:41,860 --> 00:39:45,760
Vì vậy, tôi chỉ muốn làm 1 hơn
"Từ (ứng cử viên)".

748
00:39:45,760 --> 00:39:47,710
Vì vậy, tôi không muốn đưa thuật ngữ này ở đây.

749
00:39:47,710 --> 00:39:50,010
>> Vì vậy, nó sẽ là cơ bản
sao chép và dán này.

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
Nhưng tôi sẽ xóa phần này.

752
00:39:56,000 --> 00:39:57,610
Vì vậy, nó chỉ có được 1 trên đó.

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
Âm thanh tốt?

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
Và bây giờ cuối cùng, tôi chỉ cần đi đến
in tên của thí sinh và

757
00:40:09,700 --> 00:40:15,750
xác suất mà bạn có của
có S trên lời bài hát của họ.

758
00:40:15,750 --> 00:40:16,200
Làm cho tinh thần?

759
00:40:16,200 --> 00:40:18,390
Và tôi thực sự thậm chí không
cần từ điển này.

760
00:40:18,390 --> 00:40:19,510
Làm cho tinh thần?

761
00:40:19,510 --> 00:40:21,810
>> Vì vậy, chúng ta hãy xem nếu điều này thực sự hoạt động.

762
00:40:21,810 --> 00:40:24,880
Vì vậy, nếu tôi chạy, nó không làm việc.

763
00:40:24,880 --> 00:40:26,130
Chờ đợi một giây.

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
"Từ ngữ (ứng cử viên)", "từ (ứng cử viên)",
đó là

766
00:40:31,720 --> 00:40:33,750
tên của mảng.

767
00:40:33,750 --> 00:40:41,435
OK Vì vậy, nó nói có một số lỗi
cho ứng cử viên trong tiền án.

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
Hãy để tôi thư giãn một chút.

770
00:40:48,760 --> 00:40:50,360
OK.

771
00:40:50,360 --> 00:40:51,305
Chúng ta hãy cố gắng.

772
00:40:51,305 --> 00:40:51,720
OK.

773
00:40:51,720 --> 00:40:58,710
>> Vì vậy, nó mang lại cho Katy Perry có này
xác suất lần này 10 đến

774
00:40:58,710 --> 00:41:02,200
trừ đi 7, và Gaga có này
Thời gian từ 10 đến trừ 6.

775
00:41:02,200 --> 00:41:05,610
Vì vậy, bạn thấy nó cho thấy rằng Gaga
có một xác suất cao hơn.

776
00:41:05,610 --> 00:41:09,260
Vì vậy, "Baby, tôi on Fire" được
có thể là một bài hát Gaga.

777
00:41:09,260 --> 00:41:10,580
Làm cho tinh thần?

778
00:41:10,580 --> 00:41:12,030
Vì vậy, đây là những gì chúng tôi đã làm.

779
00:41:12,030 --> 00:41:16,010
>> Mã này sẽ được đăng trực tuyến,
vì vậy các bạn có thể kiểm tra xem nó ra.

780
00:41:16,010 --> 00:41:20,720
Có thể sử dụng một số của nó vì nếu bạn muốn
làm một dự án hoặc một cái gì đó tương tự.

781
00:41:20,720 --> 00:41:22,150
OK.

782
00:41:22,150 --> 00:41:25,930
Đây là chỉ để hiển thị
những gì tính toán

783
00:41:25,930 --> 00:41:27,230
đang ngôn ngữ học như thế nào.

784
00:41:27,230 --> 00:41:33,040
Nhưng bây giờ chúng ta hãy đi đến hơn
mức cao thứ.

785
00:41:33,040 --> 00:41:33,340
OK.

786
00:41:33,340 --> 00:41:35,150
>> Vì vậy, các vấn đề khác tôi
đang nói về -

787
00:41:35,150 --> 00:41:37,550
vấn đề phân chia
là lần đầu tiên của họ.

788
00:41:37,550 --> 00:41:40,820
Vì vậy, bạn có ở đây Nhật Bản.

789
00:41:40,820 --> 00:41:43,420
Và sau đó bạn thấy rằng
không có không gian.

790
00:41:43,420 --> 00:41:49,110
Vì vậy, đây là cơ bản có nghĩa là nó
đầu ghế, phải không?

791
00:41:49,110 --> 00:41:50,550
Bạn nói tiếng Nhật?

792
00:41:50,550 --> 00:41:52,840
Đó là lên mặt ghế, phải không?

793
00:41:52,840 --> 00:41:54,480
>> HỌC SINH: Tôi không biết những gì
các chữ Hán trên có.

794
00:41:54,480 --> 00:41:57,010
>> Lucas Freitas: Nó [NÓI TIẾNG NHẬT]

795
00:41:57,010 --> 00:41:57,950
OK.

796
00:41:57,950 --> 00:42:00,960
Vì vậy, về cơ bản có nghĩa là chủ tịch đầu.

797
00:42:00,960 --> 00:42:03,620
Vì vậy, nếu bạn đã phải đặt một không gian
nó sẽ có mặt ở đây.

798
00:42:03,620 --> 00:42:05,970
Và sau đó bạn có [? Ueda-san. ?]

799
00:42:05,970 --> 00:42:09,040
Mà về cơ bản có nghĩa là ông Ueda.

800
00:42:09,040 --> 00:42:13,180
Và bạn thấy rằng "Ueda" và bạn có một
không gian và sau đó "san." Vì vậy, bạn thấy rằng

801
00:42:13,180 --> 00:42:15,470
ở đây bạn "Ue" giống như của chính nó.

802
00:42:15,470 --> 00:42:17,750
Và ở đây nó có một nhân vật
bên cạnh nó.

803
00:42:17,750 --> 00:42:21,720
>> Vì vậy, nó không giống như trong các ngôn ngữ
ký tự có nghĩa là một từ nó, do đó bạn

804
00:42:21,720 --> 00:42:23,980
chỉ cần đặt rất nhiều không gian.

805
00:42:23,980 --> 00:42:25,500
Các nhân vật liên quan đến nhau.

806
00:42:25,500 --> 00:42:28,680
Và họ có thể cùng nhau
như hai, ba, một.

807
00:42:28,680 --> 00:42:34,520
Vì vậy, bạn thực sự có để tạo ra một số loại
cách đưa những không gian.

808
00:42:34,520 --> 00:42:38,850
>> Và điều này là bất cứ khi nào bạn nhận được
dữ liệu từ những ngôn ngữ châu Á,

809
00:42:38,850 --> 00:42:40,580
tất cả mọi thứ đến không phân đốt.

810
00:42:40,580 --> 00:42:45,940
Bởi vì không có một người viết Nhật Bản
hoặc Trung Quốc viết với không gian.

811
00:42:45,940 --> 00:42:48,200
Bất cứ khi nào bạn đang viết Trung Quốc,
Nhật Bản bạn chỉ cần viết tất cả mọi thứ

812
00:42:48,200 --> 00:42:48,710
không có khoảng trống.

813
00:42:48,710 --> 00:42:52,060
Nó thậm chí không có ý nghĩa
đặt không gian.

814
00:42:52,060 --> 00:42:57,960
Vì vậy, sau đó khi bạn nhận được dữ liệu từ, một số
Ngôn ngữ Đông Á, nếu bạn muốn

815
00:42:57,960 --> 00:43:00,760
thực sự làm điều gì đó với
bạn phải phân đoạn đầu tiên.

816
00:43:00,760 --> 00:43:05,130
>> Hãy suy nghĩ về làm ví dụ về
lời bài hát không có dấu cách.

817
00:43:05,130 --> 00:43:07,950
Vì vậy, lời bài hát duy nhất mà bạn có
sẽ có câu, phải không?

818
00:43:07,950 --> 00:43:09,470
Nhau bằng dấu chấm.

819
00:43:09,470 --> 00:43:13,930
Nhưng sau đó phải chỉ là câu sẽ
không thực sự giúp đỡ về cung cấp thông tin

820
00:43:13,930 --> 00:43:17,760
của người những lời bài hát là do.

821
00:43:17,760 --> 00:43:18,120
Phải không?

822
00:43:18,120 --> 00:43:20,010
Vì vậy, bạn nên đặt các không gian đầu tiên.

823
00:43:20,010 --> 00:43:21,990
Vậy làm thế nào bạn có thể làm điều đó?

824
00:43:21,990 --> 00:43:24,920
>> Vì vậy, sau đó đến các ý tưởng của một ngôn ngữ
mô hình đó là một cái gì đó thực sự

825
00:43:24,920 --> 00:43:26,870
quan trọng đối với tính toán
ngôn ngữ học.

826
00:43:26,870 --> 00:43:32,790
Vì vậy, một mô hình ngôn ngữ cơ bản là một
bảng xác suất mà các chương trình

827
00:43:32,790 --> 00:43:36,260
đầu tiên của tất cả các xác suất là gì
của việc có các từ trong một ngôn ngữ?

828
00:43:36,260 --> 00:43:39,590
Vì vậy, cho thấy cách thường xuyên là một từ.

829
00:43:39,590 --> 00:43:43,130
Và sau đó cũng cho thấy mối quan hệ
giữa các từ trong một câu.

830
00:43:43,130 --> 00:43:51,500
>> Vì vậy, ý tưởng chính là, nếu một người lạ đến
cho bạn và nói một câu để

831
00:43:51,500 --> 00:43:55,600
bạn, xác suất là những gì đó, cho
Ví dụ, "này là em gái của tôi [GTF?"?]

832
00:43:55,600 --> 00:43:57,480
là câu mà người nói?

833
00:43:57,480 --> 00:44:00,380
Vì vậy, rõ ràng là một số câu là
phổ biến hơn những người khác.

834
00:44:00,380 --> 00:44:04,450
Ví dụ, "Chào buổi sáng", hoặc "tốt
đêm ", hay" hey there "là nhiều hơn nữa

835
00:44:04,450 --> 00:44:08,260
phổ biến hơn so với hầu hết các câu
chúng ta có một tiếng Anh.

836
00:44:08,260 --> 00:44:11,060
Vậy tại sao là những câu
thường xuyên hơn?

837
00:44:11,060 --> 00:44:14,060
>> Trước hết, đó là vì bạn có
từ đó thường xuyên hơn.

838
00:44:14,060 --> 00:44:20,180
Vì vậy, ví dụ, nếu bạn nói, con chó
lớn, và con chó khổng lồ, bạn

839
00:44:20,180 --> 00:44:23,880
thường có thể nghe thấy con chó lớn
thường xuyên hơn bởi vì "lớn" hơn

840
00:44:23,880 --> 00:44:27,260
thường xuyên bằng tiếng Anh hơn "khổng lồ".
Vì vậy, một trong những

841
00:44:27,260 --> 00:44:30,100
điều là tần số từ.

842
00:44:30,100 --> 00:44:34,490
>> Điều thứ hai mà thực sự là
quan trọng là chỉ

843
00:44:34,490 --> 00:44:35,490
thứ tự của các từ.

844
00:44:35,490 --> 00:44:39,500
Vì vậy, nó thường nói "con mèo là
bên trong hộp. "nhưng bạn không thường

845
00:44:39,500 --> 00:44:44,250
nhìn thấy trong "Hộp bên trong là con mèo." để
bạn thấy rằng có một số tầm quan trọng

846
00:44:44,250 --> 00:44:46,030
theo thứ tự của các từ.

847
00:44:46,030 --> 00:44:50,160
Bạn không thể chỉ nói rằng hai
câu có cùng một xác suất

848
00:44:50,160 --> 00:44:53,010
chỉ vì họ có cùng một từ.

849
00:44:53,010 --> 00:44:55,550
Bạn thực sự phải quan tâm
về trật tự là tốt.

850
00:44:55,550 --> 00:44:57,650
Có ý nghĩa?

851
00:44:57,650 --> 00:44:59,490
>> Vì vậy, chúng ta làm gì?

852
00:44:59,490 --> 00:45:01,550
Vì vậy, những gì tôi có thể cố gắng để có được bạn?

853
00:45:01,550 --> 00:45:04,400
Tôi đang cố gắng để có được bạn những gì chúng ta
gọi các mô hình n-gram.

854
00:45:04,400 --> 00:45:09,095
Vì vậy, mô hình n-gram về cơ bản giả định
rằng đối với mỗi từ đó

855
00:45:09,095 --> 00:45:10,960
bạn có trong một câu.

856
00:45:10,960 --> 00:45:15,020
Đó là khả năng có mà
từ đó không chỉ phụ thuộc vào

857
00:45:15,020 --> 00:45:18,395
tần số của từ đó trong ngôn ngữ,
mà còn về những từ mà

858
00:45:18,395 --> 00:45:19,860
được xung quanh nó.

859
00:45:19,860 --> 00:45:25,810
>> Vì vậy, ví dụ, thường khi bạn nhìn thấy
một cái gì đó như trên hoặc bạn

860
00:45:25,810 --> 00:45:28,040
có thể sẽ thấy một
danh từ sau nó, phải không?

861
00:45:28,040 --> 00:45:31,750
Bởi vì khi bạn có một giới từ
thường phải mất một danh từ sau nó.

862
00:45:31,750 --> 00:45:35,540
Hoặc nếu bạn có một động từ có nghĩa là transitive
bạn thường sẽ

863
00:45:35,540 --> 00:45:36,630
có một cụm danh từ.

864
00:45:36,630 --> 00:45:38,780
Vì vậy, nó sẽ có một danh từ
ở đâu đó xung quanh nó.

865
00:45:38,780 --> 00:45:44,950
>> Vì vậy, về cơ bản, những gì nó làm là nó
xem xét khả năng có

866
00:45:44,950 --> 00:45:47,960
từ bên cạnh nhau, khi
bạn đang tính toán

867
00:45:47,960 --> 00:45:49,050
xác suất của một câu.

868
00:45:49,050 --> 00:45:50,960
Và đó là những gì một ngôn ngữ
mô hình về cơ bản.

869
00:45:50,960 --> 00:45:54,620
Chỉ nói xác suất là những gì
có một cụ thể

870
00:45:54,620 --> 00:45:57,120
câu trong một ngôn ngữ?

871
00:45:57,120 --> 00:45:59,110
Vậy tại sao là hữu ích, về cơ bản?

872
00:45:59,110 --> 00:46:02,390
Và lần đầu tiên của tất cả những gì là
một mô hình n-gram, sau đó?

873
00:46:02,390 --> 00:46:08,850
>> Vì vậy, một mô hình n-gram có nghĩa là
mỗi từ phụ thuộc vào

874
00:46:08,850 --> 00:46:12,700
N tiếp theo trừ đi 1 từ.

875
00:46:12,700 --> 00:46:18,150
Vì vậy, về cơ bản, nó có nghĩa là nếu tôi nhìn,
Ví dụ, tại CS50 TF khi

876
00:46:18,150 --> 00:46:21,500
Tôi đang tính toán xác suất
câu, bạn sẽ có như "

877
00:46:21,500 --> 00:46:25,280
xác suất có từ "là"
Thời gian xác suất có "

878
00:46:25,280 --> 00:46:31,720
CS50 "lần xác suất có
"Các TF CS50." Vì vậy, về cơ bản, tôi đếm

879
00:46:31,720 --> 00:46:35,720
tất cả các cách có thể kéo dài nó.

880
00:46:35,720 --> 00:46:41,870
>> Và sau đó thường là khi bạn đang làm điều này,
như trong một dự án, bạn đặt N là

881
00:46:41,870 --> 00:46:42,600
một giá trị thấp.

882
00:46:42,600 --> 00:46:45,930
Vì vậy, thường có bigrams hoặc bát quái.

883
00:46:45,930 --> 00:46:51,090
Vì vậy, bạn chỉ cần đếm hai từ, một
nhóm hai từ, hoặc ba từ,

884
00:46:51,090 --> 00:46:52,620
chỉ cho vấn đề hiệu suất.

885
00:46:52,620 --> 00:46:56,395
Và cũng bởi vì có thể nếu bạn có
một cái gì đó như "The CS50 TF." Khi bạn

886
00:46:56,395 --> 00:47:00,510
có "TF", nó rất quan trọng là
"CS50" là bên cạnh nó, phải không?

887
00:47:00,510 --> 00:47:04,050
Hai điều này thường
bên cạnh nhau.

888
00:47:04,050 --> 00:47:06,410
>> Nếu bạn nghĩ rằng "TF," nó có thể là
sẽ có những gì

889
00:47:06,410 --> 00:47:07,890
lớp nó TF'ing cho.

890
00:47:07,890 --> 00:47:11,330
Cũng "the" là thực sự quan trọng
cho CS50 TF.

891
00:47:11,330 --> 00:47:14,570
Nhưng nếu bạn có một cái gì đó như "The CS50
TF đến lớp và đưa cho họ

892
00:47:14,570 --> 00:47:20,060
sinh viên một số bánh kẹo. "" Candy "và" các "
không có mối quan hệ thực sự, phải không?

893
00:47:20,060 --> 00:47:23,670
Họ rất xa nhau mà
nó không thực sự có vấn đề gì

894
00:47:23,670 --> 00:47:25,050
Nói cách mà bạn có.

895
00:47:25,050 --> 00:47:31,210
>> Vì vậy, bằng cách làm một Bigram hoặc một trigram, nó
chỉ có nghĩa là bạn đang hạn chế

896
00:47:31,210 --> 00:47:33,430
mình để một số từ
được xung quanh.

897
00:47:33,430 --> 00:47:35,810
Có ý nghĩa?

898
00:47:35,810 --> 00:47:40,630
Vì vậy, khi bạn muốn làm phân khúc,
về cơ bản, những gì bạn muốn làm là nhìn thấy

899
00:47:40,630 --> 00:47:44,850
tất cả những cách có thể là những gì mà
bạn có thể phân khúc câu.

900
00:47:44,850 --> 00:47:49,090
>> Như vậy mà bạn thấy là những gì
xác suất của mỗi của những câu

901
00:47:49,090 --> 00:47:50,880
tồn tại trong ngôn ngữ?

902
00:47:50,880 --> 00:47:53,410
Vì vậy, những gì bạn làm là như thế, tốt, cho
tôi cố gắng đặt một không gian ở đây.

903
00:47:53,410 --> 00:47:55,570
Vì vậy, bạn đặt một không gian có
và bạn thấy là những gì

904
00:47:55,570 --> 00:47:57,590
Xác suất của câu đó?

905
00:47:57,590 --> 00:48:00,240
Sau đó, bạn là như thế, OK, có thể
đó không phải là tốt.

906
00:48:00,240 --> 00:48:03,420
Vì vậy, tôi đặt một không gian ở đó và một không gian
ở đó, và bạn tính toán

907
00:48:03,420 --> 00:48:06,240
xác suất bây giờ, và bạn thấy rằng
đó là một xác suất cao hơn.

908
00:48:06,240 --> 00:48:12,160
>> Vì vậy, đây là một thuật toán gọi là TANGO
thuật toán phân khúc, đó là

909
00:48:12,160 --> 00:48:14,990
thực sự một cái gì đó mà có thể thực sự
mát mẻ cho một dự án, trong đó

910
00:48:14,990 --> 00:48:20,860
về cơ bản có văn bản không phân đốt mà
có thể Nhật Bản hoặc Trung Quốc hoặc có thể

911
00:48:20,860 --> 00:48:26,080
Tiếng Anh không có dấu cách và cố gắng để đưa
không gian giữa các từ và nó

912
00:48:26,080 --> 00:48:29,120
rằng bằng cách sử dụng một mô hình ngôn ngữ và
cố gắng để xem những gì là cao nhất

913
00:48:29,120 --> 00:48:31,270
khả năng bạn có thể nhận được.

914
00:48:31,270 --> 00:48:32,230
OK.

915
00:48:32,230 --> 00:48:33,800
Vì vậy, đây là phân khúc.

916
00:48:33,800 --> 00:48:35,450
>> Bây giờ cú pháp.

917
00:48:35,450 --> 00:48:40,940
Vì vậy, cú pháp đang được sử dụng cho
rất nhiều điều ngay bây giờ.

918
00:48:40,940 --> 00:48:44,880
Vì vậy, cho đồ thị tìm kiếm, cho Siri cho
khá nhiều bất kỳ loại tự nhiên

919
00:48:44,880 --> 00:48:46,490
xử lý ngôn ngữ mà bạn có.

920
00:48:46,490 --> 00:48:49,140
Vì vậy, những gì là quan trọng
điều về cú pháp?

921
00:48:49,140 --> 00:48:52,390
Vì vậy, câu nói chung có
những gì chúng ta gọi là các thành phần.

922
00:48:52,390 --> 00:48:57,080
Đó là loại giống như một nhóm từ
có một chức năng trong câu.

923
00:48:57,080 --> 00:49:02,220
Và họ có thể không thực sự được
xa nhau.

924
00:49:02,220 --> 00:49:07,380
>> Vì vậy, nếu tôi nói, ví dụ, "Lauren yêu
Milo. "Tôi biết rằng" Lauren "là một

925
00:49:07,380 --> 00:49:10,180
thành phần và sau đó "tình yêu
Milo "cũng là một trong những khác.

926
00:49:10,180 --> 00:49:16,860
Bởi vì bạn không thể nói như "Lauren Milo
yêu "có cùng ý nghĩa.

927
00:49:16,860 --> 00:49:18,020
Nó sẽ không có
cùng ý nghĩa.

928
00:49:18,020 --> 00:49:22,500
Hoặc tôi không thể nói như "Milo Lauren
yêu. "Không phải mọi thứ có cùng

929
00:49:22,500 --> 00:49:25,890
có nghĩa là làm điều đó.

930
00:49:25,890 --> 00:49:31,940
>> Vì vậy, hai điều quan trọng hơn về
cú pháp là các loại từ vựng đó là

931
00:49:31,940 --> 00:49:35,390
về cơ bản là chức năng mà bạn
có các từ của mình.

932
00:49:35,390 --> 00:49:39,180
Vì vậy, bạn phải biết rằng "Lauren"
và "Milo" là danh từ.

933
00:49:39,180 --> 00:49:41,040
"Tình yêu" là một động từ.

934
00:49:41,040 --> 00:49:45,660
Và điều quan trọng thứ hai là
rằng họ đang loại mệnh đề.

935
00:49:45,660 --> 00:49:48,990
Vì vậy, bạn biết rằng "yêu Milo"
thật là một cụm từ bằng lời nói.

936
00:49:48,990 --> 00:49:52,390
Vì vậy, khi tôi nói "Lauren," Tôi biết rằng
Lauren đang làm một cái gì đó.

937
00:49:52,390 --> 00:49:53,620
Cô ấy làm gì?

938
00:49:53,620 --> 00:49:54,570
Cô ấy yêu Milo.

939
00:49:54,570 --> 00:49:56,440
Vì vậy, đó là một điều hoàn toàn.

940
00:49:56,440 --> 00:50:01,640
Nhưng thành phần của nó là
một danh từ và động từ.

941
00:50:01,640 --> 00:50:04,210
Nhưng cùng nhau, họ thực hiện một cụm động từ.

942
00:50:04,210 --> 00:50:08,680
>> Vì vậy, những gì chúng ta có thể thực sự làm gì với
ngôn ngữ học tính toán?

943
00:50:08,680 --> 00:50:13,810
Vì vậy, nếu tôi có một cái gì đó ví dụ
"Những người bạn của Allison." Tôi thấy nếu tôi chỉ

944
00:50:13,810 --> 00:50:17,440
đã làm một cây cú pháp tôi sẽ biết rằng
"Bạn bè" là một cụm danh từ đó là một

945
00:50:17,440 --> 00:50:21,480
danh từ và sau đó "của Allison" là một
cụm giới từ trong đó "của" là

946
00:50:21,480 --> 00:50:24,810
một đề xuất và "Allison" là một danh từ.

947
00:50:24,810 --> 00:50:30,910
Những gì tôi có thể làm là dạy cho máy tính của tôi
rằng khi tôi có một cụm danh từ một đến

948
00:50:30,910 --> 00:50:33,080
sau đó một cụm giới từ.

949
00:50:33,080 --> 00:50:39,020
Vì vậy, trong trường hợp này, "bạn bè" và sau đó "của
Milo "Tôi biết rằng điều này có nghĩa là

950
00:50:39,020 --> 00:50:43,110
NP2, điều thứ hai, sở hữu NP1.

951
00:50:43,110 --> 00:50:47,680
>> Vì vậy, tôi có thể tạo ra một số loại mối quan hệ,
một số loại chức năng cho nó.

952
00:50:47,680 --> 00:50:52,370
Vì vậy, bất cứ khi nào tôi nhìn thấy cấu trúc này,
phù hợp chính xác với "bạn bè của

953
00:50:52,370 --> 00:50:56,030
Allison, "Tôi biết rằng Allison
sở hữu bạn bè.

954
00:50:56,030 --> 00:50:58,830
Vì vậy, bạn bè là một cái gì đó
rằng Allison có.

955
00:50:58,830 --> 00:50:59,610
Làm cho tinh thần?

956
00:50:59,610 --> 00:51:01,770
Vì vậy, đây là những gì cơ bản
Tìm kiếm đồ thị không.

957
00:51:01,770 --> 00:51:04,360
Nó chỉ tạo ra quy tắc
cho rất nhiều thứ.

958
00:51:04,360 --> 00:51:08,190
Vì vậy, "những người bạn của Allison", "bạn bè của tôi
người sống ở Cambridge "," bạn bè của tôi

959
00:51:08,190 --> 00:51:12,970
người đi đến Harvard. "Nó tạo ra quy tắc
cho tất cả những điều đó.

960
00:51:12,970 --> 00:51:14,930
>> Bây giờ dịch máy.

961
00:51:14,930 --> 00:51:18,850
Vì vậy, dịch máy cũng là
một cái gì đó thống kê.

962
00:51:18,850 --> 00:51:21,340
Và thực sự nếu bạn tham gia vào
ngữ học máy tính, rất nhiều

963
00:51:21,340 --> 00:51:23,580
công cụ của bạn là có được số liệu thống kê.

964
00:51:23,580 --> 00:51:26,670
Vì vậy, như tôi đã làm ví dụ với
rất nhiều suất mà tôi đã được

965
00:51:26,670 --> 00:51:30,540
tính toán, và sau đó bạn có thể điều này
số lượng rất nhỏ đó là trận chung kết

966
00:51:30,540 --> 00:51:33,180
xác suất, và đó là những gì
mang đến cho bạn câu trả lời.

967
00:51:33,180 --> 00:51:37,540
Máy dịch thuật cũng sử dụng
một mô hình thống kê.

968
00:51:37,540 --> 00:51:44,790
Và nếu bạn muốn nghĩ về máy
dịch đơn giản nhất có thể

969
00:51:44,790 --> 00:51:48,970
cách, những gì bạn có thể nghĩ rằng chỉ là
dịch từng chữ, phải không?

970
00:51:48,970 --> 00:51:52,150
>> Khi bạn đang học một ngôn ngữ cho
lần đầu tiên, đó là những gì thường

971
00:51:52,150 --> 00:51:52,910
bạn làm gì, phải không?

972
00:51:52,910 --> 00:51:57,050
Nếu bạn muốn, bạn dịch một câu
trong ngôn ngữ của bạn với ngôn ngữ

973
00:51:57,050 --> 00:52:00,060
bạn đang học tập, thường là đầu tiên, bạn
dịch mỗi từ

974
00:52:00,060 --> 00:52:03,180
cá nhân, và sau đó bạn cố gắng
để đặt các từ vào vị trí.

975
00:52:03,180 --> 00:52:07,100
>> Vì vậy, nếu tôi muốn dịch này,
[NÓI PORTUGUESE]

976
00:52:07,100 --> 00:52:10,430
có nghĩa "con mèo trắng chạy đi."
Nếu tôi muốn dịch nó từ

977
00:52:10,430 --> 00:52:13,650
Bồ Đào sang tiếng Anh, những gì tôi
có thể làm là, đầu tiên, tôi chỉ

978
00:52:13,650 --> 00:52:14,800
dịch từng chữ.

979
00:52:14,800 --> 00:52:20,570
Vì vậy, "o" là "," "gato", "con mèo"
"Branco", "trắng", và sau đó "fugio" là

980
00:52:20,570 --> 00:52:21,650
"Bỏ chạy."

981
00:52:21,650 --> 00:52:26,130
>> Vì vậy, sau đó tôi có tất cả các từ đây,
nhưng chúng không theo thứ tự.

982
00:52:26,130 --> 00:52:29,590
Nó giống như "mèo trắng chạy đi"
đó là sai ngữ pháp.

983
00:52:29,590 --> 00:52:34,490
Vì vậy, sau đó tôi có thể có một bước thứ hai,
sẽ được tìm kiếm lý tưởng

984
00:52:34,490 --> 00:52:36,610
vị trí cho mỗi từ.

985
00:52:36,610 --> 00:52:40,240
Vì vậy, tôi biết rằng tôi thực sự muốn có
"Mèo trắng" thay vì "con mèo trắng." Vì vậy,

986
00:52:40,240 --> 00:52:46,050
những gì tôi có thể làm là, phương pháp ngây thơ nhất
sẽ tạo ra tất cả các

987
00:52:46,050 --> 00:52:49,720
hoán vị có thể có của
từ, các vị trí.

988
00:52:49,720 --> 00:52:53,300
Và sau đó xem cái nào có
xác suất cao nhất theo

989
00:52:53,300 --> 00:52:54,970
mô hình ngôn ngữ của tôi.

990
00:52:54,970 --> 00:52:58,390
Và sau đó khi tôi tìm thấy một trong đó có
xác suất cao nhất nó, đó là

991
00:52:58,390 --> 00:53:01,910
có thể "mèo trắng chạy đi,"
đó là bản dịch của tôi.

992
00:53:01,910 --> 00:53:06,710
>> Và đây là một cách đơn giản để giải thích
như thế nào rất nhiều dịch máy

993
00:53:06,710 --> 00:53:07,910
thuật toán làm việc.

994
00:53:07,910 --> 00:53:08,920
Điều đó có ý nghĩa?

995
00:53:08,920 --> 00:53:12,735
Đây cũng là một cái gì đó thực sự thú vị
mà các bạn có thể có thể khám phá một

996
00:53:12,735 --> 00:53:13,901
dự án cuối cùng, yeah?

997
00:53:13,901 --> 00:53:15,549
>> HỌC SINH: Vâng, bạn nói rằng đó là
cách ngây thơ, vì vậy những gì

998
00:53:15,549 --> 00:53:17,200
cách không ngây thơ?

999
00:53:17,200 --> 00:53:18,400
>> Lucas Freitas: Cách không ngây thơ?

1000
00:53:18,400 --> 00:53:19,050
OK.

1001
00:53:19,050 --> 00:53:22,860
Vì vậy, điều đầu tiên mà là xấu về
phương pháp này là tôi chỉ dịch

1002
00:53:22,860 --> 00:53:24,330
lời nói, từng từ.

1003
00:53:24,330 --> 00:53:30,570
Nhưng đôi khi bạn có những từ mà
có thể có nhiều bản dịch.

1004
00:53:30,570 --> 00:53:32,210
Tôi sẽ cố gắng để suy nghĩ
một cái gì đó.

1005
00:53:32,210 --> 00:53:37,270
Ví dụ, "manga" trong có thể Bồ Đào Nha
hoặc là "mangle" hoặc "tay áo". Vì vậy,

1006
00:53:37,270 --> 00:53:40,450
khi bạn đang cố gắng để dịch thuật ngữ
bằng lời nói, nó có thể được cho bạn

1007
00:53:40,450 --> 00:53:42,050
một cái gì đó mà làm cho không có ý nghĩa.

1008
00:53:42,050 --> 00:53:45,770
>> Vì vậy, bạn thực sự muốn bạn nhìn vào tất cả
bản dịch có thể có của

1009
00:53:45,770 --> 00:53:49,840
lời nói và thấy, đầu tiên của tất cả,
thứ tự là gì.

1010
00:53:49,840 --> 00:53:52,000
Chúng tôi đã nói về permutating
những điều?

1011
00:53:52,000 --> 00:53:54,150
Để xem tất cả các đơn đặt hàng có thể và
chọn một với mức cao nhất

1012
00:53:54,150 --> 00:53:54,990
xác suất?

1013
00:53:54,990 --> 00:53:57,860
Bạn cũng có thể chọn tất cả các thể
bản dịch cho mỗi

1014
00:53:57,860 --> 00:54:00,510
từ và sau đó nhìn thấy -

1015
00:54:00,510 --> 00:54:01,950
kết hợp với các hoán vị -

1016
00:54:01,950 --> 00:54:03,710
cái nào có xác suất cao nhất.

1017
00:54:03,710 --> 00:54:08,590
>> Thêm vào đó, bạn cũng có thể nhìn vào không
chỉ lời nói, nhưng cụm từ.

1018
00:54:08,590 --> 00:54:11,700
vì vậy bạn có thể phân tích mối quan hệ giữa
các từ và sau đó nhận được một

1019
00:54:11,700 --> 00:54:13,210
dịch tốt hơn.

1020
00:54:13,210 --> 00:54:16,690
Ngoài ra một cái gì đó khác, vì vậy học kỳ này
Tôi đang thực sự làm nghiên cứu trong

1021
00:54:16,690 --> 00:54:19,430
Trung Quốc-Anh dịch máy,
để dịch từ

1022
00:54:19,430 --> 00:54:20,940
Trung Quốc sang tiếng Anh.

1023
00:54:20,940 --> 00:54:26,760
>> Và một cái gì đó chúng tôi làm là, bên cạnh việc sử dụng
một mô hình thống kê, mà chỉ là

1024
00:54:26,760 --> 00:54:30,570
nhìn thấy các xác suất nhìn thấy
một số vị trí trong một câu, tôi

1025
00:54:30,570 --> 00:54:35,360
thực sự cũng bổ sung thêm một số cú pháp để tôi
mô hình, nói rằng, oh, nếu tôi thấy loại này

1026
00:54:35,360 --> 00:54:39,420
xây dựng, đây là những gì tôi muốn
để thay đổi nó khi tôi dịch.

1027
00:54:39,420 --> 00:54:43,880
Vì vậy, bạn cũng có thể thêm một số loại
yếu tố cú pháp để làm cho

1028
00:54:43,880 --> 00:54:47,970
dịch hiệu quả hơn
và chính xác hơn.

1029
00:54:47,970 --> 00:54:48,550
OK.

1030
00:54:48,550 --> 00:54:51,010
>> Vậy làm thế nào bạn có thể bắt đầu, nếu bạn muốn
để làm một cái gì đó trong tính toán

1031
00:54:51,010 --> 00:54:51,980
ngôn ngữ học?

1032
00:54:51,980 --> 00:54:54,560
>> Đầu tiên, bạn chọn một dự án
có liên quan đến ngôn ngữ.

1033
00:54:54,560 --> 00:54:56,310
Vì vậy, có rất nhiều ra khỏi đó.

1034
00:54:56,310 --> 00:54:58,420
Có rất nhiều điều bạn có thể làm.

1035
00:54:58,420 --> 00:55:00,510
Và sau đó có thể nghĩ đến một mô hình
mà bạn có thể sử dụng.

1036
00:55:00,510 --> 00:55:04,710
Thường có nghĩa là suy nghĩ của
giả định, như như, oh, khi tôi

1037
00:55:04,710 --> 00:55:05,770
như suy nghĩ của bài hát.

1038
00:55:05,770 --> 00:55:09,510
Tôi giống như, tốt, nếu tôi muốn tìm
ra một người đã viết này, tôi có thể muốn

1039
00:55:09,510 --> 00:55:15,400
nhìn vào những lời người sử dụng và
thấy những người sử dụng từ đó rất thường xuyên.

1040
00:55:15,400 --> 00:55:18,470
Vì vậy, cố gắng làm cho các giả định và
cố gắng nghĩ về mô hình.

1041
00:55:18,470 --> 00:55:21,395
Và sau đó bạn cũng có thể tìm kiếm trực tuyến cho
các loại vấn đề mà bạn có,

1042
00:55:21,395 --> 00:55:24,260
và nó sẽ đề nghị
để bạn có thể mô hình

1043
00:55:24,260 --> 00:55:26,560
mô hình điều tốt.

1044
00:55:26,560 --> 00:55:29,080
>> Và cũng có thể bạn luôn có thể gửi email cho tôi.

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com.

1046
00:55:31,140 --> 00:55:34,940
Và tôi chỉ có thể trả lời câu hỏi của bạn.

1047
00:55:34,940 --> 00:55:38,600
Chúng tôi thậm chí có thể có thể đáp ứng vì vậy tôi có thể
cho ý kiến ​​về cách

1048
00:55:38,600 --> 00:55:41,490
triển khai thực hiện dự án của bạn.

1049
00:55:41,490 --> 00:55:45,610
Và tôi có nghĩa là nếu bạn tham gia với
ngôn ngữ học tính toán, nó sẽ

1050
00:55:45,610 --> 00:55:46,790
là tuyệt vời.

1051
00:55:46,790 --> 00:55:48,370
Bạn sẽ thấy có
quá nhiều tiềm năng.

1052
00:55:48,370 --> 00:55:52,060
Và ngành công nghiệp muốn thuê
bạn xấu như vậy vì điều đó.

1053
00:55:52,060 --> 00:55:54,720
Vì vậy, tôi hy vọng các bạn thích này.

1054
00:55:54,720 --> 00:55:57,030
Nếu bạn có bất kỳ câu hỏi,
bạn có thể hỏi tôi sau này.

1055
00:55:57,030 --> 00:55:58,280
Nhưng cảm ơn bạn.

1056
00:55:58,280 --> 00:56:00,150