1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> לוקאס פרייטס: היי.

3
00:00:08,870 --> 00:00:09,980
ברוכים הבאים לכולם.

4
00:00:09,980 --> 00:00:11,216
השם שלי הוא לוקאס פרייטס.

5
00:00:11,216 --> 00:00:15,220
אני זוטר ב[ לא ברור] לומד
מדעי מחשב עם התמקדות ב

6
00:00:15,220 --> 00:00:16,410
בלשנות חישובית.

7
00:00:16,410 --> 00:00:19,310
אז המשני הוא בשפה
ותאוריה בלשנית.

8
00:00:19,310 --> 00:00:21,870
אני ממש נרגש ללמד אותך החבר 'ה
קצת על התחום.

9
00:00:21,870 --> 00:00:24,300
זה אזור מאוד מרגש ללמוד.

10
00:00:24,300 --> 00:00:27,260
גם עם הרבה פוטנציאל
לעתיד.

11
00:00:27,260 --> 00:00:30,160
אז, אני ממש נרגש שאתם
שוקלים פרויקטים

12
00:00:30,160 --> 00:00:31,160
בלשנות חישובית.

13
00:00:31,160 --> 00:00:35,460
ואני אהיה יותר שמח לייעץ
כל אחד מכם, אם תחליטו

14
00:00:35,460 --> 00:00:37,090
תרדוף אחד מאלה.

15
00:00:37,090 --> 00:00:40,010
>> אז קודם כל מה הם חישובית
בלשנות?

16
00:00:40,010 --> 00:00:44,630
בלשנות חישובית אז הוא
צומת שבין בלשנות ו

17
00:00:44,630 --> 00:00:46,390
מדעי מחשב.

18
00:00:46,390 --> 00:00:47,415
אז, מה היא בלשנות?

19
00:00:47,415 --> 00:00:48,490
מה זה מדעי מחשב?

20
00:00:48,490 --> 00:00:51,580
גם מן הבלשנות, מה
אנחנו לוקחים אותן השפות.

21
00:00:51,580 --> 00:00:54,960
אז בלשנות היא למעשה המחקר
של שפה טבעית באופן כללי.

22
00:00:54,960 --> 00:00:58,330
שפה כל כך טבעית - אנחנו מדברים על
שפה שאנחנו באמת להשתמש בו כדי

23
00:00:58,330 --> 00:00:59,770
לתקשר אחד עם השני.

24
00:00:59,770 --> 00:01:02,200
אז אנחנו לא בדיוק מדברים
על C או ג'אווה.

25
00:01:02,200 --> 00:01:05,900
אנחנו מדברים יותר על אנגלית ו
שפות סיניות ואחרות שאנחנו

26
00:01:05,900 --> 00:01:07,780
להשתמש כדי לתקשר אחד עם השני.

27
00:01:07,780 --> 00:01:12,470
>> הדבר המאתגר על זה הוא כי
עכשיו יש לנו כמעט 7,000

28
00:01:12,470 --> 00:01:14,260
שפות בעולם.

29
00:01:14,260 --> 00:01:19,520
אז יש די מגוון גבוה
שפות שאנחנו יכולים ללמוד.

30
00:01:19,520 --> 00:01:22,600
ואז אתה חושב שזה כנראה
מאוד קשה לעשות, למשל,

31
00:01:22,600 --> 00:01:26,960
תרגום משפה לשפה
אחר, בהתחשב בכך שיש לך

32
00:01:26,960 --> 00:01:28,240
כמעט 7,000 מהם.

33
00:01:28,240 --> 00:01:31,450
לכן, אם אתם חושבים לעשות תרגום
משפה אחת לאחר שאתה

34
00:01:31,450 --> 00:01:35,840
יש כמעט יותר ממיליון
שילובים שונים, כי אתה יכול

35
00:01:35,840 --> 00:01:37,330
יש לי משפה לשפה.

36
00:01:37,330 --> 00:01:40,820
אז זה באמת מאתגר לעשות קצת
סוג של מערכת לדוגמא תרגום עבור

37
00:01:40,820 --> 00:01:43,540
כל שפה.

38
00:01:43,540 --> 00:01:47,120
>> אז, פינוקים בלשנות עם תחביר,
סמנטיקה, פרגמטיקה.

39
00:01:47,120 --> 00:01:49,550
אתם לא בדיוק צריכים
לדעת מה הם נמצאים.

40
00:01:49,550 --> 00:01:55,090
אבל הדבר מעניין מאוד הוא ש
כדובר שפה אם, כאשר אתה לומד

41
00:01:55,090 --> 00:01:59,010
שפה כילד, אתה בעצם לומד
את כל הדברים האלה - סמנטיקה התחביר

42
00:01:59,010 --> 00:02:00,500
ופרגמטיקה -

43
00:02:00,500 --> 00:02:01,430
בעצמך.

44
00:02:01,430 --> 00:02:04,820
ואף אחד לא צריך ללמד אותך על תחביר
לך להבין איך משפטים הם

45
00:02:04,820 --> 00:02:05,290
מובנה.

46
00:02:05,290 --> 00:02:07,980
אז, זה באמת מעניין, כי
זה משהו שמגיע מאוד

47
00:02:07,980 --> 00:02:10,389
באופן אינטואיטיבי.

48
00:02:10,389 --> 00:02:13,190
>> ומה אתה לוקח מ
מדעי המחשב?

49
00:02:13,190 --> 00:02:16,700
ובכן, הדבר החשוב ביותר שאנחנו
יש במדעי מחשב הוא ראשון של

50
00:02:16,700 --> 00:02:19,340
כל האינטליגנציה מלאכותית
ולמידה מכונה.

51
00:02:19,340 --> 00:02:22,610
אז, מה שאנחנו מנסים לעשות
בלשנות החישובית היא ללמד

52
00:02:22,610 --> 00:02:26,990
המחשב שלך איך לעשות משהו
עם שפה.

53
00:02:26,990 --> 00:02:28,630
>> כך, לדוגמא, במכונה
תרגום.

54
00:02:28,630 --> 00:02:32,490
אני מנסה ללמד איך המחשב שלי
לדעת איך לעבור מאחד

55
00:02:32,490 --> 00:02:33,310
שפה לאחרת.

56
00:02:33,310 --> 00:02:35,790
אז, בעצם כמו ללמד
שתי שפות מחשב.

57
00:02:35,790 --> 00:02:38,870
אם אני עושה עיבוד שפה טבעית,
שהוא במקרה לדוגמא של

58
00:02:38,870 --> 00:02:41,810
גרף החיפוש של פייסבוק, אתה מלמד
המחשב שלך איך להבין

59
00:02:41,810 --> 00:02:42,730
שאילתות היטב.

60
00:02:42,730 --> 00:02:48,130
>> לכן, אם אתה אומר "תמונות שלי
חברים. "פייסבוק לא מתייחסים כי

61
00:02:48,130 --> 00:02:51,130
בכללותה מחרוזת שיש
סתם חבורה של מילות.

62
00:02:51,130 --> 00:02:56,020
זה באמת מבין את הקשר
בין "תמונות" ו "החברים שלי" ו

63
00:02:56,020 --> 00:02:59,620
מבין כי "תמונות" הן
רכושם של "החברים שלי".

64
00:02:59,620 --> 00:03:02,350
>> אז, זה חלק מ, למשל,
עיבוד שפה טבעית.

65
00:03:02,350 --> 00:03:04,790
הוא מנסה להבין מה
הוא היחס בין

66
00:03:04,790 --> 00:03:07,520
המילים במשפט.

67
00:03:07,520 --> 00:03:11,170
והשאלה הגדולה היא, האם אתה יכול
ללמד את מחשב איך לדבר

68
00:03:11,170 --> 00:03:12,650
שפה באופן כללי?

69
00:03:12,650 --> 00:03:17,810
איזו היא שאלה מאוד מעניינת
חושב, כאילו אולי בעתיד,

70
00:03:17,810 --> 00:03:19,930
אתה הולך להיות מסוגל
לדבר עם הטלפון הסלולרי שלך.

71
00:03:19,930 --> 00:03:23,290
כמו סוג של מה שאנחנו עושים עם Siri אבל
משהו דומה יותר, אתה בעצם יכול

72
00:03:23,290 --> 00:03:25,690
לומר מה שאתה רוצה והטלפון
הוא הולך להבין הכל.

73
00:03:25,690 --> 00:03:28,350
וזה יכול להיות מעקב שאלות
ולהמשיך לדבר.

74
00:03:28,350 --> 00:03:30,880
זה משהו באמת מרגש,
לדעתי.

75
00:03:30,880 --> 00:03:33,070
>> אז, משהו על שפות טבעיות.

76
00:03:33,070 --> 00:03:36,220
משהו ממש מעניין על
שפות טבעיות היא, ואת זה הוא

77
00:03:36,220 --> 00:03:38,470
אשראי לפרופסור לבלשנות שלי,
מריה פולינסקי.

78
00:03:38,470 --> 00:03:40,830
היא נותנת דוגמא ואני חושב
זה באמת מעניין.

79
00:03:40,830 --> 00:03:47,060
מכיוון שאנו לומדים את שפה מכאשר
אנחנו נולדים ולאחר מכן האם שלנו

80
00:03:47,060 --> 00:03:49,170
שפת סוג של גדלה עלינו.

81
00:03:49,170 --> 00:03:52,570
>> ובעצם אתה לומד שפה
מקלט מינימאלי, נכון?

82
00:03:52,570 --> 00:03:56,700
אתה פשוט מקבל קלט משלך
הורים של מה נשמעת בשפה שלך

83
00:03:56,700 --> 00:03:58,770
אוהב ואתה פשוט ללמוד את זה.

84
00:03:58,770 --> 00:04:02,240
אז, זה מעניין, כי אם אתה מסתכל
במשפטים האלה, למשל.

85
00:04:02,240 --> 00:04:06,980
אתה נראה, "מרי לובש מעיל כל
פעם שהיא יוצאת מהבית. "

86
00:04:06,980 --> 00:04:10,650
>> במקרה זה, זה אפשרי לי
מילה "היא" מתייחסת למריה, נכון?

87
00:04:10,650 --> 00:04:13,500
אתה יכול להגיד "מרי לובש מעיל
בכל פעם שמשאיר את מרי

88
00:04:13,500 --> 00:04:14,960
בית. ", כך שזה בסדר.

89
00:04:14,960 --> 00:04:19,370
אבל אז אם אתה מסתכל על המשפט
"היא מניחה אותו על מעיל בכל פעם שמרי

90
00:04:19,370 --> 00:04:22,850
עוזב את הבית. "אתה יודע שזה
אי אפשר לומר כי "היא" הוא

91
00:04:22,850 --> 00:04:24,260
בהתייחסו למרי.

92
00:04:24,260 --> 00:04:27,070
>> אין שום דרך לומר ש" מרי מעמיד
במעייל בכל פעם שמשאיר את מרי

93
00:04:27,070 --> 00:04:30,790
הבית. "אז זה מעניין, כי
זה הסוג של אינטואיציה

94
00:04:30,790 --> 00:04:32,890
שכל דובר ילידים יש.

95
00:04:32,890 --> 00:04:36,370
ואף אחד לא לימד אותנו שזה הוא
אופן שבו התחביר עובד.

96
00:04:36,370 --> 00:04:41,930
ושאתה יכול להיות רק "היא" זה
בהתייחסו למרי במקרה הראשון,

97
00:04:41,930 --> 00:04:44,260
ובעצם בזה אחר
יותר מדי, אבל לא בתחום הזה.

98
00:04:44,260 --> 00:04:46,500
אבל כולם סוג של מקבל
לאותה התשובה.

99
00:04:46,500 --> 00:04:48,580
כולם מסכים על זה.

100
00:04:48,580 --> 00:04:53,280
אז זה באמת מעניין איך למרות
אתה לא יודע את כל הכללים

101
00:04:53,280 --> 00:04:55,575
בשפה שלך שאתה סוג של ההבנה
איך השפה עובדת.

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> אז הדבר המעניין על טבעי
שפה היא שאין לך

104
00:05:01,530 --> 00:05:06,970
יודע כל תחביר לדעת אם משפט
הוא דקדוק או לא דקדוקיים עבור

105
00:05:06,970 --> 00:05:08,810
רוב המקרים.

106
00:05:08,810 --> 00:05:13,220
מה שגורם לך לחשוב שאולי מה
שקורה הוא שדרך החיים שלך, אתה

107
00:05:13,220 --> 00:05:17,410
רק לשמור מקבל יותר ויותר
משפטים אמרו לך.

108
00:05:17,410 --> 00:05:19,800
ואז אתה שומר את השינון
כל המשפטים.

109
00:05:19,800 --> 00:05:24,230
ולאחר מכן, כאשר מישהו אומר לך
משהו, אתה שומע את המשפט הזה ו

110
00:05:24,230 --> 00:05:27,040
אתה מסתכל על אוצר המילים שלך
של משפטים ולראות אם

111
00:05:27,040 --> 00:05:28,270
המשפט שהוא שם.

112
00:05:28,270 --> 00:05:29,830
ואם זה יש לך
אומר שזה דקדוק.

113
00:05:29,830 --> 00:05:31,740
אם זה לא אתה אומר שזה
לא דקדוקיים.

114
00:05:31,740 --> 00:05:35,150
>> לכן, במקרה זה, היית אומר, הו,
אז יש לך רשימה ענקית של כל

115
00:05:35,150 --> 00:05:36,140
משפטים אפשריים.

116
00:05:36,140 --> 00:05:38,240
ואז כשאתה שומע משפט,
אתה יודע אם זה דקדוק או

117
00:05:38,240 --> 00:05:39,450
לא מבוסס על זה.

118
00:05:39,450 --> 00:05:42,360
העניין הוא שאם אתה מסתכל על
משפט, למשל, "

119
00:05:42,360 --> 00:05:47,540
TFS CS50 חמישה ראשים מבושלים העיוור
תמנון באמצעות ספל DAPA. "זה

120
00:05:47,540 --> 00:05:49,630
בהחלט לא משפט
ששמעת לפני כן.

121
00:05:49,630 --> 00:05:52,380
אבל באותו הזמן אתה יודע שזה
די הרבה דקדוק, נכון?

122
00:05:52,380 --> 00:05:55,570
אין טעויות דקדוק
ואתה יכול להגיד את זה

123
00:05:55,570 --> 00:05:57,020
זה גזר דין שניתן.

124
00:05:57,020 --> 00:06:01,300
>> אז זה גורם לנו לחשוב שבעצם
דרך שבה אנו לומדים שפה היא לא רק

125
00:06:01,300 --> 00:06:07,090
על ידי בעל מאגר מידע עצום של אפשרי
מילות או משפטים, אלא יותר של

126
00:06:07,090 --> 00:06:11,490
הבנת הקשר בין
מילות במשפטים אלה.

127
00:06:11,490 --> 00:06:14,570
האם זה הגיוני?

128
00:06:14,570 --> 00:06:19,370
כן, אז השאלה היא, יכול
מחשבים ללמוד שפות?

129
00:06:19,370 --> 00:06:21,490
האם אנחנו יכולים ללמד את השפה למחשבים?

130
00:06:21,490 --> 00:06:24,230
>> אז, בואו נחשוב על ההבדל
בין דובר ילידים של שפה

131
00:06:24,230 --> 00:06:25,460
ומחשב.

132
00:06:25,460 --> 00:06:27,340
אז, מה קורה לרמקול?

133
00:06:27,340 --> 00:06:30,430
ובכן, דובר השפה אם לומדת
שפה מחשיפה אליו.

134
00:06:30,430 --> 00:06:34,200
בדרך כלל בילדות שנותיה הראשונות.

135
00:06:34,200 --> 00:06:38,570
אז, בעצם, רק יש לך תינוק,
ואתה תמשיך לדבר אליו, וזה

136
00:06:38,570 --> 00:06:40,540
פשוט לומד איך לדבר
השפה, נכון?

137
00:06:40,540 --> 00:06:42,660
אז, אתה נותן בעצם
קלט לתינוק.

138
00:06:42,660 --> 00:06:45,200
כן, אז אתה יכול לטעון שמחשב
יכול לעשות את אותו הדבר, נכון?

139
00:06:45,200 --> 00:06:49,510
רק אתה יכול לתת שפה
כקלט למחשב.

140
00:06:49,510 --> 00:06:53,410
>> כמו למשל חבורה של קבצים
שיש להם ספרים באנגלית.

141
00:06:53,410 --> 00:06:56,190
אולי זו דרך אחת, כי אתה
אולי יכול ללמד

142
00:06:56,190 --> 00:06:57,850
אנגלית במחשב, נכון?

143
00:06:57,850 --> 00:07:01,000
ולמעשה, אם חושב על זה,
זה לוקח לך אולי כמה

144
00:07:01,000 --> 00:07:02,680
ימים לקרוא את ספר.

145
00:07:02,680 --> 00:07:05,760
למחשב זה לוקח שני
להסתכל על כל המילים בספר.

146
00:07:05,760 --> 00:07:10,810
אז אתה יכול לחשוב שיכול להיות רק זה
טיעון של קלט מסביבך,

147
00:07:10,810 --> 00:07:15,440
זה לא מספיק לומר שזה
משהו שרק בני אדם יכולים לעשות.

148
00:07:15,440 --> 00:07:17,680
אתה יכול לחשוב על מחשבים
יכול גם לקבל קלט.

149
00:07:17,680 --> 00:07:21,170
>> הדבר השני הוא שדוברים ילידיים
יש גם מוח שיש

150
00:07:21,170 --> 00:07:23,870
יכולת לימוד שפה.

151
00:07:23,870 --> 00:07:27,020
אבל אם אתה חושב על זה,
מוח הוא דבר מוצק.

152
00:07:27,020 --> 00:07:30,450
כאשר אתה נולד, זה כבר נקבע -

153
00:07:30,450 --> 00:07:31,320
זה המוח שלך.

154
00:07:31,320 --> 00:07:34,660
וככל שאתה גדל, אתה פשוט מקבל יותר
קלט של שפה ואולי חומרים מזינים

155
00:07:34,660 --> 00:07:35,960
וכל מיני דברים אחרים.

156
00:07:35,960 --> 00:07:38,170
אבל פחות או יותר את המוח שלך
זה דבר מוצק.

157
00:07:38,170 --> 00:07:41,290
>> אז אתה יכול להגיד, טוב, אולי אתה יכול
לבנות מחשב שיש לו חבורה של

158
00:07:41,290 --> 00:07:45,890
פונקציות ושיטות שרק מחקות
יכולת לימוד שפה.

159
00:07:45,890 --> 00:07:49,630
אז במובן הזה, אפשר לומר, טוב, אני
יכול להיות מחשב שבו כל

160
00:07:49,630 --> 00:07:52,270
דברים שאני צריך ללמוד את השפה.

161
00:07:52,270 --> 00:07:56,200
וזה הדבר האחרון שילידים
דובר לומד מניסוי וטעייה.

162
00:07:56,200 --> 00:08:01,090
אז בעצם עוד דבר חשוב ב
לימוד שפה הוא שאתה סוג

163
00:08:01,090 --> 00:08:05,340
של ללמוד דברים על ידי הפיכת
הכללות של מה שאתה שומע.

164
00:08:05,340 --> 00:08:10,280
>> אז כפי שאתה גדל אתה לומד כי
כמה מילות הן יותר כמו שמות עצם,

165
00:08:10,280 --> 00:08:11,820
כמה כאלה אחרים הם תארים.

166
00:08:11,820 --> 00:08:14,250
ואתה לא חייב לי שום
ידע של בלשנות

167
00:08:14,250 --> 00:08:15,040
כדי להבין את זה.

168
00:08:15,040 --> 00:08:18,560
אבל אתה פשוט יודע שיש כמה מילות
ממוקמים בחלק כלשהו של

169
00:08:18,560 --> 00:08:22,570
משפט ועוד כמה באחר
חלקיו של גזר הדין.

170
00:08:22,570 --> 00:08:26,110
>> וכי כאשר אתה עושה משהו שהוא
כמו משפט שאינו נכון -

171
00:08:26,110 --> 00:08:28,770
אולי בגלל הכללה על
למשל.

172
00:08:28,770 --> 00:08:32,210
אולי כשאתה גדל, אתה שם לב
כי בלשון רב היא בדרך כלל

173
00:08:32,210 --> 00:08:35,809
נוצר על ידי הצבת S ב
הסוף של המילה.

174
00:08:35,809 --> 00:08:40,042
ואז אתה מנסה לעשות את הריבוי של
"צבי" בשם "צביים" או "שן", כפי

175
00:08:40,042 --> 00:08:44,780
"טות'." אז ההורים שלך או
מישהו מתקן אותך ואומר, לא,

176
00:08:44,780 --> 00:08:49,020
ריבוי של "צבי" הוא "צבי", ו
ריבוי של "שן" הוא "שיניים". ולאחר מכן

177
00:08:49,020 --> 00:08:50,060
אתה לומד את הדברים האלה.

178
00:08:50,060 --> 00:08:51,520
אז אתה לומד מניסוי וטעייה.

179
00:08:51,520 --> 00:08:53,100
>> אבל אתה גם יכול לעשות את זה
עם מחשב.

180
00:08:53,100 --> 00:08:55,310
יכול להיות לך משהו שנקרא
למידת חיזוק.

181
00:08:55,310 --> 00:08:58,560
שהוא בעצם כמו לתת
מחשב הפרס בכל פעם שהיא עושה

182
00:08:58,560 --> 00:08:59,410
משהו בצורה נכונה.

183
00:08:59,410 --> 00:09:04,710
ונותן לו את ההפך מגמול
וכאשר הוא עושה משהו לא בסדר.

184
00:09:04,710 --> 00:09:07,410
אתה ממש יכול לראות שאם אתה הולך
ל-Google Translate ואתה מנסה

185
00:09:07,410 --> 00:09:10,220
לתרגם משפט, זה
שואל אותך על משוב.

186
00:09:10,220 --> 00:09:13,240
אז אם אתה אומר, אה, יש טוב יותר
תרגום למשפט הזה.

187
00:09:13,240 --> 00:09:18,140
אתה יכול להקליד אותו ולאחר מכן, אם הרבה
אנשים כל הזמן אומרים שהוא טוב יותר

188
00:09:18,140 --> 00:09:21,560
תרגום, זה פשוט לומד כי זה
צריך להשתמש בתרגום שבמקום

189
00:09:21,560 --> 00:09:22,960
אחד זה היה נתינה.

190
00:09:22,960 --> 00:09:28,830
>> אז, זה שאלה מאוד פילוסופית
כדי לראות אם מחשבים הולכים להיות

191
00:09:28,830 --> 00:09:30,340
מסוגל לדבר או לא בעתיד.

192
00:09:30,340 --> 00:09:34,440
אבל יש לי תקוות גדולות שהם יכולים
רק על סמך טיעונים אלה.

193
00:09:34,440 --> 00:09:38,570
אבל זה רק יותר של פילוסופים
שאלה.

194
00:09:38,570 --> 00:09:43,460
>> אז בזמן שמחשבים עדיין לא יכולים לדבר,
מה הם הדברים שאנחנו יכולים לעשות?

195
00:09:43,460 --> 00:09:47,070
כמה דברים ממש מגניבים הם
סיווג הנתונים.

196
00:09:47,070 --> 00:09:53,210
כך, למשל, אתם יודעים
שירותי דואר אלקטרוני שעושים, ל

197
00:09:53,210 --> 00:09:55,580
דוגמא, סינון דואר זבל.

198
00:09:55,580 --> 00:09:59,070
אז בכל פעם שאתה מקבל דואר זבל, זה
מנסה לסנן לתיבה אחרת.

199
00:09:59,070 --> 00:10:00,270
אז איך הוא עושה את זה?

200
00:10:00,270 --> 00:10:06,080
זה לא כמו המחשב פשוט יודע
כתובות הדוא"ל של מה שולחות דואר זבל.

201
00:10:06,080 --> 00:10:09,130
אז זה יותר על בסיס התוכן של
ההודעה, או אולי הכותרת, או

202
00:10:09,130 --> 00:10:11,310
אולי איזה דפוס שיש לך.

203
00:10:11,310 --> 00:10:15,690
>> אז, בעצם, מה שאתה יכול לעשות הוא לקבל
הרבה נתונים של הודעות דוא"ל, כי הם זבל,

204
00:10:15,690 --> 00:10:19,980
מיילים שאינם ספאם, וללמוד מה
סוג של דפוסים שיש לך ב

205
00:10:19,980 --> 00:10:21,000
אלה הם דואר זבל.

206
00:10:21,000 --> 00:10:23,260
וזה חלק מחישובית
בלשנות.

207
00:10:23,260 --> 00:10:24,720
זה נקרא סיווג הנתונים.

208
00:10:24,720 --> 00:10:28,100
ואנחנו באמת הולכים לראות
דוגמא לכך בשקופיות הבאות.

209
00:10:28,100 --> 00:10:32,910
>> הדבר השני הוא שפה טבעית
עיבוד וזה הדבר ש

210
00:10:32,910 --> 00:10:36,580
חיפוש גרף עושה לתת
אתה כותב משפט.

211
00:10:36,580 --> 00:10:38,690
וזה סומך עליך להבין מה
שלה המשמעות ונותן לי

212
00:10:38,690 --> 00:10:39,940
לך תוצאה טובה יותר.

213
00:10:39,940 --> 00:10:43,880
למעשה, אם אתה הולך לגוגל או בינג
ולך לחפש משהו כמו ליידי

214
00:10:43,880 --> 00:10:47,060
הגובה של גאגא, אתם למעשה הולכים
כדי לקבל 5 '1 "במקום מידע

215
00:10:47,060 --> 00:10:50,170
ממנה כי זה באמת מבין
על מה אתה מדבר.

216
00:10:50,170 --> 00:10:52,140
אז זה חלק מטבעי
עיבוד שפה.

217
00:10:52,140 --> 00:10:57,000
>> או גם כשאתה משתמש בסירים, ראשון
יש לך אלגוריתם שמנסה

218
00:10:57,000 --> 00:11:01,130
לתרגם את מה שאתה אומר
במילים, בטקסט.

219
00:11:01,130 --> 00:11:03,690
ולאחר מכן הוא מנסה לתרגם
כי למשמעות.

220
00:11:03,690 --> 00:11:06,570
אז זה כל מה שחלק מטבעי
עיבוד שפה.

221
00:11:06,570 --> 00:11:08,320
>> אז יש לך מכונת תרגום -

222
00:11:08,320 --> 00:11:10,300
שהוא למעשה אחד
המועדפים שלי -

223
00:11:10,300 --> 00:11:14,060
אשר רק הוא בתרגום מ
שפה למשנו.

224
00:11:14,060 --> 00:11:17,950
אז אתה יכול לחשוב שכאשר אתה עושה
תרגום מכונה, יש לך

225
00:11:17,950 --> 00:11:19,750
אפשרויות אינסופיות של משפטים.

226
00:11:19,750 --> 00:11:22,960
כך שאין שום דרך של ממש אחסון
כל תרגום.

227
00:11:22,960 --> 00:11:27,440
אז אתה צריך לבוא עם מעניין
אלגוריתמים כדי להיות מסוגלים

228
00:11:27,440 --> 00:11:30,110
לתרגם כל אחד
משפט בדרך כלשהי.

229
00:11:30,110 --> 00:11:32,483
>> יש לכם כל שאלות עד כה?

230
00:11:32,483 --> 00:11:34,450
לא?

231
00:11:34,450 --> 00:11:34,830
על אישור.

232
00:11:34,830 --> 00:11:36,900
>> אז מה אנחנו הולכים לראות היום?

233
00:11:36,900 --> 00:11:39,300
קודם כל, אני הולך לדבר על
הבעיה הסיווג.

234
00:11:39,300 --> 00:11:41,440
אז זה שאני היה
אומר על דואר זבל.

235
00:11:41,440 --> 00:11:46,820
מה שאני הולך לעשות הוא, מילות נתון
לשיר, אתה יכול לנסות להבין

236
00:11:46,820 --> 00:11:49,810
בהסתברות גבוהה
מי הוא הזמר?

237
00:11:49,810 --> 00:11:53,590
בואו נגיד שיש לי שירים מליידי
גאגא וקייטי פרי, אם אני נותן לך

238
00:11:53,590 --> 00:11:58,130
שיר חדש, אתה יכול להבין אם
זה קייטי פרי או ליידי גאגא?

239
00:11:58,130 --> 00:12:01,490
>> השנייה אחת, אני רק הולך לדבר
על הבעיה הפילוח.

240
00:12:01,490 --> 00:12:05,780
אז אני לא יודע אם אתם יודעים, אבל
סיני, יפני, נוסף במזרח אסיה

241
00:12:05,780 --> 00:12:08,090
שפות, ושפות אחרות
באופן כללי, אין לי

242
00:12:08,090 --> 00:12:09,830
רווחים בין מילות.

243
00:12:09,830 --> 00:12:13,540
ואז אם אתה חושב על האופן שבו
סוג המחשב של ניסיונות כדי

244
00:12:13,540 --> 00:12:18,600
מבין עיבוד שפה טבעי,
זה נראה במילים ו

245
00:12:18,600 --> 00:12:21,500
מנסה להבין את היחסים
ביניהם, נכון?

246
00:12:21,500 --> 00:12:25,440
אבל אז אם יש לך סיני, ואתה
יש אפס רווחים, זה ממש קשה

247
00:12:25,440 --> 00:12:28,360
לברר מהו היחס בין
מילות, כי אין להם כל

248
00:12:28,360 --> 00:12:29,530
מילות בהתחלה.

249
00:12:29,530 --> 00:12:32,600
אז אתה צריך לעשות משהו שנקרא
פילוח שרק אומר לשים

250
00:12:32,600 --> 00:12:36,490
רווחים בין מה שהיינו קוראים
מילות בשפות אלה.

251
00:12:36,490 --> 00:12:37,740
הגיוני?

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> ואז אנחנו הולכים
לדבר על תחביר.

254
00:12:41,540 --> 00:12:44,050
אז רק קצת על טבעי
עיבוד שפה.

255
00:12:44,050 --> 00:12:45,420
זה הולך להיות רק סקירה.

256
00:12:45,420 --> 00:12:50,700
אז היום, בעצם מה שאני רוצה לעשות
הוא לתת לכם קצת

257
00:12:50,700 --> 00:12:53,930
בתוך מה הן האפשרויות
שאתה יכול לעשות עם חישובית

258
00:12:53,930 --> 00:12:54,960
בלשנות.

259
00:12:54,960 --> 00:13:00,410
ואז אתה יכול לראות את מה שאתה חושב
הוא מגניב בין הדברים האלה.

260
00:13:00,410 --> 00:13:02,270
ואולי אתה יכול לחשוב על פרויקט
ובאתי לדבר איתי.

261
00:13:02,270 --> 00:13:05,260
ואני יכול לתת לך עצה
על איך ליישם את זה.

262
00:13:05,260 --> 00:13:09,060
>> אז התחביר הולך להיות קצת
על חיפוש גרף ומכונה

263
00:13:09,060 --> 00:13:09,670
תרגום.

264
00:13:09,670 --> 00:13:13,650
אני רק הולך לתת דוגמא לאופן
אתה יכול, למשל, לתרגם

265
00:13:13,650 --> 00:13:16,020
משהו מפורטוגזית לאנגלית.

266
00:13:16,020 --> 00:13:17,830
נשמע טוב?

267
00:13:17,830 --> 00:13:19,293
>> אז קודם כל, הבעיה הסיווג.

268
00:13:19,293 --> 00:13:23,590
אני אומר שחלק זה של הסמינר
הולך להיות המאתגר ביותר

269
00:13:23,590 --> 00:13:27,560
אחד רק בגלל שיש הולך
להיות חלק מקידוד.

270
00:13:27,560 --> 00:13:29,470
אבל זה הולך להיות פייתון.

271
00:13:29,470 --> 00:13:34,380
אני יודע שאתם לא יודעים פייתון, ולכן
אני רק הולך להסביר על גבוה

272
00:13:34,380 --> 00:13:35,750
רמה מה שאני עושה.

273
00:13:35,750 --> 00:13:40,900
ואתה לא צריך באמת לדאוג יותר מדי
הרבה על התחביר כי זה

274
00:13:40,900 --> 00:13:42,140
משהו שאתם יכולים ללמוד.

275
00:13:42,140 --> 00:13:42,540
בסדר?

276
00:13:42,540 --> 00:13:43,580
נשמע טוב.

277
00:13:43,580 --> 00:13:46,020
>> אז מה הבעיה הסיווג?

278
00:13:46,020 --> 00:13:49,140
אז אתה נתת כמה מילים ל
שיר, ואתה רוצה לנחש

279
00:13:49,140 --> 00:13:50,620
מי שר אותו.

280
00:13:50,620 --> 00:13:54,045
וזה יכול להיות לכל סוג
של בעיות אחרות.

281
00:13:54,045 --> 00:13:59,980
אז יכול להיות, למשל, יש לה אותך
קמפיין לנשיאות ושיש לך

282
00:13:59,980 --> 00:14:02,610
דיבור, ואתה רוצה למצוא
אם זה קורה, למשל,

283
00:14:02,610 --> 00:14:04,470
אובמה או מיט רומני.

284
00:14:04,470 --> 00:14:07,700
או שאתה יכול לקבל את חבורה של מיילים ו
אתה רוצה להבין אם הם

285
00:14:07,700 --> 00:14:08,890
דואר זבל או לא.

286
00:14:08,890 --> 00:14:11,440
אז זה פשוט סיווג מסוים
הנתונים מבוססים על המילים

287
00:14:11,440 --> 00:14:13,790
שיש לך שם.

288
00:14:13,790 --> 00:14:16,295
>> אז כדי לעשות את זה, שיש לך
להניח כמה הנחות.

289
00:14:16,295 --> 00:14:20,570
אז הרבה על בלשנות חישובית
הוא עושה הנחות,

290
00:14:20,570 --> 00:14:24,100
הנחות בדרך כלל חכמות, כך
אתה יכול להגיע לתוצאות טובות.

291
00:14:24,100 --> 00:14:26,670
מנסה ליצור מודל עבורו.

292
00:14:26,670 --> 00:14:31,290
ולאחר מכן לנסות את זה ולראות אם זה עובד,
אם זה נותן לך דיוק טוב.

293
00:14:31,290 --> 00:14:33,940
ואם כן, אז אתה
מנסה לשפר אותו.

294
00:14:33,940 --> 00:14:37,640
אם זה לא, אתה כמו, אוקיי, אולי אני
צריך לעשות הנחה שונה.

295
00:14:37,640 --> 00:14:44,030
>> אז בהנחה שאנחנו הולכים
לעשות הוא שאמן בדרך כלל שר

296
00:14:44,030 --> 00:14:49,220
על פי נושא מרובה, ואולי
משתמש במילים מספר פעמים רק

297
00:14:49,220 --> 00:14:50,270
כי הם רגילים לזה.

298
00:14:50,270 --> 00:14:51,890
אתה רק יכול לחשוב על החבר שלך.

299
00:14:51,890 --> 00:14:57,350
אני בטוח שיש לך את כל החבר 'ה חברים
שאומרים ביטוי החתימה שלהם,

300
00:14:57,350 --> 00:14:59,260
פשוטו כמשמעו, לכל אחד ומשפט -

301
00:14:59,260 --> 00:15:02,660
כמו איזו מילה מסוימת או כמה ספציפי
משפט שהם אומרים ל

302
00:15:02,660 --> 00:15:04,020
כל משפט.

303
00:15:04,020 --> 00:15:07,920
>> ומה אתה יכול לומר הוא שאם אתה רואה
משפט שיש לו חתימה

304
00:15:07,920 --> 00:15:11,450
ביטוי, שאתם יכולים לנחש שכנראה
חבר שלך הוא

305
00:15:11,450 --> 00:15:13,310
אחד אומר את זה, נכון?

306
00:15:13,310 --> 00:15:18,410
אז אתה עושה את הנחה ושלאחר מכן
ככה אתה יוצר מודל.

307
00:15:18,410 --> 00:15:24,440
>> הדוגמא שאני הולך לתת לי היא על
איך ליידי גאגא, למשל, אנשים

308
00:15:24,440 --> 00:15:27,430
אומר שהיא משתמשת "תינוק" עבור
כל מספר אחד השירים שלה.

309
00:15:27,430 --> 00:15:32,270
ולמעשה מדובר בסרטון שמראה
שלה אומר את המילה "תינוק" עבור

310
00:15:32,270 --> 00:15:33,410
שירים שונים.

311
00:15:33,410 --> 00:15:33,860
>> [וידאו השמעה]

312
00:15:33,860 --> 00:15:34,310
>> - (שירה) בייבי.

313
00:15:34,310 --> 00:15:36,220
בייבי.

314
00:15:36,220 --> 00:15:37,086
בייבי.

315
00:15:37,086 --> 00:15:37,520
בייבי.

316
00:15:37,520 --> 00:15:37,770
בייבי.

317
00:15:37,770 --> 00:15:38,822
בייב.

318
00:15:38,822 --> 00:15:39,243
בייבי.

319
00:15:39,243 --> 00:15:40,085
בייבי.

320
00:15:40,085 --> 00:15:40,510
בייבי.

321
00:15:40,510 --> 00:15:40,850
בייבי.

322
00:15:40,850 --> 00:15:41,090
>> [השמעה-VIDEO END

323
00:15:41,090 --> 00:15:44,020
>> לוקאס פרייטס: אז יש, אני חושב,
40 שירים כאן שבו היא אומרת

324
00:15:44,020 --> 00:15:48,690
"תינוק". מילה אז אתה בעצם יכול לנחש
שאם אתה רואה שיש לו שיר

325
00:15:48,690 --> 00:15:52,180
המילה "תינוק", יש כמה גבוה
הסתברות שזה ליידי גאגא.

326
00:15:52,180 --> 00:15:56,450
אבל בואו ננסה לפתח את זה
עוד יותר באופן רשמי.

327
00:15:56,450 --> 00:16:00,470
>> אז אלו הם מילות לשירים של
ליידי גאגא וקייטי פרי.

328
00:16:00,470 --> 00:16:04,120
אז אתה מסתכל על ליידי גאגא, שאתה רואה שהם
"תינוק" יש לי הרבה מופעים של

329
00:16:04,120 --> 00:16:07,710
הרבה מופעים של "דרך". ולאחר מכן
יש קייטי פרי הרבה מופעים של

330
00:16:07,710 --> 00:16:10,360
"," הרבה מופעים של "אש".

331
00:16:10,360 --> 00:16:14,560
>> אז בעצם מה שאנחנו רוצים
לעשות הוא, אתה מקבל לירי.

332
00:16:14,560 --> 00:16:20,480
בואו נגיד שאתה מקבל לירי עבור
שיר הזה הוא "תינוק," רק "תינוק". אם

333
00:16:20,480 --> 00:16:24,750
אתה פשוט מקבל את המילה "תינוק", וזה
הוא את כל הנתונים שיש לך מ

334
00:16:24,750 --> 00:16:27,880
ליידי גאגא וקייטי פרי, שהיית
אתה מניח שהוא האדם

335
00:16:27,880 --> 00:16:29,370
מי שר את השיר?

336
00:16:29,370 --> 00:16:32,360
ליידי גאגא או קייטי פרי?

337
00:16:32,360 --> 00:16:33,150
ליידי גאגא, נכון?

338
00:16:33,150 --> 00:16:37,400
בגלל שהיא היחידה שאומרת
"תינוק". זה נשמע טיפשי, נכון?

339
00:16:37,400 --> 00:16:38,760
אוקיי, זה ממש קל.

340
00:16:38,760 --> 00:16:41,860
אני רק מסתכל על שני שירים ושל
כמובן, שהיא היחידה שיש לי

341
00:16:41,860 --> 00:16:42,660
"תינוק".

342
00:16:42,660 --> 00:16:44,740
>> אבל מה אם יש לך חבורה של מילות?

343
00:16:44,740 --> 00:16:50,900
אם יש לך לירי, משהו בפועל
כמו, תינוק ", אני רק

344
00:16:50,900 --> 00:16:51,610
הלכתי לראות את [? CFT?]

345
00:16:51,610 --> 00:16:54,020
הרצאה ", או משהו כזה, ו
אז אתה באמת צריך להבין -

346
00:16:54,020 --> 00:16:55,780
המבוסס על כל המילים האלה -

347
00:16:55,780 --> 00:16:58,350
מי הוא האמן שכנראה
שר את השיר הזה?

348
00:16:58,350 --> 00:17:01,860
אז בואו ננסה לפתח
את זה עוד מעט.

349
00:17:01,860 --> 00:17:05,630
>> אוקיי, אז המבוסס רק על הנתונים שאנו
קיבלתי, נראה כי גאגא היא כנראה

350
00:17:05,630 --> 00:17:06,260
הזמר.

351
00:17:06,260 --> 00:17:07,904
אבל איך אנחנו יכולים לכתוב
זה יותר באופן רשמי?

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
ויש הולך להיות קצת
קצת סטטיסטיקה.

354
00:17:13,140 --> 00:17:15,880
אז אם אתה הולך לאיבוד, פשוט לנסות
כדי להבין את הרעיון.

355
00:17:15,880 --> 00:17:18,700
זה לא משנה אם אתה מבין
המשוואות היטב.

356
00:17:18,700 --> 00:17:22,150
כל זה הולך להיות באינטרנט.

357
00:17:22,150 --> 00:17:25,490
>> אז בעצם מה שאני חישוב הוא
הסתברות שהשיר הזה הוא על ידי

358
00:17:25,490 --> 00:17:28,040
ליידי גאגא נתנה ש--

359
00:17:28,040 --> 00:17:30,660
כך סרגל זה משמעו בהתחשב בכך ש--

360
00:17:30,660 --> 00:17:33,680
ראיתי את המילה "תינוק".
האם זה הגיוני?

361
00:17:33,680 --> 00:17:35,540
אז אני מנסה לחשב
הסתברות ש.

362
00:17:35,540 --> 00:17:38,540
>> אז יש המשפט הזה שנקרא
משפט Bayes שאומר כי

363
00:17:38,540 --> 00:17:43,330
הסתברות של B נתון, היא
הסתברות של B ניתנה, פעמים

364
00:17:43,330 --> 00:17:47,660
הסתברות, על ההסתברות
ב 'זה משוואה ארוכה.

365
00:17:47,660 --> 00:17:51,970
אבל מה יש לך להבין מ
שהוא שזה מה שאני רוצה

366
00:17:51,970 --> 00:17:52,830
לחשב, נכון?

367
00:17:52,830 --> 00:17:56,570
אז ההסתברות שהשיר הזה הוא על ידי
ליידי גאגא בהתחשב בעובדה שראתה את המילה

368
00:17:56,570 --> 00:17:58,230
"תינוק".

369
00:17:58,230 --> 00:18:02,960
>> ועכשיו מה שאני מקבל הוא
הסתברות של המילה "תינוק" שניתנו

370
00:18:02,960 --> 00:18:04,390
שיש לי ליידי גאגא.

371
00:18:04,390 --> 00:18:07,220
ומה זה בעצם?

372
00:18:07,220 --> 00:18:10,500
מה זה אומר, מה הוא
הסתברות לראות את המילה "תינוק"

373
00:18:10,500 --> 00:18:12,130
במילות גאגא?

374
00:18:12,130 --> 00:18:16,240
אם אני רוצה לחשב את זה בצורה מאוד
דרך פשוטה, זה רק מספר

375
00:18:16,240 --> 00:18:23,640
פעמים אני רואה את "תינוק" על המספר הכולל
של מילות במילות גאגא, נכון?

376
00:18:23,640 --> 00:18:27,600
מהי התדירות שאני רואה
מילה הזאת בעבודה של גאגא?

377
00:18:27,600 --> 00:18:30,530
הגיוני?

378
00:18:30,530 --> 00:18:33,420
>> הקדנציה השנייה היא
הסתברות של גאגא.

379
00:18:33,420 --> 00:18:34,360
מה זה אומר?

380
00:18:34,360 --> 00:18:38,550
זה בעצם אומר, מה הוא
הסתברות של סיווג

381
00:18:38,550 --> 00:18:40,690
כמה מילות כמו גאגא?

382
00:18:40,690 --> 00:18:45,320
וזה קצת מוזר, אבל
בואו נחשוב על ירושלים.

383
00:18:45,320 --> 00:18:49,230
אז בואו נגיד שההסתברות של
שיש "תינוק" בשיר הוא אותו

384
00:18:49,230 --> 00:18:51,760
לגאגא ובריטני ספירס.

385
00:18:51,760 --> 00:18:54,950
אבל בריטני ספירס יש פעמיים
יותר שירים מאשר ליידי גאגא.

386
00:18:54,950 --> 00:19:00,570
אז אם מישהו רק באופן אקראי נותן לך
מילות של "תינוק", הדבר הראשון שאתה

387
00:19:00,570 --> 00:19:04,710
להסתכל על זה, מה הוא ההסתברות של
שיש "תינוק" בשיר גאגא, "תינוק"

388
00:19:04,710 --> 00:19:05,410
בשיר בריטני?

389
00:19:05,410 --> 00:19:06,460
וזה אותו דבר.

390
00:19:06,460 --> 00:19:10,040
>> אז הדבר השני שאתה רואה הוא,
ובכן, מהי ההסתברות של

391
00:19:10,040 --> 00:19:13,770
לירי זה בכוחות עצמו להיות לירי גאגא,
ומהי ההסתברות של

392
00:19:13,770 --> 00:19:15,380
להיות לירי בריטני?

393
00:19:15,380 --> 00:19:18,950
אז מאז יש בריטני כל כך הרבה יותר מילות
מ גאגא, סביר להניח שהיית עושה

394
00:19:18,950 --> 00:19:21,470
אומר, טוב, זה כנראה
לירי בריטני.

395
00:19:21,470 --> 00:19:23,340
אז בגלל זה יש לנו את זה
מונח נכון כאן.

396
00:19:23,340 --> 00:19:24,670
הסתברות של גאגא.

397
00:19:24,670 --> 00:19:26,950
הגיוני?

398
00:19:26,950 --> 00:19:28,660
עושה את זה?

399
00:19:28,660 --> 00:19:29,370
על אישור.

400
00:19:29,370 --> 00:19:33,500
>> והאחרון הוא רק ההסתברות
של "תינוק" שלא

401
00:19:33,500 --> 00:19:34,810
באמת משנה כל כך הרבה.

402
00:19:34,810 --> 00:19:39,940
אבל זה ההסתברות
לראות "תינוק" באנגלית.

403
00:19:39,940 --> 00:19:42,725
בדרך כלל לא אכפת לנו ש
הרבה על מונח זה.

404
00:19:42,725 --> 00:19:44,490
האם זה הגיוני?

405
00:19:44,490 --> 00:19:48,110
אז ההסתברות של גאגא היא
קרא את ההסתברות לפני

406
00:19:48,110 --> 00:19:49,530
של גאגא הכיתה.

407
00:19:49,530 --> 00:19:53,840
כי זה רק אומר את זה, מה הוא
הסתברות שיש בכיתה ש--

408
00:19:53,840 --> 00:19:55,520
שהוא גאגא -

409
00:19:55,520 --> 00:19:59,350
רק באופן כללי, רק
ללא תנאים.

410
00:19:59,350 --> 00:20:02,560
>> ולאחר מכן, כאשר יש לי הסתברות של
גאגא נתנה "תינוק," אנחנו קוראים לזה בתוספת

411
00:20:02,560 --> 00:20:06,160
דומע הסתברות כי זה
ההסתברות שיש

412
00:20:06,160 --> 00:20:08,300
גאגא נתנה עדות מסוימת.

413
00:20:08,300 --> 00:20:11,050
אז אני נותן לך את הראיות
שראיתי את מילת התינוק ו

414
00:20:11,050 --> 00:20:12,690
השיר הגיוני?

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
על אישור.

417
00:20:16,410 --> 00:20:22,400
>> אז אם אני חושב שלכל
השירים של הליידי גאגא,

418
00:20:22,400 --> 00:20:25,916
מה שיהיה -

419
00:20:25,916 --> 00:20:27,730
ככל הנראה, אני לא יכול לעבור את זה.

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
ההסתברות של גאגא תהיה
משהו כמו, 2 מעל 24, פעמים 1/2,

422
00:20:36,920 --> 00:20:38,260
מעל 2 מעל 53.

423
00:20:38,260 --> 00:20:40,640
זה לא משנה אם אתה יודע מה
המספרים האלה מגיעים.

424
00:20:40,640 --> 00:20:44,750
אבל זה רק מספר שהוא הולך
להיות יותר מ 0, נכון?

425
00:20:44,750 --> 00:20:48,610
>> ואז כשאני עושה את קייטי פרי,
ההסתברות של "תינוק" נתון קייטי היא

426
00:20:48,610 --> 00:20:49,830
כבר 0, נכון?

427
00:20:49,830 --> 00:20:52,820
כי אין "תינוק"
בקייטי פרי.

428
00:20:52,820 --> 00:20:56,360
אז זה הופך להיות 0, וגאגא
נצחונות, מה שאומר שגאגא היא

429
00:20:56,360 --> 00:20:57,310
כנראה הזמר.

430
00:20:57,310 --> 00:20:58,560
האם זה הגיוני?

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
על אישור.

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> אז אם אני רוצה להרוויח יותר רשמי זה,
אני בעצם יכול לעשות את מודל

435
00:21:11,750 --> 00:21:12,700
מספר מילות.

436
00:21:12,700 --> 00:21:14,610
אז בואו נגיד שיש לי משהו
כמו, "תינוק, אני

437
00:21:14,610 --> 00:21:16,030
על אש ", או משהו כזה.

438
00:21:16,030 --> 00:21:17,760
אז יש לו מספר מילות.

439
00:21:17,760 --> 00:21:20,880
ובמקרה הזה, אתה יכול לראות
כי "תינוק" הוא בגאגא,

440
00:21:20,880 --> 00:21:21,710
אבל זה לא בקייטי.

441
00:21:21,710 --> 00:21:24,940
ו "אש" היא בקטי, אבל
זה לא בגאגא, נכון?

442
00:21:24,940 --> 00:21:27,200
אז זה מתחיל להיות מסובך, נכון?

443
00:21:27,200 --> 00:21:31,440
כי זה נראה שאתה כמעט
יש לקשור בין שתיים.

444
00:21:31,440 --> 00:21:36,980
>> אז מה שאתה צריך לעשות הוא להניח
עצמאות בין המילים.

445
00:21:36,980 --> 00:21:41,210
אז בעצם מה זה אומר הוא ש
אני רק חישוב מה הוא

446
00:21:41,210 --> 00:21:44,330
הסתברות לראות "תינוק," מה היא
ההסתברות לראות את "אני", ו

447
00:21:44,330 --> 00:21:46,670
"אני", וכן "על", ו "אש"
כל בנפרד.

448
00:21:46,670 --> 00:21:48,670
אז אני הכפלה כולם.

449
00:21:48,670 --> 00:21:52,420
ואני רואה מה הוא ההסתברות
לראות את כל המשפט.

450
00:21:52,420 --> 00:21:55,210
הגיוני?

451
00:21:55,210 --> 00:22:00,270
>> אז בעצם, אם יש לי רק מילה אחת,
מה שאני רוצה למצוא הוא מקסימום ARG,

452
00:22:00,270 --> 00:22:05,385
מה שאומר, מה היא הכיתה כי הוא
נותן לי את ההסתברות הגבוהה ביותר?

453
00:22:05,385 --> 00:22:10,010
אז מה הוא המעמד, כי הוא נותן
שלי את ההסתברות הגבוהה ביותר עבור

454
00:22:10,010 --> 00:22:11,940
הסתברות של מעמד נתון מילה.

455
00:22:11,940 --> 00:22:17,610
אז במקרה הזה, גאגא נתנה "תינוק".
או קייטי ניתנו "תינוק". הגיוני?

456
00:22:17,610 --> 00:22:21,040
>> ובדיוק מBayes, כי
משוואה שהראיתי,

457
00:22:21,040 --> 00:22:24,780
אנו יוצרים חלק זה.

458
00:22:24,780 --> 00:22:28,750
הדבר היחיד הוא שאתה רואה את זה
ההסתברות של מילת נתונה

459
00:22:28,750 --> 00:22:31,370
שינויים ברמה בהתאם
בכיתה, נכון?

460
00:22:31,370 --> 00:22:34,260
מספר של "תינוק" שיש לי
בגאגא הוא שונה מקייטי.

461
00:22:34,260 --> 00:22:37,640
ההסתברות של המעמד גם
שינויים כי זה פשוט המספר

462
00:22:37,640 --> 00:22:39,740
של שירים שכל אחד מהם יש.

463
00:22:39,740 --> 00:22:43,980
>> אבל ההסתברות למילה עצמה
הולך להיות זהה עבור כל

464
00:22:43,980 --> 00:22:44,740
אמנים, נכון?

465
00:22:44,740 --> 00:22:47,150
אז ההסתברות של המילה היא
פשוט, מהי ההסתברות של

466
00:22:47,150 --> 00:22:49,820
רואה את מילה הזאת ב
בשפה אנגלית?

467
00:22:49,820 --> 00:22:51,420
אז זה אותו הדבר לכולם.

468
00:22:51,420 --> 00:22:55,790
אז מאחר שזו היא קבועה, אנחנו יכולים רק
שחרר את זה ולא אכפת לו.

469
00:22:55,790 --> 00:23:00,230
אז זה יהיה ממש
משוואה שאנחנו מחפשים.

470
00:23:00,230 --> 00:23:03,360
>> ואם יש לי מספר מילות, אני
עדיין הולך להיות לפני

471
00:23:03,360 --> 00:23:04,610
הסתברות כאן.

472
00:23:04,610 --> 00:23:06,980
הדבר היחיד הוא שאני הכפלה
ההסתברות של

473
00:23:06,980 --> 00:23:08,490
את כל המילים האחרות.

474
00:23:08,490 --> 00:23:10,110
אז אני הכפלה כולם.

475
00:23:10,110 --> 00:23:12,610
הגיוני?

476
00:23:12,610 --> 00:23:18,440
זה נראה מוזר, אבל בעצם אומר,
לחשב מראש של הכיתה, ו

477
00:23:18,440 --> 00:23:22,100
לאחר מכן להכפיל בהסתברות של כל אחד
של המילים להיות במעמד הזה.

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> ואתה יודע שההסתברות של
מילה שניתנה בכיתה הולכת להיות

480
00:23:29,150 --> 00:23:34,520
מספר הפעמים שאתה רואה את מילה הזאת ב
מעמד זה, מחולק במספר

481
00:23:34,520 --> 00:23:37,020
יש לך מילים שב
כיתה באופן כללי.

482
00:23:37,020 --> 00:23:37,990
הגיוני?

483
00:23:37,990 --> 00:23:41,680
זה רק איך "תינוק" היה 2 מעל
את מספר המילים ש

484
00:23:41,680 --> 00:23:43,020
היה לי במילים.

485
00:23:43,020 --> 00:23:45,130
אז רק בתדר.

486
00:23:45,130 --> 00:23:46,260
>> אלא יש דבר אחד.

487
00:23:46,260 --> 00:23:51,250
זוכר איך הייתי מראה כי
הסתברות של מילות להיות "תינוק"

488
00:23:51,250 --> 00:23:56,350
מקייטי פרי היו 0 רק בגלל שקייטי
פרי לא היה "תינוק" בכלל?

489
00:23:56,350 --> 00:24:04,900
אבל זה נשמע קצת קשה לפשוט
פשוט אומר שמילים לא יכולות להיות מ

490
00:24:04,900 --> 00:24:10,040
אמן רק בגלל שאין להם
מילה שבפרט בכל עת.

491
00:24:10,040 --> 00:24:13,330
>> אז פשוט אפשר להגיד, טוב, אם אתה
אין לי המילה הזאת, אני הולך

492
00:24:13,330 --> 00:24:15,640
לתת לך הסתברות נמוכה יותר,
אבל אני פשוט לא הולך

493
00:24:15,640 --> 00:24:17,420
אתן לך 0 באופן מיידי.

494
00:24:17,420 --> 00:24:21,040
כי אולי זה היה משהו כמו,
"אש, אש, אש, אש", שהוא

495
00:24:21,040 --> 00:24:21,990
לחלוטין קייטי פרי.

496
00:24:21,990 --> 00:24:26,060
ולאחר מכן "תינוק", וזה רק הולך
0 מייד כי לא היו אחד

497
00:24:26,060 --> 00:24:27,250
"תינוק".

498
00:24:27,250 --> 00:24:31,440
>> אז בעצם מה שאנחנו עושים משהו
נקרא החלקת Laplace.

499
00:24:31,440 --> 00:24:36,260
וזה רק אומר שאני נותן
הסתברות כלשהי אפילו למילות

500
00:24:36,260 --> 00:24:37,850
שלא קיימים.

501
00:24:37,850 --> 00:24:43,170
אז מה שאני עושה הוא שכאשר אני
חישוב זה, אני תמיד מוסיף 1 עד

502
00:24:43,170 --> 00:24:44,180
המונה.

503
00:24:44,180 --> 00:24:48,060
אז גם אם המילה לא קיימת, ב
מקרה זה, אם זה הוא 0, אני עדיין

504
00:24:48,060 --> 00:24:51,250
חישוב זה כ1 מעל
מספר כולל של מילות.

505
00:24:51,250 --> 00:24:55,060
אחרת, אני מקבל כמה מילות
יש לי ואני מוסיף 1.

506
00:24:55,060 --> 00:24:58,300
אז אני סומך על שני המקרים.

507
00:24:58,300 --> 00:25:00,430
הגיוני?

508
00:25:00,430 --> 00:25:03,060
>> אז עכשיו בואו נעשה קצת קידוד.

509
00:25:03,060 --> 00:25:06,440
אני הולך צריך לעשות את זה די מהר,
אבל זה רק חשוב שאתה

510
00:25:06,440 --> 00:25:08,600
חבר 'ה להבין את המושגים.

511
00:25:08,600 --> 00:25:13,450
אז מה שאנחנו מנסים לעשות
הוא בדיוק ליישם את זה

512
00:25:13,450 --> 00:25:14,330
דבר שאני רק אמרתי -

513
00:25:14,330 --> 00:25:19,110
אני רוצה שתשים את המילים מ
ליידי גאגא וקייטי פרי.

514
00:25:19,110 --> 00:25:22,980
והתכנית הולכת להיות מסוגל
אומר שאם המילים חדשות הללו הן מגאגא

515
00:25:22,980 --> 00:25:24,170
או קייטי פרי.

516
00:25:24,170 --> 00:25:25,800
הגיוני?

517
00:25:25,800 --> 00:25:27,530
על אישור.

518
00:25:27,530 --> 00:25:30,710
>> אז יש לי תכנית זה אני הולך
לקרוא classify.py.

519
00:25:30,710 --> 00:25:31,970
אז זה פייתון.

520
00:25:31,970 --> 00:25:34,210
זה שפת תכנות חדשה.

521
00:25:34,210 --> 00:25:38,020
זה דומה מאוד בחלק
דרכים ל-C ו-PHP.

522
00:25:38,020 --> 00:25:43,180
זה דומה, כי אם אתה רוצה
ללמוד פייתון לאחר ידיעת C, זה

523
00:25:43,180 --> 00:25:46,270
ממש לא, כי חלק גדול מאתגר
רק בגלל שפייתון הוא הרבה יותר קל

524
00:25:46,270 --> 00:25:47,520
מ C, קודם כל.

525
00:25:47,520 --> 00:25:49,370
והרבה דברים כבר
יישם לך.

526
00:25:49,370 --> 00:25:56,820
אז איך בדיוק כמו PHP יש פונקציות ש
למיין את רשימה, או לצרף משהו

527
00:25:56,820 --> 00:25:58,780
למערך, או בלה, בלה, בלה.

528
00:25:58,780 --> 00:26:00,690
פייתון יש את כל אלה גם כן.

529
00:26:00,690 --> 00:26:05,960
>> אז רק אני הולך להסביר במהירות
איך אנחנו יכולים לעשות את הסיווג

530
00:26:05,960 --> 00:26:07,860
בעיה לכאן.

531
00:26:07,860 --> 00:26:13,230
אז בואו נגיד שבמקרה זה, יש לי
מילות מגאגא וקייטי פרי.

532
00:26:13,230 --> 00:26:21,880
האופן שבו יש לי מילות אלו הוא ש
המילה הראשונה של המילים היא

533
00:26:21,880 --> 00:26:25,250
את שמו של האמן, ו
השאר הוא המילים.

534
00:26:25,250 --> 00:26:29,470
אז בואו נגיד שיש לי ברשימה זו
אשר הראשון היא מילות של גאגא.

535
00:26:29,470 --> 00:26:31,930
אז הנה אני על המסלול הנכון.

536
00:26:31,930 --> 00:26:35,270
והבא אחריו הוא קייטי, ו
יש לו גם את המילים.

537
00:26:35,270 --> 00:26:38,040
>> אז ככה אתה מצהיר
משתנה בפייתון.

538
00:26:38,040 --> 00:26:40,200
אתה לא צריך לתת את סוג הנתונים.

539
00:26:40,200 --> 00:26:43,150
אתה פשוט לכתוב "מילות",
סוג של אוהב ב-PHP.

540
00:26:43,150 --> 00:26:44,890
הגיוני?

541
00:26:44,890 --> 00:26:47,770
>> אז מה הם הדברים שיש לי כדי
לחשב כדי להיות מסוגל לחשב את

542
00:26:47,770 --> 00:26:49,360
הסתברויות?

543
00:26:49,360 --> 00:26:55,110
אני צריך לחשב את "ההרשעות קודמות"
של כל אחד משונה

544
00:26:55,110 --> 00:26:56,710
כיתות שיש לי.

545
00:26:56,710 --> 00:27:06,680
אני צריך לחשב את "הישבנים"
או פחות או יותר את ההסתברויות של

546
00:27:06,680 --> 00:27:12,150
כל אחת מהמילים השונות ש
אני יכול לקבל עבור כל אמן.

547
00:27:12,150 --> 00:27:17,210
אז בתוך גאגא, למשל, אני הולך
יש רשימה של כמה פעמים אני רואה

548
00:27:17,210 --> 00:27:19,250
כל אחת מהמילים.

549
00:27:19,250 --> 00:27:20,760
הגיוני?

550
00:27:20,760 --> 00:27:25,370
>> ולבסוף, אני פשוט אצטרך
רשימה שנקראת "מילות", כי הוא רק הולך

551
00:27:25,370 --> 00:27:29,780
יש כמה מילות שאני
יש לכל אמן.

552
00:27:29,780 --> 00:27:33,760
אז לגאגא, למשל, כשאני מסתכל
למילים, הייתי לי, אני חושב, 24

553
00:27:33,760 --> 00:27:34,750
מילות בסך הכל.

554
00:27:34,750 --> 00:27:38,970
אז ברשימה זו היא רק הולכת לי
24 גאגא, קייטי ומספר אחר.

555
00:27:38,970 --> 00:27:40,130
הגיוני?

556
00:27:40,130 --> 00:27:40,560
על אישור.

557
00:27:40,560 --> 00:27:42,530
>> אז עכשיו, בעצם, בואו
ללכת לקידוד.

558
00:27:42,530 --> 00:27:45,270
אז בפייתון, אתה באמת יכול
תחזור חבורה של שונה

559
00:27:45,270 --> 00:27:46,630
דברים מפונקציה.

560
00:27:46,630 --> 00:27:50,810
אז אני הולך ליצור בפונקציה זו
בשם "מותנה", שהוא הולך

561
00:27:50,810 --> 00:27:53,890
כדי להחזיר את כל הדברים האלה,
"הרשעות קודמות", "הסתברויות", ו

562
00:27:53,890 --> 00:28:05,690
"מילות". אז "על תנאי", וזה
הולך להיות קורא ל" מילות ".

563
00:28:05,690 --> 00:28:11,510
>> אז עכשיו אני רוצה שבעצם
לכתוב פונקציה זו.

564
00:28:11,510 --> 00:28:17,750
לכן הדרך שאני יכול לכתוב את זה
פונקציה אני רק הגדרתי את זה

565
00:28:17,750 --> 00:28:20,620
לתפקד עם "def". אז עשיתי "def
מותנה, "וזה לוקח

566
00:28:20,620 --> 00:28:28,700
"מילות". ומה זה הולך לעשות
הוא, קודם כל, יש לי ההרשעות הקודמות שלי

567
00:28:28,700 --> 00:28:31,030
כי אני רוצה לחשב.

568
00:28:31,030 --> 00:28:34,330
>> לכן הדרך שאני יכול לעשות את זה היא ליצור
מילון בפייתון, אשר

569
00:28:34,330 --> 00:28:37,320
הוא פחות או יותר אותו הדבר כמו חשיש
שולחן, או שזה כמו איטרטיבי

570
00:28:37,320 --> 00:28:40,480
מערך ב-PHP.

571
00:28:40,480 --> 00:28:44,150
כך אני מצהיר מילון.

572
00:28:44,150 --> 00:28:53,580
ובעצם מה שזה אומר זה
הרשעות קודמות של גאגא היא 0.5, למשל, אם

573
00:28:53,580 --> 00:28:57,200
50% מהמילים הם מ
גאגא, 50% הם מקייטי.

574
00:28:57,200 --> 00:28:58,450
הגיוני?

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
אז יש לי להבין איך
כדי לחשב את ההרשעות הקודמות.

577
00:29:03,680 --> 00:29:07,120
>> למחרת באלה שאני צריך לעשות, גם,
הם ההסתברויות ומילות.

578
00:29:07,120 --> 00:29:17,100
אז ההסתברויות של גאגא היא הרשימה
של כל ההסתברויות שאני

579
00:29:17,100 --> 00:29:19,160
יש לכל אחת מהמילים לגאגא.

580
00:29:19,160 --> 00:29:23,880
אז אם אני הולך להסתברויות של גאגא
"תינוק", למשל, זה ייתן לי

581
00:29:23,880 --> 00:29:28,750
משהו כמו 2 מעל 24 במקרה זה.

582
00:29:28,750 --> 00:29:30,070
הגיוני?

583
00:29:30,070 --> 00:29:36,120
אז אני הולך "הסתברויות," ללכת
דלי "גאגא" שיש לו רשימה של כל

584
00:29:36,120 --> 00:29:40,550
מילות גאגא, אז אני הולך "תינוק"
ואני רואה את ההסתברות.

585
00:29:40,550 --> 00:29:45,940
>> וסוף סוף יש לי את זה
"מילות" במילון.

586
00:29:45,940 --> 00:29:53,620
אז הנה, "הסתברויות". ולאחר מכן
"מילות". אז אם אני עושה "מילות", "גאגא"

587
00:29:53,620 --> 00:29:58,330
מה שהולך לקרות הוא שזה
הולך לתת לי 24, ואמר שאני

588
00:29:58,330 --> 00:30:01,990
יש לי 24 מילות בתוך מילות מגאגא.

589
00:30:01,990 --> 00:30:04,110
הגיוני?

590
00:30:04,110 --> 00:30:07,070
אז הנה, "מילות" שווה Dah-Dah-dah.

591
00:30:07,070 --> 00:30:07,620
אישור

592
00:30:07,620 --> 00:30:12,210
>> אז מה שאני הולך לעשות הוא אני הולך
לחזר על כל אחת מהמילים, ולכן

593
00:30:12,210 --> 00:30:14,490
כל אחת מהמחרוזות ש
יש לי ברשימה.

594
00:30:14,490 --> 00:30:18,040
ואני הולך לחשב את הדברים האלה
לכל אחד מהמועמדים.

595
00:30:18,040 --> 00:30:19,950
הגיוני?

596
00:30:19,950 --> 00:30:21,700
אז אני צריך לעשות ללולאה.

597
00:30:21,700 --> 00:30:26,300
>> אז בפייתון מה אני יכול לעשות הוא "עבור קו
במילים. "אותו דבר כמו

598
00:30:26,300 --> 00:30:28,000
"לכל אחד" הצהרה ב-PHP.

599
00:30:28,000 --> 00:30:33,420
זוכר איך אם זה היה PHP שיכולתי
אומר "לכל מילות כמו

600
00:30:33,420 --> 00:30:35,220
שורה. "הגיוני?

601
00:30:35,220 --> 00:30:38,900
אז אני לוקח את כל אחד מהקווים, בזה
מקרה, במחרוזת זו והבאה

602
00:30:38,900 --> 00:30:44,540
שרשרת כך עבור כל אחד מהקווים מה אני
הולך לעשות הוא ראשון, אני הולך

603
00:30:44,540 --> 00:30:49,150
לפצל את הקו הזה לרשימה
מילות מופרדות ברווחים.

604
00:30:49,150 --> 00:30:53,730
>> אז הדבר מגניב על פייתון הוא ש
אפשר רק גוגל כמו "איך אתה יכול אני

605
00:30:53,730 --> 00:30:58,220
לפצל מחרוזות למילים? "וזה
הולך לספר לכם איך לעשות את זה.

606
00:30:58,220 --> 00:31:04,890
והדרך לעשות את זה, זה רק קו "
= Line.split () "וזה בעצם

607
00:31:04,890 --> 00:31:08,640
הולך לתת לך רשימה עם
כל אחת מהמילים כאן.

608
00:31:08,640 --> 00:31:09,620
הגיוני?

609
00:31:09,620 --> 00:31:15,870
אז עכשיו שאני עשיתי את זה אני רוצה לדעת
מי הוא הזמר של השיר הזה.

610
00:31:15,870 --> 00:31:20,130
וכדי לעשות זאת אני פשוט צריך לקבל את
האלמנט הראשון של המערך, נכון?

611
00:31:20,130 --> 00:31:26,390
אז רק אני יכול לומר כי "אני זמרת
= קו (0) "זה הגיוני?

612
00:31:26,390 --> 00:31:32,010
>> ואז מה שאני צריך לעשות הוא, קודם
הכל, אני הולך לעדכן כמה

613
00:31:32,010 --> 00:31:36,130
יש מילים שתחת "גאגא". אז אני פשוט
הולך לחשב כמה מילות אני

614
00:31:36,130 --> 00:31:38,690
יש ברשימה זו, נכון?

615
00:31:38,690 --> 00:31:41,910
בגלל זה הוא בכמה מילות יש לי
במילים ואני רק הולך

616
00:31:41,910 --> 00:31:44,120
להוסיף אותו למערך "גאגא".

617
00:31:44,120 --> 00:31:47,090
האם זה הגיוני?

618
00:31:47,090 --> 00:31:49,010
אל תתמקד יותר מדי על התחביר.

619
00:31:49,010 --> 00:31:50,430
לחשוב יותר על המושגים.

620
00:31:50,430 --> 00:31:52,400
זה החלק החשוב ביותר.

621
00:31:52,400 --> 00:31:52,720
על אישור.

622
00:31:52,720 --> 00:32:00,260
>> אז מה אני יכול לעשות את זה הוא אם "גאגא" הוא
כבר באותה רשימה, ולכן "אם הזמר ב

623
00:32:00,260 --> 00:32:03,190
מילות "מה שאומר שאני כבר
יש מילות ידי גאגא.

624
00:32:03,190 --> 00:32:06,640
אני רק רוצה להוסיף נוסף
מילים לכך.

625
00:32:06,640 --> 00:32:15,810
אז מה שאני עושה הוא "מילות (הזמר)
+ = Len (קו) - 1 ".

626
00:32:15,810 --> 00:32:18,250
ואז אני יכול פשוט לעשות
אורכו של הקו.

627
00:32:18,250 --> 00:32:21,860
אז כמה אלמנטים שאני
יש במערך.

628
00:32:21,860 --> 00:32:27,060
ואני צריך לעשות מינוס 1 רק בגלל
האלמנט הראשון של המערך הוא רק

629
00:32:27,060 --> 00:32:29,180
הזמר ואלה אינם מילות.

630
00:32:29,180 --> 00:32:31,420
הגיוני?

631
00:32:31,420 --> 00:32:32,780
על אישור.

632
00:32:32,780 --> 00:32:35,820
>> "אחר", זה אומר שאני רוצה באמת
הכנס גאגא לרשימה.

633
00:32:35,820 --> 00:32:45,990
אז אני פשוט עושה את "מילות (הזמר)
= Len (קו) - 1, "מצטער.

634
00:32:45,990 --> 00:32:49,200
אז ההבדל היחיד בין שתיים
קווים הוא שזה אחד, זה לא

635
00:32:49,200 --> 00:32:51,080
קיימות עדיין, אז אני פשוט
מאתחל אותו.

636
00:32:51,080 --> 00:32:53,820
זה אחד שאני ממש הוספתי.

637
00:32:53,820 --> 00:32:55,570
על אישור.

638
00:32:55,570 --> 00:32:59,480
אז זה היה מוסיף למילים.

639
00:32:59,480 --> 00:33:03,040
>> עכשיו אני רוצה להוסיף להרשעות הקודמות.

640
00:33:03,040 --> 00:33:05,480
אז איך אני יכול לחשב את ההרשעות הקודמות?

641
00:33:05,480 --> 00:33:11,580
ניתן לחשב ההרשעות הקודמות
על ידי כמה פעמים.

642
00:33:11,580 --> 00:33:15,340
אז כמה פעמים אתה רואה את הזמר ש
בין כל הזמרים שאתה

643
00:33:15,340 --> 00:33:16,380
יש, נכון?

644
00:33:16,380 --> 00:33:18,810
אז לגאגא וקייטי פרי,
במקרה הזה, אני רואה את גאגא

645
00:33:18,810 --> 00:33:20,570
פעם אחת, קייטי פרי ועונה אחת.

646
00:33:20,570 --> 00:33:23,320
>> אז בעצם ההרשעות הקודמות לגאגא
וקייטי פרי היית

647
00:33:23,320 --> 00:33:24,390
להיות רק אחד, נכון?

648
00:33:24,390 --> 00:33:26,500
אתה רק כמה פעמים
אני רואה את האמן.

649
00:33:26,500 --> 00:33:28,740
אז זה קל מאוד לחשב.

650
00:33:28,740 --> 00:33:34,100
אני יכול רק משהו דומה כמו "אם
הזמר בהרשעות קודמות, "אני רק הולך

651
00:33:34,100 --> 00:33:38,970
להוסיף 1 לתיבת ההרשעות הקודמת שלהם.

652
00:33:38,970 --> 00:33:51,000
אז, "הרשעות קודמות (לשיר)" + = 1 "ולאחר מכן" אחר "
אני הולך לעשות "הרשעות קודמות (זמרת)

653
00:33:51,000 --> 00:33:55,000
= 1. "זה הגיוני?

654
00:33:55,000 --> 00:34:00,080
>> אז אם הוא לא קיים רק שמתי
כמו 1, אחרת אני פשוט להוסיף 1.

655
00:34:00,080 --> 00:34:11,280
אוקיי, אז עכשיו כל מה שנשאר לי לעשות
הוא גם להוסיף כל אחת מהמילים כדי

656
00:34:11,280 --> 00:34:12,290
הסתברויות.

657
00:34:12,290 --> 00:34:14,889
אז אני צריך לספור כמה פעמים
אני רואה כל אחת מהמילים.

658
00:34:14,889 --> 00:34:18,780
אז אני רק צריך לעשות עוד
ללולאה בקו.

659
00:34:18,780 --> 00:34:25,190
>> דבר אז ראשון שאני הולך לעשות הוא
לבדוק אם הזמר כבר יש

660
00:34:25,190 --> 00:34:26,969
מערך הסתברויות.

661
00:34:26,969 --> 00:34:31,739
אז אני בודק אם הזמר לא
יש מערך הסתברויות, אני פשוט

662
00:34:31,739 --> 00:34:34,480
הולך לאתחל אחד עבורם.

663
00:34:34,480 --> 00:34:36,400
זה אפילו לא מערך, מצטער,
זה מילון.

664
00:34:36,400 --> 00:34:43,080
אז ההסתברויות של הזמר הולכת
להיות מילון פתוח, ולכן אני

665
00:34:43,080 --> 00:34:45,830
רק אתחול מילון בשביל זה.

666
00:34:45,830 --> 00:34:46,820
בסדר?

667
00:34:46,820 --> 00:34:58,330
>> ועכשיו אני יכול באמת לעשות ללולאה
כדי לחשב כל אחת מהמילים '

668
00:34:58,330 --> 00:35:00,604
הסתברויות.

669
00:35:00,604 --> 00:35:01,540
על אישור.

670
00:35:01,540 --> 00:35:04,160
אז מה אני יכול לעשות הוא ללולאה.

671
00:35:04,160 --> 00:35:06,590
אז רק אני הולך לחזר
על המערך.

672
00:35:06,590 --> 00:35:15,320
לכן הדרך שאני יכול לעשות את זה בפייתון
הוא "עבור i בטווח." מ1

673
00:35:15,320 --> 00:35:19,200
כי אני רוצה להתחיל בשני
אלמנט בגלל הראשון הוא

674
00:35:19,200 --> 00:35:20,260
שם הזמר.

675
00:35:20,260 --> 00:35:24,990
אז מאחד עד
אורכו של הקו.

676
00:35:24,990 --> 00:35:29,760
וכשאני נע זה באמת ללכת מ
כמו כאן בין 1 ל len של

677
00:35:29,760 --> 00:35:30,740
מינוס קו 1.

678
00:35:30,740 --> 00:35:33,810
אז זה כבר עושה את הדבר הזה של עשייה
n מינוס 1 למערכים שהוא מאוד

679
00:35:33,810 --> 00:35:35,500
נוח.

680
00:35:35,500 --> 00:35:37,850
הגיוני?

681
00:35:37,850 --> 00:35:42,770
>> אז לכל אחד מאלה, מה שאני הולך
לעשות הוא, בדיוק כמו בשני,

682
00:35:42,770 --> 00:35:50,320
אני הולך לבדוק אם המילה בזה
עמדה בקו כבר ב

683
00:35:50,320 --> 00:35:51,570
הסתברויות.

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
ואז כמו שאמרתי כאן, הסתברויות
מילות, כמו שבמתי

686
00:35:57,260 --> 00:35:58,400
"הסתברויות (זמרת)".

687
00:35:58,400 --> 00:35:59,390
אז את שמו של הזמר.

688
00:35:59,390 --> 00:36:03,450
אז אם זה כבר ב
"Probabilit (זמרת)", זה אומר שאני

689
00:36:03,450 --> 00:36:11,960
רוצה להוסיף 1 לזה, אז אני הולך
לעשות "הסתברויות (זמרת)", ו

690
00:36:11,960 --> 00:36:14,100
מילה נקראת "קו (ט)".

691
00:36:14,100 --> 00:36:22,630
אני הולך להוסיף 1 ו" אחר "אני פשוט
הולך לאתחל אותו 1.

692
00:36:22,630 --> 00:36:23,880
"קו (ט)".

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
הגיוני?

695
00:36:28,420 --> 00:36:30,180
>> לכן, חישבתי את כל המערכים.

696
00:36:30,180 --> 00:36:36,580
אז, עכשיו כל מה שאני צריך לעשות בשביל
זה אחד הוא פשוט "לחזור הרשעות קודמות,

697
00:36:36,580 --> 00:36:43,230
הסתברויות ומילות. "בואו
לראות אם יש בכלל, על אישור.

698
00:36:43,230 --> 00:36:45,690
נראה שהכל עובד עד כה.

699
00:36:45,690 --> 00:36:46,900
אז, זה הגיוני?

700
00:36:46,900 --> 00:36:47,750
בדרך כלשהי?

701
00:36:47,750 --> 00:36:49,280
על אישור.

702
00:36:49,280 --> 00:36:51,980
אז עכשיו יש לי את כל ההסתברויות.

703
00:36:51,980 --> 00:36:55,100
אז עכשיו הדבר היחיד שנשאר לי
הוא רק צריך את הדבר הזה, כי

704
00:36:55,100 --> 00:36:58,650
מחשב את התוצר של כל
הסתברויות כאשר אני מקבל את המילים.

705
00:36:58,650 --> 00:37:06,270
>> אז בואו נגיד שאני רוצה להתקשר עם החברה
פונקציה זו "לסווג ()" ו

706
00:37:06,270 --> 00:37:08,880
דבר הפונקציה שלוקחת
רק ויכוח.

707
00:37:08,880 --> 00:37:13,170
בואו נגיד "בייבי, אני עולה באש" וזה
הולך להבין מה הוא

708
00:37:13,170 --> 00:37:14,490
הסתברות שזה גאגא?

709
00:37:14,490 --> 00:37:16,405
מה ההסתברות
שזו קייטי?

710
00:37:16,405 --> 00:37:19,690
נשמע טוב?

711
00:37:19,690 --> 00:37:25,750
אז רק אני הולך צריך ליצור
פונקציה חדשה בשם "לסווג ()" ו

712
00:37:25,750 --> 00:37:29,180
זה הולך לקחת קצת
מילות גם כן.

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
וחוץ מזה אני גם המילים
צריך לשלוח הרשעות הקודמות,

715
00:37:36,160 --> 00:37:37,700
הסתברויות והמילים.

716
00:37:37,700 --> 00:37:44,000
אז אני הולך לשלוח את מילות, הרשעות קודמות,
הסתברויות, מילות.

717
00:37:44,000 --> 00:37:51,840
>> אז זה לוקח מילות, הרשעות קודמות,
הסתברויות, מילות.

718
00:37:51,840 --> 00:37:53,530
אז, מה זה עושה?

719
00:37:53,530 --> 00:37:57,180
זה בעצם הולך לעבור את כל
המועמדים האפשריים כי אתה

720
00:37:57,180 --> 00:37:58,510
יש לי בתור זמרת.

721
00:37:58,510 --> 00:37:59,425
ושבו הם המועמדים האלה?

722
00:37:59,425 --> 00:38:01,020
הם בהרשעות הקודמות, נכון?

723
00:38:01,020 --> 00:38:02,710
אז יש לי את כל אלה לשם.

724
00:38:02,710 --> 00:38:07,870
אז אני הולך יש מילון
מכל המועמדים האפשריים.

725
00:38:07,870 --> 00:38:14,220
ולאחר מכן לכל מועמד ב
הרשעות קודמות, אז זה אומר שזה הולך

726
00:38:14,220 --> 00:38:17,740
להיות גאגא, קייטי אם היה לי
יותר זה יהיה יותר.

727
00:38:17,740 --> 00:38:20,410
אני הולך להתחיל חישוב
הסתברות זו.

728
00:38:20,410 --> 00:38:28,310
ההסתברות כפי שראינו ב
PowerPoint הוא הפעמים לפני

729
00:38:28,310 --> 00:38:30,800
תוצר של כל אחד מן
הסתברויות אחרות.

730
00:38:30,800 --> 00:38:32,520
>> אז אני יכול לעשות את אותו הדבר כאן.

731
00:38:32,520 --> 00:38:36,330
אני רק יכול לעשות את ההסתברות היא
בתחילה רק לפני.

732
00:38:36,330 --> 00:38:40,340
אז הרשעות קודמות של המועמד.

733
00:38:40,340 --> 00:38:40,870
נכון?

734
00:38:40,870 --> 00:38:45,360
ועכשיו אני צריך לחזר על כל
מילות שיש לי במילים להיות

735
00:38:45,360 --> 00:38:48,820
תוכל להוסיף את ההסתברות
לכל אחד מהם, בסדר?

736
00:38:48,820 --> 00:38:57,900
לכן, "למילה במילים" מה אני הולך
לעשות הוא, אם המילה היא ב

737
00:38:57,900 --> 00:39:01,640
"הסתברויות (מועמד)", אשר
אומר שזה מילה ש

738
00:39:01,640 --> 00:39:03,640
מועמד יש במילים שלהם -

739
00:39:03,640 --> 00:39:05,940
לדוגמא, "תינוק" לגאגא -

740
00:39:05,940 --> 00:39:11,710
על מה אני הולך לעשות הוא כי
הסתברות הולכת להיות מוכפלת

741
00:39:11,710 --> 00:39:22,420
עד ליום 1 בתוספת ההסתברויות
המועמד למילה זו.

742
00:39:22,420 --> 00:39:25,710
וזה נקרא "מילה".

743
00:39:25,710 --> 00:39:32,440
זה מחולק במספר המילים
שיש לי למועמד ש.

744
00:39:32,440 --> 00:39:37,450
המספר הכולל של מילות שיש לי
לזמרת שאני מסתכל.

745
00:39:37,450 --> 00:39:40,290
>> "אחר". זה אומר שזה מילה חדשה
כך שזה יהיה כמו לדוגמא

746
00:39:40,290 --> 00:39:41,860
"אש" לליידי גאגא.

747
00:39:41,860 --> 00:39:45,760
אז אני רק רוצה לעשות 1 על
"מילה (מועמד)".

748
00:39:45,760 --> 00:39:47,710
אז אני לא רוצה לשים את המונח הזה כאן.

749
00:39:47,710 --> 00:39:50,010
>> אז זה הולך להיות בעצם
העתקה והדבקה של זה.

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
אבל אני הולך למחוק את החלק הזה.

752
00:39:56,000 --> 00:39:57,610
אז זה פשוט הולך להיות 1 על זה.

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
נשמע טוב?

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
ועכשיו בסוף, אני רק הולך
להדפיס את שמו של המועמד ו

757
00:40:09,700 --> 00:40:15,750
ההסתברות שיש לך של
יש S במילים שלהם.

758
00:40:15,750 --> 00:40:16,200
הגיוני?

759
00:40:16,200 --> 00:40:18,390
ואני עושה אפילו לא
צריך מילון זה.

760
00:40:18,390 --> 00:40:19,510
הגיוני?

761
00:40:19,510 --> 00:40:21,810
>> אז, בואו נראה אם ​​זה באמת עובד.

762
00:40:21,810 --> 00:40:24,880
אז אם אני מפעיל את זה, זה לא עבד.

763
00:40:24,880 --> 00:40:26,130
חכה שני אחת.

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
"מילות (מועמד)", "מילות (מועמד)",
זה

766
00:40:31,720 --> 00:40:33,750
שמו של המערך.

767
00:40:33,750 --> 00:40:41,435
אישור אז, זה אומר שיש כמה באגים
למועמד בהרשעות קודמות.

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
תן לי רק להירגע קצת.

770
00:40:48,760 --> 00:40:50,360
על אישור.

771
00:40:50,360 --> 00:40:51,305
בואו ננסה.

772
00:40:51,305 --> 00:40:51,720
על אישור.

773
00:40:51,720 --> 00:40:58,710
>> כך שזה נותן לי קייטי פרי זו
הסתברות לכך פעמים 10 עד

774
00:40:58,710 --> 00:41:02,200
יש מינוס 7, וזה גאגא
פעמים 10 למינוס 6.

775
00:41:02,200 --> 00:41:05,610
אז אתה רואה שזה מראה שגאגא
יש הסתברות גבוהה יותר.

776
00:41:05,610 --> 00:41:09,260
אז "בייבי, אני על אש" הוא
כנראה שיר גאגא.

777
00:41:09,260 --> 00:41:10,580
הגיוני?

778
00:41:10,580 --> 00:41:12,030
אז זה מה שעשינו.

779
00:41:12,030 --> 00:41:16,010
>> קוד זה הולך להיות שפורסם באינטרנט,
כך שאתם יכולים לבדוק את זה.

780
00:41:16,010 --> 00:41:20,720
אולי להשתמש בחלק ממנה לאם אתה רוצה
לעשות פרויקט או משהו דומה.

781
00:41:20,720 --> 00:41:22,150
על אישור.

782
00:41:22,150 --> 00:41:25,930
זה היה רק ​​כדי להראות
מה חישובית

783
00:41:25,930 --> 00:41:27,230
קוד בלשנות נראה.

784
00:41:27,230 --> 00:41:33,040
אבל עכשיו בואו נלך ליותר
חומר ברמה גבוהה.

785
00:41:33,040 --> 00:41:33,340
על אישור.

786
00:41:33,340 --> 00:41:35,150
>> אז הבעיות האחרות אני
דיבר על -

787
00:41:35,150 --> 00:41:37,550
הבעיה הפילוח
הוא הראשון שלהם.

788
00:41:37,550 --> 00:41:40,820
אז יש לכם כאן יפני.

789
00:41:40,820 --> 00:41:43,420
ואז אתה רואה את זה
אין רווחים.

790
00:41:43,420 --> 00:41:49,110
אז זה בעצם אומר שזה
החלק העליון של הכיסא, נכון?

791
00:41:49,110 --> 00:41:50,550
אתה מדבר יפני?

792
00:41:50,550 --> 00:41:52,840
זה החלק העליון של הכיסא, נכון?

793
00:41:52,840 --> 00:41:54,480
>> תלמיד: אני לא יודע מה
קאנג'י על שיש.

794
00:41:54,480 --> 00:41:57,010
>> לוקאס פרייטס: זה [מדבר יפני]

795
00:41:57,010 --> 00:41:57,950
על אישור.

796
00:41:57,950 --> 00:42:00,960
אז זה בעצם אומר שכיסא של ראש.

797
00:42:00,960 --> 00:42:03,620
אז אם אתה הייתי צריך לשים רווח
זה יהיה כאן.

798
00:42:03,620 --> 00:42:05,970
ואז יש לך [? אואדה-סן. ?]

799
00:42:05,970 --> 00:42:09,040
אשר בעצם אומרת מר אואדה.

800
00:42:09,040 --> 00:42:13,180
ואתה רואה את זה "אואדה" ויש לך
רווח ולאחר מכן "סן". אז אתה רואה ש

801
00:42:13,180 --> 00:42:15,470
כאן אתה "אואה" הוא כמו מעצמו.

802
00:42:15,470 --> 00:42:17,750
וכאן יש לו אופי
לצד זה.

803
00:42:17,750 --> 00:42:21,720
>> אז זה לא כמו בשפות אלה
דמויות שמשמעות מילה את זה אז אתה

804
00:42:21,720 --> 00:42:23,980
פשוט לשים הרבה רווחים.

805
00:42:23,980 --> 00:42:25,500
דמויות מתייחסות זו לזו.

806
00:42:25,500 --> 00:42:28,680
והם יכולים להיות ביחד
כמו שתיים, שלוש, אחד.

807
00:42:28,680 --> 00:42:34,520
אז אתה בעצם צריך ליצור איזשהו
דרך של לשים את החללים הללו.

808
00:42:34,520 --> 00:42:38,850
>> וזה הדבר הזה שבכל פעם שאתה מקבל
נתונים משפות אסיאתיות אלה,

809
00:42:38,850 --> 00:42:40,580
הכל בא unsegmented.

810
00:42:40,580 --> 00:42:45,940
כי אף אחד שכותב יפני
או סיני כותב עם רווחים.

811
00:42:45,940 --> 00:42:48,200
בכל פעם שאתה כותב סיני,
יפני אתה פשוט לכתוב את כל מה

812
00:42:48,200 --> 00:42:48,710
ללא רווחים.

813
00:42:48,710 --> 00:42:52,060
זה אפילו לא הגיוני
לשים את הרווחים.

814
00:42:52,060 --> 00:42:57,960
אז כאשר אתה מקבל נתונים מ, חלקם
שפת מזרח אסיה, אם ברצונך

815
00:42:57,960 --> 00:43:00,760
באמת לעשות משהו עם זה
יש לך לקטע הראשון.

816
00:43:00,760 --> 00:43:05,130
>> חושב לעשות את הדוגמא של
המילים ללא רווחים.

817
00:43:05,130 --> 00:43:07,950
אז את המילים היחידה שיש לך
יהיו משפטים, נכון?

818
00:43:07,950 --> 00:43:09,470
מופרד על ידי תקופות.

819
00:43:09,470 --> 00:43:13,930
אבל אז יש רק המשפט יהיה
לא ממש עוזרים במתן מידע

820
00:43:13,930 --> 00:43:17,760
של מי מילות אלה על ידי.

821
00:43:17,760 --> 00:43:18,120
נכון?

822
00:43:18,120 --> 00:43:20,010
אז אתה צריך מכניס רווחים ראשון.

823
00:43:20,010 --> 00:43:21,990
אז איך אתה יכול לעשות את זה?

824
00:43:21,990 --> 00:43:24,920
>> אז מגיע הרעיון של שפה
מודל שבו משהו באמת

825
00:43:24,920 --> 00:43:26,870
חשוב לחישובית
בלשנות.

826
00:43:26,870 --> 00:43:32,790
אז מודל שפה הוא בעצם
טבלה של הסתברויות שמופעים

827
00:43:32,790 --> 00:43:36,260
קודם כל מהי ההסתברות
שיש את המילה בשפה?

828
00:43:36,260 --> 00:43:39,590
אז מראה כיצד תכוף מילה היא.

829
00:43:39,590 --> 00:43:43,130
ואז גם מראה את הקשר
בין המילים במשפט.

830
00:43:43,130 --> 00:43:51,500
>> אז הרעיון המרכזי הוא, אם אדם זר בא
לך ואמר משפט כדי

831
00:43:51,500 --> 00:43:55,600
לך, מהי ההסתברות ש, עבור
למשל, "זו אחותי [? GTF"?]

832
00:43:55,600 --> 00:43:57,480
היה המשפט שהאדם אמר?

833
00:43:57,480 --> 00:44:00,380
אז ברור כמה משפטים הם
נפוץ יותר מאחרים.

834
00:44:00,380 --> 00:44:04,450
לדוגמא, "בוקר טוב", או "טוב
הלילה ", או" היי, "הוא הרבה יותר

835
00:44:04,450 --> 00:44:08,260
נפוץ יותר מרוב המשפטים
שיש לנו באנגלית.

836
00:44:08,260 --> 00:44:11,060
אז למה המשפטים הללו
תכוף יותר?

837
00:44:11,060 --> 00:44:14,060
>> קודם כל, זה בגלל שיש לך
מילים שהן תכופים יותר.

838
00:44:14,060 --> 00:44:20,180
כך, למשל, אם אתה אומר, הכלב הוא
גדול, והכלב הוא ענקי, אתה

839
00:44:20,180 --> 00:44:23,880
בדרך כלל ככל הנראה לשמוע את הכלב גדול
לעתים קרובות יותר, כי "גדול" הוא יותר

840
00:44:23,880 --> 00:44:27,260
תכוף באנגלית מאשר "ענק".
לכן, אחד

841
00:44:27,260 --> 00:44:30,100
דברים הוא המילה התדר.

842
00:44:30,100 --> 00:44:34,490
>> הדבר השני שהוא באמת
חשוב הוא רק

843
00:44:34,490 --> 00:44:35,490
סדר המילים.

844
00:44:35,490 --> 00:44:39,500
אז, זה נפוץ לומר "החתול הוא
בתוך הקופסה. "אבל אתה בדרך כלל לא

845
00:44:39,500 --> 00:44:44,250
רואה ב" התיבה בפנים הוא החתול. " כך
אתה רואה שיש חשיבות מסוימת

846
00:44:44,250 --> 00:44:46,030
לפי הסדר של המילים.

847
00:44:46,030 --> 00:44:50,160
אתה לא יכול פשוט לומר ששני אלה
יש משפטים באותה הסתברות

848
00:44:50,160 --> 00:44:53,010
רק בגלל שיש להם את אותן מילות.

849
00:44:53,010 --> 00:44:55,550
אתה באמת צריך לדאוג
על מנת גם כן.

850
00:44:55,550 --> 00:44:57,650
הגיוני?

851
00:44:57,650 --> 00:44:59,490
>> אז מה אנחנו עושים?

852
00:44:59,490 --> 00:45:01,550
אז מה אני יכול לנסות להשיג אותך?

853
00:45:01,550 --> 00:45:04,400
אני מנסה להשיג לך את מה שאנחנו
קוראים מודלים n-גרם.

854
00:45:04,400 --> 00:45:09,095
אז דגמי n גרם בעצם מניחים
כי לכל מילה ש

855
00:45:09,095 --> 00:45:10,960
יש לך במשפט.

856
00:45:10,960 --> 00:45:15,020
זה ההסתברות של בעל כי
מילה יש תלוי לא רק ב

857
00:45:15,020 --> 00:45:18,395
תדירות של מילה שבשפה,
אלא גם על המילים ש

858
00:45:18,395 --> 00:45:19,860
הם מקיפים אותו.

859
00:45:19,860 --> 00:45:25,810
>> כך למשל, בדרך כלל כשאתה רואה
משהו כמו באו אתה

860
00:45:25,810 --> 00:45:28,040
כנראה הולך לראות
שם עצם אחרי זה, נכון?

861
00:45:28,040 --> 00:45:31,750
כי כאשר יש לך מילת יחס
בדרך כלל זה לוקח שם עצם אחריו.

862
00:45:31,750 --> 00:45:35,540
או אם יש לך פועל שהוא ארעי
אתה בדרך כלל הולך

863
00:45:35,540 --> 00:45:36,630
יש לי צירוף שמני.

864
00:45:36,630 --> 00:45:38,780
אז זה הולך להיות שם עצם
אי שם סביבו.

865
00:45:38,780 --> 00:45:44,950
>> אז, בעצם, מה שהיא עושה היא שזה
רואה את ההסתברות שיש

866
00:45:44,950 --> 00:45:47,960
מילות אחד ליד שני, כאשר
אתה חישוב

867
00:45:47,960 --> 00:45:49,050
הסתברות של משפט.

868
00:45:49,050 --> 00:45:50,960
וזה מה ששפה
מודל הוא בעצם.

869
00:45:50,960 --> 00:45:54,620
רק אומר מה ההסתברות
שיש ספציפי

870
00:45:54,620 --> 00:45:57,120
משפט בשפה?

871
00:45:57,120 --> 00:45:59,110
אז למה זה שימושי, בעצם?

872
00:45:59,110 --> 00:46:02,390
וקודם כל מה הוא
מודל n גרם, ולאחר מכן?

873
00:46:02,390 --> 00:46:08,850
>> אז מודל n גרם פירוש הדבר כי
כל מילה תלויה

874
00:46:08,850 --> 00:46:12,700
N הבא מינוס 1 מילות.

875
00:46:12,700 --> 00:46:18,150
אז, בעצם, זה אומר שאם אני מסתכל,
לדוגמא, בTF CS50 כש

876
00:46:18,150 --> 00:46:21,500
אני חישוב ההסתברות של
המשפט, אתה תהיה כמו "

877
00:46:21,500 --> 00:46:25,280
הסתברות שיש את המילה "את"
פעמים ההסתברות שיש "

878
00:46:25,280 --> 00:46:31,720
הפעמים CS50 "ההסתברות שיש
"TF CS50." אז, בעצם, אני סופר

879
00:46:31,720 --> 00:46:35,720
כל הדרכים אפשריות למותח אותו.

880
00:46:35,720 --> 00:46:41,870
>> ואז בדרך כלל כשאתה עושה את זה,
כמו בפרויקט, אתה שם את N להיות

881
00:46:41,870 --> 00:46:42,600
ערך נמוך.

882
00:46:42,600 --> 00:46:45,930
לכן, בדרך כלל יש bigrams או בשלשות.

883
00:46:45,930 --> 00:46:51,090
כך שרק לך לספור שתי מילות,
קבוצה של שתי מילות, או שלוש מילות,

884
00:46:51,090 --> 00:46:52,620
רק לבעיות ביצועים.

885
00:46:52,620 --> 00:46:56,395
וגם כי אולי אם יש לך
משהו כמו "TF CS50." כאשר אתה

886
00:46:56,395 --> 00:47:00,510
יש לי "TF," זה חשוב מאוד, כי
"CS50" הוא לידו, נכון?

887
00:47:00,510 --> 00:47:04,050
שני הדברים האלה הם בדרך כלל
אחד ליד שני.

888
00:47:04,050 --> 00:47:06,410
>> אם אתה חושב על "TF," זה כנראה
הולך להיות מה

889
00:47:06,410 --> 00:47:07,890
מעמד זה TF'ing ל.

890
00:47:07,890 --> 00:47:11,330
כמו כן "" באמת חשוב
לTF CS50.

891
00:47:11,330 --> 00:47:14,570
אבל אם יש לך משהו כמו "CS50
TF הלך לכיתה ונתן להם

892
00:47:14,570 --> 00:47:20,060
תלמידים קצת ממתקים. "" סוכריות "ו" "
אין קשר באמת, נכון?

893
00:47:20,060 --> 00:47:23,670
הם כל כך רחוקים אחד מהשני, כי
זה לא ממש משנה מה

894
00:47:23,670 --> 00:47:25,050
מילות שיש לך.

895
00:47:25,050 --> 00:47:31,210
>> אז על ידי עושה bigram או הסריגראמה, זה
רק אומר שאתה מגביל

896
00:47:31,210 --> 00:47:33,430
את עצמך לכמה מילות
שנמצאים בסביבה.

897
00:47:33,430 --> 00:47:35,810
הגיוני?

898
00:47:35,810 --> 00:47:40,630
לכן, כאשר אתה רוצה לעשות פילוח,
בעצם, מה שאתה רוצה לעשות זה לראות

899
00:47:40,630 --> 00:47:44,850
מה הן כל הדרכים אפשריות ש
אתה יכול לפלח את גזר הדין.

900
00:47:44,850 --> 00:47:49,090
>> כזה שאתה רואה את מה שהוא
הסתברות של כל אחד מהמשפטים הללו

901
00:47:49,090 --> 00:47:50,880
קיים בשפה?

902
00:47:50,880 --> 00:47:53,410
אז מה שאתה עושה זה כמו, ובכן, בוא
לי לנסות לשים את השטח כאן.

903
00:47:53,410 --> 00:47:55,570
אז אתה שם את חלל שיש
ואתה רואה מה הוא

904
00:47:55,570 --> 00:47:57,590
הסתברות של המשפט הזה?

905
00:47:57,590 --> 00:48:00,240
אז אתה כאילו, אוקיי, אולי
זה היה לא כל כך טוב.

906
00:48:00,240 --> 00:48:03,420
אז שמתי את שטח יש וחלל
שם, ולך לחשב את

907
00:48:03,420 --> 00:48:06,240
הסתברות עכשיו, ואתה רואה את זה
זה הסתברות גבוהה יותר.

908
00:48:06,240 --> 00:48:12,160
>> אז זה אלגוריתם בשם TANGO
אלגוריתם פילוח, שהוא

909
00:48:12,160 --> 00:48:14,990
בעצם משהו שיהיה באמת
מגניב לפרויקט, אשר

910
00:48:14,990 --> 00:48:20,860
בעצם לוקח טקסט unsegmented בי
יכול להיות יפני או סיני או אולי

911
00:48:20,860 --> 00:48:26,080
אנגלית ללא רווחים ומנסה לשים
רווחים בין המילים והיא עושה

912
00:48:26,080 --> 00:48:29,120
כי על ידי שימוש במודל שפה ו
מנסה לראות מה הוא הגבוה ביותר

913
00:48:29,120 --> 00:48:31,270
הסתברות שאתה יכול לקבל.

914
00:48:31,270 --> 00:48:32,230
על אישור.

915
00:48:32,230 --> 00:48:33,800
אז זה פילוח.

916
00:48:33,800 --> 00:48:35,450
>> עכשיו תחביר.

917
00:48:35,450 --> 00:48:40,940
אז, תחביר נמצא בשימוש עבור
כל כך הרבה דברים עכשיו.

918
00:48:40,940 --> 00:48:44,880
אז עבור גרף חיפוש, עבור Siri עבור
פחות או יותר כל סוג של טבעי

919
00:48:44,880 --> 00:48:46,490
עיבוד שפה יש לך.

920
00:48:46,490 --> 00:48:49,140
אז מה הם חשובים
דברים על תחביר?

921
00:48:49,140 --> 00:48:52,390
אז, יש לי משפטים באופן כללי
מה שאנו מכנים בוחרים.

922
00:48:52,390 --> 00:48:57,080
שהם כמו סוג של קבוצות של מילות
שיש להם תפקיד במשפט.

923
00:48:57,080 --> 00:49:02,220
והם באמת לא יכולים להיות
מלבד אחד את השני.

924
00:49:02,220 --> 00:49:07,380
>> לכן, אם אני אומר, למשל, "לורן אוהב
מילוא. "אני יודע ש" לורן" הוא

925
00:49:07,380 --> 00:49:10,180
מכונן ולאחר מכן אהבות "
מילוא "הוא גם אחד אחר.

926
00:49:10,180 --> 00:49:16,860
מכיוון שאתה לא יכול להגיד כמו "לורן מילוא
אוהב את "יש את אותה משמעות.

927
00:49:16,860 --> 00:49:18,020
זה לא הולך להיות
את אותה המשמעות.

928
00:49:18,020 --> 00:49:22,500
או שאני לא יכול להגיד כמו "המילוא לורן
אוהב. "לא כל מה שיש באותו

929
00:49:22,500 --> 00:49:25,890
כלומר עושה את זה.

930
00:49:25,890 --> 00:49:31,940
>> אז שני דברים חשובים יותר על
תחביר הם הסוגים לקסיקליים המהווה

931
00:49:31,940 --> 00:49:35,390
בעצם הפונקציה שאתה
יש למילים בעצמם.

932
00:49:35,390 --> 00:49:39,180
אז אתה צריך לדעת כי "לורן"
ו" מילוא "הוא שמות עצם.

933
00:49:39,180 --> 00:49:41,040
"האהבה" היא פועל.

934
00:49:41,040 --> 00:49:45,660
וזה הדבר החשוב השני
שהם סוגי phrasal.

935
00:49:45,660 --> 00:49:48,990
אז אתה יודע ש" אוהב מילוא "
הוא למעשה ביטוי מילולי.

936
00:49:48,990 --> 00:49:52,390
לכן, כאשר אני אומר "לורן," אני יודע ש
לורן עושה משהו.

937
00:49:52,390 --> 00:49:53,620
מה היא עושה?

938
00:49:53,620 --> 00:49:54,570
היא אוהבת מילוא.

939
00:49:54,570 --> 00:49:56,440
אז זה כל עניין.

940
00:49:56,440 --> 00:50:01,640
אבל המרכיבים שלה הם
שם עצם וגם פועל.

941
00:50:01,640 --> 00:50:04,210
אבל ביחד, הם עושים את ביטוי פועל.

942
00:50:04,210 --> 00:50:08,680
>> אז, מה אנחנו יכולים בעצם לעשות עם
בלשנות חישובית?

943
00:50:08,680 --> 00:50:13,810
לכן, אם יש לי משהו לדוגמא
"חברים של אליסון." אני רואה אם ​​אני רק

944
00:50:13,810 --> 00:50:17,440
לא עץ תחבירי הייתי יודע כי
"חברים" הוא צירוף שמני זה

945
00:50:17,440 --> 00:50:21,480
שם עצם ולאחר מכן "של אליסון" הוא
ביטוי במלות יחס שבו "של" הוא

946
00:50:21,480 --> 00:50:24,810
הצעה ו" אליסון "היא שם עצם.

947
00:50:24,810 --> 00:50:30,910
מה שאני יכול לעשות הוא ללמד את המחשב שלי
כי כאשר יש לי צירוף שמני אחד ו

948
00:50:30,910 --> 00:50:33,080
לאחר מכן ביטוי במלות יחס.

949
00:50:33,080 --> 00:50:39,020
אז במקרה הזה, "חברים" ולאחר מכן "של
המילוא "אני יודע שזה אומר ש

950
00:50:39,020 --> 00:50:43,110
NP2, השנייה אחת, בבעלות NP1.

951
00:50:43,110 --> 00:50:47,680
>> אז אני יכול ליצור איזשהו קשר,
איזה פונקציה עבורו.

952
00:50:47,680 --> 00:50:52,370
אז בכל פעם שאני רואה את המבנה הזה, שבו
תואם בדיוק עם "חברים של

953
00:50:52,370 --> 00:50:56,030
אליסון, "אני יודע שאליסון
בעלות החברים.

954
00:50:56,030 --> 00:50:58,830
אז החברים הם משהו
שיש לו אליסון.

955
00:50:58,830 --> 00:50:59,610
הגיוני?

956
00:50:59,610 --> 00:51:01,770
אז זה בעצם מה
חיפוש גרף עושה.

957
00:51:01,770 --> 00:51:04,360
זה פשוט יוצר כללים
להרבה דברים.

958
00:51:04,360 --> 00:51:08,190
אז "חברים של אליסון", "החברים שלי
המתגורר בקיימברידג' "," החברים שלי

959
00:51:08,190 --> 00:51:12,970
שתלכו להרווארד. "זה יוצר כללים
לכל הדברים האלה.

960
00:51:12,970 --> 00:51:14,930
>> עכשיו תרגום מכונה.

961
00:51:14,930 --> 00:51:18,850
לכן, תרגום מכונה גם
משהו סטטיסטי.

962
00:51:18,850 --> 00:51:21,340
ובעצם, אם אתה להסתבך ב
בלשנות חישובית, הרבה

963
00:51:21,340 --> 00:51:23,580
את הדברים שלך הולכים להיות נתונים סטטיסטיים.

964
00:51:23,580 --> 00:51:26,670
אז כמו שאני עושה למשל עם
הרבה הסתברויות שהייתי

965
00:51:26,670 --> 00:51:30,540
חישוב, ואז אתה מקבל את זה
מספר קטן מאוד שזה סופי

966
00:51:30,540 --> 00:51:33,180
הסתברות, וזה מה
נותן לך את התשובה.

967
00:51:33,180 --> 00:51:37,540
תרגום מכונה גם משתמש
מודל סטטיסטי.

968
00:51:37,540 --> 00:51:44,790
ואם אתה רוצה לחשוב על מכונה
תרגום בפשוט ביותר האפשרי

969
00:51:44,790 --> 00:51:48,970
אגב, מה שאתה יכול לחשוב הוא פשוט
לתרגם מילה במילה, נכון?

970
00:51:48,970 --> 00:51:52,150
>> כאשר אתה לומד שפה עבור
בפעם ראשונה, זה בדרך כלל מה

971
00:51:52,150 --> 00:51:52,910
אתה עושה, נכון?

972
00:51:52,910 --> 00:51:57,050
אם אתה רוצה אתה לתרגם משפט
בשפה שלך לשפה

973
00:51:57,050 --> 00:52:00,060
אתה לומד, בדרך כלל ראשון, אתה
לתרגם כל אחת מהמילים

974
00:52:00,060 --> 00:52:03,180
בנפרד, ולאחר מכן אתה מנסה
לשים את המילים למקומו.

975
00:52:03,180 --> 00:52:07,100
>> אז אם אני רוצה לתרגם את זה,
[פורטוגזי מדבר]

976
00:52:07,100 --> 00:52:10,430
שפירושו "החתול הלבן ברח."
אם אני רוצה לתרגם את זה מ

977
00:52:10,430 --> 00:52:13,650
מפורטוגזית לאנגלית, מה שאני
יכול לעשות הוא, קודם כל, אני רק

978
00:52:13,650 --> 00:52:14,800
לתרגם מילה במילה.

979
00:52:14,800 --> 00:52:20,570
אז "o" הוא "," זה "גטו", "החתול",
"רנקו", "לבן", ולאחר מכן "fugio" הוא

980
00:52:20,570 --> 00:52:21,650
"ברח".

981
00:52:21,650 --> 00:52:26,130
>> אז יש לי את כל המילים כאן,
אבל הם לא לפי סדר.

982
00:52:26,130 --> 00:52:29,590
זה כמו "חתול הלבן ברח"
שהוא לא דקדוקיים.

983
00:52:29,590 --> 00:52:34,490
כן, אז אני יכול להיות צעד שני, אשר
הולך להיות מציאת האידיאלית

984
00:52:34,490 --> 00:52:36,610
עמדה לכל אחת מהמילים.

985
00:52:36,610 --> 00:52:40,240
אז אני יודע שאני ממש רוצה להיות
"חתול לבן" במקום "חתול לבן". כך

986
00:52:40,240 --> 00:52:46,050
מה אני יכול לעשות הוא, השיטה הנאיבית ביותר
יהיה ליצור את כל

987
00:52:46,050 --> 00:52:49,720
תמורות אפשריות של
מילות, של עמדות.

988
00:52:49,720 --> 00:52:53,300
ואז לראות שיש לו אחד
ההסתברות הגבוהה ביותר על פי

989
00:52:53,300 --> 00:52:54,970
למודל השפה שלי.

990
00:52:54,970 --> 00:52:58,390
ואז כשאני מוצא אחד שיש לי
ההסתברות הגבוהה ביותר אותו, שהוא

991
00:52:58,390 --> 00:53:01,910
כנראה "החתול הלבן ברח"
זה התרגום שלי.

992
00:53:01,910 --> 00:53:06,710
>> וזו היא דרך פשוטה להסביר
איך הרבה של תרגום מכונה

993
00:53:06,710 --> 00:53:07,910
אלגוריתמים עובדים.

994
00:53:07,910 --> 00:53:08,920
האם זה הגיוני?

995
00:53:08,920 --> 00:53:12,735
זה גם משהו ממש מרגש
כי אתם אולי יכולים לחקור עבור

996
00:53:12,735 --> 00:53:13,901
פרויקט גמר, כן?

997
00:53:13,901 --> 00:53:15,549
>> תלמיד: ובכן, אתה אמר שהוא היה
הדרך הנאיבית, אז מה

998
00:53:15,549 --> 00:53:17,200
הדרך שאינה נאיבית?

999
00:53:17,200 --> 00:53:18,400
>> לוקאס פרייטס: הדרך שאינה נאיבית?

1000
00:53:18,400 --> 00:53:19,050
על אישור.

1001
00:53:19,050 --> 00:53:22,860
אז הדבר הראשון שהוא רע על
בשיטה זו היא שאני פשוט תרגמתי

1002
00:53:22,860 --> 00:53:24,330
מילות, מילה במילה.

1003
00:53:24,330 --> 00:53:30,570
אבל לפעמים יש לך מילות ש
יכול להיות תרגומים מרובים.

1004
00:53:30,570 --> 00:53:32,210
אני הולך לנסות לחשוב
של משהו.

1005
00:53:32,210 --> 00:53:37,270
לדוגמא, "מנגה" בפחית פורטוגזית
להיות או "להשחית" או "שרוול". כך

1006
00:53:37,270 --> 00:53:40,450
כשאתה מנסה לתרגם את המילה
על ידי מילה, זה יכול להיות נותן לך

1007
00:53:40,450 --> 00:53:42,050
משהו שלא הגיוני.

1008
00:53:42,050 --> 00:53:45,770
>> אז אתה באמת רוצה אתה מסתכל על כל
התרגומים האפשריים של

1009
00:53:45,770 --> 00:53:49,840
מילים ותראו, קודם כל,
מהו הסדר.

1010
00:53:49,840 --> 00:53:52,000
אנחנו מדברים על permutating
הדברים?

1011
00:53:52,000 --> 00:53:54,150
כדי לראות את כל פקודות אפשריות ו
לבחור את אחד עם הגבוה ביותר

1012
00:53:54,150 --> 00:53:54,990
הסתברות?

1013
00:53:54,990 --> 00:53:57,860
באפשרותך לבחור גם את כל אפשרית
תרגומים לכל

1014
00:53:57,860 --> 00:54:00,510
מילה ואז לראות -

1015
00:54:00,510 --> 00:54:01,950
בשילוב עם התמורות -

1016
00:54:01,950 --> 00:54:03,710
אשר אחד את ההסתברות הגבוהה ביותר.

1017
00:54:03,710 --> 00:54:08,590
>> בנוסף, אתה יכול גם להסתכל על לא
רק מילות אלא ביטויים.

1018
00:54:08,590 --> 00:54:11,700
כך שאתה יכול לנתח את היחסים בין
המילים ולאחר מכן לקבל

1019
00:54:11,700 --> 00:54:13,210
תרגום טוב יותר.

1020
00:54:13,210 --> 00:54:16,690
גם משהו אחר, ולכן בסמסטר הזה
בעצם אני עושה מחקר ב

1021
00:54:16,690 --> 00:54:19,430
סינית, אנגלית תרגום מכונה,
כך תרגום מ

1022
00:54:19,430 --> 00:54:20,940
הסיני לאנגלית.

1023
00:54:20,940 --> 00:54:26,760
>> ומשהו שאנחנו עושים הוא, מלבד שימוש
מודל סטטיסטי, וזה רק

1024
00:54:26,760 --> 00:54:30,570
לראות את ההסתברויות של ראייה
כמה עמדה במשפט, אני

1025
00:54:30,570 --> 00:54:35,360
למעשה גם הוסיף כמה תחביר לי
מודל, ואמר, הו, אם אני רואה סוג זה

1026
00:54:35,360 --> 00:54:39,420
של הבנייה, זה מה שאני רוצה
כדי לשנות את זה כשאני מתרגם.

1027
00:54:39,420 --> 00:54:43,880
אז אתה יכול גם להוסיף קצת סוג של
אלמנט של תחביר לעשות

1028
00:54:43,880 --> 00:54:47,970
תרגום יעיל יותר
ומדויק יותר.

1029
00:54:47,970 --> 00:54:48,550
על אישור.

1030
00:54:48,550 --> 00:54:51,010
>> אז איך אתה יכול להתחיל, אם אתה רוצה
לעשות משהו בחישובית

1031
00:54:51,010 --> 00:54:51,980
בלשנות?

1032
00:54:51,980 --> 00:54:54,560
>> ראשית, אתה בוחר פרויקט
המערב שפות.

1033
00:54:54,560 --> 00:54:56,310
לכן, יש כל כך הרבה בחוץ.

1034
00:54:56,310 --> 00:54:58,420
יש כל כך הרבה דברים שאתה יכול לעשות.

1035
00:54:58,420 --> 00:55:00,510
ואז אפשר לחשוב על מודל
כי אתה יכול להשתמש.

1036
00:55:00,510 --> 00:55:04,710
בדרך כלל זה אומר שחשיבה של
הנחות, כמו כמו, אה, כשהייתי

1037
00:55:04,710 --> 00:55:05,770
כמו חשיבה של המילים.

1038
00:55:05,770 --> 00:55:09,510
אני היה כמו, ובכן, אם אני רוצה להבין
יצאתי שכתבו את זה, אני כנראה רוצה

1039
00:55:09,510 --> 00:55:15,400
להסתכל על דברי האדם המשמש ו
לראות מי משתמש במילה הזאת לעתים קרובות מאוד.

1040
00:55:15,400 --> 00:55:18,470
אז תנסה להניח הנחות ו
נסה לחשוב על דגמים.

1041
00:55:18,470 --> 00:55:21,395
ואז אתה יכול גם לחפש באינטרנט
הסוג של בעיה שיש לך,

1042
00:55:21,395 --> 00:55:24,260
וזה הולך להציע
לך מודלים שאולי

1043
00:55:24,260 --> 00:55:26,560
דגם דבר שכן.

1044
00:55:26,560 --> 00:55:29,080
>> ואתה יכול גם תמיד שלח לי.

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com.

1046
00:55:31,140 --> 00:55:34,940
ואני רק יכול לענות על השאלות שלך.

1047
00:55:34,940 --> 00:55:38,600
אנחנו יכולים אולי אפילו להיפגש כל כך שאני יכול
לתת הצעות על דרכים

1048
00:55:38,600 --> 00:55:41,490
יישום הפרויקט.

1049
00:55:41,490 --> 00:55:45,610
ואני מתכוון, אם אתה להסתבך עם
בלשנות חישובית, זה הולך

1050
00:55:45,610 --> 00:55:46,790
להיות גדול.

1051
00:55:46,790 --> 00:55:48,370
אתה הולך לראות שם
כל כך הרבה פוטנציאל.

1052
00:55:48,370 --> 00:55:52,060
והתעשייה רוצה לשכור
אתה כל כך רע בגלל זה.

1053
00:55:52,060 --> 00:55:54,720
אז אני מקווה שחבר 'ה נהנה מזה.

1054
00:55:54,720 --> 00:55:57,030
אם יש לך חבר 'ה על כל שאלה,
אתה יכול לשאול אותי אחרי זה.

1055
00:55:57,030 --> 00:55:58,280
אבל תודה לך.

1056
00:55:58,280 --> 00:56:00,150