1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> לוקאס פרייטס: היי. 3 00:00:08,870 --> 00:00:09,980 ברוכים הבאים לכולם. 4 00:00:09,980 --> 00:00:11,216 השם שלי הוא לוקאס פרייטס. 5 00:00:11,216 --> 00:00:15,220 אני זוטר ב[ לא ברור] לומד מדעי מחשב עם התמקדות ב 6 00:00:15,220 --> 00:00:16,410 בלשנות חישובית. 7 00:00:16,410 --> 00:00:19,310 אז המשני הוא בשפה ותאוריה בלשנית. 8 00:00:19,310 --> 00:00:21,870 אני ממש נרגש ללמד אותך החבר 'ה קצת על התחום. 9 00:00:21,870 --> 00:00:24,300 זה אזור מאוד מרגש ללמוד. 10 00:00:24,300 --> 00:00:27,260 גם עם הרבה פוטנציאל לעתיד. 11 00:00:27,260 --> 00:00:30,160 אז, אני ממש נרגש שאתם שוקלים פרויקטים 12 00:00:30,160 --> 00:00:31,160 בלשנות חישובית. 13 00:00:31,160 --> 00:00:35,460 ואני אהיה יותר שמח לייעץ כל אחד מכם, אם תחליטו 14 00:00:35,460 --> 00:00:37,090 תרדוף אחד מאלה. 15 00:00:37,090 --> 00:00:40,010 >> אז קודם כל מה הם חישובית בלשנות? 16 00:00:40,010 --> 00:00:44,630 בלשנות חישובית אז הוא צומת שבין בלשנות ו 17 00:00:44,630 --> 00:00:46,390 מדעי מחשב. 18 00:00:46,390 --> 00:00:47,415 אז, מה היא בלשנות? 19 00:00:47,415 --> 00:00:48,490 מה זה מדעי מחשב? 20 00:00:48,490 --> 00:00:51,580 גם מן הבלשנות, מה אנחנו לוקחים אותן השפות. 21 00:00:51,580 --> 00:00:54,960 אז בלשנות היא למעשה המחקר של שפה טבעית באופן כללי. 22 00:00:54,960 --> 00:00:58,330 שפה כל כך טבעית - אנחנו מדברים על שפה שאנחנו באמת להשתמש בו כדי 23 00:00:58,330 --> 00:00:59,770 לתקשר אחד עם השני. 24 00:00:59,770 --> 00:01:02,200 אז אנחנו לא בדיוק מדברים על C או ג'אווה. 25 00:01:02,200 --> 00:01:05,900 אנחנו מדברים יותר על אנגלית ו שפות סיניות ואחרות שאנחנו 26 00:01:05,900 --> 00:01:07,780 להשתמש כדי לתקשר אחד עם השני. 27 00:01:07,780 --> 00:01:12,470 >> הדבר המאתגר על זה הוא כי עכשיו יש לנו כמעט 7,000 28 00:01:12,470 --> 00:01:14,260 שפות בעולם. 29 00:01:14,260 --> 00:01:19,520 אז יש די מגוון גבוה שפות שאנחנו יכולים ללמוד. 30 00:01:19,520 --> 00:01:22,600 ואז אתה חושב שזה כנראה מאוד קשה לעשות, למשל, 31 00:01:22,600 --> 00:01:26,960 תרגום משפה לשפה אחר, בהתחשב בכך שיש לך 32 00:01:26,960 --> 00:01:28,240 כמעט 7,000 מהם. 33 00:01:28,240 --> 00:01:31,450 לכן, אם אתם חושבים לעשות תרגום משפה אחת לאחר שאתה 34 00:01:31,450 --> 00:01:35,840 יש כמעט יותר ממיליון שילובים שונים, כי אתה יכול 35 00:01:35,840 --> 00:01:37,330 יש לי משפה לשפה. 36 00:01:37,330 --> 00:01:40,820 אז זה באמת מאתגר לעשות קצת סוג של מערכת לדוגמא תרגום עבור 37 00:01:40,820 --> 00:01:43,540 כל שפה. 38 00:01:43,540 --> 00:01:47,120 >> אז, פינוקים בלשנות עם תחביר, סמנטיקה, פרגמטיקה. 39 00:01:47,120 --> 00:01:49,550 אתם לא בדיוק צריכים לדעת מה הם נמצאים. 40 00:01:49,550 --> 00:01:55,090 אבל הדבר מעניין מאוד הוא ש כדובר שפה אם, כאשר אתה לומד 41 00:01:55,090 --> 00:01:59,010 שפה כילד, אתה בעצם לומד את כל הדברים האלה - סמנטיקה התחביר 42 00:01:59,010 --> 00:02:00,500 ופרגמטיקה - 43 00:02:00,500 --> 00:02:01,430 בעצמך. 44 00:02:01,430 --> 00:02:04,820 ואף אחד לא צריך ללמד אותך על תחביר לך להבין איך משפטים הם 45 00:02:04,820 --> 00:02:05,290 מובנה. 46 00:02:05,290 --> 00:02:07,980 אז, זה באמת מעניין, כי זה משהו שמגיע מאוד 47 00:02:07,980 --> 00:02:10,389 באופן אינטואיטיבי. 48 00:02:10,389 --> 00:02:13,190 >> ומה אתה לוקח מ מדעי המחשב? 49 00:02:13,190 --> 00:02:16,700 ובכן, הדבר החשוב ביותר שאנחנו יש במדעי מחשב הוא ראשון של 50 00:02:16,700 --> 00:02:19,340 כל האינטליגנציה מלאכותית ולמידה מכונה. 51 00:02:19,340 --> 00:02:22,610 אז, מה שאנחנו מנסים לעשות בלשנות החישובית היא ללמד 52 00:02:22,610 --> 00:02:26,990 המחשב שלך איך לעשות משהו עם שפה. 53 00:02:26,990 --> 00:02:28,630 >> כך, לדוגמא, במכונה תרגום. 54 00:02:28,630 --> 00:02:32,490 אני מנסה ללמד איך המחשב שלי לדעת איך לעבור מאחד 55 00:02:32,490 --> 00:02:33,310 שפה לאחרת. 56 00:02:33,310 --> 00:02:35,790 אז, בעצם כמו ללמד שתי שפות מחשב. 57 00:02:35,790 --> 00:02:38,870 אם אני עושה עיבוד שפה טבעית, שהוא במקרה לדוגמא של 58 00:02:38,870 --> 00:02:41,810 גרף החיפוש של פייסבוק, אתה מלמד המחשב שלך איך להבין 59 00:02:41,810 --> 00:02:42,730 שאילתות היטב. 60 00:02:42,730 --> 00:02:48,130 >> לכן, אם אתה אומר "תמונות שלי חברים. "פייסבוק לא מתייחסים כי 61 00:02:48,130 --> 00:02:51,130 בכללותה מחרוזת שיש סתם חבורה של מילות. 62 00:02:51,130 --> 00:02:56,020 זה באמת מבין את הקשר בין "תמונות" ו "החברים שלי" ו 63 00:02:56,020 --> 00:02:59,620 מבין כי "תמונות" הן רכושם של "החברים שלי". 64 00:02:59,620 --> 00:03:02,350 >> אז, זה חלק מ, למשל, עיבוד שפה טבעית. 65 00:03:02,350 --> 00:03:04,790 הוא מנסה להבין מה הוא היחס בין 66 00:03:04,790 --> 00:03:07,520 המילים במשפט. 67 00:03:07,520 --> 00:03:11,170 והשאלה הגדולה היא, האם אתה יכול ללמד את מחשב איך לדבר 68 00:03:11,170 --> 00:03:12,650 שפה באופן כללי? 69 00:03:12,650 --> 00:03:17,810 איזו היא שאלה מאוד מעניינת חושב, כאילו אולי בעתיד, 70 00:03:17,810 --> 00:03:19,930 אתה הולך להיות מסוגל לדבר עם הטלפון הסלולרי שלך. 71 00:03:19,930 --> 00:03:23,290 כמו סוג של מה שאנחנו עושים עם Siri אבל משהו דומה יותר, אתה בעצם יכול 72 00:03:23,290 --> 00:03:25,690 לומר מה שאתה רוצה והטלפון הוא הולך להבין הכל. 73 00:03:25,690 --> 00:03:28,350 וזה יכול להיות מעקב שאלות ולהמשיך לדבר. 74 00:03:28,350 --> 00:03:30,880 זה משהו באמת מרגש, לדעתי. 75 00:03:30,880 --> 00:03:33,070 >> אז, משהו על שפות טבעיות. 76 00:03:33,070 --> 00:03:36,220 משהו ממש מעניין על שפות טבעיות היא, ואת זה הוא 77 00:03:36,220 --> 00:03:38,470 אשראי לפרופסור לבלשנות שלי, מריה פולינסקי. 78 00:03:38,470 --> 00:03:40,830 היא נותנת דוגמא ואני חושב זה באמת מעניין. 79 00:03:40,830 --> 00:03:47,060 מכיוון שאנו לומדים את שפה מכאשר אנחנו נולדים ולאחר מכן האם שלנו 80 00:03:47,060 --> 00:03:49,170 שפת סוג של גדלה עלינו. 81 00:03:49,170 --> 00:03:52,570 >> ובעצם אתה לומד שפה מקלט מינימאלי, נכון? 82 00:03:52,570 --> 00:03:56,700 אתה פשוט מקבל קלט משלך הורים של מה נשמעת בשפה שלך 83 00:03:56,700 --> 00:03:58,770 אוהב ואתה פשוט ללמוד את זה. 84 00:03:58,770 --> 00:04:02,240 אז, זה מעניין, כי אם אתה מסתכל במשפטים האלה, למשל. 85 00:04:02,240 --> 00:04:06,980 אתה נראה, "מרי לובש מעיל כל פעם שהיא יוצאת מהבית. " 86 00:04:06,980 --> 00:04:10,650 >> במקרה זה, זה אפשרי לי מילה "היא" מתייחסת למריה, נכון? 87 00:04:10,650 --> 00:04:13,500 אתה יכול להגיד "מרי לובש מעיל בכל פעם שמשאיר את מרי 88 00:04:13,500 --> 00:04:14,960 בית. ", כך שזה בסדר. 89 00:04:14,960 --> 00:04:19,370 אבל אז אם אתה מסתכל על המשפט "היא מניחה אותו על מעיל בכל פעם שמרי 90 00:04:19,370 --> 00:04:22,850 עוזב את הבית. "אתה יודע שזה אי אפשר לומר כי "היא" הוא 91 00:04:22,850 --> 00:04:24,260 בהתייחסו למרי. 92 00:04:24,260 --> 00:04:27,070 >> אין שום דרך לומר ש" מרי מעמיד במעייל בכל פעם שמשאיר את מרי 93 00:04:27,070 --> 00:04:30,790 הבית. "אז זה מעניין, כי זה הסוג של אינטואיציה 94 00:04:30,790 --> 00:04:32,890 שכל דובר ילידים יש. 95 00:04:32,890 --> 00:04:36,370 ואף אחד לא לימד אותנו שזה הוא אופן שבו התחביר עובד. 96 00:04:36,370 --> 00:04:41,930 ושאתה יכול להיות רק "היא" זה בהתייחסו למרי במקרה הראשון, 97 00:04:41,930 --> 00:04:44,260 ובעצם בזה אחר יותר מדי, אבל לא בתחום הזה. 98 00:04:44,260 --> 00:04:46,500 אבל כולם סוג של מקבל לאותה התשובה. 99 00:04:46,500 --> 00:04:48,580 כולם מסכים על זה. 100 00:04:48,580 --> 00:04:53,280 אז זה באמת מעניין איך למרות אתה לא יודע את כל הכללים 101 00:04:53,280 --> 00:04:55,575 בשפה שלך שאתה סוג של ההבנה איך השפה עובדת. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> אז הדבר המעניין על טבעי שפה היא שאין לך 104 00:05:01,530 --> 00:05:06,970 יודע כל תחביר לדעת אם משפט הוא דקדוק או לא דקדוקיים עבור 105 00:05:06,970 --> 00:05:08,810 רוב המקרים. 106 00:05:08,810 --> 00:05:13,220 מה שגורם לך לחשוב שאולי מה שקורה הוא שדרך החיים שלך, אתה 107 00:05:13,220 --> 00:05:17,410 רק לשמור מקבל יותר ויותר משפטים אמרו לך. 108 00:05:17,410 --> 00:05:19,800 ואז אתה שומר את השינון כל המשפטים. 109 00:05:19,800 --> 00:05:24,230 ולאחר מכן, כאשר מישהו אומר לך משהו, אתה שומע את המשפט הזה ו 110 00:05:24,230 --> 00:05:27,040 אתה מסתכל על אוצר המילים שלך של משפטים ולראות אם 111 00:05:27,040 --> 00:05:28,270 המשפט שהוא שם. 112 00:05:28,270 --> 00:05:29,830 ואם זה יש לך אומר שזה דקדוק. 113 00:05:29,830 --> 00:05:31,740 אם זה לא אתה אומר שזה לא דקדוקיים. 114 00:05:31,740 --> 00:05:35,150 >> לכן, במקרה זה, היית אומר, הו, אז יש לך רשימה ענקית של כל 115 00:05:35,150 --> 00:05:36,140 משפטים אפשריים. 116 00:05:36,140 --> 00:05:38,240 ואז כשאתה שומע משפט, אתה יודע אם זה דקדוק או 117 00:05:38,240 --> 00:05:39,450 לא מבוסס על זה. 118 00:05:39,450 --> 00:05:42,360 העניין הוא שאם אתה מסתכל על משפט, למשל, " 119 00:05:42,360 --> 00:05:47,540 TFS CS50 חמישה ראשים מבושלים העיוור תמנון באמצעות ספל DAPA. "זה 120 00:05:47,540 --> 00:05:49,630 בהחלט לא משפט ששמעת לפני כן. 121 00:05:49,630 --> 00:05:52,380 אבל באותו הזמן אתה יודע שזה די הרבה דקדוק, נכון? 122 00:05:52,380 --> 00:05:55,570 אין טעויות דקדוק ואתה יכול להגיד את זה 123 00:05:55,570 --> 00:05:57,020 זה גזר דין שניתן. 124 00:05:57,020 --> 00:06:01,300 >> אז זה גורם לנו לחשוב שבעצם דרך שבה אנו לומדים שפה היא לא רק 125 00:06:01,300 --> 00:06:07,090 על ידי בעל מאגר מידע עצום של אפשרי מילות או משפטים, אלא יותר של 126 00:06:07,090 --> 00:06:11,490 הבנת הקשר בין מילות במשפטים אלה. 127 00:06:11,490 --> 00:06:14,570 האם זה הגיוני? 128 00:06:14,570 --> 00:06:19,370 כן, אז השאלה היא, יכול מחשבים ללמוד שפות? 129 00:06:19,370 --> 00:06:21,490 האם אנחנו יכולים ללמד את השפה למחשבים? 130 00:06:21,490 --> 00:06:24,230 >> אז, בואו נחשוב על ההבדל בין דובר ילידים של שפה 131 00:06:24,230 --> 00:06:25,460 ומחשב. 132 00:06:25,460 --> 00:06:27,340 אז, מה קורה לרמקול? 133 00:06:27,340 --> 00:06:30,430 ובכן, דובר השפה אם לומדת שפה מחשיפה אליו. 134 00:06:30,430 --> 00:06:34,200 בדרך כלל בילדות שנותיה הראשונות. 135 00:06:34,200 --> 00:06:38,570 אז, בעצם, רק יש לך תינוק, ואתה תמשיך לדבר אליו, וזה 136 00:06:38,570 --> 00:06:40,540 פשוט לומד איך לדבר השפה, נכון? 137 00:06:40,540 --> 00:06:42,660 אז, אתה נותן בעצם קלט לתינוק. 138 00:06:42,660 --> 00:06:45,200 כן, אז אתה יכול לטעון שמחשב יכול לעשות את אותו הדבר, נכון? 139 00:06:45,200 --> 00:06:49,510 רק אתה יכול לתת שפה כקלט למחשב. 140 00:06:49,510 --> 00:06:53,410 >> כמו למשל חבורה של קבצים שיש להם ספרים באנגלית. 141 00:06:53,410 --> 00:06:56,190 אולי זו דרך אחת, כי אתה אולי יכול ללמד 142 00:06:56,190 --> 00:06:57,850 אנגלית במחשב, נכון? 143 00:06:57,850 --> 00:07:01,000 ולמעשה, אם חושב על זה, זה לוקח לך אולי כמה 144 00:07:01,000 --> 00:07:02,680 ימים לקרוא את ספר. 145 00:07:02,680 --> 00:07:05,760 למחשב זה לוקח שני להסתכל על כל המילים בספר. 146 00:07:05,760 --> 00:07:10,810 אז אתה יכול לחשוב שיכול להיות רק זה טיעון של קלט מסביבך, 147 00:07:10,810 --> 00:07:15,440 זה לא מספיק לומר שזה משהו שרק בני אדם יכולים לעשות. 148 00:07:15,440 --> 00:07:17,680 אתה יכול לחשוב על מחשבים יכול גם לקבל קלט. 149 00:07:17,680 --> 00:07:21,170 >> הדבר השני הוא שדוברים ילידיים יש גם מוח שיש 150 00:07:21,170 --> 00:07:23,870 יכולת לימוד שפה. 151 00:07:23,870 --> 00:07:27,020 אבל אם אתה חושב על זה, מוח הוא דבר מוצק. 152 00:07:27,020 --> 00:07:30,450 כאשר אתה נולד, זה כבר נקבע - 153 00:07:30,450 --> 00:07:31,320 זה המוח שלך. 154 00:07:31,320 --> 00:07:34,660 וככל שאתה גדל, אתה פשוט מקבל יותר קלט של שפה ואולי חומרים מזינים 155 00:07:34,660 --> 00:07:35,960 וכל מיני דברים אחרים. 156 00:07:35,960 --> 00:07:38,170 אבל פחות או יותר את המוח שלך זה דבר מוצק. 157 00:07:38,170 --> 00:07:41,290 >> אז אתה יכול להגיד, טוב, אולי אתה יכול לבנות מחשב שיש לו חבורה של 158 00:07:41,290 --> 00:07:45,890 פונקציות ושיטות שרק מחקות יכולת לימוד שפה. 159 00:07:45,890 --> 00:07:49,630 אז במובן הזה, אפשר לומר, טוב, אני יכול להיות מחשב שבו כל 160 00:07:49,630 --> 00:07:52,270 דברים שאני צריך ללמוד את השפה. 161 00:07:52,270 --> 00:07:56,200 וזה הדבר האחרון שילידים דובר לומד מניסוי וטעייה. 162 00:07:56,200 --> 00:08:01,090 אז בעצם עוד דבר חשוב ב לימוד שפה הוא שאתה סוג 163 00:08:01,090 --> 00:08:05,340 של ללמוד דברים על ידי הפיכת הכללות של מה שאתה שומע. 164 00:08:05,340 --> 00:08:10,280 >> אז כפי שאתה גדל אתה לומד כי כמה מילות הן יותר כמו שמות עצם, 165 00:08:10,280 --> 00:08:11,820 כמה כאלה אחרים הם תארים. 166 00:08:11,820 --> 00:08:14,250 ואתה לא חייב לי שום ידע של בלשנות 167 00:08:14,250 --> 00:08:15,040 כדי להבין את זה. 168 00:08:15,040 --> 00:08:18,560 אבל אתה פשוט יודע שיש כמה מילות ממוקמים בחלק כלשהו של 169 00:08:18,560 --> 00:08:22,570 משפט ועוד כמה באחר חלקיו של גזר הדין. 170 00:08:22,570 --> 00:08:26,110 >> וכי כאשר אתה עושה משהו שהוא כמו משפט שאינו נכון - 171 00:08:26,110 --> 00:08:28,770 אולי בגלל הכללה על למשל. 172 00:08:28,770 --> 00:08:32,210 אולי כשאתה גדל, אתה שם לב כי בלשון רב היא בדרך כלל 173 00:08:32,210 --> 00:08:35,809 נוצר על ידי הצבת S ב הסוף של המילה. 174 00:08:35,809 --> 00:08:40,042 ואז אתה מנסה לעשות את הריבוי של "צבי" בשם "צביים" או "שן", כפי 175 00:08:40,042 --> 00:08:44,780 "טות'." אז ההורים שלך או מישהו מתקן אותך ואומר, לא, 176 00:08:44,780 --> 00:08:49,020 ריבוי של "צבי" הוא "צבי", ו ריבוי של "שן" הוא "שיניים". ולאחר מכן 177 00:08:49,020 --> 00:08:50,060 אתה לומד את הדברים האלה. 178 00:08:50,060 --> 00:08:51,520 אז אתה לומד מניסוי וטעייה. 179 00:08:51,520 --> 00:08:53,100 >> אבל אתה גם יכול לעשות את זה עם מחשב. 180 00:08:53,100 --> 00:08:55,310 יכול להיות לך משהו שנקרא למידת חיזוק. 181 00:08:55,310 --> 00:08:58,560 שהוא בעצם כמו לתת מחשב הפרס בכל פעם שהיא עושה 182 00:08:58,560 --> 00:08:59,410 משהו בצורה נכונה. 183 00:08:59,410 --> 00:09:04,710 ונותן לו את ההפך מגמול וכאשר הוא עושה משהו לא בסדר. 184 00:09:04,710 --> 00:09:07,410 אתה ממש יכול לראות שאם אתה הולך ל-Google Translate ואתה מנסה 185 00:09:07,410 --> 00:09:10,220 לתרגם משפט, זה שואל אותך על משוב. 186 00:09:10,220 --> 00:09:13,240 אז אם אתה אומר, אה, יש טוב יותר תרגום למשפט הזה. 187 00:09:13,240 --> 00:09:18,140 אתה יכול להקליד אותו ולאחר מכן, אם הרבה אנשים כל הזמן אומרים שהוא טוב יותר 188 00:09:18,140 --> 00:09:21,560 תרגום, זה פשוט לומד כי זה צריך להשתמש בתרגום שבמקום 189 00:09:21,560 --> 00:09:22,960 אחד זה היה נתינה. 190 00:09:22,960 --> 00:09:28,830 >> אז, זה שאלה מאוד פילוסופית כדי לראות אם מחשבים הולכים להיות 191 00:09:28,830 --> 00:09:30,340 מסוגל לדבר או לא בעתיד. 192 00:09:30,340 --> 00:09:34,440 אבל יש לי תקוות גדולות שהם יכולים רק על סמך טיעונים אלה. 193 00:09:34,440 --> 00:09:38,570 אבל זה רק יותר של פילוסופים שאלה. 194 00:09:38,570 --> 00:09:43,460 >> אז בזמן שמחשבים עדיין לא יכולים לדבר, מה הם הדברים שאנחנו יכולים לעשות? 195 00:09:43,460 --> 00:09:47,070 כמה דברים ממש מגניבים הם סיווג הנתונים. 196 00:09:47,070 --> 00:09:53,210 כך, למשל, אתם יודעים שירותי דואר אלקטרוני שעושים, ל 197 00:09:53,210 --> 00:09:55,580 דוגמא, סינון דואר זבל. 198 00:09:55,580 --> 00:09:59,070 אז בכל פעם שאתה מקבל דואר זבל, זה מנסה לסנן לתיבה אחרת. 199 00:09:59,070 --> 00:10:00,270 אז איך הוא עושה את זה? 200 00:10:00,270 --> 00:10:06,080 זה לא כמו המחשב פשוט יודע כתובות הדוא"ל של מה שולחות דואר זבל. 201 00:10:06,080 --> 00:10:09,130 אז זה יותר על בסיס התוכן של ההודעה, או אולי הכותרת, או 202 00:10:09,130 --> 00:10:11,310 אולי איזה דפוס שיש לך. 203 00:10:11,310 --> 00:10:15,690 >> אז, בעצם, מה שאתה יכול לעשות הוא לקבל הרבה נתונים של הודעות דוא"ל, כי הם זבל, 204 00:10:15,690 --> 00:10:19,980 מיילים שאינם ספאם, וללמוד מה סוג של דפוסים שיש לך ב 205 00:10:19,980 --> 00:10:21,000 אלה הם דואר זבל. 206 00:10:21,000 --> 00:10:23,260 וזה חלק מחישובית בלשנות. 207 00:10:23,260 --> 00:10:24,720 זה נקרא סיווג הנתונים. 208 00:10:24,720 --> 00:10:28,100 ואנחנו באמת הולכים לראות דוגמא לכך בשקופיות הבאות. 209 00:10:28,100 --> 00:10:32,910 >> הדבר השני הוא שפה טבעית עיבוד וזה הדבר ש 210 00:10:32,910 --> 00:10:36,580 חיפוש גרף עושה לתת אתה כותב משפט. 211 00:10:36,580 --> 00:10:38,690 וזה סומך עליך להבין מה שלה המשמעות ונותן לי 212 00:10:38,690 --> 00:10:39,940 לך תוצאה טובה יותר. 213 00:10:39,940 --> 00:10:43,880 למעשה, אם אתה הולך לגוגל או בינג ולך לחפש משהו כמו ליידי 214 00:10:43,880 --> 00:10:47,060 הגובה של גאגא, אתם למעשה הולכים כדי לקבל 5 '1 "במקום מידע 215 00:10:47,060 --> 00:10:50,170 ממנה כי זה באמת מבין על מה אתה מדבר. 216 00:10:50,170 --> 00:10:52,140 אז זה חלק מטבעי עיבוד שפה. 217 00:10:52,140 --> 00:10:57,000 >> או גם כשאתה משתמש בסירים, ראשון יש לך אלגוריתם שמנסה 218 00:10:57,000 --> 00:11:01,130 לתרגם את מה שאתה אומר במילים, בטקסט. 219 00:11:01,130 --> 00:11:03,690 ולאחר מכן הוא מנסה לתרגם כי למשמעות. 220 00:11:03,690 --> 00:11:06,570 אז זה כל מה שחלק מטבעי עיבוד שפה. 221 00:11:06,570 --> 00:11:08,320 >> אז יש לך מכונת תרגום - 222 00:11:08,320 --> 00:11:10,300 שהוא למעשה אחד המועדפים שלי - 223 00:11:10,300 --> 00:11:14,060 אשר רק הוא בתרגום מ שפה למשנו. 224 00:11:14,060 --> 00:11:17,950 אז אתה יכול לחשוב שכאשר אתה עושה תרגום מכונה, יש לך 225 00:11:17,950 --> 00:11:19,750 אפשרויות אינסופיות של משפטים. 226 00:11:19,750 --> 00:11:22,960 כך שאין שום דרך של ממש אחסון כל תרגום. 227 00:11:22,960 --> 00:11:27,440 אז אתה צריך לבוא עם מעניין אלגוריתמים כדי להיות מסוגלים 228 00:11:27,440 --> 00:11:30,110 לתרגם כל אחד משפט בדרך כלשהי. 229 00:11:30,110 --> 00:11:32,483 >> יש לכם כל שאלות עד כה? 230 00:11:32,483 --> 00:11:34,450 לא? 231 00:11:34,450 --> 00:11:34,830 על אישור. 232 00:11:34,830 --> 00:11:36,900 >> אז מה אנחנו הולכים לראות היום? 233 00:11:36,900 --> 00:11:39,300 קודם כל, אני הולך לדבר על הבעיה הסיווג. 234 00:11:39,300 --> 00:11:41,440 אז זה שאני היה אומר על דואר זבל. 235 00:11:41,440 --> 00:11:46,820 מה שאני הולך לעשות הוא, מילות נתון לשיר, אתה יכול לנסות להבין 236 00:11:46,820 --> 00:11:49,810 בהסתברות גבוהה מי הוא הזמר? 237 00:11:49,810 --> 00:11:53,590 בואו נגיד שיש לי שירים מליידי גאגא וקייטי פרי, אם אני נותן לך 238 00:11:53,590 --> 00:11:58,130 שיר חדש, אתה יכול להבין אם זה קייטי פרי או ליידי גאגא? 239 00:11:58,130 --> 00:12:01,490 >> השנייה אחת, אני רק הולך לדבר על הבעיה הפילוח. 240 00:12:01,490 --> 00:12:05,780 אז אני לא יודע אם אתם יודעים, אבל סיני, יפני, נוסף במזרח אסיה 241 00:12:05,780 --> 00:12:08,090 שפות, ושפות אחרות באופן כללי, אין לי 242 00:12:08,090 --> 00:12:09,830 רווחים בין מילות. 243 00:12:09,830 --> 00:12:13,540 ואז אם אתה חושב על האופן שבו סוג המחשב של ניסיונות כדי 244 00:12:13,540 --> 00:12:18,600 מבין עיבוד שפה טבעי, זה נראה במילים ו 245 00:12:18,600 --> 00:12:21,500 מנסה להבין את היחסים ביניהם, נכון? 246 00:12:21,500 --> 00:12:25,440 אבל אז אם יש לך סיני, ואתה יש אפס רווחים, זה ממש קשה 247 00:12:25,440 --> 00:12:28,360 לברר מהו היחס בין מילות, כי אין להם כל 248 00:12:28,360 --> 00:12:29,530 מילות בהתחלה. 249 00:12:29,530 --> 00:12:32,600 אז אתה צריך לעשות משהו שנקרא פילוח שרק אומר לשים 250 00:12:32,600 --> 00:12:36,490 רווחים בין מה שהיינו קוראים מילות בשפות אלה. 251 00:12:36,490 --> 00:12:37,740 הגיוני? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> ואז אנחנו הולכים לדבר על תחביר. 254 00:12:41,540 --> 00:12:44,050 אז רק קצת על טבעי עיבוד שפה. 255 00:12:44,050 --> 00:12:45,420 זה הולך להיות רק סקירה. 256 00:12:45,420 --> 00:12:50,700 אז היום, בעצם מה שאני רוצה לעשות הוא לתת לכם קצת 257 00:12:50,700 --> 00:12:53,930 בתוך מה הן האפשרויות שאתה יכול לעשות עם חישובית 258 00:12:53,930 --> 00:12:54,960 בלשנות. 259 00:12:54,960 --> 00:13:00,410 ואז אתה יכול לראות את מה שאתה חושב הוא מגניב בין הדברים האלה. 260 00:13:00,410 --> 00:13:02,270 ואולי אתה יכול לחשוב על פרויקט ובאתי לדבר איתי. 261 00:13:02,270 --> 00:13:05,260 ואני יכול לתת לך עצה על איך ליישם את זה. 262 00:13:05,260 --> 00:13:09,060 >> אז התחביר הולך להיות קצת על חיפוש גרף ומכונה 263 00:13:09,060 --> 00:13:09,670 תרגום. 264 00:13:09,670 --> 00:13:13,650 אני רק הולך לתת דוגמא לאופן אתה יכול, למשל, לתרגם 265 00:13:13,650 --> 00:13:16,020 משהו מפורטוגזית לאנגלית. 266 00:13:16,020 --> 00:13:17,830 נשמע טוב? 267 00:13:17,830 --> 00:13:19,293 >> אז קודם כל, הבעיה הסיווג. 268 00:13:19,293 --> 00:13:23,590 אני אומר שחלק זה של הסמינר הולך להיות המאתגר ביותר 269 00:13:23,590 --> 00:13:27,560 אחד רק בגלל שיש הולך להיות חלק מקידוד. 270 00:13:27,560 --> 00:13:29,470 אבל זה הולך להיות פייתון. 271 00:13:29,470 --> 00:13:34,380 אני יודע שאתם לא יודעים פייתון, ולכן אני רק הולך להסביר על גבוה 272 00:13:34,380 --> 00:13:35,750 רמה מה שאני עושה. 273 00:13:35,750 --> 00:13:40,900 ואתה לא צריך באמת לדאוג יותר מדי הרבה על התחביר כי זה 274 00:13:40,900 --> 00:13:42,140 משהו שאתם יכולים ללמוד. 275 00:13:42,140 --> 00:13:42,540 בסדר? 276 00:13:42,540 --> 00:13:43,580 נשמע טוב. 277 00:13:43,580 --> 00:13:46,020 >> אז מה הבעיה הסיווג? 278 00:13:46,020 --> 00:13:49,140 אז אתה נתת כמה מילים ל שיר, ואתה רוצה לנחש 279 00:13:49,140 --> 00:13:50,620 מי שר אותו. 280 00:13:50,620 --> 00:13:54,045 וזה יכול להיות לכל סוג של בעיות אחרות. 281 00:13:54,045 --> 00:13:59,980 אז יכול להיות, למשל, יש לה אותך קמפיין לנשיאות ושיש לך 282 00:13:59,980 --> 00:14:02,610 דיבור, ואתה רוצה למצוא אם זה קורה, למשל, 283 00:14:02,610 --> 00:14:04,470 אובמה או מיט רומני. 284 00:14:04,470 --> 00:14:07,700 או שאתה יכול לקבל את חבורה של מיילים ו אתה רוצה להבין אם הם 285 00:14:07,700 --> 00:14:08,890 דואר זבל או לא. 286 00:14:08,890 --> 00:14:11,440 אז זה פשוט סיווג מסוים הנתונים מבוססים על המילים 287 00:14:11,440 --> 00:14:13,790 שיש לך שם. 288 00:14:13,790 --> 00:14:16,295 >> אז כדי לעשות את זה, שיש לך להניח כמה הנחות. 289 00:14:16,295 --> 00:14:20,570 אז הרבה על בלשנות חישובית הוא עושה הנחות, 290 00:14:20,570 --> 00:14:24,100 הנחות בדרך כלל חכמות, כך אתה יכול להגיע לתוצאות טובות. 291 00:14:24,100 --> 00:14:26,670 מנסה ליצור מודל עבורו. 292 00:14:26,670 --> 00:14:31,290 ולאחר מכן לנסות את זה ולראות אם זה עובד, אם זה נותן לך דיוק טוב. 293 00:14:31,290 --> 00:14:33,940 ואם כן, אז אתה מנסה לשפר אותו. 294 00:14:33,940 --> 00:14:37,640 אם זה לא, אתה כמו, אוקיי, אולי אני צריך לעשות הנחה שונה. 295 00:14:37,640 --> 00:14:44,030 >> אז בהנחה שאנחנו הולכים לעשות הוא שאמן בדרך כלל שר 296 00:14:44,030 --> 00:14:49,220 על פי נושא מרובה, ואולי משתמש במילים מספר פעמים רק 297 00:14:49,220 --> 00:14:50,270 כי הם רגילים לזה. 298 00:14:50,270 --> 00:14:51,890 אתה רק יכול לחשוב על החבר שלך. 299 00:14:51,890 --> 00:14:57,350 אני בטוח שיש לך את כל החבר 'ה חברים שאומרים ביטוי החתימה שלהם, 300 00:14:57,350 --> 00:14:59,260 פשוטו כמשמעו, לכל אחד ומשפט - 301 00:14:59,260 --> 00:15:02,660 כמו איזו מילה מסוימת או כמה ספציפי משפט שהם אומרים ל 302 00:15:02,660 --> 00:15:04,020 כל משפט. 303 00:15:04,020 --> 00:15:07,920 >> ומה אתה יכול לומר הוא שאם אתה רואה משפט שיש לו חתימה 304 00:15:07,920 --> 00:15:11,450 ביטוי, שאתם יכולים לנחש שכנראה חבר שלך הוא 305 00:15:11,450 --> 00:15:13,310 אחד אומר את זה, נכון? 306 00:15:13,310 --> 00:15:18,410 אז אתה עושה את הנחה ושלאחר מכן ככה אתה יוצר מודל. 307 00:15:18,410 --> 00:15:24,440 >> הדוגמא שאני הולך לתת לי היא על איך ליידי גאגא, למשל, אנשים 308 00:15:24,440 --> 00:15:27,430 אומר שהיא משתמשת "תינוק" עבור כל מספר אחד השירים שלה. 309 00:15:27,430 --> 00:15:32,270 ולמעשה מדובר בסרטון שמראה שלה אומר את המילה "תינוק" עבור 310 00:15:32,270 --> 00:15:33,410 שירים שונים. 311 00:15:33,410 --> 00:15:33,860 >> [וידאו השמעה] 312 00:15:33,860 --> 00:15:34,310 >> - (שירה) בייבי. 313 00:15:34,310 --> 00:15:36,220 בייבי. 314 00:15:36,220 --> 00:15:37,086 בייבי. 315 00:15:37,086 --> 00:15:37,520 בייבי. 316 00:15:37,520 --> 00:15:37,770 בייבי. 317 00:15:37,770 --> 00:15:38,822 בייב. 318 00:15:38,822 --> 00:15:39,243 בייבי. 319 00:15:39,243 --> 00:15:40,085 בייבי. 320 00:15:40,085 --> 00:15:40,510 בייבי. 321 00:15:40,510 --> 00:15:40,850 בייבי. 322 00:15:40,850 --> 00:15:41,090 >> [השמעה-VIDEO END 323 00:15:41,090 --> 00:15:44,020 >> לוקאס פרייטס: אז יש, אני חושב, 40 שירים כאן שבו היא אומרת 324 00:15:44,020 --> 00:15:48,690 "תינוק". מילה אז אתה בעצם יכול לנחש שאם אתה רואה שיש לו שיר 325 00:15:48,690 --> 00:15:52,180 המילה "תינוק", יש כמה גבוה הסתברות שזה ליידי גאגא. 326 00:15:52,180 --> 00:15:56,450 אבל בואו ננסה לפתח את זה עוד יותר באופן רשמי. 327 00:15:56,450 --> 00:16:00,470 >> אז אלו הם מילות לשירים של ליידי גאגא וקייטי פרי. 328 00:16:00,470 --> 00:16:04,120 אז אתה מסתכל על ליידי גאגא, שאתה רואה שהם "תינוק" יש לי הרבה מופעים של 329 00:16:04,120 --> 00:16:07,710 הרבה מופעים של "דרך". ולאחר מכן יש קייטי פרי הרבה מופעים של 330 00:16:07,710 --> 00:16:10,360 "," הרבה מופעים של "אש". 331 00:16:10,360 --> 00:16:14,560 >> אז בעצם מה שאנחנו רוצים לעשות הוא, אתה מקבל לירי. 332 00:16:14,560 --> 00:16:20,480 בואו נגיד שאתה מקבל לירי עבור שיר הזה הוא "תינוק," רק "תינוק". אם 333 00:16:20,480 --> 00:16:24,750 אתה פשוט מקבל את המילה "תינוק", וזה הוא את כל הנתונים שיש לך מ 334 00:16:24,750 --> 00:16:27,880 ליידי גאגא וקייטי פרי, שהיית אתה מניח שהוא האדם 335 00:16:27,880 --> 00:16:29,370 מי שר את השיר? 336 00:16:29,370 --> 00:16:32,360 ליידי גאגא או קייטי פרי? 337 00:16:32,360 --> 00:16:33,150 ליידי גאגא, נכון? 338 00:16:33,150 --> 00:16:37,400 בגלל שהיא היחידה שאומרת "תינוק". זה נשמע טיפשי, נכון? 339 00:16:37,400 --> 00:16:38,760 אוקיי, זה ממש קל. 340 00:16:38,760 --> 00:16:41,860 אני רק מסתכל על שני שירים ושל כמובן, שהיא היחידה שיש לי 341 00:16:41,860 --> 00:16:42,660 "תינוק". 342 00:16:42,660 --> 00:16:44,740 >> אבל מה אם יש לך חבורה של מילות? 343 00:16:44,740 --> 00:16:50,900 אם יש לך לירי, משהו בפועל כמו, תינוק ", אני רק 344 00:16:50,900 --> 00:16:51,610 הלכתי לראות את [? CFT?] 345 00:16:51,610 --> 00:16:54,020 הרצאה ", או משהו כזה, ו אז אתה באמת צריך להבין - 346 00:16:54,020 --> 00:16:55,780 המבוסס על כל המילים האלה - 347 00:16:55,780 --> 00:16:58,350 מי הוא האמן שכנראה שר את השיר הזה? 348 00:16:58,350 --> 00:17:01,860 אז בואו ננסה לפתח את זה עוד מעט. 349 00:17:01,860 --> 00:17:05,630 >> אוקיי, אז המבוסס רק על הנתונים שאנו קיבלתי, נראה כי גאגא היא כנראה 350 00:17:05,630 --> 00:17:06,260 הזמר. 351 00:17:06,260 --> 00:17:07,904 אבל איך אנחנו יכולים לכתוב זה יותר באופן רשמי? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 ויש הולך להיות קצת קצת סטטיסטיקה. 354 00:17:13,140 --> 00:17:15,880 אז אם אתה הולך לאיבוד, פשוט לנסות כדי להבין את הרעיון. 355 00:17:15,880 --> 00:17:18,700 זה לא משנה אם אתה מבין המשוואות היטב. 356 00:17:18,700 --> 00:17:22,150 כל זה הולך להיות באינטרנט. 357 00:17:22,150 --> 00:17:25,490 >> אז בעצם מה שאני חישוב הוא הסתברות שהשיר הזה הוא על ידי 358 00:17:25,490 --> 00:17:28,040 ליידי גאגא נתנה ש-- 359 00:17:28,040 --> 00:17:30,660 כך סרגל זה משמעו בהתחשב בכך ש-- 360 00:17:30,660 --> 00:17:33,680 ראיתי את המילה "תינוק". האם זה הגיוני? 361 00:17:33,680 --> 00:17:35,540 אז אני מנסה לחשב הסתברות ש. 362 00:17:35,540 --> 00:17:38,540 >> אז יש המשפט הזה שנקרא משפט Bayes שאומר כי 363 00:17:38,540 --> 00:17:43,330 הסתברות של B נתון, היא הסתברות של B ניתנה, פעמים 364 00:17:43,330 --> 00:17:47,660 הסתברות, על ההסתברות ב 'זה משוואה ארוכה. 365 00:17:47,660 --> 00:17:51,970 אבל מה יש לך להבין מ שהוא שזה מה שאני רוצה 366 00:17:51,970 --> 00:17:52,830 לחשב, נכון? 367 00:17:52,830 --> 00:17:56,570 אז ההסתברות שהשיר הזה הוא על ידי ליידי גאגא בהתחשב בעובדה שראתה את המילה 368 00:17:56,570 --> 00:17:58,230 "תינוק". 369 00:17:58,230 --> 00:18:02,960 >> ועכשיו מה שאני מקבל הוא הסתברות של המילה "תינוק" שניתנו 370 00:18:02,960 --> 00:18:04,390 שיש לי ליידי גאגא. 371 00:18:04,390 --> 00:18:07,220 ומה זה בעצם? 372 00:18:07,220 --> 00:18:10,500 מה זה אומר, מה הוא הסתברות לראות את המילה "תינוק" 373 00:18:10,500 --> 00:18:12,130 במילות גאגא? 374 00:18:12,130 --> 00:18:16,240 אם אני רוצה לחשב את זה בצורה מאוד דרך פשוטה, זה רק מספר 375 00:18:16,240 --> 00:18:23,640 פעמים אני רואה את "תינוק" על המספר הכולל של מילות במילות גאגא, נכון? 376 00:18:23,640 --> 00:18:27,600 מהי התדירות שאני רואה מילה הזאת בעבודה של גאגא? 377 00:18:27,600 --> 00:18:30,530 הגיוני? 378 00:18:30,530 --> 00:18:33,420 >> הקדנציה השנייה היא הסתברות של גאגא. 379 00:18:33,420 --> 00:18:34,360 מה זה אומר? 380 00:18:34,360 --> 00:18:38,550 זה בעצם אומר, מה הוא הסתברות של סיווג 381 00:18:38,550 --> 00:18:40,690 כמה מילות כמו גאגא? 382 00:18:40,690 --> 00:18:45,320 וזה קצת מוזר, אבל בואו נחשוב על ירושלים. 383 00:18:45,320 --> 00:18:49,230 אז בואו נגיד שההסתברות של שיש "תינוק" בשיר הוא אותו 384 00:18:49,230 --> 00:18:51,760 לגאגא ובריטני ספירס. 385 00:18:51,760 --> 00:18:54,950 אבל בריטני ספירס יש פעמיים יותר שירים מאשר ליידי גאגא. 386 00:18:54,950 --> 00:19:00,570 אז אם מישהו רק באופן אקראי נותן לך מילות של "תינוק", הדבר הראשון שאתה 387 00:19:00,570 --> 00:19:04,710 להסתכל על זה, מה הוא ההסתברות של שיש "תינוק" בשיר גאגא, "תינוק" 388 00:19:04,710 --> 00:19:05,410 בשיר בריטני? 389 00:19:05,410 --> 00:19:06,460 וזה אותו דבר. 390 00:19:06,460 --> 00:19:10,040 >> אז הדבר השני שאתה רואה הוא, ובכן, מהי ההסתברות של 391 00:19:10,040 --> 00:19:13,770 לירי זה בכוחות עצמו להיות לירי גאגא, ומהי ההסתברות של 392 00:19:13,770 --> 00:19:15,380 להיות לירי בריטני? 393 00:19:15,380 --> 00:19:18,950 אז מאז יש בריטני כל כך הרבה יותר מילות מ גאגא, סביר להניח שהיית עושה 394 00:19:18,950 --> 00:19:21,470 אומר, טוב, זה כנראה לירי בריטני. 395 00:19:21,470 --> 00:19:23,340 אז בגלל זה יש לנו את זה מונח נכון כאן. 396 00:19:23,340 --> 00:19:24,670 הסתברות של גאגא. 397 00:19:24,670 --> 00:19:26,950 הגיוני? 398 00:19:26,950 --> 00:19:28,660 עושה את זה? 399 00:19:28,660 --> 00:19:29,370 על אישור. 400 00:19:29,370 --> 00:19:33,500 >> והאחרון הוא רק ההסתברות של "תינוק" שלא 401 00:19:33,500 --> 00:19:34,810 באמת משנה כל כך הרבה. 402 00:19:34,810 --> 00:19:39,940 אבל זה ההסתברות לראות "תינוק" באנגלית. 403 00:19:39,940 --> 00:19:42,725 בדרך כלל לא אכפת לנו ש הרבה על מונח זה. 404 00:19:42,725 --> 00:19:44,490 האם זה הגיוני? 405 00:19:44,490 --> 00:19:48,110 אז ההסתברות של גאגא היא קרא את ההסתברות לפני 406 00:19:48,110 --> 00:19:49,530 של גאגא הכיתה. 407 00:19:49,530 --> 00:19:53,840 כי זה רק אומר את זה, מה הוא הסתברות שיש בכיתה ש-- 408 00:19:53,840 --> 00:19:55,520 שהוא גאגא - 409 00:19:55,520 --> 00:19:59,350 רק באופן כללי, רק ללא תנאים. 410 00:19:59,350 --> 00:20:02,560 >> ולאחר מכן, כאשר יש לי הסתברות של גאגא נתנה "תינוק," אנחנו קוראים לזה בתוספת 411 00:20:02,560 --> 00:20:06,160 דומע הסתברות כי זה ההסתברות שיש 412 00:20:06,160 --> 00:20:08,300 גאגא נתנה עדות מסוימת. 413 00:20:08,300 --> 00:20:11,050 אז אני נותן לך את הראיות שראיתי את מילת התינוק ו 414 00:20:11,050 --> 00:20:12,690 השיר הגיוני? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 על אישור. 417 00:20:16,410 --> 00:20:22,400 >> אז אם אני חושב שלכל השירים של הליידי גאגא, 418 00:20:22,400 --> 00:20:25,916 מה שיהיה - 419 00:20:25,916 --> 00:20:27,730 ככל הנראה, אני לא יכול לעבור את זה. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 ההסתברות של גאגא תהיה משהו כמו, 2 מעל 24, פעמים 1/2, 422 00:20:36,920 --> 00:20:38,260 מעל 2 מעל 53. 423 00:20:38,260 --> 00:20:40,640 זה לא משנה אם אתה יודע מה המספרים האלה מגיעים. 424 00:20:40,640 --> 00:20:44,750 אבל זה רק מספר שהוא הולך להיות יותר מ 0, נכון? 425 00:20:44,750 --> 00:20:48,610 >> ואז כשאני עושה את קייטי פרי, ההסתברות של "תינוק" נתון קייטי היא 426 00:20:48,610 --> 00:20:49,830 כבר 0, נכון? 427 00:20:49,830 --> 00:20:52,820 כי אין "תינוק" בקייטי פרי. 428 00:20:52,820 --> 00:20:56,360 אז זה הופך להיות 0, וגאגא נצחונות, מה שאומר שגאגא היא 429 00:20:56,360 --> 00:20:57,310 כנראה הזמר. 430 00:20:57,310 --> 00:20:58,560 האם זה הגיוני? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 על אישור. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> אז אם אני רוצה להרוויח יותר רשמי זה, אני בעצם יכול לעשות את מודל 435 00:21:11,750 --> 00:21:12,700 מספר מילות. 436 00:21:12,700 --> 00:21:14,610 אז בואו נגיד שיש לי משהו כמו, "תינוק, אני 437 00:21:14,610 --> 00:21:16,030 על אש ", או משהו כזה. 438 00:21:16,030 --> 00:21:17,760 אז יש לו מספר מילות. 439 00:21:17,760 --> 00:21:20,880 ובמקרה הזה, אתה יכול לראות כי "תינוק" הוא בגאגא, 440 00:21:20,880 --> 00:21:21,710 אבל זה לא בקייטי. 441 00:21:21,710 --> 00:21:24,940 ו "אש" היא בקטי, אבל זה לא בגאגא, נכון? 442 00:21:24,940 --> 00:21:27,200 אז זה מתחיל להיות מסובך, נכון? 443 00:21:27,200 --> 00:21:31,440 כי זה נראה שאתה כמעט יש לקשור בין שתיים. 444 00:21:31,440 --> 00:21:36,980 >> אז מה שאתה צריך לעשות הוא להניח עצמאות בין המילים. 445 00:21:36,980 --> 00:21:41,210 אז בעצם מה זה אומר הוא ש אני רק חישוב מה הוא 446 00:21:41,210 --> 00:21:44,330 הסתברות לראות "תינוק," מה היא ההסתברות לראות את "אני", ו 447 00:21:44,330 --> 00:21:46,670 "אני", וכן "על", ו "אש" כל בנפרד. 448 00:21:46,670 --> 00:21:48,670 אז אני הכפלה כולם. 449 00:21:48,670 --> 00:21:52,420 ואני רואה מה הוא ההסתברות לראות את כל המשפט. 450 00:21:52,420 --> 00:21:55,210 הגיוני? 451 00:21:55,210 --> 00:22:00,270 >> אז בעצם, אם יש לי רק מילה אחת, מה שאני רוצה למצוא הוא מקסימום ARG, 452 00:22:00,270 --> 00:22:05,385 מה שאומר, מה היא הכיתה כי הוא נותן לי את ההסתברות הגבוהה ביותר? 453 00:22:05,385 --> 00:22:10,010 אז מה הוא המעמד, כי הוא נותן שלי את ההסתברות הגבוהה ביותר עבור 454 00:22:10,010 --> 00:22:11,940 הסתברות של מעמד נתון מילה. 455 00:22:11,940 --> 00:22:17,610 אז במקרה הזה, גאגא נתנה "תינוק". או קייטי ניתנו "תינוק". הגיוני? 456 00:22:17,610 --> 00:22:21,040 >> ובדיוק מBayes, כי משוואה שהראיתי, 457 00:22:21,040 --> 00:22:24,780 אנו יוצרים חלק זה. 458 00:22:24,780 --> 00:22:28,750 הדבר היחיד הוא שאתה רואה את זה ההסתברות של מילת נתונה 459 00:22:28,750 --> 00:22:31,370 שינויים ברמה בהתאם בכיתה, נכון? 460 00:22:31,370 --> 00:22:34,260 מספר של "תינוק" שיש לי בגאגא הוא שונה מקייטי. 461 00:22:34,260 --> 00:22:37,640 ההסתברות של המעמד גם שינויים כי זה פשוט המספר 462 00:22:37,640 --> 00:22:39,740 של שירים שכל אחד מהם יש. 463 00:22:39,740 --> 00:22:43,980 >> אבל ההסתברות למילה עצמה הולך להיות זהה עבור כל 464 00:22:43,980 --> 00:22:44,740 אמנים, נכון? 465 00:22:44,740 --> 00:22:47,150 אז ההסתברות של המילה היא פשוט, מהי ההסתברות של 466 00:22:47,150 --> 00:22:49,820 רואה את מילה הזאת ב בשפה אנגלית? 467 00:22:49,820 --> 00:22:51,420 אז זה אותו הדבר לכולם. 468 00:22:51,420 --> 00:22:55,790 אז מאחר שזו היא קבועה, אנחנו יכולים רק שחרר את זה ולא אכפת לו. 469 00:22:55,790 --> 00:23:00,230 אז זה יהיה ממש משוואה שאנחנו מחפשים. 470 00:23:00,230 --> 00:23:03,360 >> ואם יש לי מספר מילות, אני עדיין הולך להיות לפני 471 00:23:03,360 --> 00:23:04,610 הסתברות כאן. 472 00:23:04,610 --> 00:23:06,980 הדבר היחיד הוא שאני הכפלה ההסתברות של 473 00:23:06,980 --> 00:23:08,490 את כל המילים האחרות. 474 00:23:08,490 --> 00:23:10,110 אז אני הכפלה כולם. 475 00:23:10,110 --> 00:23:12,610 הגיוני? 476 00:23:12,610 --> 00:23:18,440 זה נראה מוזר, אבל בעצם אומר, לחשב מראש של הכיתה, ו 477 00:23:18,440 --> 00:23:22,100 לאחר מכן להכפיל בהסתברות של כל אחד של המילים להיות במעמד הזה. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> ואתה יודע שההסתברות של מילה שניתנה בכיתה הולכת להיות 480 00:23:29,150 --> 00:23:34,520 מספר הפעמים שאתה רואה את מילה הזאת ב מעמד זה, מחולק במספר 481 00:23:34,520 --> 00:23:37,020 יש לך מילים שב כיתה באופן כללי. 482 00:23:37,020 --> 00:23:37,990 הגיוני? 483 00:23:37,990 --> 00:23:41,680 זה רק איך "תינוק" היה 2 מעל את מספר המילים ש 484 00:23:41,680 --> 00:23:43,020 היה לי במילים. 485 00:23:43,020 --> 00:23:45,130 אז רק בתדר. 486 00:23:45,130 --> 00:23:46,260 >> אלא יש דבר אחד. 487 00:23:46,260 --> 00:23:51,250 זוכר איך הייתי מראה כי הסתברות של מילות להיות "תינוק" 488 00:23:51,250 --> 00:23:56,350 מקייטי פרי היו 0 רק בגלל שקייטי פרי לא היה "תינוק" בכלל? 489 00:23:56,350 --> 00:24:04,900 אבל זה נשמע קצת קשה לפשוט פשוט אומר שמילים לא יכולות להיות מ 490 00:24:04,900 --> 00:24:10,040 אמן רק בגלל שאין להם מילה שבפרט בכל עת. 491 00:24:10,040 --> 00:24:13,330 >> אז פשוט אפשר להגיד, טוב, אם אתה אין לי המילה הזאת, אני הולך 492 00:24:13,330 --> 00:24:15,640 לתת לך הסתברות נמוכה יותר, אבל אני פשוט לא הולך 493 00:24:15,640 --> 00:24:17,420 אתן לך 0 באופן מיידי. 494 00:24:17,420 --> 00:24:21,040 כי אולי זה היה משהו כמו, "אש, אש, אש, אש", שהוא 495 00:24:21,040 --> 00:24:21,990 לחלוטין קייטי פרי. 496 00:24:21,990 --> 00:24:26,060 ולאחר מכן "תינוק", וזה רק הולך 0 מייד כי לא היו אחד 497 00:24:26,060 --> 00:24:27,250 "תינוק". 498 00:24:27,250 --> 00:24:31,440 >> אז בעצם מה שאנחנו עושים משהו נקרא החלקת Laplace. 499 00:24:31,440 --> 00:24:36,260 וזה רק אומר שאני נותן הסתברות כלשהי אפילו למילות 500 00:24:36,260 --> 00:24:37,850 שלא קיימים. 501 00:24:37,850 --> 00:24:43,170 אז מה שאני עושה הוא שכאשר אני חישוב זה, אני תמיד מוסיף 1 עד 502 00:24:43,170 --> 00:24:44,180 המונה. 503 00:24:44,180 --> 00:24:48,060 אז גם אם המילה לא קיימת, ב מקרה זה, אם זה הוא 0, אני עדיין 504 00:24:48,060 --> 00:24:51,250 חישוב זה כ1 מעל מספר כולל של מילות. 505 00:24:51,250 --> 00:24:55,060 אחרת, אני מקבל כמה מילות יש לי ואני מוסיף 1. 506 00:24:55,060 --> 00:24:58,300 אז אני סומך על שני המקרים. 507 00:24:58,300 --> 00:25:00,430 הגיוני? 508 00:25:00,430 --> 00:25:03,060 >> אז עכשיו בואו נעשה קצת קידוד. 509 00:25:03,060 --> 00:25:06,440 אני הולך צריך לעשות את זה די מהר, אבל זה רק חשוב שאתה 510 00:25:06,440 --> 00:25:08,600 חבר 'ה להבין את המושגים. 511 00:25:08,600 --> 00:25:13,450 אז מה שאנחנו מנסים לעשות הוא בדיוק ליישם את זה 512 00:25:13,450 --> 00:25:14,330 דבר שאני רק אמרתי - 513 00:25:14,330 --> 00:25:19,110 אני רוצה שתשים את המילים מ ליידי גאגא וקייטי פרי. 514 00:25:19,110 --> 00:25:22,980 והתכנית הולכת להיות מסוגל אומר שאם המילים חדשות הללו הן מגאגא 515 00:25:22,980 --> 00:25:24,170 או קייטי פרי. 516 00:25:24,170 --> 00:25:25,800 הגיוני? 517 00:25:25,800 --> 00:25:27,530 על אישור. 518 00:25:27,530 --> 00:25:30,710 >> אז יש לי תכנית זה אני הולך לקרוא classify.py. 519 00:25:30,710 --> 00:25:31,970 אז זה פייתון. 520 00:25:31,970 --> 00:25:34,210 זה שפת תכנות חדשה. 521 00:25:34,210 --> 00:25:38,020 זה דומה מאוד בחלק דרכים ל-C ו-PHP. 522 00:25:38,020 --> 00:25:43,180 זה דומה, כי אם אתה רוצה ללמוד פייתון לאחר ידיעת C, זה 523 00:25:43,180 --> 00:25:46,270 ממש לא, כי חלק גדול מאתגר רק בגלל שפייתון הוא הרבה יותר קל 524 00:25:46,270 --> 00:25:47,520 מ C, קודם כל. 525 00:25:47,520 --> 00:25:49,370 והרבה דברים כבר יישם לך. 526 00:25:49,370 --> 00:25:56,820 אז איך בדיוק כמו PHP יש פונקציות ש למיין את רשימה, או לצרף משהו 527 00:25:56,820 --> 00:25:58,780 למערך, או בלה, בלה, בלה. 528 00:25:58,780 --> 00:26:00,690 פייתון יש את כל אלה גם כן. 529 00:26:00,690 --> 00:26:05,960 >> אז רק אני הולך להסביר במהירות איך אנחנו יכולים לעשות את הסיווג 530 00:26:05,960 --> 00:26:07,860 בעיה לכאן. 531 00:26:07,860 --> 00:26:13,230 אז בואו נגיד שבמקרה זה, יש לי מילות מגאגא וקייטי פרי. 532 00:26:13,230 --> 00:26:21,880 האופן שבו יש לי מילות אלו הוא ש המילה הראשונה של המילים היא 533 00:26:21,880 --> 00:26:25,250 את שמו של האמן, ו השאר הוא המילים. 534 00:26:25,250 --> 00:26:29,470 אז בואו נגיד שיש לי ברשימה זו אשר הראשון היא מילות של גאגא. 535 00:26:29,470 --> 00:26:31,930 אז הנה אני על המסלול הנכון. 536 00:26:31,930 --> 00:26:35,270 והבא אחריו הוא קייטי, ו יש לו גם את המילים. 537 00:26:35,270 --> 00:26:38,040 >> אז ככה אתה מצהיר משתנה בפייתון. 538 00:26:38,040 --> 00:26:40,200 אתה לא צריך לתת את סוג הנתונים. 539 00:26:40,200 --> 00:26:43,150 אתה פשוט לכתוב "מילות", סוג של אוהב ב-PHP. 540 00:26:43,150 --> 00:26:44,890 הגיוני? 541 00:26:44,890 --> 00:26:47,770 >> אז מה הם הדברים שיש לי כדי לחשב כדי להיות מסוגל לחשב את 542 00:26:47,770 --> 00:26:49,360 הסתברויות? 543 00:26:49,360 --> 00:26:55,110 אני צריך לחשב את "ההרשעות קודמות" של כל אחד משונה 544 00:26:55,110 --> 00:26:56,710 כיתות שיש לי. 545 00:26:56,710 --> 00:27:06,680 אני צריך לחשב את "הישבנים" או פחות או יותר את ההסתברויות של 546 00:27:06,680 --> 00:27:12,150 כל אחת מהמילים השונות ש אני יכול לקבל עבור כל אמן. 547 00:27:12,150 --> 00:27:17,210 אז בתוך גאגא, למשל, אני הולך יש רשימה של כמה פעמים אני רואה 548 00:27:17,210 --> 00:27:19,250 כל אחת מהמילים. 549 00:27:19,250 --> 00:27:20,760 הגיוני? 550 00:27:20,760 --> 00:27:25,370 >> ולבסוף, אני פשוט אצטרך רשימה שנקראת "מילות", כי הוא רק הולך 551 00:27:25,370 --> 00:27:29,780 יש כמה מילות שאני יש לכל אמן. 552 00:27:29,780 --> 00:27:33,760 אז לגאגא, למשל, כשאני מסתכל למילים, הייתי לי, אני חושב, 24 553 00:27:33,760 --> 00:27:34,750 מילות בסך הכל. 554 00:27:34,750 --> 00:27:38,970 אז ברשימה זו היא רק הולכת לי 24 גאגא, קייטי ומספר אחר. 555 00:27:38,970 --> 00:27:40,130 הגיוני? 556 00:27:40,130 --> 00:27:40,560 על אישור. 557 00:27:40,560 --> 00:27:42,530 >> אז עכשיו, בעצם, בואו ללכת לקידוד. 558 00:27:42,530 --> 00:27:45,270 אז בפייתון, אתה באמת יכול תחזור חבורה של שונה 559 00:27:45,270 --> 00:27:46,630 דברים מפונקציה. 560 00:27:46,630 --> 00:27:50,810 אז אני הולך ליצור בפונקציה זו בשם "מותנה", שהוא הולך 561 00:27:50,810 --> 00:27:53,890 כדי להחזיר את כל הדברים האלה, "הרשעות קודמות", "הסתברויות", ו 562 00:27:53,890 --> 00:28:05,690 "מילות". אז "על תנאי", וזה הולך להיות קורא ל" מילות ". 563 00:28:05,690 --> 00:28:11,510 >> אז עכשיו אני רוצה שבעצם לכתוב פונקציה זו. 564 00:28:11,510 --> 00:28:17,750 לכן הדרך שאני יכול לכתוב את זה פונקציה אני רק הגדרתי את זה 565 00:28:17,750 --> 00:28:20,620 לתפקד עם "def". אז עשיתי "def מותנה, "וזה לוקח 566 00:28:20,620 --> 00:28:28,700 "מילות". ומה זה הולך לעשות הוא, קודם כל, יש לי ההרשעות הקודמות שלי 567 00:28:28,700 --> 00:28:31,030 כי אני רוצה לחשב. 568 00:28:31,030 --> 00:28:34,330 >> לכן הדרך שאני יכול לעשות את זה היא ליצור מילון בפייתון, אשר 569 00:28:34,330 --> 00:28:37,320 הוא פחות או יותר אותו הדבר כמו חשיש שולחן, או שזה כמו איטרטיבי 570 00:28:37,320 --> 00:28:40,480 מערך ב-PHP. 571 00:28:40,480 --> 00:28:44,150 כך אני מצהיר מילון. 572 00:28:44,150 --> 00:28:53,580 ובעצם מה שזה אומר זה הרשעות קודמות של גאגא היא 0.5, למשל, אם 573 00:28:53,580 --> 00:28:57,200 50% מהמילים הם מ גאגא, 50% הם מקייטי. 574 00:28:57,200 --> 00:28:58,450 הגיוני? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 אז יש לי להבין איך כדי לחשב את ההרשעות הקודמות. 577 00:29:03,680 --> 00:29:07,120 >> למחרת באלה שאני צריך לעשות, גם, הם ההסתברויות ומילות. 578 00:29:07,120 --> 00:29:17,100 אז ההסתברויות של גאגא היא הרשימה של כל ההסתברויות שאני 579 00:29:17,100 --> 00:29:19,160 יש לכל אחת מהמילים לגאגא. 580 00:29:19,160 --> 00:29:23,880 אז אם אני הולך להסתברויות של גאגא "תינוק", למשל, זה ייתן לי 581 00:29:23,880 --> 00:29:28,750 משהו כמו 2 מעל 24 במקרה זה. 582 00:29:28,750 --> 00:29:30,070 הגיוני? 583 00:29:30,070 --> 00:29:36,120 אז אני הולך "הסתברויות," ללכת דלי "גאגא" שיש לו רשימה של כל 584 00:29:36,120 --> 00:29:40,550 מילות גאגא, אז אני הולך "תינוק" ואני רואה את ההסתברות. 585 00:29:40,550 --> 00:29:45,940 >> וסוף סוף יש לי את זה "מילות" במילון. 586 00:29:45,940 --> 00:29:53,620 אז הנה, "הסתברויות". ולאחר מכן "מילות". אז אם אני עושה "מילות", "גאגא" 587 00:29:53,620 --> 00:29:58,330 מה שהולך לקרות הוא שזה הולך לתת לי 24, ואמר שאני 588 00:29:58,330 --> 00:30:01,990 יש לי 24 מילות בתוך מילות מגאגא. 589 00:30:01,990 --> 00:30:04,110 הגיוני? 590 00:30:04,110 --> 00:30:07,070 אז הנה, "מילות" שווה Dah-Dah-dah. 591 00:30:07,070 --> 00:30:07,620 אישור 592 00:30:07,620 --> 00:30:12,210 >> אז מה שאני הולך לעשות הוא אני הולך לחזר על כל אחת מהמילים, ולכן 593 00:30:12,210 --> 00:30:14,490 כל אחת מהמחרוזות ש יש לי ברשימה. 594 00:30:14,490 --> 00:30:18,040 ואני הולך לחשב את הדברים האלה לכל אחד מהמועמדים. 595 00:30:18,040 --> 00:30:19,950 הגיוני? 596 00:30:19,950 --> 00:30:21,700 אז אני צריך לעשות ללולאה. 597 00:30:21,700 --> 00:30:26,300 >> אז בפייתון מה אני יכול לעשות הוא "עבור קו במילים. "אותו דבר כמו 598 00:30:26,300 --> 00:30:28,000 "לכל אחד" הצהרה ב-PHP. 599 00:30:28,000 --> 00:30:33,420 זוכר איך אם זה היה PHP שיכולתי אומר "לכל מילות כמו 600 00:30:33,420 --> 00:30:35,220 שורה. "הגיוני? 601 00:30:35,220 --> 00:30:38,900 אז אני לוקח את כל אחד מהקווים, בזה מקרה, במחרוזת זו והבאה 602 00:30:38,900 --> 00:30:44,540 שרשרת כך עבור כל אחד מהקווים מה אני הולך לעשות הוא ראשון, אני הולך 603 00:30:44,540 --> 00:30:49,150 לפצל את הקו הזה לרשימה מילות מופרדות ברווחים. 604 00:30:49,150 --> 00:30:53,730 >> אז הדבר מגניב על פייתון הוא ש אפשר רק גוגל כמו "איך אתה יכול אני 605 00:30:53,730 --> 00:30:58,220 לפצל מחרוזות למילים? "וזה הולך לספר לכם איך לעשות את זה. 606 00:30:58,220 --> 00:31:04,890 והדרך לעשות את זה, זה רק קו " = Line.split () "וזה בעצם 607 00:31:04,890 --> 00:31:08,640 הולך לתת לך רשימה עם כל אחת מהמילים כאן. 608 00:31:08,640 --> 00:31:09,620 הגיוני? 609 00:31:09,620 --> 00:31:15,870 אז עכשיו שאני עשיתי את זה אני רוצה לדעת מי הוא הזמר של השיר הזה. 610 00:31:15,870 --> 00:31:20,130 וכדי לעשות זאת אני פשוט צריך לקבל את האלמנט הראשון של המערך, נכון? 611 00:31:20,130 --> 00:31:26,390 אז רק אני יכול לומר כי "אני זמרת = קו (0) "זה הגיוני? 612 00:31:26,390 --> 00:31:32,010 >> ואז מה שאני צריך לעשות הוא, קודם הכל, אני הולך לעדכן כמה 613 00:31:32,010 --> 00:31:36,130 יש מילים שתחת "גאגא". אז אני פשוט הולך לחשב כמה מילות אני 614 00:31:36,130 --> 00:31:38,690 יש ברשימה זו, נכון? 615 00:31:38,690 --> 00:31:41,910 בגלל זה הוא בכמה מילות יש לי במילים ואני רק הולך 616 00:31:41,910 --> 00:31:44,120 להוסיף אותו למערך "גאגא". 617 00:31:44,120 --> 00:31:47,090 האם זה הגיוני? 618 00:31:47,090 --> 00:31:49,010 אל תתמקד יותר מדי על התחביר. 619 00:31:49,010 --> 00:31:50,430 לחשוב יותר על המושגים. 620 00:31:50,430 --> 00:31:52,400 זה החלק החשוב ביותר. 621 00:31:52,400 --> 00:31:52,720 על אישור. 622 00:31:52,720 --> 00:32:00,260 >> אז מה אני יכול לעשות את זה הוא אם "גאגא" הוא כבר באותה רשימה, ולכן "אם הזמר ב 623 00:32:00,260 --> 00:32:03,190 מילות "מה שאומר שאני כבר יש מילות ידי גאגא. 624 00:32:03,190 --> 00:32:06,640 אני רק רוצה להוסיף נוסף מילים לכך. 625 00:32:06,640 --> 00:32:15,810 אז מה שאני עושה הוא "מילות (הזמר) + = Len (קו) - 1 ". 626 00:32:15,810 --> 00:32:18,250 ואז אני יכול פשוט לעשות אורכו של הקו. 627 00:32:18,250 --> 00:32:21,860 אז כמה אלמנטים שאני יש במערך. 628 00:32:21,860 --> 00:32:27,060 ואני צריך לעשות מינוס 1 רק בגלל האלמנט הראשון של המערך הוא רק 629 00:32:27,060 --> 00:32:29,180 הזמר ואלה אינם מילות. 630 00:32:29,180 --> 00:32:31,420 הגיוני? 631 00:32:31,420 --> 00:32:32,780 על אישור. 632 00:32:32,780 --> 00:32:35,820 >> "אחר", זה אומר שאני רוצה באמת הכנס גאגא לרשימה. 633 00:32:35,820 --> 00:32:45,990 אז אני פשוט עושה את "מילות (הזמר) = Len (קו) - 1, "מצטער. 634 00:32:45,990 --> 00:32:49,200 אז ההבדל היחיד בין שתיים קווים הוא שזה אחד, זה לא 635 00:32:49,200 --> 00:32:51,080 קיימות עדיין, אז אני פשוט מאתחל אותו. 636 00:32:51,080 --> 00:32:53,820 זה אחד שאני ממש הוספתי. 637 00:32:53,820 --> 00:32:55,570 על אישור. 638 00:32:55,570 --> 00:32:59,480 אז זה היה מוסיף למילים. 639 00:32:59,480 --> 00:33:03,040 >> עכשיו אני רוצה להוסיף להרשעות הקודמות. 640 00:33:03,040 --> 00:33:05,480 אז איך אני יכול לחשב את ההרשעות הקודמות? 641 00:33:05,480 --> 00:33:11,580 ניתן לחשב ההרשעות הקודמות על ידי כמה פעמים. 642 00:33:11,580 --> 00:33:15,340 אז כמה פעמים אתה רואה את הזמר ש בין כל הזמרים שאתה 643 00:33:15,340 --> 00:33:16,380 יש, נכון? 644 00:33:16,380 --> 00:33:18,810 אז לגאגא וקייטי פרי, במקרה הזה, אני רואה את גאגא 645 00:33:18,810 --> 00:33:20,570 פעם אחת, קייטי פרי ועונה אחת. 646 00:33:20,570 --> 00:33:23,320 >> אז בעצם ההרשעות הקודמות לגאגא וקייטי פרי היית 647 00:33:23,320 --> 00:33:24,390 להיות רק אחד, נכון? 648 00:33:24,390 --> 00:33:26,500 אתה רק כמה פעמים אני רואה את האמן. 649 00:33:26,500 --> 00:33:28,740 אז זה קל מאוד לחשב. 650 00:33:28,740 --> 00:33:34,100 אני יכול רק משהו דומה כמו "אם הזמר בהרשעות קודמות, "אני רק הולך 651 00:33:34,100 --> 00:33:38,970 להוסיף 1 לתיבת ההרשעות הקודמת שלהם. 652 00:33:38,970 --> 00:33:51,000 אז, "הרשעות קודמות (לשיר)" + = 1 "ולאחר מכן" אחר " אני הולך לעשות "הרשעות קודמות (זמרת) 653 00:33:51,000 --> 00:33:55,000 = 1. "זה הגיוני? 654 00:33:55,000 --> 00:34:00,080 >> אז אם הוא לא קיים רק שמתי כמו 1, אחרת אני פשוט להוסיף 1. 655 00:34:00,080 --> 00:34:11,280 אוקיי, אז עכשיו כל מה שנשאר לי לעשות הוא גם להוסיף כל אחת מהמילים כדי 656 00:34:11,280 --> 00:34:12,290 הסתברויות. 657 00:34:12,290 --> 00:34:14,889 אז אני צריך לספור כמה פעמים אני רואה כל אחת מהמילים. 658 00:34:14,889 --> 00:34:18,780 אז אני רק צריך לעשות עוד ללולאה בקו. 659 00:34:18,780 --> 00:34:25,190 >> דבר אז ראשון שאני הולך לעשות הוא לבדוק אם הזמר כבר יש 660 00:34:25,190 --> 00:34:26,969 מערך הסתברויות. 661 00:34:26,969 --> 00:34:31,739 אז אני בודק אם הזמר לא יש מערך הסתברויות, אני פשוט 662 00:34:31,739 --> 00:34:34,480 הולך לאתחל אחד עבורם. 663 00:34:34,480 --> 00:34:36,400 זה אפילו לא מערך, מצטער, זה מילון. 664 00:34:36,400 --> 00:34:43,080 אז ההסתברויות של הזמר הולכת להיות מילון פתוח, ולכן אני 665 00:34:43,080 --> 00:34:45,830 רק אתחול מילון בשביל זה. 666 00:34:45,830 --> 00:34:46,820 בסדר? 667 00:34:46,820 --> 00:34:58,330 >> ועכשיו אני יכול באמת לעשות ללולאה כדי לחשב כל אחת מהמילים ' 668 00:34:58,330 --> 00:35:00,604 הסתברויות. 669 00:35:00,604 --> 00:35:01,540 על אישור. 670 00:35:01,540 --> 00:35:04,160 אז מה אני יכול לעשות הוא ללולאה. 671 00:35:04,160 --> 00:35:06,590 אז רק אני הולך לחזר על המערך. 672 00:35:06,590 --> 00:35:15,320 לכן הדרך שאני יכול לעשות את זה בפייתון הוא "עבור i בטווח." מ1 673 00:35:15,320 --> 00:35:19,200 כי אני רוצה להתחיל בשני אלמנט בגלל הראשון הוא 674 00:35:19,200 --> 00:35:20,260 שם הזמר. 675 00:35:20,260 --> 00:35:24,990 אז מאחד עד אורכו של הקו. 676 00:35:24,990 --> 00:35:29,760 וכשאני נע זה באמת ללכת מ כמו כאן בין 1 ל len של 677 00:35:29,760 --> 00:35:30,740 מינוס קו 1. 678 00:35:30,740 --> 00:35:33,810 אז זה כבר עושה את הדבר הזה של עשייה n מינוס 1 למערכים שהוא מאוד 679 00:35:33,810 --> 00:35:35,500 נוח. 680 00:35:35,500 --> 00:35:37,850 הגיוני? 681 00:35:37,850 --> 00:35:42,770 >> אז לכל אחד מאלה, מה שאני הולך לעשות הוא, בדיוק כמו בשני, 682 00:35:42,770 --> 00:35:50,320 אני הולך לבדוק אם המילה בזה עמדה בקו כבר ב 683 00:35:50,320 --> 00:35:51,570 הסתברויות. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 ואז כמו שאמרתי כאן, הסתברויות מילות, כמו שבמתי 686 00:35:57,260 --> 00:35:58,400 "הסתברויות (זמרת)". 687 00:35:58,400 --> 00:35:59,390 אז את שמו של הזמר. 688 00:35:59,390 --> 00:36:03,450 אז אם זה כבר ב "Probabilit (זמרת)", זה אומר שאני 689 00:36:03,450 --> 00:36:11,960 רוצה להוסיף 1 לזה, אז אני הולך לעשות "הסתברויות (זמרת)", ו 690 00:36:11,960 --> 00:36:14,100 מילה נקראת "קו (ט)". 691 00:36:14,100 --> 00:36:22,630 אני הולך להוסיף 1 ו" אחר "אני פשוט הולך לאתחל אותו 1. 692 00:36:22,630 --> 00:36:23,880 "קו (ט)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 הגיוני? 695 00:36:28,420 --> 00:36:30,180 >> לכן, חישבתי את כל המערכים. 696 00:36:30,180 --> 00:36:36,580 אז, עכשיו כל מה שאני צריך לעשות בשביל זה אחד הוא פשוט "לחזור הרשעות קודמות, 697 00:36:36,580 --> 00:36:43,230 הסתברויות ומילות. "בואו לראות אם יש בכלל, על אישור. 698 00:36:43,230 --> 00:36:45,690 נראה שהכל עובד עד כה. 699 00:36:45,690 --> 00:36:46,900 אז, זה הגיוני? 700 00:36:46,900 --> 00:36:47,750 בדרך כלשהי? 701 00:36:47,750 --> 00:36:49,280 על אישור. 702 00:36:49,280 --> 00:36:51,980 אז עכשיו יש לי את כל ההסתברויות. 703 00:36:51,980 --> 00:36:55,100 אז עכשיו הדבר היחיד שנשאר לי הוא רק צריך את הדבר הזה, כי 704 00:36:55,100 --> 00:36:58,650 מחשב את התוצר של כל הסתברויות כאשר אני מקבל את המילים. 705 00:36:58,650 --> 00:37:06,270 >> אז בואו נגיד שאני רוצה להתקשר עם החברה פונקציה זו "לסווג ()" ו 706 00:37:06,270 --> 00:37:08,880 דבר הפונקציה שלוקחת רק ויכוח. 707 00:37:08,880 --> 00:37:13,170 בואו נגיד "בייבי, אני עולה באש" וזה הולך להבין מה הוא 708 00:37:13,170 --> 00:37:14,490 הסתברות שזה גאגא? 709 00:37:14,490 --> 00:37:16,405 מה ההסתברות שזו קייטי? 710 00:37:16,405 --> 00:37:19,690 נשמע טוב? 711 00:37:19,690 --> 00:37:25,750 אז רק אני הולך צריך ליצור פונקציה חדשה בשם "לסווג ()" ו 712 00:37:25,750 --> 00:37:29,180 זה הולך לקחת קצת מילות גם כן. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 וחוץ מזה אני גם המילים צריך לשלוח הרשעות הקודמות, 715 00:37:36,160 --> 00:37:37,700 הסתברויות והמילים. 716 00:37:37,700 --> 00:37:44,000 אז אני הולך לשלוח את מילות, הרשעות קודמות, הסתברויות, מילות. 717 00:37:44,000 --> 00:37:51,840 >> אז זה לוקח מילות, הרשעות קודמות, הסתברויות, מילות. 718 00:37:51,840 --> 00:37:53,530 אז, מה זה עושה? 719 00:37:53,530 --> 00:37:57,180 זה בעצם הולך לעבור את כל המועמדים האפשריים כי אתה 720 00:37:57,180 --> 00:37:58,510 יש לי בתור זמרת. 721 00:37:58,510 --> 00:37:59,425 ושבו הם המועמדים האלה? 722 00:37:59,425 --> 00:38:01,020 הם בהרשעות הקודמות, נכון? 723 00:38:01,020 --> 00:38:02,710 אז יש לי את כל אלה לשם. 724 00:38:02,710 --> 00:38:07,870 אז אני הולך יש מילון מכל המועמדים האפשריים. 725 00:38:07,870 --> 00:38:14,220 ולאחר מכן לכל מועמד ב הרשעות קודמות, אז זה אומר שזה הולך 726 00:38:14,220 --> 00:38:17,740 להיות גאגא, קייטי אם היה לי יותר זה יהיה יותר. 727 00:38:17,740 --> 00:38:20,410 אני הולך להתחיל חישוב הסתברות זו. 728 00:38:20,410 --> 00:38:28,310 ההסתברות כפי שראינו ב PowerPoint הוא הפעמים לפני 729 00:38:28,310 --> 00:38:30,800 תוצר של כל אחד מן הסתברויות אחרות. 730 00:38:30,800 --> 00:38:32,520 >> אז אני יכול לעשות את אותו הדבר כאן. 731 00:38:32,520 --> 00:38:36,330 אני רק יכול לעשות את ההסתברות היא בתחילה רק לפני. 732 00:38:36,330 --> 00:38:40,340 אז הרשעות קודמות של המועמד. 733 00:38:40,340 --> 00:38:40,870 נכון? 734 00:38:40,870 --> 00:38:45,360 ועכשיו אני צריך לחזר על כל מילות שיש לי במילים להיות 735 00:38:45,360 --> 00:38:48,820 תוכל להוסיף את ההסתברות לכל אחד מהם, בסדר? 736 00:38:48,820 --> 00:38:57,900 לכן, "למילה במילים" מה אני הולך לעשות הוא, אם המילה היא ב 737 00:38:57,900 --> 00:39:01,640 "הסתברויות (מועמד)", אשר אומר שזה מילה ש 738 00:39:01,640 --> 00:39:03,640 מועמד יש במילים שלהם - 739 00:39:03,640 --> 00:39:05,940 לדוגמא, "תינוק" לגאגא - 740 00:39:05,940 --> 00:39:11,710 על מה אני הולך לעשות הוא כי הסתברות הולכת להיות מוכפלת 741 00:39:11,710 --> 00:39:22,420 עד ליום 1 בתוספת ההסתברויות המועמד למילה זו. 742 00:39:22,420 --> 00:39:25,710 וזה נקרא "מילה". 743 00:39:25,710 --> 00:39:32,440 זה מחולק במספר המילים שיש לי למועמד ש. 744 00:39:32,440 --> 00:39:37,450 המספר הכולל של מילות שיש לי לזמרת שאני מסתכל. 745 00:39:37,450 --> 00:39:40,290 >> "אחר". זה אומר שזה מילה חדשה כך שזה יהיה כמו לדוגמא 746 00:39:40,290 --> 00:39:41,860 "אש" לליידי גאגא. 747 00:39:41,860 --> 00:39:45,760 אז אני רק רוצה לעשות 1 על "מילה (מועמד)". 748 00:39:45,760 --> 00:39:47,710 אז אני לא רוצה לשים את המונח הזה כאן. 749 00:39:47,710 --> 00:39:50,010 >> אז זה הולך להיות בעצם העתקה והדבקה של זה. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 אבל אני הולך למחוק את החלק הזה. 752 00:39:56,000 --> 00:39:57,610 אז זה פשוט הולך להיות 1 על זה. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 נשמע טוב? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 ועכשיו בסוף, אני רק הולך להדפיס את שמו של המועמד ו 757 00:40:09,700 --> 00:40:15,750 ההסתברות שיש לך של יש S במילים שלהם. 758 00:40:15,750 --> 00:40:16,200 הגיוני? 759 00:40:16,200 --> 00:40:18,390 ואני עושה אפילו לא צריך מילון זה. 760 00:40:18,390 --> 00:40:19,510 הגיוני? 761 00:40:19,510 --> 00:40:21,810 >> אז, בואו נראה אם ​​זה באמת עובד. 762 00:40:21,810 --> 00:40:24,880 אז אם אני מפעיל את זה, זה לא עבד. 763 00:40:24,880 --> 00:40:26,130 חכה שני אחת. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "מילות (מועמד)", "מילות (מועמד)", זה 766 00:40:31,720 --> 00:40:33,750 שמו של המערך. 767 00:40:33,750 --> 00:40:41,435 אישור אז, זה אומר שיש כמה באגים למועמד בהרשעות קודמות. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 תן לי רק להירגע קצת. 770 00:40:48,760 --> 00:40:50,360 על אישור. 771 00:40:50,360 --> 00:40:51,305 בואו ננסה. 772 00:40:51,305 --> 00:40:51,720 על אישור. 773 00:40:51,720 --> 00:40:58,710 >> כך שזה נותן לי קייטי פרי זו הסתברות לכך פעמים 10 עד 774 00:40:58,710 --> 00:41:02,200 יש מינוס 7, וזה גאגא פעמים 10 למינוס 6. 775 00:41:02,200 --> 00:41:05,610 אז אתה רואה שזה מראה שגאגא יש הסתברות גבוהה יותר. 776 00:41:05,610 --> 00:41:09,260 אז "בייבי, אני על אש" הוא כנראה שיר גאגא. 777 00:41:09,260 --> 00:41:10,580 הגיוני? 778 00:41:10,580 --> 00:41:12,030 אז זה מה שעשינו. 779 00:41:12,030 --> 00:41:16,010 >> קוד זה הולך להיות שפורסם באינטרנט, כך שאתם יכולים לבדוק את זה. 780 00:41:16,010 --> 00:41:20,720 אולי להשתמש בחלק ממנה לאם אתה רוצה לעשות פרויקט או משהו דומה. 781 00:41:20,720 --> 00:41:22,150 על אישור. 782 00:41:22,150 --> 00:41:25,930 זה היה רק ​​כדי להראות מה חישובית 783 00:41:25,930 --> 00:41:27,230 קוד בלשנות נראה. 784 00:41:27,230 --> 00:41:33,040 אבל עכשיו בואו נלך ליותר חומר ברמה גבוהה. 785 00:41:33,040 --> 00:41:33,340 על אישור. 786 00:41:33,340 --> 00:41:35,150 >> אז הבעיות האחרות אני דיבר על - 787 00:41:35,150 --> 00:41:37,550 הבעיה הפילוח הוא הראשון שלהם. 788 00:41:37,550 --> 00:41:40,820 אז יש לכם כאן יפני. 789 00:41:40,820 --> 00:41:43,420 ואז אתה רואה את זה אין רווחים. 790 00:41:43,420 --> 00:41:49,110 אז זה בעצם אומר שזה החלק העליון של הכיסא, נכון? 791 00:41:49,110 --> 00:41:50,550 אתה מדבר יפני? 792 00:41:50,550 --> 00:41:52,840 זה החלק העליון של הכיסא, נכון? 793 00:41:52,840 --> 00:41:54,480 >> תלמיד: אני לא יודע מה קאנג'י על שיש. 794 00:41:54,480 --> 00:41:57,010 >> לוקאס פרייטס: זה [מדבר יפני] 795 00:41:57,010 --> 00:41:57,950 על אישור. 796 00:41:57,950 --> 00:42:00,960 אז זה בעצם אומר שכיסא של ראש. 797 00:42:00,960 --> 00:42:03,620 אז אם אתה הייתי צריך לשים רווח זה יהיה כאן. 798 00:42:03,620 --> 00:42:05,970 ואז יש לך [? אואדה-סן. ?] 799 00:42:05,970 --> 00:42:09,040 אשר בעצם אומרת מר אואדה. 800 00:42:09,040 --> 00:42:13,180 ואתה רואה את זה "אואדה" ויש לך רווח ולאחר מכן "סן". אז אתה רואה ש 801 00:42:13,180 --> 00:42:15,470 כאן אתה "אואה" הוא כמו מעצמו. 802 00:42:15,470 --> 00:42:17,750 וכאן יש לו אופי לצד זה. 803 00:42:17,750 --> 00:42:21,720 >> אז זה לא כמו בשפות אלה דמויות שמשמעות מילה את זה אז אתה 804 00:42:21,720 --> 00:42:23,980 פשוט לשים הרבה רווחים. 805 00:42:23,980 --> 00:42:25,500 דמויות מתייחסות זו לזו. 806 00:42:25,500 --> 00:42:28,680 והם יכולים להיות ביחד כמו שתיים, שלוש, אחד. 807 00:42:28,680 --> 00:42:34,520 אז אתה בעצם צריך ליצור איזשהו דרך של לשים את החללים הללו. 808 00:42:34,520 --> 00:42:38,850 >> וזה הדבר הזה שבכל פעם שאתה מקבל נתונים משפות אסיאתיות אלה, 809 00:42:38,850 --> 00:42:40,580 הכל בא unsegmented. 810 00:42:40,580 --> 00:42:45,940 כי אף אחד שכותב יפני או סיני כותב עם רווחים. 811 00:42:45,940 --> 00:42:48,200 בכל פעם שאתה כותב סיני, יפני אתה פשוט לכתוב את כל מה 812 00:42:48,200 --> 00:42:48,710 ללא רווחים. 813 00:42:48,710 --> 00:42:52,060 זה אפילו לא הגיוני לשים את הרווחים. 814 00:42:52,060 --> 00:42:57,960 אז כאשר אתה מקבל נתונים מ, חלקם שפת מזרח אסיה, אם ברצונך 815 00:42:57,960 --> 00:43:00,760 באמת לעשות משהו עם זה יש לך לקטע הראשון. 816 00:43:00,760 --> 00:43:05,130 >> חושב לעשות את הדוגמא של המילים ללא רווחים. 817 00:43:05,130 --> 00:43:07,950 אז את המילים היחידה שיש לך יהיו משפטים, נכון? 818 00:43:07,950 --> 00:43:09,470 מופרד על ידי תקופות. 819 00:43:09,470 --> 00:43:13,930 אבל אז יש רק המשפט יהיה לא ממש עוזרים במתן מידע 820 00:43:13,930 --> 00:43:17,760 של מי מילות אלה על ידי. 821 00:43:17,760 --> 00:43:18,120 נכון? 822 00:43:18,120 --> 00:43:20,010 אז אתה צריך מכניס רווחים ראשון. 823 00:43:20,010 --> 00:43:21,990 אז איך אתה יכול לעשות את זה? 824 00:43:21,990 --> 00:43:24,920 >> אז מגיע הרעיון של שפה מודל שבו משהו באמת 825 00:43:24,920 --> 00:43:26,870 חשוב לחישובית בלשנות. 826 00:43:26,870 --> 00:43:32,790 אז מודל שפה הוא בעצם טבלה של הסתברויות שמופעים 827 00:43:32,790 --> 00:43:36,260 קודם כל מהי ההסתברות שיש את המילה בשפה? 828 00:43:36,260 --> 00:43:39,590 אז מראה כיצד תכוף מילה היא. 829 00:43:39,590 --> 00:43:43,130 ואז גם מראה את הקשר בין המילים במשפט. 830 00:43:43,130 --> 00:43:51,500 >> אז הרעיון המרכזי הוא, אם אדם זר בא לך ואמר משפט כדי 831 00:43:51,500 --> 00:43:55,600 לך, מהי ההסתברות ש, עבור למשל, "זו אחותי [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 היה המשפט שהאדם אמר? 833 00:43:57,480 --> 00:44:00,380 אז ברור כמה משפטים הם נפוץ יותר מאחרים. 834 00:44:00,380 --> 00:44:04,450 לדוגמא, "בוקר טוב", או "טוב הלילה ", או" היי, "הוא הרבה יותר 835 00:44:04,450 --> 00:44:08,260 נפוץ יותר מרוב המשפטים שיש לנו באנגלית. 836 00:44:08,260 --> 00:44:11,060 אז למה המשפטים הללו תכוף יותר? 837 00:44:11,060 --> 00:44:14,060 >> קודם כל, זה בגלל שיש לך מילים שהן תכופים יותר. 838 00:44:14,060 --> 00:44:20,180 כך, למשל, אם אתה אומר, הכלב הוא גדול, והכלב הוא ענקי, אתה 839 00:44:20,180 --> 00:44:23,880 בדרך כלל ככל הנראה לשמוע את הכלב גדול לעתים קרובות יותר, כי "גדול" הוא יותר 840 00:44:23,880 --> 00:44:27,260 תכוף באנגלית מאשר "ענק". לכן, אחד 841 00:44:27,260 --> 00:44:30,100 דברים הוא המילה התדר. 842 00:44:30,100 --> 00:44:34,490 >> הדבר השני שהוא באמת חשוב הוא רק 843 00:44:34,490 --> 00:44:35,490 סדר המילים. 844 00:44:35,490 --> 00:44:39,500 אז, זה נפוץ לומר "החתול הוא בתוך הקופסה. "אבל אתה בדרך כלל לא 845 00:44:39,500 --> 00:44:44,250 רואה ב" התיבה בפנים הוא החתול. " כך אתה רואה שיש חשיבות מסוימת 846 00:44:44,250 --> 00:44:46,030 לפי הסדר של המילים. 847 00:44:46,030 --> 00:44:50,160 אתה לא יכול פשוט לומר ששני אלה יש משפטים באותה הסתברות 848 00:44:50,160 --> 00:44:53,010 רק בגלל שיש להם את אותן מילות. 849 00:44:53,010 --> 00:44:55,550 אתה באמת צריך לדאוג על מנת גם כן. 850 00:44:55,550 --> 00:44:57,650 הגיוני? 851 00:44:57,650 --> 00:44:59,490 >> אז מה אנחנו עושים? 852 00:44:59,490 --> 00:45:01,550 אז מה אני יכול לנסות להשיג אותך? 853 00:45:01,550 --> 00:45:04,400 אני מנסה להשיג לך את מה שאנחנו קוראים מודלים n-גרם. 854 00:45:04,400 --> 00:45:09,095 אז דגמי n גרם בעצם מניחים כי לכל מילה ש 855 00:45:09,095 --> 00:45:10,960 יש לך במשפט. 856 00:45:10,960 --> 00:45:15,020 זה ההסתברות של בעל כי מילה יש תלוי לא רק ב 857 00:45:15,020 --> 00:45:18,395 תדירות של מילה שבשפה, אלא גם על המילים ש 858 00:45:18,395 --> 00:45:19,860 הם מקיפים אותו. 859 00:45:19,860 --> 00:45:25,810 >> כך למשל, בדרך כלל כשאתה רואה משהו כמו באו אתה 860 00:45:25,810 --> 00:45:28,040 כנראה הולך לראות שם עצם אחרי זה, נכון? 861 00:45:28,040 --> 00:45:31,750 כי כאשר יש לך מילת יחס בדרך כלל זה לוקח שם עצם אחריו. 862 00:45:31,750 --> 00:45:35,540 או אם יש לך פועל שהוא ארעי אתה בדרך כלל הולך 863 00:45:35,540 --> 00:45:36,630 יש לי צירוף שמני. 864 00:45:36,630 --> 00:45:38,780 אז זה הולך להיות שם עצם אי שם סביבו. 865 00:45:38,780 --> 00:45:44,950 >> אז, בעצם, מה שהיא עושה היא שזה רואה את ההסתברות שיש 866 00:45:44,950 --> 00:45:47,960 מילות אחד ליד שני, כאשר אתה חישוב 867 00:45:47,960 --> 00:45:49,050 הסתברות של משפט. 868 00:45:49,050 --> 00:45:50,960 וזה מה ששפה מודל הוא בעצם. 869 00:45:50,960 --> 00:45:54,620 רק אומר מה ההסתברות שיש ספציפי 870 00:45:54,620 --> 00:45:57,120 משפט בשפה? 871 00:45:57,120 --> 00:45:59,110 אז למה זה שימושי, בעצם? 872 00:45:59,110 --> 00:46:02,390 וקודם כל מה הוא מודל n גרם, ולאחר מכן? 873 00:46:02,390 --> 00:46:08,850 >> אז מודל n גרם פירוש הדבר כי כל מילה תלויה 874 00:46:08,850 --> 00:46:12,700 N הבא מינוס 1 מילות. 875 00:46:12,700 --> 00:46:18,150 אז, בעצם, זה אומר שאם אני מסתכל, לדוגמא, בTF CS50 כש 876 00:46:18,150 --> 00:46:21,500 אני חישוב ההסתברות של המשפט, אתה תהיה כמו " 877 00:46:21,500 --> 00:46:25,280 הסתברות שיש את המילה "את" פעמים ההסתברות שיש " 878 00:46:25,280 --> 00:46:31,720 הפעמים CS50 "ההסתברות שיש "TF CS50." אז, בעצם, אני סופר 879 00:46:31,720 --> 00:46:35,720 כל הדרכים אפשריות למותח אותו. 880 00:46:35,720 --> 00:46:41,870 >> ואז בדרך כלל כשאתה עושה את זה, כמו בפרויקט, אתה שם את N להיות 881 00:46:41,870 --> 00:46:42,600 ערך נמוך. 882 00:46:42,600 --> 00:46:45,930 לכן, בדרך כלל יש bigrams או בשלשות. 883 00:46:45,930 --> 00:46:51,090 כך שרק לך לספור שתי מילות, קבוצה של שתי מילות, או שלוש מילות, 884 00:46:51,090 --> 00:46:52,620 רק לבעיות ביצועים. 885 00:46:52,620 --> 00:46:56,395 וגם כי אולי אם יש לך משהו כמו "TF CS50." כאשר אתה 886 00:46:56,395 --> 00:47:00,510 יש לי "TF," זה חשוב מאוד, כי "CS50" הוא לידו, נכון? 887 00:47:00,510 --> 00:47:04,050 שני הדברים האלה הם בדרך כלל אחד ליד שני. 888 00:47:04,050 --> 00:47:06,410 >> אם אתה חושב על "TF," זה כנראה הולך להיות מה 889 00:47:06,410 --> 00:47:07,890 מעמד זה TF'ing ל. 890 00:47:07,890 --> 00:47:11,330 כמו כן "" באמת חשוב לTF CS50. 891 00:47:11,330 --> 00:47:14,570 אבל אם יש לך משהו כמו "CS50 TF הלך לכיתה ונתן להם 892 00:47:14,570 --> 00:47:20,060 תלמידים קצת ממתקים. "" סוכריות "ו" " אין קשר באמת, נכון? 893 00:47:20,060 --> 00:47:23,670 הם כל כך רחוקים אחד מהשני, כי זה לא ממש משנה מה 894 00:47:23,670 --> 00:47:25,050 מילות שיש לך. 895 00:47:25,050 --> 00:47:31,210 >> אז על ידי עושה bigram או הסריגראמה, זה רק אומר שאתה מגביל 896 00:47:31,210 --> 00:47:33,430 את עצמך לכמה מילות שנמצאים בסביבה. 897 00:47:33,430 --> 00:47:35,810 הגיוני? 898 00:47:35,810 --> 00:47:40,630 לכן, כאשר אתה רוצה לעשות פילוח, בעצם, מה שאתה רוצה לעשות זה לראות 899 00:47:40,630 --> 00:47:44,850 מה הן כל הדרכים אפשריות ש אתה יכול לפלח את גזר הדין. 900 00:47:44,850 --> 00:47:49,090 >> כזה שאתה רואה את מה שהוא הסתברות של כל אחד מהמשפטים הללו 901 00:47:49,090 --> 00:47:50,880 קיים בשפה? 902 00:47:50,880 --> 00:47:53,410 אז מה שאתה עושה זה כמו, ובכן, בוא לי לנסות לשים את השטח כאן. 903 00:47:53,410 --> 00:47:55,570 אז אתה שם את חלל שיש ואתה רואה מה הוא 904 00:47:55,570 --> 00:47:57,590 הסתברות של המשפט הזה? 905 00:47:57,590 --> 00:48:00,240 אז אתה כאילו, אוקיי, אולי זה היה לא כל כך טוב. 906 00:48:00,240 --> 00:48:03,420 אז שמתי את שטח יש וחלל שם, ולך לחשב את 907 00:48:03,420 --> 00:48:06,240 הסתברות עכשיו, ואתה רואה את זה זה הסתברות גבוהה יותר. 908 00:48:06,240 --> 00:48:12,160 >> אז זה אלגוריתם בשם TANGO אלגוריתם פילוח, שהוא 909 00:48:12,160 --> 00:48:14,990 בעצם משהו שיהיה באמת מגניב לפרויקט, אשר 910 00:48:14,990 --> 00:48:20,860 בעצם לוקח טקסט unsegmented בי יכול להיות יפני או סיני או אולי 911 00:48:20,860 --> 00:48:26,080 אנגלית ללא רווחים ומנסה לשים רווחים בין המילים והיא עושה 912 00:48:26,080 --> 00:48:29,120 כי על ידי שימוש במודל שפה ו מנסה לראות מה הוא הגבוה ביותר 913 00:48:29,120 --> 00:48:31,270 הסתברות שאתה יכול לקבל. 914 00:48:31,270 --> 00:48:32,230 על אישור. 915 00:48:32,230 --> 00:48:33,800 אז זה פילוח. 916 00:48:33,800 --> 00:48:35,450 >> עכשיו תחביר. 917 00:48:35,450 --> 00:48:40,940 אז, תחביר נמצא בשימוש עבור כל כך הרבה דברים עכשיו. 918 00:48:40,940 --> 00:48:44,880 אז עבור גרף חיפוש, עבור Siri עבור פחות או יותר כל סוג של טבעי 919 00:48:44,880 --> 00:48:46,490 עיבוד שפה יש לך. 920 00:48:46,490 --> 00:48:49,140 אז מה הם חשובים דברים על תחביר? 921 00:48:49,140 --> 00:48:52,390 אז, יש לי משפטים באופן כללי מה שאנו מכנים בוחרים. 922 00:48:52,390 --> 00:48:57,080 שהם כמו סוג של קבוצות של מילות שיש להם תפקיד במשפט. 923 00:48:57,080 --> 00:49:02,220 והם באמת לא יכולים להיות מלבד אחד את השני. 924 00:49:02,220 --> 00:49:07,380 >> לכן, אם אני אומר, למשל, "לורן אוהב מילוא. "אני יודע ש" לורן" הוא 925 00:49:07,380 --> 00:49:10,180 מכונן ולאחר מכן אהבות " מילוא "הוא גם אחד אחר. 926 00:49:10,180 --> 00:49:16,860 מכיוון שאתה לא יכול להגיד כמו "לורן מילוא אוהב את "יש את אותה משמעות. 927 00:49:16,860 --> 00:49:18,020 זה לא הולך להיות את אותה המשמעות. 928 00:49:18,020 --> 00:49:22,500 או שאני לא יכול להגיד כמו "המילוא לורן אוהב. "לא כל מה שיש באותו 929 00:49:22,500 --> 00:49:25,890 כלומר עושה את זה. 930 00:49:25,890 --> 00:49:31,940 >> אז שני דברים חשובים יותר על תחביר הם הסוגים לקסיקליים המהווה 931 00:49:31,940 --> 00:49:35,390 בעצם הפונקציה שאתה יש למילים בעצמם. 932 00:49:35,390 --> 00:49:39,180 אז אתה צריך לדעת כי "לורן" ו" מילוא "הוא שמות עצם. 933 00:49:39,180 --> 00:49:41,040 "האהבה" היא פועל. 934 00:49:41,040 --> 00:49:45,660 וזה הדבר החשוב השני שהם סוגי phrasal. 935 00:49:45,660 --> 00:49:48,990 אז אתה יודע ש" אוהב מילוא " הוא למעשה ביטוי מילולי. 936 00:49:48,990 --> 00:49:52,390 לכן, כאשר אני אומר "לורן," אני יודע ש לורן עושה משהו. 937 00:49:52,390 --> 00:49:53,620 מה היא עושה? 938 00:49:53,620 --> 00:49:54,570 היא אוהבת מילוא. 939 00:49:54,570 --> 00:49:56,440 אז זה כל עניין. 940 00:49:56,440 --> 00:50:01,640 אבל המרכיבים שלה הם שם עצם וגם פועל. 941 00:50:01,640 --> 00:50:04,210 אבל ביחד, הם עושים את ביטוי פועל. 942 00:50:04,210 --> 00:50:08,680 >> אז, מה אנחנו יכולים בעצם לעשות עם בלשנות חישובית? 943 00:50:08,680 --> 00:50:13,810 לכן, אם יש לי משהו לדוגמא "חברים של אליסון." אני רואה אם ​​אני רק 944 00:50:13,810 --> 00:50:17,440 לא עץ תחבירי הייתי יודע כי "חברים" הוא צירוף שמני זה 945 00:50:17,440 --> 00:50:21,480 שם עצם ולאחר מכן "של אליסון" הוא ביטוי במלות יחס שבו "של" הוא 946 00:50:21,480 --> 00:50:24,810 הצעה ו" אליסון "היא שם עצם. 947 00:50:24,810 --> 00:50:30,910 מה שאני יכול לעשות הוא ללמד את המחשב שלי כי כאשר יש לי צירוף שמני אחד ו 948 00:50:30,910 --> 00:50:33,080 לאחר מכן ביטוי במלות יחס. 949 00:50:33,080 --> 00:50:39,020 אז במקרה הזה, "חברים" ולאחר מכן "של המילוא "אני יודע שזה אומר ש 950 00:50:39,020 --> 00:50:43,110 NP2, השנייה אחת, בבעלות NP1. 951 00:50:43,110 --> 00:50:47,680 >> אז אני יכול ליצור איזשהו קשר, איזה פונקציה עבורו. 952 00:50:47,680 --> 00:50:52,370 אז בכל פעם שאני רואה את המבנה הזה, שבו תואם בדיוק עם "חברים של 953 00:50:52,370 --> 00:50:56,030 אליסון, "אני יודע שאליסון בעלות החברים. 954 00:50:56,030 --> 00:50:58,830 אז החברים הם משהו שיש לו אליסון. 955 00:50:58,830 --> 00:50:59,610 הגיוני? 956 00:50:59,610 --> 00:51:01,770 אז זה בעצם מה חיפוש גרף עושה. 957 00:51:01,770 --> 00:51:04,360 זה פשוט יוצר כללים להרבה דברים. 958 00:51:04,360 --> 00:51:08,190 אז "חברים של אליסון", "החברים שלי המתגורר בקיימברידג' "," החברים שלי 959 00:51:08,190 --> 00:51:12,970 שתלכו להרווארד. "זה יוצר כללים לכל הדברים האלה. 960 00:51:12,970 --> 00:51:14,930 >> עכשיו תרגום מכונה. 961 00:51:14,930 --> 00:51:18,850 לכן, תרגום מכונה גם משהו סטטיסטי. 962 00:51:18,850 --> 00:51:21,340 ובעצם, אם אתה להסתבך ב בלשנות חישובית, הרבה 963 00:51:21,340 --> 00:51:23,580 את הדברים שלך הולכים להיות נתונים סטטיסטיים. 964 00:51:23,580 --> 00:51:26,670 אז כמו שאני עושה למשל עם הרבה הסתברויות שהייתי 965 00:51:26,670 --> 00:51:30,540 חישוב, ואז אתה מקבל את זה מספר קטן מאוד שזה סופי 966 00:51:30,540 --> 00:51:33,180 הסתברות, וזה מה נותן לך את התשובה. 967 00:51:33,180 --> 00:51:37,540 תרגום מכונה גם משתמש מודל סטטיסטי. 968 00:51:37,540 --> 00:51:44,790 ואם אתה רוצה לחשוב על מכונה תרגום בפשוט ביותר האפשרי 969 00:51:44,790 --> 00:51:48,970 אגב, מה שאתה יכול לחשוב הוא פשוט לתרגם מילה במילה, נכון? 970 00:51:48,970 --> 00:51:52,150 >> כאשר אתה לומד שפה עבור בפעם ראשונה, זה בדרך כלל מה 971 00:51:52,150 --> 00:51:52,910 אתה עושה, נכון? 972 00:51:52,910 --> 00:51:57,050 אם אתה רוצה אתה לתרגם משפט בשפה שלך לשפה 973 00:51:57,050 --> 00:52:00,060 אתה לומד, בדרך כלל ראשון, אתה לתרגם כל אחת מהמילים 974 00:52:00,060 --> 00:52:03,180 בנפרד, ולאחר מכן אתה מנסה לשים את המילים למקומו. 975 00:52:03,180 --> 00:52:07,100 >> אז אם אני רוצה לתרגם את זה, [פורטוגזי מדבר] 976 00:52:07,100 --> 00:52:10,430 שפירושו "החתול הלבן ברח." אם אני רוצה לתרגם את זה מ 977 00:52:10,430 --> 00:52:13,650 מפורטוגזית לאנגלית, מה שאני יכול לעשות הוא, קודם כל, אני רק 978 00:52:13,650 --> 00:52:14,800 לתרגם מילה במילה. 979 00:52:14,800 --> 00:52:20,570 אז "o" הוא "," זה "גטו", "החתול", "רנקו", "לבן", ולאחר מכן "fugio" הוא 980 00:52:20,570 --> 00:52:21,650 "ברח". 981 00:52:21,650 --> 00:52:26,130 >> אז יש לי את כל המילים כאן, אבל הם לא לפי סדר. 982 00:52:26,130 --> 00:52:29,590 זה כמו "חתול הלבן ברח" שהוא לא דקדוקיים. 983 00:52:29,590 --> 00:52:34,490 כן, אז אני יכול להיות צעד שני, אשר הולך להיות מציאת האידיאלית 984 00:52:34,490 --> 00:52:36,610 עמדה לכל אחת מהמילים. 985 00:52:36,610 --> 00:52:40,240 אז אני יודע שאני ממש רוצה להיות "חתול לבן" במקום "חתול לבן". כך 986 00:52:40,240 --> 00:52:46,050 מה אני יכול לעשות הוא, השיטה הנאיבית ביותר יהיה ליצור את כל 987 00:52:46,050 --> 00:52:49,720 תמורות אפשריות של מילות, של עמדות. 988 00:52:49,720 --> 00:52:53,300 ואז לראות שיש לו אחד ההסתברות הגבוהה ביותר על פי 989 00:52:53,300 --> 00:52:54,970 למודל השפה שלי. 990 00:52:54,970 --> 00:52:58,390 ואז כשאני מוצא אחד שיש לי ההסתברות הגבוהה ביותר אותו, שהוא 991 00:52:58,390 --> 00:53:01,910 כנראה "החתול הלבן ברח" זה התרגום שלי. 992 00:53:01,910 --> 00:53:06,710 >> וזו היא דרך פשוטה להסביר איך הרבה של תרגום מכונה 993 00:53:06,710 --> 00:53:07,910 אלגוריתמים עובדים. 994 00:53:07,910 --> 00:53:08,920 האם זה הגיוני? 995 00:53:08,920 --> 00:53:12,735 זה גם משהו ממש מרגש כי אתם אולי יכולים לחקור עבור 996 00:53:12,735 --> 00:53:13,901 פרויקט גמר, כן? 997 00:53:13,901 --> 00:53:15,549 >> תלמיד: ובכן, אתה אמר שהוא היה הדרך הנאיבית, אז מה 998 00:53:15,549 --> 00:53:17,200 הדרך שאינה נאיבית? 999 00:53:17,200 --> 00:53:18,400 >> לוקאס פרייטס: הדרך שאינה נאיבית? 1000 00:53:18,400 --> 00:53:19,050 על אישור. 1001 00:53:19,050 --> 00:53:22,860 אז הדבר הראשון שהוא רע על בשיטה זו היא שאני פשוט תרגמתי 1002 00:53:22,860 --> 00:53:24,330 מילות, מילה במילה. 1003 00:53:24,330 --> 00:53:30,570 אבל לפעמים יש לך מילות ש יכול להיות תרגומים מרובים. 1004 00:53:30,570 --> 00:53:32,210 אני הולך לנסות לחשוב של משהו. 1005 00:53:32,210 --> 00:53:37,270 לדוגמא, "מנגה" בפחית פורטוגזית להיות או "להשחית" או "שרוול". כך 1006 00:53:37,270 --> 00:53:40,450 כשאתה מנסה לתרגם את המילה על ידי מילה, זה יכול להיות נותן לך 1007 00:53:40,450 --> 00:53:42,050 משהו שלא הגיוני. 1008 00:53:42,050 --> 00:53:45,770 >> אז אתה באמת רוצה אתה מסתכל על כל התרגומים האפשריים של 1009 00:53:45,770 --> 00:53:49,840 מילים ותראו, קודם כל, מהו הסדר. 1010 00:53:49,840 --> 00:53:52,000 אנחנו מדברים על permutating הדברים? 1011 00:53:52,000 --> 00:53:54,150 כדי לראות את כל פקודות אפשריות ו לבחור את אחד עם הגבוה ביותר 1012 00:53:54,150 --> 00:53:54,990 הסתברות? 1013 00:53:54,990 --> 00:53:57,860 באפשרותך לבחור גם את כל אפשרית תרגומים לכל 1014 00:53:57,860 --> 00:54:00,510 מילה ואז לראות - 1015 00:54:00,510 --> 00:54:01,950 בשילוב עם התמורות - 1016 00:54:01,950 --> 00:54:03,710 אשר אחד את ההסתברות הגבוהה ביותר. 1017 00:54:03,710 --> 00:54:08,590 >> בנוסף, אתה יכול גם להסתכל על לא רק מילות אלא ביטויים. 1018 00:54:08,590 --> 00:54:11,700 כך שאתה יכול לנתח את היחסים בין המילים ולאחר מכן לקבל 1019 00:54:11,700 --> 00:54:13,210 תרגום טוב יותר. 1020 00:54:13,210 --> 00:54:16,690 גם משהו אחר, ולכן בסמסטר הזה בעצם אני עושה מחקר ב 1021 00:54:16,690 --> 00:54:19,430 סינית, אנגלית תרגום מכונה, כך תרגום מ 1022 00:54:19,430 --> 00:54:20,940 הסיני לאנגלית. 1023 00:54:20,940 --> 00:54:26,760 >> ומשהו שאנחנו עושים הוא, מלבד שימוש מודל סטטיסטי, וזה רק 1024 00:54:26,760 --> 00:54:30,570 לראות את ההסתברויות של ראייה כמה עמדה במשפט, אני 1025 00:54:30,570 --> 00:54:35,360 למעשה גם הוסיף כמה תחביר לי מודל, ואמר, הו, אם אני רואה סוג זה 1026 00:54:35,360 --> 00:54:39,420 של הבנייה, זה מה שאני רוצה כדי לשנות את זה כשאני מתרגם. 1027 00:54:39,420 --> 00:54:43,880 אז אתה יכול גם להוסיף קצת סוג של אלמנט של תחביר לעשות 1028 00:54:43,880 --> 00:54:47,970 תרגום יעיל יותר ומדויק יותר. 1029 00:54:47,970 --> 00:54:48,550 על אישור. 1030 00:54:48,550 --> 00:54:51,010 >> אז איך אתה יכול להתחיל, אם אתה רוצה לעשות משהו בחישובית 1031 00:54:51,010 --> 00:54:51,980 בלשנות? 1032 00:54:51,980 --> 00:54:54,560 >> ראשית, אתה בוחר פרויקט המערב שפות. 1033 00:54:54,560 --> 00:54:56,310 לכן, יש כל כך הרבה בחוץ. 1034 00:54:56,310 --> 00:54:58,420 יש כל כך הרבה דברים שאתה יכול לעשות. 1035 00:54:58,420 --> 00:55:00,510 ואז אפשר לחשוב על מודל כי אתה יכול להשתמש. 1036 00:55:00,510 --> 00:55:04,710 בדרך כלל זה אומר שחשיבה של הנחות, כמו כמו, אה, כשהייתי 1037 00:55:04,710 --> 00:55:05,770 כמו חשיבה של המילים. 1038 00:55:05,770 --> 00:55:09,510 אני היה כמו, ובכן, אם אני רוצה להבין יצאתי שכתבו את זה, אני כנראה רוצה 1039 00:55:09,510 --> 00:55:15,400 להסתכל על דברי האדם המשמש ו לראות מי משתמש במילה הזאת לעתים קרובות מאוד. 1040 00:55:15,400 --> 00:55:18,470 אז תנסה להניח הנחות ו נסה לחשוב על דגמים. 1041 00:55:18,470 --> 00:55:21,395 ואז אתה יכול גם לחפש באינטרנט הסוג של בעיה שיש לך, 1042 00:55:21,395 --> 00:55:24,260 וזה הולך להציע לך מודלים שאולי 1043 00:55:24,260 --> 00:55:26,560 דגם דבר שכן. 1044 00:55:26,560 --> 00:55:29,080 >> ואתה יכול גם תמיד שלח לי. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 ואני רק יכול לענות על השאלות שלך. 1047 00:55:34,940 --> 00:55:38,600 אנחנו יכולים אולי אפילו להיפגש כל כך שאני יכול לתת הצעות על דרכים 1048 00:55:38,600 --> 00:55:41,490 יישום הפרויקט. 1049 00:55:41,490 --> 00:55:45,610 ואני מתכוון, אם אתה להסתבך עם בלשנות חישובית, זה הולך 1050 00:55:45,610 --> 00:55:46,790 להיות גדול. 1051 00:55:46,790 --> 00:55:48,370 אתה הולך לראות שם כל כך הרבה פוטנציאל. 1052 00:55:48,370 --> 00:55:52,060 והתעשייה רוצה לשכור אתה כל כך רע בגלל זה. 1053 00:55:52,060 --> 00:55:54,720 אז אני מקווה שחבר 'ה נהנה מזה. 1054 00:55:54,720 --> 00:55:57,030 אם יש לך חבר 'ה על כל שאלה, אתה יכול לשאול אותי אחרי זה. 1055 00:55:57,030 --> 00:55:58,280 אבל תודה לך. 1056 00:55:58,280 --> 00:56:00,150