1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS:嘿。 3 00:00:08,870 --> 00:00:09,980 歡迎大家。 4 00:00:09,980 --> 00:00:11,216 我的名字是盧卡斯塔斯。 5 00:00:11,216 --> 00:00:15,220 我是一個大三學生[聽不清]研究 計算機科學與重點 6 00:00:15,220 --> 00:00:16,410 計算語言學。 7 00:00:16,410 --> 00:00:19,310 所以,我的中學是在語言 和語言學理論。 8 00:00:19,310 --> 00:00:21,870 我真的很興奮,教你們 關於外地一點點。 9 00:00:21,870 --> 00:00:24,300 這是一個非常激動人心的領域來研究。 10 00:00:24,300 --> 00:00:27,260 也有很大的潛力 為將來。 11 00:00:27,260 --> 00:00:30,160 所以,我真的很興奮,你的傢伙 正在考慮中的項目 12 00:00:30,160 --> 00:00:31,160 計算語言學。 13 00:00:31,160 --> 00:00:35,460 我會很樂意提供意見 任何的你,如果你決定 14 00:00:35,460 --> 00:00:37,090 追求其中的一個。 15 00:00:37,090 --> 00:00:40,010 >> 所以首先什麼是計算的 語言學? 16 00:00:40,010 --> 00:00:44,630 因此,計算語言學是 語言學和之間的交集 17 00:00:44,630 --> 00:00:46,390 計算機科學。 18 00:00:46,390 --> 00:00:47,415 那麼,什麼是語言學? 19 00:00:47,415 --> 00:00:48,490 什麼是計算機科學? 20 00:00:48,490 --> 00:00:51,580 以及從語言學,是什麼 我們採取的是語言。 21 00:00:51,580 --> 00:00:54,960 因此,語言學實際上是研究 在一般的自然語言。 22 00:00:54,960 --> 00:00:58,330 所以,自然語言 - 大家說說 我們實際使用的語言 23 00:00:58,330 --> 00:00:59,770 相互通信。 24 00:00:59,770 --> 00:01:02,200 因此,我們不正是在說 關於C或Java。 25 00:01:02,200 --> 00:01:05,900 我們談論更多關於英語和 中國和其他語言,我們 26 00:01:05,900 --> 00:01:07,780 用於彼此進行通信。 27 00:01:07,780 --> 00:01:12,470 >> 有關的具有挑戰性的事情是, 現在我們有近7000 28 00:01:12,470 --> 00:01:14,260 語言在世界上。 29 00:01:14,260 --> 00:01:19,520 因此,有相當高的品種 的語言,我們可以研究。 30 00:01:19,520 --> 00:01:22,600 然後你認為它可能是 很難做到,比如, 31 00:01:22,600 --> 00:01:26,960 翻譯從一種語言到 另外,考慮到你有 32 00:01:26,960 --> 00:01:28,240 其中近7000人。 33 00:01:28,240 --> 00:01:31,450 所以,如果你想這樣做的翻譯 從一種語言到另你 34 00:01:31,450 --> 00:01:35,840 幾乎超過一百萬 不同的組合,你可以 35 00:01:35,840 --> 00:01:37,330 必須從語言到語言。 36 00:01:37,330 --> 00:01:40,820 所以它的真正挑戰做了一些 類的實例翻譯系統的 37 00:01:40,820 --> 00:01:43,540 每一個語言。 38 00:01:43,540 --> 00:01:47,120 >> 所以,對待語言學與語法, 語義,語用學。 39 00:01:47,120 --> 00:01:49,550 你們不完全需要 要知道什麼是他們的。 40 00:01:49,550 --> 00:01:55,090 但非常有趣的是, 作為母語的人,當你學會 41 00:01:55,090 --> 00:01:59,010 語言作為孩子,你居然學會 所有這些事情 - 語法語義 42 00:01:59,010 --> 00:02:00,500 和語用 - 43 00:02:00,500 --> 00:02:01,430 由你自己。 44 00:02:01,430 --> 00:02:04,820 和任何人都沒有教你語法 你明白的句子是如何 45 00:02:04,820 --> 00:02:05,290 結構。 46 00:02:05,290 --> 00:02:07,980 所以,這真的很有趣,因為 它的東西,來非常 47 00:02:07,980 --> 00:02:10,389 直觀。 48 00:02:10,389 --> 00:02:13,190 >> 和你在服用 計算機科學? 49 00:02:13,190 --> 00:02:16,700 好了,最重要的事情是我們 在計算機科學,首先是 50 00:02:16,700 --> 00:02:19,340 總之,人工智能 和機器學習。 51 00:02:19,340 --> 00:02:22,610 所以,我們正在努力做 計算語言學是教 52 00:02:22,610 --> 00:02:26,990 您的計算機如何做 用的語言。 53 00:02:26,990 --> 00:02:28,630 >> 因此,例如,在機 翻譯。 54 00:02:28,630 --> 00:02:32,490 我想教我的電腦怎麼 知道如何從一個過渡 55 00:02:32,490 --> 00:02:33,310 語言到另一邊。 56 00:02:33,310 --> 00:02:35,790 所以,基本上喜歡教學 一台電腦兩種語言。 57 00:02:35,790 --> 00:02:38,870 如果我這樣做自然語言處理, 這是示例的情況下 58 00:02:38,870 --> 00:02:41,810 Facebook的圖搜索,你教 你的電腦怎麼理解 59 00:02:41,810 --> 00:02:42,730 查詢好。 60 00:02:42,730 --> 00:02:48,130 >> 所以,如果你說“的照片我的 朋友。“Facebook並沒有把那 61 00:02:48,130 --> 00:02:51,130 作為具有整個字符串 只是一堆話。 62 00:02:51,130 --> 00:02:56,020 它實際上是理解的關係 “照片”和“我的朋友”之間 63 00:02:56,020 --> 00:02:59,620 了解到,“照片”是 物業“我的朋友。” 64 00:02:59,620 --> 00:03:02,350 >> 所以,這部分,例如 自然語言處理。 65 00:03:02,350 --> 00:03:04,790 它試圖了解什麼 之間的關係是 66 00:03:04,790 --> 00:03:07,520 詞語的句子。 67 00:03:07,520 --> 00:03:11,170 而最大的問題是,你可以 教電腦如何說話 68 00:03:11,170 --> 00:03:12,650 在一般的語言? 69 00:03:12,650 --> 00:03:17,810 這是一個非常有趣的問題 想想,好像,也許在未來, 70 00:03:17,810 --> 00:03:19,930 你要能 談談您的手機。 71 00:03:19,930 --> 00:03:23,290 有點像我們做什麼用的Siri,但 更多的東西一樣,你實際上可以 72 00:03:23,290 --> 00:03:25,690 說任何你想要的手機 是要明白一切。 73 00:03:25,690 --> 00:03:28,350 而且它可以有後續問題 並繼續談判。 74 00:03:28,350 --> 00:03:30,880 這件事情真的很令人興奮, 在我看來。 75 00:03:30,880 --> 00:03:33,070 >> 因此,一些關於自然語言。 76 00:03:33,070 --> 00:03:36,220 一些真正有趣 自然語言是說,這是 77 00:03:36,220 --> 00:03:38,470 信用到我的語言學教授, 瑪麗亞Polinsky。 78 00:03:38,470 --> 00:03:40,830 她舉了一個例子,我認為 這真的很有趣。 79 00:03:40,830 --> 00:03:47,060 因為我們學語文時,從 我們出生,然後我們的母語 80 00:03:47,060 --> 00:03:49,170 一種語言的生長在我們。 81 00:03:49,170 --> 00:03:52,570 >> 基本上你學習語言 從最小的投入,對不對? 82 00:03:52,570 --> 00:03:56,700 你剛剛從輸入您的 您的語言聽起來父母什麼 83 00:03:56,700 --> 00:03:58,770 喜歡和你只是學習它。 84 00:03:58,770 --> 00:04:02,240 所以,這很有趣,因為如果你看一下 在這些句子,例如。 85 00:04:02,240 --> 00:04:06,980 你看,“瑪麗穿上大衣每 一次,她離開家。“ 86 00:04:06,980 --> 00:04:10,650 >> 在這種情況下,有可能有 單詞“她”指的是瑪麗,對不對? 87 00:04:10,650 --> 00:04:13,500 你可以說“瑪麗穿上大衣 每次瑪麗離開 88 00:04:13,500 --> 00:04:14,960 房子。“,這樣很好。 89 00:04:14,960 --> 00:04:19,370 但是如果你看一下這句話 “她每次穿上大衣瑪麗 90 00:04:19,370 --> 00:04:22,850 離開房子。“你知道這是 不可能說“她”是 91 00:04:22,850 --> 00:04:24,260 提及瑪麗。 92 00:04:24,260 --> 00:04:27,070 >> 有沒有辦法說,“瑪麗把 一件大衣,每次離開瑪麗 93 00:04:27,070 --> 00:04:30,790 房子,“所以這很有趣,因為 這是一種直覺 94 00:04:30,790 --> 00:04:32,890 每一個母語了。 95 00:04:32,890 --> 00:04:36,370 也沒有人告訴我們,這是 該語法的工作方式。 96 00:04:36,370 --> 00:04:41,930 而且,你只能擁有這件“她” 提及瑪麗在第一種情況下, 97 00:04:41,930 --> 00:04:44,260 實際上在這等 過,但不是在這一個。 98 00:04:44,260 --> 00:04:46,500 但每個人都種得 以相同的答案。 99 00:04:46,500 --> 00:04:48,580 每個人都同意這一點。 100 00:04:48,580 --> 00:04:53,280 所以,這真的很有趣,雖然如何 你不知道所有的規則 101 00:04:53,280 --> 00:04:55,575 那種在你的語言你懂 語言如何工作的。 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> 因此,關於自然的有趣的事情 語言是你不必 104 00:05:01,530 --> 00:05:06,970 知道任何語法知道,如果一個句子 是語法或不合語法的 105 00:05:06,970 --> 00:05:08,810 大多數情況下。 106 00:05:08,810 --> 00:05:13,220 它讓你覺得,也許什麼 發生的情況是通過你的生活,你 107 00:05:13,220 --> 00:05:17,410 只是不斷變得越來越 句子告訴你。 108 00:05:17,410 --> 00:05:19,800 然後你保持記憶 所有的句子。 109 00:05:19,800 --> 00:05:24,230 然後當有人告訴你 什麼,你聽到這句話,並 110 00:05:24,230 --> 00:05:27,040 你看看你的詞彙量 的句子,看看是否 111 00:05:27,040 --> 00:05:28,270 那句話是存在的。 112 00:05:28,270 --> 00:05:29,830 如果是有你 說這是語法。 113 00:05:29,830 --> 00:05:31,740 如果它不是你說這是 不合語法。 114 00:05:31,740 --> 00:05:35,150 >> 所以,在這種情況下,你會說,哦, 讓您擁有一個龐大的所有列表 115 00:05:35,150 --> 00:05:36,140 可能的句子。 116 00:05:36,140 --> 00:05:38,240 然後,當你聽到一個句子, 你知道它的語法或 117 00:05:38,240 --> 00:05:39,450 不基於這一點。 118 00:05:39,450 --> 00:05:42,360 問題是,如果你看一下 一個句子,例如“該 119 00:05:42,360 --> 00:05:47,540 五頭CS50轉錄因子煮熟的盲 使用DAPA杯章魚。“這是 120 00:05:47,540 --> 00:05:49,630 絕對不是一句 你聽說過。 121 00:05:49,630 --> 00:05:52,380 但在同一時間,你知道這是 相當多的語法,對不對? 122 00:05:52,380 --> 00:05:55,570 有沒有語法錯誤 你可以說, 123 00:05:55,570 --> 00:05:57,020 這是一個可能的句子。 124 00:05:57,020 --> 00:06:01,300 >> 因此,它使我們覺得實際上是 這樣,我們學習語言不僅是 125 00:06:01,300 --> 00:06:07,090 由具有巨大的可能的數據庫 詞或句子,但更多的 126 00:06:07,090 --> 00:06:11,490 理解的關係 也就是說在那些句子。 127 00:06:11,490 --> 00:06:14,570 這是否有道理? 128 00:06:14,570 --> 00:06:19,370 因此,接下來的問題是,能 電腦學習語言? 129 00:06:19,370 --> 00:06:21,490 我們可以教語言的計算機? 130 00:06:21,490 --> 00:06:24,230 >> 所以,讓我們想到的差異 一種語言的母語之間 131 00:06:24,230 --> 00:06:25,460 和一台計算機。 132 00:06:25,460 --> 00:06:27,340 那麼,究竟發生了揚聲器? 133 00:06:27,340 --> 00:06:30,430 那麼,母語學習一 從接觸到它的語言。 134 00:06:30,430 --> 00:06:34,200 通常早期的童年歲月。 135 00:06:34,200 --> 00:06:38,570 所以,基本上,你只要有一個孩子, 你一直說要它,它 136 00:06:38,570 --> 00:06:40,540 剛剛學會如何說話 語言,對不對? 137 00:06:40,540 --> 00:06:42,660 所以,你基本上放棄 輸入到嬰兒。 138 00:06:42,660 --> 00:06:45,200 這樣,那麼你可以說,一台電腦 可以做同樣的事情,對不對? 139 00:06:45,200 --> 00:06:49,510 你可以只給語言 作為輸入到計算機中。 140 00:06:49,510 --> 00:06:53,410 >> 作為例子一堆文件 有英語書籍。 141 00:06:53,410 --> 00:06:56,190 也許這是一種方式,你 也可能教 142 00:06:56,190 --> 00:06:57,850 計算機英語,對不對? 143 00:06:57,850 --> 00:07:01,000 而事實上,如果你仔細想想, 它需要你,也許一對夫婦 144 00:07:01,000 --> 00:07:02,680 天讀一本書。 145 00:07:02,680 --> 00:07:05,760 對於一台電腦需要一秒鐘 看著一本書的所有單詞。 146 00:07:05,760 --> 00:07:10,810 所以,你可以認為這或許正是這 從你周圍的輸入參數, 147 00:07:10,810 --> 00:07:15,440 這還不夠,說這是 東西,只有人類可以做到的。 148 00:07:15,440 --> 00:07:17,680 你能想到的電腦 還可以得到輸入。 149 00:07:17,680 --> 00:07:21,170 >> 第二件事是,母語 也有大腦,有 150 00:07:21,170 --> 00:07:23,870 語言學習能力。 151 00:07:23,870 --> 00:07:27,020 但是,如果你仔細想想, 大腦是一個堅實的事情。 152 00:07:27,020 --> 00:07:30,450 當你出生時,它已經被設置 - 153 00:07:30,450 --> 00:07:31,320 這是你的大腦。 154 00:07:31,320 --> 00:07:34,660 而當你長大了,你只會得到更多的 語言的輸入,也許營養素 155 00:07:34,660 --> 00:07:35,960 和其他的東西。 156 00:07:35,960 --> 00:07:38,170 但幾乎​​你的大腦 是一個堅實的事情。 157 00:07:38,170 --> 00:07:41,290 >> 所以,你可以說,好吧,也許你可以 構建有一堆電腦 158 00:07:41,290 --> 00:07:45,890 功能和剛模仿方法 語言學習能力。 159 00:07:45,890 --> 00:07:49,630 所以在這個意義上,你可以說,好,我 能有一個具有所有電腦 160 00:07:49,630 --> 00:07:52,270 事情我需要學習的語言。 161 00:07:52,270 --> 00:07:56,200 而最後一件事情是,原生 揚聲器學會從試驗和錯誤。 162 00:07:56,200 --> 00:08:01,090 在所以基本上另一個重要的事情 語言的學習是你那種 163 00:08:01,090 --> 00:08:05,340 通過使學習的東西 你所聽到的概括。 164 00:08:05,340 --> 00:08:10,280 >> 所以當你在成長過程中你學到了 有些話更像是名詞, 165 00:08:10,280 --> 00:08:11,820 一些其他的都是形容詞。 166 00:08:11,820 --> 00:08:14,250 而且你不必有任何 語言學知識 167 00:08:14,250 --> 00:08:15,040 要理解這一點。 168 00:08:15,040 --> 00:08:18,560 但你只是知道有一些單詞 被定位在的某些部分 169 00:08:18,560 --> 00:08:22,570 句子和其他一些人在其他 部分的句子。 170 00:08:22,570 --> 00:08:26,110 >> 並且,當你做的東西是 就像一個句子是不正確的 - 171 00:08:26,110 --> 00:08:28,770 也許是因為過度泛化 例如。 172 00:08:28,770 --> 00:08:32,210 也許當你長大了,你注意到 該複數通常是 173 00:08:32,210 --> 00:08:35,809 通過把一個S在形成 字的結尾。 174 00:08:35,809 --> 00:08:40,042 然後嘗試做的複數 “鹿”為“鹿”或“牙”為 175 00:08:40,042 --> 00:08:44,780 “tooths。”這樣的話你的父母或 有人糾正你,說,不, 176 00:08:44,780 --> 00:08:49,020 “鹿”的複數是“鹿”和 的“牙齒”複數是“牙齒”。進而 177 00:08:49,020 --> 00:08:50,060 你學那些東西。 178 00:08:50,060 --> 00:08:51,520 所以,如果你嘗試和錯誤中學習。 179 00:08:51,520 --> 00:08:53,100 >> 但你也可以做到這一點 用一台計算機。 180 00:08:53,100 --> 00:08:55,310 你可以有一些所謂 強化學習。 181 00:08:55,310 --> 00:08:58,560 這基本上就像給一個 計算機時,它做了獎勵 182 00:08:58,560 --> 00:08:59,410 正確的東西。 183 00:08:59,410 --> 00:09:04,710 並給它獎勵的對面 當它做錯了事。 184 00:09:04,710 --> 00:09:07,410 實際上,你可以看到,如果你走 到谷歌翻譯,並試圖 185 00:09:07,410 --> 00:09:10,220 翻譯一個句子,它 要求您提供反饋意見。 186 00:09:10,220 --> 00:09:13,240 所以,如果你說,哦,還有更好的 翻譯這句話。 187 00:09:13,240 --> 00:09:18,140 您可以鍵入它,然後如果有很多 人們一直說這是一個更好的 188 00:09:18,140 --> 00:09:21,560 翻譯,它只是學習它 應使用的翻譯,而不是 189 00:09:21,560 --> 00:09:22,960 一個它是給。 190 00:09:22,960 --> 00:09:28,830 >> 所以,這是一個非常哲學問題 看是否計算機都將是 191 00:09:28,830 --> 00:09:30,340 談得來與否的未來。 192 00:09:30,340 --> 00:09:34,440 但我有很高的期望,他們可以 只是根據這些參數。 193 00:09:34,440 --> 00:09:38,570 但它只是更多的是一種哲學 問題。 194 00:09:38,570 --> 00:09:43,460 >> 因此,儘管電腦仍無法說話, 什麼樣的事情,我們可以做什麼? 195 00:09:43,460 --> 00:09:47,070 一些非常酷的東西是 數據分類。 196 00:09:47,070 --> 00:09:53,210 因此,舉例來說,你們知道 該電子郵件服務做的,為 197 00:09:53,210 --> 00:09:55,580 例如,垃圾郵件過濾。 198 00:09:55,580 --> 00:09:59,070 所以每當你收到垃圾郵件,它 試圖篩選到另一個框。 199 00:09:59,070 --> 00:10:00,270 那麼它是怎樣做到這一點? 200 00:10:00,270 --> 00:10:06,080 它不象電腦才知道 什麼電子郵件地址發送垃圾郵件。 201 00:10:06,080 --> 00:10:09,130 因此,它更是以內容 消息,或者標題,或 202 00:10:09,130 --> 00:10:11,310 也許你有一些圖案。 203 00:10:11,310 --> 00:10:15,690 >> 所以,基本上,你所能做的就是得到一個 大量的電子郵件是垃圾郵件的數據, 204 00:10:15,690 --> 00:10:19,980 郵件是不是垃圾郵件,並了解 樣的模式,你必須在 205 00:10:19,980 --> 00:10:21,000 那些是垃圾郵件。 206 00:10:21,000 --> 00:10:23,260 這是計算的一部分 語言學。 207 00:10:23,260 --> 00:10:24,720 這就是所謂的數據分類。 208 00:10:24,720 --> 00:10:28,100 而我們實際上將看到一個 例如,在接下來的幻燈片。 209 00:10:28,100 --> 00:10:32,910 >> 第二件事是自然語言 處理這是事情的 210 00:10:32,910 --> 00:10:36,580 圖搜索是做又讓 你寫一個句子。 211 00:10:36,580 --> 00:10:38,690 它相信你明白 的含義,並給出 212 00:10:38,690 --> 00:10:39,940 你一個更好的結果。 213 00:10:39,940 --> 00:10:43,880 其實,如果你去谷歌或Bing 你搜索的東西像Lady 214 00:10:43,880 --> 00:10:47,060 Gaga的高度,你實際上會 得到5',而不是信息1“ 215 00:10:47,060 --> 00:10:50,170 從她的,因為它實際上理解 你在說什麼。 216 00:10:50,170 --> 00:10:52,140 所以這是自然的一部分, 語言處理。 217 00:10:52,140 --> 00:10:57,000 >> 或者也當你使用Siri的,第一 你有一個算法,試圖 218 00:10:57,000 --> 00:11:01,130 翻譯你在說什麼 成文字,在文字。 219 00:11:01,130 --> 00:11:03,690 然後它會嘗試翻譯 到那個意思。 220 00:11:03,690 --> 00:11:06,570 所以這是所有自然的一部分 語言處理。 221 00:11:06,570 --> 00:11:08,320 >> 那麼你有機器翻譯 - 222 00:11:08,320 --> 00:11:10,300 這實際上是1 我的最愛 - 223 00:11:10,300 --> 00:11:14,060 這是剛剛從翻譯 一種語言到另一種。 224 00:11:14,060 --> 00:11:17,950 所以,你可以認為,當你正在做的 機器翻譯,你有 225 00:11:17,950 --> 00:11:19,750 句子的無限可能性。 226 00:11:19,750 --> 00:11:22,960 因此,有沒有辦法只存儲 每一個翻譯。 227 00:11:22,960 --> 00:11:27,440 所以,你必須想出有趣 算法能夠 228 00:11:27,440 --> 00:11:30,110 翻譯每一個 句子以某種方式。 229 00:11:30,110 --> 00:11:32,483 >> 你們有什麼問題這麼遠嗎? 230 00:11:32,483 --> 00:11:34,450 沒有? 231 00:11:34,450 --> 00:11:34,830 確定。 232 00:11:34,830 --> 00:11:36,900 >> 那麼,我們要看到今天? 233 00:11:36,900 --> 00:11:39,300 首先,我要說說 分類問題。 234 00:11:39,300 --> 00:11:41,440 這樣一說我是 說關於垃圾郵件。 235 00:11:41,440 --> 00:11:46,820 我什麼都做的是,給定的歌詞 一首歌,你可以揣摩 236 00:11:46,820 --> 00:11:49,810 以高概率 誰是歌手? 237 00:11:49,810 --> 00:11:53,590 比方說,我從夫人的歌 Gaga和Katy Perry的,如果我給你一個 238 00:11:53,590 --> 00:11:58,130 新的歌曲,你可以計算出,如果 這是凱蒂·佩里還是Lady Gaga的? 239 00:11:58,130 --> 00:12:01,490 >> 第二個,我只是要談 關於分割問題。 240 00:12:01,490 --> 00:12:05,780 所以,我不知道,如果你們知道,但 中國,日本,其他東亞 241 00:12:05,780 --> 00:12:08,090 語言和其它語言 在一般情況下,不必 242 00:12:08,090 --> 00:12:09,830 單詞之間的空格。 243 00:12:09,830 --> 00:12:13,540 然後,如果你想的方式, 你的電腦親切的嘗試,以 244 00:12:13,540 --> 00:12:18,600 理解自然語言處理, 它著眼於單詞和 245 00:12:18,600 --> 00:12:21,500 試圖了解關係 他們之間,對不對? 246 00:12:21,500 --> 00:12:25,440 但是,如果你有中國人,你 具有零位,這真的很難 247 00:12:25,440 --> 00:12:28,360 搞清楚什麼是之間的關係 也就是說,因為它們不具有任何 248 00:12:28,360 --> 00:12:29,530 也就是說在第一。 249 00:12:29,530 --> 00:12:32,600 所以,你必須做一些所謂的 分割這只是意味著把 250 00:12:32,600 --> 00:12:36,490 我們所說的空間 也就是說在這些語言。 251 00:12:36,490 --> 00:12:37,740 有意義嗎? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> 然後我們要 說說語法。 254 00:12:41,540 --> 00:12:44,050 關於自然的,因此只是一點點 語言處理。 255 00:12:44,050 --> 00:12:45,420 這將只是一個概述。 256 00:12:45,420 --> 00:12:50,700 所以今天,基本上是我想要做的 是給你們的一點點 257 00:12:50,700 --> 00:12:53,930 什麼是內部的可能性 你可以用做計算 258 00:12:53,930 --> 00:12:54,960 語言學。 259 00:12:54,960 --> 00:13:00,410 然後你就可以看到你的想法 涼爽的那些東西。 260 00:13:00,410 --> 00:13:02,270 也許你能想到的一個項目 和來跟我說話。 261 00:13:02,270 --> 00:13:05,260 我可以給你建議 關於如何實現它。 262 00:13:05,260 --> 00:13:09,060 >> 所以語法將是一點點 關於圖搜索和機器 263 00:13:09,060 --> 00:13:09,670 翻譯。 264 00:13:09,670 --> 00:13:13,650 我只是想給怎樣一個例子 你可以,例如,翻譯 265 00:13:13,650 --> 00:13:16,020 從東西到葡萄牙語英語。 266 00:13:16,020 --> 00:13:17,830 聽起來不錯? 267 00:13:17,830 --> 00:13:19,293 >> 因此,首先,在分類問題。 268 00:13:19,293 --> 00:13:23,590 我會說,這部分研討會 將是最具挑戰性的 269 00:13:23,590 --> 00:13:27,560 一個只因為那裡是怎麼回事 是一些編碼。 270 00:13:27,560 --> 00:13:29,470 但它的將是Python的。 271 00:13:29,470 --> 00:13:34,380 我知道你們不知道的Python,所以 我只是要對高解釋 272 00:13:34,380 --> 00:13:35,750 平我在做什麼。 273 00:13:35,750 --> 00:13:40,900 而你沒有真正在乎過 很多關於語法,因為這是 274 00:13:40,900 --> 00:13:42,140 東西你們可以學習。 275 00:13:42,140 --> 00:13:42,540 好不好? 276 00:13:42,540 --> 00:13:43,580 聽起來不錯。 277 00:13:43,580 --> 00:13:46,020 >> 那麼什麼是分類問題? 278 00:13:46,020 --> 00:13:49,140 所以,你給一些歌詞 一首歌曲,你要猜 279 00:13:49,140 --> 00:13:50,620 誰在唱。 280 00:13:50,620 --> 00:13:54,045 這可以是任何類型的 的其他問題。 281 00:13:54,045 --> 00:13:59,980 所以可以,例如,你有一個 總統競選和你有一個 282 00:13:59,980 --> 00:14:02,610 講話,你想找到 出,如果它是,例如, 283 00:14:02,610 --> 00:14:04,470 奧巴馬或羅姆尼。 284 00:14:04,470 --> 00:14:07,700 或者你可以有一大堆的電子郵件和 你要搞清楚,如果他們是 285 00:14:07,700 --> 00:14:08,890 垃圾郵件。 286 00:14:08,890 --> 00:14:11,440 所以它只是一些分類 基於該字的數據 287 00:14:11,440 --> 00:14:13,790 你有沒有。 288 00:14:13,790 --> 00:14:16,295 >> 因此,要做到這一點,你必須 做一些假設。 289 00:14:16,295 --> 00:14:20,570 所以很多關於計算語言學 正在假設, 290 00:14:20,570 --> 00:14:24,100 通常聰明的假設,從而使 你可以得到很好的效果。 291 00:14:24,100 --> 00:14:26,670 試圖建立一個模型了。 292 00:14:26,670 --> 00:14:31,290 然後再嘗試一下,看看它是否工作, 如果它給你很好的精度。 293 00:14:31,290 --> 00:14:33,940 如果確實如此,那麼你 嘗試改善它。 294 00:14:33,940 --> 00:14:37,640 如果沒有,你肯定在想:好吧,也許我 應該做出不同的假設。 295 00:14:37,640 --> 00:14:44,030 >> 讓我們將假設 提出的是一個藝術家通常唱 296 00:14:44,030 --> 00:14:49,220 的一個話題多次,也許 使用的話多次剛 297 00:14:49,220 --> 00:14:50,270 因為他們已經習慣了它。 298 00:14:50,270 --> 00:14:51,890 你可以認為你的朋友的。 299 00:14:51,890 --> 00:14:57,350 我敢肯定,你們都有朋友 那說,他們的簽名短語, 300 00:14:57,350 --> 00:14:59,260 從字面上每一個句子 - 301 00:14:59,260 --> 00:15:02,660 像一些特定的詞或某些特定 短語,他們說的 302 00:15:02,660 --> 00:15:04,020 每一個句子。 303 00:15:04,020 --> 00:15:07,920 >> 什麼可以說的是,如果你看 一個句子,有一個簽名 304 00:15:07,920 --> 00:15:11,450 詞組,你可以猜測,大概 你的朋友是 305 00:15:11,450 --> 00:15:13,310 有一句話說,對不對? 306 00:15:13,310 --> 00:15:18,410 所以,你做這樣的假設,然後 這就是你如何創建一個模型。 307 00:15:18,410 --> 00:15:24,440 >> 那我要舉的例子是 如何Lady Gaga的,例如,人 308 00:15:24,440 --> 00:15:27,430 說,她使用“寶貝”的 她所有的頭號歌曲。 309 00:15:27,430 --> 00:15:32,270 而實際上,這是一個視頻,顯示 她說這個詞“寶貝”的 310 00:15:32,270 --> 00:15:33,410 不同的歌曲。 311 00:15:33,410 --> 00:15:33,860 >> [視頻回放] 312 00:15:33,860 --> 00:15:34,310 >> - (唱)嬰兒。 313 00:15:34,310 --> 00:15:36,220 寶貝。 314 00:15:36,220 --> 00:15:37,086 寶貝。 315 00:15:37,086 --> 00:15:37,520 寶貝。 316 00:15:37,520 --> 00:15:37,770 寶貝。 317 00:15:37,770 --> 00:15:38,822 貝貝。 318 00:15:38,822 --> 00:15:39,243 寶貝。 319 00:15:39,243 --> 00:15:40,085 寶貝。 320 00:15:40,085 --> 00:15:40,510 寶貝。 321 00:15:40,510 --> 00:15:40,850 寶貝。 322 00:15:40,850 --> 00:15:41,090 >> [完錄像​​回放 - 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS:所以有,我認為, 40首歌曲在這裡,她說, 324 00:15:44,020 --> 00:15:48,690 詞“寶貝”。所以,你基本上可以猜到 如果你看到一首歌,有 325 00:15:48,690 --> 00:15:52,180 單詞“寶寶”有一些高 概率,它是Lady Gaga的。 326 00:15:52,180 --> 00:15:56,450 但是,讓我們嘗試開發這樣 進一步更正式。 327 00:15:56,450 --> 00:16:00,470 >> 所以這些都是歌詞歌曲 Lady Gaga和Katy Perry的。 328 00:16:00,470 --> 00:16:04,120 所以,你看Lady Gaga的,你看他們 有很多事件的“寶貝”,一 329 00:16:04,120 --> 00:16:07,710 大量出現的“方式”。進而 凱蒂·佩里有很多事件的發生 330 00:16:07,710 --> 00:16:10,360 “對,”很多事件的發生“火災”。 331 00:16:10,360 --> 00:16:14,560 >> 所以基本上我們想要 做的是,你會得到一首抒情詩。 332 00:16:14,560 --> 00:16:20,480 比方說,你會得到一個抒情的 歌曲是“寶貝”,只是“寶貝”。如果 333 00:16:20,480 --> 00:16:24,750 你剛剛得到了這個詞“寶貝”,這 是你的所有,從數據 334 00:16:24,750 --> 00:16:27,880 Lady Gaga和凱蒂·佩里,誰也 你猜是人 335 00:16:27,880 --> 00:16:29,370 是誰唱這首歌? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga的還是凱蒂·佩里? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga的,對不對? 338 00:16:33,150 --> 00:16:37,400 因為她是唯一一個說誰 “寶貝”。這聽起來很愚蠢,對吧? 339 00:16:37,400 --> 00:16:38,760 OK,這是很容易的。 340 00:16:38,760 --> 00:16:41,860 我只是在看的兩首歌曲,並 當然,她是誰的唯一 341 00:16:41,860 --> 00:16:42,660 “寶貝”。 342 00:16:42,660 --> 00:16:44,740 >> 但是,如果你有一堆話? 343 00:16:44,740 --> 00:16:50,900 如果你有一個實際的歌詞,東西 一樣,“寶貝,我只是 344 00:16:50,900 --> 00:16:51,610 去看了[? CFT?] 345 00:16:51,610 --> 00:16:54,020 講座“,或者類似的東西,和 那麼你實際上必須弄清楚 - 346 00:16:54,020 --> 00:16:55,780 基於所有這些話 - 347 00:16:55,780 --> 00:16:58,350 誰是誰的藝術家可能 唱這首歌? 348 00:16:58,350 --> 00:17:01,860 所以讓我們嘗試開發 這遠一點。 349 00:17:01,860 --> 00:17:05,630 >> 好了,根據剛剛的數據​​,我們 得到了,似乎加加可能是 350 00:17:05,630 --> 00:17:06,260 歌手。 351 00:17:06,260 --> 00:17:07,904 但如何才能寫 這更正式? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 並有將是一個小 統計位。 354 00:17:13,140 --> 00:17:15,880 所以,如果你迷路了,只要嘗試 要理解這個概念。 355 00:17:15,880 --> 00:17:18,700 如果你理解不要緊, 方程非常清楚。 356 00:17:18,700 --> 00:17:22,150 這是所有要上線了。 357 00:17:22,150 --> 00:17:25,490 >> 所以基本上就是我計算的是 概率,這首歌是由 358 00:17:25,490 --> 00:17:28,040 Lady Gaga的因為 - 359 00:17:28,040 --> 00:17:30,660 所以這條表示因為 - 360 00:17:30,660 --> 00:17:33,680 我看到這個詞“寶貝”。 這是否有道理? 361 00:17:33,680 --> 00:17:35,540 所以我試圖計算 這種可能性。 362 00:17:35,540 --> 00:17:38,540 >> 所以有這個定理稱為 貝葉斯定理是說, 363 00:17:38,540 --> 00:17:43,330 一個給定的B的概率,是 乙的概率給出A,倍 364 00:17:43,330 --> 00:17:47,660 概率A的,超過的概率 B.這是一個長期的方程。 365 00:17:47,660 --> 00:17:51,970 但是,你有什麼從理解 這是,這是我想要的 366 00:17:51,970 --> 00:17:52,830 計算,對不對? 367 00:17:52,830 --> 00:17:56,570 讓這首歌是由概率 Lady Gaga的因為我看到這個詞 368 00:17:56,570 --> 00:17:58,230 “寶貝”。 369 00:17:58,230 --> 00:18:02,960 >> 現在有什麼我得到的是 單詞“寶貝”的概率給出 370 00:18:02,960 --> 00:18:04,390 我有Lady Gaga的。 371 00:18:04,390 --> 00:18:07,220 什麼是基本? 372 00:18:07,220 --> 00:18:10,500 這也就意味著,有什麼 看到這個詞“寶貝”的概率 373 00:18:10,500 --> 00:18:12,130 在Gaga的歌詞? 374 00:18:12,130 --> 00:18:16,240 如果我想計算出在一個非常 簡單的方法,它只是數 375 00:18:16,240 --> 00:18:23,640 次我看到“寶貝”在總數 在加加歌詞的話,對不對? 376 00:18:23,640 --> 00:18:27,600 什麼是我看到的頻率 在Gaga的工作這個詞? 377 00:18:27,600 --> 00:18:30,530 有意義嗎? 378 00:18:30,530 --> 00:18:33,420 >> 第二項是 概率加加。 379 00:18:33,420 --> 00:18:34,360 這是什麼意思? 380 00:18:34,360 --> 00:18:38,550 這基本上意味著,請問是什麼 分類的概率 381 00:18:38,550 --> 00:18:40,690 有些歌詞加加? 382 00:18:40,690 --> 00:18:45,320 那就是很怪,但 讓我們想到的一個例子。 383 00:18:45,320 --> 00:18:49,230 因此,讓我們說的概率 在一首歌曲有“寶貝”是一樣的 384 00:18:49,230 --> 00:18:51,760 對於Gaga和布蘭妮斯皮爾斯。 385 00:18:51,760 --> 00:18:54,950 但布蘭妮斯皮爾斯有兩次 比Lady Gaga的多首歌曲。 386 00:18:54,950 --> 00:19:00,570 因此,如果有人只是隨機給你 “寶貝”的第一件事歌詞你 387 00:19:00,570 --> 00:19:04,710 看的是,什麼是概率 在Gaga的歌曲有“寶貝”,“寶貝” 388 00:19:04,710 --> 00:19:05,410 在布蘭妮的歌? 389 00:19:05,410 --> 00:19:06,460 它是同樣的事情。 390 00:19:06,460 --> 00:19:10,040 >> 所以,你會看到的第二件事情是, 那麼,什麼是概率 391 00:19:10,040 --> 00:19:13,770 這歌詞本身是一個Gaga的歌詞, 是什麼的概率 392 00:19:13,770 --> 00:19:15,380 作為布蘭妮的歌詞? 393 00:19:15,380 --> 00:19:18,950 所以自從布蘭妮有那麼多的歌詞 比加加,你可能會 394 00:19:18,950 --> 00:19:21,470 比方說,好了,這可能是 布蘭妮的歌詞。 395 00:19:21,470 --> 00:19:23,340 所以這就是為什麼我們有這個 該詞在這裡。 396 00:19:23,340 --> 00:19:24,670 概率加加。 397 00:19:24,670 --> 00:19:26,950 有道理? 398 00:19:26,950 --> 00:19:28,660 不是嗎? 399 00:19:28,660 --> 00:19:29,370 確定。 400 00:19:29,370 --> 00:19:33,500 >> 和最後一個是剛才的概率 “嬰​​兒”的不 401 00:19:33,500 --> 00:19:34,810 真正的問題那麼多。 402 00:19:34,810 --> 00:19:39,940 但它的概率 看到“寶貝”的英文。 403 00:19:39,940 --> 00:19:42,725 我們通常不關心 很多關於這個詞。 404 00:19:42,725 --> 00:19:44,490 這是否有道理? 405 00:19:44,490 --> 00:19:48,110 所以加加的概率是 稱為先驗概率 406 00:19:48,110 --> 00:19:49,530 之類的加加。 407 00:19:49,530 --> 00:19:53,840 因為它只是意味著,請問是什麼 有那個類的概率 - 408 00:19:53,840 --> 00:19:55,520 這是加加 - 409 00:19:55,520 --> 00:19:59,350 只是在一般情況下,剛 沒有條件。 410 00:19:59,350 --> 00:20:02,560 >> 然後當我有概率 加加給“寶貝”,我們把它叫做加 411 00:20:02,560 --> 00:20:06,160 流淚的概率,因為它是 具有的概率 412 00:20:06,160 --> 00:20:08,300 加加給出了一些證據。 413 00:20:08,300 --> 00:20:11,050 所以我給你證據 我看到這個詞的嬰兒和 414 00:20:11,050 --> 00:20:12,690 這首歌有意義嗎? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 確定。 417 00:20:16,410 --> 00:20:22,400 >> 所以,如果我計算過,每個 該歌曲的Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 是什麼將是 - 419 00:20:25,916 --> 00:20:27,730 顯然,我不能動了。 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 加加的概率將是 類似,在2 24,次數的1/2, 422 00:20:36,920 --> 00:20:38,260 在2比53。 423 00:20:38,260 --> 00:20:40,640 如果你知道它什麼都無所謂 這些數字的來源。 424 00:20:40,640 --> 00:20:44,750 但它只是一個數字,是怎麼回事 為大於0,對不對? 425 00:20:44,750 --> 00:20:48,610 >> 然後當我做凱蒂·佩里,該 “寶寶”的概率給出卡提現 426 00:20:48,610 --> 00:20:49,830 已經為0,對不對? 427 00:20:49,830 --> 00:20:52,820 因為沒有“寶貝” 在凱蒂·佩里。 428 00:20:52,820 --> 00:20:56,360 是這樣,那麼這變成0,並且加加 勝,這意味著Gaga是 429 00:20:56,360 --> 00:20:57,310 大概是歌手。 430 00:20:57,310 --> 00:20:58,560 這是否有道理? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 確定。 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> 所以,如果我想使這個更正式, 我其實可以做一個模型 435 00:21:11,750 --> 00:21:12,700 多個單詞。 436 00:21:12,700 --> 00:21:14,610 因此,讓我們說我有話 一樣,“寶貝,我 437 00:21:14,610 --> 00:21:16,030 著火了,“什麼的。 438 00:21:16,030 --> 00:21:17,760 因此,它具有多個單詞。 439 00:21:17,760 --> 00:21:20,880 在這種情況下,你可以看到 這“寶貝”是加加, 440 00:21:20,880 --> 00:21:21,710 但它不是在凱蒂。 441 00:21:21,710 --> 00:21:24,940 與“火”是凱蒂,但 它不是在Gaga的,對不對? 442 00:21:24,940 --> 00:21:27,200 因此,它變得棘手,對吧? 443 00:21:27,200 --> 00:21:31,440 因為它似乎,你幾乎 有兩者之間的領帶。 444 00:21:31,440 --> 00:21:36,980 >> 所以你要做的就是承擔 獨立性的話之一。 445 00:21:36,980 --> 00:21:41,210 所以基本上這是什麼意思是, 我只是計算是什麼 446 00:21:41,210 --> 00:21:44,330 看到的概率“寶貝”,什麼是 看到的可能性“我”和 447 00:21:44,330 --> 00:21:46,670 “是”和“上”和“火” 所有獨立。 448 00:21:46,670 --> 00:21:48,670 然後我乘他們。 449 00:21:48,670 --> 00:21:52,420 而我看​​到的是概率 的看到整個句子。 450 00:21:52,420 --> 00:21:55,210 有意義嗎? 451 00:21:55,210 --> 00:22:00,270 >> 所以基本上,如果我只有一個字, 我想要找的是阿根廷最大, 452 00:22:00,270 --> 00:22:05,385 這意味著,那是什麼是類 給我最高的概率是多少? 453 00:22:05,385 --> 00:22:10,010 那麼,什麼是給類 我的最高概率 454 00:22:10,010 --> 00:22:11,940 類的概率給定的單詞。 455 00:22:11,940 --> 00:22:17,610 因此,在這種情況下,給予加加“寶貝”。 或凱蒂給“寶貝”。有意義嗎? 456 00:22:17,610 --> 00:22:21,040 >> 而剛剛從貝葉斯,那 方程式我發現, 457 00:22:21,040 --> 00:22:24,780 我們創建這個分數。 458 00:22:24,780 --> 00:22:28,750 唯一的一點是,你看到 字中給出的概率 459 00:22:28,750 --> 00:22:31,370 根據班級的變化 在類的吧? 460 00:22:31,370 --> 00:22:34,260 的“寶貝”s表示我有多少 在Gaga是從凱蒂不同。 461 00:22:34,260 --> 00:22:37,640 類的概率也 的變化,因為它只是數 462 00:22:37,640 --> 00:22:39,740 歌曲他們每個人都有。 463 00:22:39,740 --> 00:22:43,980 >> 但這個詞本身的概率 將是相同的所有的 464 00:22:43,980 --> 00:22:44,740 藝術家,對不對? 465 00:22:44,740 --> 00:22:47,150 這樣的單詞的概率是 只是,什麼是概率 466 00:22:47,150 --> 00:22:49,820 看到在這個詞 英語? 467 00:22:49,820 --> 00:22:51,420 因此,它是相同的所有的人。 468 00:22:51,420 --> 00:22:55,790 所以,因為這是不變的,我們可以只 下降的,根本沒有在意它。 469 00:22:55,790 --> 00:23:00,230 因此,這將是真正的 方程我們正在尋找。 470 00:23:00,230 --> 00:23:03,360 >> 如果我有多個的話,我 仍然會有事先 471 00:23:03,360 --> 00:23:04,610 概率在這裡。 472 00:23:04,610 --> 00:23:06,980 唯一的一點是,我乘 的概率 473 00:23:06,980 --> 00:23:08,490 所有其他的話。 474 00:23:08,490 --> 00:23:10,110 所以我乘他們。 475 00:23:10,110 --> 00:23:12,610 有意義嗎? 476 00:23:12,610 --> 00:23:18,440 它看起來很奇怪,但基本上意味著, 計算前的類,並 477 00:23:18,440 --> 00:23:22,100 然後由每個的概率相乘 在這個類是的話。 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> 而且你知道的概率 給定一類字將是對 480 00:23:29,150 --> 00:23:34,520 你看到這個詞次數 該類別,由數除以 481 00:23:34,520 --> 00:23:37,020 也就是說你必須在這 類一般。 482 00:23:37,020 --> 00:23:37,990 有意義嗎? 483 00:23:37,990 --> 00:23:41,680 這是在多麼“寶貝”是2 字的數目是 484 00:23:41,680 --> 00:23:43,020 我在歌詞中。 485 00:23:43,020 --> 00:23:45,130 因此,只要頻率。 486 00:23:45,130 --> 00:23:46,260 >> 但有一件事。 487 00:23:46,260 --> 00:23:51,250 還記得我是怎麼顯示的 的“寶貝”是概率的歌詞 488 00:23:51,250 --> 00:23:56,350 從凱蒂·佩里為0,只是因為凱蒂 佩里並沒有在所有有“寶貝”? 489 00:23:56,350 --> 00:24:04,900 但它聽起來有點刺耳,只是 簡單地說,歌詞不能從 490 00:24:04,900 --> 00:24:10,040 只是因為它們沒有一個藝術家 該單詞在特定隨時。 491 00:24:10,040 --> 00:24:13,330 >> 所以你可以只說,好吧,如果你 沒有這個字,我要去 492 00:24:13,330 --> 00:24:15,640 給你一個較低的概率, 但我只是不打算 493 00:24:15,640 --> 00:24:17,420 給你0的時候了。 494 00:24:17,420 --> 00:24:21,040 因為也許是類似, “火,火,火,火,”這是 495 00:24:21,040 --> 00:24:21,990 完全凱蒂·佩里。 496 00:24:21,990 --> 00:24:26,060 然後“寶貝”,它只是去 0的時候了,因為有一個 497 00:24:26,060 --> 00:24:27,250 “寶貝”。 498 00:24:27,250 --> 00:24:31,440 >> 所以基本上我們做的是什麼 所謂的拉普拉斯平滑。 499 00:24:31,440 --> 00:24:36,260 這只是意味著我放棄 有些甚至可能的話 500 00:24:36,260 --> 00:24:37,850 不存在的。 501 00:24:37,850 --> 00:24:43,170 因此,我要做的是,當我 計算這個,我總是加1 502 00:24:43,170 --> 00:24:44,180 分子。 503 00:24:44,180 --> 00:24:48,060 所以即使單詞不存在,在 這種情況下,如果是0,我還是 504 00:24:48,060 --> 00:24:51,250 計算此為1比 單詞總數。 505 00:24:51,250 --> 00:24:55,060 否則,我得到多少個字 我已經和我加1。 506 00:24:55,060 --> 00:24:58,300 所以我就指望這兩種情況。 507 00:24:58,300 --> 00:25:00,430 有意義嗎? 508 00:25:00,430 --> 00:25:03,060 >> 所以,現在讓我們做一些編碼。 509 00:25:03,060 --> 00:25:06,440 我將不得不這樣做相當快, 但它只是重要的是你 510 00:25:06,440 --> 00:25:08,600 人理解的概念。 511 00:25:08,600 --> 00:25:13,450 所以,我們正在試圖做的 也正是實施這一 512 00:25:13,450 --> 00:25:14,330 的事情,我只是說 - 513 00:25:14,330 --> 00:25:19,110 我希望你把歌詞從 Lady Gaga和Katy Perry的。 514 00:25:19,110 --> 00:25:22,980 和節目是要能夠 說,如果這些新的歌詞是從加加 515 00:25:22,980 --> 00:25:24,170 或凱蒂·佩里。 516 00:25:24,170 --> 00:25:25,800 有意義嗎? 517 00:25:25,800 --> 00:25:27,530 確定。 518 00:25:27,530 --> 00:25:30,710 >> 所以,我有這個計劃我要去 打電話classify.py。 519 00:25:30,710 --> 00:25:31,970 所以這是Python的。 520 00:25:31,970 --> 00:25:34,210 這是一種新的編程語言。 521 00:25:34,210 --> 00:25:38,020 它是在某些非常相似 方式到C和PHP。 522 00:25:38,020 --> 00:25:43,180 這是類似的,因為如果你想 明知℃之後學習Python,它的 523 00:25:43,180 --> 00:25:46,270 真的沒有那麼多的挑戰 只是因為Python是容易得多 524 00:25:46,270 --> 00:25:47,520 比C,首先。 525 00:25:47,520 --> 00:25:49,370 和很多東西都已經 實現你。 526 00:25:49,370 --> 00:25:56,820 那麼究竟像PHP有函數 排序的列表,或是添加一些東西 527 00:25:56,820 --> 00:25:58,780 到一個數組,或者胡說,胡說,胡說。 528 00:25:58,780 --> 00:26:00,690 Python有所有這些為好。 529 00:26:00,690 --> 00:26:05,960 >> 所以我只是要迅速解釋 我們如何能做到分類 530 00:26:05,960 --> 00:26:07,860 問題在這裡。 531 00:26:07,860 --> 00:26:13,230 所以我們可以說,在這種情況下,我有 從Gaga和Katy Perry的歌詞。 532 00:26:13,230 --> 00:26:21,880 我有那些歌詞的方式是, 歌詞的第一個字是 533 00:26:21,880 --> 00:26:25,250 藝術家的名字,以及 剩下的就是歌詞。 534 00:26:25,250 --> 00:26:29,470 所以我們可以說,我在這個名單 其中第一個是歌詞由加加。 535 00:26:29,470 --> 00:26:31,930 所以在這裡,我在正確的軌道。 536 00:26:31,930 --> 00:26:35,270 而下一個是凱蒂和 它也有歌詞。 537 00:26:35,270 --> 00:26:38,040 >> 所以,你這是怎麼聲明 在Python中的變量。 538 00:26:38,040 --> 00:26:40,200 你不必給的數據類型。 539 00:26:40,200 --> 00:26:43,150 你只寫“的歌詞,” 那種喜歡在PHP。 540 00:26:43,150 --> 00:26:44,890 有意義嗎? 541 00:26:44,890 --> 00:26:47,770 >> 那麼,什麼是我的事 計算,以便能夠計算出 542 00:26:47,770 --> 00:26:49,360 概率? 543 00:26:49,360 --> 00:26:55,110 我要計算“先驗” 每一個不同的 544 00:26:55,110 --> 00:26:56,710 類,我有。 545 00:26:56,710 --> 00:27:06,680 我要計算“後驗” 或相當多的概率 546 00:27:06,680 --> 00:27:12,150 每一個不同的詞 我可以為每個藝術家。 547 00:27:12,150 --> 00:27:17,210 所以在加加,例如,我要去 到有多少次我看到一個列表 548 00:27:17,210 --> 00:27:19,250 每個單詞。 549 00:27:19,250 --> 00:27:20,760 有意義嗎? 550 00:27:20,760 --> 00:27:25,370 >> 最後,我只是有一個 列表被稱為“字”,也就是剛準備 551 00:27:25,370 --> 00:27:29,780 有多少字我 為每個藝術家。 552 00:27:29,780 --> 00:27:33,760 因此,對於加加,例如,當我看 的歌詞,我,我想,24 553 00:27:33,760 --> 00:27:34,750 字總。 554 00:27:34,750 --> 00:27:38,970 所以這個列表只是將不得不 加加24,和Katy另一個號碼。 555 00:27:38,970 --> 00:27:40,130 有意義嗎? 556 00:27:40,130 --> 00:27:40,560 確定。 557 00:27:40,560 --> 00:27:42,530 >> 所以,現在,居然,讓我們 去編碼。 558 00:27:42,530 --> 00:27:45,270 所以在Python中,你實際上可以 返回一堆不同 559 00:27:45,270 --> 00:27:46,630 活動從一個函數。 560 00:27:46,630 --> 00:27:50,810 所以我打算創造這個功能 稱為“有條件的”,這是打算 561 00:27:50,810 --> 00:27:53,890 返回所有這些事情時, “先驗”的“概率”,並 562 00:27:53,890 --> 00:28:05,690 “字樣。”因此,“有條件的”,它是 將要調入“的歌詞。” 563 00:28:05,690 --> 00:28:11,510 >> 所以,現在我要你真正 寫這個函數。 564 00:28:11,510 --> 00:28:17,750 所以,我可以寫這個的方式 功能是我剛才定義這 565 00:28:17,750 --> 00:28:20,620 功能與“高清”。所以我做了“高清 有條件的,“和它的服用 566 00:28:20,620 --> 00:28:28,700 “的歌詞。”以及這是要幹什麼 是,首先,我有我的先驗 567 00:28:28,700 --> 00:28:31,030 我想計算。 568 00:28:31,030 --> 00:28:34,330 >> 這樣我可以做到這一點的方法是創建 在Python中,字典的 569 00:28:34,330 --> 00:28:37,320 幾乎是同樣的事情作為一個哈希 表,或者它就像一個迭代 570 00:28:37,320 --> 00:28:40,480 數組在PHP。 571 00:28:40,480 --> 00:28:44,150 這是我聲明一個字典。 572 00:28:44,150 --> 00:28:53,580 基本上這是什麼意思是, 加加的先驗概率是0.5,例如,如果 573 00:28:53,580 --> 00:28:57,200 歌詞50%是由 加加,50%是由凱蒂。 574 00:28:57,200 --> 00:28:58,450 有意義嗎? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 所以,我必須弄清楚如何 計算先驗。 577 00:29:03,680 --> 00:29:07,120 >> 接下來的那些我必須做的,還可以, 是概率和單詞。 578 00:29:07,120 --> 00:29:17,100 所以加加的概率是列表 所有的概率,我 579 00:29:17,100 --> 00:29:19,160 對每個單詞為加加。 580 00:29:19,160 --> 00:29:23,880 所以,如果我去加加的概率 “寶貝”為例,它會給我 581 00:29:23,880 --> 00:29:28,750 像2比24在這種情況下。 582 00:29:28,750 --> 00:29:30,070 有意義嗎? 583 00:29:30,070 --> 00:29:36,120 於是我去“概率”,進入 “加加”鬥具有所有列表 584 00:29:36,120 --> 00:29:40,550 加加的話,那我去“寶貝” 而我看​​到的概率。 585 00:29:40,550 --> 00:29:45,940 >> 最後我有這個 “字”字典。 586 00:29:45,940 --> 00:29:53,620 所以在這裡,“概率”。進而 “字樣。”所以,如果我這樣做“的話,”“嘎嘎,” 587 00:29:53,620 --> 00:29:58,330 什麼將要發生的是它的 要給我24,說我 588 00:29:58,330 --> 00:30:01,990 有內Gaga的歌詞24個字。 589 00:30:01,990 --> 00:30:04,110 有道理? 590 00:30:04,110 --> 00:30:07,070 所以在這裡,“話”等於DAH-DAH-DAH。 591 00:30:07,070 --> 00:30:07,620 行 592 00:30:07,620 --> 00:30:12,210 >> 所以,我什麼都做的是我要去 遍歷每個歌詞,所以 593 00:30:12,210 --> 00:30:14,490 每個串的那 我已經在列表中。 594 00:30:14,490 --> 00:30:18,040 我要去計算那些事 每個候選人。 595 00:30:18,040 --> 00:30:19,950 有道理? 596 00:30:19,950 --> 00:30:21,700 所以,我必須做一個for循環。 597 00:30:21,700 --> 00:30:26,300 >> 所以在Python中有什麼我可以做的是“線路 在抒情詩。“同樣的事,作為一個 598 00:30:26,300 --> 00:30:28,000 “為每一個”在PHP語句。 599 00:30:28,000 --> 00:30:33,420 記住我,如果它是PHP怎麼可能 說“每個歌詞 600 00:30:33,420 --> 00:30:35,220 線。“有道理? 601 00:30:35,220 --> 00:30:38,900 所以我每次走的線路,在這個 情況下,這個字符串和下一 602 00:30:38,900 --> 00:30:44,540 字符串,以便為每個什麼我是線 要做的是首先,我要 603 00:30:44,540 --> 00:30:49,150 拆分此行成的名單 字以空格分隔。 604 00:30:49,150 --> 00:30:53,730 >> 所以,關於Python的很酷的事情是, 你可能只是谷歌像“我怎麼能 605 00:30:53,730 --> 00:30:58,220 字符串分割成單詞? “和它的 要告訴你如何做到這一點。 606 00:30:58,220 --> 00:31:04,890 而做到這一點的方式,它只是“行 = line.split()“,它基本上是 607 00:31:04,890 --> 00:31:08,640 將會給你一個列表 每個在這裡的話。 608 00:31:08,640 --> 00:31:09,620 有道理? 609 00:31:09,620 --> 00:31:15,870 所以,現在我這樣做,我想知道 誰是那首歌的歌手。 610 00:31:15,870 --> 00:31:20,130 要做到這一點我必須得到 數組的第一個元素,對不對? 611 00:31:20,130 --> 00:31:26,390 所以,我只能說我“歌手 =行(0)“有道理? 612 00:31:26,390 --> 00:31:32,010 >> 然後我需要做的是,首先 所有,我要更新多少 613 00:31:32,010 --> 00:31:36,130 也就是說我有下“加加”。所以我只是 要計算多少字我 614 00:31:36,130 --> 00:31:38,690 在這個列表中,右鍵? 615 00:31:38,690 --> 00:31:41,910 因為這是我多少字有 在歌詞中,我只是要 616 00:31:41,910 --> 00:31:44,120 將它添加到“加加”陣列。 617 00:31:44,120 --> 00:31:47,090 這是否有道理? 618 00:31:47,090 --> 00:31:49,010 太不注重語法。 619 00:31:49,010 --> 00:31:50,430 多思考的概念。 620 00:31:50,430 --> 00:31:52,400 這是最重要的部分。 621 00:31:52,400 --> 00:31:52,720 確定。 622 00:31:52,720 --> 00:32:00,260 >> 因此,我可以做到這一點的是,如果“加加”是 已經在該列表中,因此“如果歌手在 623 00:32:00,260 --> 00:32:03,190 話“,這意味著我已經 由加加有話。 624 00:32:03,190 --> 00:32:06,640 我只是想添加額外的 是這個意思。 625 00:32:06,640 --> 00:32:15,810 所以,我要做的就是“字(歌手) + = LEN(線路) - 1“。 626 00:32:15,810 --> 00:32:18,250 然後我可以做的 長行。 627 00:32:18,250 --> 00:32:21,860 那麼有多少個元素我 在陣列中。 628 00:32:21,860 --> 00:32:27,060 而我所要做的零下1只是因為 該陣列的第一個元素是剛 629 00:32:27,060 --> 00:32:29,180 一個歌手,這些都不是歌詞。 630 00:32:29,180 --> 00:32:31,420 有道理? 631 00:32:31,420 --> 00:32:32,780 確定。 632 00:32:32,780 --> 00:32:35,820 >> “否則,”這意味著我要實際 加加插入到列表中。 633 00:32:35,820 --> 00:32:45,990 所以,我只是做“字(歌手) = LEN(線路) - 1,“對不起。 634 00:32:45,990 --> 00:32:49,200 因此,兩者之間的唯一區別 行的是,這一次,它不 635 00:32:49,200 --> 00:32:51,080 還存在,所以我只是 初始化它。 636 00:32:51,080 --> 00:32:53,820 這其中實際上,我加入。 637 00:32:53,820 --> 00:32:55,570 確定。 638 00:32:55,570 --> 00:32:59,480 因此,這是增加的話。 639 00:32:59,480 --> 00:33:03,040 >> 現在我想添加到先驗。 640 00:33:03,040 --> 00:33:05,480 所以,我怎麼計算先驗? 641 00:33:05,480 --> 00:33:11,580 先驗概率可以計算 通過多少次。 642 00:33:11,580 --> 00:33:15,340 你這麼有多少次看到歌手 在所有的歌手,你的 643 00:33:15,340 --> 00:33:16,380 有,對不對? 644 00:33:16,380 --> 00:33:18,810 因此,對於Gaga和凱蒂·佩里, 在這種情況下,我看到加加 645 00:33:18,810 --> 00:33:20,570 一次,Katy Perry的一次。 646 00:33:20,570 --> 00:33:23,320 >> 所以基本上是先驗的加加 和凱蒂·佩里會 647 00:33:23,320 --> 00:33:24,390 僅僅是一個,對不對? 648 00:33:24,390 --> 00:33:26,500 你有多少次 我看到了藝術家。 649 00:33:26,500 --> 00:33:28,740 所以這是很容易計算。 650 00:33:28,740 --> 00:33:34,100 我可以只是一些類似,像“如果 歌手先驗,“我只是去 651 00:33:34,100 --> 00:33:38,970 加入1〜他們的先驗箱。 652 00:33:38,970 --> 00:33:51,000 所以,“先驗(唱)”+ = 1“,然後”其他“ 我該怎麼辦“先驗(歌手) 653 00:33:51,000 --> 00:33:55,000 = 1“。有道理? 654 00:33:55,000 --> 00:34:00,080 >> 所以,如果它不存在,我只是把 為1,否則我只加1。 655 00:34:00,080 --> 00:34:11,280 好了,現在所有的,我已經離開辦 也是每個單詞添加到 656 00:34:11,280 --> 00:34:12,290 概率。 657 00:34:12,290 --> 00:34:14,889 所以,我必須指望有多少次 我看到每個單詞。 658 00:34:14,889 --> 00:34:18,780 所以,我只是需要做的另一 for循環中的行。 659 00:34:18,780 --> 00:34:25,190 >> 我要去這樣做的第一件事就是 檢查的歌手已經有 660 00:34:25,190 --> 00:34:26,969 概率數組。 661 00:34:26,969 --> 00:34:31,739 所以我檢查,如果歌手不 有一個概率的數組,我只是 662 00:34:31,739 --> 00:34:34,480 要初始化一個用於它們。 663 00:34:34,480 --> 00:34:36,400 它甚至不是一個數組,對不起, 這是一本字典。 664 00:34:36,400 --> 00:34:43,080 所以歌手的概率是怎麼回事 是一個開放的字典,所以我 665 00:34:43,080 --> 00:34:45,830 只是初始化字典吧。 666 00:34:45,830 --> 00:34:46,820 好不好? 667 00:34:46,820 --> 00:34:58,330 >> 現在我可以真正做一個for循環 計算每個單詞' 668 00:34:58,330 --> 00:35:00,604 概率。 669 00:35:00,604 --> 00:35:01,540 確定。 670 00:35:01,540 --> 00:35:04,160 因此,我所能做的就是一個for循環。 671 00:35:04,160 --> 00:35:06,590 所以我只是去遍歷 在陣列。 672 00:35:06,590 --> 00:35:15,320 這樣我可以做到這一點在Python的方式 是“因為我在範圍內。”從1 673 00:35:15,320 --> 00:35:19,200 因為我要開始第二 元件,因為第一個是 674 00:35:19,200 --> 00:35:20,260 歌手名。 675 00:35:20,260 --> 00:35:24,990 所以從1至 長行。 676 00:35:24,990 --> 00:35:29,760 當我做它的範圍實際上從去 喜歡這裡從1到的LEN 677 00:35:29,760 --> 00:35:30,740 行減1。 678 00:35:30,740 --> 00:35:33,810 所以它已經這樣做這樣做的那件事 Ñ​​減1為數組,這是非常 679 00:35:33,810 --> 00:35:35,500 方便。 680 00:35:35,500 --> 00:35:37,850 有道理? 681 00:35:37,850 --> 00:35:42,770 >> 因此,對於每一個這些,有什麼我要去 做的是,就像在另外一個, 682 00:35:42,770 --> 00:35:50,320 我要檢查,如果在這個字 在該線的位置已在 683 00:35:50,320 --> 00:35:51,570 概率。 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 然後我說在這裡,概率 也就是說,在我把 686 00:35:57,260 --> 00:35:58,400 “概率(歌手)”。 687 00:35:58,400 --> 00:35:59,390 這樣的歌手的名字。 688 00:35:59,390 --> 00:36:03,450 所以,如果它已經在 “probabilit(歌手)”,這意味著我 689 00:36:03,450 --> 00:36:11,960 要加1,所以我要去 做“的概率(歌手)”,以及 690 00:36:11,960 --> 00:36:14,100 字被稱為“線(一)”。 691 00:36:14,100 --> 00:36:22,630 我要加1和“其他”我只是 將它初始化為1。 692 00:36:22,630 --> 00:36:23,880 “行(一)”。 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 有道理? 695 00:36:28,420 --> 00:36:30,180 >> 所以,我計算出的所有陣列。 696 00:36:30,180 --> 00:36:36,580 所以,現在的一切,我所要做的 這個人是剛剛“回歸先驗, 697 00:36:36,580 --> 00:36:43,230 概率和單詞。“讓我們 看看是否有任何好不好。 698 00:36:43,230 --> 00:36:45,690 似乎一切工作至今。 699 00:36:45,690 --> 00:36:46,900 所以,這是有道理的? 700 00:36:46,900 --> 00:36:47,750 以某種方式? 701 00:36:47,750 --> 00:36:49,280 確定。 702 00:36:49,280 --> 00:36:51,980 所以,現在我把所有的可能性。 703 00:36:51,980 --> 00:36:55,100 所以,現在我已經離開的唯一的事 只是有這種事情, 704 00:36:55,100 --> 00:36:58,650 計算出的所有產品 當我拿到歌詞的概率。 705 00:36:58,650 --> 00:37:06,270 >> 因此,讓我們說,我想現在打電話 這個功能“分類()”和 706 00:37:06,270 --> 00:37:08,880 東西函數接受 只是一個說法。 707 00:37:08,880 --> 00:37:13,170 比方說,“寶貝,我著火了”,它的 要弄清楚什麼是 708 00:37:13,170 --> 00:37:14,490 概率,這是加加? 709 00:37:14,490 --> 00:37:16,405 這是概率 這是凱蒂? 710 00:37:16,405 --> 00:37:19,690 聽起來不錯? 711 00:37:19,690 --> 00:37:25,750 所以我只是將不得不創建一個 所謂的新功能“分類()”和 712 00:37:25,750 --> 00:37:29,180 它會採取一些 歌詞也是如此。 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 而除了歌詞我也 有送先驗的 715 00:37:36,160 --> 00:37:37,700 概率和單詞。 716 00:37:37,700 --> 00:37:44,000 所以我打算送歌詞,先驗, 概率的話。 717 00:37:44,000 --> 00:37:51,840 >> 因此,這是採取的歌詞,先驗, 概率的話。 718 00:37:51,840 --> 00:37:53,530 那麼,它有什麼作用? 719 00:37:53,530 --> 00:37:57,180 它基本上是要通過所有 可能的候選人,你 720 00:37:57,180 --> 00:37:58,510 有作為一名歌手。 721 00:37:58,510 --> 00:37:59,425 和那些人在那裡候選人? 722 00:37:59,425 --> 00:38:01,020 他們是在先驗,對不對? 723 00:38:01,020 --> 00:38:02,710 所以,我有所有這些存在的。 724 00:38:02,710 --> 00:38:07,870 所以,我要準備一本字典 所有可能的候選人。 725 00:38:07,870 --> 00:38:14,220 然後在每個候選 先驗概率,因此它意味著它要 726 00:38:14,220 --> 00:38:17,740 是加加,凱蒂如果我有 更會比較。 727 00:38:17,740 --> 00:38:20,410 我要開始計算 這個概率。 728 00:38:20,410 --> 00:38:28,310 正如我們在看到的概率 PowerPoint是事先倍 729 00:38:28,310 --> 00:38:30,800 每一個的產品 其他可能性。 730 00:38:30,800 --> 00:38:32,520 >> 所以,我在這裡可以這樣做。 731 00:38:32,520 --> 00:38:36,330 我可以做的是概率 剛開始之前。 732 00:38:36,330 --> 00:38:40,340 因此,先驗的候選人。 733 00:38:40,340 --> 00:38:40,870 對不對? 734 00:38:40,870 --> 00:38:45,360 現在我不得不遍歷所有的 我有在歌詞是詞 735 00:38:45,360 --> 00:38:48,820 能夠添加的概率 為他們每個人,好不好? 736 00:38:48,820 --> 00:38:57,900 因此,“為字的歌詞”我什麼都 做的是,如果該字是在 737 00:38:57,900 --> 00:39:01,640 “概率(候選人)”,這 也就是說,它是一個字的 738 00:39:01,640 --> 00:39:03,640 候選人在他們的歌詞 - 739 00:39:03,640 --> 00:39:05,940 例如,“嬰兒”的加加 - 740 00:39:05,940 --> 00:39:11,710 我現在要做的是, 概率將被乘以 741 00:39:11,710 --> 00:39:22,420 由加的概率1 候選人的那個詞。 742 00:39:22,420 --> 00:39:25,710 它被稱為“字”。 743 00:39:25,710 --> 00:39:32,440 這除以單詞數 我對那個候選人。 744 00:39:32,440 --> 00:39:37,450 字的總數,我有 對於我期待的歌手。 745 00:39:37,450 --> 00:39:40,290 >> “否則”。這意味著它是一個新詞 所以它會像例如 746 00:39:40,290 --> 00:39:41,860 “火”的Lady Gaga的。 747 00:39:41,860 --> 00:39:45,760 所以,我只想做超過1 “字(候選人)”。 748 00:39:45,760 --> 00:39:47,710 所以,我不希望把這個詞在這裡。 749 00:39:47,710 --> 00:39:50,010 >> 所以它的將是基本 複製並粘貼此。 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 但我要刪除這部分。 752 00:39:56,000 --> 00:39:57,610 所以它只是將是1比那。 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 聽起來不錯? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 現在到了最後,我只是要 印上候選人的名字和 757 00:40:09,700 --> 00:40:15,750 你有概率 在他們的歌詞有標。 758 00:40:15,750 --> 00:40:16,200 有道理? 759 00:40:16,200 --> 00:40:18,390 我其實不連 需要這本詞典。 760 00:40:18,390 --> 00:40:19,510 有道理? 761 00:40:19,510 --> 00:40:21,810 >> 所以,讓我們看看這個實際工作。 762 00:40:21,810 --> 00:40:24,880 所以,如果我運行這個,也沒有工作。 763 00:40:24,880 --> 00:40:26,130 等待一秒鐘。 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 “言(候選人)”,“字(候選人)”, 這是 766 00:40:31,720 --> 00:40:33,750 該數組的名稱。 767 00:40:33,750 --> 00:40:41,435 好了,所以,它說,有一些bug 候選的先驗。 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 讓我冷靜下來一點點。 770 00:40:48,760 --> 00:40:50,360 確定。 771 00:40:50,360 --> 00:40:51,305 讓我們試試。 772 00:40:51,305 --> 00:40:51,720 確定。 773 00:40:51,720 --> 00:40:58,710 >> 所以,它給了凱蒂·佩里有這個 在此乘以10的概率 774 00:40:58,710 --> 00:41:02,200 減去7,和加加有這個 乘以10的負6。 775 00:41:02,200 --> 00:41:05,610 所以你看它表明加加 具有更高的概率。 776 00:41:05,610 --> 00:41:09,260 因此,“寶貝,我在火”是 可能是Gaga的歌。 777 00:41:09,260 --> 00:41:10,580 有道理? 778 00:41:10,580 --> 00:41:12,030 所以這就是我們所做的。 779 00:41:12,030 --> 00:41:16,010 >> 此代碼將被發布到網上, 所以你們可以檢查出來。 780 00:41:16,010 --> 00:41:20,720 也許用一些它,如果你想 做一個項目或類似的東西。 781 00:41:20,720 --> 00:41:22,150 確定。 782 00:41:22,150 --> 00:41:25,930 這只是為了顯示 怎樣計算 783 00:41:25,930 --> 00:41:27,230 語言學的代碼如下所示。 784 00:41:27,230 --> 00:41:33,040 但是,現在讓我們去更多 高層次的東西。 785 00:41:33,040 --> 00:41:33,340 確定。 786 00:41:33,340 --> 00:41:35,150 >> 因此,其他的問題我 說的是 - 787 00:41:35,150 --> 00:41:37,550 分割問題 是第一人。 788 00:41:37,550 --> 00:41:40,820 所以,你必須在這裡的日本。 789 00:41:40,820 --> 00:41:43,420 然後就看到了 有沒有空格。 790 00:41:43,420 --> 00:41:49,110 因此,這基本上意味著它 椅子的頂部,對不對? 791 00:41:49,110 --> 00:41:50,550 你說日語嗎? 792 00:41:50,550 --> 00:41:52,840 這是椅子的頂部,對不對? 793 00:41:52,840 --> 00:41:54,480 >> 學生:我不知道是什麼 漢字那邊。 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS:這是[操日語] 795 00:41:57,010 --> 00:41:57,950 確定。 796 00:41:57,950 --> 00:42:00,960 所以它基本上意味著頂部的椅子。 797 00:42:00,960 --> 00:42:03,620 所以,如果你不得不把一個空間 這將是在這裡。 798 00:42:03,620 --> 00:42:05,970 然後你有[?上田山。 ?] 799 00:42:05,970 --> 00:42:09,040 這基本上意味著上田先生。 800 00:42:09,040 --> 00:42:13,180 而你看到的“田”和你有一個 空間,然後“聖”。所以你看到, 801 00:42:13,180 --> 00:42:15,470 在這裡你“UE”就像本身。 802 00:42:15,470 --> 00:42:17,750 在這裡,它有一個字符 在它旁邊。 803 00:42:17,750 --> 00:42:21,720 >> 所以它不像這些語言 字義的單詞,這樣你 804 00:42:21,720 --> 00:42:23,980 剛剛投入了大量的空間。 805 00:42:23,980 --> 00:42:25,500 字符之間的相互關係。 806 00:42:25,500 --> 00:42:28,680 他們能在一起 像二,三,一。 807 00:42:28,680 --> 00:42:34,520 所以,你實際上必須建立某種 的方式把這些空間。 808 00:42:34,520 --> 00:42:38,850 >> 而這件事情是,每當你得到 從這些亞洲語言的數據, 809 00:42:38,850 --> 00:42:40,580 一切都無節。 810 00:42:40,580 --> 00:42:45,940 因為沒有人誰寫日本 還是中國寫為空格。 811 00:42:45,940 --> 00:42:48,200 當你在寫中國, 日本你剛才寫的一切 812 00:42:48,200 --> 00:42:48,710 沒有空格。 813 00:42:48,710 --> 00:42:52,060 它甚至沒有任何意義 把空間。 814 00:42:52,060 --> 00:42:57,960 這樣的話,當你從得到的數據,一些 東亞語言,如果你想 815 00:42:57,960 --> 00:43:00,760 其實做一些與 你必須先分段。 816 00:43:00,760 --> 00:43:05,130 >> 認為這樣做的實例中的 不帶空格的歌詞。 817 00:43:05,130 --> 00:43:07,950 所以,你擁有的唯一歌詞 將句子,對不對? 818 00:43:07,950 --> 00:43:09,470 用句點分隔。 819 00:43:09,470 --> 00:43:13,930 但是剛走了句會 沒有真正在給予信息幫助 820 00:43:13,930 --> 00:43:17,760 是誰的歌詞是由。 821 00:43:17,760 --> 00:43:18,120 對不對? 822 00:43:18,120 --> 00:43:20,010 所以,你應該首先將空間。 823 00:43:20,010 --> 00:43:21,990 你那麼如何才能做到這一點? 824 00:43:21,990 --> 00:43:24,920 >> 所以後來談到語言的想法 模型這是真的東西 825 00:43:24,920 --> 00:43:26,870 用於計算重要 語言學。 826 00:43:26,870 --> 00:43:32,790 所以一個語言模型基本上是一個 表概率的表演 827 00:43:32,790 --> 00:43:36,260 首先什麼是概率 具有一種語言的單詞? 828 00:43:36,260 --> 00:43:39,590 那麼如何展示頻繁的一句話就是。 829 00:43:39,590 --> 00:43:43,130 然後還展示了關係 在一個句子中詞與詞之間。 830 00:43:43,130 --> 00:43:51,500 >> 所以主要的想法是,如果一個陌生人來到 給你說了一句話 831 00:43:51,500 --> 00:43:55,600 你,什麼是概率,對於 例如,“這是我妹妹[?GTF”?] 832 00:43:55,600 --> 00:43:57,480 是那句話的人說的嗎? 833 00:43:57,480 --> 00:44:00,380 所以,很顯然有些句子 比其他人更常見。 834 00:44:00,380 --> 00:44:04,450 例如,“早上好”或“好 晚上,“或”嘿,“得多 835 00:44:04,450 --> 00:44:08,260 比最常見的句子 我們有一個英語。 836 00:44:08,260 --> 00:44:11,060 那麼,為什麼那些句子 更頻繁? 837 00:44:11,060 --> 00:44:14,060 >> 首先,這是因為你有 話是更頻繁。 838 00:44:14,060 --> 00:44:20,180 因此,舉例來說,如果你說,狗是 大,而狗是巨大的,你 839 00:44:20,180 --> 00:44:23,880 通常可能聽到狗是大 更多的時候,因為“大”更 840 00:44:23,880 --> 00:44:27,260 頻繁的英語不是“巨大”。 所以,1的 841 00:44:27,260 --> 00:44:30,100 事情是這個詞的頻率。 842 00:44:30,100 --> 00:44:34,490 >> 這是真正的第二件事 重要的僅僅是 843 00:44:34,490 --> 00:44:35,490 順序的話。 844 00:44:35,490 --> 00:44:39,500 所以,經常會說“貓是 裡面的箱子。“但你通常不 845 00:44:39,500 --> 00:44:44,250 見“盒子裡面是貓。”所以 你看,有一些重要 846 00:44:44,250 --> 00:44:46,030 中的詞的順序。 847 00:44:46,030 --> 00:44:50,160 你不能只是說,這兩個 句子具有相同的概率 848 00:44:50,160 --> 00:44:53,010 僅僅是因為他們具有相同的話。 849 00:44:53,010 --> 00:44:55,550 實際上,你要關心 關於秩序良好。 850 00:44:55,550 --> 00:44:57,650 有意義嗎? 851 00:44:57,650 --> 00:44:59,490 >> 那麼,我們該怎麼辦? 852 00:44:59,490 --> 00:45:01,550 所以我可能會嘗試幫你嗎? 853 00:45:01,550 --> 00:45:04,400 我試圖讓你我們 調用的n-gram模型。 854 00:45:04,400 --> 00:45:09,095 所以,一個n-gram模型的基本假設 對於每個字 855 00:45:09,095 --> 00:45:10,960 你在一個句子裡。 856 00:45:10,960 --> 00:45:15,020 它具有的概率 字不僅有依賴於 857 00:45:15,020 --> 00:45:18,395 頻率在語言文字的, 同時也對詞 858 00:45:18,395 --> 00:45:19,860 都圍繞著它。 859 00:45:19,860 --> 00:45:25,810 >> 因此,舉例來說,通常當你看到 像上或在你 860 00:45:25,810 --> 00:45:28,040 可能會看到一個 名詞之後,對不對? 861 00:45:28,040 --> 00:45:31,750 因為當你有一個介詞 通常它需要後一個名詞。 862 00:45:31,750 --> 00:45:35,540 或者如果你有一個動詞是及物動詞 你通常要 863 00:45:35,540 --> 00:45:36,630 有一個名詞短語。 864 00:45:36,630 --> 00:45:38,780 因此,這將有一個名詞 圍繞它的地方。 865 00:45:38,780 --> 00:45:44,950 >> 所以,基本上,它的作用在於,它 認為具有的概率 866 00:45:44,950 --> 00:45:47,960 話彼此相鄰,當 你的計算 867 00:45:47,960 --> 00:45:49,050 概率句子。 868 00:45:49,050 --> 00:45:50,960 而這正是一種語言 模型基本上是。 869 00:45:50,960 --> 00:45:54,620 只是說有什麼可能性 的具有特定 870 00:45:54,620 --> 00:45:57,120 句子的語言? 871 00:45:57,120 --> 00:45:59,110 那麼,為什麼是有用的,基本上是? 872 00:45:59,110 --> 00:46:02,390 並首先什麼是 一個n-gram模型,然後呢? 873 00:46:02,390 --> 00:46:08,850 >> 所以,一個n-gram模型意味著, 每個字取決於 874 00:46:08,850 --> 00:46:12,700 接下來的N減1的話。 875 00:46:12,700 --> 00:46:18,150 所以,基本上,這意味著如果我看起來, 例如,在CS50 TF時 876 00:46:18,150 --> 00:46:21,500 我計算的概率 這句話,你會像“ 877 00:46:21,500 --> 00:46:25,280 具有單詞“the”的概率 具有次的概率“的 878 00:46:25,280 --> 00:46:31,720 具有CS50“時間的概率 “該CS50 TF。”所以,基本上,我算 879 00:46:31,720 --> 00:46:35,720 伸展它的所有可能的方式。 880 00:46:35,720 --> 00:46:41,870 >> 然後通常當你這樣做, 作為一個項目,你把電量為 881 00:46:41,870 --> 00:46:42,600 一個低的值。 882 00:46:42,600 --> 00:46:45,930 所以,通常有雙字母組或卦。 883 00:46:45,930 --> 00:46:51,090 所以,你只算兩個詞,一個 組兩個詞,或者三個字, 884 00:46:51,090 --> 00:46:52,620 只為性能問題。 885 00:46:52,620 --> 00:46:56,395 也因為也許如果你有 像“的CS50 TF。”當你 886 00:46:56,395 --> 00:47:00,510 有“TF”,這是非常重要的, “CS50”是在它旁邊,對不對? 887 00:47:00,510 --> 00:47:04,050 這兩件事通常是 彼此相鄰。 888 00:47:04,050 --> 00:47:06,410 >> 如果你覺得“TF”,它可能 將有哪些 889 00:47:06,410 --> 00:47:07,890 類它TF'ing的。 890 00:47:07,890 --> 00:47:11,330 也是“”真的很重要 為CS50 TF。 891 00:47:11,330 --> 00:47:14,570 但是,如果你有一些像“CS50 TF去上課,並給了他們 892 00:47:14,570 --> 00:47:20,060 學生們一些糖果。“”糖果“和”the“ 沒有關係真的,對不對? 893 00:47:20,060 --> 00:47:23,670 他們是彼此如此遙遠的 它並不真正的問題是什麼 894 00:47:23,670 --> 00:47:25,050 也就是說你有。 895 00:47:25,050 --> 00:47:31,210 >> 所以,做一個兩字或卦,它 只是意味著你限制 896 00:47:31,210 --> 00:47:33,430 自己的一些話 這是各地。 897 00:47:33,430 --> 00:47:35,810 有意義嗎? 898 00:47:35,810 --> 00:47:40,630 所以,當你想要做的分割, 基本上,你想要做什麼見 899 00:47:40,630 --> 00:47:44,850 什麼都是可能的方式, 你可以分段的句子。 900 00:47:44,850 --> 00:47:49,090 >> 這樣,你看到的是什麼 每個句子的概率 901 00:47:49,090 --> 00:47:50,880 現有的語言嗎? 902 00:47:50,880 --> 00:47:53,410 所以,你做什麼就好了,好了,讓 我試圖把一個空間在這裡。 903 00:47:53,410 --> 00:47:55,570 所以,你把一個空間有 和你看到的是什麼 904 00:47:55,570 --> 00:47:57,590 那句話的概率是多少? 905 00:47:57,590 --> 00:48:00,240 那麼你是喜歡,好吧,也許 這不太好。 906 00:48:00,240 --> 00:48:03,420 所以我把一個空間有一個空格 在那裡,你的計算 907 00:48:03,420 --> 00:48:06,240 概率現在,你看到 這是一個更高的概率。 908 00:48:06,240 --> 00:48:12,160 >> 所以,這就是所謂的TANGO的算法 分割算法,這是 909 00:48:12,160 --> 00:48:14,990 實際的東西,會是真的 涼爽的項目,該項目 910 00:48:14,990 --> 00:48:20,860 基本上採取不分段全文 可能是日本人還是中國人也許 911 00:48:20,860 --> 00:48:26,080 英語沒有空格,並試圖把 字和它之間的空間 912 00:48:26,080 --> 00:48:29,120 通過使用一個語言模型,並 想看看是最高的 913 00:48:29,120 --> 00:48:31,270 概率可以得到。 914 00:48:31,270 --> 00:48:32,230 確定。 915 00:48:32,230 --> 00:48:33,800 因此,這是分割。 916 00:48:33,800 --> 00:48:35,450 >> 現在的語法。 917 00:48:35,450 --> 00:48:40,940 這樣,句法被用於 這麼多東西現在。 918 00:48:40,940 --> 00:48:44,880 因此,對於圖搜索,對於Siri的供 幾乎任何類型的自然 919 00:48:44,880 --> 00:48:46,490 語言處理你。 920 00:48:46,490 --> 00:48:49,140 那麼什麼是重要的 有關語法的東西呢? 921 00:48:49,140 --> 00:48:52,390 因此,句子一般有 就是我們所說的成分。 922 00:48:52,390 --> 00:48:57,080 這是一種像組詞 有在句中的功能。 923 00:48:57,080 --> 00:49:02,220 他們不能真正 彼此分開。 924 00:49:02,220 --> 00:49:07,380 >> 所以,如果我說,例如,“勞倫愛 米洛。“我知道,”勞倫“是一個 925 00:49:07,380 --> 00:49:10,180 成分,然後“愛 米洛“也是一個又一個。 926 00:49:10,180 --> 00:49:16,860 因為你不能說像“勞倫米洛 喜歡“具有相同的含義。 927 00:49:16,860 --> 00:49:18,020 它不會有 相同的含義。 928 00:49:18,020 --> 00:49:22,500 或者,我不能說像“米洛·勞倫 愛。“不是任何事物都有相同的 929 00:49:22,500 --> 00:49:25,890 這意味著這樣做。 930 00:49:25,890 --> 00:49:31,940 >> 因此,這兩個更重要的事情 語法是詞法類型是 931 00:49:31,940 --> 00:49:35,390 基本的功能,你 自己有話。 932 00:49:35,390 --> 00:49:39,180 所以,你要知道,“勞倫” 與“米洛”都是名詞。 933 00:49:39,180 --> 00:49:41,040 “愛”是一個動詞。 934 00:49:41,040 --> 00:49:45,660 第二重要的是 他們是短語的類型。 935 00:49:45,660 --> 00:49:48,990 所以,你知道,“愛米洛” 實際上是一個口頭短語。 936 00:49:48,990 --> 00:49:52,390 所以,當我說“勞倫,”我知道, 勞倫是做什麼的。 937 00:49:52,390 --> 00:49:53,620 她在幹什麼? 938 00:49:53,620 --> 00:49:54,570 她愛米洛。 939 00:49:54,570 --> 00:49:56,440 所以這是一個整體的東西。 940 00:49:56,440 --> 00:50:01,640 但它的成分是 一個名詞和一個動詞。 941 00:50:01,640 --> 00:50:04,210 但同時,他們提出了一個動詞短語。 942 00:50:04,210 --> 00:50:08,680 >> 所以,我們可以真正做 計算語言學? 943 00:50:08,680 --> 00:50:13,810 所以,如果我有東西,例如 “朋友佳佳的。”我認為如果我只是 944 00:50:13,810 --> 00:50:17,440 沒有一個語法樹我想知道 “朋友”是一個名詞短語是 945 00:50:17,440 --> 00:50:21,480 “艾里遜的”名詞,然後是 “的”介詞短語在這 946 00:50:21,480 --> 00:50:24,810 一個主張和“佳佳”是一個名詞。 947 00:50:24,810 --> 00:50:30,910 有什麼我可以做的是教給我的電腦 當我有一個名詞短語之一, 948 00:50:30,910 --> 00:50:33,080 然後一個介詞短語。 949 00:50:33,080 --> 00:50:39,020 所以在這種情況下,“朋友”,然後“ 米洛“我知道這意味著 950 00:50:39,020 --> 00:50:43,110 NP2,第二個,擁有NP1。 951 00:50:43,110 --> 00:50:47,680 >> 所以,我可以創造某種關係, 某種功能吧。 952 00:50:47,680 --> 00:50:52,370 所以每當我看到這個結構, 正好與“朋友的匹配 953 00:50:52,370 --> 00:50:56,030 佳佳,“我知道佳佳 擁有朋友。 954 00:50:56,030 --> 00:50:58,830 所以,朋友們的東西 佳佳了。 955 00:50:58,830 --> 00:50:59,610 有道理? 956 00:50:59,610 --> 00:51:01,770 因此,這基本上是什麼 圖搜索一樣。 957 00:51:01,770 --> 00:51:04,360 它只是創建規則 對於很多事情。 958 00:51:04,360 --> 00:51:08,190 所以,“朋友阿利森的”,“我的朋友們 誰住在劍橋“,”我的朋友們 959 00:51:08,190 --> 00:51:12,970 誰去哈佛。“它創造規則 對於所有這些事情。 960 00:51:12,970 --> 00:51:14,930 >> 現在的機器翻譯。 961 00:51:14,930 --> 00:51:18,850 因此,機器翻譯也 一些統計。 962 00:51:18,850 --> 00:51:21,340 而實際上,如果你涉足 計算語言學,很多 963 00:51:21,340 --> 00:51:23,580 你的東西將是統計數據。 964 00:51:23,580 --> 00:51:26,670 所以當我在做的例子有 有很多可能性的,我是 965 00:51:26,670 --> 00:51:30,540 計算,然後你到這個 極少數這是最後的 966 00:51:30,540 --> 00:51:33,180 概率,這就是 給你答案。 967 00:51:33,180 --> 00:51:37,540 機器翻譯還使用 統計模型。 968 00:51:37,540 --> 00:51:44,790 如果你要考慮機器的 翻譯在最簡單的可能 969 00:51:44,790 --> 00:51:48,970 順便問一下,你能想到的僅僅是 翻譯一字一句,對不對? 970 00:51:48,970 --> 00:51:52,150 >> 當你學習一門語言的 第一次,這通常是什麼 971 00:51:52,150 --> 00:51:52,910 你這樣做,對不對? 972 00:51:52,910 --> 00:51:57,050 如果你想你翻譯一個句子 在你的語言的語言 973 00:51:57,050 --> 00:52:00,060 你正在學習,通常首先,你 翻譯的每個字 974 00:52:00,060 --> 00:52:03,180 個別地,然後嘗試 把單詞到位。 975 00:52:03,180 --> 00:52:07,100 >> 所以,如果我想翻譯這個, [發言葡萄牙語] 976 00:52:07,100 --> 00:52:10,430 這意味著“白貓跑掉了。” 如果我想從翻譯 977 00:52:10,430 --> 00:52:13,650 葡萄牙語到英語,我 可以做的是,第一,我只是 978 00:52:13,650 --> 00:52:14,800 逐字翻譯單詞。 979 00:52:14,800 --> 00:52:20,570 因此,“O”是“,”“加托”,“貓” “布蘭科”,“白”,然後“fugio”是 980 00:52:20,570 --> 00:52:21,650 “跑了。” 981 00:52:21,650 --> 00:52:26,130 >> 於是我把所有的話在這裡, 但他們不是為了。 982 00:52:26,130 --> 00:52:29,590 這就像“貓白跑了” 這是不合語法。 983 00:52:29,590 --> 00:52:34,490 這樣的話,我可以有第二個步驟,即 將要尋找的理想 984 00:52:34,490 --> 00:52:36,610 對於每個字的位置。 985 00:52:36,610 --> 00:52:40,240 所以我知道,其實我是想有 “白貓”,而不是“貓白。”所以 986 00:52:40,240 --> 00:52:46,050 有什麼我可以做的是,最天真的方法 將創建所有 987 00:52:46,050 --> 00:52:49,720 可能的排列 字位置。 988 00:52:49,720 --> 00:52:53,300 然後看看哪一個具有 根據概率最高 989 00:52:53,300 --> 00:52:54,970 我的語言模型。 990 00:52:54,970 --> 00:52:58,390 然後當我找到一個有 概率最高的,這是 991 00:52:58,390 --> 00:53:01,910 可能是“白貓跑了,” 這是我的翻譯。 992 00:53:01,910 --> 00:53:06,710 >> 這是說明一個簡單的方法 怎麼了很多機器翻譯 993 00:53:06,710 --> 00:53:07,910 算法工作。 994 00:53:07,910 --> 00:53:08,920 這是否有道理? 995 00:53:08,920 --> 00:53:12,735 這也是一些真正令人興奮的 那你們也許可以探索一個 996 00:53:12,735 --> 00:53:13,901 最後的項目,是嗎? 997 00:53:13,901 --> 00:53:15,549 >> 學生:嗯,你說這是 天真的方式,有啥 998 00:53:15,549 --> 00:53:17,200 非幼稚的方式? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS:非幼稚的方式? 1000 00:53:18,400 --> 00:53:19,050 確定。 1001 00:53:19,050 --> 00:53:22,860 所以這是壞的第一件事 這個方法是我剛翻譯 1002 00:53:22,860 --> 00:53:24,330 也就是說,一個字一個字。 1003 00:53:24,330 --> 00:53:30,570 但有時你必須說的話 可以有多種譯文。 1004 00:53:30,570 --> 00:53:32,210 我會盡量想 的東西。 1005 00:53:32,210 --> 00:53:37,270 例如,在葡萄牙可以“漫畫” 要么是“裂傷”或“套筒”。所以 1006 00:53:37,270 --> 00:53:40,450 當你試圖翻譯單詞 通過文字,它可能給你 1007 00:53:40,450 --> 00:53:42,050 東西是沒有意義的。 1008 00:53:42,050 --> 00:53:45,770 >> 所以,你其實是要你在所有 的可能的翻譯 1009 00:53:45,770 --> 00:53:49,840 單詞和看,首先, 什麼是順序。 1010 00:53:49,840 --> 00:53:52,000 我們都在談論permutating 事情? 1011 00:53:52,000 --> 00:53:54,150 要查看所有可能的訂單, 選擇一個具有最高 1012 00:53:54,150 --> 00:53:54,990 概率是多少? 1013 00:53:54,990 --> 00:53:57,860 您也可以選擇所有可能的 翻譯每個 1014 00:53:57,860 --> 00:54:00,510 單詞,然後看 - 1015 00:54:00,510 --> 00:54:01,950 結合的排列 - 1016 00:54:01,950 --> 00:54:03,710 哪一個具有最高的概率。 1017 00:54:03,710 --> 00:54:08,590 >> 另外,你也可以看看不 只字,但短語。 1018 00:54:08,590 --> 00:54:11,700 這樣你就可以分析之間的關係 這些詞彙,然後得到一個 1019 00:54:11,700 --> 00:54:13,210 更好的翻譯建議。 1020 00:54:13,210 --> 00:54:16,690 另外別的東西,所以這學期 實際上,我在做研究 1021 00:54:16,690 --> 00:54:19,430 中國英語機器翻譯, 從這麼翻譯 1022 00:54:19,430 --> 00:54:20,940 中國成英文。 1023 00:54:20,940 --> 00:54:26,760 >> 而我們做的事情是,除了使用 一個統計模型,它只是 1024 00:54:26,760 --> 00:54:30,570 再看到的可能性 在一個句子中的某個位置,我 1025 00:54:30,570 --> 00:54:35,360 居然還加入一些語法來我 模型,說,哦,如果我看到這樣的 1026 00:54:35,360 --> 00:54:39,420 建築,這就是我想要的 改變它,當我翻譯。 1027 00:54:39,420 --> 00:54:43,880 所以,你也可以添加某種 語法元素以使 1028 00:54:43,880 --> 00:54:47,970 翻譯更高效 和更精確。 1029 00:54:47,970 --> 00:54:48,550 確定。 1030 00:54:48,550 --> 00:54:51,010 >> 所以你怎麼能上手,如果你想 做一下計算 1031 00:54:51,010 --> 00:54:51,980 語言學? 1032 00:54:51,980 --> 00:54:54,560 >> 首先,你選擇一個項目 涉及語言。 1033 00:54:54,560 --> 00:54:56,310 因此,有這麼多的在那裡。 1034 00:54:56,310 --> 00:54:58,420 有這麼多的事情可以做。 1035 00:54:58,420 --> 00:55:00,510 然後可以把一個模型 您可以使用。 1036 00:55:00,510 --> 00:55:04,710 通常,這意味著思維 假設,因為喜歡,呵呵,當我 1037 00:55:04,710 --> 00:55:05,770 喜歡的歌詞思維。 1038 00:55:05,770 --> 00:55:09,510 我當時想,好吧,如果我想弄清楚 出是誰寫的,我可能要 1039 00:55:09,510 --> 00:55:15,400 看的話的人使用, 看看誰使用這個詞非常頻繁。 1040 00:55:15,400 --> 00:55:18,470 所以盡量作出假設及 再想想模型。 1041 00:55:18,470 --> 00:55:21,395 然後你也可以在網上搜索 什麼樣的問題,你有, 1042 00:55:21,395 --> 00:55:24,260 而且它要建議 你的模型,也許 1043 00:55:24,260 --> 00:55:26,560 仿照那個東西好。 1044 00:55:26,560 --> 00:55:29,080 >> ,你也可以隨時給我發電子郵件。 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com。 1046 00:55:31,140 --> 00:55:34,940 而且我可以回答你的問題。 1047 00:55:34,940 --> 00:55:38,600 我們甚至可能會碰見這樣我就可以 給對方法的建議 1048 00:55:38,600 --> 00:55:41,490 實施項目。 1049 00:55:41,490 --> 00:55:45,610 我的意思是,如果你捲入到 計算語言學,這是怎麼回事 1050 00:55:45,610 --> 00:55:46,790 是巨大的。 1051 00:55:46,790 --> 00:55:48,370 你會看到有 這麼多的潛力。 1052 00:55:48,370 --> 00:55:52,060 和業界都希望僱傭 你是因為有那麼糟糕。 1053 00:55:52,060 --> 00:55:54,720 所以,我希望你們喜歡這個。 1054 00:55:54,720 --> 00:55:57,030 如果你們有任何問題, 您可以在此之後問我。 1055 00:55:57,030 --> 00:55:58,280 但是謝謝你。 1056 00:55:58,280 --> 00:56:00,150