LUCAS FREITAS:嘿。 歡迎大家。 我的名字是盧卡斯塔斯。 我是一個大三學生[聽不清]研究 計算機科學與重點 計算語言學。 所以,我的中學是在語言 和語言學理論。 我真的很興奮,教你們 關於外地一點點。 這是一個非常激動人心的領域來研究。 也有很大的潛力 為將來。 所以,我真的很興奮,你的傢伙 正在考慮中的項目 計算語言學。 我會很樂意提供意見 任何的你,如果你決定 追求其中的一個。 所以首先什麼是計算的 語言學? 因此,計算語言學是 語言學和之間的交集 計算機科學。 那麼,什麼是語言學? 什麼是計算機科學? 以及從語言學,是什麼 我們採取的是語言。 因此,語言學實際上是研究 在一般的自然語言。 所以,自然語言 - 大家說說 我們實際使用的語言 相互通信。 因此,我們不正是在說 關於C或Java。 我們談論更多關於英語和 中國和其他語言,我們 用於彼此進行通信。 有關的具有挑戰性的事情是, 現在我們有近7000 語言在世界上。 因此,有相當高的品種 的語言,我們可以研究。 然後你認為它可能是 很難做到,比如, 翻譯從一種語言到 另外,考慮到你有 其中近7000人。 所以,如果你想這樣做的翻譯 從一種語言到另你 幾乎超過一百萬 不同的組合,你可以 必須從語言到語言。 所以它的真正挑戰做了一些 類的實例翻譯系統的 每一個語言。 所以,對待語言學與語法, 語義,語用學。 你們不完全需要 要知道什麼是他們的。 但非常有趣的是, 作為母語的人,當你學會 語言作為孩子,你居然學會 所有這些事情 - 語法語義 和語用 - 由你自己。 和任何人都沒有教你語法 你明白的句子是如何 結構。 所以,這真的很有趣,因為 它的東西,來非常 直觀。 和你在服用 計算機科學? 好了,最重要的事情是我們 在計算機科學,首先是 總之,人工智能 和機器學習。 所以,我們正在努力做 計算語言學是教 您的計算機如何做 用的語言。 因此,例如,在機 翻譯。 我想教我的電腦怎麼 知道如何從一個過渡 語言到另一邊。 所以,基本上喜歡教學 一台電腦兩種語言。 如果我這樣做自然語言處理, 這是示例的情況下 Facebook的圖搜索,你教 你的電腦怎麼理解 查詢好。 所以,如果你說“的照片我的 朋友。“Facebook並沒有把那 作為具有整個字符串 只是一堆話。 它實際上是理解的關係 “照片”和“我的朋友”之間 了解到,“照片”是 物業“我的朋友。” 所以,這部分,例如 自然語言處理。 它試圖了解什麼 之間的關係是 詞語的句子。 而最大的問題是,你可以 教電腦如何說話 在一般的語言? 這是一個非常有趣的問題 想想,好像,也許在未來, 你要能 談談您的手機。 有點像我們做什麼用的Siri,但 更多的東西一樣,你實際上可以 說任何你想要的手機 是要明白一切。 而且它可以有後續問題 並繼續談判。 這件事情真的很令人興奮, 在我看來。 因此,一些關於自然語言。 一些真正有趣 自然語言是說,這是 信用到我的語言學教授, 瑪麗亞Polinsky。 她舉了一個例子,我認為 這真的很有趣。 因為我們學語文時,從 我們出生,然後我們的母語 一種語言的生長在我們。 基本上你學習語言 從最小的投入,對不對? 你剛剛從輸入您的 您的語言聽起來父母什麼 喜歡和你只是學習它。 所以,這很有趣,因為如果你看一下 在這些句子,例如。 你看,“瑪麗穿上大衣每 一次,她離開家。“ 在這種情況下,有可能有 單詞“她”指的是瑪麗,對不對? 你可以說“瑪麗穿上大衣 每次瑪麗離開 房子。“,這樣很好。 但是如果你看一下這句話 “她每次穿上大衣瑪麗 離開房子。“你知道這是 不可能說“她”是 提及瑪麗。 有沒有辦法說,“瑪麗把 一件大衣,每次離開瑪麗 房子,“所以這很有趣,因為 這是一種直覺 每一個母語了。 也沒有人告訴我們,這是 該語法的工作方式。 而且,你只能擁有這件“她” 提及瑪麗在第一種情況下, 實際上在這等 過,但不是在這一個。 但每個人都種得 以相同的答案。 每個人都同意這一點。 所以,這真的很有趣,雖然如何 你不知道所有的規則 那種在你的語言你懂 語言如何工作的。 因此,關於自然的有趣的事情 語言是你不必 知道任何語法知道,如果一個句子 是語法或不合語法的 大多數情況下。 它讓你覺得,也許什麼 發生的情況是通過你的生活,你 只是不斷變得越來越 句子告訴你。 然後你保持記憶 所有的句子。 然後當有人告訴你 什麼,你聽到這句話,並 你看看你的詞彙量 的句子,看看是否 那句話是存在的。 如果是有你 說這是語法。 如果它不是你說這是 不合語法。 所以,在這種情況下,你會說,哦, 讓您擁有一個龐大的所有列表 可能的句子。 然後,當你聽到一個句子, 你知道它的語法或 不基於這一點。 問題是,如果你看一下 一個句子,例如“該 五頭CS50轉錄因子煮熟的盲 使用DAPA杯章魚。“這是 絕對不是一句 你聽說過。 但在同一時間,你知道這是 相當多的語法,對不對? 有沒有語法錯誤 你可以說, 這是一個可能的句子。 因此,它使我們覺得實際上是 這樣,我們學習語言不僅是 由具有巨大的可能的數據庫 詞或句子,但更多的 理解的關係 也就是說在那些句子。 這是否有道理? 因此,接下來的問題是,能 電腦學習語言? 我們可以教語言的計算機? 所以,讓我們想到的差異 一種語言的母語之間 和一台計算機。 那麼,究竟發生了揚聲器? 那麼,母語學習一 從接觸到它的語言。 通常早期的童年歲月。 所以,基本上,你只要有一個孩子, 你一直說要它,它 剛剛學會如何說話 語言,對不對? 所以,你基本上放棄 輸入到嬰兒。 這樣,那麼你可以說,一台電腦 可以做同樣的事情,對不對? 你可以只給語言 作為輸入到計算機中。 作為例子一堆文件 有英語書籍。 也許這是一種方式,你 也可能教 計算機英語,對不對? 而事實上,如果你仔細想想, 它需要你,也許一對夫婦 天讀一本書。 對於一台電腦需要一秒鐘 看著一本書的所有單詞。 所以,你可以認為這或許正是這 從你周圍的輸入參數, 這還不夠,說這是 東西,只有人類可以做到的。 你能想到的電腦 還可以得到輸入。 第二件事是,母語 也有大腦,有 語言學習能力。 但是,如果你仔細想想, 大腦是一個堅實的事情。 當你出生時,它已經被設置 - 這是你的大腦。 而當你長大了,你只會得到更多的 語言的輸入,也許營養素 和其他的東西。 但幾乎​​你的大腦 是一個堅實的事情。 所以,你可以說,好吧,也許你可以 構建有一堆電腦 功能和剛模仿方法 語言學習能力。 所以在這個意義上,你可以說,好,我 能有一個具有所有電腦 事情我需要學習的語言。 而最後一件事情是,原生 揚聲器學會從試驗和錯誤。 在所以基本上另一個重要的事情 語言的學習是你那種 通過使學習的東西 你所聽到的概括。 所以當你在成長過程中你學到了 有些話更像是名詞, 一些其他的都是形容詞。 而且你不必有任何 語言學知識 要理解這一點。 但你只是知道有一些單詞 被定位在的某些部分 句子和其他一些人在其他 部分的句子。 並且,當你做的東西是 就像一個句子是不正確的 - 也許是因為過度泛化 例如。 也許當你長大了,你注意到 該複數通常是 通過把一個S在形成 字的結尾。 然後嘗試做的複數 “鹿”為“鹿”或“牙”為 “tooths。”這樣的話你的父母或 有人糾正你,說,不, “鹿”的複數是“鹿”和 的“牙齒”複數是“牙齒”。進而 你學那些東西。 所以,如果你嘗試和錯誤中學習。 但你也可以做到這一點 用一台計算機。 你可以有一些所謂 強化學習。 這基本上就像給一個 計算機時,它做了獎勵 正確的東西。 並給它獎勵的對面 當它做錯了事。 實際上,你可以看到,如果你走 到谷歌翻譯,並試圖 翻譯一個句子,它 要求您提供反饋意見。 所以,如果你說,哦,還有更好的 翻譯這句話。 您可以鍵入它,然後如果有很多 人們一直說這是一個更好的 翻譯,它只是學習它 應使用的翻譯,而不是 一個它是給。 所以,這是一個非常哲學問題 看是否計算機都將是 談得來與否的未來。 但我有很高的期望,他們可以 只是根據這些參數。 但它只是更多的是一種哲學 問題。 因此,儘管電腦仍無法說話, 什麼樣的事情,我們可以做什麼? 一些非常酷的東西是 數據分類。 因此,舉例來說,你們知道 該電子郵件服務做的,為 例如,垃圾郵件過濾。 所以每當你收到垃圾郵件,它 試圖篩選到另一個框。 那麼它是怎樣做到這一點? 它不象電腦才知道 什麼電子郵件地址發送垃圾郵件。 因此,它更是以內容 消息,或者標題,或 也許你有一些圖案。 所以,基本上,你所能做的就是得到一個 大量的電子郵件是垃圾郵件的數據, 郵件是不是垃圾郵件,並了解 樣的模式,你必須在 那些是垃圾郵件。 這是計算的一部分 語言學。 這就是所謂的數據分類。 而我們實際上將看到一個 例如,在接下來的幻燈片。 第二件事是自然語言 處理這是事情的 圖搜索是做又讓 你寫一個句子。 它相信你明白 的含義,並給出 你一個更好的結果。 其實,如果你去谷歌或Bing 你搜索的東西像Lady Gaga的高度,你實際上會 得到5',而不是信息1“ 從她的,因為它實際上理解 你在說什麼。 所以這是自然的一部分, 語言處理。 或者也當你使用Siri的,第一 你有一個算法,試圖 翻譯你在說什麼 成文字,在文字。 然後它會嘗試翻譯 到那個意思。 所以這是所有自然的一部分 語言處理。 那麼你有機器翻譯 - 這實際上是1 我的最愛 - 這是剛剛從翻譯 一種語言到另一種。 所以,你可以認為,當你正在做的 機器翻譯,你有 句子的無限可能性。 因此,有沒有辦法只存儲 每一個翻譯。 所以,你必須想出有趣 算法能夠 翻譯每一個 句子以某種方式。 你們有什麼問題這麼遠嗎? 沒有? 確定。 那麼,我們要看到今天? 首先,我要說說 分類問題。 這樣一說我是 說關於垃圾郵件。 我什麼都做的是,給定的歌詞 一首歌,你可以揣摩 以高概率 誰是歌手? 比方說,我從夫人的歌 Gaga和Katy Perry的,如果我給你一個 新的歌曲,你可以計算出,如果 這是凱蒂·佩里還是Lady Gaga的? 第二個,我只是要談 關於分割問題。 所以,我不知道,如果你們知道,但 中國,日本,其他東亞 語言和其它語言 在一般情況下,不必 單詞之間的空格。 然後,如果你想的方式, 你的電腦親切的嘗試,以 理解自然語言處理, 它著眼於單詞和 試圖了解關係 他們之間,對不對? 但是,如果你有中國人,你 具有零位,這真的很難 搞清楚什麼是之間的關係 也就是說,因為它們不具有任何 也就是說在第一。 所以,你必須做一些所謂的 分割這只是意味著把 我們所說的空間 也就是說在這些語言。 有意義嗎? 然後我們要 說說語法。 關於自然的,因此只是一點點 語言處理。 這將只是一個概述。 所以今天,基本上是我想要做的 是給你們的一點點 什麼是內部的可能性 你可以用做計算 語言學。 然後你就可以看到你的想法 涼爽的那些東西。 也許你能想到的一個項目 和來跟我說話。 我可以給你建議 關於如何實現它。 所以語法將是一點點 關於圖搜索和機器 翻譯。 我只是想給怎樣一個例子 你可以,例如,翻譯 從東西到葡萄牙語英語。 聽起來不錯? 因此,首先,在分類問題。 我會說,這部分研討會 將是最具挑戰性的 一個只因為那裡是怎麼回事 是一些編碼。 但它的將是Python的。 我知道你們不知道的Python,所以 我只是要對高解釋 平我在做什麼。 而你沒有真正在乎過 很多關於語法,因為這是 東西你們可以學習。 好不好? 聽起來不錯。 那麼什麼是分類問題? 所以,你給一些歌詞 一首歌曲,你要猜 誰在唱。 這可以是任何類型的 的其他問題。 所以可以,例如,你有一個 總統競選和你有一個 講話,你想找到 出,如果它是,例如, 奧巴馬或羅姆尼。 或者你可以有一大堆的電子郵件和 你要搞清楚,如果他們是 垃圾郵件。 所以它只是一些分類 基於該字的數據 你有沒有。 因此,要做到這一點,你必須 做一些假設。 所以很多關於計算語言學 正在假設, 通常聰明的假設,從而使 你可以得到很好的效果。 試圖建立一個模型了。 然後再嘗試一下,看看它是否工作, 如果它給你很好的精度。 如果確實如此,那麼你 嘗試改善它。 如果沒有,你肯定在想:好吧,也許我 應該做出不同的假設。 讓我們將假設 提出的是一個藝術家通常唱 的一個話題多次,也許 使用的話多次剛 因為他們已經習慣了它。 你可以認為你的朋友的。 我敢肯定,你們都有朋友 那說,他們的簽名短語, 從字面上每一個句子 - 像一些特定的詞或某些特定 短語,他們說的 每一個句子。 什麼可以說的是,如果你看 一個句子,有一個簽名 詞組,你可以猜測,大概 你的朋友是 有一句話說,對不對? 所以,你做這樣的假設,然後 這就是你如何創建一個模型。 那我要舉的例子是 如何Lady Gaga的,例如,人 說,她使用“寶貝”的 她所有的頭號歌曲。 而實際上,這是一個視頻,顯示 她說這個詞“寶貝”的 不同的歌曲。 [視頻回放] - (唱)嬰兒。 寶貝。 寶貝。 寶貝。 寶貝。 貝貝。 寶貝。 寶貝。 寶貝。 寶貝。 [完錄像​​回放 - LUCAS FREITAS:所以有,我認為, 40首歌曲在這裡,她說, 詞“寶貝”。所以,你基本上可以猜到 如果你看到一首歌,有 單詞“寶寶”有一些高 概率,它是Lady Gaga的。 但是,讓我們嘗試開發這樣 進一步更正式。 所以這些都是歌詞歌曲 Lady Gaga和Katy Perry的。 所以,你看Lady Gaga的,你看他們 有很多事件的“寶貝”,一 大量出現的“方式”。進而 凱蒂·佩里有很多事件的發生 “對,”很多事件的發生“火災”。 所以基本上我們想要 做的是,你會得到一首抒情詩。 比方說,你會得到一個抒情的 歌曲是“寶貝”,只是“寶貝”。如果 你剛剛得到了這個詞“寶貝”,這 是你的所有,從數據 Lady Gaga和凱蒂·佩里,誰也 你猜是人 是誰唱這首歌? Lady Gaga的還是凱蒂·佩里? Lady Gaga的,對不對? 因為她是唯一一個說誰 “寶貝”。這聽起來很愚蠢,對吧? OK,這是很容易的。 我只是在看的兩首歌曲,並 當然,她是誰的唯一 “寶貝”。 但是,如果你有一堆話? 如果你有一個實際的歌詞,東西 一樣,“寶貝,我只是 去看了[? CFT?] 講座“,或者類似的東西,和 那麼你實際上必須弄清楚 - 基於所有這些話 - 誰是誰的藝術家可能 唱這首歌? 所以讓我們嘗試開發 這遠一點。 好了,根據剛剛的數據​​,我們 得到了,似乎加加可能是 歌手。 但如何才能寫 這更正式? 並有將是一個小 統計位。 所以,如果你迷路了,只要嘗試 要理解這個概念。 如果你理解不要緊, 方程非常清楚。 這是所有要上線了。 所以基本上就是我計算的是 概率,這首歌是由 Lady Gaga的因為 - 所以這條表示因為 - 我看到這個詞“寶貝”。 這是否有道理? 所以我試圖計算 這種可能性。 所以有這個定理稱為 貝葉斯定理是說, 一個給定的B的概率,是 乙的概率給出A,倍 概率A的,超過的概率 B.這是一個長期的方程。 但是,你有什麼從理解 這是,這是我想要的 計算,對不對? 讓這首歌是由概率 Lady Gaga的因為我看到這個詞 “寶貝”。 現在有什麼我得到的是 單詞“寶貝”的概率給出 我有Lady Gaga的。 什麼是基本? 這也就意味著,有什麼 看到這個詞“寶貝”的概率 在Gaga的歌詞? 如果我想計算出在一個非常 簡單的方法,它只是數 次我看到“寶貝”在總數 在加加歌詞的話,對不對? 什麼是我看到的頻率 在Gaga的工作這個詞? 有意義嗎? 第二項是 概率加加。 這是什麼意思? 這基本上意味著,請問是什麼 分類的概率 有些歌詞加加? 那就是很怪,但 讓我們想到的一個例子。 因此,讓我們說的概率 在一首歌曲有“寶貝”是一樣的 對於Gaga和布蘭妮斯皮爾斯。 但布蘭妮斯皮爾斯有兩次 比Lady Gaga的多首歌曲。 因此,如果有人只是隨機給你 “寶貝”的第一件事歌詞你 看的是,什麼是概率 在Gaga的歌曲有“寶貝”,“寶貝” 在布蘭妮的歌? 它是同樣的事情。 所以,你會看到的第二件事情是, 那麼,什麼是概率 這歌詞本身是一個Gaga的歌詞, 是什麼的概率 作為布蘭妮的歌詞? 所以自從布蘭妮有那麼多的歌詞 比加加,你可能會 比方說,好了,這可能是 布蘭妮的歌詞。 所以這就是為什麼我們有這個 該詞在這裡。 概率加加。 有道理? 不是嗎? 確定。 和最後一個是剛才的概率 “嬰​​兒”的不 真正的問題那麼多。 但它的概率 看到“寶貝”的英文。 我們通常不關心 很多關於這個詞。 這是否有道理? 所以加加的概率是 稱為先驗概率 之類的加加。 因為它只是意味著,請問是什麼 有那個類的概率 - 這是加加 - 只是在一般情況下,剛 沒有條件。 然後當我有概率 加加給“寶貝”,我們把它叫做加 流淚的概率,因為它是 具有的概率 加加給出了一些證據。 所以我給你證據 我看到這個詞的嬰兒和 這首歌有意義嗎? 確定。 所以,如果我計算過,每個 該歌曲的Lady Gaga, 是什麼將是 - 顯然,我不能動了。 加加的概率將是 類似,在2 24,次數的1/2, 在2比53。 如果你知道它什麼都無所謂 這些數字的來源。 但它只是一個數字,是怎麼回事 為大於0,對不對? 然後當我做凱蒂·佩里,該 “寶寶”的概率給出卡提現 已經為0,對不對? 因為沒有“寶貝” 在凱蒂·佩里。 是這樣,那麼這變成0,並且加加 勝,這意味著Gaga是 大概是歌手。 這是否有道理? 確定。 所以,如果我想使這個更正式, 我其實可以做一個模型 多個單詞。 因此,讓我們說我有話 一樣,“寶貝,我 著火了,“什麼的。 因此,它具有多個單詞。 在這種情況下,你可以看到 這“寶貝”是加加, 但它不是在凱蒂。 與“火”是凱蒂,但 它不是在Gaga的,對不對? 因此,它變得棘手,對吧? 因為它似乎,你幾乎 有兩者之間的領帶。 所以你要做的就是承擔 獨立性的話之一。 所以基本上這是什麼意思是, 我只是計算是什麼 看到的概率“寶貝”,什麼是 看到的可能性“我”和 “是”和“上”和“火” 所有獨立。 然後我乘他們。 而我看​​到的是概率 的看到整個句子。 有意義嗎? 所以基本上,如果我只有一個字, 我想要找的是阿根廷最大, 這意味著,那是什麼是類 給我最高的概率是多少? 那麼,什麼是給類 我的最高概率 類的概率給定的單詞。 因此,在這種情況下,給予加加“寶貝”。 或凱蒂給“寶貝”。有意義嗎? 而剛剛從貝葉斯,那 方程式我發現, 我們創建這個分數。 唯一的一點是,你看到 字中給出的概率 根據班級的變化 在類的吧? 的“寶貝”s表示我有多少 在Gaga是從凱蒂不同。 類的概率也 的變化,因為它只是數 歌曲他們每個人都有。 但這個詞本身的概率 將是相同的所有的 藝術家,對不對? 這樣的單詞的概率是 只是,什麼是概率 看到在這個詞 英語? 因此,它是相同的所有的人。 所以,因為這是不變的,我們可以只 下降的,根本沒有在意它。 因此,這將是真正的 方程我們正在尋找。 如果我有多個的話,我 仍然會有事先 概率在這裡。 唯一的一點是,我乘 的概率 所有其他的話。 所以我乘他們。 有意義嗎? 它看起來很奇怪,但基本上意味著, 計算前的類,並 然後由每個的概率相乘 在這個類是的話。 而且你知道的概率 給定一類字將是對 你看到這個詞次數 該類別,由數除以 也就是說你必須在這 類一般。 有意義嗎? 這是在多麼“寶貝”是2 字的數目是 我在歌詞中。 因此,只要頻率。 但有一件事。 還記得我是怎麼顯示的 的“寶貝”是概率的歌詞 從凱蒂·佩里為0,只是因為凱蒂 佩里並沒有在所有有“寶貝”? 但它聽起來有點刺耳,只是 簡單地說,歌詞不能從 只是因為它們沒有一個藝術家 該單詞在特定隨時。 所以你可以只說,好吧,如果你 沒有這個字,我要去 給你一個較低的概率, 但我只是不打算 給你0的時候了。 因為也許是類似, “火,火,火,火,”這是 完全凱蒂·佩里。 然後“寶貝”,它只是去 0的時候了,因為有一個 “寶貝”。 所以基本上我們做的是什麼 所謂的拉普拉斯平滑。 這只是意味著我放棄 有些甚至可能的話 不存在的。 因此,我要做的是,當我 計算這個,我總是加1 分子。 所以即使單詞不存在,在 這種情況下,如果是0,我還是 計算此為1比 單詞總數。 否則,我得到多少個字 我已經和我加1。 所以我就指望這兩種情況。 有意義嗎? 所以,現在讓我們做一些編碼。 我將不得不這樣做相當快, 但它只是重要的是你 人理解的概念。 所以,我們正在試圖做的 也正是實施這一 的事情,我只是說 - 我希望你把歌詞從 Lady Gaga和Katy Perry的。 和節目是要能夠 說,如果這些新的歌詞是從加加 或凱蒂·佩里。 有意義嗎? 確定。 所以,我有這個計劃我要去 打電話classify.py。 所以這是Python的。 這是一種新的編程語言。 它是在某些非常相似 方式到C和PHP。 這是類似的,因為如果你想 明知℃之後學習Python,它的 真的沒有那麼多的挑戰 只是因為Python是容易得多 比C,首先。 和很多東西都已經 實現你。 那麼究竟像PHP有函數 排序的列表,或是添加一些東西 到一個數組,或者胡說,胡說,胡說。 Python有所有這些為好。 所以我只是要迅速解釋 我們如何能做到分類 問題在這裡。 所以我們可以說,在這種情況下,我有 從Gaga和Katy Perry的歌詞。 我有那些歌詞的方式是, 歌詞的第一個字是 藝術家的名字,以及 剩下的就是歌詞。 所以我們可以說,我在這個名單 其中第一個是歌詞由加加。 所以在這裡,我在正確的軌道。 而下一個是凱蒂和 它也有歌詞。 所以,你這是怎麼聲明 在Python中的變量。 你不必給的數據類型。 你只寫“的歌詞,” 那種喜歡在PHP。 有意義嗎? 那麼,什麼是我的事 計算,以便能夠計算出 概率? 我要計算“先驗” 每一個不同的 類,我有。 我要計算“後驗” 或相當多的概率 每一個不同的詞 我可以為每個藝術家。 所以在加加,例如,我要去 到有多少次我看到一個列表 每個單詞。 有意義嗎? 最後,我只是有一個 列表被稱為“字”,也就是剛準備 有多少字我 為每個藝術家。 因此,對於加加,例如,當我看 的歌詞,我,我想,24 字總。 所以這個列表只是將不得不 加加24,和Katy另一個號碼。 有意義嗎? 確定。 所以,現在,居然,讓我們 去編碼。 所以在Python中,你實際上可以 返回一堆不同 活動從一個函數。 所以我打算創造這個功能 稱為“有條件的”,這是打算 返回所有這些事情時, “先驗”的“概率”,並 “字樣。”因此,“有條件的”,它是 將要調入“的歌詞。” 所以,現在我要你真正 寫這個函數。 所以,我可以寫這個的方式 功能是我剛才定義這 功能與“高清”。所以我做了“高清 有條件的,“和它的服用 “的歌詞。”以及這是要幹什麼 是,首先,我有我的先驗 我想計算。 這樣我可以做到這一點的方法是創建 在Python中,字典的 幾乎是同樣的事情作為一個哈希 表,或者它就像一個迭代 數組在PHP。 這是我聲明一個字典。 基本上這是什麼意思是, 加加的先驗概率是0.5,例如,如果 歌詞50%是由 加加,50%是由凱蒂。 有意義嗎? 所以,我必須弄清楚如何 計算先驗。 接下來的那些我必須做的,還可以, 是概率和單詞。 所以加加的概率是列表 所有的概率,我 對每個單詞為加加。 所以,如果我去加加的概率 “寶貝”為例,它會給我 像2比24在這種情況下。 有意義嗎? 於是我去“概率”,進入 “加加”鬥具有所有列表 加加的話,那我去“寶貝” 而我看​​到的概率。 最後我有這個 “字”字典。 所以在這裡,“概率”。進而 “字樣。”所以,如果我這樣做“的話,”“嘎嘎,” 什麼將要發生的是它的 要給我24,說我 有內Gaga的歌詞24個字。 有道理? 所以在這裡,“話”等於DAH-DAH-DAH。 行 所以,我什麼都做的是我要去 遍歷每個歌詞,所以 每個串的那 我已經在列表中。 我要去計算那些事 每個候選人。 有道理? 所以,我必須做一個for循環。 所以在Python中有什麼我可以做的是“線路 在抒情詩。“同樣的事,作為一個 “為每一個”在PHP語句。 記住我,如果它是PHP怎麼可能 說“每個歌詞 線。“有道理? 所以我每次走的線路,在這個 情況下,這個字符串和下一 字符串,以便為每個什麼我是線 要做的是首先,我要 拆分此行成的名單 字以空格分隔。 所以,關於Python的很酷的事情是, 你可能只是谷歌像“我怎麼能 字符串分割成單詞? “和它的 要告訴你如何做到這一點。 而做到這一點的方式,它只是“行 = line.split()“,它基本上是 將會給你一個列表 每個在這裡的話。 有道理? 所以,現在我這樣做,我想知道 誰是那首歌的歌手。 要做到這一點我必須得到 數組的第一個元素,對不對? 所以,我只能說我“歌手 =行(0)“有道理? 然後我需要做的是,首先 所有,我要更新多少 也就是說我有下“加加”。所以我只是 要計算多少字我 在這個列表中,右鍵? 因為這是我多少字有 在歌詞中,我只是要 將它添加到“加加”陣列。 這是否有道理? 太不注重語法。 多思考的概念。 這是最重要的部分。 確定。 因此,我可以做到這一點的是,如果“加加”是 已經在該列表中,因此“如果歌手在 話“,這意味著我已經 由加加有話。 我只是想添加額外的 是這個意思。 所以,我要做的就是“字(歌手) + = LEN(線路) - 1“。 然後我可以做的 長行。 那麼有多少個元素我 在陣列中。 而我所要做的零下1只是因為 該陣列的第一個元素是剛 一個歌手,這些都不是歌詞。 有道理? 確定。 “否則,”這意味著我要實際 加加插入到列表中。 所以,我只是做“字(歌手) = LEN(線路) - 1,“對不起。 因此,兩者之間的唯一區別 行的是,這一次,它不 還存在,所以我只是 初始化它。 這其中實際上,我加入。 確定。 因此,這是增加的話。 現在我想添加到先驗。 所以,我怎麼計算先驗? 先驗概率可以計算 通過多少次。 你這麼有多少次看到歌手 在所有的歌手,你的 有,對不對? 因此,對於Gaga和凱蒂·佩里, 在這種情況下,我看到加加 一次,Katy Perry的一次。 所以基本上是先驗的加加 和凱蒂·佩里會 僅僅是一個,對不對? 你有多少次 我看到了藝術家。 所以這是很容易計算。 我可以只是一些類似,像“如果 歌手先驗,“我只是去 加入1〜他們的先驗箱。 所以,“先驗(唱)”+ = 1“,然後”其他“ 我該怎麼辦“先驗(歌手) = 1“。有道理? 所以,如果它不存在,我只是把 為1,否則我只加1。 好了,現在所有的,我已經離開辦 也是每個單詞添加到 概率。 所以,我必須指望有多少次 我看到每個單詞。 所以,我只是需要做的另一 for循環中的行。 我要去這樣做的第一件事就是 檢查的歌手已經有 概率數組。 所以我檢查,如果歌手不 有一個概率的數組,我只是 要初始化一個用於它們。 它甚至不是一個數組,對不起, 這是一本字典。 所以歌手的概率是怎麼回事 是一個開放的字典,所以我 只是初始化字典吧。 好不好? 現在我可以真正做一個for循環 計算每個單詞' 概率。 確定。 因此,我所能做的就是一個for循環。 所以我只是去遍歷 在陣列。 這樣我可以做到這一點在Python的方式 是“因為我在範圍內。”從1 因為我要開始第二 元件,因為第一個是 歌手名。 所以從1至 長行。 當我做它的範圍實際上從去 喜歡這裡從1到的LEN 行減1。 所以它已經這樣做這樣做的那件事 Ñ​​減1為數組,這是非常 方便。 有道理? 因此,對於每一個這些,有什麼我要去 做的是,就像在另外一個, 我要檢查,如果在這個字 在該線的位置已在 概率。 然後我說在這裡,概率 也就是說,在我把 “概率(歌手)”。 這樣的歌手的名字。 所以,如果它已經在 “probabilit(歌手)”,這意味著我 要加1,所以我要去 做“的概率(歌手)”,以及 字被稱為“線(一)”。 我要加1和“其他”我只是 將它初始化為1。 “行(一)”。 有道理? 所以,我計算出的所有陣列。 所以,現在的一切,我所要做的 這個人是剛剛“回歸先驗, 概率和單詞。“讓我們 看看是否有任何好不好。 似乎一切工作至今。 所以,這是有道理的? 以某種方式? 確定。 所以,現在我把所有的可能性。 所以,現在我已經離開的唯一的事 只是有這種事情, 計算出的所有產品 當我拿到歌詞的概率。 因此,讓我們說,我想現在打電話 這個功能“分類()”和 東西函數接受 只是一個說法。 比方說,“寶貝,我著火了”,它的 要弄清楚什麼是 概率,這是加加? 這是概率 這是凱蒂? 聽起來不錯? 所以我只是將不得不創建一個 所謂的新功能“分類()”和 它會採取一些 歌詞也是如此。 而除了歌詞我也 有送先驗的 概率和單詞。 所以我打算送歌詞,先驗, 概率的話。 因此,這是採取的歌詞,先驗, 概率的話。 那麼,它有什麼作用? 它基本上是要通過所有 可能的候選人,你 有作為一名歌手。 和那些人在那裡候選人? 他們是在先驗,對不對? 所以,我有所有這些存在的。 所以,我要準備一本字典 所有可能的候選人。 然後在每個候選 先驗概率,因此它意味著它要 是加加,凱蒂如果我有 更會比較。 我要開始計算 這個概率。 正如我們在看到的概率 PowerPoint是事先倍 每一個的產品 其他可能性。 所以,我在這裡可以這樣做。 我可以做的是概率 剛開始之前。 因此,先驗的候選人。 對不對? 現在我不得不遍歷所有的 我有在歌詞是詞 能夠添加的概率 為他們每個人,好不好? 因此,“為字的歌詞”我什麼都 做的是,如果該字是在 “概率(候選人)”,這 也就是說,它是一個字的 候選人在他們的歌詞 - 例如,“嬰兒”的加加 - 我現在要做的是, 概率將被乘以 由加的概率1 候選人的那個詞。 它被稱為“字”。 這除以單詞數 我對那個候選人。 字的總數,我有 對於我期待的歌手。 “否則”。這意味著它是一個新詞 所以它會像例如 “火”的Lady Gaga的。 所以,我只想做超過1 “字(候選人)”。 所以,我不希望把這個詞在這裡。 所以它的將是基本 複製並粘貼此。 但我要刪除這部分。 所以它只是將是1比那。 聽起來不錯? 現在到了最後,我只是要 印上候選人的名字和 你有概率 在他們的歌詞有標。 有道理? 我其實不連 需要這本詞典。 有道理? 所以,讓我們看看這個實際工作。 所以,如果我運行這個,也沒有工作。 等待一秒鐘。 “言(候選人)”,“字(候選人)”, 這是 該數組的名稱。 好了,所以,它說,有一些bug 候選的先驗。 讓我冷靜下來一點點。 確定。 讓我們試試。 確定。 所以,它給了凱蒂·佩里有這個 在此乘以10的概率 減去7,和加加有這個 乘以10的負6。 所以你看它表明加加 具有更高的概率。 因此,“寶貝,我在火”是 可能是Gaga的歌。 有道理? 所以這就是我們所做的。 此代碼將被發布到網上, 所以你們可以檢查出來。 也許用一些它,如果你想 做一個項目或類似的東西。 確定。 這只是為了顯示 怎樣計算 語言學的代碼如下所示。 但是,現在讓我們去更多 高層次的東西。 確定。 因此,其他的問題我 說的是 - 分割問題 是第一人。 所以,你必須在這裡的日本。 然後就看到了 有沒有空格。 因此,這基本上意味著它 椅子的頂部,對不對? 你說日語嗎? 這是椅子的頂部,對不對? 學生:我不知道是什麼 漢字那邊。 LUCAS FREITAS:這是[操日語] 確定。 所以它基本上意味著頂部的椅子。 所以,如果你不得不把一個空間 這將是在這裡。 然後你有[?上田山。 ?] 這基本上意味著上田先生。 而你看到的“田”和你有一個 空間,然後“聖”。所以你看到, 在這裡你“UE”就像本身。 在這裡,它有一個字符 在它旁邊。 所以它不像這些語言 字義的單詞,這樣你 剛剛投入了大量的空間。 字符之間的相互關係。 他們能在一起 像二,三,一。 所以,你實際上必須建立某種 的方式把這些空間。 而這件事情是,每當你得到 從這些亞洲語言的數據, 一切都無節。 因為沒有人誰寫日本 還是中國寫為空格。 當你在寫中國, 日本你剛才寫的一切 沒有空格。 它甚至沒有任何意義 把空間。 這樣的話,當你從得到的數據,一些 東亞語言,如果你想 其實做一些與 你必須先分段。 認為這樣做的實例中的 不帶空格的歌詞。 所以,你擁有的唯一歌詞 將句子,對不對? 用句點分隔。 但是剛走了句會 沒有真正在給予信息幫助 是誰的歌詞是由。 對不對? 所以,你應該首先將空間。 你那麼如何才能做到這一點? 所以後來談到語言的想法 模型這是真的東西 用於計算重要 語言學。 所以一個語言模型基本上是一個 表概率的表演 首先什麼是概率 具有一種語言的單詞? 那麼如何展示頻繁的一句話就是。 然後還展示了關係 在一個句子中詞與詞之間。 所以主要的想法是,如果一個陌生人來到 給你說了一句話 你,什麼是概率,對於 例如,“這是我妹妹[?GTF”?] 是那句話的人說的嗎? 所以,很顯然有些句子 比其他人更常見。 例如,“早上好”或“好 晚上,“或”嘿,“得多 比最常見的句子 我們有一個英語。 那麼,為什麼那些句子 更頻繁? 首先,這是因為你有 話是更頻繁。 因此,舉例來說,如果你說,狗是 大,而狗是巨大的,你 通常可能聽到狗是大 更多的時候,因為“大”更 頻繁的英語不是“巨大”。 所以,1的 事情是這個詞的頻率。 這是真正的第二件事 重要的僅僅是 順序的話。 所以,經常會說“貓是 裡面的箱子。“但你通常不 見“盒子裡面是貓。”所以 你看,有一些重要 中的詞的順序。 你不能只是說,這兩個 句子具有相同的概率 僅僅是因為他們具有相同的話。 實際上,你要關心 關於秩序良好。 有意義嗎? 那麼,我們該怎麼辦? 所以我可能會嘗試幫你嗎? 我試圖讓你我們 調用的n-gram模型。 所以,一個n-gram模型的基本假設 對於每個字 你在一個句子裡。 它具有的概率 字不僅有依賴於 頻率在語言文字的, 同時也對詞 都圍繞著它。 因此,舉例來說,通常當你看到 像上或在你 可能會看到一個 名詞之後,對不對? 因為當你有一個介詞 通常它需要後一個名詞。 或者如果你有一個動詞是及物動詞 你通常要 有一個名詞短語。 因此,這將有一個名詞 圍繞它的地方。 所以,基本上,它的作用在於,它 認為具有的概率 話彼此相鄰,當 你的計算 概率句子。 而這正是一種語言 模型基本上是。 只是說有什麼可能性 的具有特定 句子的語言? 那麼,為什麼是有用的,基本上是? 並首先什麼是 一個n-gram模型,然後呢? 所以,一個n-gram模型意味著, 每個字取決於 接下來的N減1的話。 所以,基本上,這意味著如果我看起來, 例如,在CS50 TF時 我計算的概率 這句話,你會像“ 具有單詞“the”的概率 具有次的概率“的 具有CS50“時間的概率 “該CS50 TF。”所以,基本上,我算 伸展它的所有可能的方式。 然後通常當你這樣做, 作為一個項目,你把電量為 一個低的值。 所以,通常有雙字母組或卦。 所以,你只算兩個詞,一個 組兩個詞,或者三個字, 只為性能問題。 也因為也許如果你有 像“的CS50 TF。”當你 有“TF”,這是非常重要的, “CS50”是在它旁邊,對不對? 這兩件事通常是 彼此相鄰。 如果你覺得“TF”,它可能 將有哪些 類它TF'ing的。 也是“”真的很重要 為CS50 TF。 但是,如果你有一些像“CS50 TF去上課,並給了他們 學生們一些糖果。“”糖果“和”the“ 沒有關係真的,對不對? 他們是彼此如此遙遠的 它並不真正的問題是什麼 也就是說你有。 所以,做一個兩字或卦,它 只是意味著你限制 自己的一些話 這是各地。 有意義嗎? 所以,當你想要做的分割, 基本上,你想要做什麼見 什麼都是可能的方式, 你可以分段的句子。 這樣,你看到的是什麼 每個句子的概率 現有的語言嗎? 所以,你做什麼就好了,好了,讓 我試圖把一個空間在這裡。 所以,你把一個空間有 和你看到的是什麼 那句話的概率是多少? 那麼你是喜歡,好吧,也許 這不太好。 所以我把一個空間有一個空格 在那裡,你的計算 概率現在,你看到 這是一個更高的概率。 所以,這就是所謂的TANGO的算法 分割算法,這是 實際的東西,會是真的 涼爽的項目,該項目 基本上採取不分段全文 可能是日本人還是中國人也許 英語沒有空格,並試圖把 字和它之間的空間 通過使用一個語言模型,並 想看看是最高的 概率可以得到。 確定。 因此,這是分割。 現在的語法。 這樣,句法被用於 這麼多東西現在。 因此,對於圖搜索,對於Siri的供 幾乎任何類型的自然 語言處理你。 那麼什麼是重要的 有關語法的東西呢? 因此,句子一般有 就是我們所說的成分。 這是一種像組詞 有在句中的功能。 他們不能真正 彼此分開。 所以,如果我說,例如,“勞倫愛 米洛。“我知道,”勞倫“是一個 成分,然後“愛 米洛“也是一個又一個。 因為你不能說像“勞倫米洛 喜歡“具有相同的含義。 它不會有 相同的含義。 或者,我不能說像“米洛·勞倫 愛。“不是任何事物都有相同的 這意味著這樣做。 因此,這兩個更重要的事情 語法是詞法類型是 基本的功能,你 自己有話。 所以,你要知道,“勞倫” 與“米洛”都是名詞。 “愛”是一個動詞。 第二重要的是 他們是短語的類型。 所以,你知道,“愛米洛” 實際上是一個口頭短語。 所以,當我說“勞倫,”我知道, 勞倫是做什麼的。 她在幹什麼? 她愛米洛。 所以這是一個整體的東西。 但它的成分是 一個名詞和一個動詞。 但同時,他們提出了一個動詞短語。 所以,我們可以真正做 計算語言學? 所以,如果我有東西,例如 “朋友佳佳的。”我認為如果我只是 沒有一個語法樹我想知道 “朋友”是一個名詞短語是 “艾里遜的”名詞,然後是 “的”介詞短語在這 一個主張和“佳佳”是一個名詞。 有什麼我可以做的是教給我的電腦 當我有一個名詞短語之一, 然後一個介詞短語。 所以在這種情況下,“朋友”,然後“ 米洛“我知道這意味著 NP2,第二個,擁有NP1。 所以,我可以創造某種關係, 某種功能吧。 所以每當我看到這個結構, 正好與“朋友的匹配 佳佳,“我知道佳佳 擁有朋友。 所以,朋友們的東西 佳佳了。 有道理? 因此,這基本上是什麼 圖搜索一樣。 它只是創建規則 對於很多事情。 所以,“朋友阿利森的”,“我的朋友們 誰住在劍橋“,”我的朋友們 誰去哈佛。“它創造規則 對於所有這些事情。 現在的機器翻譯。 因此,機器翻譯也 一些統計。 而實際上,如果你涉足 計算語言學,很多 你的東西將是統計數據。 所以當我在做的例子有 有很多可能性的,我是 計算,然後你到這個 極少數這是最後的 概率,這就是 給你答案。 機器翻譯還使用 統計模型。 如果你要考慮機器的 翻譯在最簡單的可能 順便問一下,你能想到的僅僅是 翻譯一字一句,對不對? 當你學習一門語言的 第一次,這通常是什麼 你這樣做,對不對? 如果你想你翻譯一個句子 在你的語言的語言 你正在學習,通常首先,你 翻譯的每個字 個別地,然後嘗試 把單詞到位。 所以,如果我想翻譯這個, [發言葡萄牙語] 這意味著“白貓跑掉了。” 如果我想從翻譯 葡萄牙語到英語,我 可以做的是,第一,我只是 逐字翻譯單詞。 因此,“O”是“,”“加托”,“貓” “布蘭科”,“白”,然後“fugio”是 “跑了。” 於是我把所有的話在這裡, 但他們不是為了。 這就像“貓白跑了” 這是不合語法。 這樣的話,我可以有第二個步驟,即 將要尋找的理想 對於每個字的位置。 所以我知道,其實我是想有 “白貓”,而不是“貓白。”所以 有什麼我可以做的是,最天真的方法 將創建所有 可能的排列 字位置。 然後看看哪一個具有 根據概率最高 我的語言模型。 然後當我找到一個有 概率最高的,這是 可能是“白貓跑了,” 這是我的翻譯。 這是說明一個簡單的方法 怎麼了很多機器翻譯 算法工作。 這是否有道理? 這也是一些真正令人興奮的 那你們也許可以探索一個 最後的項目,是嗎? 學生:嗯,你說這是 天真的方式,有啥 非幼稚的方式? LUCAS FREITAS:非幼稚的方式? 確定。 所以這是壞的第一件事 這個方法是我剛翻譯 也就是說,一個字一個字。 但有時你必須說的話 可以有多種譯文。 我會盡量想 的東西。 例如,在葡萄牙可以“漫畫” 要么是“裂傷”或“套筒”。所以 當你試圖翻譯單詞 通過文字,它可能給你 東西是沒有意義的。 所以,你其實是要你在所有 的可能的翻譯 單詞和看,首先, 什麼是順序。 我們都在談論permutating 事情? 要查看所有可能的訂單, 選擇一個具有最高 概率是多少? 您也可以選擇所有可能的 翻譯每個 單詞,然後看 - 結合的排列 - 哪一個具有最高的概率。 另外,你也可以看看不 只字,但短語。 這樣你就可以分析之間的關係 這些詞彙,然後得到一個 更好的翻譯建議。 另外別的東西,所以這學期 實際上,我在做研究 中國英語機器翻譯, 從這麼翻譯 中國成英文。 而我們做的事情是,除了使用 一個統計模型,它只是 再看到的可能性 在一個句子中的某個位置,我 居然還加入一些語法來我 模型,說,哦,如果我看到這樣的 建築,這就是我想要的 改變它,當我翻譯。 所以,你也可以添加某種 語法元素以使 翻譯更高效 和更精確。 確定。 所以你怎麼能上手,如果你想 做一下計算 語言學? 首先,你選擇一個項目 涉及語言。 因此,有這麼多的在那裡。 有這麼多的事情可以做。 然後可以把一個模型 您可以使用。 通常,這意味著思維 假設,因為喜歡,呵呵,當我 喜歡的歌詞思維。 我當時想,好吧,如果我想弄清楚 出是誰寫的,我可能要 看的話的人使用, 看看誰使用這個詞非常頻繁。 所以盡量作出假設及 再想想模型。 然後你也可以在網上搜索 什麼樣的問題,你有, 而且它要建議 你的模型,也許 仿照那個東西好。 ,你也可以隨時給我發電子郵件。 me@lfreitas.com。 而且我可以回答你的問題。 我們甚至可能會碰見這樣我就可以 給對方法的建議 實施項目。 我的意思是,如果你捲入到 計算語言學,這是怎麼回事 是巨大的。 你會看到有 這麼多的潛力。 和業界都希望僱傭 你是因為有那麼糟糕。 所以,我希望你們喜歡這個。 如果你們有任何問題, 您可以在此之後問我。 但是謝謝你。