LUCASフレイタス：ちょっと。 すべての人を歓迎します。 私の名前はルーカスフレイタスです。 私は勉強[聞こえない]の3年生だ 内を中心としたコンピュータサイエンス 計算言語学。 だから私の二言語である および言語理論。 私はあなたたちを教えるのは本当に興奮している フィールドについて少し。 それは勉強する非常にエキサイティングなエリアです。 また、多くの可能性と 将来のために。 だから、私は本当に興奮していることをあなたたち プロジェクトを検討している 計算言語学。 そして、私は助言するよりも幸せになるでしょう あなたの任意のあなたがすることを決定した場合 それらのいずれかを追求しています。 

計算が何であるか、すべてのそのように最初の 言語学？ そう計算言語学である 言語学との交点 コンピュータサイエンス。 だから、言語学とは何でしょうか？ コンピュータサイエンスとは何ですか？ さて言語学から、どのような 我々は言語である取る。 だから、言語学は実際に研究である 一般的に、自然言語の。 だから、自然言語 - 我々は話を 私たちが実際に使用している言語 相互に通信します。 だから我々は正確に話していない CやJavaについて。 私たちは、英語とについての詳細を話している その我々の中国と他の言語 互いに通信するために使用します。 

そのことについて挑戦的なことは、 今、我々は持っている、ほとんど7000 世界の言語。 だから、かなり高いものが用意されてい 我々は勉強できる言語の。 そして、あなたはそれはおそらくだと思う 行うのは非常に難しい、例えば、 1つの言語からの翻訳 その他、あなたが持っていることを考えると ほぼ7000そのうち。 だから、あなたは翻訳を行うのではと思われる場合 1言語から他のお客様へ 万人のほぼ多くを持っている そのあなたができるさまざまな組み合わせ 言語から言語する必要があります。 だから、実際にいくつかを行うには挑戦的 たとえば翻訳システムの種類 一つ一つの言語。 

構文を持つので、言語学のおやつ、 意味論、語用論。 あなたたちは正確にする必要はありません 彼らが何であるかを知っている。 しかし、非常に興味深いのは、ということです あなたが学ぶネイティブスピーカー、など 子供の言語、実際に学ぶ それらのもののすべて - 構文のセマンティクス と語用論 -  自分で。 そして誰ものためのあなたの構文を教えるために持っていません あなたは文章であるかを理解するために 構造化。 だから、それは本当に面白いですので、 それは非常に来るものだ 直感的に。 

そして、あなたは何を取っている コンピュータサイエンス？ 我々だけでなく、最も重要なこと コンピュータサイエンスを持っていることの最初のものです すべて、人工知能 機械学習。 そこで、我々はそうしようとしているもの 計算言語学ティーチです お使いのコンピュータに何かをする方法 言語と。 

したがって、たとえば、機械で 翻訳。 私はどのように自分のコンピュータを教えることをしようとしている 1へ遷移する方法を知っている 他の言語。 したがって、基本的に教えるような コンピュータ2の言語。 私は、自然言語処理を行う場合、 例についてはそうである あなたが教えるFacebookのグラフを検索、 お使いのコンピュータ方法を理解する よくクエリ。 

だから、あなたは「私の写真を言えば 友人は「Facebookは扱わない 持って全体を文字列として 単語のちょうど束。 これは、実際の関係を理解し​​て 「写真」と「私の友人」との間で 「写真」であることを理解している のプロパティ "私の友人。" 

だから、それは、例えば、の一部である 自然言語処理。 それは何を理解しようとしている との間の関係である 文中の語。 そして大きな問題は、次のことができている 話すことをどのようにコンピュータを教える 一般的に言語？ 非常に興味深い質問へである 将来的には多分あるかのように、考えて、 次のことができるようにするつもりだ あなたの携帯電話に話す。 種類の我々はシリに何をすべきかに似ていますが、 より多くの何かのように、あなたが実際にすることができ 好きなことを言うと電話 すべてを理解しようとしている。 そして、それが質問にフォローアップすることができ と話を続ける。 それは本当にエキサイティングなものですが、 私の意見で。 

だから、自然言語について何か。 本当に面白いもの 自然言語は、であり、これは 私の言語学教授の功績によるもの、 マリア·ポリンスキー。 彼女は例を与え、私は思う それは本当に面白いです。 私たちはいつから言語を学ぶので、 我々は我々のネイティブその後生まれている 言語は一種の私たちに成長する。 

そして基本的には、言語を学ぶ 最小限の入力から、右？ あなたは自分からの入力を取得している お使いの言語が鳴るものの両親 のような、あなたはそれを学ぶ。 あなたが見ればのでそう、それは面白いです これらの文章で、例えば。 あなたが見て、「メアリーは、すべてのコートの上に置いて 彼女は家を出る時間」 

この場合には、持っている可能性があります 単語 "彼女は「右、メアリーを参照してください？ あなたは、「メアリーはコートの上に置いて言うことができます メアリーは葉毎回 家。「だから、大丈夫です。 しかし、あなたが文を見れば 「彼女は、メアリーのコート上のすべての時間を置く 家を離れた。「あなたはそれがあることを知っている "彼女"であることを言うことは不可能 メアリーを参照。 

メアリーは置く」というの方法はありません コー​​ト上のすべての時間メアリーの葉 家は。」だから、面白いだから これは直感のようなものです。 すべてのネイティブスピーカーが持っていること。 そして誰もが、これがあることを教えられなかった 構文の動作方法。 そして、あなたは、この "彼女"を持つことができること この最初のケースではメアリーを参照すると、 そして実際にこの他にある あまりにもではなく、この1中。 しかし、誰もがこの種の取得 同じ答えに。 誰もがその上で同意します。 だから、どのようにが、本当に面白いです あなたはすべてのルールを知らない あなたの言語では、種類の理解 言語がどのように機能する。 

とても自然で興味深い 言語は、あなたがする必要がないことです 知っている任意の構文を知っていれば、文 のための文法的あるいは非文法的である ほとんどの場合。 あなたはと思わせるものかもしれないものを 起こることは、あなたは、あなたの人生を介して行われ ただ、より多くを得ておく 文章はあなたに語った。 そして、あなたは覚えておく 文章がすべて表示されます。 して、誰かがあなたに伝えたとき 何か、あなたがその文を聞き、 あなたの語彙を見て 文章のと表示された場合 その文があります。 そして、それはそこにある場合 それは文法的だと言う。 そうでない場合は、それがだと言う 非文法的。 

だから、その場合、あなたは、ああ、と言うでしょう だから、すべての巨大なリストを持っている 可能な文章。 してから、文を聞いたとき、 それは文法的だかどうかは知っている それに基づいていない。 ことは、あなたが見れば、ということです 文章、例えば、「 5頭CS50のTFは盲目の調理 DAPAマグを使ってタコ。「イッツ· 絶対にない文 あなたが前に聞いた。 しかし同時にそれは知っている 右、文法的なほとんど？ 文法的に間違いはありません あなたが言うことができる それは可能文です。 

だから、私たちは、その実際に考えさせる 我々は言語を習得する方法だけではありません 可能性の巨大なデータベースを有することにより、 単語や文章が、より多くの との関係を理解すること これらの文章中の単語。 それは理にかなっていますか？ だから、その後の質問は、することができますです コンピュータは、言語を学ぶのか？ 私たちはコンピュータに、言語を教えることはできますか？ 

それでは、違いを考えてみましょう 言語のネイティブスピーカーとの間に とコンピュータ。 だから、何がスピーカーになりますか？ さて、ネイティブスピーカーを学習 それへの暴露から言語。 通常、その幼児年。 したがって、基本的に、あなただけの、赤ちゃんを持っている そしてあなたはそれに話しておくと、それ ただ話す方法を学ぶ 言語、右？ だから、あなたは基本的に与えている 赤ちゃんへの入力。 だから、あなたが主張することができ、そのコンピュータ 右、同じことを行うことができますか？ あなただけの言語を与えることができます コンピュータへの入力として。 

例えばなどのファイルの束 英語の本を持っている。 多分それはあなた1の方法だ おそらく教えることができる コンピュータ英語、右？ 実際には、あなたが考えてみれば、 それは多分カップルを移動します 日本を読むこと。 コンピュータにとっては、2番目を取る ブック内のすべての単語を見てください。 だから、それがちょうどこのかもしれないと思うことができます あなたの周りからの入力引数、 それはそれがだと言うには十分ではありません 人間だけが行うことができるもの。 あなたはコンピュータを考えることができます また、入力を得ることができます。 

2つ目はネイティブスピーカー また、持って脳を持っている 語学学習機能。 しかし、あなたが考えてみれば、 脳は立体物である。 あなたが生まれている場合は、既に設定されている -  これはあなたの脳です。 あなたが育つようにと、あなただけの多くを得る 言語の入力と多分栄養素 や他のもの。 しかし、ほとんどあなたの脳 固体のものです。 

だから、まあ、あなたができる、と言うことができます の束を持ってコンピュータを構築 ただ模倣する関数とメソッド 語学学習機能。 だから、そういう意味では、私は、よく、言うことができる すべてされているコンピュータを持つことができます 私は言語を習得する必要があるもの。 そして最後の事はことをネイティブである スピーカーは、試行錯誤から学ぶ。 そこで、基本的に別の重要なことにある 言語学習はあなた優しいということです 作りで物事を学ぶ あなたが聞くものの一般化。 

あなたが育っているようにあなたがいることを学ぶ いくつかの単語は、より多くの名詞のようなもので、 他のいくつかのものは形容詞です。 そして、あなたはいずれかを持っている必要はありません 言語学の知識 それを理解する。 しかし、あなただけのいくつかの単語があると知っている の一部に配置されている 文と他のいくつかの他のもの 文章の一部。 

そして、それは何かを行うときに 正しくない文のように -  多分理由オーバー一般化 次に例を示します。 あなたが成長しているときに、多分、あなたが気づく 複数形は通常であること のSを入れて形成された 単語の終わり。 そして、あなたは、複数のをやろう 「鹿」や「歯」のように "鹿" 「tooths。 "それでは、あなたの両親や 誰かがあなたを修正し、言ういいえ、 「鹿」の複数形は「鹿」であり、 「歯」の複数形は「歯」です。その後 あなたはそれらの事を学びます。 だから、試行錯誤から学ぶ。 

しかし、あなたはまた、それを行うことができます コンピュータと。 あなたはと呼ばれるものを持つことができます 強化学習。 与えているようなものは基本的にある それがないときはいつでも、コンピュータの報酬 正しく何か。 それに報酬の反対を与える それが何か間違ったことをしたとき。 あなたが実際にあれば、あなたが行くことがわかります Googleが翻訳し、あなたがしようとする センテンスを翻訳、それ フィードバックをお願いします。 あなたが言うのであれば、ああ、良いがあります この文のための翻訳。 その後、それを入力し、ことができれば、多くの 人々は、それが優れていると言っておく 翻訳は、それだけで学習すること 代わりに、その変換を使用する必要があります それが与えていた1。 

だから、それは非常に哲学的な質問だ コンピュータがあることを行っているかどうかを 将来的に話をしたりしないことができる。 しかし、私は大きな期待を持って、彼らができることを ただ、これらの引数に基づいて。 しかし、それは哲学のちょうどより多くの 質問。 

コンピュータはまだ話すことはできないがそう、 私たちにできる事は何ですか？ いくつかの本当にクールなものがあります データ分類。 そのため、たとえば、皆さんが知っている そのEメールサービスのために、何 たとえば、スパムフィルタリング。 ですから、それをスパムを受​​け取るたびに、 別のボックスにフィルタリングしようとします。 だから、どのようにそれを行うのですか？ これは、コンピュータだけで知っているようではありません どのような電子メールアドレスは、スパムを送信している。 だから、それはより多くの内容に基づいている メッセージ、または多分タイトル、 たぶん、あなたは持っているいくつかのパターン。 

だから、基本的に、何を行うことができますことは得ることである スパムである電子メールのデータが多く、 スパムではないメール、および何を学ぶ あなたが持っているパターンの種類 スパムであるもの。 そして、これは、計算の一部である 言語学。 これは、データ分類と呼ばれています。 そして、我々は実際に見ることになるだろう 次のスライドでそれの例。 

2つ目は、自然言語である そのことで、処理 グラフ探索をさせるのでやっている あなたが文章を書く。 そして、それはあなたが何を理解し信頼し 意味ですとなります もし良い結果。 実際には、GoogleやBingに行けば あなたは女性のようなものを検索する ガガの高さは、あなたが実際に行っている 5 '1 "の代わりに情報を取得する それが実際に理解しているので、彼女から あなたは何を言っているのか。 だから、自然の一部だ 言語処理。 

あるいはまた、あなたはまず、シリを使用しているとき あなたがしようとしたアルゴリズムを持っている 何を言っている翻訳する 単語に、テキスト中。 そして、それは変換しようと試み その意味に。 だから、すべての自然の一部である 言語処理。 

その後、機械翻訳を持っている -  実際に1である 私のお気に入りの -  ちょうどから翻訳されている 別の言語。 だから、あなたがやっているときに考えることができます 機械翻訳は、次のものが 文章の無限の可能性。 だから保存する方法はありません 一つ一つの翻訳。 だから、面白い思い付くする必要があります アルゴリズムができるようにするには 一つ一つを翻訳 何らかの方法で文。 

あなたたちは、これまで不明な点がある？ なし？ [OK]をクリックします。 

それでは、今日は見に行くのですか？ まず第一に、私が話をするつもりです 分類問題。 私がいたので、1 迷惑メールについて述べた。 私は何をするつもりだと、歌詞を考えると、ある 歌には、次のように把握しようとすることができます 高い確率で 歌手は誰ですか？ のは、私は女性から曲を持っているとしましょう ガガとケイティ·ペリー、私はあなたを与える場合は、 新しい曲は、あなたがどうかを把握することができます それはケイティ·ペリーやレディー·ガガの？ 

第1、私は話をするつもりだ セグメンテーション問題について。 だから私は君たちが知っていれば知っているが、しないでください 中国語、日本語、他の東アジア 言語、およびその他の言語 一般的に、持っていない 単語間のスペース。 そして、あなたはそのように考えてみれば しようとするのにコンピュータの種類 自然言語処理を理解し、 それは言葉を見て、 関係を理解し​​ようとします それらの間に、右か？ しかし、あなたは、あなたが中国を持っている場合、および ゼロスペースを持って、それを使用するハードを本当にです との関係であるかを調べる 言葉、彼らはいずれかを持っていないため、 最初は言葉。 だからと呼ばれる何かをしなければならない ちょうど置くことを意味セグメンテーション 我々は呼んでおきものとの間のスペース これらの言語の単語。 理にかなって？ 

そして、我々はするつもりだ 構文について話しています。 自然についてとても少しだけ 言語処理。 それはちょうど概観になるだろう。 だから、今日、基本的に私は何をしたいのか みんなにあなたの少しを与えるされている 可能性があるものの内部 あなたは、計算で行うことができます 言語学。 そして、あなたはあなたが何を考えて見ることができます これらのものの間でクールです。 そして多分あなたはプロジェクトを考えることができます と私に話してくる。 と私はあなたの助言を与えることができます それを実装する方法について。 

だから、構文は少しになるだろう グラフ探索と機械について 翻訳。 私は方法の例を与えるつもりだ あなたは、例えば、翻訳することができ 英語からポルトガル語から何か。 いいですね？ 

したがって、最初、分類問題。 私はセミナーのこの部分と言うでしょう 最も困難になるだろう 1そこに起こっているという理由だけで いくつかのコーディングされるように。 しかし、それは、Pythonになるだろう。 私は、君たちがPythonを知らない知ら 私は高い所に説明するつもりです 私がやっているレベルです。 そして、あなたは本当にあまりにも気にする必要はありません それだから、構文について多く あなたたちが学ぶことができる何か。 OK？ 旨そうだな。 

だから、分類問題とは何でしょうか？ ですからをするためにいくつかの歌詞を与えられている 歌、そしてあなたが推測したい 誰が歌っている。 そして、これはどのような種類であることができる 他の問題。 だから、例えば、あなたが持っていることができます 大統領選挙、あなたが持っている スピーチ、あなたが検索したい それがあった出た場合、例えば、 オバマまたはミット·ロムニー。 または、電子メールの束を持つことができ、 あなたは彼らがあるかどうかを把握したい スパムかどうか。 だから、単にいくつかの分類だ 単語に基づいてデータ あなたがそこに持っている。 

そうこれを行うには、その必要はあり いくつかの仮定を行う。 だから、計算言語学について多く 仮定を作っている、 通常、スマートな仮定、その結果、 あなたは良い結果を得ることができます。 それのためのモデルを作成しようとしている。 そして、それを試してみるとそれが動作するかどうかを確認 それはあなたに良い精度が得られます。 そして、それがない場合は、あなた それを改善してみてください。 そうでない場合は、似ている、[OK]を、多分私 別の仮定をしなければならない。 

だから我々はするつもりだという仮定 作る芸術家は通常、歌うことです トピックについて複数回、多分 言葉だけを複数回使用しています 彼らはそれに慣れているので。 あなたは自分の友人と考えることができます。 私はあなたたちのすべての友人を持っていると確信している それは彼らの署名フレーズを言って、 文字通り一つ一つの文のための -  いくつかの特定の単語やいくつかの特定のような 彼らが言うフレーズ 一つ一つの文章。 

そして、何あなたが言うことができることが表示された場合ということです 署名を持っている文 フレーズは、おそらくそれを推測することができます あなたの友達です 1は右、それを言って？ だから、という仮定を行ってから、 つまり、モデルの作成方法を説明します。 

私は与えるつもりだ例がオンになっている どのようにレディー·ガガ、例えば、人々 彼女は「赤ちゃん」を使用していることを言う すべての彼女のナンバー1曲。 そして、実際にこれは、ビデオであることを示している 彼女は単語 "赤ちゃん"のために言って 異なる曲。 

[ビデオ再生] 

 - （SINGING）赤ちゃん。 赤ちゃん。 赤ちゃん。 赤ちゃん。 赤ちゃん。 ベイブ。 赤ちゃん。 赤ちゃん。 赤ちゃん。 赤ちゃん。 

[ENDビデオ再生 -  

LUCASフレイタス：だからそこにある、私が思うに、 彼女が言うにいるここに40曲 単語 "赤ちゃん。"だから、基本的に推測することができます そのあなたが持っている曲が表示された場合 単語 "赤ちゃん、「いくつかの高があると それはレディー·ガガだという確率。 しかし、ここではこれを開発してみましょう さらにより正式に。 

したがって、これらのによる歌の歌詞です レディー·ガガやケイティ·ペリー。 ですから、レディー·ガガを見て、あなたは彼らを参照してください。 "赤ちゃん"の出現がたくさんある の発生が多く、 "道"その後 ケイティ·ペリーはの発生をたくさん持っている "、"の発生が多く、 "火" 

そこで、基本的に我々が望むもの を表示していますが、歌詞を取得している。 例えば、あなたがのために歌詞を取得したとしましょう "ベイビー"だけで "赤ちゃん"です。歌もし あなただけの単語 "赤ちゃん"、およびこれを取得 あなたから持っているすべてのデータである レディー·ガガやケイティ·ペリー、だろう あなたは人ですね 誰が歌を歌っている？ レディー·ガガやケイティ·ペリー？ レディー·ガガ、右？ 彼女は言うだけだから "赤ちゃん"これは右、愚かに聞こえる？ [OK]を、これは本当に簡単です。 私はちょうど2曲にと探しています もちろん、彼女が持っている唯一の一つだ "赤ちゃん" 

しかし、あなたが言葉の束を持っているか？ あなたは、実際の歌詞、何かを持っている場合 のような、「赤ちゃん、ちょうど私 [を見に行きました？ CFT？] 講義」、またはそのような何か、と あなたが実際に把握する必要があります -  すべての単語に基づいて -  おそらく誰アーティストは誰ですか この歌を歌った？ それでは、開発してみましょう もう少しこの。 

[OK]を、ので、ちょうど私たちのデータに基づいて だ、それは·ガガ、おそらくあると思われる 歌手。 しかし、どのように我々は書くことができます このより正式に？ 少しがあるように起こって 統計のビット。 だからが失われた場合は、単に試し 概念を理解する。 あなたが理解していれば、それは問題ではありません 方程式完璧。 これは、すべてのオンラインになるだろう。 

そこで、基本的に私は計算してることはある この曲がである確率 レディー·ガガはそれを与えられた -  ので、このバーは、その与えられた意味 -  私は言葉を見た」赤ちゃんを。 " それは理にかなっていますか？ だから私は、計算しようとしている ある確率。 

いわゆるこの定理があります と言っているベイズ定理 所与のBの確率は、である 、回与えられ、Bの確率 確率上のAの確率、 Bのこれは長い方程式である。 しかし、あなたから理解する必要が つまり、これは私がしたいものであるということです 右、計算？ その歌はであるように確率 レディー·ガガは、私は言葉を見たことを考えると "赤ちゃん" 

そして今、私が得ていることである 「赤ちゃんは「与えられた単語の確率 私は、レディー·ガガを持っていること。 そして、それは基本的には何ですか？ その手段が何であるか、何 単語 "赤ちゃん"を見ての確率 ガガの歌詞にある？ 私は非常にそれを計算する場合 簡単な方法、それは数だけです 回私は総数に対する「赤ちゃん」を参照してください。 ガガの歌詞の単語のですよね？ 私が見る頻度はどのくらいです ガガの作品にその単語？ 理にかなって？ 

第二項はある ガガの確率。 どういう意味ですか？ つまり、基本的に何であるか、意味 分類の確率 ガガのようないくつかの歌詞？ そして、それは一種の奇妙ですが、 それでは例を考えてみましょう。 それでは確率としましょう 歌の "赤ちゃん"を持つことは同じです ガガやブリトニー·スピアーズのために。 しかし、ブリトニー·スピアーズが二回あります レディー·ガガよりも多くの曲。 だから、誰かがランダムにあなたが提供している場合 まず最初に、「赤ちゃん」の歌詞あなた の確率は何である、ATが見える ガガの曲で「赤ちゃん」を有する、 "赤ちゃん" ブリトニーの曲の中？ そして、それは同じことだ。 

ですから、わかります2つ目は、ある よく、確率は何ですか それだけでこの歌詞はガガの歌詞であること、 との可能性は何ですか ブリトニーの歌詞であること？ だからブリトニーは非常に多くのより多くの歌詞を持っているので、 ガガよりも、おそらくだろう たとえば、まあ、これはおそらく、 ブリトニーの歌詞。 我々はこれを持っている理由ので、それはです 右ここでいう。 ガガの確率。 理にかなっている？ それはありません？ [OK]をクリックします。 

そして最後の1は単なる確率である しません "赤ちゃん"の 本当に問題はそれほど。 しかし、それは確率だ 英語で「赤ちゃん」を見て。 我々は通常、それを気にしない その用語についての多く。 それは理にかなっていますか？ だから、ガガの確率である 事前確率と呼ばれる クラス·ガガの。 それだけで何があることを意味するので そのクラスを有する確率 -  ガガこれは -  ただ一般的には、単に なし条件。 

そして私は可能性を持っている場合 「赤ちゃん、 "我々はそれを呼び出す与えガガプラス それはだから確率は涙 有する確率 ガガは、いくつかの証拠が与えられた。 だから私はあなたに証拠を与えている 私は言葉の赤ちゃんを見ていることを 歌は理にかなって？ [OK]をクリックします。 

だから私は、それぞれのためにそれを計算した場合 レディー·ガガのための曲、 それがどうなるか -  どうやら、私はこれを移動することはできません。 ガガの確率はなり 何かのように、2 24以上、回1/2、 53以上の2以上。 あなたは何を知っていれば、それを問題ではありません これらの数字は、から来ている。 しかし、それは起こっているだけの数だ 右、0以上になるように？ 

そして私はケイティ·ペリーを行うとき ケイティ与えられた「赤ちゃん」の確率である すでに0、右？ 全く「赤ちゃん」がないため ケイティペリー。 そう、これは0になり、ガガ 勝、ガガがあることを意味します おそらく歌手。 それは理にかなっていますか？ [OK]をクリックします。 

だから私はこれをより正式にする場合は、 私は実際にモデルを行うことができます 複数の単語のために。 それでは、私は何かを持っているとしましょう のような、「赤ちゃん、私は 火に、「または何か。 だから、複数の単語を持っています。 この場合には、次のように表示することができます 「赤ちゃんは「ガガにあることを、 それはケーティではありません。 と "火"はケイティにあるが、 それは右、ガガにない？ だから、右、トリッキーなってきた？ それはあなたのほとんどと思われるので、 2間のネクタイを持っている。 

それで、あなたがしなければならないことは想定している 単語間の独立性。 そこで、基本的にそれが何を意味するかというです 私は何であるかを計算してい 何であるか」、赤ちゃんを「見ての確率 見ての可能性「I」をし、 「火」「AM」、および「ON」と すべて別途。 その後、私はそれらのすべてを掛けることだ。 そして、私は確率が何であるかを見ている 文全体を見ての。 理にかなって？ 

そこで、基本的に、私はちょうど1単語がある場合は、 私が知りたいことのarg maxのですが、 つまり、あるクラスは何ですか 私に最も高い確率を与える？ そのように与えているクラスは何ですか 私のために最も高い確率 クラスの確率は言葉を与えられた。 この場合、ガガは、与えられた "赤ちゃん" またはケイティは "赤ちゃん"を与えられた理にかなって？ 

そして、ちょうどそのベイズから 私が示した式、 私たちは、この画を作成します。 唯一のことは、あなたがいることがわかりということです 与えられた単語の確率 依存クラスの変更 クラスの、右？ 私が持っている「赤ちゃん」の数 ガガにケイティは異なります。 クラスの確率も それだけの数の変化するため、 それらの曲のそれぞれが持っています。 

しかし、言葉自体の確率 すべてのために同じことを行っている アーティスト、右？ そのように、単語の確率である ただ、確率は何ですか でその単語を見て 英語？ だから、それらのすべてに同じです。 これは一定であるためそのように、私たちはできる これを削除し、それを気にしない。 だから、これは実際になります 私たちが探している方程式。 

私は複数の単語を持っている場合と、私は今 それでも前を持っているつもり ここ確率。 唯一の事は私が掛けるんだということです の確率 他のすべての単語。 だから私はそれらのすべてを掛けることだ。 理にかなって？ それは奇妙に見えますが、基本的に意味し、 クラスの前に、との計算 各確率を掛け そのクラスにある単語の。 

そして、あなたは知っているの可能性 クラス指定された単語があることを行っている あなたがその単語を参照する回数 数で割ったそのクラス、 あなたがその中に持っている言葉 一般的には、クラス。 理にかなって？ それは、「赤ちゃんが "2終わっただけでどのようだ その単語の数 私は歌詞に持っていた。 だから周波数。 

しかし、一つのことがあります。 私が見せていたか覚えている "赤ちゃん"という歌詞の確率 ケイティ·ペリーから0だったという理由だけでケイティ ペリーは、すべての「赤ちゃん」を持っていなかった？ しかし、それだけでは少し耳障りな音 単純に歌詞からできないことを言う 彼らが持っていないという理由だけで、アーティスト いつでも、特にその単語。 

もしそうであれば、あなただけの、よく、言うことができる この言葉を持っていない、私はするつもりだ あなたのより低い確率を与え、 しかし、私はちょうどするつもりはない すぐにあなたに0を与える。 多分それはのようなものだったので、 「火、火、火、火」である 完全にケイティ·ペリー。 とし、 "赤ちゃん"、それだけに行く 0すぐに1があったので、 "赤ちゃん" 

そこで、基本的に我々は何をすべきか何かである ラプラススムージングと呼ばれる。 そして、これはちょうど私が与えていることを意味します でも、言葉にはいくつかの確率 それは存在しません。 だから、私は何をして私がいる時ということです この計算は、私は常に1を追加 分母。 だから、言葉はで、存在しない場合でも、 これが0であれば、この場合、私はまだだ 上で1としてこれを計算する 単語の合計数。 そうでなければ、私はどのように多くの単語を取得 私が持っていると私は1を追加します。 だから私は両方のケースのために数えています。 理にかなって？ 

だから今のには、いくつかのコーディングを行うことができます。 私は、かなり速いそれをしなければならないつもりだ それはあなただけのことが重要です 人は概念を理解しています。 それでは、私たちがやろうとしている 正確にこれを実装されている 私が今言った事 -  私はあなたから歌詞を入れたい レディー·ガガやケイティ·ペリー。 プログラムができるようにするつもりされている これらの新しい歌詞·ガガからのものである場合に言う またはケイティ·ペリー。 理にかなって？ [OK]をクリックします。 

だから私は、私は行くよ、このプログラムがある classify.pyを呼び出します。 だから、これはPythonのです。 それは、新しいプログラミング言語です。 これは、いくつかの非常に類似している CとPHPの方法。 あなたがしたいのであれば、それは似ています Cを知った後にPythonを学ぶ、それはだ 挑戦の本当にあまりない Pythonははるかに簡単ですからといって まず、C、より。 物事の多くは、すでに あなたのために実装されています。 だから、どれだけのPHPのような機能を有している リストを並べ替え、または何かを追加 配列、何とか、何とか、何とかする。 Pythonは、同様にそれらのすべてを持っています。 

だから、僕はすぐに説明するつもりです どのようにして分類を行うことができます ここでは問題。 それでは、この場合は、私が持っているとしましょう ガガとケイティ·ペリーの歌詞。 私はそれらの歌詞を持っている方法があることである 歌詞の最初の単語です アーティスト名、および 残りは歌詞です。 それでは、私はこのリストを持っているとしましょう その最初のものはガガ作詞です。 だからここに私は正しい軌道に乗っています。 そして次はケイティであり、 それはまた、歌詞を持っています。 

だから、これはあなたが宣言する方法です Pythonで変数。 あなたは、データ型を与えることはありません。 あなただけの "歌詞"を書いてください PHPのような一種の。 理にかなって？ 

だから私がする必要が物事は何ですか 計算することができるように計算する 確率？ 私は、「事前分布」を計算する必要があります 異なるそれぞれの 私が持っているクラス。 私は「事後」を計算する必要が またはかなりの確率の その異なる単語のそれぞれ 私は、それぞれのアーティストのために持つことができます。 そう·ガガ内、例えば、私は行くよ 私が見る何回のリストを持っている 各単語。 理にかなって？ 

そして最後に、私はちょうど持っているつもりです まさに起こっている "言葉"と呼ばれるリスト どのように多くの単語、私持っている それぞれのアーティストのために持っている。 そう·ガガのために、例えば、ときに私が見て 歌詞に、私が、私が考えていたが、24 合計言葉。 したがって、このリストは単に持ってしようとしている ガガ24、およびケイティ別の番号。 理にかなって？ [OK]をクリックします。 

だから今、実際には、みましょう コー​​ディングにアクセスしてください。 そうPythonでは、あなたが実際にすることができ 異なるの束を返す 関数からのもの。 だから私は、この関数を作成するつもりです 予定された「条件付き」と呼ばれる 、それらのもののすべてを返す 「事前確率」、「確率」、および 「単語」だから「条件付き」で、それはだ を呼び出すされようとして "の歌詞。" 

だから今私はあなたが実際にしたい この関数を書く。 私はこれを書くことができますので、道 機能私は、これを定義されている を持つ関数「DEF」。だから私はDEF」でした 条件付き、「それは取っている 「歌詞。 "そして、これが何を何が起こっているか 、まず第一に、私は自分の事前分布を持っている 私が計算したいという。 

だから私はこれを行うことができます方法は作成される Pythonで、どの辞書 ハッシュとしてほとんど同じことです テーブル、またはそれは、反復のようなものだ PHPの配列。 これは私が辞書を宣言する方法です。 基本的にこれが意味することは ガガの事前確率は、例えば、場合には、0.5である 歌詞の50％はからです ガガ、50％はケイティからのものである。 理にかなって？ だから私はどのように把握する必要があります 事前分布を計算する。 

私がしなければならない次のものを、また、 確率との言葉である。 だから、ガガの確率はリストである 私のすべての確率の ガガのためのワードのそれぞれのために持っている。 だから私はガガの確率に行けば 「赤ちゃん」、例えば、それは私を与えるだろう その場合には24以上の2のようなもの。 理にかなって？ だから私は「確率」に行くために行く すべてのリストを持っている "ガガ"バケツ ガガの言葉は、私は「赤ちゃん」に行く と私は確率を参照してください。 

そして最後に、私はこれを持っている 「言葉」の辞書。 だからここに、「確率。」その後 「単語」だから私は「言葉」「ガガ」を行う場合 何が起こるだろうと、それがあるということです その私が言って、私に24を与えるつもり ガガの歌詞の中に24の言葉を持っています。 理にかなっている？ だからここに、「言葉は「DAH-DAH-DAHに等しい。 [OK] 

だから、私は何をするつもりだと、私は行くよです だから、歌詞のそれぞれを反復 その文字列の各 私は、リストを持っている。 そして、私はそれらの事を計算するつもりです 候補の各々のために。 理にかなっている？ だから私は、forループを行う必要があります。 

だから私は何ができるかをPythonではラインのため」である 歌詞にある。」と同じもの PHPの文の「それぞれに」。 それは、PHPだった場合、どのように私ができる覚えている 各歌詞の "と言う 行が「理にかなって？ だから私はこの中で、ラインのそれぞれを取っている 場合、この文字列と次の 私はどのようなラインのそれぞれのためのため、文字列 何をするつもりは、私はするつもりだ、最初のものである のリストに次の行を分割する スペースで区切られた単語。 

だから、Pythonのすごいところは、ということです あなたは可能性だけのGoogleどのようにすることができます」のような 単語に文字列を分割？ 「それはです それを行うには、どのように言うつもり。 そして、それを行う方法は、それだけで "ラインです = line.split（）」で、それは基本的にだ あなたのリストを提供するつもり ここで各単語。 理にかなっている？ だから今私がしたことを私は知ってほしいこと その歌の歌手は誰ですか。 と私は取得する必要があることを行うには 配列の最初の要素ですよね？ だから、僕は言うことができる私は "歌手 =行（0） "の意味なのでしょうか？ 

して、私は何をする必要があることは第一に、ある すべて、私はどのように多くの更新するつもりです 言葉は私が下に持っている「ガガ」。私はちょうどよ 計算しようとしてどのように多くの言葉私 右は、このリストを持っている？ これは私が持っているどのように多くの言葉であるため 歌詞と私はするつもりだ 「ガガ」の配列に追加します。 それは理にかなっていますか？ 構文にあまり集中しないでください。 概念の詳細を考えてみてください。 つまり、最も重要な部分です。 [OK]をクリックします。 

「ガガ」であるので、もし私がそれを行うことができますことはある 既にそのリストのため、「歌手に入った場合 その私はすでに意味の言葉 " ガガの言葉を持っている。 私は、追加を追加したい との言葉。 だから、私は何をすることは「言葉（歌手）です + = LEN（ライン） -  1 "。 そして私はちょうど行うことができます ラインの長さ。 だから、どのように多くの要素が、私は 配列を持っている。 そして私がしなければならない1マイナスという理由だけで 配列の最初の要素だけです 歌手、それらの歌詞はありません。 理にかなっている？ [OK]をクリックします。 

「そうでなければ、「それは私が実際にすることを意味します リストにガガを挿入します。 だから、僕は言葉（歌手）」を行う = LEN（ライン） -  1、 "申し訳ありません。 だから、2間の唯一の違い 行は、この1つは、それがないということです まだ存在していたので、私はちょうどよ それを初期化する。 この1私は実際に追加している。 [OK]をクリックします。 だから、これは言葉に追加した。 

今、私は事前分布に追加する。 それでは、どのよう私は、事前分布を計算するのですか？ 事前確率を計算することができる。 何倍。 あなたはその歌手を参照してくださいので、何回 あなた歌手のすべての中で 持っているよね？ 、·ガガやケイティ·ペリーのためにそう この場合、私はガガを参照してください。 一度、ケイティ·ペリー回。 

ガガのためにそのように基本的には事前分布 とケイティ·ペリーの場合と ちょうど、1であること？ あなたはどれだけ多くの回数 私は芸術家を参照してください。 だから、これは計算することは非常に簡単です。 私はIF」などのような似ただけで何かをすることができ 事前分布での歌手は、「私は行くよ その事前分布ボックスに1を追加します。 "だから、「事前確率（歌う）" + = 1 "とし、"他 私は、「事前分布（歌手）するつもりです = 1。 "理にかなって？ 

だから、それが存在しない場合、私はちょうど置く 1のように、そうでなければ私はちょうど1を追加します。 [OK]を、だから今、すべて私がやり残していること また、ワードのそれぞれを追加している 確率。 だから私は何度もカウントする必要が 私は言葉のそれぞれを参照してください。 だから、僕は別のものをしなければならない 行のforループ。 

私がやろうとしていますので、最初のものです 歌手が既に持っているかどうかを確認 確率配列。 歌手にはないので、もし私がチェックしています 確率配列を持って、私はちょうどよ 彼らのために1を初期化しようとして。 それも、配列ではありません、申し訳ありませんが、 それは辞書だ。 だから、歌手の確率が起こっている オープン辞書であると、私はよ ちょうどそれのための辞書を初期化する。 OK？ 

そして今、私は実際にループのために何ができる '各単語を計算する 確率。 [OK]をクリックします。 それでは、私にできることは、forループである。 だから、僕は繰り返し処理をするつもりだ アレイ全体。 私はPythonでそれを行うことができますので、道 「範囲で私のために」である。 1から 私は2番目に起動するので、 要素最初の1であるからである 歌手名。 だから、1からまで ラインの長さ。 そして、私はそれが実際にから行くの範囲ないとき ここのような1からのLENへ ラインを引いた1。 だから、すでにやってのことを行います 非常にあるアレイ用のNマイナス1 便利な。 理にかなっている？ 

したがって、これらのそれぞれについて、どのような私はするつもりです やるだけ他の1のように、ある この中の単語かどうかは確認するつもりだ 行の位置がすでにある 確率。 そして私は確率は、ここに述べたように 言葉は、のように私は置く 「確率（歌手）」。 歌手の名前がそう。 だから、すでにいた場合 「probabilit（歌手）」、それはつまり、私 それに1を追加したいので、私はするつもりだ 「確率（歌手）」を行って、 ワードは "行（I）」と呼ばれています。 私はちょうど私1を追加しようと「それ以外」だ 1に初期化しようとして。 「ライン（I）」。 理にかなっている？ 

だから、私はすべてのアレイを計算した。 だから、今、すべて私がしなければならないこと この1は単に「事前分布を返されて、 確率と単語 "レッツ [OK]を、任意のがあるかどうかを確認。 それはすべてがこれまでに取り組んでいるようです。 だから、それは理にかなっている？ 何らかの方法で？ [OK]をクリックします。 だから今、私はすべての確率を持っている。 だから今、私は残っている唯一のこと まさにそのことを持つことであること すべての積を計算します 私は歌詞を取得するときに確率。 

それでは、私は今、電話をかけたいとしましょう この機能は、「分類（）」と 事その関数が取る ただ引数です。 それでは「赤ちゃんは、私は燃えています」としましょう​​、それはだ 何であるかを把握しようとして これはガガである確率？ 確率とは何ですか これはケイティであること？ いいですね？ だから、僕は作成する必要がありますするつもりだ と呼ばれる新しい機能」（分類）」と それはいくつかを取ることになるだろう 歌詞にも。 歌詞に加えて私はまた、 事前分布を送信する必要があり、 確率との言葉。 だから私は歌詞、事前分布を送信するつもりだ、 確率、言葉。 

だから、これは歌詞、事前分布を取っている、 確率、言葉。 だから、それは何をするのでしょうか？ それは基本的にすべてを通過しようとしている 可能性のある候補があること 歌手として持っている。 どこでこれらの候補者は何ですか？ 彼らは正しい、事前分布にいる？ だから私はそこに、それらのすべてを持っている。 だから私は辞書を持っているつもりだ すべての可能な候補者の。 し、各候補者のためにある 事前分布するので、それがために起こっていることを意味します 私が持っていた場合·ガガ、ケイティも より多くの、よりになります。 私は計算を開始するつもりだ この確率。 私たちが見たように、確率 PowerPointは前回です それぞれの積 他の確率。 

だから私はここで同じことを行うことができます。 私はちょうど確率は行うことができます 最初は直前に。 候補者の事前確率はそう。 右？ そして今、私はすべてを反復しなければならない 私はあると歌詞を持っている言葉 確率を追加することができ [OK]を、それらの各々のために？ だから、「歌詞の中の単語の「私は行くよ何 単語がでている場合行うには、ある 「確率（候補）」、その それは、Wordのことを意味し 候補者は彼らの歌詞があります -  ガガについては、例えば、 "赤ちゃん"  -  私は何をするつもりだと、ということです 確率を掛けたことになるだろう 1による確率プラス その単語の候補。 そして、それは、「ワード」と呼ばれています。 これは、単語の数で割っ 私はその候補者のために持っていること。 私が持っている単語の総数 私が見ている歌手のために。 

「エルス」。それは新しい単語であることを意味 ので、例えばのようになるだろう レディー·ガガは「火」。 だから私は、わずか1をやってみたい 「ワード（候補）」。 だから私はここでこの用語を置きたくない。 

だから、基本的になるだろう コピーとこれを貼り付ける。 しかし、私はこの部分を削除するつもりです。 だから、ちょうどそれ以上の1になるだろう。 いいですね？ そして今、最後に、私はするつもりだ 候補者の名前を印刷し、 あなたが持っている確率 それらの歌詞にSを有する。 理にかなっている？ そして、私は実際にもないん この辞書を必要としています。 理にかなっている？ 

だから、これは実際に動作するかどうかを見てみましょう。 私はこれを実行するのであれば、それはうまくいきませんでした。 1秒待ちます。 「言葉（候補）」、「単語（候補）」、 それはです 配列の名前。 [OKだから、それはいくつかのバグがあると言っている 事前分布における候補者のために。 私はほんの少し冷やしてみましょう。 [OK]をクリックします。 試してみましょう。 [OK]をクリックします。 

だから、ケイティ·ペリーがこれを持って提供します この10倍の確率 マイナス7とガガはこれを持って マイナス6回10。 だから、それがそのガガを示しています参照してください。 より高い確率を有する。 そうです "ベイビー、私は燃えてんだ」 おそらくガガの歌。 理にかなっている？ だから、これは我々がやったことです。 

このコードは、オンラインで公開されようとしている、 そうあなたたちはそれをチェックアウトすることができます。 たぶん、あなたがしたい場合は、のためにそれのいくつかを使用 プロジェクトまたは似たようなことを。 [OK]をクリックします。 これはちょうど示すことであった どのような計算 言語学のコードは次のように見えます。 しかし、今度は、それ以上に行ってみよう 高レベルのもの。 [OK]をクリックします。 

だから、他の問題は、私 について話していた -  セグメンテーション問題 そのうちの最初のものです。 だから、ここに日本を持っています。 そして、あなたはいることがわかり はスペースはありません。 だから、これは基本的にそれはだことを意味している 椅子の上、右？ あなたが日本語を話す？ それは右、椅子の上か？ 

学生：私は何かわからない 漢字はあそこです。 

LUCASフレイタス：それは[日本語を話す]だ [OK]をクリックします。 だから、基本的には、トップの椅子を意味します。 ですから、スペースを入れていた場合は、 それはここになります。 そして、あなたは[持っている？上田さん。 ？] その基本的には上田氏のことである。 そして、あなたは「上田」とあなたが持っていることがわかります スペースとし、 "さん。"だから、ことがわかります ここでは「UE」は、それ自体でのようなものです。 そしてここでは、文字を持っている それに隣接しています。 

だから、これらの言語ではないようです あなたので単語、それを意味の文字 ただ、スペースの多くを置く。 文字は相互に関連する。 そして、彼らは一緒にすることができます 二、三、のような。 だから、実際にはいくつかの種類を作成する必要が これらのスペースを置くことの道の。 

そしてこのことは、あなたが得るときはいつでもということです これらのアジアの言語からのデータを、 すべてがセグメント化されていない来る。 日本を書き込み誰理由 または中国人はスペースで書き込みます。 あなたは中国を書いているときはいつでも、 日本のあなただけのすべてを書く スペースを入れずに。 それも意味がありません スペースを入れて。 そう、あなたはからデータを取得するときに、いくつかの あなたがしたい場合は、東アジア言語、 実際にそれと何かをする あなたが最初のセグメントする必要があります。 

の例を行うのではと思います スペースなしの歌詞。 だから、あなたが持っている唯一の歌詞 右、文章になりますか？ ピリオドで区切られた。 しかし、ちょうど文意志を持つ 本当に情報を与えることで助けない これらの歌詞による誰であるの。 右？ だから、最初に空白を置く必要があります。 それでは、どのようにそれを行うことができますか？ 

それでは、言語のアイデアが来る 本当に何かですモデル 計算のために重要 言語学。 そのように言語モデルは、基本的に ことを示してい確率のテーブル 確率とは何か、まず 言語の単語を持っていることの？ そう言葉がどのように頻繁に示している。 そして、その後も関係を示す 文中の単語間。 

見知らぬ人が来たのであれば主なアイデアは、ある あなたとの文に言ったまで 確率のため、というものであるあなた、 例では、「これは私の妹である[？GTF "？] 人が言ったことを文でしたか？ だから、明らかにいくつかの文章があります 他のものよりも一般的。 たとえば、「おはよう」や「良い 夜は、「または」は、ちょっと "だけではありません 最も文章よりも一般的な 私たちは英語を持っていること。 では、なぜこれらの文章がある より頻繁な？ 

あなたが持っているので、まず第一に、それはだ より頻繁に言葉。 あなたが言うのであれば、例えば、犬がある 大きな、そして犬は、巨大です 通常はおそらく大きい犬を聞く より頻繁に "大きな"がよりあるので、 より英語で頻繁に「巨大」。 そのように、一つ 物事は単語の頻度である。 

実際に二つ目 重要なのは、単にある 単語の順番。 だから、それは猫である」と言うのが一般的です 。箱の中」はできますが、通常はない 「内側のボックスは猫である」に表示そう あなたには、いくつかの重要性があることを参照してください。 言葉のためである。 あなただけの言うことができないもの2 フレーズは、同じ確率を有する 彼らは同じ言葉を持っているという理由だけで。 実際には気にする必要があります 順序についても同様。 理にかなって？ 

だから我々は何をしますか？ だから、私はあなたを取得しようとするのでしょうか？ 私はあなたが私たちを取得しようとしている nグラムモデルを呼び出します。 そのようにnグラムモデルは、基本的に想定し その各単語のこと あなたが文を持っている。 それが有する確率だと 言葉だけでなくそこに依存します 言語でその単語の頻度、 だけでなく、言葉でその それを囲むれる。 

ですから、例えば、通常、あなたが見るとき またはあなたがしている時のようなもの おそらく見に行く それの後に名詞、右？ なぜならあなたは前置詞を持っているとき 通常、それは後に名詞を取ります。 それとも、他動詞である動詞を持っている場合 通常は、しようとしている 名詞句があります。 だから、名詞を持っているために起こっている その周りのどこか。 

だから、基本的には、どのようなそれがないと、それがあることである 有する確率を考慮し つまり隣同士に、とき あなたが計算している センテンスの確率。 そして、それはどのような言語だ モデルは基本的に。 ただ確率何と言って 特定のを持っていることの 言語の文？ では、なぜそれが基本的には、役立ちましたか？ そして、すべての最初のものです nグラムモデルは、？ 

そのようにnグラムモデルは、意味 各単語が依存 次のNマイナス1言葉。 したがって、基本的に、それは私が見ればことを意味し、 例えば、CS50のTFのとき Iは、確率を計算するよ 文は、次のようなことでしょう」 単語 ""を有する確率 回」を有する確率 CS50」時代有する確率 「CS50タスクフォース。 "だから、基本的に、私は数え それを延伸するすべての可能な方法。 

した後、通常はこれをやっているときに、 プロジェクトのように、あなたがなるように、Nを入れる 低い値。 だから、通常はバイグラムまたは卦を持っている。 あなただけの二つの言葉は、Aを数えるように 2ワード、3単語のグループ、 単にパフォーマンスの問題のために。 またので、多分あなたが持っている場合 のようなもの "CS50タスクフォース。"ときに、 持っている「TFを "と、それは非常に重要だということ 「CS50は「右、それに隣接しています？ これら二点は、通常、 隣同士に。 

あなたが考える場合は「TF、​​ "それはおそらく 何を持っているつもり それがためにTF'ingだクラス。 また、 ""は本当に重要です CS50タスクフォースのため。 しかし、あなたは「CS50のようなものを持っている場合 タスクフォースは、クラスに行って、自分のを与えた 学生お菓子」「キャンディ」と「」 右、本当に関係ない？ 彼らはお互いにそう遠くだ それは実際にどのような問題ではありません あなたが持っている言葉。 

そうバイグラムまたはトライグラムにすることで、 ちょうどあなたが制限していることを意味します 自分自身いくつかの単語に そのまわりにある。 理にかなって？ ですから、セグメンテーションを行いたい場合には、 基本的に、何をあなたがしたいことを参照してくださいです すべての可能な方法はどのようなものであることを あなたは、セグメントの文章をことができます。 

あなたが何であるかを見ているような これらのフレーズの各々の確率 言語で、既存の？ それでは、あなたが行うことは、十分に、しましょう​​、のようなものです 私はここにスペースを入れてみてください。 だから、そこにスペースを入れて あなたが何であるかを参照してください。 その文の確率？ その後、多分、[OK]を、のようなもの それはよくありませんでした。 だから私はそこにスペースとスペースを入れる そこに、あなたが計算 確率今、あなたがいることがわかり それは高い確率だ。 

だから、これはタンゴと呼ばれるアルゴリズムである あるセグメント化アルゴリズム、 実際には本当になると何か これは、プロジェクトのために冷却する 基本的にセグメント化されていないテキストをとる 日本語や中国語または多分することができます 英語領域を使わないとputしようとします 言葉とそれがない間のスペース 言語モデルを用いて、そのかつ 最高であるかを確認しようとしてい あなたが得ることができる確率が高くなる。 [OK]をクリックします。 だから、これはセグメント化である。 

今構文。 だから、構文は次のとおりに使用されている 今たくさんのこと。 グラフ検索のため、シリ用のためにそう 自然のほとんどすべての種類 あなたが持っている言語処理。 とても重要なことである 構文についての事？ だから、一般的に文章が持っている 私たちは、構成要素と呼んでいるもの。 どの種類の言葉のグループのようなもの 文中の機能を有すること。 そして、彼らは本当にすることはできません 互いに離れて。 

私が言うのであれば、例えば、「ローレンは大好き ミロ。ローレン」が「私がいることを知っている " 構成要素とし、 "愛 ミロ "も別の1つです。 あなたは「ローレン·ミロのように言うことができないので、 同じ意味を持つこと」が大好き。 それは持っているつもりはない 同じ意味。 または私はミロローレン "のように言うことができない 愛している "すべてが同じを持っていない それをやって意味。 

だから、約2もっと重要なことは、 構文は次のとおりです。字句タイプです 基本的に、関数 自らの言葉を持っている。 だから、あなたが知っている必要があること」ローレン」 と "ミロ"は名詞である。 "愛"は動詞である。 そして第二の重要なことは 彼らは句のタイプだということ。 だから、「ミロを愛する」ことを知っている 実際に動詞句である。 だから私は、私がいることを知っている "、ローレン"と言うとき、 ローレンは、何かをしている。 彼女は何をやっている？ 彼女はミロを愛するだ。 だから、全体のことだ。 しかし、その構成要素である 名詞と動詞。 しかし、一緒に、彼らは動詞句を作る。 

だから、私たちは実際に何ができる 計算言語学？ だから、私は何かを持っている場合は 「アリソンの友人。 "私が表示された場合、私だけ 構文木は、私が知っているだろうなかったこと 「友人は「それが名詞句である 「アリソンの「それから名詞とは 「の」の前置詞句がある 命題と "アリソン"は名詞である。 私は何ができることは、私のコンピュータを教えるです その私が名詞句1を持っているとき その後、前置詞句。 の "その後、この場合は、「友人」だからと ミロ「私はこれがあることを意味していることを知っている NP2は​​、第1には、NP1を所有しています。 

だから私は関係のいくつかの種類を作成することができ、 それのための機能のいくつかの種類。 だから私は、この構造を見るたびに、その の友人」と正確に一致する アリソンは、「私が知っているアリソン 友人が所有しています。 だから友達が何かある アリソンは、持っていること。 理にかなっている？ だから、これは基本的には何ですか グラフ探索していますか。 それだけで、ルールを作成します。 多くのことのために。 だから、「アリソンの友人」「私の友人 私の友人は「 "ケンブリッジ、誰が住んでいる ハーバード大学に行く人。「それは、ルールを作成し、 それらのもののすべてのため。 

今機械翻訳。 そのため、機械翻訳でもある 統計的なもの。 そして、実際にあなたがに巻き込ま場合は、 計算言語学、多くの 自分のものは、統計になるだろう。 私は、との例をしていたように 私がいた確率がたくさん 計算した後、あなたはこのに行く 最終の非常に少ない数 確率、それが何 あなたの答えを与える。 機械翻訳にも使用しています 統計モデル。 そして、あなたは、マシンを考えたい場合 最も単純な内訳 方法は、あなたが考えることができることだけである 右、単語、単語を翻訳？ 

あなたが使用する言語を学習しているときは 初めて、それは通常、何 あなたは正しい、のですか？ あなたがしたい場合は、センテンスを翻訳 言語にあなたの言語で あなたは、通常、最初に、学習している 各単語を翻訳 個別に、次にあなたがしよう 所定の場所に言葉を入れて。 

だから、私はこれを翻訳したい場合、 [ポルトガル語を話す] 「白猫が逃げた。」を意味する 私はからそれを変換したい場合 英語からポルトガル、どのような私 何ができる私は、まず、 ワード単位で変換します。 そのように「○」は「猫 ""、 ""ガトー」である 「ブランコ」、「白」、次に「fugio」です 「逃げた。 " 

だから、私は、ここにすべての単語を持っている しかし、彼らは順番ではありませんね。 それは、 "猫の白が逃げた」ようなものだ これは非文法的である。 だから、私は第二段階を持つことができる 理想的なの発見されようとしている 各単語のための位置。 だから私は、私が実際にしたいことを知っている 「白猫 "の代わりに"猫の白。 "そう 私ができることは、最も単純な方法であり、 すべて作成することです の可能な順列 ポジションの言葉。 して、1が持っているかを確認 最も高い確率に従って 私の言語モデルに。 そして、私が持っているものを見つけるとき で最も高い確率IT、 おそらく「白猫は、逃げた " それが私の訳です。 

そして、これは説明の簡単な方法です どのように機械翻訳の多く アルゴリズムが働く。 それは理にかなっていますか？ また、これは本当にエキサイティングなものである あなたたちは、おそらくのために探索することができていること 最終的なプロジェクト、ええ？ 

学生：さて、あなたはそれがあったと述べ 素朴な方法なので、何が 非素朴な方法？ 

LUCASフレイタス：非素朴な方法？ [OK]をクリックします。 約悪いので、まず最初に この方法では、私はちょうど翻訳ということです つまり、言葉による言葉。 しかし、時にはあなたは言葉を持っている 複数の翻訳を持つことができます。 私が考えて試してみるつもりだ 何か。 ポルトガルCANの例では、 "マンガ" も「マングル」または「スリーブ」のどちらかそう あなたは単語を翻訳しようとしているとき 言葉で、それはあなたを与える可能性があります 意味がありません何か。 

だから、実際にはまったく見てあなたにしたい の可能な翻訳 単語や参照、まず第一に、 オーダーは何ですか。 私たちは、並べ替えるを話していた 物事？ 可能なすべての注文を参照して、 最高のものを選ぶ 確率？ また、すべての可能なを選択することができます それぞれの翻訳 単語として参照してください -  順列と組み合わせ -  その1は、最も高い確率を持っています。 

さらに、あなたもしないで見ることができる 単語だけが、フレーズ。 だから、間の関係を分析することができます 言葉、次に取得 より良い翻訳。 また、何か他のものなので、今学期 私は実際に研究をしています 中国語 - 英語機械翻訳、 これから翻訳 英語に中国人。 

そして我々は何かが使用する以外、ある ただで統計モデル、 見ての確率を見て 文中のある位置、私は 実際にも、私のためにいくつかの構文を追加する モデル、私はこの種を見れば、ああ、言って 建設した、これは私が欲しいものである 私が翻訳したときにそれを変更します。 だから、あなたはまた、いくつかの種類を追加することができます 確認するための構文の要素 翻訳をより効率的 より正確な。 [OK]をクリックします。 

あなたが望むのであれば、あなたは、どのように始めることができます 計算で何かをする 言語学？ 

まず、プロジェクトを選択 つまり、言語を必要とする。 だから、そこに非常に多くのがあります。 あなたが行うことができますので、多くのことがあります。 し、モデルと考えることができます あなたが使用できる。 通常、それはの思考を意味し 仮定、私がいたとき、ああ、など 歌詞を考えよう。 私が理解したい場合、私は、よく、のようだった これを書いた人を、私はおそらくしたい 使用された単語を見て、人と 非常に多くの場合、その単語を使用しています誰が参照してください。 そう仮定を作ってみると、 モデルを考えてみてください。 そして、あなたはまた、オンラインで検索することができます あなたが持っている問題の種類、 それが示唆するようになるだろう 多分あなたのモデルに よくそのことをモデル化した。 

そしてまた、あなたはいつも私を電子メールで送信できます。 me@lfreitas.com。 と私はあなたの質問に答えることができます。 我々はそうであっても私ができる会うかもしれないことができます の方法についての提案を与える プロジェクトを実施する。 あなたと巻き込まあれば私は意味 計算言語学、それが起こっている 素晴らしいことです。 あなたはそこに見ることになるだろう そんなに可能性がある。 そして業界が雇用を希望 そのための、あなたが悪い。 だから私はあなたたちがこれを楽しんでほしい。 君たちは不明な点がございましたら、 あなたは、この後に私に尋ねることができます。 しかし、あなたに感謝します。