1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCASフレイタス:ちょっと。 3 00:00:08,870 --> 00:00:09,980 すべての人を歓迎します。 4 00:00:09,980 --> 00:00:11,216 私の名前はルーカスフレイタスです。 5 00:00:11,216 --> 00:00:15,220 私は勉強[聞こえない]の3年生だ 内を中心としたコンピュータサイエンス 6 00:00:15,220 --> 00:00:16,410 計算言語学。 7 00:00:16,410 --> 00:00:19,310 だから私の二言語である および言語理論。 8 00:00:19,310 --> 00:00:21,870 私はあなたたちを教えるのは本当に興奮している フィールドについて少し。 9 00:00:21,870 --> 00:00:24,300 それは勉強する非常にエキサイティングなエリアです。 10 00:00:24,300 --> 00:00:27,260 また、多くの可能性と 将来のために。 11 00:00:27,260 --> 00:00:30,160 だから、私は本当に興奮していることをあなたたち プロジェクトを検討している 12 00:00:30,160 --> 00:00:31,160 計算言語学。 13 00:00:31,160 --> 00:00:35,460 そして、私は助言するよりも幸せになるでしょう あなたの任意のあなたがすることを決定した場合 14 00:00:35,460 --> 00:00:37,090 それらのいずれかを追求しています。 15 00:00:37,090 --> 00:00:40,010 >> 計算が何であるか、すべてのそのように最初の 言語学? 16 00:00:40,010 --> 00:00:44,630 そう計算言語学である 言語学との交点 17 00:00:44,630 --> 00:00:46,390 コンピュータサイエンス。 18 00:00:46,390 --> 00:00:47,415 だから、言語学とは何でしょうか? 19 00:00:47,415 --> 00:00:48,490 コンピュータサイエンスとは何ですか? 20 00:00:48,490 --> 00:00:51,580 さて言語学から、どのような 我々は言語である取る。 21 00:00:51,580 --> 00:00:54,960 だから、言語学は実際に研究である 一般的に、自然言語の。 22 00:00:54,960 --> 00:00:58,330 だから、自然言語 - 我々は話を 私たちが実際に使用している言語 23 00:00:58,330 --> 00:00:59,770 相互に通信します。 24 00:00:59,770 --> 00:01:02,200 だから我々は正確に話していない CやJavaについて。 25 00:01:02,200 --> 00:01:05,900 私たちは、英語とについての詳細を話している その我々の中国と他の言語 26 00:01:05,900 --> 00:01:07,780 互いに通信するために使用します。 27 00:01:07,780 --> 00:01:12,470 >> そのことについて挑戦的なことは、 今、我々は持っている、ほとんど7000 28 00:01:12,470 --> 00:01:14,260 世界の言語。 29 00:01:14,260 --> 00:01:19,520 だから、かなり高いものが用意されてい 我々は勉強できる言語の。 30 00:01:19,520 --> 00:01:22,600 そして、あなたはそれはおそらくだと思う 行うのは非常に難しい、例えば、 31 00:01:22,600 --> 00:01:26,960 1つの言語からの翻訳 その他、あなたが持っていることを考えると 32 00:01:26,960 --> 00:01:28,240 ほぼ7000そのうち。 33 00:01:28,240 --> 00:01:31,450 だから、あなたは翻訳を行うのではと思われる場合 1言語から他のお客様へ 34 00:01:31,450 --> 00:01:35,840 万人のほぼ多くを持っている そのあなたができるさまざまな組み合わせ 35 00:01:35,840 --> 00:01:37,330 言語から言語する必要があります。 36 00:01:37,330 --> 00:01:40,820 だから、実際にいくつかを行うには挑戦的 たとえば翻訳システムの種類 37 00:01:40,820 --> 00:01:43,540 一つ一つの言語。 38 00:01:43,540 --> 00:01:47,120 >> 構文を持つので、言語学のおやつ、 意味論、語用論。 39 00:01:47,120 --> 00:01:49,550 あなたたちは正確にする必要はありません 彼らが何であるかを知っている。 40 00:01:49,550 --> 00:01:55,090 しかし、非常に興味深いのは、ということです あなたが学ぶネイティブスピーカー、など 41 00:01:55,090 --> 00:01:59,010 子供の言語、実際に学ぶ それらのもののすべて - 構文のセマンティクス 42 00:01:59,010 --> 00:02:00,500 と語用論 - 43 00:02:00,500 --> 00:02:01,430 自分で。 44 00:02:01,430 --> 00:02:04,820 そして誰ものためのあなたの構文を教えるために持っていません あなたは文章であるかを理解するために 45 00:02:04,820 --> 00:02:05,290 構造化。 46 00:02:05,290 --> 00:02:07,980 だから、それは本当に面白いですので、 それは非常に来るものだ 47 00:02:07,980 --> 00:02:10,389 直感的に。 48 00:02:10,389 --> 00:02:13,190 >> そして、あなたは何を取っている コンピュータサイエンス? 49 00:02:13,190 --> 00:02:16,700 我々だけでなく、最も重要なこと コンピュータサイエンスを持っていることの最初のものです 50 00:02:16,700 --> 00:02:19,340 すべて、人工知能 機械学習。 51 00:02:19,340 --> 00:02:22,610 そこで、我々はそうしようとしているもの 計算言語学ティーチです 52 00:02:22,610 --> 00:02:26,990 お使いのコンピュータに何かをする方法 言語と。 53 00:02:26,990 --> 00:02:28,630 >> したがって、たとえば、機械で 翻訳。 54 00:02:28,630 --> 00:02:32,490 私はどのように自分のコンピュータを教えることをしようとしている 1へ遷移する方法を知っている 55 00:02:32,490 --> 00:02:33,310 他の言語。 56 00:02:33,310 --> 00:02:35,790 したがって、基本的に教えるような コンピュータ2の言語。 57 00:02:35,790 --> 00:02:38,870 私は、自然言語処理を行う場合、 例についてはそうである 58 00:02:38,870 --> 00:02:41,810 あなたが教えるFacebookのグラフを検索、 お使いのコンピュータ方法を理解する 59 00:02:41,810 --> 00:02:42,730 よくクエリ。 60 00:02:42,730 --> 00:02:48,130 >> だから、あなたは「私の写真を言えば 友人は「Facebookは扱わない 61 00:02:48,130 --> 00:02:51,130 持って全体を文字列として 単語のちょうど束。 62 00:02:51,130 --> 00:02:56,020 これは、実際の関係を理解し​​て 「写真」と「私の友人」との間で 63 00:02:56,020 --> 00:02:59,620 「写真」であることを理解している のプロパティ "私の友人。" 64 00:02:59,620 --> 00:03:02,350 >> だから、それは、例えば、の一部である 自然言語処理。 65 00:03:02,350 --> 00:03:04,790 それは何を理解しようとしている との間の関係である 66 00:03:04,790 --> 00:03:07,520 文中の語。 67 00:03:07,520 --> 00:03:11,170 そして大きな問題は、次のことができている 話すことをどのようにコンピュータを教える 68 00:03:11,170 --> 00:03:12,650 一般的に言語? 69 00:03:12,650 --> 00:03:17,810 非常に興味深い質問へである 将来的には多分あるかのように、考えて、 70 00:03:17,810 --> 00:03:19,930 次のことができるようにするつもりだ あなたの携帯電話に話す。 71 00:03:19,930 --> 00:03:23,290 種類の我々はシリに何をすべきかに似ていますが、 より多くの何かのように、あなたが実際にすることができ 72 00:03:23,290 --> 00:03:25,690 好きなことを言うと電話 すべてを理解しようとしている。 73 00:03:25,690 --> 00:03:28,350 そして、それが質問にフォローアップすることができ と話を続ける。 74 00:03:28,350 --> 00:03:30,880 それは本当にエキサイティングなものですが、 私の意見で。 75 00:03:30,880 --> 00:03:33,070 >> だから、自然言語について何か。 76 00:03:33,070 --> 00:03:36,220 本当に面白いもの 自然言語は、であり、これは 77 00:03:36,220 --> 00:03:38,470 私の言語学教授の功績によるもの、 マリア·ポリンスキー。 78 00:03:38,470 --> 00:03:40,830 彼女は例を与え、私は思う それは本当に面白いです。 79 00:03:40,830 --> 00:03:47,060 私たちはいつから言語を学ぶので、 我々は我々のネイティブその後生まれている 80 00:03:47,060 --> 00:03:49,170 言語は一種の私たちに成長する。 81 00:03:49,170 --> 00:03:52,570 >> そして基本的には、言語を学ぶ 最小限の入力から、右? 82 00:03:52,570 --> 00:03:56,700 あなたは自分からの入力を取得している お使いの言語が鳴るものの両親 83 00:03:56,700 --> 00:03:58,770 のような、あなたはそれを学ぶ。 84 00:03:58,770 --> 00:04:02,240 あなたが見ればのでそう、それは面白いです これらの文章で、例えば。 85 00:04:02,240 --> 00:04:06,980 あなたが見て、「メアリーは、すべてのコートの上に置いて 彼女は家を出る時間」 86 00:04:06,980 --> 00:04:10,650 >> この場合には、持っている可能性があります 単語 "彼女は「右、メアリーを参照してください? 87 00:04:10,650 --> 00:04:13,500 あなたは、「メアリーはコートの上に置いて言うことができます メアリーは葉毎回 88 00:04:13,500 --> 00:04:14,960 家。「だから、大丈夫です。 89 00:04:14,960 --> 00:04:19,370 しかし、あなたが文を見れば 「彼女は、メアリーのコート上のすべての時間を置く 90 00:04:19,370 --> 00:04:22,850 家を離れた。「あなたはそれがあることを知っている "彼女"であることを言うことは不可能 91 00:04:22,850 --> 00:04:24,260 メアリーを参照。 92 00:04:24,260 --> 00:04:27,070 >> メアリーは置く」というの方法はありません コー​​ト上のすべての時間メアリーの葉 93 00:04:27,070 --> 00:04:30,790 家は。」だから、面白いだから これは直感のようなものです。 94 00:04:30,790 --> 00:04:32,890 すべてのネイティブスピーカーが持っていること。 95 00:04:32,890 --> 00:04:36,370 そして誰もが、これがあることを教えられなかった 構文の動作方法。 96 00:04:36,370 --> 00:04:41,930 そして、あなたは、この "彼女"を持つことができること この最初のケースではメアリーを参照すると、 97 00:04:41,930 --> 00:04:44,260 そして実際にこの他にある あまりにもではなく、この1中。 98 00:04:44,260 --> 00:04:46,500 しかし、誰もがこの種の取得 同じ答えに。 99 00:04:46,500 --> 00:04:48,580 誰もがその上で同意します。 100 00:04:48,580 --> 00:04:53,280 だから、どのようにが、本当に面白いです あなたはすべてのルールを知らない 101 00:04:53,280 --> 00:04:55,575 あなたの言語では、種類の理解 言語がどのように機能する。 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> とても自然で興味深い 言語は、あなたがする必要がないことです 104 00:05:01,530 --> 00:05:06,970 知っている任意の構文を知っていれば、文 のための文法的あるいは非文法的である 105 00:05:06,970 --> 00:05:08,810 ほとんどの場合。 106 00:05:08,810 --> 00:05:13,220 あなたはと思わせるものかもしれないものを 起こることは、あなたは、あなたの人生を介して行われ 107 00:05:13,220 --> 00:05:17,410 ただ、より多くを得ておく 文章はあなたに語った。 108 00:05:17,410 --> 00:05:19,800 そして、あなたは覚えておく 文章がすべて表示されます。 109 00:05:19,800 --> 00:05:24,230 して、誰かがあなたに伝えたとき 何か、あなたがその文を聞き、 110 00:05:24,230 --> 00:05:27,040 あなたの語彙を見て 文章のと表示された場合 111 00:05:27,040 --> 00:05:28,270 その文があります。 112 00:05:28,270 --> 00:05:29,830 そして、それはそこにある場合 それは文法的だと言う。 113 00:05:29,830 --> 00:05:31,740 そうでない場合は、それがだと言う 非文法的。 114 00:05:31,740 --> 00:05:35,150 >> だから、その場合、あなたは、ああ、と言うでしょう だから、すべての巨大なリストを持っている 115 00:05:35,150 --> 00:05:36,140 可能な文章。 116 00:05:36,140 --> 00:05:38,240 してから、文を聞いたとき、 それは文法的だかどうかは知っている 117 00:05:38,240 --> 00:05:39,450 それに基づいていない。 118 00:05:39,450 --> 00:05:42,360 ことは、あなたが見れば、ということです 文章、例えば、「 119 00:05:42,360 --> 00:05:47,540 5頭CS50のTFは盲目の調理 DAPAマグを使ってタコ。「イッツ· 120 00:05:47,540 --> 00:05:49,630 絶対にない文 あなたが前に聞いた。 121 00:05:49,630 --> 00:05:52,380 しかし同時にそれは知っている 右、文法的なほとんど? 122 00:05:52,380 --> 00:05:55,570 文法的に間違いはありません あなたが言うことができる 123 00:05:55,570 --> 00:05:57,020 それは可能文です。 124 00:05:57,020 --> 00:06:01,300 >> だから、私たちは、その実際に考えさせる 我々は言語を習得する方法だけではありません 125 00:06:01,300 --> 00:06:07,090 可能性の巨大なデータベースを有することにより、 単語や文章が、より多くの 126 00:06:07,090 --> 00:06:11,490 との関係を理解すること これらの文章中の単語。 127 00:06:11,490 --> 00:06:14,570 それは理にかなっていますか? 128 00:06:14,570 --> 00:06:19,370 だから、その後の質問は、することができますです コンピュータは、言語を学ぶのか? 129 00:06:19,370 --> 00:06:21,490 私たちはコンピュータに、言語を教えることはできますか? 130 00:06:21,490 --> 00:06:24,230 >> それでは、違いを考えてみましょう 言語のネイティブスピーカーとの間に 131 00:06:24,230 --> 00:06:25,460 とコンピュータ。 132 00:06:25,460 --> 00:06:27,340 だから、何がスピーカーになりますか? 133 00:06:27,340 --> 00:06:30,430 さて、ネイティブスピーカーを学習 それへの暴露から言語。 134 00:06:30,430 --> 00:06:34,200 通常、その幼児年。 135 00:06:34,200 --> 00:06:38,570 したがって、基本的に、あなただけの、赤ちゃんを持っている そしてあなたはそれに話しておくと、それ 136 00:06:38,570 --> 00:06:40,540 ただ話す方法を学ぶ 言語、右? 137 00:06:40,540 --> 00:06:42,660 だから、あなたは基本的に与えている 赤ちゃんへの入力。 138 00:06:42,660 --> 00:06:45,200 だから、あなたが主張することができ、そのコンピュータ 右、同じことを行うことができますか? 139 00:06:45,200 --> 00:06:49,510 あなただけの言語を与えることができます コンピュータへの入力として。 140 00:06:49,510 --> 00:06:53,410 >> 例えばなどのファイルの束 英語の本を持っている。 141 00:06:53,410 --> 00:06:56,190 多分それはあなた1の方法だ おそらく教えることができる 142 00:06:56,190 --> 00:06:57,850 コンピュータ英語、右? 143 00:06:57,850 --> 00:07:01,000 実際には、あなたが考えてみれば、 それは多分カップルを移動します 144 00:07:01,000 --> 00:07:02,680 日本を読むこと。 145 00:07:02,680 --> 00:07:05,760 コンピュータにとっては、2番目を取る ブック内のすべての単語を見てください。 146 00:07:05,760 --> 00:07:10,810 だから、それがちょうどこのかもしれないと思うことができます あなたの周りからの入力引数、 147 00:07:10,810 --> 00:07:15,440 それはそれがだと言うには十分ではありません 人間だけが行うことができるもの。 148 00:07:15,440 --> 00:07:17,680 あなたはコンピュータを考えることができます また、入力を得ることができます。 149 00:07:17,680 --> 00:07:21,170 >> 2つ目はネイティブスピーカー また、持って脳を持っている 150 00:07:21,170 --> 00:07:23,870 語学学習機能。 151 00:07:23,870 --> 00:07:27,020 しかし、あなたが考えてみれば、 脳は立体物である。 152 00:07:27,020 --> 00:07:30,450 あなたが生まれている場合は、既に設定されている - 153 00:07:30,450 --> 00:07:31,320 これはあなたの脳です。 154 00:07:31,320 --> 00:07:34,660 あなたが育つようにと、あなただけの多くを得る 言語の入力と多分栄養素 155 00:07:34,660 --> 00:07:35,960 や他のもの。 156 00:07:35,960 --> 00:07:38,170 しかし、ほとんどあなたの脳 固体のものです。 157 00:07:38,170 --> 00:07:41,290 >> だから、まあ、あなたができる、と言うことができます の束を持ってコンピュータを構築 158 00:07:41,290 --> 00:07:45,890 ただ模倣する関数とメソッド 語学学習機能。 159 00:07:45,890 --> 00:07:49,630 だから、そういう意味では、私は、よく、言うことができる すべてされているコンピュータを持つことができます 160 00:07:49,630 --> 00:07:52,270 私は言語を習得する必要があるもの。 161 00:07:52,270 --> 00:07:56,200 そして最後の事はことをネイティブである スピーカーは、試行錯誤から学ぶ。 162 00:07:56,200 --> 00:08:01,090 そこで、基本的に別の重要なことにある 言語学習はあなた優しいということです 163 00:08:01,090 --> 00:08:05,340 作りで物事を学ぶ あなたが聞くものの一般化。 164 00:08:05,340 --> 00:08:10,280 >> あなたが育っているようにあなたがいることを学ぶ いくつかの単語は、より多くの名詞のようなもので、 165 00:08:10,280 --> 00:08:11,820 他のいくつかのものは形容詞です。 166 00:08:11,820 --> 00:08:14,250 そして、あなたはいずれかを持っている必要はありません 言語学の知識 167 00:08:14,250 --> 00:08:15,040 それを理解する。 168 00:08:15,040 --> 00:08:18,560 しかし、あなただけのいくつかの単語があると知っている の一部に配置されている 169 00:08:18,560 --> 00:08:22,570 文と他のいくつかの他のもの 文章の一部。 170 00:08:22,570 --> 00:08:26,110 >> そして、それは何かを行うときに 正しくない文のように - 171 00:08:26,110 --> 00:08:28,770 多分理由オーバー一般化 次に例を示します。 172 00:08:28,770 --> 00:08:32,210 あなたが成長しているときに、多分、あなたが気づく 複数形は通常であること 173 00:08:32,210 --> 00:08:35,809 のSを入れて形成された 単語の終わり。 174 00:08:35,809 --> 00:08:40,042 そして、あなたは、複数のをやろう 「鹿」や「歯」のように "鹿" 175 00:08:40,042 --> 00:08:44,780 「tooths。 "それでは、あなたの両親や 誰かがあなたを修正し、言ういいえ、 176 00:08:44,780 --> 00:08:49,020 「鹿」の複数形は「鹿」であり、 「歯」の複数形は「歯」です。その後 177 00:08:49,020 --> 00:08:50,060 あなたはそれらの事を学びます。 178 00:08:50,060 --> 00:08:51,520 だから、試行錯誤から学ぶ。 179 00:08:51,520 --> 00:08:53,100 >> しかし、あなたはまた、それを行うことができます コンピュータと。 180 00:08:53,100 --> 00:08:55,310 あなたはと呼ばれるものを持つことができます 強化学習。 181 00:08:55,310 --> 00:08:58,560 与えているようなものは基本的にある それがないときはいつでも、コンピュータの報酬 182 00:08:58,560 --> 00:08:59,410 正しく何か。 183 00:08:59,410 --> 00:09:04,710 それに報酬の反対を与える それが何か間違ったことをしたとき。 184 00:09:04,710 --> 00:09:07,410 あなたが実際にあれば、あなたが行くことがわかります Googleが翻訳し、あなたがしようとする 185 00:09:07,410 --> 00:09:10,220 センテンスを翻訳、それ フィードバックをお願いします。 186 00:09:10,220 --> 00:09:13,240 あなたが言うのであれば、ああ、良いがあります この文のための翻訳。 187 00:09:13,240 --> 00:09:18,140 その後、それを入力し、ことができれば、多くの 人々は、それが優れていると言っておく 188 00:09:18,140 --> 00:09:21,560 翻訳は、それだけで学習すること 代わりに、その変換を使用する必要があります 189 00:09:21,560 --> 00:09:22,960 それが与えていた1。 190 00:09:22,960 --> 00:09:28,830 >> だから、それは非常に哲学的な質問だ コンピュータがあることを行っているかどうかを 191 00:09:28,830 --> 00:09:30,340 将来的に話をしたりしないことができる。 192 00:09:30,340 --> 00:09:34,440 しかし、私は大きな期待を持って、彼らができることを ただ、これらの引数に基づいて。 193 00:09:34,440 --> 00:09:38,570 しかし、それは哲学のちょうどより多くの 質問。 194 00:09:38,570 --> 00:09:43,460 >> コンピュータはまだ話すことはできないがそう、 私たちにできる事は何ですか? 195 00:09:43,460 --> 00:09:47,070 いくつかの本当にクールなものがあります データ分類。 196 00:09:47,070 --> 00:09:53,210 そのため、たとえば、皆さんが知っている そのEメールサービスのために、何 197 00:09:53,210 --> 00:09:55,580 たとえば、スパムフィルタリング。 198 00:09:55,580 --> 00:09:59,070 ですから、それをスパムを受​​け取るたびに、 別のボックスにフィルタリングしようとします。 199 00:09:59,070 --> 00:10:00,270 だから、どのようにそれを行うのですか? 200 00:10:00,270 --> 00:10:06,080 これは、コンピュータだけで知っているようではありません どのような電子メールアドレスは、スパムを送信している。 201 00:10:06,080 --> 00:10:09,130 だから、それはより多くの内容に基づいている メッセージ、または多分タイトル、 202 00:10:09,130 --> 00:10:11,310 たぶん、あなたは持っているいくつかのパターン。 203 00:10:11,310 --> 00:10:15,690 >> だから、基本的に、何を行うことができますことは得ることである スパムである電子メールのデータが多く、 204 00:10:15,690 --> 00:10:19,980 スパムではないメール、および何を学ぶ あなたが持っているパターンの種類 205 00:10:19,980 --> 00:10:21,000 スパムであるもの。 206 00:10:21,000 --> 00:10:23,260 そして、これは、計算の一部である 言語学。 207 00:10:23,260 --> 00:10:24,720 これは、データ分類と呼ばれています。 208 00:10:24,720 --> 00:10:28,100 そして、我々は実際に見ることになるだろう 次のスライドでそれの例。 209 00:10:28,100 --> 00:10:32,910 >> 2つ目は、自然言語である そのことで、処理 210 00:10:32,910 --> 00:10:36,580 グラフ探索をさせるのでやっている あなたが文章を書く。 211 00:10:36,580 --> 00:10:38,690 そして、それはあなたが何を理解し信頼し 意味ですとなります 212 00:10:38,690 --> 00:10:39,940 もし良い結果。 213 00:10:39,940 --> 00:10:43,880 実際には、GoogleやBingに行けば あなたは女性のようなものを検索する 214 00:10:43,880 --> 00:10:47,060 ガガの高さは、あなたが実際に行っている 5 '1 "の代わりに情報を取得する 215 00:10:47,060 --> 00:10:50,170 それが実際に理解しているので、彼女から あなたは何を言っているのか。 216 00:10:50,170 --> 00:10:52,140 だから、自然の一部だ 言語処理。 217 00:10:52,140 --> 00:10:57,000 >> あるいはまた、あなたはまず、シリを使用しているとき あなたがしようとしたアルゴリズムを持っている 218 00:10:57,000 --> 00:11:01,130 何を言っている翻訳する 単語に、テキスト中。 219 00:11:01,130 --> 00:11:03,690 そして、それは変換しようと試み その意味に。 220 00:11:03,690 --> 00:11:06,570 だから、すべての自然の一部である 言語処理。 221 00:11:06,570 --> 00:11:08,320 >> その後、機械翻訳を持っている - 222 00:11:08,320 --> 00:11:10,300 実際に1である 私のお気に入りの - 223 00:11:10,300 --> 00:11:14,060 ちょうどから翻訳されている 別の言語。 224 00:11:14,060 --> 00:11:17,950 だから、あなたがやっているときに考えることができます 機械翻訳は、次のものが 225 00:11:17,950 --> 00:11:19,750 文章の無限の可能性。 226 00:11:19,750 --> 00:11:22,960 だから保存する方法はありません 一つ一つの翻訳。 227 00:11:22,960 --> 00:11:27,440 だから、面白い思い付くする必要があります アルゴリズムができるようにするには 228 00:11:27,440 --> 00:11:30,110 一つ一つを翻訳 何らかの方法で文。 229 00:11:30,110 --> 00:11:32,483 >> あなたたちは、これまで不明な点がある? 230 00:11:32,483 --> 00:11:34,450 なし? 231 00:11:34,450 --> 00:11:34,830 [OK]をクリックします。 232 00:11:34,830 --> 00:11:36,900 >> それでは、今日は見に行くのですか? 233 00:11:36,900 --> 00:11:39,300 まず第一に、私が話をするつもりです 分類問題。 234 00:11:39,300 --> 00:11:41,440 私がいたので、1 迷惑メールについて述べた。 235 00:11:41,440 --> 00:11:46,820 私は何をするつもりだと、歌詞を考えると、ある 歌には、次のように把握しようとすることができます 236 00:11:46,820 --> 00:11:49,810 高い確率で 歌手は誰ですか? 237 00:11:49,810 --> 00:11:53,590 のは、私は女性から曲を持っているとしましょう ガガとケイティ·ペリー、私はあなたを与える場合は、 238 00:11:53,590 --> 00:11:58,130 新しい曲は、あなたがどうかを把握することができます それはケイティ·ペリーやレディー·ガガの? 239 00:11:58,130 --> 00:12:01,490 >> 第1、私は話をするつもりだ セグメンテーション問題について。 240 00:12:01,490 --> 00:12:05,780 だから私は君たちが知っていれば知っているが、しないでください 中国語、日本語、他の東アジア 241 00:12:05,780 --> 00:12:08,090 言語、およびその他の言語 一般的に、持っていない 242 00:12:08,090 --> 00:12:09,830 単語間のスペース。 243 00:12:09,830 --> 00:12:13,540 そして、あなたはそのように考えてみれば しようとするのにコンピュータの種類 244 00:12:13,540 --> 00:12:18,600 自然言語処理を理解し、 それは言葉を見て、 245 00:12:18,600 --> 00:12:21,500 関係を理解し​​ようとします それらの間に、右か? 246 00:12:21,500 --> 00:12:25,440 しかし、あなたは、あなたが中国を持っている場合、および ゼロスペースを持って、それを使用するハードを本当にです 247 00:12:25,440 --> 00:12:28,360 との関係であるかを調べる 言葉、彼らはいずれかを持っていないため、 248 00:12:28,360 --> 00:12:29,530 最初は言葉。 249 00:12:29,530 --> 00:12:32,600 だからと呼ばれる何かをしなければならない ちょうど置くことを意味セグメンテーション 250 00:12:32,600 --> 00:12:36,490 我々は呼んでおきものとの間のスペース これらの言語の単語。 251 00:12:36,490 --> 00:12:37,740 理にかなって? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> そして、我々はするつもりだ 構文について話しています。 254 00:12:41,540 --> 00:12:44,050 自然についてとても少しだけ 言語処理。 255 00:12:44,050 --> 00:12:45,420 それはちょうど概観になるだろう。 256 00:12:45,420 --> 00:12:50,700 だから、今日、基本的に私は何をしたいのか みんなにあなたの少しを与えるされている 257 00:12:50,700 --> 00:12:53,930 可能性があるものの内部 あなたは、計算で行うことができます 258 00:12:53,930 --> 00:12:54,960 言語学。 259 00:12:54,960 --> 00:13:00,410 そして、あなたはあなたが何を考えて見ることができます これらのものの間でクールです。 260 00:13:00,410 --> 00:13:02,270 そして多分あなたはプロジェクトを考えることができます と私に話してくる。 261 00:13:02,270 --> 00:13:05,260 と私はあなたの助言を与えることができます それを実装する方法について。 262 00:13:05,260 --> 00:13:09,060 >> だから、構文は少しになるだろう グラフ探索と機械について 263 00:13:09,060 --> 00:13:09,670 翻訳。 264 00:13:09,670 --> 00:13:13,650 私は方法の例を与えるつもりだ あなたは、例えば、翻訳することができ 265 00:13:13,650 --> 00:13:16,020 英語からポルトガル語から何か。 266 00:13:16,020 --> 00:13:17,830 いいですね? 267 00:13:17,830 --> 00:13:19,293 >> したがって、最初、分類問題。 268 00:13:19,293 --> 00:13:23,590 私はセミナーのこの部分と言うでしょう 最も困難になるだろう 269 00:13:23,590 --> 00:13:27,560 1そこに起こっているという理由だけで いくつかのコーディングされるように。 270 00:13:27,560 --> 00:13:29,470 しかし、それは、Pythonになるだろう。 271 00:13:29,470 --> 00:13:34,380 私は、君たちがPythonを知らない知ら 私は高い所に説明するつもりです 272 00:13:34,380 --> 00:13:35,750 私がやっているレベルです。 273 00:13:35,750 --> 00:13:40,900 そして、あなたは本当にあまりにも気にする必要はありません それだから、構文について多く 274 00:13:40,900 --> 00:13:42,140 あなたたちが学ぶことができる何か。 275 00:13:42,140 --> 00:13:42,540 OK? 276 00:13:42,540 --> 00:13:43,580 旨そうだな。 277 00:13:43,580 --> 00:13:46,020 >> だから、分類問題とは何でしょうか? 278 00:13:46,020 --> 00:13:49,140 ですからをするためにいくつかの歌詞を与えられている 歌、そしてあなたが推測したい 279 00:13:49,140 --> 00:13:50,620 誰が歌っている。 280 00:13:50,620 --> 00:13:54,045 そして、これはどのような種類であることができる 他の問題。 281 00:13:54,045 --> 00:13:59,980 だから、例えば、あなたが持っていることができます 大統領選挙、あなたが持っている 282 00:13:59,980 --> 00:14:02,610 スピーチ、あなたが検索したい それがあった出た場合、例えば、 283 00:14:02,610 --> 00:14:04,470 オバマまたはミット·ロムニー。 284 00:14:04,470 --> 00:14:07,700 または、電子メールの束を持つことができ、 あなたは彼らがあるかどうかを把握したい 285 00:14:07,700 --> 00:14:08,890 スパムかどうか。 286 00:14:08,890 --> 00:14:11,440 だから、単にいくつかの分類だ 単語に基づいてデータ 287 00:14:11,440 --> 00:14:13,790 あなたがそこに持っている。 288 00:14:13,790 --> 00:14:16,295 >> そうこれを行うには、その必要はあり いくつかの仮定を行う。 289 00:14:16,295 --> 00:14:20,570 だから、計算言語学について多く 仮定を作っている、 290 00:14:20,570 --> 00:14:24,100 通常、スマートな仮定、その結果、 あなたは良い結果を得ることができます。 291 00:14:24,100 --> 00:14:26,670 それのためのモデルを作成しようとしている。 292 00:14:26,670 --> 00:14:31,290 そして、それを試してみるとそれが動作するかどうかを確認 それはあなたに良い精度が得られます。 293 00:14:31,290 --> 00:14:33,940 そして、それがない場合は、あなた それを改善してみてください。 294 00:14:33,940 --> 00:14:37,640 そうでない場合は、似ている、[OK]を、多分私 別の仮定をしなければならない。 295 00:14:37,640 --> 00:14:44,030 >> だから我々はするつもりだという仮定 作る芸術家は通常、歌うことです 296 00:14:44,030 --> 00:14:49,220 トピックについて複数回、多分 言葉だけを複数回使用しています 297 00:14:49,220 --> 00:14:50,270 彼らはそれに慣れているので。 298 00:14:50,270 --> 00:14:51,890 あなたは自分の友人と考えることができます。 299 00:14:51,890 --> 00:14:57,350 私はあなたたちのすべての友人を持っていると確信している それは彼らの署名フレーズを言って、 300 00:14:57,350 --> 00:14:59,260 文字通り一つ一つの文のための - 301 00:14:59,260 --> 00:15:02,660 いくつかの特定の単語やいくつかの特定のような 彼らが言うフレーズ 302 00:15:02,660 --> 00:15:04,020 一つ一つの文章。 303 00:15:04,020 --> 00:15:07,920 >> そして、何あなたが言うことができることが表示された場合ということです 署名を持っている文 304 00:15:07,920 --> 00:15:11,450 フレーズは、おそらくそれを推測することができます あなたの友達です 305 00:15:11,450 --> 00:15:13,310 1は右、それを言って? 306 00:15:13,310 --> 00:15:18,410 だから、という仮定を行ってから、 つまり、モデルの作成方法を説明します。 307 00:15:18,410 --> 00:15:24,440 >> 私は与えるつもりだ例がオンになっている どのようにレディー·ガガ、例えば、人々 308 00:15:24,440 --> 00:15:27,430 彼女は「赤ちゃん」を使用していることを言う すべての彼女のナンバー1曲。 309 00:15:27,430 --> 00:15:32,270 そして、実際にこれは、ビデオであることを示している 彼女は単語 "赤ちゃん"のために言って 310 00:15:32,270 --> 00:15:33,410 異なる曲。 311 00:15:33,410 --> 00:15:33,860 >> [ビデオ再生] 312 00:15:33,860 --> 00:15:34,310 >> - (SINGING)赤ちゃん。 313 00:15:34,310 --> 00:15:36,220 赤ちゃん。 314 00:15:36,220 --> 00:15:37,086 赤ちゃん。 315 00:15:37,086 --> 00:15:37,520 赤ちゃん。 316 00:15:37,520 --> 00:15:37,770 赤ちゃん。 317 00:15:37,770 --> 00:15:38,822 ベイブ。 318 00:15:38,822 --> 00:15:39,243 赤ちゃん。 319 00:15:39,243 --> 00:15:40,085 赤ちゃん。 320 00:15:40,085 --> 00:15:40,510 赤ちゃん。 321 00:15:40,510 --> 00:15:40,850 赤ちゃん。 322 00:15:40,850 --> 00:15:41,090 >> [ENDビデオ再生 - 323 00:15:41,090 --> 00:15:44,020 >> LUCASフレイタス:だからそこにある、私が思うに、 彼女が言うにいるここに40曲 324 00:15:44,020 --> 00:15:48,690 単語 "赤ちゃん。"だから、基本的に推測することができます そのあなたが持っている曲が表示された場合 325 00:15:48,690 --> 00:15:52,180 単語 "赤ちゃん、「いくつかの高があると それはレディー·ガガだという確率。 326 00:15:52,180 --> 00:15:56,450 しかし、ここではこれを開発してみましょう さらにより正式に。 327 00:15:56,450 --> 00:16:00,470 >> したがって、これらのによる歌の歌詞です レディー·ガガやケイティ·ペリー。 328 00:16:00,470 --> 00:16:04,120 ですから、レディー·ガガを見て、あなたは彼らを参照してください。 "赤ちゃん"の出現がたくさんある 329 00:16:04,120 --> 00:16:07,710 の発生が多く、 "道"その後 ケイティ·ペリーはの発生をたくさん持っている 330 00:16:07,710 --> 00:16:10,360 "、"の発生が多く、 "火" 331 00:16:10,360 --> 00:16:14,560 >> そこで、基本的に我々が望むもの を表示していますが、歌詞を取得している。 332 00:16:14,560 --> 00:16:20,480 例えば、あなたがのために歌詞を取得したとしましょう "ベイビー"だけで "赤ちゃん"です。歌もし 333 00:16:20,480 --> 00:16:24,750 あなただけの単語 "赤ちゃん"、およびこれを取得 あなたから持っているすべてのデータである 334 00:16:24,750 --> 00:16:27,880 レディー·ガガやケイティ·ペリー、だろう あなたは人ですね 335 00:16:27,880 --> 00:16:29,370 誰が歌を歌っている? 336 00:16:29,370 --> 00:16:32,360 レディー·ガガやケイティ·ペリー? 337 00:16:32,360 --> 00:16:33,150 レディー·ガガ、右? 338 00:16:33,150 --> 00:16:37,400 彼女は言うだけだから "赤ちゃん"これは右、愚かに聞こえる? 339 00:16:37,400 --> 00:16:38,760 [OK]を、これは本当に簡単です。 340 00:16:38,760 --> 00:16:41,860 私はちょうど2曲にと探しています もちろん、彼女が持っている唯一の一つだ 341 00:16:41,860 --> 00:16:42,660 "赤ちゃん" 342 00:16:42,660 --> 00:16:44,740 >> しかし、あなたが言葉の束を持っているか? 343 00:16:44,740 --> 00:16:50,900 あなたは、実際の歌詞、何かを持っている場合 のような、「赤ちゃん、ちょうど私 344 00:16:50,900 --> 00:16:51,610 [を見に行きました? CFT?] 345 00:16:51,610 --> 00:16:54,020 講義」、またはそのような何か、と あなたが実際に把握する必要があります - 346 00:16:54,020 --> 00:16:55,780 すべての単語に基づいて - 347 00:16:55,780 --> 00:16:58,350 おそらく誰アーティストは誰ですか この歌を歌った? 348 00:16:58,350 --> 00:17:01,860 それでは、開発してみましょう もう少しこの。 349 00:17:01,860 --> 00:17:05,630 >> [OK]を、ので、ちょうど私たちのデータに基づいて だ、それは·ガガ、おそらくあると思われる 350 00:17:05,630 --> 00:17:06,260 歌手。 351 00:17:06,260 --> 00:17:07,904 しかし、どのように我々は書くことができます このより正式に? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 少しがあるように起こって 統計のビット。 354 00:17:13,140 --> 00:17:15,880 だからが失われた場合は、単に試し 概念を理解する。 355 00:17:15,880 --> 00:17:18,700 あなたが理解していれば、それは問題ではありません 方程式完璧。 356 00:17:18,700 --> 00:17:22,150 これは、すべてのオンラインになるだろう。 357 00:17:22,150 --> 00:17:25,490 >> そこで、基本的に私は計算してることはある この曲がである確率 358 00:17:25,490 --> 00:17:28,040 レディー·ガガはそれを与えられた - 359 00:17:28,040 --> 00:17:30,660 ので、このバーは、その与えられた意味 - 360 00:17:30,660 --> 00:17:33,680 私は言葉を見た」赤ちゃんを。 " それは理にかなっていますか? 361 00:17:33,680 --> 00:17:35,540 だから私は、計算しようとしている ある確率。 362 00:17:35,540 --> 00:17:38,540 >> いわゆるこの定理があります と言っているベイズ定理 363 00:17:38,540 --> 00:17:43,330 所与のBの確率は、である 、回与えられ、Bの確率 364 00:17:43,330 --> 00:17:47,660 確率上のAの確率、 Bのこれは長い方程式である。 365 00:17:47,660 --> 00:17:51,970 しかし、あなたから理解する必要が つまり、これは私がしたいものであるということです 366 00:17:51,970 --> 00:17:52,830 右、計算? 367 00:17:52,830 --> 00:17:56,570 その歌はであるように確率 レディー·ガガは、私は言葉を見たことを考えると 368 00:17:56,570 --> 00:17:58,230 "赤ちゃん" 369 00:17:58,230 --> 00:18:02,960 >> そして今、私が得ていることである 「赤ちゃんは「与えられた単語の確率 370 00:18:02,960 --> 00:18:04,390 私は、レディー·ガガを持っていること。 371 00:18:04,390 --> 00:18:07,220 そして、それは基本的には何ですか? 372 00:18:07,220 --> 00:18:10,500 その手段が何であるか、何 単語 "赤ちゃん"を見ての確率 373 00:18:10,500 --> 00:18:12,130 ガガの歌詞にある? 374 00:18:12,130 --> 00:18:16,240 私は非常にそれを計算する場合 簡単な方法、それは数だけです 375 00:18:16,240 --> 00:18:23,640 回私は総数に対する「赤ちゃん」を参照してください。 ガガの歌詞の単語のですよね? 376 00:18:23,640 --> 00:18:27,600 私が見る頻度はどのくらいです ガガの作品にその単語? 377 00:18:27,600 --> 00:18:30,530 理にかなって? 378 00:18:30,530 --> 00:18:33,420 >> 第二項はある ガガの確率。 379 00:18:33,420 --> 00:18:34,360 どういう意味ですか? 380 00:18:34,360 --> 00:18:38,550 つまり、基本的に何であるか、意味 分類の確率 381 00:18:38,550 --> 00:18:40,690 ガガのようないくつかの歌詞? 382 00:18:40,690 --> 00:18:45,320 そして、それは一種の奇妙ですが、 それでは例を考えてみましょう。 383 00:18:45,320 --> 00:18:49,230 それでは確率としましょう 歌の "赤ちゃん"を持つことは同じです 384 00:18:49,230 --> 00:18:51,760 ガガやブリトニー·スピアーズのために。 385 00:18:51,760 --> 00:18:54,950 しかし、ブリトニー·スピアーズが二回あります レディー·ガガよりも多くの曲。 386 00:18:54,950 --> 00:19:00,570 だから、誰かがランダムにあなたが提供している場合 まず最初に、「赤ちゃん」の歌詞あなた 387 00:19:00,570 --> 00:19:04,710 の確率は何である、ATが見える ガガの曲で「赤ちゃん」を有する、 "赤ちゃん" 388 00:19:04,710 --> 00:19:05,410 ブリトニーの曲の中? 389 00:19:05,410 --> 00:19:06,460 そして、それは同じことだ。 390 00:19:06,460 --> 00:19:10,040 >> ですから、わかります2つ目は、ある よく、確率は何ですか 391 00:19:10,040 --> 00:19:13,770 それだけでこの歌詞はガガの歌詞であること、 との可能性は何ですか 392 00:19:13,770 --> 00:19:15,380 ブリトニーの歌詞であること? 393 00:19:15,380 --> 00:19:18,950 だからブリトニーは非常に多くのより多くの歌詞を持っているので、 ガガよりも、おそらくだろう 394 00:19:18,950 --> 00:19:21,470 たとえば、まあ、これはおそらく、 ブリトニーの歌詞。 395 00:19:21,470 --> 00:19:23,340 我々はこれを持っている理由ので、それはです 右ここでいう。 396 00:19:23,340 --> 00:19:24,670 ガガの確率。 397 00:19:24,670 --> 00:19:26,950 理にかなっている? 398 00:19:26,950 --> 00:19:28,660 それはありません? 399 00:19:28,660 --> 00:19:29,370 [OK]をクリックします。 400 00:19:29,370 --> 00:19:33,500 >> そして最後の1は単なる確率である しません "赤ちゃん"の 401 00:19:33,500 --> 00:19:34,810 本当に問題はそれほど。 402 00:19:34,810 --> 00:19:39,940 しかし、それは確率だ 英語で「赤ちゃん」を見て。 403 00:19:39,940 --> 00:19:42,725 我々は通常、それを気にしない その用語についての多く。 404 00:19:42,725 --> 00:19:44,490 それは理にかなっていますか? 405 00:19:44,490 --> 00:19:48,110 だから、ガガの確率である 事前確率と呼ばれる 406 00:19:48,110 --> 00:19:49,530 クラス·ガガの。 407 00:19:49,530 --> 00:19:53,840 それだけで何があることを意味するので そのクラスを有する確率 - 408 00:19:53,840 --> 00:19:55,520 ガガこれは - 409 00:19:55,520 --> 00:19:59,350 ただ一般的には、単に なし条件。 410 00:19:59,350 --> 00:20:02,560 >> そして私は可能性を持っている場合 「赤ちゃん、 "我々はそれを呼び出す与えガガプラス 411 00:20:02,560 --> 00:20:06,160 それはだから確率は涙 有する確率 412 00:20:06,160 --> 00:20:08,300 ガガは、いくつかの証拠が与えられた。 413 00:20:08,300 --> 00:20:11,050 だから私はあなたに証拠を与えている 私は言葉の赤ちゃんを見ていることを 414 00:20:11,050 --> 00:20:12,690 歌は理にかなって? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 [OK]をクリックします。 417 00:20:16,410 --> 00:20:22,400 >> だから私は、それぞれのためにそれを計算した場合 レディー·ガガのための曲、 418 00:20:22,400 --> 00:20:25,916 それがどうなるか - 419 00:20:25,916 --> 00:20:27,730 どうやら、私はこれを移動することはできません。 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 ガガの確率はなり 何かのように、2 24以上、回1/2、 422 00:20:36,920 --> 00:20:38,260 53以上の2以上。 423 00:20:38,260 --> 00:20:40,640 あなたは何を知っていれば、それを問題ではありません これらの数字は、から来ている。 424 00:20:40,640 --> 00:20:44,750 しかし、それは起こっているだけの数だ 右、0以上になるように? 425 00:20:44,750 --> 00:20:48,610 >> そして私はケイティ·ペリーを行うとき ケイティ与えられた「赤ちゃん」の確率である 426 00:20:48,610 --> 00:20:49,830 すでに0、右? 427 00:20:49,830 --> 00:20:52,820 全く「赤ちゃん」がないため ケイティペリー。 428 00:20:52,820 --> 00:20:56,360 そう、これは0になり、ガガ 勝、ガガがあることを意味します 429 00:20:56,360 --> 00:20:57,310 おそらく歌手。 430 00:20:57,310 --> 00:20:58,560 それは理にかなっていますか? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 [OK]をクリックします。 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> だから私はこれをより正式にする場合は、 私は実際にモデルを行うことができます 435 00:21:11,750 --> 00:21:12,700 複数の単語のために。 436 00:21:12,700 --> 00:21:14,610 それでは、私は何かを持っているとしましょう のような、「赤ちゃん、私は 437 00:21:14,610 --> 00:21:16,030 火に、「または何か。 438 00:21:16,030 --> 00:21:17,760 だから、複数の単語を持っています。 439 00:21:17,760 --> 00:21:20,880 この場合には、次のように表示することができます 「赤ちゃんは「ガガにあることを、 440 00:21:20,880 --> 00:21:21,710 それはケーティではありません。 441 00:21:21,710 --> 00:21:24,940 と "火"はケイティにあるが、 それは右、ガガにない? 442 00:21:24,940 --> 00:21:27,200 だから、右、トリッキーなってきた? 443 00:21:27,200 --> 00:21:31,440 それはあなたのほとんどと思われるので、 2間のネクタイを持っている。 444 00:21:31,440 --> 00:21:36,980 >> それで、あなたがしなければならないことは想定している 単語間の独立性。 445 00:21:36,980 --> 00:21:41,210 そこで、基本的にそれが何を意味するかというです 私は何であるかを計算してい 446 00:21:41,210 --> 00:21:44,330 何であるか」、赤ちゃんを「見ての確率 見ての可能性「I」をし、 447 00:21:44,330 --> 00:21:46,670 「火」「AM」、および「ON」と すべて別途。 448 00:21:46,670 --> 00:21:48,670 その後、私はそれらのすべてを掛けることだ。 449 00:21:48,670 --> 00:21:52,420 そして、私は確率が何であるかを見ている 文全体を見ての。 450 00:21:52,420 --> 00:21:55,210 理にかなって? 451 00:21:55,210 --> 00:22:00,270 >> そこで、基本的に、私はちょうど1単語がある場合は、 私が知りたいことのarg maxのですが、 452 00:22:00,270 --> 00:22:05,385 つまり、あるクラスは何ですか 私に最も高い確率を与える? 453 00:22:05,385 --> 00:22:10,010 そのように与えているクラスは何ですか 私のために最も高い確率 454 00:22:10,010 --> 00:22:11,940 クラスの確率は言葉を与えられた。 455 00:22:11,940 --> 00:22:17,610 この場合、ガガは、与えられた "赤ちゃん" またはケイティは "赤ちゃん"を与えられた理にかなって? 456 00:22:17,610 --> 00:22:21,040 >> そして、ちょうどそのベイズから 私が示した式、 457 00:22:21,040 --> 00:22:24,780 私たちは、この画を作成します。 458 00:22:24,780 --> 00:22:28,750 唯一のことは、あなたがいることがわかりということです 与えられた単語の確率 459 00:22:28,750 --> 00:22:31,370 依存クラスの変更 クラスの、右? 460 00:22:31,370 --> 00:22:34,260 私が持っている「赤ちゃん」の数 ガガにケイティは異なります。 461 00:22:34,260 --> 00:22:37,640 クラスの確率も それだけの数の変化するため、 462 00:22:37,640 --> 00:22:39,740 それらの曲のそれぞれが持っています。 463 00:22:39,740 --> 00:22:43,980 >> しかし、言葉自体の確率 すべてのために同じことを行っている 464 00:22:43,980 --> 00:22:44,740 アーティスト、右? 465 00:22:44,740 --> 00:22:47,150 そのように、単語の確率である ただ、確率は何ですか 466 00:22:47,150 --> 00:22:49,820 でその単語を見て 英語? 467 00:22:49,820 --> 00:22:51,420 だから、それらのすべてに同じです。 468 00:22:51,420 --> 00:22:55,790 これは一定であるためそのように、私たちはできる これを削除し、それを気にしない。 469 00:22:55,790 --> 00:23:00,230 だから、これは実際になります 私たちが探している方程式。 470 00:23:00,230 --> 00:23:03,360 >> 私は複数の単語を持っている場合と、私は今 それでも前を持っているつもり 471 00:23:03,360 --> 00:23:04,610 ここ確率。 472 00:23:04,610 --> 00:23:06,980 唯一の事は私が掛けるんだということです の確率 473 00:23:06,980 --> 00:23:08,490 他のすべての単語。 474 00:23:08,490 --> 00:23:10,110 だから私はそれらのすべてを掛けることだ。 475 00:23:10,110 --> 00:23:12,610 理にかなって? 476 00:23:12,610 --> 00:23:18,440 それは奇妙に見えますが、基本的に意味し、 クラスの前に、との計算 477 00:23:18,440 --> 00:23:22,100 各確率を掛け そのクラスにある単語の。 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> そして、あなたは知っているの可能性 クラス指定された単語があることを行っている 480 00:23:29,150 --> 00:23:34,520 あなたがその単語を参照する回数 数で割ったそのクラス、 481 00:23:34,520 --> 00:23:37,020 あなたがその中に持っている言葉 一般的には、クラス。 482 00:23:37,020 --> 00:23:37,990 理にかなって? 483 00:23:37,990 --> 00:23:41,680 それは、「赤ちゃんが "2終わっただけでどのようだ その単語の数 484 00:23:41,680 --> 00:23:43,020 私は歌詞に持っていた。 485 00:23:43,020 --> 00:23:45,130 だから周波数。 486 00:23:45,130 --> 00:23:46,260 >> しかし、一つのことがあります。 487 00:23:46,260 --> 00:23:51,250 私が見せていたか覚えている "赤ちゃん"という歌詞の確率 488 00:23:51,250 --> 00:23:56,350 ケイティ·ペリーから0だったという理由だけでケイティ ペリーは、すべての「赤ちゃん」を持っていなかった? 489 00:23:56,350 --> 00:24:04,900 しかし、それだけでは少し耳障りな音 単純に歌詞からできないことを言う 490 00:24:04,900 --> 00:24:10,040 彼らが持っていないという理由だけで、アーティスト いつでも、特にその単語。 491 00:24:10,040 --> 00:24:13,330 >> もしそうであれば、あなただけの、よく、言うことができる この言葉を持っていない、私はするつもりだ 492 00:24:13,330 --> 00:24:15,640 あなたのより低い確率を与え、 しかし、私はちょうどするつもりはない 493 00:24:15,640 --> 00:24:17,420 すぐにあなたに0を与える。 494 00:24:17,420 --> 00:24:21,040 多分それはのようなものだったので、 「火、火、火、火」である 495 00:24:21,040 --> 00:24:21,990 完全にケイティ·ペリー。 496 00:24:21,990 --> 00:24:26,060 とし、 "赤ちゃん"、それだけに行く 0すぐに1があったので、 497 00:24:26,060 --> 00:24:27,250 "赤ちゃん" 498 00:24:27,250 --> 00:24:31,440 >> そこで、基本的に我々は何をすべきか何かである ラプラススムージングと呼ばれる。 499 00:24:31,440 --> 00:24:36,260 そして、これはちょうど私が与えていることを意味します でも、言葉にはいくつかの確率 500 00:24:36,260 --> 00:24:37,850 それは存在しません。 501 00:24:37,850 --> 00:24:43,170 だから、私は何をして私がいる時ということです この計算は、私は常に1を追加 502 00:24:43,170 --> 00:24:44,180 分母。 503 00:24:44,180 --> 00:24:48,060 だから、言葉はで、存在しない場合でも、 これが0であれば、この場合、私はまだだ 504 00:24:48,060 --> 00:24:51,250 上で1としてこれを計算する 単語の合計数。 505 00:24:51,250 --> 00:24:55,060 そうでなければ、私はどのように多くの単語を取得 私が持っていると私は1を追加します。 506 00:24:55,060 --> 00:24:58,300 だから私は両方のケースのために数えています。 507 00:24:58,300 --> 00:25:00,430 理にかなって? 508 00:25:00,430 --> 00:25:03,060 >> だから今のには、いくつかのコーディングを行うことができます。 509 00:25:03,060 --> 00:25:06,440 私は、かなり速いそれをしなければならないつもりだ それはあなただけのことが重要です 510 00:25:06,440 --> 00:25:08,600 人は概念を理解しています。 511 00:25:08,600 --> 00:25:13,450 それでは、私たちがやろうとしている 正確にこれを実装されている 512 00:25:13,450 --> 00:25:14,330 私が今言った事 - 513 00:25:14,330 --> 00:25:19,110 私はあなたから歌詞を入れたい レディー·ガガやケイティ·ペリー。 514 00:25:19,110 --> 00:25:22,980 プログラムができるようにするつもりされている これらの新しい歌詞·ガガからのものである場合に言う 515 00:25:22,980 --> 00:25:24,170 またはケイティ·ペリー。 516 00:25:24,170 --> 00:25:25,800 理にかなって? 517 00:25:25,800 --> 00:25:27,530 [OK]をクリックします。 518 00:25:27,530 --> 00:25:30,710 >> だから私は、私は行くよ、このプログラムがある classify.pyを呼び出します。 519 00:25:30,710 --> 00:25:31,970 だから、これはPythonのです。 520 00:25:31,970 --> 00:25:34,210 それは、新しいプログラミング言語です。 521 00:25:34,210 --> 00:25:38,020 これは、いくつかの非常に類似している CとPHPの方法。 522 00:25:38,020 --> 00:25:43,180 あなたがしたいのであれば、それは似ています Cを知った後にPythonを学ぶ、それはだ 523 00:25:43,180 --> 00:25:46,270 挑戦の本当にあまりない Pythonははるかに簡単ですからといって 524 00:25:46,270 --> 00:25:47,520 まず、C、より。 525 00:25:47,520 --> 00:25:49,370 物事の多くは、すでに あなたのために実装されています。 526 00:25:49,370 --> 00:25:56,820 だから、どれだけのPHPのような機能を有している リストを並べ替え、または何かを追加 527 00:25:56,820 --> 00:25:58,780 配列、何とか、何とか、何とかする。 528 00:25:58,780 --> 00:26:00,690 Pythonは、同様にそれらのすべてを持っています。 529 00:26:00,690 --> 00:26:05,960 >> だから、僕はすぐに説明するつもりです どのようにして分類を行うことができます 530 00:26:05,960 --> 00:26:07,860 ここでは問題。 531 00:26:07,860 --> 00:26:13,230 それでは、この場合は、私が持っているとしましょう ガガとケイティ·ペリーの歌詞。 532 00:26:13,230 --> 00:26:21,880 私はそれらの歌詞を持っている方法があることである 歌詞の最初の単語です 533 00:26:21,880 --> 00:26:25,250 アーティスト名、および 残りは歌詞です。 534 00:26:25,250 --> 00:26:29,470 それでは、私はこのリストを持っているとしましょう その最初のものはガガ作詞です。 535 00:26:29,470 --> 00:26:31,930 だからここに私は正しい軌道に乗っています。 536 00:26:31,930 --> 00:26:35,270 そして次はケイティであり、 それはまた、歌詞を持っています。 537 00:26:35,270 --> 00:26:38,040 >> だから、これはあなたが宣言する方法です Pythonで変数。 538 00:26:38,040 --> 00:26:40,200 あなたは、データ型を与えることはありません。 539 00:26:40,200 --> 00:26:43,150 あなただけの "歌詞"を書いてください PHPのような一種の。 540 00:26:43,150 --> 00:26:44,890 理にかなって? 541 00:26:44,890 --> 00:26:47,770 >> だから私がする必要が物事は何ですか 計算することができるように計算する 542 00:26:47,770 --> 00:26:49,360 確率? 543 00:26:49,360 --> 00:26:55,110 私は、「事前分布」を計算する必要があります 異なるそれぞれの 544 00:26:55,110 --> 00:26:56,710 私が持っているクラス。 545 00:26:56,710 --> 00:27:06,680 私は「事後」を計算する必要が またはかなりの確率の 546 00:27:06,680 --> 00:27:12,150 その異なる単語のそれぞれ 私は、それぞれのアーティストのために持つことができます。 547 00:27:12,150 --> 00:27:17,210 そう·ガガ内、例えば、私は行くよ 私が見る何回のリストを持っている 548 00:27:17,210 --> 00:27:19,250 各単語。 549 00:27:19,250 --> 00:27:20,760 理にかなって? 550 00:27:20,760 --> 00:27:25,370 >> そして最後に、私はちょうど持っているつもりです まさに起こっている "言葉"と呼ばれるリスト 551 00:27:25,370 --> 00:27:29,780 どのように多くの単語、私持っている それぞれのアーティストのために持っている。 552 00:27:29,780 --> 00:27:33,760 そう·ガガのために、例えば、ときに私が見て 歌詞に、私が、私が考えていたが、24 553 00:27:33,760 --> 00:27:34,750 合計言葉。 554 00:27:34,750 --> 00:27:38,970 したがって、このリストは単に持ってしようとしている ガガ24、およびケイティ別の番号。 555 00:27:38,970 --> 00:27:40,130 理にかなって? 556 00:27:40,130 --> 00:27:40,560 [OK]をクリックします。 557 00:27:40,560 --> 00:27:42,530 >> だから今、実際には、みましょう コー​​ディングにアクセスしてください。 558 00:27:42,530 --> 00:27:45,270 そうPythonでは、あなたが実際にすることができ 異なるの束を返す 559 00:27:45,270 --> 00:27:46,630 関数からのもの。 560 00:27:46,630 --> 00:27:50,810 だから私は、この関数を作成するつもりです 予定された「条件付き」と呼ばれる 561 00:27:50,810 --> 00:27:53,890 、それらのもののすべてを返す 「事前確率」、「確率」、および 562 00:27:53,890 --> 00:28:05,690 「単語」だから「条件付き」で、それはだ を呼び出すされようとして "の歌詞。" 563 00:28:05,690 --> 00:28:11,510 >> だから今私はあなたが実際にしたい この関数を書く。 564 00:28:11,510 --> 00:28:17,750 私はこれを書くことができますので、道 機能私は、これを定義されている 565 00:28:17,750 --> 00:28:20,620 を持つ関数「DEF」。だから私はDEF」でした 条件付き、「それは取っている 566 00:28:20,620 --> 00:28:28,700 「歌詞。 "そして、これが何を何が起こっているか 、まず第一に、私は自分の事前分布を持っている 567 00:28:28,700 --> 00:28:31,030 私が計算したいという。 568 00:28:31,030 --> 00:28:34,330 >> だから私はこれを行うことができます方法は作成される Pythonで、どの辞書 569 00:28:34,330 --> 00:28:37,320 ハッシュとしてほとんど同じことです テーブル、またはそれは、反復のようなものだ 570 00:28:37,320 --> 00:28:40,480 PHPの配列。 571 00:28:40,480 --> 00:28:44,150 これは私が辞書を宣言する方法です。 572 00:28:44,150 --> 00:28:53,580 基本的にこれが意味することは ガガの事前確率は、例えば、場合には、0.5である 573 00:28:53,580 --> 00:28:57,200 歌詞の50%はからです ガガ、50%はケイティからのものである。 574 00:28:57,200 --> 00:28:58,450 理にかなって? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 だから私はどのように把握する必要があります 事前分布を計算する。 577 00:29:03,680 --> 00:29:07,120 >> 私がしなければならない次のものを、また、 確率との言葉である。 578 00:29:07,120 --> 00:29:17,100 だから、ガガの確率はリストである 私のすべての確率の 579 00:29:17,100 --> 00:29:19,160 ガガのためのワードのそれぞれのために持っている。 580 00:29:19,160 --> 00:29:23,880 だから私はガガの確率に行けば 「赤ちゃん」、例えば、それは私を与えるだろう 581 00:29:23,880 --> 00:29:28,750 その場合には24以上の2のようなもの。 582 00:29:28,750 --> 00:29:30,070 理にかなって? 583 00:29:30,070 --> 00:29:36,120 だから私は「確率」に行くために行く すべてのリストを持っている "ガガ"バケツ 584 00:29:36,120 --> 00:29:40,550 ガガの言葉は、私は「赤ちゃん」に行く と私は確率を参照してください。 585 00:29:40,550 --> 00:29:45,940 >> そして最後に、私はこれを持っている 「言葉」の辞書。 586 00:29:45,940 --> 00:29:53,620 だからここに、「確率。」その後 「単語」だから私は「言葉」「ガガ」を行う場合 587 00:29:53,620 --> 00:29:58,330 何が起こるだろうと、それがあるということです その私が言って、私に24を与えるつもり 588 00:29:58,330 --> 00:30:01,990 ガガの歌詞の中に24の言葉を持っています。 589 00:30:01,990 --> 00:30:04,110 理にかなっている? 590 00:30:04,110 --> 00:30:07,070 だからここに、「言葉は「DAH-DAH-DAHに等しい。 591 00:30:07,070 --> 00:30:07,620 [OK] 592 00:30:07,620 --> 00:30:12,210 >> だから、私は何をするつもりだと、私は行くよです だから、歌詞のそれぞれを反復 593 00:30:12,210 --> 00:30:14,490 その文字列の各 私は、リストを持っている。 594 00:30:14,490 --> 00:30:18,040 そして、私はそれらの事を計算するつもりです 候補の各々のために。 595 00:30:18,040 --> 00:30:19,950 理にかなっている? 596 00:30:19,950 --> 00:30:21,700 だから私は、forループを行う必要があります。 597 00:30:21,700 --> 00:30:26,300 >> だから私は何ができるかをPythonではラインのため」である 歌詞にある。」と同じもの 598 00:30:26,300 --> 00:30:28,000 PHPの文の「それぞれに」。 599 00:30:28,000 --> 00:30:33,420 それは、PHPだった場合、どのように私ができる覚えている 各歌詞の "と言う 600 00:30:33,420 --> 00:30:35,220 行が「理にかなって? 601 00:30:35,220 --> 00:30:38,900 だから私はこの中で、ラインのそれぞれを取っている 場合、この文字列と次の 602 00:30:38,900 --> 00:30:44,540 私はどのようなラインのそれぞれのためのため、文字列 何をするつもりは、私はするつもりだ、最初のものである 603 00:30:44,540 --> 00:30:49,150 のリストに次の行を分割する スペースで区切られた単語。 604 00:30:49,150 --> 00:30:53,730 >> だから、Pythonのすごいところは、ということです あなたは可能性だけのGoogleどのようにすることができます」のような 605 00:30:53,730 --> 00:30:58,220 単語に文字列を分割? 「それはです それを行うには、どのように言うつもり。 606 00:30:58,220 --> 00:31:04,890 そして、それを行う方法は、それだけで "ラインです = line.split()」で、それは基本的にだ 607 00:31:04,890 --> 00:31:08,640 あなたのリストを提供するつもり ここで各単語。 608 00:31:08,640 --> 00:31:09,620 理にかなっている? 609 00:31:09,620 --> 00:31:15,870 だから今私がしたことを私は知ってほしいこと その歌の歌手は誰ですか。 610 00:31:15,870 --> 00:31:20,130 と私は取得する必要があることを行うには 配列の最初の要素ですよね? 611 00:31:20,130 --> 00:31:26,390 だから、僕は言うことができる私は "歌手 =行(0) "の意味なのでしょうか? 612 00:31:26,390 --> 00:31:32,010 >> して、私は何をする必要があることは第一に、ある すべて、私はどのように多くの更新するつもりです 613 00:31:32,010 --> 00:31:36,130 言葉は私が下に持っている「ガガ」。私はちょうどよ 計算しようとしてどのように多くの言葉私 614 00:31:36,130 --> 00:31:38,690 右は、このリストを持っている? 615 00:31:38,690 --> 00:31:41,910 これは私が持っているどのように多くの言葉であるため 歌詞と私はするつもりだ 616 00:31:41,910 --> 00:31:44,120 「ガガ」の配列に追加します。 617 00:31:44,120 --> 00:31:47,090 それは理にかなっていますか? 618 00:31:47,090 --> 00:31:49,010 構文にあまり集中しないでください。 619 00:31:49,010 --> 00:31:50,430 概念の詳細を考えてみてください。 620 00:31:50,430 --> 00:31:52,400 つまり、最も重要な部分です。 621 00:31:52,400 --> 00:31:52,720 [OK]をクリックします。 622 00:31:52,720 --> 00:32:00,260 >> 「ガガ」であるので、もし私がそれを行うことができますことはある 既にそのリストのため、「歌手に入った場合 623 00:32:00,260 --> 00:32:03,190 その私はすでに意味の言葉 " ガガの言葉を持っている。 624 00:32:03,190 --> 00:32:06,640 私は、追加を追加したい との言葉。 625 00:32:06,640 --> 00:32:15,810 だから、私は何をすることは「言葉(歌手)です + = LEN(ライン) - 1 "。 626 00:32:15,810 --> 00:32:18,250 そして私はちょうど行うことができます ラインの長さ。 627 00:32:18,250 --> 00:32:21,860 だから、どのように多くの要素が、私は 配列を持っている。 628 00:32:21,860 --> 00:32:27,060 そして私がしなければならない1マイナスという理由だけで 配列の最初の要素だけです 629 00:32:27,060 --> 00:32:29,180 歌手、それらの歌詞はありません。 630 00:32:29,180 --> 00:32:31,420 理にかなっている? 631 00:32:31,420 --> 00:32:32,780 [OK]をクリックします。 632 00:32:32,780 --> 00:32:35,820 >> 「そうでなければ、「それは私が実際にすることを意味します リストにガガを挿入します。 633 00:32:35,820 --> 00:32:45,990 だから、僕は言葉(歌手)」を行う = LEN(ライン) - 1、 "申し訳ありません。 634 00:32:45,990 --> 00:32:49,200 だから、2間の唯一の違い 行は、この1つは、それがないということです 635 00:32:49,200 --> 00:32:51,080 まだ存在していたので、私はちょうどよ それを初期化する。 636 00:32:51,080 --> 00:32:53,820 この1私は実際に追加している。 637 00:32:53,820 --> 00:32:55,570 [OK]をクリックします。 638 00:32:55,570 --> 00:32:59,480 だから、これは言葉に追加した。 639 00:32:59,480 --> 00:33:03,040 >> 今、私は事前分布に追加する。 640 00:33:03,040 --> 00:33:05,480 それでは、どのよう私は、事前分布を計算するのですか? 641 00:33:05,480 --> 00:33:11,580 事前確率を計算することができる。 何倍。 642 00:33:11,580 --> 00:33:15,340 あなたはその歌手を参照してくださいので、何回 あなた歌手のすべての中で 643 00:33:15,340 --> 00:33:16,380 持っているよね? 644 00:33:16,380 --> 00:33:18,810 、·ガガやケイティ·ペリーのためにそう この場合、私はガガを参照してください。 645 00:33:18,810 --> 00:33:20,570 一度、ケイティ·ペリー回。 646 00:33:20,570 --> 00:33:23,320 >> ガガのためにそのように基本的には事前分布 とケイティ·ペリーの場合と 647 00:33:23,320 --> 00:33:24,390 ちょうど、1であること? 648 00:33:24,390 --> 00:33:26,500 あなたはどれだけ多くの回数 私は芸術家を参照してください。 649 00:33:26,500 --> 00:33:28,740 だから、これは計算することは非常に簡単です。 650 00:33:28,740 --> 00:33:34,100 私はIF」などのような似ただけで何かをすることができ 事前分布での歌手は、「私は行くよ 651 00:33:34,100 --> 00:33:38,970 その事前分布ボックスに1を追加します。 652 00:33:38,970 --> 00:33:51,000 "だから、「事前確率(歌う)" + = 1 "とし、"他 私は、「事前分布(歌手)するつもりです 653 00:33:51,000 --> 00:33:55,000 = 1。 "理にかなって? 654 00:33:55,000 --> 00:34:00,080 >> だから、それが存在しない場合、私はちょうど置く 1のように、そうでなければ私はちょうど1を追加します。 655 00:34:00,080 --> 00:34:11,280 [OK]を、だから今、すべて私がやり残していること また、ワードのそれぞれを追加している 656 00:34:11,280 --> 00:34:12,290 確率。 657 00:34:12,290 --> 00:34:14,889 だから私は何度もカウントする必要が 私は言葉のそれぞれを参照してください。 658 00:34:14,889 --> 00:34:18,780 だから、僕は別のものをしなければならない 行のforループ。 659 00:34:18,780 --> 00:34:25,190 >> 私がやろうとしていますので、最初のものです 歌手が既に持っているかどうかを確認 660 00:34:25,190 --> 00:34:26,969 確率配列。 661 00:34:26,969 --> 00:34:31,739 歌手にはないので、もし私がチェックしています 確率配列を持って、私はちょうどよ 662 00:34:31,739 --> 00:34:34,480 彼らのために1を初期化しようとして。 663 00:34:34,480 --> 00:34:36,400 それも、配列ではありません、申し訳ありませんが、 それは辞書だ。 664 00:34:36,400 --> 00:34:43,080 だから、歌手の確率が起こっている オープン辞書であると、私はよ 665 00:34:43,080 --> 00:34:45,830 ちょうどそれのための辞書を初期化する。 666 00:34:45,830 --> 00:34:46,820 OK? 667 00:34:46,820 --> 00:34:58,330 >> そして今、私は実際にループのために何ができる '各単語を計算する 668 00:34:58,330 --> 00:35:00,604 確率。 669 00:35:00,604 --> 00:35:01,540 [OK]をクリックします。 670 00:35:01,540 --> 00:35:04,160 それでは、私にできることは、forループである。 671 00:35:04,160 --> 00:35:06,590 だから、僕は繰り返し処理をするつもりだ アレイ全体。 672 00:35:06,590 --> 00:35:15,320 私はPythonでそれを行うことができますので、道 「範囲で私のために」である。 1から 673 00:35:15,320 --> 00:35:19,200 私は2番目に起動するので、 要素最初の1であるからである 674 00:35:19,200 --> 00:35:20,260 歌手名。 675 00:35:20,260 --> 00:35:24,990 だから、1からまで ラインの長さ。 676 00:35:24,990 --> 00:35:29,760 そして、私はそれが実際にから行くの範囲ないとき ここのような1からのLENへ 677 00:35:29,760 --> 00:35:30,740 ラインを引いた1。 678 00:35:30,740 --> 00:35:33,810 だから、すでにやってのことを行います 非常にあるアレイ用のNマイナス1 679 00:35:33,810 --> 00:35:35,500 便利な。 680 00:35:35,500 --> 00:35:37,850 理にかなっている? 681 00:35:37,850 --> 00:35:42,770 >> したがって、これらのそれぞれについて、どのような私はするつもりです やるだけ他の1のように、ある 682 00:35:42,770 --> 00:35:50,320 この中の単語かどうかは確認するつもりだ 行の位置がすでにある 683 00:35:50,320 --> 00:35:51,570 確率。 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 そして私は確率は、ここに述べたように 言葉は、のように私は置く 686 00:35:57,260 --> 00:35:58,400 「確率(歌手)」。 687 00:35:58,400 --> 00:35:59,390 歌手の名前がそう。 688 00:35:59,390 --> 00:36:03,450 だから、すでにいた場合 「probabilit(歌手)」、それはつまり、私 689 00:36:03,450 --> 00:36:11,960 それに1を追加したいので、私はするつもりだ 「確率(歌手)」を行って、 690 00:36:11,960 --> 00:36:14,100 ワードは "行(I)」と呼ばれています。 691 00:36:14,100 --> 00:36:22,630 私はちょうど私1を追加しようと「それ以外」だ 1に初期化しようとして。 692 00:36:22,630 --> 00:36:23,880 「ライン(I)」。 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 理にかなっている? 695 00:36:28,420 --> 00:36:30,180 >> だから、私はすべてのアレイを計算した。 696 00:36:30,180 --> 00:36:36,580 だから、今、すべて私がしなければならないこと この1は単に「事前分布を返されて、 697 00:36:36,580 --> 00:36:43,230 確率と単語 "レッツ [OK]を、任意のがあるかどうかを確認。 698 00:36:43,230 --> 00:36:45,690 それはすべてがこれまでに取り組んでいるようです。 699 00:36:45,690 --> 00:36:46,900 だから、それは理にかなっている? 700 00:36:46,900 --> 00:36:47,750 何らかの方法で? 701 00:36:47,750 --> 00:36:49,280 [OK]をクリックします。 702 00:36:49,280 --> 00:36:51,980 だから今、私はすべての確率を持っている。 703 00:36:51,980 --> 00:36:55,100 だから今、私は残っている唯一のこと まさにそのことを持つことであること 704 00:36:55,100 --> 00:36:58,650 すべての積を計算します 私は歌詞を取得するときに確率。 705 00:36:58,650 --> 00:37:06,270 >> それでは、私は今、電話をかけたいとしましょう この機能は、「分類()」と 706 00:37:06,270 --> 00:37:08,880 事その関数が取る ただ引数です。 707 00:37:08,880 --> 00:37:13,170 それでは「赤ちゃんは、私は燃えています」としましょう​​、それはだ 何であるかを把握しようとして 708 00:37:13,170 --> 00:37:14,490 これはガガである確率? 709 00:37:14,490 --> 00:37:16,405 確率とは何ですか これはケイティであること? 710 00:37:16,405 --> 00:37:19,690 いいですね? 711 00:37:19,690 --> 00:37:25,750 だから、僕は作成する必要がありますするつもりだ と呼ばれる新しい機能」(分類)」と 712 00:37:25,750 --> 00:37:29,180 それはいくつかを取ることになるだろう 歌詞にも。 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 歌詞に加えて私はまた、 事前分布を送信する必要があり、 715 00:37:36,160 --> 00:37:37,700 確率との言葉。 716 00:37:37,700 --> 00:37:44,000 だから私は歌詞、事前分布を送信するつもりだ、 確率、言葉。 717 00:37:44,000 --> 00:37:51,840 >> だから、これは歌詞、事前分布を取っている、 確率、言葉。 718 00:37:51,840 --> 00:37:53,530 だから、それは何をするのでしょうか? 719 00:37:53,530 --> 00:37:57,180 それは基本的にすべてを通過しようとしている 可能性のある候補があること 720 00:37:57,180 --> 00:37:58,510 歌手として持っている。 721 00:37:58,510 --> 00:37:59,425 どこでこれらの候補者は何ですか? 722 00:37:59,425 --> 00:38:01,020 彼らは正しい、事前分布にいる? 723 00:38:01,020 --> 00:38:02,710 だから私はそこに、それらのすべてを持っている。 724 00:38:02,710 --> 00:38:07,870 だから私は辞書を持っているつもりだ すべての可能な候補者の。 725 00:38:07,870 --> 00:38:14,220 し、各候補者のためにある 事前分布するので、それがために起こっていることを意味します 726 00:38:14,220 --> 00:38:17,740 私が持っていた場合·ガガ、ケイティも より多くの、よりになります。 727 00:38:17,740 --> 00:38:20,410 私は計算を開始するつもりだ この確率。 728 00:38:20,410 --> 00:38:28,310 私たちが見たように、確率 PowerPointは前回です 729 00:38:28,310 --> 00:38:30,800 それぞれの積 他の確率。 730 00:38:30,800 --> 00:38:32,520 >> だから私はここで同じことを行うことができます。 731 00:38:32,520 --> 00:38:36,330 私はちょうど確率は行うことができます 最初は直前に。 732 00:38:36,330 --> 00:38:40,340 候補者の事前確率はそう。 733 00:38:40,340 --> 00:38:40,870 右? 734 00:38:40,870 --> 00:38:45,360 そして今、私はすべてを反復しなければならない 私はあると歌詞を持っている言葉 735 00:38:45,360 --> 00:38:48,820 確率を追加することができ [OK]を、それらの各々のために? 736 00:38:48,820 --> 00:38:57,900 だから、「歌詞の中の単語の「私は行くよ何 単語がでている場合行うには、ある 737 00:38:57,900 --> 00:39:01,640 「確率(候補)」、その それは、Wordのことを意味し 738 00:39:01,640 --> 00:39:03,640 候補者は彼らの歌詞があります - 739 00:39:03,640 --> 00:39:05,940 ガガについては、例えば、 "赤ちゃん" - 740 00:39:05,940 --> 00:39:11,710 私は何をするつもりだと、ということです 確率を掛けたことになるだろう 741 00:39:11,710 --> 00:39:22,420 1による確率プラス その単語の候補。 742 00:39:22,420 --> 00:39:25,710 そして、それは、「ワード」と呼ばれています。 743 00:39:25,710 --> 00:39:32,440 これは、単語の数で割っ 私はその候補者のために持っていること。 744 00:39:32,440 --> 00:39:37,450 私が持っている単語の総数 私が見ている歌手のために。 745 00:39:37,450 --> 00:39:40,290 >> 「エルス」。それは新しい単語であることを意味 ので、例えばのようになるだろう 746 00:39:40,290 --> 00:39:41,860 レディー·ガガは「火」。 747 00:39:41,860 --> 00:39:45,760 だから私は、わずか1をやってみたい 「ワード(候補)」。 748 00:39:45,760 --> 00:39:47,710 だから私はここでこの用語を置きたくない。 749 00:39:47,710 --> 00:39:50,010 >> だから、基本的になるだろう コピーとこれを貼り付ける。 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 しかし、私はこの部分を削除するつもりです。 752 00:39:56,000 --> 00:39:57,610 だから、ちょうどそれ以上の1になるだろう。 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 いいですね? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 そして今、最後に、私はするつもりだ 候補者の名前を印刷し、 757 00:40:09,700 --> 00:40:15,750 あなたが持っている確率 それらの歌詞にSを有する。 758 00:40:15,750 --> 00:40:16,200 理にかなっている? 759 00:40:16,200 --> 00:40:18,390 そして、私は実際にもないん この辞書を必要としています。 760 00:40:18,390 --> 00:40:19,510 理にかなっている? 761 00:40:19,510 --> 00:40:21,810 >> だから、これは実際に動作するかどうかを見てみましょう。 762 00:40:21,810 --> 00:40:24,880 私はこれを実行するのであれば、それはうまくいきませんでした。 763 00:40:24,880 --> 00:40:26,130 1秒待ちます。 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 「言葉(候補)」、「単語(候補)」、 それはです 766 00:40:31,720 --> 00:40:33,750 配列の名前。 767 00:40:33,750 --> 00:40:41,435 [OKだから、それはいくつかのバグがあると言っている 事前分布における候補者のために。 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 私はほんの少し冷やしてみましょう。 770 00:40:48,760 --> 00:40:50,360 [OK]をクリックします。 771 00:40:50,360 --> 00:40:51,305 試してみましょう。 772 00:40:51,305 --> 00:40:51,720 [OK]をクリックします。 773 00:40:51,720 --> 00:40:58,710 >> だから、ケイティ·ペリーがこれを持って提供します この10倍の確率 774 00:40:58,710 --> 00:41:02,200 マイナス7とガガはこれを持って マイナス6回10。 775 00:41:02,200 --> 00:41:05,610 だから、それがそのガガを示しています参照してください。 より高い確率を有する。 776 00:41:05,610 --> 00:41:09,260 そうです "ベイビー、私は燃えてんだ」 おそらくガガの歌。 777 00:41:09,260 --> 00:41:10,580 理にかなっている? 778 00:41:10,580 --> 00:41:12,030 だから、これは我々がやったことです。 779 00:41:12,030 --> 00:41:16,010 >> このコードは、オンラインで公開されようとしている、 そうあなたたちはそれをチェックアウトすることができます。 780 00:41:16,010 --> 00:41:20,720 たぶん、あなたがしたい場合は、のためにそれのいくつかを使用 プロジェクトまたは似たようなことを。 781 00:41:20,720 --> 00:41:22,150 [OK]をクリックします。 782 00:41:22,150 --> 00:41:25,930 これはちょうど示すことであった どのような計算 783 00:41:25,930 --> 00:41:27,230 言語学のコードは次のように見えます。 784 00:41:27,230 --> 00:41:33,040 しかし、今度は、それ以上に行ってみよう 高レベルのもの。 785 00:41:33,040 --> 00:41:33,340 [OK]をクリックします。 786 00:41:33,340 --> 00:41:35,150 >> だから、他の問題は、私 について話していた - 787 00:41:35,150 --> 00:41:37,550 セグメンテーション問題 そのうちの最初のものです。 788 00:41:37,550 --> 00:41:40,820 だから、ここに日本を持っています。 789 00:41:40,820 --> 00:41:43,420 そして、あなたはいることがわかり はスペースはありません。 790 00:41:43,420 --> 00:41:49,110 だから、これは基本的にそれはだことを意味している 椅子の上、右? 791 00:41:49,110 --> 00:41:50,550 あなたが日本語を話す? 792 00:41:50,550 --> 00:41:52,840 それは右、椅子の上か? 793 00:41:52,840 --> 00:41:54,480 >> 学生:私は何かわからない 漢字はあそこです。 794 00:41:54,480 --> 00:41:57,010 >> LUCASフレイタス:それは[日本語を話す]だ 795 00:41:57,010 --> 00:41:57,950 [OK]をクリックします。 796 00:41:57,950 --> 00:42:00,960 だから、基本的には、トップの椅子を意味します。 797 00:42:00,960 --> 00:42:03,620 ですから、スペースを入れていた場合は、 それはここになります。 798 00:42:03,620 --> 00:42:05,970 そして、あなたは[持っている?上田さん。 ?] 799 00:42:05,970 --> 00:42:09,040 その基本的には上田氏のことである。 800 00:42:09,040 --> 00:42:13,180 そして、あなたは「上田」とあなたが持っていることがわかります スペースとし、 "さん。"だから、ことがわかります 801 00:42:13,180 --> 00:42:15,470 ここでは「UE」は、それ自体でのようなものです。 802 00:42:15,470 --> 00:42:17,750 そしてここでは、文字を持っている それに隣接しています。 803 00:42:17,750 --> 00:42:21,720 >> だから、これらの言語ではないようです あなたので単語、それを意味の文字 804 00:42:21,720 --> 00:42:23,980 ただ、スペースの多くを置く。 805 00:42:23,980 --> 00:42:25,500 文字は相互に関連する。 806 00:42:25,500 --> 00:42:28,680 そして、彼らは一緒にすることができます 二、三、のような。 807 00:42:28,680 --> 00:42:34,520 だから、実際にはいくつかの種類を作成する必要が これらのスペースを置くことの道の。 808 00:42:34,520 --> 00:42:38,850 >> そしてこのことは、あなたが得るときはいつでもということです これらのアジアの言語からのデータを、 809 00:42:38,850 --> 00:42:40,580 すべてがセグメント化されていない来る。 810 00:42:40,580 --> 00:42:45,940 日本を書き込み誰理由 または中国人はスペースで書き込みます。 811 00:42:45,940 --> 00:42:48,200 あなたは中国を書いているときはいつでも、 日本のあなただけのすべてを書く 812 00:42:48,200 --> 00:42:48,710 スペースを入れずに。 813 00:42:48,710 --> 00:42:52,060 それも意味がありません スペースを入れて。 814 00:42:52,060 --> 00:42:57,960 そう、あなたはからデータを取得するときに、いくつかの あなたがしたい場合は、東アジア言語、 815 00:42:57,960 --> 00:43:00,760 実際にそれと何かをする あなたが最初のセグメントする必要があります。 816 00:43:00,760 --> 00:43:05,130 >> の例を行うのではと思います スペースなしの歌詞。 817 00:43:05,130 --> 00:43:07,950 だから、あなたが持っている唯一の歌詞 右、文章になりますか? 818 00:43:07,950 --> 00:43:09,470 ピリオドで区切られた。 819 00:43:09,470 --> 00:43:13,930 しかし、ちょうど文意志を持つ 本当に情報を与えることで助けない 820 00:43:13,930 --> 00:43:17,760 これらの歌詞による誰であるの。 821 00:43:17,760 --> 00:43:18,120 右? 822 00:43:18,120 --> 00:43:20,010 だから、最初に空白を置く必要があります。 823 00:43:20,010 --> 00:43:21,990 それでは、どのようにそれを行うことができますか? 824 00:43:21,990 --> 00:43:24,920 >> それでは、言語のアイデアが来る 本当に何かですモデル 825 00:43:24,920 --> 00:43:26,870 計算のために重要 言語学。 826 00:43:26,870 --> 00:43:32,790 そのように言語モデルは、基本的に ことを示してい確率のテーブル 827 00:43:32,790 --> 00:43:36,260 確率とは何か、まず 言語の単語を持っていることの? 828 00:43:36,260 --> 00:43:39,590 そう言葉がどのように頻繁に示している。 829 00:43:39,590 --> 00:43:43,130 そして、その後も関係を示す 文中の単語間。 830 00:43:43,130 --> 00:43:51,500 >> 見知らぬ人が来たのであれば主なアイデアは、ある あなたとの文に言ったまで 831 00:43:51,500 --> 00:43:55,600 確率のため、というものであるあなた、 例では、「これは私の妹である[?GTF "?] 832 00:43:55,600 --> 00:43:57,480 人が言ったことを文でしたか? 833 00:43:57,480 --> 00:44:00,380 だから、明らかにいくつかの文章があります 他のものよりも一般的。 834 00:44:00,380 --> 00:44:04,450 たとえば、「おはよう」や「良い 夜は、「または」は、ちょっと "だけではありません 835 00:44:04,450 --> 00:44:08,260 最も文章よりも一般的な 私たちは英語を持っていること。 836 00:44:08,260 --> 00:44:11,060 では、なぜこれらの文章がある より頻繁な? 837 00:44:11,060 --> 00:44:14,060 >> あなたが持っているので、まず第一に、それはだ より頻繁に言葉。 838 00:44:14,060 --> 00:44:20,180 あなたが言うのであれば、例えば、犬がある 大きな、そして犬は、巨大です 839 00:44:20,180 --> 00:44:23,880 通常はおそらく大きい犬を聞く より頻繁に "大きな"がよりあるので、 840 00:44:23,880 --> 00:44:27,260 より英語で頻繁に「巨大」。 そのように、一つ 841 00:44:27,260 --> 00:44:30,100 物事は単語の頻度である。 842 00:44:30,100 --> 00:44:34,490 >> 実際に二つ目 重要なのは、単にある 843 00:44:34,490 --> 00:44:35,490 単語の順番。 844 00:44:35,490 --> 00:44:39,500 だから、それは猫である」と言うのが一般的です 。箱の中」はできますが、通常はない 845 00:44:39,500 --> 00:44:44,250 「内側のボックスは猫である」に表示そう あなたには、いくつかの重要性があることを参照してください。 846 00:44:44,250 --> 00:44:46,030 言葉のためである。 847 00:44:46,030 --> 00:44:50,160 あなただけの言うことができないもの2 フレーズは、同じ確率を有する 848 00:44:50,160 --> 00:44:53,010 彼らは同じ言葉を持っているという理由だけで。 849 00:44:53,010 --> 00:44:55,550 実際には気にする必要があります 順序についても同様。 850 00:44:55,550 --> 00:44:57,650 理にかなって? 851 00:44:57,650 --> 00:44:59,490 >> だから我々は何をしますか? 852 00:44:59,490 --> 00:45:01,550 だから、私はあなたを取得しようとするのでしょうか? 853 00:45:01,550 --> 00:45:04,400 私はあなたが私たちを取得しようとしている nグラムモデルを呼び出します。 854 00:45:04,400 --> 00:45:09,095 そのようにnグラムモデルは、基本的に想定し その各単語のこと 855 00:45:09,095 --> 00:45:10,960 あなたが文を持っている。 856 00:45:10,960 --> 00:45:15,020 それが有する確率だと 言葉だけでなくそこに依存します 857 00:45:15,020 --> 00:45:18,395 言語でその単語の頻度、 だけでなく、言葉でその 858 00:45:18,395 --> 00:45:19,860 それを囲むれる。 859 00:45:19,860 --> 00:45:25,810 >> ですから、例えば、通常、あなたが見るとき またはあなたがしている時のようなもの 860 00:45:25,810 --> 00:45:28,040 おそらく見に行く それの後に名詞、右? 861 00:45:28,040 --> 00:45:31,750 なぜならあなたは前置詞を持っているとき 通常、それは後に名詞を取ります。 862 00:45:31,750 --> 00:45:35,540 それとも、他動詞である動詞を持っている場合 通常は、しようとしている 863 00:45:35,540 --> 00:45:36,630 名詞句があります。 864 00:45:36,630 --> 00:45:38,780 だから、名詞を持っているために起こっている その周りのどこか。 865 00:45:38,780 --> 00:45:44,950 >> だから、基本的には、どのようなそれがないと、それがあることである 有する確率を考慮し 866 00:45:44,950 --> 00:45:47,960 つまり隣同士に、とき あなたが計算している 867 00:45:47,960 --> 00:45:49,050 センテンスの確率。 868 00:45:49,050 --> 00:45:50,960 そして、それはどのような言語だ モデルは基本的に。 869 00:45:50,960 --> 00:45:54,620 ただ確率何と言って 特定のを持っていることの 870 00:45:54,620 --> 00:45:57,120 言語の文? 871 00:45:57,120 --> 00:45:59,110 では、なぜそれが基本的には、役立ちましたか? 872 00:45:59,110 --> 00:46:02,390 そして、すべての最初のものです nグラムモデルは、? 873 00:46:02,390 --> 00:46:08,850 >> そのようにnグラムモデルは、意味 各単語が依存 874 00:46:08,850 --> 00:46:12,700 次のNマイナス1言葉。 875 00:46:12,700 --> 00:46:18,150 したがって、基本的に、それは私が見ればことを意味し、 例えば、CS50のTFのとき 876 00:46:18,150 --> 00:46:21,500 Iは、確率を計算するよ 文は、次のようなことでしょう」 877 00:46:21,500 --> 00:46:25,280 単語 ""を有する確率 回」を有する確率 878 00:46:25,280 --> 00:46:31,720 CS50」時代有する確率 「CS50タスクフォース。 "だから、基本的に、私は数え 879 00:46:31,720 --> 00:46:35,720 それを延伸するすべての可能な方法。 880 00:46:35,720 --> 00:46:41,870 >> した後、通常はこれをやっているときに、 プロジェクトのように、あなたがなるように、Nを入れる 881 00:46:41,870 --> 00:46:42,600 低い値。 882 00:46:42,600 --> 00:46:45,930 だから、通常はバイグラムまたは卦を持っている。 883 00:46:45,930 --> 00:46:51,090 あなただけの二つの言葉は、Aを数えるように 2ワード、3単語のグループ、 884 00:46:51,090 --> 00:46:52,620 単にパフォーマンスの問題のために。 885 00:46:52,620 --> 00:46:56,395 またので、多分あなたが持っている場合 のようなもの "CS50タスクフォース。"ときに、 886 00:46:56,395 --> 00:47:00,510 持っている「TFを "と、それは非常に重要だということ 「CS50は「右、それに隣接しています? 887 00:47:00,510 --> 00:47:04,050 これら二点は、通常、 隣同士に。 888 00:47:04,050 --> 00:47:06,410 >> あなたが考える場合は「TF、​​ "それはおそらく 何を持っているつもり 889 00:47:06,410 --> 00:47:07,890 それがためにTF'ingだクラス。 890 00:47:07,890 --> 00:47:11,330 また、 ""は本当に重要です CS50タスクフォースのため。 891 00:47:11,330 --> 00:47:14,570 しかし、あなたは「CS50のようなものを持っている場合 タスクフォースは、クラスに行って、自分のを与えた 892 00:47:14,570 --> 00:47:20,060 学生お菓子」「キャンディ」と「」 右、本当に関係ない? 893 00:47:20,060 --> 00:47:23,670 彼らはお互いにそう遠くだ それは実際にどのような問題ではありません 894 00:47:23,670 --> 00:47:25,050 あなたが持っている言葉。 895 00:47:25,050 --> 00:47:31,210 >> そうバイグラムまたはトライグラムにすることで、 ちょうどあなたが制限していることを意味します 896 00:47:31,210 --> 00:47:33,430 自分自身いくつかの単語に そのまわりにある。 897 00:47:33,430 --> 00:47:35,810 理にかなって? 898 00:47:35,810 --> 00:47:40,630 ですから、セグメンテーションを行いたい場合には、 基本的に、何をあなたがしたいことを参照してくださいです 899 00:47:40,630 --> 00:47:44,850 すべての可能な方法はどのようなものであることを あなたは、セグメントの文章をことができます。 900 00:47:44,850 --> 00:47:49,090 >> あなたが何であるかを見ているような これらのフレーズの各々の確率 901 00:47:49,090 --> 00:47:50,880 言語で、既存の? 902 00:47:50,880 --> 00:47:53,410 それでは、あなたが行うことは、十分に、しましょう​​、のようなものです 私はここにスペースを入れてみてください。 903 00:47:53,410 --> 00:47:55,570 だから、そこにスペースを入れて あなたが何であるかを参照してください。 904 00:47:55,570 --> 00:47:57,590 その文の確率? 905 00:47:57,590 --> 00:48:00,240 その後、多分、[OK]を、のようなもの それはよくありませんでした。 906 00:48:00,240 --> 00:48:03,420 だから私はそこにスペースとスペースを入れる そこに、あなたが計算 907 00:48:03,420 --> 00:48:06,240 確率今、あなたがいることがわかり それは高い確率だ。 908 00:48:06,240 --> 00:48:12,160 >> だから、これはタンゴと呼ばれるアルゴリズムである あるセグメント化アルゴリズム、 909 00:48:12,160 --> 00:48:14,990 実際には本当になると何か これは、プロジェクトのために冷却する 910 00:48:14,990 --> 00:48:20,860 基本的にセグメント化されていないテキストをとる 日本語や中国語または多分することができます 911 00:48:20,860 --> 00:48:26,080 英語領域を使わないとputしようとします 言葉とそれがない間のスペース 912 00:48:26,080 --> 00:48:29,120 言語モデルを用いて、そのかつ 最高であるかを確認しようとしてい 913 00:48:29,120 --> 00:48:31,270 あなたが得ることができる確率が高くなる。 914 00:48:31,270 --> 00:48:32,230 [OK]をクリックします。 915 00:48:32,230 --> 00:48:33,800 だから、これはセグメント化である。 916 00:48:33,800 --> 00:48:35,450 >> 今構文。 917 00:48:35,450 --> 00:48:40,940 だから、構文は次のとおりに使用されている 今たくさんのこと。 918 00:48:40,940 --> 00:48:44,880 グラフ検索のため、シリ用のためにそう 自然のほとんどすべての種類 919 00:48:44,880 --> 00:48:46,490 あなたが持っている言語処理。 920 00:48:46,490 --> 00:48:49,140 とても重要なことである 構文についての事? 921 00:48:49,140 --> 00:48:52,390 だから、一般的に文章が持っている 私たちは、構成要素と呼んでいるもの。 922 00:48:52,390 --> 00:48:57,080 どの種類の言葉のグループのようなもの 文中の機能を有すること。 923 00:48:57,080 --> 00:49:02,220 そして、彼らは本当にすることはできません 互いに離れて。 924 00:49:02,220 --> 00:49:07,380 >> 私が言うのであれば、例えば、「ローレンは大好き ミロ。ローレン」が「私がいることを知っている " 925 00:49:07,380 --> 00:49:10,180 構成要素とし、 "愛 ミロ "も別の1つです。 926 00:49:10,180 --> 00:49:16,860 あなたは「ローレン·ミロのように言うことができないので、 同じ意味を持つこと」が大好き。 927 00:49:16,860 --> 00:49:18,020 それは持っているつもりはない 同じ意味。 928 00:49:18,020 --> 00:49:22,500 または私はミロローレン "のように言うことができない 愛している "すべてが同じを持っていない 929 00:49:22,500 --> 00:49:25,890 それをやって意味。 930 00:49:25,890 --> 00:49:31,940 >> だから、約2もっと重要なことは、 構文は次のとおりです。字句タイプです 931 00:49:31,940 --> 00:49:35,390 基本的に、関数 自らの言葉を持っている。 932 00:49:35,390 --> 00:49:39,180 だから、あなたが知っている必要があること」ローレン」 と "ミロ"は名詞である。 933 00:49:39,180 --> 00:49:41,040 "愛"は動詞である。 934 00:49:41,040 --> 00:49:45,660 そして第二の重要なことは 彼らは句のタイプだということ。 935 00:49:45,660 --> 00:49:48,990 だから、「ミロを愛する」ことを知っている 実際に動詞句である。 936 00:49:48,990 --> 00:49:52,390 だから私は、私がいることを知っている "、ローレン"と言うとき、 ローレンは、何かをしている。 937 00:49:52,390 --> 00:49:53,620 彼女は何をやっている? 938 00:49:53,620 --> 00:49:54,570 彼女はミロを愛するだ。 939 00:49:54,570 --> 00:49:56,440 だから、全体のことだ。 940 00:49:56,440 --> 00:50:01,640 しかし、その構成要素である 名詞と動詞。 941 00:50:01,640 --> 00:50:04,210 しかし、一緒に、彼らは動詞句を作る。 942 00:50:04,210 --> 00:50:08,680 >> だから、私たちは実際に何ができる 計算言語学? 943 00:50:08,680 --> 00:50:13,810 だから、私は何かを持っている場合は 「アリソンの友人。 "私が表示された場合、私だけ 944 00:50:13,810 --> 00:50:17,440 構文木は、私が知っているだろうなかったこと 「友人は「それが名詞句である 945 00:50:17,440 --> 00:50:21,480 「アリソンの「それから名詞とは 「の」の前置詞句がある 946 00:50:21,480 --> 00:50:24,810 命題と "アリソン"は名詞である。 947 00:50:24,810 --> 00:50:30,910 私は何ができることは、私のコンピュータを教えるです その私が名詞句1を持っているとき 948 00:50:30,910 --> 00:50:33,080 その後、前置詞句。 949 00:50:33,080 --> 00:50:39,020 の "その後、この場合は、「友人」だからと ミロ「私はこれがあることを意味していることを知っている 950 00:50:39,020 --> 00:50:43,110 NP2は​​、第1には、NP1を所有しています。 951 00:50:43,110 --> 00:50:47,680 >> だから私は関係のいくつかの種類を作成することができ、 それのための機能のいくつかの種類。 952 00:50:47,680 --> 00:50:52,370 だから私は、この構造を見るたびに、その の友人」と正確に一致する 953 00:50:52,370 --> 00:50:56,030 アリソンは、「私が知っているアリソン 友人が所有しています。 954 00:50:56,030 --> 00:50:58,830 だから友達が何かある アリソンは、持っていること。 955 00:50:58,830 --> 00:50:59,610 理にかなっている? 956 00:50:59,610 --> 00:51:01,770 だから、これは基本的には何ですか グラフ探索していますか。 957 00:51:01,770 --> 00:51:04,360 それだけで、ルールを作成します。 多くのことのために。 958 00:51:04,360 --> 00:51:08,190 だから、「アリソンの友人」「私の友人 私の友人は「 "ケンブリッジ、誰が住んでいる 959 00:51:08,190 --> 00:51:12,970 ハーバード大学に行く人。「それは、ルールを作成し、 それらのもののすべてのため。 960 00:51:12,970 --> 00:51:14,930 >> 今機械翻訳。 961 00:51:14,930 --> 00:51:18,850 そのため、機械翻訳でもある 統計的なもの。 962 00:51:18,850 --> 00:51:21,340 そして、実際にあなたがに巻き込ま場合は、 計算言語学、多くの 963 00:51:21,340 --> 00:51:23,580 自分のものは、統計になるだろう。 964 00:51:23,580 --> 00:51:26,670 私は、との例をしていたように 私がいた確率がたくさん 965 00:51:26,670 --> 00:51:30,540 計算した後、あなたはこのに行く 最終の非常に少ない数 966 00:51:30,540 --> 00:51:33,180 確率、それが何 あなたの答えを与える。 967 00:51:33,180 --> 00:51:37,540 機械翻訳にも使用しています 統計モデル。 968 00:51:37,540 --> 00:51:44,790 そして、あなたは、マシンを考えたい場合 最も単純な内訳 969 00:51:44,790 --> 00:51:48,970 方法は、あなたが考えることができることだけである 右、単語、単語を翻訳? 970 00:51:48,970 --> 00:51:52,150 >> あなたが使用する言語を学習しているときは 初めて、それは通常、何 971 00:51:52,150 --> 00:51:52,910 あなたは正しい、のですか? 972 00:51:52,910 --> 00:51:57,050 あなたがしたい場合は、センテンスを翻訳 言語にあなたの言語で 973 00:51:57,050 --> 00:52:00,060 あなたは、通常、最初に、学習している 各単語を翻訳 974 00:52:00,060 --> 00:52:03,180 個別に、次にあなたがしよう 所定の場所に言葉を入れて。 975 00:52:03,180 --> 00:52:07,100 >> だから、私はこれを翻訳したい場合、 [ポルトガル語を話す] 976 00:52:07,100 --> 00:52:10,430 「白猫が逃げた。」を意味する 私はからそれを変換したい場合 977 00:52:10,430 --> 00:52:13,650 英語からポルトガル、どのような私 何ができる私は、まず、 978 00:52:13,650 --> 00:52:14,800 ワード単位で変換します。 979 00:52:14,800 --> 00:52:20,570 そのように「○」は「猫 ""、 ""ガトー」である 「ブランコ」、「白」、次に「fugio」です 980 00:52:20,570 --> 00:52:21,650 「逃げた。 " 981 00:52:21,650 --> 00:52:26,130 >> だから、私は、ここにすべての単語を持っている しかし、彼らは順番ではありませんね。 982 00:52:26,130 --> 00:52:29,590 それは、 "猫の白が逃げた」ようなものだ これは非文法的である。 983 00:52:29,590 --> 00:52:34,490 だから、私は第二段階を持つことができる 理想的なの発見されようとしている 984 00:52:34,490 --> 00:52:36,610 各単語のための位置。 985 00:52:36,610 --> 00:52:40,240 だから私は、私が実際にしたいことを知っている 「白猫 "の代わりに"猫の白。 "そう 986 00:52:40,240 --> 00:52:46,050 私ができることは、最も単純な方法であり、 すべて作成することです 987 00:52:46,050 --> 00:52:49,720 の可能な順列 ポジションの言葉。 988 00:52:49,720 --> 00:52:53,300 して、1が持っているかを確認 最も高い確率に従って 989 00:52:53,300 --> 00:52:54,970 私の言語モデルに。 990 00:52:54,970 --> 00:52:58,390 そして、私が持っているものを見つけるとき で最も高い確率IT、 991 00:52:58,390 --> 00:53:01,910 おそらく「白猫は、逃げた " それが私の訳です。 992 00:53:01,910 --> 00:53:06,710 >> そして、これは説明の簡単な方法です どのように機械翻訳の多く 993 00:53:06,710 --> 00:53:07,910 アルゴリズムが働く。 994 00:53:07,910 --> 00:53:08,920 それは理にかなっていますか? 995 00:53:08,920 --> 00:53:12,735 また、これは本当にエキサイティングなものである あなたたちは、おそらくのために探索することができていること 996 00:53:12,735 --> 00:53:13,901 最終的なプロジェクト、ええ? 997 00:53:13,901 --> 00:53:15,549 >> 学生:さて、あなたはそれがあったと述べ 素朴な方法なので、何が 998 00:53:15,549 --> 00:53:17,200 非素朴な方法? 999 00:53:17,200 --> 00:53:18,400 >> LUCASフレイタス:非素朴な方法? 1000 00:53:18,400 --> 00:53:19,050 [OK]をクリックします。 1001 00:53:19,050 --> 00:53:22,860 約悪いので、まず最初に この方法では、私はちょうど翻訳ということです 1002 00:53:22,860 --> 00:53:24,330 つまり、言葉による言葉。 1003 00:53:24,330 --> 00:53:30,570 しかし、時にはあなたは言葉を持っている 複数の翻訳を持つことができます。 1004 00:53:30,570 --> 00:53:32,210 私が考えて試してみるつもりだ 何か。 1005 00:53:32,210 --> 00:53:37,270 ポルトガルCANの例では、 "マンガ" も「マングル」または「スリーブ」のどちらかそう 1006 00:53:37,270 --> 00:53:40,450 あなたは単語を翻訳しようとしているとき 言葉で、それはあなたを与える可能性があります 1007 00:53:40,450 --> 00:53:42,050 意味がありません何か。 1008 00:53:42,050 --> 00:53:45,770 >> だから、実際にはまったく見てあなたにしたい の可能な翻訳 1009 00:53:45,770 --> 00:53:49,840 単語や参照、まず第一に、 オーダーは何ですか。 1010 00:53:49,840 --> 00:53:52,000 私たちは、並べ替えるを話していた 物事? 1011 00:53:52,000 --> 00:53:54,150 可能なすべての注文を参照して、 最高のものを選ぶ 1012 00:53:54,150 --> 00:53:54,990 確率? 1013 00:53:54,990 --> 00:53:57,860 また、すべての可能なを選択することができます それぞれの翻訳 1014 00:53:57,860 --> 00:54:00,510 単語として参照してください - 1015 00:54:00,510 --> 00:54:01,950 順列と組み合わせ - 1016 00:54:01,950 --> 00:54:03,710 その1は、最も高い確率を持っています。 1017 00:54:03,710 --> 00:54:08,590 >> さらに、あなたもしないで見ることができる 単語だけが、フレーズ。 1018 00:54:08,590 --> 00:54:11,700 だから、間の関係を分析することができます 言葉、次に取得 1019 00:54:11,700 --> 00:54:13,210 より良い翻訳。 1020 00:54:13,210 --> 00:54:16,690 また、何か他のものなので、今学期 私は実際に研究をしています 1021 00:54:16,690 --> 00:54:19,430 中国語 - 英語機械翻訳、 これから翻訳 1022 00:54:19,430 --> 00:54:20,940 英語に中国人。 1023 00:54:20,940 --> 00:54:26,760 >> そして我々は何かが使用する以外、ある ただで統計モデル、 1024 00:54:26,760 --> 00:54:30,570 見ての確率を見て 文中のある位置、私は 1025 00:54:30,570 --> 00:54:35,360 実際にも、私のためにいくつかの構文を追加する モデル、私はこの種を見れば、ああ、言って 1026 00:54:35,360 --> 00:54:39,420 建設した、これは私が欲しいものである 私が翻訳したときにそれを変更します。 1027 00:54:39,420 --> 00:54:43,880 だから、あなたはまた、いくつかの種類を追加することができます 確認するための構文の要素 1028 00:54:43,880 --> 00:54:47,970 翻訳をより効率的 より正確な。 1029 00:54:47,970 --> 00:54:48,550 [OK]をクリックします。 1030 00:54:48,550 --> 00:54:51,010 >> あなたが望むのであれば、あなたは、どのように始めることができます 計算で何かをする 1031 00:54:51,010 --> 00:54:51,980 言語学? 1032 00:54:51,980 --> 00:54:54,560 >> まず、プロジェクトを選択 つまり、言語を必要とする。 1033 00:54:54,560 --> 00:54:56,310 だから、そこに非常に多くのがあります。 1034 00:54:56,310 --> 00:54:58,420 あなたが行うことができますので、多くのことがあります。 1035 00:54:58,420 --> 00:55:00,510 し、モデルと考えることができます あなたが使用できる。 1036 00:55:00,510 --> 00:55:04,710 通常、それはの思考を意味し 仮定、私がいたとき、ああ、など 1037 00:55:04,710 --> 00:55:05,770 歌詞を考えよう。 1038 00:55:05,770 --> 00:55:09,510 私が理解したい場合、私は、よく、のようだった これを書いた人を、私はおそらくしたい 1039 00:55:09,510 --> 00:55:15,400 使用された単語を見て、人と 非常に多くの場合、その単語を使用しています誰が参照してください。 1040 00:55:15,400 --> 00:55:18,470 そう仮定を作ってみると、 モデルを考えてみてください。 1041 00:55:18,470 --> 00:55:21,395 そして、あなたはまた、オンラインで検索することができます あなたが持っている問題の種類、 1042 00:55:21,395 --> 00:55:24,260 それが示唆するようになるだろう 多分あなたのモデルに 1043 00:55:24,260 --> 00:55:26,560 よくそのことをモデル化した。 1044 00:55:26,560 --> 00:55:29,080 >> そしてまた、あなたはいつも私を電子メールで送信できます。 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com。 1046 00:55:31,140 --> 00:55:34,940 と私はあなたの質問に答えることができます。 1047 00:55:34,940 --> 00:55:38,600 我々はそうであっても私ができる会うかもしれないことができます の方法についての提案を与える 1048 00:55:38,600 --> 00:55:41,490 プロジェクトを実施する。 1049 00:55:41,490 --> 00:55:45,610 あなたと巻き込まあれば私は意味 計算言語学、それが起こっている 1050 00:55:45,610 --> 00:55:46,790 素晴らしいことです。 1051 00:55:46,790 --> 00:55:48,370 あなたはそこに見ることになるだろう そんなに可能性がある。 1052 00:55:48,370 --> 00:55:52,060 そして業界が雇用を希望 そのための、あなたが悪い。 1053 00:55:52,060 --> 00:55:54,720 だから私はあなたたちがこれを楽しんでほしい。 1054 00:55:54,720 --> 00:55:57,030 君たちは不明な点がございましたら、 あなたは、この後に私に尋ねることができます。 1055 00:55:57,030 --> 00:55:58,280 しかし、あなたに感謝します。 1056 00:55:58,280 --> 00:56:00,150