1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> LUCASフレイタス：ちょっと。

3
00:00:08,870 --> 00:00:09,980
すべての人を歓迎します。

4
00:00:09,980 --> 00:00:11,216
私の名前はルーカスフレイタスです。

5
00:00:11,216 --> 00:00:15,220
私は勉強[聞こえない]の3年生だ
内を中心としたコンピュータサイエンス

6
00:00:15,220 --> 00:00:16,410
計算言語学。

7
00:00:16,410 --> 00:00:19,310
だから私の二言語である
および言語理論。

8
00:00:19,310 --> 00:00:21,870
私はあなたたちを教えるのは本当に興奮している
フィールドについて少し。

9
00:00:21,870 --> 00:00:24,300
それは勉強する非常にエキサイティングなエリアです。

10
00:00:24,300 --> 00:00:27,260
また、多くの可能性と
将来のために。

11
00:00:27,260 --> 00:00:30,160
だから、私は本当に興奮していることをあなたたち
プロジェクトを検討している

12
00:00:30,160 --> 00:00:31,160
計算言語学。

13
00:00:31,160 --> 00:00:35,460
そして、私は助言するよりも幸せになるでしょう
あなたの任意のあなたがすることを決定した場合

14
00:00:35,460 --> 00:00:37,090
それらのいずれかを追求しています。

15
00:00:37,090 --> 00:00:40,010
>> 計算が何であるか、すべてのそのように最初の
言語学？

16
00:00:40,010 --> 00:00:44,630
そう計算言語学である
言語学との交点

17
00:00:44,630 --> 00:00:46,390
コンピュータサイエンス。

18
00:00:46,390 --> 00:00:47,415
だから、言語学とは何でしょうか？

19
00:00:47,415 --> 00:00:48,490
コンピュータサイエンスとは何ですか？

20
00:00:48,490 --> 00:00:51,580
さて言語学から、どのような
我々は言語である取る。

21
00:00:51,580 --> 00:00:54,960
だから、言語学は実際に研究である
一般的に、自然言語の。

22
00:00:54,960 --> 00:00:58,330
だから、自然言語 - 我々は話を
私たちが実際に使用している言語

23
00:00:58,330 --> 00:00:59,770
相互に通信します。

24
00:00:59,770 --> 00:01:02,200
だから我々は正確に話していない
CやJavaについて。

25
00:01:02,200 --> 00:01:05,900
私たちは、英語とについての詳細を話している
その我々の中国と他の言語

26
00:01:05,900 --> 00:01:07,780
互いに通信するために使用します。

27
00:01:07,780 --> 00:01:12,470
>> そのことについて挑戦的なことは、
今、我々は持っている、ほとんど7000

28
00:01:12,470 --> 00:01:14,260
世界の言語。

29
00:01:14,260 --> 00:01:19,520
だから、かなり高いものが用意されてい
我々は勉強できる言語の。

30
00:01:19,520 --> 00:01:22,600
そして、あなたはそれはおそらくだと思う
行うのは非常に難しい、例えば、

31
00:01:22,600 --> 00:01:26,960
1つの言語からの翻訳
その他、あなたが持っていることを考えると

32
00:01:26,960 --> 00:01:28,240
ほぼ7000そのうち。

33
00:01:28,240 --> 00:01:31,450
だから、あなたは翻訳を行うのではと思われる場合
1言語から他のお客様へ

34
00:01:31,450 --> 00:01:35,840
万人のほぼ多くを持っている
そのあなたができるさまざまな組み合わせ

35
00:01:35,840 --> 00:01:37,330
言語から言語する必要があります。

36
00:01:37,330 --> 00:01:40,820
だから、実際にいくつかを行うには挑戦的
たとえば翻訳システムの種類

37
00:01:40,820 --> 00:01:43,540
一つ一つの言語。

38
00:01:43,540 --> 00:01:47,120
>> 構文を持つので、言語学のおやつ、
意味論、語用論。

39
00:01:47,120 --> 00:01:49,550
あなたたちは正確にする必要はありません
彼らが何であるかを知っている。

40
00:01:49,550 --> 00:01:55,090
しかし、非常に興味深いのは、ということです
あなたが学ぶネイティブスピーカー、など

41
00:01:55,090 --> 00:01:59,010
子供の言語、実際に学ぶ
それらのもののすべて - 構文のセマンティクス

42
00:01:59,010 --> 00:02:00,500
と語用論 - 

43
00:02:00,500 --> 00:02:01,430
自分で。

44
00:02:01,430 --> 00:02:04,820
そして誰ものためのあなたの構文を教えるために持っていません
あなたは文章であるかを理解するために

45
00:02:04,820 --> 00:02:05,290
構造化。

46
00:02:05,290 --> 00:02:07,980
だから、それは本当に面白いですので、
それは非常に来るものだ

47
00:02:07,980 --> 00:02:10,389
直感的に。

48
00:02:10,389 --> 00:02:13,190
>> そして、あなたは何を取っている
コンピュータサイエンス？

49
00:02:13,190 --> 00:02:16,700
我々だけでなく、最も重要なこと
コンピュータサイエンスを持っていることの最初のものです

50
00:02:16,700 --> 00:02:19,340
すべて、人工知能
機械学習。

51
00:02:19,340 --> 00:02:22,610
そこで、我々はそうしようとしているもの
計算言語学ティーチです

52
00:02:22,610 --> 00:02:26,990
お使いのコンピュータに何かをする方法
言語と。

53
00:02:26,990 --> 00:02:28,630
>> したがって、たとえば、機械で
翻訳。

54
00:02:28,630 --> 00:02:32,490
私はどのように自分のコンピュータを教えることをしようとしている
1へ遷移する方法を知っている

55
00:02:32,490 --> 00:02:33,310
他の言語。

56
00:02:33,310 --> 00:02:35,790
したがって、基本的に教えるような
コンピュータ2の言語。

57
00:02:35,790 --> 00:02:38,870
私は、自然言語処理を行う場合、
例についてはそうである

58
00:02:38,870 --> 00:02:41,810
あなたが教えるFacebookのグラフを検索、
お使いのコンピュータ方法を理解する

59
00:02:41,810 --> 00:02:42,730
よくクエリ。

60
00:02:42,730 --> 00:02:48,130
>> だから、あなたは「私の写真を言えば
友人は「Facebookは扱わない

61
00:02:48,130 --> 00:02:51,130
持って全体を文字列として
単語のちょうど束。

62
00:02:51,130 --> 00:02:56,020
これは、実際の関係を理解し​​て
「写真」と「私の友人」との間で

63
00:02:56,020 --> 00:02:59,620
「写真」であることを理解している
のプロパティ "私の友人。"

64
00:02:59,620 --> 00:03:02,350
>> だから、それは、例えば、の一部である
自然言語処理。

65
00:03:02,350 --> 00:03:04,790
それは何を理解しようとしている
との間の関係である

66
00:03:04,790 --> 00:03:07,520
文中の語。

67
00:03:07,520 --> 00:03:11,170
そして大きな問題は、次のことができている
話すことをどのようにコンピュータを教える

68
00:03:11,170 --> 00:03:12,650
一般的に言語？

69
00:03:12,650 --> 00:03:17,810
非常に興味深い質問へである
将来的には多分あるかのように、考えて、

70
00:03:17,810 --> 00:03:19,930
次のことができるようにするつもりだ
あなたの携帯電話に話す。

71
00:03:19,930 --> 00:03:23,290
種類の我々はシリに何をすべきかに似ていますが、
より多くの何かのように、あなたが実際にすることができ

72
00:03:23,290 --> 00:03:25,690
好きなことを言うと電話
すべてを理解しようとしている。

73
00:03:25,690 --> 00:03:28,350
そして、それが質問にフォローアップすることができ
と話を続ける。

74
00:03:28,350 --> 00:03:30,880
それは本当にエキサイティングなものですが、
私の意見で。

75
00:03:30,880 --> 00:03:33,070
>> だから、自然言語について何か。

76
00:03:33,070 --> 00:03:36,220
本当に面白いもの
自然言語は、であり、これは

77
00:03:36,220 --> 00:03:38,470
私の言語学教授の功績によるもの、
マリア·ポリンスキー。

78
00:03:38,470 --> 00:03:40,830
彼女は例を与え、私は思う
それは本当に面白いです。

79
00:03:40,830 --> 00:03:47,060
私たちはいつから言語を学ぶので、
我々は我々のネイティブその後生まれている

80
00:03:47,060 --> 00:03:49,170
言語は一種の私たちに成長する。

81
00:03:49,170 --> 00:03:52,570
>> そして基本的には、言語を学ぶ
最小限の入力から、右？

82
00:03:52,570 --> 00:03:56,700
あなたは自分からの入力を取得している
お使いの言語が鳴るものの両親

83
00:03:56,700 --> 00:03:58,770
のような、あなたはそれを学ぶ。

84
00:03:58,770 --> 00:04:02,240
あなたが見ればのでそう、それは面白いです
これらの文章で、例えば。

85
00:04:02,240 --> 00:04:06,980
あなたが見て、「メアリーは、すべてのコートの上に置いて
彼女は家を出る時間」

86
00:04:06,980 --> 00:04:10,650
>> この場合には、持っている可能性があります
単語 "彼女は「右、メアリーを参照してください？

87
00:04:10,650 --> 00:04:13,500
あなたは、「メアリーはコートの上に置いて言うことができます
メアリーは葉毎回

88
00:04:13,500 --> 00:04:14,960
家。「だから、大丈夫です。

89
00:04:14,960 --> 00:04:19,370
しかし、あなたが文を見れば
「彼女は、メアリーのコート上のすべての時間を置く

90
00:04:19,370 --> 00:04:22,850
家を離れた。「あなたはそれがあることを知っている
"彼女"であることを言うことは不可能

91
00:04:22,850 --> 00:04:24,260
メアリーを参照。

92
00:04:24,260 --> 00:04:27,070
>> メアリーは置く」というの方法はありません
コー​​ト上のすべての時間メアリーの葉

93
00:04:27,070 --> 00:04:30,790
家は。」だから、面白いだから
これは直感のようなものです。

94
00:04:30,790 --> 00:04:32,890
すべてのネイティブスピーカーが持っていること。

95
00:04:32,890 --> 00:04:36,370
そして誰もが、これがあることを教えられなかった
構文の動作方法。

96
00:04:36,370 --> 00:04:41,930
そして、あなたは、この "彼女"を持つことができること
この最初のケースではメアリーを参照すると、

97
00:04:41,930 --> 00:04:44,260
そして実際にこの他にある
あまりにもではなく、この1中。

98
00:04:44,260 --> 00:04:46,500
しかし、誰もがこの種の取得
同じ答えに。

99
00:04:46,500 --> 00:04:48,580
誰もがその上で同意します。

100
00:04:48,580 --> 00:04:53,280
だから、どのようにが、本当に面白いです
あなたはすべてのルールを知らない

101
00:04:53,280 --> 00:04:55,575
あなたの言語では、種類の理解
言語がどのように機能する。

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> とても自然で興味深い
言語は、あなたがする必要がないことです

104
00:05:01,530 --> 00:05:06,970
知っている任意の構文を知っていれば、文
のための文法的あるいは非文法的である

105
00:05:06,970 --> 00:05:08,810
ほとんどの場合。

106
00:05:08,810 --> 00:05:13,220
あなたはと思わせるものかもしれないものを
起こることは、あなたは、あなたの人生を介して行われ

107
00:05:13,220 --> 00:05:17,410
ただ、より多くを得ておく
文章はあなたに語った。

108
00:05:17,410 --> 00:05:19,800
そして、あなたは覚えておく
文章がすべて表示されます。

109
00:05:19,800 --> 00:05:24,230
して、誰かがあなたに伝えたとき
何か、あなたがその文を聞き、

110
00:05:24,230 --> 00:05:27,040
あなたの語彙を見て
文章のと表示された場合

111
00:05:27,040 --> 00:05:28,270
その文があります。

112
00:05:28,270 --> 00:05:29,830
そして、それはそこにある場合
それは文法的だと言う。

113
00:05:29,830 --> 00:05:31,740
そうでない場合は、それがだと言う
非文法的。

114
00:05:31,740 --> 00:05:35,150
>> だから、その場合、あなたは、ああ、と言うでしょう
だから、すべての巨大なリストを持っている

115
00:05:35,150 --> 00:05:36,140
可能な文章。

116
00:05:36,140 --> 00:05:38,240
してから、文を聞いたとき、
それは文法的だかどうかは知っている

117
00:05:38,240 --> 00:05:39,450
それに基づいていない。

118
00:05:39,450 --> 00:05:42,360
ことは、あなたが見れば、ということです
文章、例えば、「

119
00:05:42,360 --> 00:05:47,540
5頭CS50のTFは盲目の調理
DAPAマグを使ってタコ。「イッツ·

120
00:05:47,540 --> 00:05:49,630
絶対にない文
あなたが前に聞いた。

121
00:05:49,630 --> 00:05:52,380
しかし同時にそれは知っている
右、文法的なほとんど？

122
00:05:52,380 --> 00:05:55,570
文法的に間違いはありません
あなたが言うことができる

123
00:05:55,570 --> 00:05:57,020
それは可能文です。

124
00:05:57,020 --> 00:06:01,300
>> だから、私たちは、その実際に考えさせる
我々は言語を習得する方法だけではありません

125
00:06:01,300 --> 00:06:07,090
可能性の巨大なデータベースを有することにより、
単語や文章が、より多くの

126
00:06:07,090 --> 00:06:11,490
との関係を理解すること
これらの文章中の単語。

127
00:06:11,490 --> 00:06:14,570
それは理にかなっていますか？

128
00:06:14,570 --> 00:06:19,370
だから、その後の質問は、することができますです
コンピュータは、言語を学ぶのか？

129
00:06:19,370 --> 00:06:21,490
私たちはコンピュータに、言語を教えることはできますか？

130
00:06:21,490 --> 00:06:24,230
>> それでは、違いを考えてみましょう
言語のネイティブスピーカーとの間に

131
00:06:24,230 --> 00:06:25,460
とコンピュータ。

132
00:06:25,460 --> 00:06:27,340
だから、何がスピーカーになりますか？

133
00:06:27,340 --> 00:06:30,430
さて、ネイティブスピーカーを学習
それへの暴露から言語。

134
00:06:30,430 --> 00:06:34,200
通常、その幼児年。

135
00:06:34,200 --> 00:06:38,570
したがって、基本的に、あなただけの、赤ちゃんを持っている
そしてあなたはそれに話しておくと、それ

136
00:06:38,570 --> 00:06:40,540
ただ話す方法を学ぶ
言語、右？

137
00:06:40,540 --> 00:06:42,660
だから、あなたは基本的に与えている
赤ちゃんへの入力。

138
00:06:42,660 --> 00:06:45,200
だから、あなたが主張することができ、そのコンピュータ
右、同じことを行うことができますか？

139
00:06:45,200 --> 00:06:49,510
あなただけの言語を与えることができます
コンピュータへの入力として。

140
00:06:49,510 --> 00:06:53,410
>> 例えばなどのファイルの束
英語の本を持っている。

141
00:06:53,410 --> 00:06:56,190
多分それはあなた1の方法だ
おそらく教えることができる

142
00:06:56,190 --> 00:06:57,850
コンピュータ英語、右？

143
00:06:57,850 --> 00:07:01,000
実際には、あなたが考えてみれば、
それは多分カップルを移動します

144
00:07:01,000 --> 00:07:02,680
日本を読むこと。

145
00:07:02,680 --> 00:07:05,760
コンピュータにとっては、2番目を取る
ブック内のすべての単語を見てください。

146
00:07:05,760 --> 00:07:10,810
だから、それがちょうどこのかもしれないと思うことができます
あなたの周りからの入力引数、

147
00:07:10,810 --> 00:07:15,440
それはそれがだと言うには十分ではありません
人間だけが行うことができるもの。

148
00:07:15,440 --> 00:07:17,680
あなたはコンピュータを考えることができます
また、入力を得ることができます。

149
00:07:17,680 --> 00:07:21,170
>> 2つ目はネイティブスピーカー
また、持って脳を持っている

150
00:07:21,170 --> 00:07:23,870
語学学習機能。

151
00:07:23,870 --> 00:07:27,020
しかし、あなたが考えてみれば、
脳は立体物である。

152
00:07:27,020 --> 00:07:30,450
あなたが生まれている場合は、既に設定されている - 

153
00:07:30,450 --> 00:07:31,320
これはあなたの脳です。

154
00:07:31,320 --> 00:07:34,660
あなたが育つようにと、あなただけの多くを得る
言語の入力と多分栄養素

155
00:07:34,660 --> 00:07:35,960
や他のもの。

156
00:07:35,960 --> 00:07:38,170
しかし、ほとんどあなたの脳
固体のものです。

157
00:07:38,170 --> 00:07:41,290
>> だから、まあ、あなたができる、と言うことができます
の束を持ってコンピュータを構築

158
00:07:41,290 --> 00:07:45,890
ただ模倣する関数とメソッド
語学学習機能。

159
00:07:45,890 --> 00:07:49,630
だから、そういう意味では、私は、よく、言うことができる
すべてされているコンピュータを持つことができます

160
00:07:49,630 --> 00:07:52,270
私は言語を習得する必要があるもの。

161
00:07:52,270 --> 00:07:56,200
そして最後の事はことをネイティブである
スピーカーは、試行錯誤から学ぶ。

162
00:07:56,200 --> 00:08:01,090
そこで、基本的に別の重要なことにある
言語学習はあなた優しいということです

163
00:08:01,090 --> 00:08:05,340
作りで物事を学ぶ
あなたが聞くものの一般化。

164
00:08:05,340 --> 00:08:10,280
>> あなたが育っているようにあなたがいることを学ぶ
いくつかの単語は、より多くの名詞のようなもので、

165
00:08:10,280 --> 00:08:11,820
他のいくつかのものは形容詞です。

166
00:08:11,820 --> 00:08:14,250
そして、あなたはいずれかを持っている必要はありません
言語学の知識

167
00:08:14,250 --> 00:08:15,040
それを理解する。

168
00:08:15,040 --> 00:08:18,560
しかし、あなただけのいくつかの単語があると知っている
の一部に配置されている

169
00:08:18,560 --> 00:08:22,570
文と他のいくつかの他のもの
文章の一部。

170
00:08:22,570 --> 00:08:26,110
>> そして、それは何かを行うときに
正しくない文のように - 

171
00:08:26,110 --> 00:08:28,770
多分理由オーバー一般化
次に例を示します。

172
00:08:28,770 --> 00:08:32,210
あなたが成長しているときに、多分、あなたが気づく
複数形は通常であること

173
00:08:32,210 --> 00:08:35,809
のSを入れて形成された
単語の終わり。

174
00:08:35,809 --> 00:08:40,042
そして、あなたは、複数のをやろう
「鹿」や「歯」のように "鹿"

175
00:08:40,042 --> 00:08:44,780
「tooths。 "それでは、あなたの両親や
誰かがあなたを修正し、言ういいえ、

176
00:08:44,780 --> 00:08:49,020
「鹿」の複数形は「鹿」であり、
「歯」の複数形は「歯」です。その後

177
00:08:49,020 --> 00:08:50,060
あなたはそれらの事を学びます。

178
00:08:50,060 --> 00:08:51,520
だから、試行錯誤から学ぶ。

179
00:08:51,520 --> 00:08:53,100
>> しかし、あなたはまた、それを行うことができます
コンピュータと。

180
00:08:53,100 --> 00:08:55,310
あなたはと呼ばれるものを持つことができます
強化学習。

181
00:08:55,310 --> 00:08:58,560
与えているようなものは基本的にある
それがないときはいつでも、コンピュータの報酬

182
00:08:58,560 --> 00:08:59,410
正しく何か。

183
00:08:59,410 --> 00:09:04,710
それに報酬の反対を与える
それが何か間違ったことをしたとき。

184
00:09:04,710 --> 00:09:07,410
あなたが実際にあれば、あなたが行くことがわかります
Googleが翻訳し、あなたがしようとする

185
00:09:07,410 --> 00:09:10,220
センテンスを翻訳、それ
フィードバックをお願いします。

186
00:09:10,220 --> 00:09:13,240
あなたが言うのであれば、ああ、良いがあります
この文のための翻訳。

187
00:09:13,240 --> 00:09:18,140
その後、それを入力し、ことができれば、多くの
人々は、それが優れていると言っておく

188
00:09:18,140 --> 00:09:21,560
翻訳は、それだけで学習すること
代わりに、その変換を使用する必要があります

189
00:09:21,560 --> 00:09:22,960
それが与えていた1。

190
00:09:22,960 --> 00:09:28,830
>> だから、それは非常に哲学的な質問だ
コンピュータがあることを行っているかどうかを

191
00:09:28,830 --> 00:09:30,340
将来的に話をしたりしないことができる。

192
00:09:30,340 --> 00:09:34,440
しかし、私は大きな期待を持って、彼らができることを
ただ、これらの引数に基づいて。

193
00:09:34,440 --> 00:09:38,570
しかし、それは哲学のちょうどより多くの
質問。

194
00:09:38,570 --> 00:09:43,460
>> コンピュータはまだ話すことはできないがそう、
私たちにできる事は何ですか？

195
00:09:43,460 --> 00:09:47,070
いくつかの本当にクールなものがあります
データ分類。

196
00:09:47,070 --> 00:09:53,210
そのため、たとえば、皆さんが知っている
そのEメールサービスのために、何

197
00:09:53,210 --> 00:09:55,580
たとえば、スパムフィルタリング。

198
00:09:55,580 --> 00:09:59,070
ですから、それをスパムを受​​け取るたびに、
別のボックスにフィルタリングしようとします。

199
00:09:59,070 --> 00:10:00,270
だから、どのようにそれを行うのですか？

200
00:10:00,270 --> 00:10:06,080
これは、コンピュータだけで知っているようではありません
どのような電子メールアドレスは、スパムを送信している。

201
00:10:06,080 --> 00:10:09,130
だから、それはより多くの内容に基づいている
メッセージ、または多分タイトル、

202
00:10:09,130 --> 00:10:11,310
たぶん、あなたは持っているいくつかのパターン。

203
00:10:11,310 --> 00:10:15,690
>> だから、基本的に、何を行うことができますことは得ることである
スパムである電子メールのデータが多く、

204
00:10:15,690 --> 00:10:19,980
スパムではないメール、および何を学ぶ
あなたが持っているパターンの種類

205
00:10:19,980 --> 00:10:21,000
スパムであるもの。

206
00:10:21,000 --> 00:10:23,260
そして、これは、計算の一部である
言語学。

207
00:10:23,260 --> 00:10:24,720
これは、データ分類と呼ばれています。

208
00:10:24,720 --> 00:10:28,100
そして、我々は実際に見ることになるだろう
次のスライドでそれの例。

209
00:10:28,100 --> 00:10:32,910
>> 2つ目は、自然言語である
そのことで、処理

210
00:10:32,910 --> 00:10:36,580
グラフ探索をさせるのでやっている
あなたが文章を書く。

211
00:10:36,580 --> 00:10:38,690
そして、それはあなたが何を理解し信頼し
意味ですとなります

212
00:10:38,690 --> 00:10:39,940
もし良い結果。

213
00:10:39,940 --> 00:10:43,880
実際には、GoogleやBingに行けば
あなたは女性のようなものを検索する

214
00:10:43,880 --> 00:10:47,060
ガガの高さは、あなたが実際に行っている
5 '1 "の代わりに情報を取得する

215
00:10:47,060 --> 00:10:50,170
それが実際に理解しているので、彼女から
あなたは何を言っているのか。

216
00:10:50,170 --> 00:10:52,140
だから、自然の一部だ
言語処理。

217
00:10:52,140 --> 00:10:57,000
>> あるいはまた、あなたはまず、シリを使用しているとき
あなたがしようとしたアルゴリズムを持っている

218
00:10:57,000 --> 00:11:01,130
何を言っている翻訳する
単語に、テキスト中。

219
00:11:01,130 --> 00:11:03,690
そして、それは変換しようと試み
その意味に。

220
00:11:03,690 --> 00:11:06,570
だから、すべての自然の一部である
言語処理。

221
00:11:06,570 --> 00:11:08,320
>> その後、機械翻訳を持っている - 

222
00:11:08,320 --> 00:11:10,300
実際に1である
私のお気に入りの - 

223
00:11:10,300 --> 00:11:14,060
ちょうどから翻訳されている
別の言語。

224
00:11:14,060 --> 00:11:17,950
だから、あなたがやっているときに考えることができます
機械翻訳は、次のものが

225
00:11:17,950 --> 00:11:19,750
文章の無限の可能性。

226
00:11:19,750 --> 00:11:22,960
だから保存する方法はありません
一つ一つの翻訳。

227
00:11:22,960 --> 00:11:27,440
だから、面白い思い付くする必要があります
アルゴリズムができるようにするには

228
00:11:27,440 --> 00:11:30,110
一つ一つを翻訳
何らかの方法で文。

229
00:11:30,110 --> 00:11:32,483
>> あなたたちは、これまで不明な点がある？

230
00:11:32,483 --> 00:11:34,450
なし？

231
00:11:34,450 --> 00:11:34,830
[OK]をクリックします。

232
00:11:34,830 --> 00:11:36,900
>> それでは、今日は見に行くのですか？

233
00:11:36,900 --> 00:11:39,300
まず第一に、私が話をするつもりです
分類問題。

234
00:11:39,300 --> 00:11:41,440
私がいたので、1
迷惑メールについて述べた。

235
00:11:41,440 --> 00:11:46,820
私は何をするつもりだと、歌詞を考えると、ある
歌には、次のように把握しようとすることができます

236
00:11:46,820 --> 00:11:49,810
高い確率で
歌手は誰ですか？

237
00:11:49,810 --> 00:11:53,590
のは、私は女性から曲を持っているとしましょう
ガガとケイティ·ペリー、私はあなたを与える場合は、

238
00:11:53,590 --> 00:11:58,130
新しい曲は、あなたがどうかを把握することができます
それはケイティ·ペリーやレディー·ガガの？

239
00:11:58,130 --> 00:12:01,490
>> 第1、私は話をするつもりだ
セグメンテーション問題について。

240
00:12:01,490 --> 00:12:05,780
だから私は君たちが知っていれば知っているが、しないでください
中国語、日本語、他の東アジア

241
00:12:05,780 --> 00:12:08,090
言語、およびその他の言語
一般的に、持っていない

242
00:12:08,090 --> 00:12:09,830
単語間のスペース。

243
00:12:09,830 --> 00:12:13,540
そして、あなたはそのように考えてみれば
しようとするのにコンピュータの種類

244
00:12:13,540 --> 00:12:18,600
自然言語処理を理解し、
それは言葉を見て、

245
00:12:18,600 --> 00:12:21,500
関係を理解し​​ようとします
それらの間に、右か？

246
00:12:21,500 --> 00:12:25,440
しかし、あなたは、あなたが中国を持っている場合、および
ゼロスペースを持って、それを使用するハードを本当にです

247
00:12:25,440 --> 00:12:28,360
との関係であるかを調べる
言葉、彼らはいずれかを持っていないため、

248
00:12:28,360 --> 00:12:29,530
最初は言葉。

249
00:12:29,530 --> 00:12:32,600
だからと呼ばれる何かをしなければならない
ちょうど置くことを意味セグメンテーション

250
00:12:32,600 --> 00:12:36,490
我々は呼んでおきものとの間のスペース
これらの言語の単語。

251
00:12:36,490 --> 00:12:37,740
理にかなって？

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> そして、我々はするつもりだ
構文について話しています。

254
00:12:41,540 --> 00:12:44,050
自然についてとても少しだけ
言語処理。

255
00:12:44,050 --> 00:12:45,420
それはちょうど概観になるだろう。

256
00:12:45,420 --> 00:12:50,700
だから、今日、基本的に私は何をしたいのか
みんなにあなたの少しを与えるされている

257
00:12:50,700 --> 00:12:53,930
可能性があるものの内部
あなたは、計算で行うことができます

258
00:12:53,930 --> 00:12:54,960
言語学。

259
00:12:54,960 --> 00:13:00,410
そして、あなたはあなたが何を考えて見ることができます
これらのものの間でクールです。

260
00:13:00,410 --> 00:13:02,270
そして多分あなたはプロジェクトを考えることができます
と私に話してくる。

261
00:13:02,270 --> 00:13:05,260
と私はあなたの助言を与えることができます
それを実装する方法について。

262
00:13:05,260 --> 00:13:09,060
>> だから、構文は少しになるだろう
グラフ探索と機械について

263
00:13:09,060 --> 00:13:09,670
翻訳。

264
00:13:09,670 --> 00:13:13,650
私は方法の例を与えるつもりだ
あなたは、例えば、翻訳することができ

265
00:13:13,650 --> 00:13:16,020
英語からポルトガル語から何か。

266
00:13:16,020 --> 00:13:17,830
いいですね？

267
00:13:17,830 --> 00:13:19,293
>> したがって、最初、分類問題。

268
00:13:19,293 --> 00:13:23,590
私はセミナーのこの部分と言うでしょう
最も困難になるだろう

269
00:13:23,590 --> 00:13:27,560
1そこに起こっているという理由だけで
いくつかのコーディングされるように。

270
00:13:27,560 --> 00:13:29,470
しかし、それは、Pythonになるだろう。

271
00:13:29,470 --> 00:13:34,380
私は、君たちがPythonを知らない知ら
私は高い所に説明するつもりです

272
00:13:34,380 --> 00:13:35,750
私がやっているレベルです。

273
00:13:35,750 --> 00:13:40,900
そして、あなたは本当にあまりにも気にする必要はありません
それだから、構文について多く

274
00:13:40,900 --> 00:13:42,140
あなたたちが学ぶことができる何か。

275
00:13:42,140 --> 00:13:42,540
OK？

276
00:13:42,540 --> 00:13:43,580
旨そうだな。

277
00:13:43,580 --> 00:13:46,020
>> だから、分類問題とは何でしょうか？

278
00:13:46,020 --> 00:13:49,140
ですからをするためにいくつかの歌詞を与えられている
歌、そしてあなたが推測したい

279
00:13:49,140 --> 00:13:50,620
誰が歌っている。

280
00:13:50,620 --> 00:13:54,045
そして、これはどのような種類であることができる
他の問題。

281
00:13:54,045 --> 00:13:59,980
だから、例えば、あなたが持っていることができます
大統領選挙、あなたが持っている

282
00:13:59,980 --> 00:14:02,610
スピーチ、あなたが検索したい
それがあった出た場合、例えば、

283
00:14:02,610 --> 00:14:04,470
オバマまたはミット·ロムニー。

284
00:14:04,470 --> 00:14:07,700
または、電子メールの束を持つことができ、
あなたは彼らがあるかどうかを把握したい

285
00:14:07,700 --> 00:14:08,890
スパムかどうか。

286
00:14:08,890 --> 00:14:11,440
だから、単にいくつかの分類だ
単語に基づいてデータ

287
00:14:11,440 --> 00:14:13,790
あなたがそこに持っている。

288
00:14:13,790 --> 00:14:16,295
>> そうこれを行うには、その必要はあり
いくつかの仮定を行う。

289
00:14:16,295 --> 00:14:20,570
だから、計算言語学について多く
仮定を作っている、

290
00:14:20,570 --> 00:14:24,100
通常、スマートな仮定、その結果、
あなたは良い結果を得ることができます。

291
00:14:24,100 --> 00:14:26,670
それのためのモデルを作成しようとしている。

292
00:14:26,670 --> 00:14:31,290
そして、それを試してみるとそれが動作するかどうかを確認
それはあなたに良い精度が得られます。

293
00:14:31,290 --> 00:14:33,940
そして、それがない場合は、あなた
それを改善してみてください。

294
00:14:33,940 --> 00:14:37,640
そうでない場合は、似ている、[OK]を、多分私
別の仮定をしなければならない。

295
00:14:37,640 --> 00:14:44,030
>> だから我々はするつもりだという仮定
作る芸術家は通常、歌うことです

296
00:14:44,030 --> 00:14:49,220
トピックについて複数回、多分
言葉だけを複数回使用しています

297
00:14:49,220 --> 00:14:50,270
彼らはそれに慣れているので。

298
00:14:50,270 --> 00:14:51,890
あなたは自分の友人と考えることができます。

299
00:14:51,890 --> 00:14:57,350
私はあなたたちのすべての友人を持っていると確信している
それは彼らの署名フレーズを言って、

300
00:14:57,350 --> 00:14:59,260
文字通り一つ一つの文のための - 

301
00:14:59,260 --> 00:15:02,660
いくつかの特定の単語やいくつかの特定のような
彼らが言うフレーズ

302
00:15:02,660 --> 00:15:04,020
一つ一つの文章。

303
00:15:04,020 --> 00:15:07,920
>> そして、何あなたが言うことができることが表示された場合ということです
署名を持っている文

304
00:15:07,920 --> 00:15:11,450
フレーズは、おそらくそれを推測することができます
あなたの友達です

305
00:15:11,450 --> 00:15:13,310
1は右、それを言って？

306
00:15:13,310 --> 00:15:18,410
だから、という仮定を行ってから、
つまり、モデルの作成方法を説明します。

307
00:15:18,410 --> 00:15:24,440
>> 私は与えるつもりだ例がオンになっている
どのようにレディー·ガガ、例えば、人々

308
00:15:24,440 --> 00:15:27,430
彼女は「赤ちゃん」を使用していることを言う
すべての彼女のナンバー1曲。

309
00:15:27,430 --> 00:15:32,270
そして、実際にこれは、ビデオであることを示している
彼女は単語 "赤ちゃん"のために言って

310
00:15:32,270 --> 00:15:33,410
異なる曲。

311
00:15:33,410 --> 00:15:33,860
>> [ビデオ再生]

312
00:15:33,860 --> 00:15:34,310
>>  - （SINGING）赤ちゃん。

313
00:15:34,310 --> 00:15:36,220
赤ちゃん。

314
00:15:36,220 --> 00:15:37,086
赤ちゃん。

315
00:15:37,086 --> 00:15:37,520
赤ちゃん。

316
00:15:37,520 --> 00:15:37,770
赤ちゃん。

317
00:15:37,770 --> 00:15:38,822
ベイブ。

318
00:15:38,822 --> 00:15:39,243
赤ちゃん。

319
00:15:39,243 --> 00:15:40,085
赤ちゃん。

320
00:15:40,085 --> 00:15:40,510
赤ちゃん。

321
00:15:40,510 --> 00:15:40,850
赤ちゃん。

322
00:15:40,850 --> 00:15:41,090
>> [ENDビデオ再生 - 

323
00:15:41,090 --> 00:15:44,020
>> LUCASフレイタス：だからそこにある、私が思うに、
彼女が言うにいるここに40曲

324
00:15:44,020 --> 00:15:48,690
単語 "赤ちゃん。"だから、基本的に推測することができます
そのあなたが持っている曲が表示された場合

325
00:15:48,690 --> 00:15:52,180
単語 "赤ちゃん、「いくつかの高があると
それはレディー·ガガだという確率。

326
00:15:52,180 --> 00:15:56,450
しかし、ここではこれを開発してみましょう
さらにより正式に。

327
00:15:56,450 --> 00:16:00,470
>> したがって、これらのによる歌の歌詞です
レディー·ガガやケイティ·ペリー。

328
00:16:00,470 --> 00:16:04,120
ですから、レディー·ガガを見て、あなたは彼らを参照してください。
"赤ちゃん"の出現がたくさんある

329
00:16:04,120 --> 00:16:07,710
の発生が多く、 "道"その後
ケイティ·ペリーはの発生をたくさん持っている

330
00:16:07,710 --> 00:16:10,360
"、"の発生が多く、 "火"

331
00:16:10,360 --> 00:16:14,560
>> そこで、基本的に我々が望むもの
を表示していますが、歌詞を取得している。

332
00:16:14,560 --> 00:16:20,480
例えば、あなたがのために歌詞を取得したとしましょう
"ベイビー"だけで "赤ちゃん"です。歌もし

333
00:16:20,480 --> 00:16:24,750
あなただけの単語 "赤ちゃん"、およびこれを取得
あなたから持っているすべてのデータである

334
00:16:24,750 --> 00:16:27,880
レディー·ガガやケイティ·ペリー、だろう
あなたは人ですね

335
00:16:27,880 --> 00:16:29,370
誰が歌を歌っている？

336
00:16:29,370 --> 00:16:32,360
レディー·ガガやケイティ·ペリー？

337
00:16:32,360 --> 00:16:33,150
レディー·ガガ、右？

338
00:16:33,150 --> 00:16:37,400
彼女は言うだけだから
"赤ちゃん"これは右、愚かに聞こえる？

339
00:16:37,400 --> 00:16:38,760
[OK]を、これは本当に簡単です。

340
00:16:38,760 --> 00:16:41,860
私はちょうど2曲にと探しています
もちろん、彼女が持っている唯一の一つだ

341
00:16:41,860 --> 00:16:42,660
"赤ちゃん"

342
00:16:42,660 --> 00:16:44,740
>> しかし、あなたが言葉の束を持っているか？

343
00:16:44,740 --> 00:16:50,900
あなたは、実際の歌詞、何かを持っている場合
のような、「赤ちゃん、ちょうど私

344
00:16:50,900 --> 00:16:51,610
[を見に行きました？ CFT？]

345
00:16:51,610 --> 00:16:54,020
講義」、またはそのような何か、と
あなたが実際に把握する必要があります - 

346
00:16:54,020 --> 00:16:55,780
すべての単語に基づいて - 

347
00:16:55,780 --> 00:16:58,350
おそらく誰アーティストは誰ですか
この歌を歌った？

348
00:16:58,350 --> 00:17:01,860
それでは、開発してみましょう
もう少しこの。

349
00:17:01,860 --> 00:17:05,630
>> [OK]を、ので、ちょうど私たちのデータに基づいて
だ、それは·ガガ、おそらくあると思われる

350
00:17:05,630 --> 00:17:06,260
歌手。

351
00:17:06,260 --> 00:17:07,904
しかし、どのように我々は書くことができます
このより正式に？

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
少しがあるように起こって
統計のビット。

354
00:17:13,140 --> 00:17:15,880
だからが失われた場合は、単に試し
概念を理解する。

355
00:17:15,880 --> 00:17:18,700
あなたが理解していれば、それは問題ではありません
方程式完璧。

356
00:17:18,700 --> 00:17:22,150
これは、すべてのオンラインになるだろう。

357
00:17:22,150 --> 00:17:25,490
>> そこで、基本的に私は計算してることはある
この曲がである確率

358
00:17:25,490 --> 00:17:28,040
レディー·ガガはそれを与えられた - 

359
00:17:28,040 --> 00:17:30,660
ので、このバーは、その与えられた意味 - 

360
00:17:30,660 --> 00:17:33,680
私は言葉を見た」赤ちゃんを。 "
それは理にかなっていますか？

361
00:17:33,680 --> 00:17:35,540
だから私は、計算しようとしている
ある確率。

362
00:17:35,540 --> 00:17:38,540
>> いわゆるこの定理があります
と言っているベイズ定理

363
00:17:38,540 --> 00:17:43,330
所与のBの確率は、である
、回与えられ、Bの確率

364
00:17:43,330 --> 00:17:47,660
確率上のAの確率、
Bのこれは長い方程式である。

365
00:17:47,660 --> 00:17:51,970
しかし、あなたから理解する必要が
つまり、これは私がしたいものであるということです

366
00:17:51,970 --> 00:17:52,830
右、計算？

367
00:17:52,830 --> 00:17:56,570
その歌はであるように確率
レディー·ガガは、私は言葉を見たことを考えると

368
00:17:56,570 --> 00:17:58,230
"赤ちゃん"

369
00:17:58,230 --> 00:18:02,960
>> そして今、私が得ていることである
「赤ちゃんは「与えられた単語の確率

370
00:18:02,960 --> 00:18:04,390
私は、レディー·ガガを持っていること。

371
00:18:04,390 --> 00:18:07,220
そして、それは基本的には何ですか？

372
00:18:07,220 --> 00:18:10,500
その手段が何であるか、何
単語 "赤ちゃん"を見ての確率

373
00:18:10,500 --> 00:18:12,130
ガガの歌詞にある？

374
00:18:12,130 --> 00:18:16,240
私は非常にそれを計算する場合
簡単な方法、それは数だけです

375
00:18:16,240 --> 00:18:23,640
回私は総数に対する「赤ちゃん」を参照してください。
ガガの歌詞の単語のですよね？

376
00:18:23,640 --> 00:18:27,600
私が見る頻度はどのくらいです
ガガの作品にその単語？

377
00:18:27,600 --> 00:18:30,530
理にかなって？

378
00:18:30,530 --> 00:18:33,420
>> 第二項はある
ガガの確率。

379
00:18:33,420 --> 00:18:34,360
どういう意味ですか？

380
00:18:34,360 --> 00:18:38,550
つまり、基本的に何であるか、意味
分類の確率

381
00:18:38,550 --> 00:18:40,690
ガガのようないくつかの歌詞？

382
00:18:40,690 --> 00:18:45,320
そして、それは一種の奇妙ですが、
それでは例を考えてみましょう。

383
00:18:45,320 --> 00:18:49,230
それでは確率としましょう
歌の "赤ちゃん"を持つことは同じです

384
00:18:49,230 --> 00:18:51,760
ガガやブリトニー·スピアーズのために。

385
00:18:51,760 --> 00:18:54,950
しかし、ブリトニー·スピアーズが二回あります
レディー·ガガよりも多くの曲。

386
00:18:54,950 --> 00:19:00,570
だから、誰かがランダムにあなたが提供している場合
まず最初に、「赤ちゃん」の歌詞あなた

387
00:19:00,570 --> 00:19:04,710
の確率は何である、ATが見える
ガガの曲で「赤ちゃん」を有する、 "赤ちゃん"

388
00:19:04,710 --> 00:19:05,410
ブリトニーの曲の中？

389
00:19:05,410 --> 00:19:06,460
そして、それは同じことだ。

390
00:19:06,460 --> 00:19:10,040
>> ですから、わかります2つ目は、ある
よく、確率は何ですか

391
00:19:10,040 --> 00:19:13,770
それだけでこの歌詞はガガの歌詞であること、
との可能性は何ですか

392
00:19:13,770 --> 00:19:15,380
ブリトニーの歌詞であること？

393
00:19:15,380 --> 00:19:18,950
だからブリトニーは非常に多くのより多くの歌詞を持っているので、
ガガよりも、おそらくだろう

394
00:19:18,950 --> 00:19:21,470
たとえば、まあ、これはおそらく、
ブリトニーの歌詞。

395
00:19:21,470 --> 00:19:23,340
我々はこれを持っている理由ので、それはです
右ここでいう。

396
00:19:23,340 --> 00:19:24,670
ガガの確率。

397
00:19:24,670 --> 00:19:26,950
理にかなっている？

398
00:19:26,950 --> 00:19:28,660
それはありません？

399
00:19:28,660 --> 00:19:29,370
[OK]をクリックします。

400
00:19:29,370 --> 00:19:33,500
>> そして最後の1は単なる確率である
しません "赤ちゃん"の

401
00:19:33,500 --> 00:19:34,810
本当に問題はそれほど。

402
00:19:34,810 --> 00:19:39,940
しかし、それは確率だ
英語で「赤ちゃん」を見て。

403
00:19:39,940 --> 00:19:42,725
我々は通常、それを気にしない
その用語についての多く。

404
00:19:42,725 --> 00:19:44,490
それは理にかなっていますか？

405
00:19:44,490 --> 00:19:48,110
だから、ガガの確率である
事前確率と呼ばれる

406
00:19:48,110 --> 00:19:49,530
クラス·ガガの。

407
00:19:49,530 --> 00:19:53,840
それだけで何があることを意味するので
そのクラスを有する確率 - 

408
00:19:53,840 --> 00:19:55,520
ガガこれは - 

409
00:19:55,520 --> 00:19:59,350
ただ一般的には、単に
なし条件。

410
00:19:59,350 --> 00:20:02,560
>> そして私は可能性を持っている場合
「赤ちゃん、 "我々はそれを呼び出す与えガガプラス

411
00:20:02,560 --> 00:20:06,160
それはだから確率は涙
有する確率

412
00:20:06,160 --> 00:20:08,300
ガガは、いくつかの証拠が与えられた。

413
00:20:08,300 --> 00:20:11,050
だから私はあなたに証拠を与えている
私は言葉の赤ちゃんを見ていることを

414
00:20:11,050 --> 00:20:12,690
歌は理にかなって？

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
[OK]をクリックします。

417
00:20:16,410 --> 00:20:22,400
>> だから私は、それぞれのためにそれを計算した場合
レディー·ガガのための曲、

418
00:20:22,400 --> 00:20:25,916
それがどうなるか - 

419
00:20:25,916 --> 00:20:27,730
どうやら、私はこれを移動することはできません。

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
ガガの確率はなり
何かのように、2 24以上、回1/2、

422
00:20:36,920 --> 00:20:38,260
53以上の2以上。

423
00:20:38,260 --> 00:20:40,640
あなたは何を知っていれば、それを問題ではありません
これらの数字は、から来ている。

424
00:20:40,640 --> 00:20:44,750
しかし、それは起こっているだけの数だ
右、0以上になるように？

425
00:20:44,750 --> 00:20:48,610
>> そして私はケイティ·ペリーを行うとき
ケイティ与えられた「赤ちゃん」の確率である

426
00:20:48,610 --> 00:20:49,830
すでに0、右？

427
00:20:49,830 --> 00:20:52,820
全く「赤ちゃん」がないため
ケイティペリー。

428
00:20:52,820 --> 00:20:56,360
そう、これは0になり、ガガ
勝、ガガがあることを意味します

429
00:20:56,360 --> 00:20:57,310
おそらく歌手。

430
00:20:57,310 --> 00:20:58,560
それは理にかなっていますか？

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
[OK]をクリックします。

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> だから私はこれをより正式にする場合は、
私は実際にモデルを行うことができます

435
00:21:11,750 --> 00:21:12,700
複数の単語のために。

436
00:21:12,700 --> 00:21:14,610
それでは、私は何かを持っているとしましょう
のような、「赤ちゃん、私は

437
00:21:14,610 --> 00:21:16,030
火に、「または何か。

438
00:21:16,030 --> 00:21:17,760
だから、複数の単語を持っています。

439
00:21:17,760 --> 00:21:20,880
この場合には、次のように表示することができます
「赤ちゃんは「ガガにあることを、

440
00:21:20,880 --> 00:21:21,710
それはケーティではありません。

441
00:21:21,710 --> 00:21:24,940
と "火"はケイティにあるが、
それは右、ガガにない？

442
00:21:24,940 --> 00:21:27,200
だから、右、トリッキーなってきた？

443
00:21:27,200 --> 00:21:31,440
それはあなたのほとんどと思われるので、
2間のネクタイを持っている。

444
00:21:31,440 --> 00:21:36,980
>> それで、あなたがしなければならないことは想定している
単語間の独立性。

445
00:21:36,980 --> 00:21:41,210
そこで、基本的にそれが何を意味するかというです
私は何であるかを計算してい

446
00:21:41,210 --> 00:21:44,330
何であるか」、赤ちゃんを「見ての確率
見ての可能性「I」をし、

447
00:21:44,330 --> 00:21:46,670
「火」「AM」、および「ON」と
すべて別途。

448
00:21:46,670 --> 00:21:48,670
その後、私はそれらのすべてを掛けることだ。

449
00:21:48,670 --> 00:21:52,420
そして、私は確率が何であるかを見ている
文全体を見ての。

450
00:21:52,420 --> 00:21:55,210
理にかなって？

451
00:21:55,210 --> 00:22:00,270
>> そこで、基本的に、私はちょうど1単語がある場合は、
私が知りたいことのarg maxのですが、

452
00:22:00,270 --> 00:22:05,385
つまり、あるクラスは何ですか
私に最も高い確率を与える？

453
00:22:05,385 --> 00:22:10,010
そのように与えているクラスは何ですか
私のために最も高い確率

454
00:22:10,010 --> 00:22:11,940
クラスの確率は言葉を与えられた。

455
00:22:11,940 --> 00:22:17,610
この場合、ガガは、与えられた "赤ちゃん"
またはケイティは "赤ちゃん"を与えられた理にかなって？

456
00:22:17,610 --> 00:22:21,040
>> そして、ちょうどそのベイズから
私が示した式、

457
00:22:21,040 --> 00:22:24,780
私たちは、この画を作成します。

458
00:22:24,780 --> 00:22:28,750
唯一のことは、あなたがいることがわかりということです
与えられた単語の確率

459
00:22:28,750 --> 00:22:31,370
依存クラスの変更
クラスの、右？

460
00:22:31,370 --> 00:22:34,260
私が持っている「赤ちゃん」の数
ガガにケイティは異なります。

461
00:22:34,260 --> 00:22:37,640
クラスの確率も
それだけの数の変化するため、

462
00:22:37,640 --> 00:22:39,740
それらの曲のそれぞれが持っています。

463
00:22:39,740 --> 00:22:43,980
>> しかし、言葉自体の確率
すべてのために同じことを行っている

464
00:22:43,980 --> 00:22:44,740
アーティスト、右？

465
00:22:44,740 --> 00:22:47,150
そのように、単語の確率である
ただ、確率は何ですか

466
00:22:47,150 --> 00:22:49,820
でその単語を見て
英語？

467
00:22:49,820 --> 00:22:51,420
だから、それらのすべてに同じです。

468
00:22:51,420 --> 00:22:55,790
これは一定であるためそのように、私たちはできる
これを削除し、それを気にしない。

469
00:22:55,790 --> 00:23:00,230
だから、これは実際になります
私たちが探している方程式。

470
00:23:00,230 --> 00:23:03,360
>> 私は複数の単語を持っている場合と、私は今
それでも前を持っているつもり

471
00:23:03,360 --> 00:23:04,610
ここ確率。

472
00:23:04,610 --> 00:23:06,980
唯一の事は私が掛けるんだということです
の確率

473
00:23:06,980 --> 00:23:08,490
他のすべての単語。

474
00:23:08,490 --> 00:23:10,110
だから私はそれらのすべてを掛けることだ。

475
00:23:10,110 --> 00:23:12,610
理にかなって？

476
00:23:12,610 --> 00:23:18,440
それは奇妙に見えますが、基本的に意味し、
クラスの前に、との計算

477
00:23:18,440 --> 00:23:22,100
各確率を掛け
そのクラスにある単語の。

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> そして、あなたは知っているの可能性
クラス指定された単語があることを行っている

480
00:23:29,150 --> 00:23:34,520
あなたがその単語を参照する回数
数で割ったそのクラス、

481
00:23:34,520 --> 00:23:37,020
あなたがその中に持っている言葉
一般的には、クラス。

482
00:23:37,020 --> 00:23:37,990
理にかなって？

483
00:23:37,990 --> 00:23:41,680
それは、「赤ちゃんが "2終わっただけでどのようだ
その単語の数

484
00:23:41,680 --> 00:23:43,020
私は歌詞に持っていた。

485
00:23:43,020 --> 00:23:45,130
だから周波数。

486
00:23:45,130 --> 00:23:46,260
>> しかし、一つのことがあります。

487
00:23:46,260 --> 00:23:51,250
私が見せていたか覚えている
"赤ちゃん"という歌詞の確率

488
00:23:51,250 --> 00:23:56,350
ケイティ·ペリーから0だったという理由だけでケイティ
ペリーは、すべての「赤ちゃん」を持っていなかった？

489
00:23:56,350 --> 00:24:04,900
しかし、それだけでは少し耳障りな音
単純に歌詞からできないことを言う

490
00:24:04,900 --> 00:24:10,040
彼らが持っていないという理由だけで、アーティスト
いつでも、特にその単語。

491
00:24:10,040 --> 00:24:13,330
>> もしそうであれば、あなただけの、よく、言うことができる
この言葉を持っていない、私はするつもりだ

492
00:24:13,330 --> 00:24:15,640
あなたのより低い確率を与え、
しかし、私はちょうどするつもりはない

493
00:24:15,640 --> 00:24:17,420
すぐにあなたに0を与える。

494
00:24:17,420 --> 00:24:21,040
多分それはのようなものだったので、
「火、火、火、火」である

495
00:24:21,040 --> 00:24:21,990
完全にケイティ·ペリー。

496
00:24:21,990 --> 00:24:26,060
とし、 "赤ちゃん"、それだけに行く
0すぐに1があったので、

497
00:24:26,060 --> 00:24:27,250
"赤ちゃん"

498
00:24:27,250 --> 00:24:31,440
>> そこで、基本的に我々は何をすべきか何かである
ラプラススムージングと呼ばれる。

499
00:24:31,440 --> 00:24:36,260
そして、これはちょうど私が与えていることを意味します
でも、言葉にはいくつかの確率

500
00:24:36,260 --> 00:24:37,850
それは存在しません。

501
00:24:37,850 --> 00:24:43,170
だから、私は何をして私がいる時ということです
この計算は、私は常に1を追加

502
00:24:43,170 --> 00:24:44,180
分母。

503
00:24:44,180 --> 00:24:48,060
だから、言葉はで、存在しない場合でも、
これが0であれば、この場合、私はまだだ

504
00:24:48,060 --> 00:24:51,250
上で1としてこれを計算する
単語の合計数。

505
00:24:51,250 --> 00:24:55,060
そうでなければ、私はどのように多くの単語を取得
私が持っていると私は1を追加します。

506
00:24:55,060 --> 00:24:58,300
だから私は両方のケースのために数えています。

507
00:24:58,300 --> 00:25:00,430
理にかなって？

508
00:25:00,430 --> 00:25:03,060
>> だから今のには、いくつかのコーディングを行うことができます。

509
00:25:03,060 --> 00:25:06,440
私は、かなり速いそれをしなければならないつもりだ
それはあなただけのことが重要です

510
00:25:06,440 --> 00:25:08,600
人は概念を理解しています。

511
00:25:08,600 --> 00:25:13,450
それでは、私たちがやろうとしている
正確にこれを実装されている

512
00:25:13,450 --> 00:25:14,330
私が今言った事 - 

513
00:25:14,330 --> 00:25:19,110
私はあなたから歌詞を入れたい
レディー·ガガやケイティ·ペリー。

514
00:25:19,110 --> 00:25:22,980
プログラムができるようにするつもりされている
これらの新しい歌詞·ガガからのものである場合に言う

515
00:25:22,980 --> 00:25:24,170
またはケイティ·ペリー。

516
00:25:24,170 --> 00:25:25,800
理にかなって？

517
00:25:25,800 --> 00:25:27,530
[OK]をクリックします。

518
00:25:27,530 --> 00:25:30,710
>> だから私は、私は行くよ、このプログラムがある
classify.pyを呼び出します。

519
00:25:30,710 --> 00:25:31,970
だから、これはPythonのです。

520
00:25:31,970 --> 00:25:34,210
それは、新しいプログラミング言語です。

521
00:25:34,210 --> 00:25:38,020
これは、いくつかの非常に類似している
CとPHPの方法。

522
00:25:38,020 --> 00:25:43,180
あなたがしたいのであれば、それは似ています
Cを知った後にPythonを学ぶ、それはだ

523
00:25:43,180 --> 00:25:46,270
挑戦の本当にあまりない
Pythonははるかに簡単ですからといって

524
00:25:46,270 --> 00:25:47,520
まず、C、より。

525
00:25:47,520 --> 00:25:49,370
物事の多くは、すでに
あなたのために実装されています。

526
00:25:49,370 --> 00:25:56,820
だから、どれだけのPHPのような機能を有している
リストを並べ替え、または何かを追加

527
00:25:56,820 --> 00:25:58,780
配列、何とか、何とか、何とかする。

528
00:25:58,780 --> 00:26:00,690
Pythonは、同様にそれらのすべてを持っています。

529
00:26:00,690 --> 00:26:05,960
>> だから、僕はすぐに説明するつもりです
どのようにして分類を行うことができます

530
00:26:05,960 --> 00:26:07,860
ここでは問題。

531
00:26:07,860 --> 00:26:13,230
それでは、この場合は、私が持っているとしましょう
ガガとケイティ·ペリーの歌詞。

532
00:26:13,230 --> 00:26:21,880
私はそれらの歌詞を持っている方法があることである
歌詞の最初の単語です

533
00:26:21,880 --> 00:26:25,250
アーティスト名、および
残りは歌詞です。

534
00:26:25,250 --> 00:26:29,470
それでは、私はこのリストを持っているとしましょう
その最初のものはガガ作詞です。

535
00:26:29,470 --> 00:26:31,930
だからここに私は正しい軌道に乗っています。

536
00:26:31,930 --> 00:26:35,270
そして次はケイティであり、
それはまた、歌詞を持っています。

537
00:26:35,270 --> 00:26:38,040
>> だから、これはあなたが宣言する方法です
Pythonで変数。

538
00:26:38,040 --> 00:26:40,200
あなたは、データ型を与えることはありません。

539
00:26:40,200 --> 00:26:43,150
あなただけの "歌詞"を書いてください
PHPのような一種の。

540
00:26:43,150 --> 00:26:44,890
理にかなって？

541
00:26:44,890 --> 00:26:47,770
>> だから私がする必要が物事は何ですか
計算することができるように計算する

542
00:26:47,770 --> 00:26:49,360
確率？

543
00:26:49,360 --> 00:26:55,110
私は、「事前分布」を計算する必要があります
異なるそれぞれの

544
00:26:55,110 --> 00:26:56,710
私が持っているクラス。

545
00:26:56,710 --> 00:27:06,680
私は「事後」を計算する必要が
またはかなりの確率の

546
00:27:06,680 --> 00:27:12,150
その異なる単語のそれぞれ
私は、それぞれのアーティストのために持つことができます。

547
00:27:12,150 --> 00:27:17,210
そう·ガガ内、例えば、私は行くよ
私が見る何回のリストを持っている

548
00:27:17,210 --> 00:27:19,250
各単語。

549
00:27:19,250 --> 00:27:20,760
理にかなって？

550
00:27:20,760 --> 00:27:25,370
>> そして最後に、私はちょうど持っているつもりです
まさに起こっている "言葉"と呼ばれるリスト

551
00:27:25,370 --> 00:27:29,780
どのように多くの単語、私持っている
それぞれのアーティストのために持っている。

552
00:27:29,780 --> 00:27:33,760
そう·ガガのために、例えば、ときに私が見て
歌詞に、私が、私が考えていたが、24

553
00:27:33,760 --> 00:27:34,750
合計言葉。

554
00:27:34,750 --> 00:27:38,970
したがって、このリストは単に持ってしようとしている
ガガ24、およびケイティ別の番号。

555
00:27:38,970 --> 00:27:40,130
理にかなって？

556
00:27:40,130 --> 00:27:40,560
[OK]をクリックします。

557
00:27:40,560 --> 00:27:42,530
>> だから今、実際には、みましょう
コー​​ディングにアクセスしてください。

558
00:27:42,530 --> 00:27:45,270
そうPythonでは、あなたが実際にすることができ
異なるの束を返す

559
00:27:45,270 --> 00:27:46,630
関数からのもの。

560
00:27:46,630 --> 00:27:50,810
だから私は、この関数を作成するつもりです
予定された「条件付き」と呼ばれる

561
00:27:50,810 --> 00:27:53,890
、それらのもののすべてを返す
「事前確率」、「確率」、および

562
00:27:53,890 --> 00:28:05,690
「単語」だから「条件付き」で、それはだ
を呼び出すされようとして "の歌詞。"

563
00:28:05,690 --> 00:28:11,510
>> だから今私はあなたが実際にしたい
この関数を書く。

564
00:28:11,510 --> 00:28:17,750
私はこれを書くことができますので、道
機能私は、これを定義されている

565
00:28:17,750 --> 00:28:20,620
を持つ関数「DEF」。だから私はDEF」でした
条件付き、「それは取っている

566
00:28:20,620 --> 00:28:28,700
「歌詞。 "そして、これが何を何が起こっているか
、まず第一に、私は自分の事前分布を持っている

567
00:28:28,700 --> 00:28:31,030
私が計算したいという。

568
00:28:31,030 --> 00:28:34,330
>> だから私はこれを行うことができます方法は作成される
Pythonで、どの辞書

569
00:28:34,330 --> 00:28:37,320
ハッシュとしてほとんど同じことです
テーブル、またはそれは、反復のようなものだ

570
00:28:37,320 --> 00:28:40,480
PHPの配列。

571
00:28:40,480 --> 00:28:44,150
これは私が辞書を宣言する方法です。

572
00:28:44,150 --> 00:28:53,580
基本的にこれが意味することは
ガガの事前確率は、例えば、場合には、0.5である

573
00:28:53,580 --> 00:28:57,200
歌詞の50％はからです
ガガ、50％はケイティからのものである。

574
00:28:57,200 --> 00:28:58,450
理にかなって？

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
だから私はどのように把握する必要があります
事前分布を計算する。

577
00:29:03,680 --> 00:29:07,120
>> 私がしなければならない次のものを、また、
確率との言葉である。

578
00:29:07,120 --> 00:29:17,100
だから、ガガの確率はリストである
私のすべての確率の

579
00:29:17,100 --> 00:29:19,160
ガガのためのワードのそれぞれのために持っている。

580
00:29:19,160 --> 00:29:23,880
だから私はガガの確率に行けば
「赤ちゃん」、例えば、それは私を与えるだろう

581
00:29:23,880 --> 00:29:28,750
その場合には24以上の2のようなもの。

582
00:29:28,750 --> 00:29:30,070
理にかなって？

583
00:29:30,070 --> 00:29:36,120
だから私は「確率」に行くために行く
すべてのリストを持っている "ガガ"バケツ

584
00:29:36,120 --> 00:29:40,550
ガガの言葉は、私は「赤ちゃん」に行く
と私は確率を参照してください。

585
00:29:40,550 --> 00:29:45,940
>> そして最後に、私はこれを持っている
「言葉」の辞書。

586
00:29:45,940 --> 00:29:53,620
だからここに、「確率。」その後
「単語」だから私は「言葉」「ガガ」を行う場合

587
00:29:53,620 --> 00:29:58,330
何が起こるだろうと、それがあるということです
その私が言って、私に24を与えるつもり

588
00:29:58,330 --> 00:30:01,990
ガガの歌詞の中に24の言葉を持っています。

589
00:30:01,990 --> 00:30:04,110
理にかなっている？

590
00:30:04,110 --> 00:30:07,070
だからここに、「言葉は「DAH-DAH-DAHに等しい。

591
00:30:07,070 --> 00:30:07,620
[OK]

592
00:30:07,620 --> 00:30:12,210
>> だから、私は何をするつもりだと、私は行くよです
だから、歌詞のそれぞれを反復

593
00:30:12,210 --> 00:30:14,490
その文字列の各
私は、リストを持っている。

594
00:30:14,490 --> 00:30:18,040
そして、私はそれらの事を計算するつもりです
候補の各々のために。

595
00:30:18,040 --> 00:30:19,950
理にかなっている？

596
00:30:19,950 --> 00:30:21,700
だから私は、forループを行う必要があります。

597
00:30:21,700 --> 00:30:26,300
>> だから私は何ができるかをPythonではラインのため」である
歌詞にある。」と同じもの

598
00:30:26,300 --> 00:30:28,000
PHPの文の「それぞれに」。

599
00:30:28,000 --> 00:30:33,420
それは、PHPだった場合、どのように私ができる覚えている
各歌詞の "と言う

600
00:30:33,420 --> 00:30:35,220
行が「理にかなって？

601
00:30:35,220 --> 00:30:38,900
だから私はこの中で、ラインのそれぞれを取っている
場合、この文字列と次の

602
00:30:38,900 --> 00:30:44,540
私はどのようなラインのそれぞれのためのため、文字列
何をするつもりは、私はするつもりだ、最初のものである

603
00:30:44,540 --> 00:30:49,150
のリストに次の行を分割する
スペースで区切られた単語。

604
00:30:49,150 --> 00:30:53,730
>> だから、Pythonのすごいところは、ということです
あなたは可能性だけのGoogleどのようにすることができます」のような

605
00:30:53,730 --> 00:30:58,220
単語に文字列を分割？ 「それはです
それを行うには、どのように言うつもり。

606
00:30:58,220 --> 00:31:04,890
そして、それを行う方法は、それだけで "ラインです
= line.split（）」で、それは基本的にだ

607
00:31:04,890 --> 00:31:08,640
あなたのリストを提供するつもり
ここで各単語。

608
00:31:08,640 --> 00:31:09,620
理にかなっている？

609
00:31:09,620 --> 00:31:15,870
だから今私がしたことを私は知ってほしいこと
その歌の歌手は誰ですか。

610
00:31:15,870 --> 00:31:20,130
と私は取得する必要があることを行うには
配列の最初の要素ですよね？

611
00:31:20,130 --> 00:31:26,390
だから、僕は言うことができる私は "歌手
=行（0） "の意味なのでしょうか？

612
00:31:26,390 --> 00:31:32,010
>> して、私は何をする必要があることは第一に、ある
すべて、私はどのように多くの更新するつもりです

613
00:31:32,010 --> 00:31:36,130
言葉は私が下に持っている「ガガ」。私はちょうどよ
計算しようとしてどのように多くの言葉私

614
00:31:36,130 --> 00:31:38,690
右は、このリストを持っている？

615
00:31:38,690 --> 00:31:41,910
これは私が持っているどのように多くの言葉であるため
歌詞と私はするつもりだ

616
00:31:41,910 --> 00:31:44,120
「ガガ」の配列に追加します。

617
00:31:44,120 --> 00:31:47,090
それは理にかなっていますか？

618
00:31:47,090 --> 00:31:49,010
構文にあまり集中しないでください。

619
00:31:49,010 --> 00:31:50,430
概念の詳細を考えてみてください。

620
00:31:50,430 --> 00:31:52,400
つまり、最も重要な部分です。

621
00:31:52,400 --> 00:31:52,720
[OK]をクリックします。

622
00:31:52,720 --> 00:32:00,260
>> 「ガガ」であるので、もし私がそれを行うことができますことはある
既にそのリストのため、「歌手に入った場合

623
00:32:00,260 --> 00:32:03,190
その私はすでに意味の言葉 "
ガガの言葉を持っている。

624
00:32:03,190 --> 00:32:06,640
私は、追加を追加したい
との言葉。

625
00:32:06,640 --> 00:32:15,810
だから、私は何をすることは「言葉（歌手）です
+ = LEN（ライン） -  1 "。

626
00:32:15,810 --> 00:32:18,250
そして私はちょうど行うことができます
ラインの長さ。

627
00:32:18,250 --> 00:32:21,860
だから、どのように多くの要素が、私は
配列を持っている。

628
00:32:21,860 --> 00:32:27,060
そして私がしなければならない1マイナスという理由だけで
配列の最初の要素だけです

629
00:32:27,060 --> 00:32:29,180
歌手、それらの歌詞はありません。

630
00:32:29,180 --> 00:32:31,420
理にかなっている？

631
00:32:31,420 --> 00:32:32,780
[OK]をクリックします。

632
00:32:32,780 --> 00:32:35,820
>> 「そうでなければ、「それは私が実際にすることを意味します
リストにガガを挿入します。

633
00:32:35,820 --> 00:32:45,990
だから、僕は言葉（歌手）」を行う
= LEN（ライン） -  1、 "申し訳ありません。

634
00:32:45,990 --> 00:32:49,200
だから、2間の唯一の違い
行は、この1つは、それがないということです

635
00:32:49,200 --> 00:32:51,080
まだ存在していたので、私はちょうどよ
それを初期化する。

636
00:32:51,080 --> 00:32:53,820
この1私は実際に追加している。

637
00:32:53,820 --> 00:32:55,570
[OK]をクリックします。

638
00:32:55,570 --> 00:32:59,480
だから、これは言葉に追加した。

639
00:32:59,480 --> 00:33:03,040
>> 今、私は事前分布に追加する。

640
00:33:03,040 --> 00:33:05,480
それでは、どのよう私は、事前分布を計算するのですか？

641
00:33:05,480 --> 00:33:11,580
事前確率を計算することができる。
何倍。

642
00:33:11,580 --> 00:33:15,340
あなたはその歌手を参照してくださいので、何回
あなた歌手のすべての中で

643
00:33:15,340 --> 00:33:16,380
持っているよね？

644
00:33:16,380 --> 00:33:18,810
、·ガガやケイティ·ペリーのためにそう
この場合、私はガガを参照してください。

645
00:33:18,810 --> 00:33:20,570
一度、ケイティ·ペリー回。

646
00:33:20,570 --> 00:33:23,320
>> ガガのためにそのように基本的には事前分布
とケイティ·ペリーの場合と

647
00:33:23,320 --> 00:33:24,390
ちょうど、1であること？

648
00:33:24,390 --> 00:33:26,500
あなたはどれだけ多くの回数
私は芸術家を参照してください。

649
00:33:26,500 --> 00:33:28,740
だから、これは計算することは非常に簡単です。

650
00:33:28,740 --> 00:33:34,100
私はIF」などのような似ただけで何かをすることができ
事前分布での歌手は、「私は行くよ

651
00:33:34,100 --> 00:33:38,970
その事前分布ボックスに1を追加します。

652
00:33:38,970 --> 00:33:51,000
"だから、「事前確率（歌う）" + = 1 "とし、"他
私は、「事前分布（歌手）するつもりです

653
00:33:51,000 --> 00:33:55,000
= 1。 "理にかなって？

654
00:33:55,000 --> 00:34:00,080
>> だから、それが存在しない場合、私はちょうど置く
1のように、そうでなければ私はちょうど1を追加します。

655
00:34:00,080 --> 00:34:11,280
[OK]を、だから今、すべて私がやり残していること
また、ワードのそれぞれを追加している

656
00:34:11,280 --> 00:34:12,290
確率。

657
00:34:12,290 --> 00:34:14,889
だから私は何度もカウントする必要が
私は言葉のそれぞれを参照してください。

658
00:34:14,889 --> 00:34:18,780
だから、僕は別のものをしなければならない
行のforループ。

659
00:34:18,780 --> 00:34:25,190
>> 私がやろうとしていますので、最初のものです
歌手が既に持っているかどうかを確認

660
00:34:25,190 --> 00:34:26,969
確率配列。

661
00:34:26,969 --> 00:34:31,739
歌手にはないので、もし私がチェックしています
確率配列を持って、私はちょうどよ

662
00:34:31,739 --> 00:34:34,480
彼らのために1を初期化しようとして。

663
00:34:34,480 --> 00:34:36,400
それも、配列ではありません、申し訳ありませんが、
それは辞書だ。

664
00:34:36,400 --> 00:34:43,080
だから、歌手の確率が起こっている
オープン辞書であると、私はよ

665
00:34:43,080 --> 00:34:45,830
ちょうどそれのための辞書を初期化する。

666
00:34:45,830 --> 00:34:46,820
OK？

667
00:34:46,820 --> 00:34:58,330
>> そして今、私は実際にループのために何ができる
'各単語を計算する

668
00:34:58,330 --> 00:35:00,604
確率。

669
00:35:00,604 --> 00:35:01,540
[OK]をクリックします。

670
00:35:01,540 --> 00:35:04,160
それでは、私にできることは、forループである。

671
00:35:04,160 --> 00:35:06,590
だから、僕は繰り返し処理をするつもりだ
アレイ全体。

672
00:35:06,590 --> 00:35:15,320
私はPythonでそれを行うことができますので、道
「範囲で私のために」である。 1から

673
00:35:15,320 --> 00:35:19,200
私は2番目に起動するので、
要素最初の1であるからである

674
00:35:19,200 --> 00:35:20,260
歌手名。

675
00:35:20,260 --> 00:35:24,990
だから、1からまで
ラインの長さ。

676
00:35:24,990 --> 00:35:29,760
そして、私はそれが実際にから行くの範囲ないとき
ここのような1からのLENへ

677
00:35:29,760 --> 00:35:30,740
ラインを引いた1。

678
00:35:30,740 --> 00:35:33,810
だから、すでにやってのことを行います
非常にあるアレイ用のNマイナス1

679
00:35:33,810 --> 00:35:35,500
便利な。

680
00:35:35,500 --> 00:35:37,850
理にかなっている？

681
00:35:37,850 --> 00:35:42,770
>> したがって、これらのそれぞれについて、どのような私はするつもりです
やるだけ他の1のように、ある

682
00:35:42,770 --> 00:35:50,320
この中の単語かどうかは確認するつもりだ
行の位置がすでにある

683
00:35:50,320 --> 00:35:51,570
確率。

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
そして私は確率は、ここに述べたように
言葉は、のように私は置く

686
00:35:57,260 --> 00:35:58,400
「確率（歌手）」。

687
00:35:58,400 --> 00:35:59,390
歌手の名前がそう。

688
00:35:59,390 --> 00:36:03,450
だから、すでにいた場合
「probabilit（歌手）」、それはつまり、私

689
00:36:03,450 --> 00:36:11,960
それに1を追加したいので、私はするつもりだ
「確率（歌手）」を行って、

690
00:36:11,960 --> 00:36:14,100
ワードは "行（I）」と呼ばれています。

691
00:36:14,100 --> 00:36:22,630
私はちょうど私1を追加しようと「それ以外」だ
1に初期化しようとして。

692
00:36:22,630 --> 00:36:23,880
「ライン（I）」。

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
理にかなっている？

695
00:36:28,420 --> 00:36:30,180
>> だから、私はすべてのアレイを計算した。

696
00:36:30,180 --> 00:36:36,580
だから、今、すべて私がしなければならないこと
この1は単に「事前分布を返されて、

697
00:36:36,580 --> 00:36:43,230
確率と単語 "レッツ
[OK]を、任意のがあるかどうかを確認。

698
00:36:43,230 --> 00:36:45,690
それはすべてがこれまでに取り組んでいるようです。

699
00:36:45,690 --> 00:36:46,900
だから、それは理にかなっている？

700
00:36:46,900 --> 00:36:47,750
何らかの方法で？

701
00:36:47,750 --> 00:36:49,280
[OK]をクリックします。

702
00:36:49,280 --> 00:36:51,980
だから今、私はすべての確率を持っている。

703
00:36:51,980 --> 00:36:55,100
だから今、私は残っている唯一のこと
まさにそのことを持つことであること

704
00:36:55,100 --> 00:36:58,650
すべての積を計算します
私は歌詞を取得するときに確率。

705
00:36:58,650 --> 00:37:06,270
>> それでは、私は今、電話をかけたいとしましょう
この機能は、「分類（）」と

706
00:37:06,270 --> 00:37:08,880
事その関数が取る
ただ引数です。

707
00:37:08,880 --> 00:37:13,170
それでは「赤ちゃんは、私は燃えています」としましょう​​、それはだ
何であるかを把握しようとして

708
00:37:13,170 --> 00:37:14,490
これはガガである確率？

709
00:37:14,490 --> 00:37:16,405
確率とは何ですか
これはケイティであること？

710
00:37:16,405 --> 00:37:19,690
いいですね？

711
00:37:19,690 --> 00:37:25,750
だから、僕は作成する必要がありますするつもりだ
と呼ばれる新しい機能」（分類）」と

712
00:37:25,750 --> 00:37:29,180
それはいくつかを取ることになるだろう
歌詞にも。

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
歌詞に加えて私はまた、
事前分布を送信する必要があり、

715
00:37:36,160 --> 00:37:37,700
確率との言葉。

716
00:37:37,700 --> 00:37:44,000
だから私は歌詞、事前分布を送信するつもりだ、
確率、言葉。

717
00:37:44,000 --> 00:37:51,840
>> だから、これは歌詞、事前分布を取っている、
確率、言葉。

718
00:37:51,840 --> 00:37:53,530
だから、それは何をするのでしょうか？

719
00:37:53,530 --> 00:37:57,180
それは基本的にすべてを通過しようとしている
可能性のある候補があること

720
00:37:57,180 --> 00:37:58,510
歌手として持っている。

721
00:37:58,510 --> 00:37:59,425
どこでこれらの候補者は何ですか？

722
00:37:59,425 --> 00:38:01,020
彼らは正しい、事前分布にいる？

723
00:38:01,020 --> 00:38:02,710
だから私はそこに、それらのすべてを持っている。

724
00:38:02,710 --> 00:38:07,870
だから私は辞書を持っているつもりだ
すべての可能な候補者の。

725
00:38:07,870 --> 00:38:14,220
し、各候補者のためにある
事前分布するので、それがために起こっていることを意味します

726
00:38:14,220 --> 00:38:17,740
私が持っていた場合·ガガ、ケイティも
より多くの、よりになります。

727
00:38:17,740 --> 00:38:20,410
私は計算を開始するつもりだ
この確率。

728
00:38:20,410 --> 00:38:28,310
私たちが見たように、確率
PowerPointは前回です

729
00:38:28,310 --> 00:38:30,800
それぞれの積
他の確率。

730
00:38:30,800 --> 00:38:32,520
>> だから私はここで同じことを行うことができます。

731
00:38:32,520 --> 00:38:36,330
私はちょうど確率は行うことができます
最初は直前に。

732
00:38:36,330 --> 00:38:40,340
候補者の事前確率はそう。

733
00:38:40,340 --> 00:38:40,870
右？

734
00:38:40,870 --> 00:38:45,360
そして今、私はすべてを反復しなければならない
私はあると歌詞を持っている言葉

735
00:38:45,360 --> 00:38:48,820
確率を追加することができ
[OK]を、それらの各々のために？

736
00:38:48,820 --> 00:38:57,900
だから、「歌詞の中の単語の「私は行くよ何
単語がでている場合行うには、ある

737
00:38:57,900 --> 00:39:01,640
「確率（候補）」、その
それは、Wordのことを意味し

738
00:39:01,640 --> 00:39:03,640
候補者は彼らの歌詞があります - 

739
00:39:03,640 --> 00:39:05,940
ガガについては、例えば、 "赤ちゃん"  - 

740
00:39:05,940 --> 00:39:11,710
私は何をするつもりだと、ということです
確率を掛けたことになるだろう

741
00:39:11,710 --> 00:39:22,420
1による確率プラス
その単語の候補。

742
00:39:22,420 --> 00:39:25,710
そして、それは、「ワード」と呼ばれています。

743
00:39:25,710 --> 00:39:32,440
これは、単語の数で割っ
私はその候補者のために持っていること。

744
00:39:32,440 --> 00:39:37,450
私が持っている単語の総数
私が見ている歌手のために。

745
00:39:37,450 --> 00:39:40,290
>> 「エルス」。それは新しい単語であることを意味
ので、例えばのようになるだろう

746
00:39:40,290 --> 00:39:41,860
レディー·ガガは「火」。

747
00:39:41,860 --> 00:39:45,760
だから私は、わずか1をやってみたい
「ワード（候補）」。

748
00:39:45,760 --> 00:39:47,710
だから私はここでこの用語を置きたくない。

749
00:39:47,710 --> 00:39:50,010
>> だから、基本的になるだろう
コピーとこれを貼り付ける。

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
しかし、私はこの部分を削除するつもりです。

752
00:39:56,000 --> 00:39:57,610
だから、ちょうどそれ以上の1になるだろう。

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
いいですね？

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
そして今、最後に、私はするつもりだ
候補者の名前を印刷し、

757
00:40:09,700 --> 00:40:15,750
あなたが持っている確率
それらの歌詞にSを有する。

758
00:40:15,750 --> 00:40:16,200
理にかなっている？

759
00:40:16,200 --> 00:40:18,390
そして、私は実際にもないん
この辞書を必要としています。

760
00:40:18,390 --> 00:40:19,510
理にかなっている？

761
00:40:19,510 --> 00:40:21,810
>> だから、これは実際に動作するかどうかを見てみましょう。

762
00:40:21,810 --> 00:40:24,880
私はこれを実行するのであれば、それはうまくいきませんでした。

763
00:40:24,880 --> 00:40:26,130
1秒待ちます。

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
「言葉（候補）」、「単語（候補）」、
それはです

766
00:40:31,720 --> 00:40:33,750
配列の名前。

767
00:40:33,750 --> 00:40:41,435
[OKだから、それはいくつかのバグがあると言っている
事前分布における候補者のために。

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
私はほんの少し冷やしてみましょう。

770
00:40:48,760 --> 00:40:50,360
[OK]をクリックします。

771
00:40:50,360 --> 00:40:51,305
試してみましょう。

772
00:40:51,305 --> 00:40:51,720
[OK]をクリックします。

773
00:40:51,720 --> 00:40:58,710
>> だから、ケイティ·ペリーがこれを持って提供します
この10倍の確率

774
00:40:58,710 --> 00:41:02,200
マイナス7とガガはこれを持って
マイナス6回10。

775
00:41:02,200 --> 00:41:05,610
だから、それがそのガガを示しています参照してください。
より高い確率を有する。

776
00:41:05,610 --> 00:41:09,260
そうです "ベイビー、私は燃えてんだ」
おそらくガガの歌。

777
00:41:09,260 --> 00:41:10,580
理にかなっている？

778
00:41:10,580 --> 00:41:12,030
だから、これは我々がやったことです。

779
00:41:12,030 --> 00:41:16,010
>> このコードは、オンラインで公開されようとしている、
そうあなたたちはそれをチェックアウトすることができます。

780
00:41:16,010 --> 00:41:20,720
たぶん、あなたがしたい場合は、のためにそれのいくつかを使用
プロジェクトまたは似たようなことを。

781
00:41:20,720 --> 00:41:22,150
[OK]をクリックします。

782
00:41:22,150 --> 00:41:25,930
これはちょうど示すことであった
どのような計算

783
00:41:25,930 --> 00:41:27,230
言語学のコードは次のように見えます。

784
00:41:27,230 --> 00:41:33,040
しかし、今度は、それ以上に行ってみよう
高レベルのもの。

785
00:41:33,040 --> 00:41:33,340
[OK]をクリックします。

786
00:41:33,340 --> 00:41:35,150
>> だから、他の問題は、私
について話していた - 

787
00:41:35,150 --> 00:41:37,550
セグメンテーション問題
そのうちの最初のものです。

788
00:41:37,550 --> 00:41:40,820
だから、ここに日本を持っています。

789
00:41:40,820 --> 00:41:43,420
そして、あなたはいることがわかり
はスペースはありません。

790
00:41:43,420 --> 00:41:49,110
だから、これは基本的にそれはだことを意味している
椅子の上、右？

791
00:41:49,110 --> 00:41:50,550
あなたが日本語を話す？

792
00:41:50,550 --> 00:41:52,840
それは右、椅子の上か？

793
00:41:52,840 --> 00:41:54,480
>> 学生：私は何かわからない
漢字はあそこです。

794
00:41:54,480 --> 00:41:57,010
>> LUCASフレイタス：それは[日本語を話す]だ

795
00:41:57,010 --> 00:41:57,950
[OK]をクリックします。

796
00:41:57,950 --> 00:42:00,960
だから、基本的には、トップの椅子を意味します。

797
00:42:00,960 --> 00:42:03,620
ですから、スペースを入れていた場合は、
それはここになります。

798
00:42:03,620 --> 00:42:05,970
そして、あなたは[持っている？上田さん。 ？]

799
00:42:05,970 --> 00:42:09,040
その基本的には上田氏のことである。

800
00:42:09,040 --> 00:42:13,180
そして、あなたは「上田」とあなたが持っていることがわかります
スペースとし、 "さん。"だから、ことがわかります

801
00:42:13,180 --> 00:42:15,470
ここでは「UE」は、それ自体でのようなものです。

802
00:42:15,470 --> 00:42:17,750
そしてここでは、文字を持っている
それに隣接しています。

803
00:42:17,750 --> 00:42:21,720
>> だから、これらの言語ではないようです
あなたので単語、それを意味の文字

804
00:42:21,720 --> 00:42:23,980
ただ、スペースの多くを置く。

805
00:42:23,980 --> 00:42:25,500
文字は相互に関連する。

806
00:42:25,500 --> 00:42:28,680
そして、彼らは一緒にすることができます
二、三、のような。

807
00:42:28,680 --> 00:42:34,520
だから、実際にはいくつかの種類を作成する必要が
これらのスペースを置くことの道の。

808
00:42:34,520 --> 00:42:38,850
>> そしてこのことは、あなたが得るときはいつでもということです
これらのアジアの言語からのデータを、

809
00:42:38,850 --> 00:42:40,580
すべてがセグメント化されていない来る。

810
00:42:40,580 --> 00:42:45,940
日本を書き込み誰理由
または中国人はスペースで書き込みます。

811
00:42:45,940 --> 00:42:48,200
あなたは中国を書いているときはいつでも、
日本のあなただけのすべてを書く

812
00:42:48,200 --> 00:42:48,710
スペースを入れずに。

813
00:42:48,710 --> 00:42:52,060
それも意味がありません
スペースを入れて。

814
00:42:52,060 --> 00:42:57,960
そう、あなたはからデータを取得するときに、いくつかの
あなたがしたい場合は、東アジア言語、

815
00:42:57,960 --> 00:43:00,760
実際にそれと何かをする
あなたが最初のセグメントする必要があります。

816
00:43:00,760 --> 00:43:05,130
>> の例を行うのではと思います
スペースなしの歌詞。

817
00:43:05,130 --> 00:43:07,950
だから、あなたが持っている唯一の歌詞
右、文章になりますか？

818
00:43:07,950 --> 00:43:09,470
ピリオドで区切られた。

819
00:43:09,470 --> 00:43:13,930
しかし、ちょうど文意志を持つ
本当に情報を与えることで助けない

820
00:43:13,930 --> 00:43:17,760
これらの歌詞による誰であるの。

821
00:43:17,760 --> 00:43:18,120
右？

822
00:43:18,120 --> 00:43:20,010
だから、最初に空白を置く必要があります。

823
00:43:20,010 --> 00:43:21,990
それでは、どのようにそれを行うことができますか？

824
00:43:21,990 --> 00:43:24,920
>> それでは、言語のアイデアが来る
本当に何かですモデル

825
00:43:24,920 --> 00:43:26,870
計算のために重要
言語学。

826
00:43:26,870 --> 00:43:32,790
そのように言語モデルは、基本的に
ことを示してい確率のテーブル

827
00:43:32,790 --> 00:43:36,260
確率とは何か、まず
言語の単語を持っていることの？

828
00:43:36,260 --> 00:43:39,590
そう言葉がどのように頻繁に示している。

829
00:43:39,590 --> 00:43:43,130
そして、その後も関係を示す
文中の単語間。

830
00:43:43,130 --> 00:43:51,500
>> 見知らぬ人が来たのであれば主なアイデアは、ある
あなたとの文に言ったまで

831
00:43:51,500 --> 00:43:55,600
確率のため、というものであるあなた、
例では、「これは私の妹である[？GTF "？]

832
00:43:55,600 --> 00:43:57,480
人が言ったことを文でしたか？

833
00:43:57,480 --> 00:44:00,380
だから、明らかにいくつかの文章があります
他のものよりも一般的。

834
00:44:00,380 --> 00:44:04,450
たとえば、「おはよう」や「良い
夜は、「または」は、ちょっと "だけではありません

835
00:44:04,450 --> 00:44:08,260
最も文章よりも一般的な
私たちは英語を持っていること。

836
00:44:08,260 --> 00:44:11,060
では、なぜこれらの文章がある
より頻繁な？

837
00:44:11,060 --> 00:44:14,060
>> あなたが持っているので、まず第一に、それはだ
より頻繁に言葉。

838
00:44:14,060 --> 00:44:20,180
あなたが言うのであれば、例えば、犬がある
大きな、そして犬は、巨大です

839
00:44:20,180 --> 00:44:23,880
通常はおそらく大きい犬を聞く
より頻繁に "大きな"がよりあるので、

840
00:44:23,880 --> 00:44:27,260
より英語で頻繁に「巨大」。
そのように、一つ

841
00:44:27,260 --> 00:44:30,100
物事は単語の頻度である。

842
00:44:30,100 --> 00:44:34,490
>> 実際に二つ目
重要なのは、単にある

843
00:44:34,490 --> 00:44:35,490
単語の順番。

844
00:44:35,490 --> 00:44:39,500
だから、それは猫である」と言うのが一般的です
。箱の中」はできますが、通常はない

845
00:44:39,500 --> 00:44:44,250
「内側のボックスは猫である」に表示そう
あなたには、いくつかの重要性があることを参照してください。

846
00:44:44,250 --> 00:44:46,030
言葉のためである。

847
00:44:46,030 --> 00:44:50,160
あなただけの言うことができないもの2
フレーズは、同じ確率を有する

848
00:44:50,160 --> 00:44:53,010
彼らは同じ言葉を持っているという理由だけで。

849
00:44:53,010 --> 00:44:55,550
実際には気にする必要があります
順序についても同様。

850
00:44:55,550 --> 00:44:57,650
理にかなって？

851
00:44:57,650 --> 00:44:59,490
>> だから我々は何をしますか？

852
00:44:59,490 --> 00:45:01,550
だから、私はあなたを取得しようとするのでしょうか？

853
00:45:01,550 --> 00:45:04,400
私はあなたが私たちを取得しようとしている
nグラムモデルを呼び出します。

854
00:45:04,400 --> 00:45:09,095
そのようにnグラムモデルは、基本的に想定し
その各単語のこと

855
00:45:09,095 --> 00:45:10,960
あなたが文を持っている。

856
00:45:10,960 --> 00:45:15,020
それが有する確率だと
言葉だけでなくそこに依存します

857
00:45:15,020 --> 00:45:18,395
言語でその単語の頻度、
だけでなく、言葉でその

858
00:45:18,395 --> 00:45:19,860
それを囲むれる。

859
00:45:19,860 --> 00:45:25,810
>> ですから、例えば、通常、あなたが見るとき
またはあなたがしている時のようなもの

860
00:45:25,810 --> 00:45:28,040
おそらく見に行く
それの後に名詞、右？

861
00:45:28,040 --> 00:45:31,750
なぜならあなたは前置詞を持っているとき
通常、それは後に名詞を取ります。

862
00:45:31,750 --> 00:45:35,540
それとも、他動詞である動詞を持っている場合
通常は、しようとしている

863
00:45:35,540 --> 00:45:36,630
名詞句があります。

864
00:45:36,630 --> 00:45:38,780
だから、名詞を持っているために起こっている
その周りのどこか。

865
00:45:38,780 --> 00:45:44,950
>> だから、基本的には、どのようなそれがないと、それがあることである
有する確率を考慮し

866
00:45:44,950 --> 00:45:47,960
つまり隣同士に、とき
あなたが計算している

867
00:45:47,960 --> 00:45:49,050
センテンスの確率。

868
00:45:49,050 --> 00:45:50,960
そして、それはどのような言語だ
モデルは基本的に。

869
00:45:50,960 --> 00:45:54,620
ただ確率何と言って
特定のを持っていることの

870
00:45:54,620 --> 00:45:57,120
言語の文？

871
00:45:57,120 --> 00:45:59,110
では、なぜそれが基本的には、役立ちましたか？

872
00:45:59,110 --> 00:46:02,390
そして、すべての最初のものです
nグラムモデルは、？

873
00:46:02,390 --> 00:46:08,850
>> そのようにnグラムモデルは、意味
各単語が依存

874
00:46:08,850 --> 00:46:12,700
次のNマイナス1言葉。

875
00:46:12,700 --> 00:46:18,150
したがって、基本的に、それは私が見ればことを意味し、
例えば、CS50のTFのとき

876
00:46:18,150 --> 00:46:21,500
Iは、確率を計算するよ
文は、次のようなことでしょう」

877
00:46:21,500 --> 00:46:25,280
単語 ""を有する確率
回」を有する確率

878
00:46:25,280 --> 00:46:31,720
CS50」時代有する確率
「CS50タスクフォース。 "だから、基本的に、私は数え

879
00:46:31,720 --> 00:46:35,720
それを延伸するすべての可能な方法。

880
00:46:35,720 --> 00:46:41,870
>> した後、通常はこれをやっているときに、
プロジェクトのように、あなたがなるように、Nを入れる

881
00:46:41,870 --> 00:46:42,600
低い値。

882
00:46:42,600 --> 00:46:45,930
だから、通常はバイグラムまたは卦を持っている。

883
00:46:45,930 --> 00:46:51,090
あなただけの二つの言葉は、Aを数えるように
2ワード、3単語のグループ、

884
00:46:51,090 --> 00:46:52,620
単にパフォーマンスの問題のために。

885
00:46:52,620 --> 00:46:56,395
またので、多分あなたが持っている場合
のようなもの "CS50タスクフォース。"ときに、

886
00:46:56,395 --> 00:47:00,510
持っている「TFを "と、それは非常に重要だということ
「CS50は「右、それに隣接しています？

887
00:47:00,510 --> 00:47:04,050
これら二点は、通常、
隣同士に。

888
00:47:04,050 --> 00:47:06,410
>> あなたが考える場合は「TF、​​ "それはおそらく
何を持っているつもり

889
00:47:06,410 --> 00:47:07,890
それがためにTF'ingだクラス。

890
00:47:07,890 --> 00:47:11,330
また、 ""は本当に重要です
CS50タスクフォースのため。

891
00:47:11,330 --> 00:47:14,570
しかし、あなたは「CS50のようなものを持っている場合
タスクフォースは、クラスに行って、自分のを与えた

892
00:47:14,570 --> 00:47:20,060
学生お菓子」「キャンディ」と「」
右、本当に関係ない？

893
00:47:20,060 --> 00:47:23,670
彼らはお互いにそう遠くだ
それは実際にどのような問題ではありません

894
00:47:23,670 --> 00:47:25,050
あなたが持っている言葉。

895
00:47:25,050 --> 00:47:31,210
>> そうバイグラムまたはトライグラムにすることで、
ちょうどあなたが制限していることを意味します

896
00:47:31,210 --> 00:47:33,430
自分自身いくつかの単語に
そのまわりにある。

897
00:47:33,430 --> 00:47:35,810
理にかなって？

898
00:47:35,810 --> 00:47:40,630
ですから、セグメンテーションを行いたい場合には、
基本的に、何をあなたがしたいことを参照してくださいです

899
00:47:40,630 --> 00:47:44,850
すべての可能な方法はどのようなものであることを
あなたは、セグメントの文章をことができます。

900
00:47:44,850 --> 00:47:49,090
>> あなたが何であるかを見ているような
これらのフレーズの各々の確率

901
00:47:49,090 --> 00:47:50,880
言語で、既存の？

902
00:47:50,880 --> 00:47:53,410
それでは、あなたが行うことは、十分に、しましょう​​、のようなものです
私はここにスペースを入れてみてください。

903
00:47:53,410 --> 00:47:55,570
だから、そこにスペースを入れて
あなたが何であるかを参照してください。

904
00:47:55,570 --> 00:47:57,590
その文の確率？

905
00:47:57,590 --> 00:48:00,240
その後、多分、[OK]を、のようなもの
それはよくありませんでした。

906
00:48:00,240 --> 00:48:03,420
だから私はそこにスペースとスペースを入れる
そこに、あなたが計算

907
00:48:03,420 --> 00:48:06,240
確率今、あなたがいることがわかり
それは高い確率だ。

908
00:48:06,240 --> 00:48:12,160
>> だから、これはタンゴと呼ばれるアルゴリズムである
あるセグメント化アルゴリズム、

909
00:48:12,160 --> 00:48:14,990
実際には本当になると何か
これは、プロジェクトのために冷却する

910
00:48:14,990 --> 00:48:20,860
基本的にセグメント化されていないテキストをとる
日本語や中国語または多分することができます

911
00:48:20,860 --> 00:48:26,080
英語領域を使わないとputしようとします
言葉とそれがない間のスペース

912
00:48:26,080 --> 00:48:29,120
言語モデルを用いて、そのかつ
最高であるかを確認しようとしてい

913
00:48:29,120 --> 00:48:31,270
あなたが得ることができる確率が高くなる。

914
00:48:31,270 --> 00:48:32,230
[OK]をクリックします。

915
00:48:32,230 --> 00:48:33,800
だから、これはセグメント化である。

916
00:48:33,800 --> 00:48:35,450
>> 今構文。

917
00:48:35,450 --> 00:48:40,940
だから、構文は次のとおりに使用されている
今たくさんのこと。

918
00:48:40,940 --> 00:48:44,880
グラフ検索のため、シリ用のためにそう
自然のほとんどすべての種類

919
00:48:44,880 --> 00:48:46,490
あなたが持っている言語処理。

920
00:48:46,490 --> 00:48:49,140
とても重要なことである
構文についての事？

921
00:48:49,140 --> 00:48:52,390
だから、一般的に文章が持っている
私たちは、構成要素と呼んでいるもの。

922
00:48:52,390 --> 00:48:57,080
どの種類の言葉のグループのようなもの
文中の機能を有すること。

923
00:48:57,080 --> 00:49:02,220
そして、彼らは本当にすることはできません
互いに離れて。

924
00:49:02,220 --> 00:49:07,380
>> 私が言うのであれば、例えば、「ローレンは大好き
ミロ。ローレン」が「私がいることを知っている "

925
00:49:07,380 --> 00:49:10,180
構成要素とし、 "愛
ミロ "も別の1つです。

926
00:49:10,180 --> 00:49:16,860
あなたは「ローレン·ミロのように言うことができないので、
同じ意味を持つこと」が大好き。

927
00:49:16,860 --> 00:49:18,020
それは持っているつもりはない
同じ意味。

928
00:49:18,020 --> 00:49:22,500
または私はミロローレン "のように言うことができない
愛している "すべてが同じを持っていない

929
00:49:22,500 --> 00:49:25,890
それをやって意味。

930
00:49:25,890 --> 00:49:31,940
>> だから、約2もっと重要なことは、
構文は次のとおりです。字句タイプです

931
00:49:31,940 --> 00:49:35,390
基本的に、関数
自らの言葉を持っている。

932
00:49:35,390 --> 00:49:39,180
だから、あなたが知っている必要があること」ローレン」
と "ミロ"は名詞である。

933
00:49:39,180 --> 00:49:41,040
"愛"は動詞である。

934
00:49:41,040 --> 00:49:45,660
そして第二の重要なことは
彼らは句のタイプだということ。

935
00:49:45,660 --> 00:49:48,990
だから、「ミロを愛する」ことを知っている
実際に動詞句である。

936
00:49:48,990 --> 00:49:52,390
だから私は、私がいることを知っている "、ローレン"と言うとき、
ローレンは、何かをしている。

937
00:49:52,390 --> 00:49:53,620
彼女は何をやっている？

938
00:49:53,620 --> 00:49:54,570
彼女はミロを愛するだ。

939
00:49:54,570 --> 00:49:56,440
だから、全体のことだ。

940
00:49:56,440 --> 00:50:01,640
しかし、その構成要素である
名詞と動詞。

941
00:50:01,640 --> 00:50:04,210
しかし、一緒に、彼らは動詞句を作る。

942
00:50:04,210 --> 00:50:08,680
>> だから、私たちは実際に何ができる
計算言語学？

943
00:50:08,680 --> 00:50:13,810
だから、私は何かを持っている場合は
「アリソンの友人。 "私が表示された場合、私だけ

944
00:50:13,810 --> 00:50:17,440
構文木は、私が知っているだろうなかったこと
「友人は「それが名詞句である

945
00:50:17,440 --> 00:50:21,480
「アリソンの「それから名詞とは
「の」の前置詞句がある

946
00:50:21,480 --> 00:50:24,810
命題と "アリソン"は名詞である。

947
00:50:24,810 --> 00:50:30,910
私は何ができることは、私のコンピュータを教えるです
その私が名詞句1を持っているとき

948
00:50:30,910 --> 00:50:33,080
その後、前置詞句。

949
00:50:33,080 --> 00:50:39,020
の "その後、この場合は、「友人」だからと
ミロ「私はこれがあることを意味していることを知っている

950
00:50:39,020 --> 00:50:43,110
NP2は​​、第1には、NP1を所有しています。

951
00:50:43,110 --> 00:50:47,680
>> だから私は関係のいくつかの種類を作成することができ、
それのための機能のいくつかの種類。

952
00:50:47,680 --> 00:50:52,370
だから私は、この構造を見るたびに、その
の友人」と正確に一致する

953
00:50:52,370 --> 00:50:56,030
アリソンは、「私が知っているアリソン
友人が所有しています。

954
00:50:56,030 --> 00:50:58,830
だから友達が何かある
アリソンは、持っていること。

955
00:50:58,830 --> 00:50:59,610
理にかなっている？

956
00:50:59,610 --> 00:51:01,770
だから、これは基本的には何ですか
グラフ探索していますか。

957
00:51:01,770 --> 00:51:04,360
それだけで、ルールを作成します。
多くのことのために。

958
00:51:04,360 --> 00:51:08,190
だから、「アリソンの友人」「私の友人
私の友人は「 "ケンブリッジ、誰が住んでいる

959
00:51:08,190 --> 00:51:12,970
ハーバード大学に行く人。「それは、ルールを作成し、
それらのもののすべてのため。

960
00:51:12,970 --> 00:51:14,930
>> 今機械翻訳。

961
00:51:14,930 --> 00:51:18,850
そのため、機械翻訳でもある
統計的なもの。

962
00:51:18,850 --> 00:51:21,340
そして、実際にあなたがに巻き込ま場合は、
計算言語学、多くの

963
00:51:21,340 --> 00:51:23,580
自分のものは、統計になるだろう。

964
00:51:23,580 --> 00:51:26,670
私は、との例をしていたように
私がいた確率がたくさん

965
00:51:26,670 --> 00:51:30,540
計算した後、あなたはこのに行く
最終の非常に少ない数

966
00:51:30,540 --> 00:51:33,180
確率、それが何
あなたの答えを与える。

967
00:51:33,180 --> 00:51:37,540
機械翻訳にも使用しています
統計モデル。

968
00:51:37,540 --> 00:51:44,790
そして、あなたは、マシンを考えたい場合
最も単純な内訳

969
00:51:44,790 --> 00:51:48,970
方法は、あなたが考えることができることだけである
右、単語、単語を翻訳？

970
00:51:48,970 --> 00:51:52,150
>> あなたが使用する言語を学習しているときは
初めて、それは通常、何

971
00:51:52,150 --> 00:51:52,910
あなたは正しい、のですか？

972
00:51:52,910 --> 00:51:57,050
あなたがしたい場合は、センテンスを翻訳
言語にあなたの言語で

973
00:51:57,050 --> 00:52:00,060
あなたは、通常、最初に、学習している
各単語を翻訳

974
00:52:00,060 --> 00:52:03,180
個別に、次にあなたがしよう
所定の場所に言葉を入れて。

975
00:52:03,180 --> 00:52:07,100
>> だから、私はこれを翻訳したい場合、
[ポルトガル語を話す]

976
00:52:07,100 --> 00:52:10,430
「白猫が逃げた。」を意味する
私はからそれを変換したい場合

977
00:52:10,430 --> 00:52:13,650
英語からポルトガル、どのような私
何ができる私は、まず、

978
00:52:13,650 --> 00:52:14,800
ワード単位で変換します。

979
00:52:14,800 --> 00:52:20,570
そのように「○」は「猫 ""、 ""ガトー」である
「ブランコ」、「白」、次に「fugio」です

980
00:52:20,570 --> 00:52:21,650
「逃げた。 "

981
00:52:21,650 --> 00:52:26,130
>> だから、私は、ここにすべての単語を持っている
しかし、彼らは順番ではありませんね。

982
00:52:26,130 --> 00:52:29,590
それは、 "猫の白が逃げた」ようなものだ
これは非文法的である。

983
00:52:29,590 --> 00:52:34,490
だから、私は第二段階を持つことができる
理想的なの発見されようとしている

984
00:52:34,490 --> 00:52:36,610
各単語のための位置。

985
00:52:36,610 --> 00:52:40,240
だから私は、私が実際にしたいことを知っている
「白猫 "の代わりに"猫の白。 "そう

986
00:52:40,240 --> 00:52:46,050
私ができることは、最も単純な方法であり、
すべて作成することです

987
00:52:46,050 --> 00:52:49,720
の可能な順列
ポジションの言葉。

988
00:52:49,720 --> 00:52:53,300
して、1が持っているかを確認
最も高い確率に従って

989
00:52:53,300 --> 00:52:54,970
私の言語モデルに。

990
00:52:54,970 --> 00:52:58,390
そして、私が持っているものを見つけるとき
で最も高い確率IT、

991
00:52:58,390 --> 00:53:01,910
おそらく「白猫は、逃げた "
それが私の訳です。

992
00:53:01,910 --> 00:53:06,710
>> そして、これは説明の簡単な方法です
どのように機械翻訳の多く

993
00:53:06,710 --> 00:53:07,910
アルゴリズムが働く。

994
00:53:07,910 --> 00:53:08,920
それは理にかなっていますか？

995
00:53:08,920 --> 00:53:12,735
また、これは本当にエキサイティングなものである
あなたたちは、おそらくのために探索することができていること

996
00:53:12,735 --> 00:53:13,901
最終的なプロジェクト、ええ？

997
00:53:13,901 --> 00:53:15,549
>> 学生：さて、あなたはそれがあったと述べ
素朴な方法なので、何が

998
00:53:15,549 --> 00:53:17,200
非素朴な方法？

999
00:53:17,200 --> 00:53:18,400
>> LUCASフレイタス：非素朴な方法？

1000
00:53:18,400 --> 00:53:19,050
[OK]をクリックします。

1001
00:53:19,050 --> 00:53:22,860
約悪いので、まず最初に
この方法では、私はちょうど翻訳ということです

1002
00:53:22,860 --> 00:53:24,330
つまり、言葉による言葉。

1003
00:53:24,330 --> 00:53:30,570
しかし、時にはあなたは言葉を持っている
複数の翻訳を持つことができます。

1004
00:53:30,570 --> 00:53:32,210
私が考えて試してみるつもりだ
何か。

1005
00:53:32,210 --> 00:53:37,270
ポルトガルCANの例では、 "マンガ"
も「マングル」または「スリーブ」のどちらかそう

1006
00:53:37,270 --> 00:53:40,450
あなたは単語を翻訳しようとしているとき
言葉で、それはあなたを与える可能性があります

1007
00:53:40,450 --> 00:53:42,050
意味がありません何か。

1008
00:53:42,050 --> 00:53:45,770
>> だから、実際にはまったく見てあなたにしたい
の可能な翻訳

1009
00:53:45,770 --> 00:53:49,840
単語や参照、まず第一に、
オーダーは何ですか。

1010
00:53:49,840 --> 00:53:52,000
私たちは、並べ替えるを話していた
物事？

1011
00:53:52,000 --> 00:53:54,150
可能なすべての注文を参照して、
最高のものを選ぶ

1012
00:53:54,150 --> 00:53:54,990
確率？

1013
00:53:54,990 --> 00:53:57,860
また、すべての可能なを選択することができます
それぞれの翻訳

1014
00:53:57,860 --> 00:54:00,510
単語として参照してください - 

1015
00:54:00,510 --> 00:54:01,950
順列と組み合わせ - 

1016
00:54:01,950 --> 00:54:03,710
その1は、最も高い確率を持っています。

1017
00:54:03,710 --> 00:54:08,590
>> さらに、あなたもしないで見ることができる
単語だけが、フレーズ。

1018
00:54:08,590 --> 00:54:11,700
だから、間の関係を分析することができます
言葉、次に取得

1019
00:54:11,700 --> 00:54:13,210
より良い翻訳。

1020
00:54:13,210 --> 00:54:16,690
また、何か他のものなので、今学期
私は実際に研究をしています

1021
00:54:16,690 --> 00:54:19,430
中国語 - 英語機械翻訳、
これから翻訳

1022
00:54:19,430 --> 00:54:20,940
英語に中国人。

1023
00:54:20,940 --> 00:54:26,760
>> そして我々は何かが使用する以外、ある
ただで統計モデル、

1024
00:54:26,760 --> 00:54:30,570
見ての確率を見て
文中のある位置、私は

1025
00:54:30,570 --> 00:54:35,360
実際にも、私のためにいくつかの構文を追加する
モデル、私はこの種を見れば、ああ、言って

1026
00:54:35,360 --> 00:54:39,420
建設した、これは私が欲しいものである
私が翻訳したときにそれを変更します。

1027
00:54:39,420 --> 00:54:43,880
だから、あなたはまた、いくつかの種類を追加することができます
確認するための構文の要素

1028
00:54:43,880 --> 00:54:47,970
翻訳をより効率的
より正確な。

1029
00:54:47,970 --> 00:54:48,550
[OK]をクリックします。

1030
00:54:48,550 --> 00:54:51,010
>> あなたが望むのであれば、あなたは、どのように始めることができます
計算で何かをする

1031
00:54:51,010 --> 00:54:51,980
言語学？

1032
00:54:51,980 --> 00:54:54,560
>> まず、プロジェクトを選択
つまり、言語を必要とする。

1033
00:54:54,560 --> 00:54:56,310
だから、そこに非常に多くのがあります。

1034
00:54:56,310 --> 00:54:58,420
あなたが行うことができますので、多くのことがあります。

1035
00:54:58,420 --> 00:55:00,510
し、モデルと考えることができます
あなたが使用できる。

1036
00:55:00,510 --> 00:55:04,710
通常、それはの思考を意味し
仮定、私がいたとき、ああ、など

1037
00:55:04,710 --> 00:55:05,770
歌詞を考えよう。

1038
00:55:05,770 --> 00:55:09,510
私が理解したい場合、私は、よく、のようだった
これを書いた人を、私はおそらくしたい

1039
00:55:09,510 --> 00:55:15,400
使用された単語を見て、人と
非常に多くの場合、その単語を使用しています誰が参照してください。

1040
00:55:15,400 --> 00:55:18,470
そう仮定を作ってみると、
モデルを考えてみてください。

1041
00:55:18,470 --> 00:55:21,395
そして、あなたはまた、オンラインで検索することができます
あなたが持っている問題の種類、

1042
00:55:21,395 --> 00:55:24,260
それが示唆するようになるだろう
多分あなたのモデルに

1043
00:55:24,260 --> 00:55:26,560
よくそのことをモデル化した。

1044
00:55:26,560 --> 00:55:29,080
>> そしてまた、あなたはいつも私を電子メールで送信できます。

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com。

1046
00:55:31,140 --> 00:55:34,940
と私はあなたの質問に答えることができます。

1047
00:55:34,940 --> 00:55:38,600
我々はそうであっても私ができる会うかもしれないことができます
の方法についての提案を与える

1048
00:55:38,600 --> 00:55:41,490
プロジェクトを実施する。

1049
00:55:41,490 --> 00:55:45,610
あなたと巻き込まあれば私は意味
計算言語学、それが起こっている

1050
00:55:45,610 --> 00:55:46,790
素晴らしいことです。

1051
00:55:46,790 --> 00:55:48,370
あなたはそこに見ることになるだろう
そんなに可能性がある。

1052
00:55:48,370 --> 00:55:52,060
そして業界が雇用を希望
そのための、あなたが悪い。

1053
00:55:52,060 --> 00:55:54,720
だから私はあなたたちがこれを楽しんでほしい。

1054
00:55:54,720 --> 00:55:57,030
君たちは不明な点がございましたら、
あなたは、この後に私に尋ねることができます。

1055
00:55:57,030 --> 00:55:58,280
しかし、あなたに感謝します。

1056
00:55:58,280 --> 00:56:00,150