1
00:00:00,000 --> 00:00:08,364

2
00:00:08,364 --> 00:00:08,870
>> LUCAS FREITAS: Hey.

3
00:00:08,870 --> 00:00:09,980
Sexan benvidos.

4
00:00:09,980 --> 00:00:11,216
O meu nome é Lucas Freitas.

5
00:00:11,216 --> 00:00:15,220
Eu son un Júnior na [inaudível], estudando
ciencia da computación con foco en

6
00:00:15,220 --> 00:00:16,410
lingüística computacional.

7
00:00:16,410 --> 00:00:19,310
Así, a miña secundario é en lingua
ea teoría lingüística.

8
00:00:19,310 --> 00:00:21,870
Estou moi animado para ensinar vostedes
un pouco sobre o campo.

9
00:00:21,870 --> 00:00:24,300
É unha área moi interesante para estudar.

10
00:00:24,300 --> 00:00:27,260
Tamén cun gran potencial
para o futuro.

11
00:00:27,260 --> 00:00:30,160
Entón, eu estou realmente animado que vostedes
están considerando proxectos en

12
00:00:30,160 --> 00:00:31,160
lingüística computacional.

13
00:00:31,160 --> 00:00:35,460
E eu serei máis que feliz para aconsellar
calquera de vostedes, se decide

14
00:00:35,460 --> 00:00:37,090
perseguir un deses.

15
00:00:37,090 --> 00:00:40,010
>> Entón, primeiro de todo o que son computacional
lingüística?

16
00:00:40,010 --> 00:00:44,630
Entón lingüística computacional é o
intersección entre lingüística e

17
00:00:44,630 --> 00:00:46,390
ciencia da computación.

18
00:00:46,390 --> 00:00:47,415
Entón, o que é lingüística?

19
00:00:47,415 --> 00:00:48,490
¿Que é a ciencia da computación?

20
00:00:48,490 --> 00:00:51,580
Ben da lingüística, o que
tomamos son as linguas.

21
00:00:51,580 --> 00:00:54,960
Así, a lingüística é realmente o estudo
da linguaxe natural en xeral.

22
00:00:54,960 --> 00:00:58,330
Linguaxe tan natural - falamos
linguaxe que realmente usar a

23
00:00:58,330 --> 00:00:59,770
comunicarse uns cos outros.

24
00:00:59,770 --> 00:01:02,200
Polo tanto, non estamos a falar exactamente
sobre C ou Java.

25
00:01:02,200 --> 00:01:05,900
Estamos a falar máis sobre inglés e
Chinés e outras linguas que

26
00:01:05,900 --> 00:01:07,780
usar para comunicarse uns cos outros.

27
00:01:07,780 --> 00:01:12,470
>> O difícil sobre iso é que
agora temos case 7.000

28
00:01:12,470 --> 00:01:14,260
linguas do mundo.

29
00:01:14,260 --> 00:01:19,520
Entón, hai un alto variedade
de idiomas que podemos estudar.

30
00:01:19,520 --> 00:01:22,600
E entón pensa que é, probablemente,
moi difícil de facer, por exemplo,

31
00:01:22,600 --> 00:01:26,960
tradución dunha lingua para a
outro, tendo en conta que ten

32
00:01:26,960 --> 00:01:28,240
case 7.000 deles.

33
00:01:28,240 --> 00:01:31,450
Entón, se pensar en facer a tradución
dunha lingua a outra ti

34
00:01:31,450 --> 00:01:35,840
ten case máis dun millón
combinacións diferentes que pode

35
00:01:35,840 --> 00:01:37,330
ten de lingua para lingua.

36
00:01:37,330 --> 00:01:40,820
Entón, é realmente un desafío para facer algunha
tipo de sistema de exemplo para tradución

37
00:01:40,820 --> 00:01:43,540
cada lingua única.

38
00:01:43,540 --> 00:01:47,120
>> Así, a lingüística trata con sintaxe,
semántica, pragmática.

39
00:01:47,120 --> 00:01:49,550
Vostedes non exactamente ten
para saber o que están son.

40
00:01:49,550 --> 00:01:55,090
Pero a cousa moi interesante é que
como un falante nativo, cando aprende

41
00:01:55,090 --> 00:01:59,010
linguaxe como neno, o que realmente aprender
Todas esas cousas - semántica sintaxe

42
00:01:59,010 --> 00:02:00,500
e pragmática -

43
00:02:00,500 --> 00:02:01,430
por si mesmo.

44
00:02:01,430 --> 00:02:04,820
E ninguén ten que te ensinar sintaxe para
entender como as sentenzas son

45
00:02:04,820 --> 00:02:05,290
estruturada.

46
00:02:05,290 --> 00:02:07,980
Entón, é realmente interesante porque
é algo que vén moi

47
00:02:07,980 --> 00:02:10,389
intuitivamente.

48
00:02:10,389 --> 00:02:13,190
>> E o que está tirando
a ciencia da computación?

49
00:02:13,190 --> 00:02:16,700
Ben, a cousa máis importante que nós
ter en ciencia da computación é, antes de

50
00:02:16,700 --> 00:02:19,340
todo, a intelixencia artificial
e aprendizaxe de máquina.

51
00:02:19,340 --> 00:02:22,610
Entón, o que estamos intentando facer
lingüística computacional é ensinar

52
00:02:22,610 --> 00:02:26,990
o ordenador como facer algo
coa linguaxe.

53
00:02:26,990 --> 00:02:28,630
>> Así, por exemplo, na máquina
tradución.

54
00:02:28,630 --> 00:02:32,490
Estou tentando ensinar o meu ordenador como
para saber como facer a transición dun

55
00:02:32,490 --> 00:02:33,310
lingua para a outra.

56
00:02:33,310 --> 00:02:35,790
Entón, basicamente desexa ensinar
un ordenador dúas linguas.

57
00:02:35,790 --> 00:02:38,870
Se eu fai procesamento de linguaxe natural,
que é o caso por exemplo de

58
00:02:38,870 --> 00:02:41,810
Facebook Graph Search, vostede ensinar
o ordenador como entender

59
00:02:41,810 --> 00:02:42,730
consultas ben.

60
00:02:42,730 --> 00:02:48,130
>> Entón, se di "as fotos da miña
contactos. "Facebook non tratar este

61
00:02:48,130 --> 00:02:51,130
como toda unha serie que ten
só unha morea de palabras.

62
00:02:51,130 --> 00:02:56,020
El realmente entende a relación
entre "Fotos" e "meus amigos" e

63
00:02:56,020 --> 00:02:59,620
entende que "fotos" son
propiedade de "meus amigos".

64
00:02:59,620 --> 00:03:02,350
>> Entón, iso é parte, por exemplo,
procesamento de linguaxe natural.

65
00:03:02,350 --> 00:03:04,790
Está tentando entender o que
é a relación entre

66
00:03:04,790 --> 00:03:07,520
as palabras nunha frase.

67
00:03:07,520 --> 00:03:11,170
E a gran cuestión é, non é
ensinar un ordenador falando

68
00:03:11,170 --> 00:03:12,650
unha linguaxe en xeral?

69
00:03:12,650 --> 00:03:17,810
Que é unha pregunta moi interesante
creo que, como se cadra no futuro,

70
00:03:17,810 --> 00:03:19,930
vai ser capaz de
fale co seu teléfono móbil.

71
00:03:19,930 --> 00:03:23,290
Máis ou menos como o que facemos con Siri, pero
algo máis parecido, realmente pode

72
00:03:23,290 --> 00:03:25,690
dicir o que quere e teléfono
vai entender todo.

73
00:03:25,690 --> 00:03:28,350
E pode ter seguimento preguntas
e seguir a falar.

74
00:03:28,350 --> 00:03:30,880
Isto é algo realmente emocionante,
na miña opinión.

75
00:03:30,880 --> 00:03:33,070
>> Entón, algo sobre linguas naturais.

76
00:03:33,070 --> 00:03:36,220
Algo realmente interesante
linguas naturais é que, e este é

77
00:03:36,220 --> 00:03:38,470
crédito para o meu profesor de lingüística,
María Polinsky.

78
00:03:38,470 --> 00:03:40,830
Ela dá un exemplo e eu creo que
é realmente interesante.

79
00:03:40,830 --> 00:03:47,060
Porque aprender a linguaxe a partir de cando
nacemos e entón a nosa nativa

80
00:03:47,060 --> 00:03:49,170
tipo de linguaxe crece en nós.

81
00:03:49,170 --> 00:03:52,570
>> E basicamente aprender a lingua
de entrada mínima, non?

82
00:03:52,570 --> 00:03:56,700
Só está a recibir entrada de seu
pais de que o seu idioma soa

83
00:03:56,700 --> 00:03:58,770
gusta e que acaba de aprender.

84
00:03:58,770 --> 00:04:02,240
Entón, é interesante porque se ollar
a esas frases, por exemplo.

85
00:04:02,240 --> 00:04:06,980
Mira, "María pon un abrigo de cada
vez que sae de casa. "

86
00:04:06,980 --> 00:04:10,650
>> Neste caso, se pode estar
palabra "ela" refírese a María, non?

87
00:04:10,650 --> 00:04:13,500
Pode dicir "María pon un abrigo
cada vez que deixa o María

88
00:04:13,500 --> 00:04:14,960
casa. "de xeito que é bo.

89
00:04:14,960 --> 00:04:19,370
Pero, entón, se ollar para a sentenza
"Ela pon un abrigo de cada vez que María

90
00:04:19,370 --> 00:04:22,850
sae de casa. "sabe que é
imposible dicir que "ela" é

91
00:04:22,850 --> 00:04:24,260
referíndose a María.

92
00:04:24,260 --> 00:04:27,070
>> Non hai ningunha forma de dicir que "María pon
un abrigo de cada vez que Mary deixa

93
00:04:27,070 --> 00:04:30,790
a casa. "Entón, é interesante porque
este é o tipo de intuición

94
00:04:30,790 --> 00:04:32,890
que todo falante nativo ten.

95
00:04:32,890 --> 00:04:36,370
E ninguén se ensina que se trata
a forma que a sintaxe funciona.

96
00:04:36,370 --> 00:04:41,930
E que só se pode ter ese "ela"
referíndose a María neste primeiro caso,

97
00:04:41,930 --> 00:04:44,260
e, de feito, nesta outra
tamén, pero non neste.

98
00:04:44,260 --> 00:04:46,500
Pero todo o mundo fica tipo de
para a mesma resposta.

99
00:04:46,500 --> 00:04:48,580
Todos coinciden con iso.

100
00:04:48,580 --> 00:04:53,280
Entón, é realmente interesante como a pesar de
non sabe as regras

101
00:04:53,280 --> 00:04:55,575
no seu idioma que tipo de comprender
como a linguaxe funciona.

102
00:04:55,575 --> 00:04:59,020

103
00:04:59,020 --> 00:05:01,530
>> Entón, a cousa interesante sobre naturais
linguaxe é que non ten que

104
00:05:01,530 --> 00:05:06,970
coñezo ningunha sintaxe saber se unha sentenza
é gramatical ou non gramatical para

105
00:05:06,970 --> 00:05:08,810
maior parte dos casos.

106
00:05:08,810 --> 00:05:13,220
O que fai pensar que quizais o que
pasa é que, a través da súa vida,

107
00:05:13,220 --> 00:05:17,410
están a ser cada vez máis
sentenzas dixo para ti.

108
00:05:17,410 --> 00:05:19,800
E entón manter memorización
todas as sentenzas.

109
00:05:19,800 --> 00:05:24,230
E entón, cando alguén lle di
algo, escoita esa frase e

110
00:05:24,230 --> 00:05:27,040
mira para o seu vocabulario
de sentenzas e ver se

111
00:05:27,040 --> 00:05:28,270
esa frase está aí.

112
00:05:28,270 --> 00:05:29,830
E se está alí
dicir que é gramatical.

113
00:05:29,830 --> 00:05:31,740
Se non é vostede dicir que é
ungrammatical.

114
00:05:31,740 --> 00:05:35,150
>> Entón, nese caso, diría: oh,
así que ten unha lista enorme de todo

115
00:05:35,150 --> 00:05:36,140
posibles sentenzas.

116
00:05:36,140 --> 00:05:38,240
E entón, cando se escoita unha frase,
vostede sabe se é gramatical ou

117
00:05:38,240 --> 00:05:39,450
non con base niso.

118
00:05:39,450 --> 00:05:42,360
A cousa é que se ollar para
unha frase, por exemplo, "A

119
00:05:42,360 --> 00:05:47,540
cinco cabezas CS50 TFS cocido cegos
polbo usando unha caneca DAPA ". É

120
00:05:47,540 --> 00:05:49,630
definitivamente non é unha sentenza
que xa escoitou antes.

121
00:05:49,630 --> 00:05:52,380
Pero, á vez, vostede sabe que é
practicamente gramatical, non?

122
00:05:52,380 --> 00:05:55,570
Non hai erros gramaticais
e pode dicir que

123
00:05:55,570 --> 00:05:57,020
é unha posible sentenza.

124
00:05:57,020 --> 00:06:01,300
>> Por iso, fainos pensar que, en realidade, a
xeito que aprender a lingua non é só

125
00:06:01,300 --> 00:06:07,090
por ter unha enorme base de datos de posibles
palabras ou frases, pero máis de

126
00:06:07,090 --> 00:06:11,490
comprender a relación entre
palabras esas frases.

127
00:06:11,490 --> 00:06:14,570
Será que isto ten sentido?

128
00:06:14,570 --> 00:06:19,370
Así, entón, a pregunta é, pode
ordenadores aprender linguas?

129
00:06:19,370 --> 00:06:21,490
Podemos ensinar a lingua para ordenadores?

130
00:06:21,490 --> 00:06:24,230
>> Entón, imos pensar na diferenza
entre un falante nativo dunha lingua

131
00:06:24,230 --> 00:06:25,460
e un ordenador.

132
00:06:25,460 --> 00:06:27,340
Entón, o que pasa co altofalante?

133
00:06:27,340 --> 00:06:30,430
Ben, o falante nativo aprende unha
linguaxe da exposición ao produto.

134
00:06:30,430 --> 00:06:34,200
Normalmente os seus anos de infancia.

135
00:06:34,200 --> 00:06:38,570
Entón, basicamente, só ten un bebé,
e continúa a falar con el, e el

136
00:06:38,570 --> 00:06:40,540
só aprende a falar
a linguaxe, non?

137
00:06:40,540 --> 00:06:42,660
Entón, está basicamente dando
entrada para o bebé.

138
00:06:42,660 --> 00:06:45,200
Entón, pode argumentar que un ordenador
Pode facer o mesmo, non?

139
00:06:45,200 --> 00:06:49,510
Pode só dar-lingua
como entrada para o ordenador.

140
00:06:49,510 --> 00:06:53,410
>> Como por exemplo, unha morea de arquivos
que teñen libros en inglés.

141
00:06:53,410 --> 00:06:56,190
Quizais esa sexa unha forma que
podería ensinar unha

142
00:06:56,190 --> 00:06:57,850
ordenador Inglés, non?

143
00:06:57,850 --> 00:07:01,000
E, de feito, se pensar sobre iso,
hai que que quizais un par

144
00:07:01,000 --> 00:07:02,680
días a ler un libro.

145
00:07:02,680 --> 00:07:05,760
Para un equipo que leva un segundo para
mirar para as palabras en un libro.

146
00:07:05,760 --> 00:07:10,810
Así, pode pensar que pode ser só iso
argumento de entrada a partir da súa volta,

147
00:07:10,810 --> 00:07:15,440
iso non é suficiente para dicir que iso é
algo que só os humanos poden facer.

148
00:07:15,440 --> 00:07:17,680
Pode pensar ordenadores
Tamén pode obter entrada.

149
00:07:17,680 --> 00:07:21,170
>> A segunda cousa é que os falantes nativos
tamén teñen un cerebro que ten

150
00:07:21,170 --> 00:07:23,870
capacidade de aprendizaxe de linguas.

151
00:07:23,870 --> 00:07:27,020
Pero se pensar sobre iso,
un cerebro é unha cousa sólida.

152
00:07:27,020 --> 00:07:30,450
Cando nace, xa está definido -

153
00:07:30,450 --> 00:07:31,320
este é o seu cerebro.

154
00:07:31,320 --> 00:07:34,660
E, como crecer, está máis
entrada da linguaxe e quizais nutrientes

155
00:07:34,660 --> 00:07:35,960
e outras cousas.

156
00:07:35,960 --> 00:07:38,170
Pero moi fermoso o seu cerebro
é unha cousa sólida.

157
00:07:38,170 --> 00:07:41,290
>> Así, pode dicir, ben, quizais poida
construír un ordenador que ten unha morea de

158
00:07:41,290 --> 00:07:45,890
funcións e métodos que imitan
capacidade de aprendizaxe de linguas.

159
00:07:45,890 --> 00:07:49,630
Entón, nese sentido, pódese dicir, ben, eu
pode ter un ordenador que ten todo o

160
00:07:49,630 --> 00:07:52,270
cousas que eu teño aprender a lingua.

161
00:07:52,270 --> 00:07:56,200
E a última cousa é que un nativo
falante aprende con intento e erro.

162
00:07:56,200 --> 00:08:01,090
Entón, basicamente, outra cousa importante na
a aprendizaxe de linguas é que medio

163
00:08:01,090 --> 00:08:05,340
de aprender as cousas, facendo
xeneralizacións sobre o que se escoita.

164
00:08:05,340 --> 00:08:10,280
>> Entón, como é evidente aprende que
algunhas palabras son máis como substantivos,

165
00:08:10,280 --> 00:08:11,820
algunhas outras son adxectivos.

166
00:08:11,820 --> 00:08:14,250
E non ten que ter ningún
coñecemento da lingüística

167
00:08:14,250 --> 00:08:15,040
entender iso.

168
00:08:15,040 --> 00:08:18,560
Pero só se sabe que hai algunhas palabras
están posicionados en algures do

169
00:08:18,560 --> 00:08:22,570
sentenza e algúns outros noutro
partes da sentenza.

170
00:08:22,570 --> 00:08:26,110
>> E que cando fai algo que é
como unha frase que non é correcto -

171
00:08:26,110 --> 00:08:28,770
quizais por mor dunha xeneralización sobre
por exemplo.

172
00:08:28,770 --> 00:08:32,210
Quizais cando está crecendo, entender
que o plural é xeralmente

173
00:08:32,210 --> 00:08:35,809
formado por poñer un S no
o fin da palabra.

174
00:08:35,809 --> 00:08:40,042
E entón intenta facer o plural de
"Corzo" como "cervos" ou "dentes" como

175
00:08:40,042 --> 00:08:44,780
"Tooths". Entón os seus pais ou
alguén resolve e di, non, o

176
00:08:44,780 --> 00:08:49,020
plural de "corzo" é "corzo", eo
plural de "dente" é "dentes". E entón

177
00:08:49,020 --> 00:08:50,060
aprender esas cousas.

178
00:08:50,060 --> 00:08:51,520
Entón aprender intento e erro.

179
00:08:51,520 --> 00:08:53,100
>> Pero tamén pode facelo
con un ordenador.

180
00:08:53,100 --> 00:08:55,310
Pode que unha cousa chamada
aprendizaxe por reforzo.

181
00:08:55,310 --> 00:08:58,560
Que é basicamente como dar un
ordenador unha recompensa cada vez que fai

182
00:08:58,560 --> 00:08:59,410
algo correctamente.

183
00:08:59,410 --> 00:09:04,710
E dándolle o contrario dunha recompensa
e cando fai algo mal.

184
00:09:04,710 --> 00:09:07,410
Pode realmente ver que se ir
a Google Translate e tentar

185
00:09:07,410 --> 00:09:10,220
traducir unha frase,
pídelle ao GABARITO.

186
00:09:10,220 --> 00:09:13,240
Entón, se di, oh, hai unha mellor
tradución desta frase.

187
00:09:13,240 --> 00:09:18,140
Pode escriba-lo e, a continuación, se unha morea de
as persoas seguen a dicir que é a mellor

188
00:09:18,140 --> 00:09:21,560
tradución, el só aprende que
debe usala en vez de tradución

189
00:09:21,560 --> 00:09:22,960
aquel que estaba dando.

190
00:09:22,960 --> 00:09:28,830
>> Entón, é unha pregunta moi filosófica
a ver se os ordenadores van ser

191
00:09:28,830 --> 00:09:30,340
capaz de falar ou non no futuro.

192
00:09:30,340 --> 00:09:34,440
Pero eu teño grandes esperanzas de que poden
só con base neses argumentos.

193
00:09:34,440 --> 00:09:38,570
Pero é só un filosófica
pregunta.

194
00:09:38,570 --> 00:09:43,460
>> Así, mentres os ordenadores aínda non pode falar,
cales son as cousas que podemos facer?

195
00:09:43,460 --> 00:09:47,070
Algunhas cousas moi legais son
clasificación de datos.

196
00:09:47,070 --> 00:09:53,210
Así, por exemplo, xa sabedes
que os servizos de correo-e facer, para

197
00:09:53,210 --> 00:09:55,580
exemplo, filtrado de spam.

198
00:09:55,580 --> 00:09:59,070
Así, sempre que recibir spam,
intenta filtrar a outra caixa.

199
00:09:59,070 --> 00:10:00,270
Entón, como fai iso?

200
00:10:00,270 --> 00:10:06,080
Non é como se o ordenador só sabe
enderezos de correo electrónico que está enviando spam.

201
00:10:06,080 --> 00:10:09,130
Polo tanto, é máis baseado no contido de
da mensaxe, ou que o nome, ou

202
00:10:09,130 --> 00:10:11,310
quizais algún defecto que ten.

203
00:10:11,310 --> 00:10:15,690
>> Entón, basicamente, o que pode facer é obter un
gran cantidade de datos de correo-e que son spam,

204
00:10:15,690 --> 00:10:19,980
correos electrónicos que non son spam, e así aprender o que
tipo de patróns que ten no

205
00:10:19,980 --> 00:10:21,000
aquelas que son spam.

206
00:10:21,000 --> 00:10:23,260
E iso forma parte do computacional
lingüística.

207
00:10:23,260 --> 00:10:24,720
Chama-se a clasificación de datos.

208
00:10:24,720 --> 00:10:28,100
E nós estamos indo realmente para ver unha
exemplo de que, nos próximos diapositivas.

209
00:10:28,100 --> 00:10:32,910
>> A segunda cousa é a linguaxe natural
procesamento que é a cousa que o

210
00:10:32,910 --> 00:10:36,580
Gráfico Investigación está facendo de deixar
escribir unha frase.

211
00:10:36,580 --> 00:10:38,690
E confía en ti entender o que
é o sentido e dá

212
00:10:38,690 --> 00:10:39,940
un resultado mellor.

213
00:10:39,940 --> 00:10:43,880
De feito, se vai a Google ou Bing
e busca algo como Lady

214
00:10:43,880 --> 00:10:47,060
Altura de Gaga, en realidade está indo
para obter 5 '1 "no canto de información

215
00:10:47,060 --> 00:10:50,170
dela, porque realmente entende
o que está falando.

216
00:10:50,170 --> 00:10:52,140
Entón, iso é parte de recursos naturais
procesamento da linguaxe.

217
00:10:52,140 --> 00:10:57,000
>> Ou tamén cando está usando o Siri, primeiro
ten un algoritmo que trata de

218
00:10:57,000 --> 00:11:01,130
traducir o que está dicindo
en palabras, en texto.

219
00:11:01,130 --> 00:11:03,690
E entón el tenta traducir
que en sentido.

220
00:11:03,690 --> 00:11:06,570
Entón, iso é todo parte de recursos naturais
procesamento da linguaxe.

221
00:11:06,570 --> 00:11:08,320
>> Entón tes de tradución automática -

222
00:11:08,320 --> 00:11:10,300
que en realidade é un
dos meus favoritos -

223
00:11:10,300 --> 00:11:14,060
que é só a tradución de
dunha lingua a outra.

224
00:11:14,060 --> 00:11:17,950
Así, pode pensar que, cando está facendo
tradución automática, ten

225
00:11:17,950 --> 00:11:19,750
infinitas posibilidades de sentenzas.

226
00:11:19,750 --> 00:11:22,960
Polo tanto, non hai ningunha forma de almacenar só
cada tradución única.

227
00:11:22,960 --> 00:11:27,440
Entón tes que chegar a interesante
algoritmos para poder

228
00:11:27,440 --> 00:11:30,110
traducir cada
sentenza de algunha maneira.

229
00:11:30,110 --> 00:11:32,483
>> Vostedes teñen algunha dúbida ata agora?

230
00:11:32,483 --> 00:11:34,450
Non?

231
00:11:34,450 --> 00:11:34,830
Aceptar.

232
00:11:34,830 --> 00:11:36,900
>> Entón, o que veremos hoxe?

233
00:11:36,900 --> 00:11:39,300
Primeiro de todo, eu vou falar de
o problema de clasificación.

234
00:11:39,300 --> 00:11:41,440
Entón, o que eu estaba
dicindo sobre spam.

235
00:11:41,440 --> 00:11:46,820
O que vou facer é, dadas as letras
unha música, pode tentar descubrir

236
00:11:46,820 --> 00:11:49,810
con elevada probabilidade
quen é o cantante?

237
00:11:49,810 --> 00:11:53,590
Imos dicir que eu teño cancións de Lady
Gaga e Katy Perry, se che dou un

238
00:11:53,590 --> 00:11:58,130
nova canción, pode descubrir se
é Katy Perry ou Lady Gaga?

239
00:11:58,130 --> 00:12:01,490
>> O segundo, eu só vou falar
sobre o problema de segmentación.

240
00:12:01,490 --> 00:12:05,780
Entón, eu non sei se vostedes saben, pero
Chinés, xaponés, outro do leste asiático

241
00:12:05,780 --> 00:12:08,090
idiomas, e outros idiomas
en xeral, non teñen

242
00:12:08,090 --> 00:12:09,830
espazos entre as palabras.

243
00:12:09,830 --> 00:12:13,540
E entón, se pensar sobre a forma que
o tipo de ordenador de intentos para

244
00:12:13,540 --> 00:12:18,600
comprender procesamento de linguaxe natural,
ten en conta as palabras e

245
00:12:18,600 --> 00:12:21,500
intenta comprender as relacións
entre eles, non?

246
00:12:21,500 --> 00:12:25,440
Pero, entón, se ten chinés, e
ter cero espazos, é realmente difícil

247
00:12:25,440 --> 00:12:28,360
descubrir o que é a relación entre
palabras, porque eles non teñen ningunha

248
00:12:28,360 --> 00:12:29,530
palabras en primeiro lugar.

249
00:12:29,530 --> 00:12:32,600
Entón tes que facer algo chamado
segmentación que significa só poñer

250
00:12:32,600 --> 00:12:36,490
espazos entre o que nós chamariamos
palabras nesas linguas.

251
00:12:36,490 --> 00:12:37,740
Ten sentido?

252
00:12:37,740 --> 00:12:39,680

253
00:12:39,680 --> 00:12:41,540
>> E entón nós imos
falar sintaxe.

254
00:12:41,540 --> 00:12:44,050
Entón, simplemente un pouco sobre naturais
procesamento da linguaxe.

255
00:12:44,050 --> 00:12:45,420
Será só unha visión xeral.

256
00:12:45,420 --> 00:12:50,700
Entón, hoxe, basicamente o que quero facer
é dar a vostedes un pouco de unha

257
00:12:50,700 --> 00:12:53,930
dentro do que son as posibilidades
que se pode facer con computacional

258
00:12:53,930 --> 00:12:54,960
lingüística.

259
00:12:54,960 --> 00:13:00,410
E entón podes ver o que pensa
é legal entre esas cousas.

260
00:13:00,410 --> 00:13:02,270
E quizais poida pensar nun proxecto
e vén falar comigo.

261
00:13:02,270 --> 00:13:05,260
E podo lle dar consellos
sobre o xeito de implementar lo.

262
00:13:05,260 --> 00:13:09,060
>> Entón sintaxe será algo
Investigación sobre Graph e máquina

263
00:13:09,060 --> 00:13:09,670
tradución.

264
00:13:09,670 --> 00:13:13,650
Eu só vou dar un exemplo de como
podería, por exemplo, traducir

265
00:13:13,650 --> 00:13:16,020
algo de portugués a inglés.

266
00:13:16,020 --> 00:13:17,830
Parece bo?

267
00:13:17,830 --> 00:13:19,293
>> Entón, primeiro, o problema de clasificación.

268
00:13:19,293 --> 00:13:23,590
Eu vou dicir que esta parte do seminario
será o maior desafío

269
00:13:23,590 --> 00:13:27,560
un só porque non vai
ser algunha codificación.

270
00:13:27,560 --> 00:13:29,470
Pero vai ser Python.

271
00:13:29,470 --> 00:13:34,380
Sei que vostedes non coñecen Python, por iso,
Eu só vou explicar sobre a alta

272
00:13:34,380 --> 00:13:35,750
nivel que eu estou facendo.

273
00:13:35,750 --> 00:13:40,900
E non ten que realmente se preocupan máis
moito sobre a sintaxe, porque iso é

274
00:13:40,900 --> 00:13:42,140
algo que vostedes poidan aprender.

275
00:13:42,140 --> 00:13:42,540
OK?

276
00:13:42,540 --> 00:13:43,580
Parece bo.

277
00:13:43,580 --> 00:13:46,020
>> Entón, cal é o problema de clasificación?

278
00:13:46,020 --> 00:13:49,140
Entón, está dado algunhas letras para
unha música, e quere adiviñar

279
00:13:49,140 --> 00:13:50,620
quen está a cantar.

280
00:13:50,620 --> 00:13:54,045
E isto pode ser para calquera tipo
doutros problemas.

281
00:13:54,045 --> 00:13:59,980
Así pode ser, por exemplo, ten un
campaña presidencial e ten un

282
00:13:59,980 --> 00:14:02,610
fala, e quere atopar
si era, por exemplo,

283
00:14:02,610 --> 00:14:04,470
Obama ou Mitt Romney.

284
00:14:04,470 --> 00:14:07,700
Ou pode ter unha chea de correos electrónicos e
quere descubrir se son

285
00:14:07,700 --> 00:14:08,890
spam ou non.

286
00:14:08,890 --> 00:14:11,440
Entón é só clasificando unhas
datos en base ás palabras

287
00:14:11,440 --> 00:14:13,790
que ten alí.

288
00:14:13,790 --> 00:14:16,295
>> Entón, para facelo, ten que
facer algunhas suposicións.

289
00:14:16,295 --> 00:14:20,570
Entón, unha morea sobre a lingüística computacional
está a facer suposicións,

290
00:14:20,570 --> 00:14:24,100
presupostos xeralmente intelixentes, de xeito que
pode obter bos resultados.

291
00:14:24,100 --> 00:14:26,670
Intentando crear un modelo para el.

292
00:14:26,670 --> 00:14:31,290
E, a continuación, proba-lo para ver se funciona,
se lle dá unha boa precisión.

293
00:14:31,290 --> 00:14:33,940
E se isto acontecer, entón
tentar melloralo.

294
00:14:33,940 --> 00:14:37,640
Se non, é como, OK, quizais eu
debe facer unha suposición diferente.

295
00:14:37,640 --> 00:14:44,030
>> Así, a suposición de que imos
facer é que un artista normalmente canta

296
00:14:44,030 --> 00:14:49,220
sobre un tema varias veces, e quizais
usa palabras varias veces só

297
00:14:49,220 --> 00:14:50,270
porque están afeitos a iso.

298
00:14:50,270 --> 00:14:51,890
Pode só pensar no seu amigo.

299
00:14:51,890 --> 00:14:57,350
Eu estou seguro que todos teñen amigos
que din que a súa frase de sinatura,

300
00:14:57,350 --> 00:14:59,260
literalmente a cada frase -

301
00:14:59,260 --> 00:15:02,660
como algunha palabra ou algún específico específico
frase que din para

302
00:15:02,660 --> 00:15:04,020
cada frase única.

303
00:15:04,020 --> 00:15:07,920
>> E o que pode dicir é que se ves
unha frase que ten unha sinatura

304
00:15:07,920 --> 00:15:11,450
frase, pode imaxinar que, probablemente,
o seu amigo é o

305
00:15:11,450 --> 00:15:13,310
un dicilo, non?

306
00:15:13,310 --> 00:15:18,410
Entón fai esa suposición e, a continuación,
é así que crear un modelo.

307
00:15:18,410 --> 00:15:24,440
>> O exemplo que vou dar é sobre
como Lady Gaga, por exemplo, persoas

308
00:15:24,440 --> 00:15:27,430
dicir que usa "bebé" para
todas as súas cancións número un.

309
00:15:27,430 --> 00:15:32,270
E, de feito, este é un vídeo que mostra
ela dicir a palabra "bebé" para

310
00:15:32,270 --> 00:15:33,410
cancións diferentes.

311
00:15:33,410 --> 00:15:33,860
>> [REPRODUCIÓN]

312
00:15:33,860 --> 00:15:34,310
>> - (Cantando) Bebé.

313
00:15:34,310 --> 00:15:36,220
Bebé.

314
00:15:36,220 --> 00:15:37,086
Bebé.

315
00:15:37,086 --> 00:15:37,520
Bebé.

316
00:15:37,520 --> 00:15:37,770
Bebé.

317
00:15:37,770 --> 00:15:38,822
Borracho.

318
00:15:38,822 --> 00:15:39,243
Bebé.

319
00:15:39,243 --> 00:15:40,085
Bebé.

320
00:15:40,085 --> 00:15:40,510
Bebé.

321
00:15:40,510 --> 00:15:40,850
Bebé.

322
00:15:40,850 --> 00:15:41,090
>> [FIN reprodución de vídeo-

323
00:15:41,090 --> 00:15:44,020
>> LUCAS FREITAS: Polo tanto, hai, penso eu,
40 cancións aquí no que di que a

324
00:15:44,020 --> 00:15:48,690
palabra "bebé". Entón, basicamente podes imaxinar
que se ve unha música que ten

325
00:15:48,690 --> 00:15:52,180
a palabra "bebé", hai algúns de alta
probabilidade de que é Lady Gaga.

326
00:15:52,180 --> 00:15:56,450
Pero imos tratar de desenvolver esta
aínda máis formalmente.

327
00:15:56,450 --> 00:16:00,470
>> Entón, estas son letras de cancións por
Lady Gaga e Katy Perry.

328
00:16:00,470 --> 00:16:04,120
Entón mira para Lady Gaga, ve que
ten unha morea de ocorrencias de "bebé", un

329
00:16:04,120 --> 00:16:07,710
moitas aparicións de "camiño". E entón
Katy Perry ten unha morea de ocorrencias de

330
00:16:07,710 --> 00:16:10,360
"A", unha serie de aparicións de "lume".

331
00:16:10,360 --> 00:16:14,560
>> Entón, basicamente, o que queremos
facer é, que obtén unha letra.

332
00:16:14,560 --> 00:16:20,480
Imos dicir que ten unha letra a un
música que é "bebé", só "bebé". Se

333
00:16:20,480 --> 00:16:24,750
comeza só a palabra "bebé", e iso
e todos os datos que ten a partir de

334
00:16:24,750 --> 00:16:27,880
Lady Gaga e Katy Perry, que sería
adiviñar é a persoa

335
00:16:27,880 --> 00:16:29,370
quen canta a canción?

336
00:16:29,370 --> 00:16:32,360
Lady Gaga ou Katy Perry?

337
00:16:32,360 --> 00:16:33,150
Lady Gaga, non?

338
00:16:33,150 --> 00:16:37,400
Porque é o único que di
"Bebé". Isto soa estúpido, non?

339
00:16:37,400 --> 00:16:38,760
OK, iso é moi fácil.

340
00:16:38,760 --> 00:16:41,860
Estou só mirando para as dúas cancións e de
Por suposto, é a única persoa que ten

341
00:16:41,860 --> 00:16:42,660
"Bebé".

342
00:16:42,660 --> 00:16:44,740
>> Pero e se ten unha morea de palabras?

343
00:16:44,740 --> 00:16:50,900
Se vostede ten unha letra real, algo
como, "bebé, eu só

344
00:16:50,900 --> 00:16:51,610
fun ver un [? CFT?]

345
00:16:51,610 --> 00:16:54,020
charla ", ou algo así, e
entón realmente ten que descubrir -

346
00:16:54,020 --> 00:16:55,780
en base a todas as palabras -

347
00:16:55,780 --> 00:16:58,350
quen é o artista que probablemente
cantou esta canción?

348
00:16:58,350 --> 00:17:01,860
Entón, imos tratar de desenvolver
iso un pouco máis.

349
00:17:01,860 --> 00:17:05,630
>> OK, baseado só nos datos que temos
obtido, parece que Gaga é probablemente

350
00:17:05,630 --> 00:17:06,260
o cantante.

351
00:17:06,260 --> 00:17:07,904
Pero como podemos escribir
esta máis formal?

352
00:17:07,904 --> 00:17:10,579

353
00:17:10,579 --> 00:17:13,140
E non vai ser un pouco
pouco de estatísticas.

354
00:17:13,140 --> 00:17:15,880
Entón, se se perder, basta tentar
para entender o concepto.

355
00:17:15,880 --> 00:17:18,700
Non importa se entender
as ecuacións perfectamente ben.

356
00:17:18,700 --> 00:17:22,150
Iso todo vai estar en liña.

357
00:17:22,150 --> 00:17:25,490
>> Entón, basicamente o que eu estou cálculo é o
probabilidade de que esta canción é por

358
00:17:25,490 --> 00:17:28,040
Lady Gaga, xa que -

359
00:17:28,040 --> 00:17:30,660
así que este bar significa xa que -

360
00:17:30,660 --> 00:17:33,680
Vin a palabra "bebé".
Será que isto ten sentido?

361
00:17:33,680 --> 00:17:35,540
Entón, eu estou tentando calcular
esa probabilidade.

362
00:17:35,540 --> 00:17:38,540
>> Polo tanto, non hai este teorema chamado
Teorema de Bayes que di que o

363
00:17:38,540 --> 00:17:43,330
probabilidade dunha dada B, é o
probabilidade de B deu A, veces o

364
00:17:43,330 --> 00:17:47,660
A probabilidade, durante a probabilidade
B. Trátase de unha ecuación longa.

365
00:17:47,660 --> 00:17:51,970
Pero o que ten que entender de
que é o que iso é o que quero

366
00:17:51,970 --> 00:17:52,830
calcular, non?

367
00:17:52,830 --> 00:17:56,570
Así, a probabilidade de que esa música é de
Lady Gaga, xa que vin a palabra

368
00:17:56,570 --> 00:17:58,230
"Bebé".

369
00:17:58,230 --> 00:18:02,960
>> E agora o que eu estou a recibir é a
probabilidade de que a palabra "bebé" deu

370
00:18:02,960 --> 00:18:04,390
que teño Lady Gaga.

371
00:18:04,390 --> 00:18:07,220
E que é o que, basicamente?

372
00:18:07,220 --> 00:18:10,500
O que isto significa, cal é o
probabilidade de ver a palabra "bebé"

373
00:18:10,500 --> 00:18:12,130
en letras Gaga?

374
00:18:12,130 --> 00:18:16,240
Se eu queira calcular que dun xeito moi
xeito sinxelo, é só o número de

375
00:18:16,240 --> 00:18:23,640
veces vexo "bebé" sobre o número total
de palabras en letras Gaga, non?

376
00:18:23,640 --> 00:18:27,600
Cal é a frecuencia que vexo
esa palabra no traballo de Gaga?

377
00:18:27,600 --> 00:18:30,530
Ten sentido?

378
00:18:30,530 --> 00:18:33,420
>> O segundo termo é o
probabilidade de Gaga.

379
00:18:33,420 --> 00:18:34,360
Que significa isto?

380
00:18:34,360 --> 00:18:38,550
Isto significa, basicamente, o que é o
probabilidade de clasificar

381
00:18:38,550 --> 00:18:40,690
algunhas letras como Gaga?

382
00:18:40,690 --> 00:18:45,320
E iso é medio raro, pero
Imos pensar nun exemplo.

383
00:18:45,320 --> 00:18:49,230
Entón, imos dicir que a probabilidade de
ter "bebé" nunha canción é a mesma

384
00:18:49,230 --> 00:18:51,760
por Gaga e Britney Spears.

385
00:18:51,760 --> 00:18:54,950
Pero Britney Spears ten o dobre
máis cancións do que Lady Gaga.

386
00:18:54,950 --> 00:19:00,570
Entón, se alguén lle dá só aleatoriamente
letra de "bebé", o primeiro que

387
00:19:00,570 --> 00:19:04,710
ollar é, cal é a probabilidade de
ter "bebé" nunha canción Gaga, "bebé"

388
00:19:04,710 --> 00:19:05,410
nunha canción de Britney?

389
00:19:05,410 --> 00:19:06,460
E é o mesmo.

390
00:19:06,460 --> 00:19:10,040
>> Polo tanto, a segunda cousa que podes ver é,
ben, cal é a probabilidade de

391
00:19:10,040 --> 00:19:13,770
esta letra por si só ser un lírico Gaga,
e cal é a probabilidade de

392
00:19:13,770 --> 00:19:15,380
ser un lírico Britney?

393
00:19:15,380 --> 00:19:18,950
Entón, xa que Britney ten tantos máis letras
de Gaga, probablemente

394
00:19:18,950 --> 00:19:21,470
digamos, ben, este é, probablemente,
unha letra de Britney.

395
00:19:21,470 --> 00:19:23,340
Entón é por iso que temos este
termo correcto aquí.

396
00:19:23,340 --> 00:19:24,670
Probabilidade de Gaga.

397
00:19:24,670 --> 00:19:26,950
Ten sentido?

398
00:19:26,950 --> 00:19:28,660
Non é?

399
00:19:28,660 --> 00:19:29,370
Aceptar.

400
00:19:29,370 --> 00:19:33,500
>> E o último é só a probabilidade
de "bebé", que non

401
00:19:33,500 --> 00:19:34,810
realmente importa moito.

402
00:19:34,810 --> 00:19:39,940
Pero é a probabilidade de
ver "bebé" en inglés.

403
00:19:39,940 --> 00:19:42,725
Nós xeralmente non lles importa que
moito sobre ese termo.

404
00:19:42,725 --> 00:19:44,490
Será que isto ten sentido?

405
00:19:44,490 --> 00:19:48,110
Así, a probabilidade de Gaga é
chamada a probabilidade anterior

406
00:19:48,110 --> 00:19:49,530
da Gaga clase.

407
00:19:49,530 --> 00:19:53,840
Porque iso significa só que, o que é o
probabilidade de ter esa clase -

408
00:19:53,840 --> 00:19:55,520
que é Gaga -

409
00:19:55,520 --> 00:19:59,350
só, en xeral, só
sen condicións.

410
00:19:59,350 --> 00:20:02,560
>> E entón cando eu teño probabilidade
Gaga regalo "bebé", podemos chamalo máis

411
00:20:02,560 --> 00:20:06,160
marejados unha probabilidade porque é
a probabilidade de ter

412
00:20:06,160 --> 00:20:08,300
Gaga deu algunhas probas.

413
00:20:08,300 --> 00:20:11,050
Entón, eu estou dándolle a evidencia
que vin o bebé da palabra e

414
00:20:11,050 --> 00:20:12,690
a música ten sentido?

415
00:20:12,690 --> 00:20:15,960

416
00:20:15,960 --> 00:20:16,410
Aceptar.

417
00:20:16,410 --> 00:20:22,400
>> Entón, se eu calculou que para cada
das cancións de Lady Gaga,

418
00:20:22,400 --> 00:20:25,916
o que sería -

419
00:20:25,916 --> 00:20:27,730
ao parecer, non se pode mover este.

420
00:20:27,730 --> 00:20:31,850

421
00:20:31,850 --> 00:20:36,920
A probabilidade de Gaga será
algo así como 2 máis de 24, os tempos de 1/2,

422
00:20:36,920 --> 00:20:38,260
máis de 2 máis de 53.

423
00:20:38,260 --> 00:20:40,640
Non importa se sabe o que
estas cifras están vindo.

424
00:20:40,640 --> 00:20:44,750
Pero é só un número que vai
ser máis que 0, non?

425
00:20:44,750 --> 00:20:48,610
>> E entón, cando fago Katy Perry, a
probabilidade de "bebé" dado Katy é

426
00:20:48,610 --> 00:20:49,830
xa 0, non?

427
00:20:49,830 --> 00:20:52,820
¿Por que non hai "bebé"
en Katy Perry.

428
00:20:52,820 --> 00:20:56,360
Entón iso se fai 0, e Gaga
vitorias, o que significa que Gaga é

429
00:20:56,360 --> 00:20:57,310
probablemente o cantante.

430
00:20:57,310 --> 00:20:58,560
Será que isto ten sentido?

431
00:20:58,560 --> 00:21:00,700

432
00:21:00,700 --> 00:21:01,950
Aceptar.

433
00:21:01,950 --> 00:21:04,160

434
00:21:04,160 --> 00:21:11,750
>> Entón, se eu quero facelo máis oficial,
Podo realmente facer un modelo

435
00:21:11,750 --> 00:21:12,700
varias palabras.

436
00:21:12,700 --> 00:21:14,610
Entón, digamos que eu teño algo
como: "Querida, eu son

437
00:21:14,610 --> 00:21:16,030
no lume ", ou algo así.

438
00:21:16,030 --> 00:21:17,760
Por iso, ten varias palabras.

439
00:21:17,760 --> 00:21:20,880
E neste caso, pode ver
que "bebé" está en Gaga,

440
00:21:20,880 --> 00:21:21,710
pero non é en Katy.

441
00:21:21,710 --> 00:21:24,940
E o "lume" está en Katy, pero
non é en Gaga, non?

442
00:21:24,940 --> 00:21:27,200
Por iso, está quedando máis complicado, non?

443
00:21:27,200 --> 00:21:31,440
Porque parece que case
ten un lazo entre os dous.

444
00:21:31,440 --> 00:21:36,980
>> Entón o que tes que facer é asumir
independencia entre as palabras.

445
00:21:36,980 --> 00:21:41,210
Entón, basicamente o que significa isto é que
Eu só estou calculando o que é o

446
00:21:41,210 --> 00:21:44,330
probabilidade de ver "bebé", o que se
a probabilidade de ver "eu", e

447
00:21:44,330 --> 00:21:46,670
"AM" e "on" e "fogo"
todo separado.

448
00:21:46,670 --> 00:21:48,670
Entón eu estou multiplicando todos eles.

449
00:21:48,670 --> 00:21:52,420
E eu estou a ver cal é a probabilidade
de ver a frase.

450
00:21:52,420 --> 00:21:55,210
Ten sentido?

451
00:21:55,210 --> 00:22:00,270
>> Entón, basicamente, se eu teño só unha palabra,
o que quero é atopar o arg max,

452
00:22:00,270 --> 00:22:05,385
o que significa, que é a clase que é
me dando a maior probabilidade?

453
00:22:05,385 --> 00:22:10,010
Entón, cal é a clase que está dando
ma maior probabilidade de

454
00:22:10,010 --> 00:22:11,940
probabilidade de clase determinada palabra.

455
00:22:11,940 --> 00:22:17,610
Polo tanto, neste caso, Gaga deu "bebé".
Ou Katy deu "bebé". Ten sentido?

456
00:22:17,610 --> 00:22:21,040
>> E só desde Bayes, que
ecuación que eu mostre,

457
00:22:21,040 --> 00:22:24,780
creamos esta fracción.

458
00:22:24,780 --> 00:22:28,750
O único é que ve que
a probabilidade de que a palabra dada

459
00:22:28,750 --> 00:22:31,370
cambios de clase, dependendo
na clase, non?

460
00:22:31,370 --> 00:22:34,260
Número de s "bebé" que eu teño
en Gaga é diferente de Katy.

461
00:22:34,260 --> 00:22:37,640
A probabilidade de que a clase tamén
cambios, porque iso é só o número

462
00:22:37,640 --> 00:22:39,740
de cancións cada un deles ten.

463
00:22:39,740 --> 00:22:43,980
>> Pero a probabilidade da propia palabra
será o mesmo para todo o

464
00:22:43,980 --> 00:22:44,740
artistas, non?

465
00:22:44,740 --> 00:22:47,150
Así, a probabilidade de que a palabra está
só, cal é a probabilidade de

466
00:22:47,150 --> 00:22:49,820
ver esa palabra no
Idioma inglés?

467
00:22:49,820 --> 00:22:51,420
Entón, é o mesmo para todos eles.

468
00:22:51,420 --> 00:22:55,790
Entón, unha vez que esta é constante, podemos só
botar iso e non se preocupan con iso.

469
00:22:55,790 --> 00:23:00,230
Entón, que vai ser realmente o
ecuación que estamos a buscar.

470
00:23:00,230 --> 00:23:03,360
>> E se eu tivera varias palabras, eu son
aínda vai ter o previo

471
00:23:03,360 --> 00:23:04,610
probabilidade aquí.

472
00:23:04,610 --> 00:23:06,980
O único é que eu estou multiplicando
a probabilidade de

473
00:23:06,980 --> 00:23:08,490
todas as outras palabras.

474
00:23:08,490 --> 00:23:10,110
Entón, eu estou multiplicando todos eles.

475
00:23:10,110 --> 00:23:12,610
Ten sentido?

476
00:23:12,610 --> 00:23:18,440
Parece raro, pero basicamente significa,
calcular o antes da clase, e

477
00:23:18,440 --> 00:23:22,100
logo multiplicar por probabilidade de cada
das palabras sendo nesa clase.

478
00:23:22,100 --> 00:23:24,620

479
00:23:24,620 --> 00:23:29,150
>> E vostede sabe que a probabilidade dun
palabra dada unha clase será o

480
00:23:29,150 --> 00:23:34,520
número de veces que ve esa palabra en
clase, dividido polo número de

481
00:23:34,520 --> 00:23:37,020
palabras que ten que
clase en xeral.

482
00:23:37,020 --> 00:23:37,990
Ten sentido?

483
00:23:37,990 --> 00:23:41,680
É só como "bebé" foi de 2 sobre
o número de palabras que

484
00:23:41,680 --> 00:23:43,020
Tiven nas letras.

485
00:23:43,020 --> 00:23:45,130
Polo tanto, só a miúdo.

486
00:23:45,130 --> 00:23:46,260
>> Pero hai unha cousa.

487
00:23:46,260 --> 00:23:51,250
Lembre-se de como eu estaba mostrando que o
probabilidade de seren letras "bebé"

488
00:23:51,250 --> 00:23:56,350
de Katy Perry é 0 só porque Katy
Perry non tiña "bebé" en todo?

489
00:23:56,350 --> 00:24:04,900
Pero soa un pouco dura só
simplemente dicir que as letras non poden ser de

490
00:24:04,900 --> 00:24:10,040
un artista só porque non teñen
esta palabra, en particular, en calquera momento.

491
00:24:10,040 --> 00:24:13,330
>> Entón, vostede podería só dicir, ben, se
non ten esta palabra, vou

492
00:24:13,330 --> 00:24:15,640
darlle unha pequena probabilidade,
pero eu non vou

493
00:24:15,640 --> 00:24:17,420
darlle 0 inmediatamente.

494
00:24:17,420 --> 00:24:21,040
Porque quizais fose algo así como:
"Lume, lume, lume, lume", que é

495
00:24:21,040 --> 00:24:21,990
totalmente Katy Perry.

496
00:24:21,990 --> 00:24:26,060
E, a continuación, "bebé", e iso só serve para
0 de inmediato, xa que había unha

497
00:24:26,060 --> 00:24:27,250
"Bebé".

498
00:24:27,250 --> 00:24:31,440
>> Entón, basicamente, o que facemos é algo
chamado Laplace alisado.

499
00:24:31,440 --> 00:24:36,260
E iso só quere dicir que eu estou dando
algunha probabilidade, mesmo para as palabras

500
00:24:36,260 --> 00:24:37,850
que non existen.

501
00:24:37,850 --> 00:24:43,170
Entón, o que fago é que cando estou
calcular iso, eu sempre engadir 1 ao

502
00:24:43,170 --> 00:24:44,180
o numerador.

503
00:24:44,180 --> 00:24:48,060
Así, aínda que a palabra non existe, en
Neste caso, se este é 0, eu aínda estou

504
00:24:48,060 --> 00:24:51,250
cálculo deste como un todo
número total de palabras.

505
00:24:51,250 --> 00:24:55,060
En caso contrario, fico con cantas palabras
Eu teño e eu engadir 1.

506
00:24:55,060 --> 00:24:58,300
Entón, eu estou contando a ambos os casos.

507
00:24:58,300 --> 00:25:00,430
Ten sentido?

508
00:25:00,430 --> 00:25:03,060
>> Entón agora imos facer algunha codificación.

509
00:25:03,060 --> 00:25:06,440
Vou ter que facelo moi rápido,
pero é só importante que

510
00:25:06,440 --> 00:25:08,600
caras entender os conceptos.

511
00:25:08,600 --> 00:25:13,450
Entón o que estamos intentando facer
é exactamente aplicar esta

512
00:25:13,450 --> 00:25:14,330
cousa que eu dixen -

513
00:25:14,330 --> 00:25:19,110
Quero que poñer letras de
Lady Gaga e Katy Perry.

514
00:25:19,110 --> 00:25:22,980
E o programa vai ser capaz de
dicir se esas novas letras son de Gaga

515
00:25:22,980 --> 00:25:24,170
ou Katy Perry.

516
00:25:24,170 --> 00:25:25,800
Ten sentido?

517
00:25:25,800 --> 00:25:27,530
Aceptar.

518
00:25:27,530 --> 00:25:30,710
>> Entón, eu teño este programa eu vou
para chamar classify.py.

519
00:25:30,710 --> 00:25:31,970
Polo tanto, esta é Python.

520
00:25:31,970 --> 00:25:34,210
É unha nova linguaxe de programación.

521
00:25:34,210 --> 00:25:38,020
É moi semellante nalgúns
formas de C e PHP.

522
00:25:38,020 --> 00:25:43,180
É semellante, porque se quere
aprender Python tras coñecer C, é

523
00:25:43,180 --> 00:25:46,270
non é realmente un gran desafío
só porque Python é moito máis doado

524
00:25:46,270 --> 00:25:47,520
a C, en primeiro lugar.

525
00:25:47,520 --> 00:25:49,370
E unha morea de cousas que xa están
aplicadas para ti.

526
00:25:49,370 --> 00:25:56,820
Entón, como como PHP ten funcións que
ordenar unha lista, ou engadir algo

527
00:25:56,820 --> 00:25:58,780
para unha matriz, ou bla, bla, bla.

528
00:25:58,780 --> 00:26:00,690
Python ten todas as tamén.

529
00:26:00,690 --> 00:26:05,960
>> Entón, eu só vou explicar rapidamente
como poderiamos facer a clasificación

530
00:26:05,960 --> 00:26:07,860
problema para aquí.

531
00:26:07,860 --> 00:26:13,230
Entón, imos dicir que, neste caso, eu teño
letras de Gaga e Katy Perry.

532
00:26:13,230 --> 00:26:21,880
O xeito que eu teño é que esas letras
a primeira palabra das letras é

533
00:26:21,880 --> 00:26:25,250
o nome do artista e
o resto é a letra.

534
00:26:25,250 --> 00:26:29,470
Entón, imos dicir que eu teño esa lista en
que a primeira é letra de Gaga.

535
00:26:29,470 --> 00:26:31,930
Entón, aquí estou no camiño correcto.

536
00:26:31,930 --> 00:26:35,270
E o seguinte é Katy, e
el tamén ten as letras.

537
00:26:35,270 --> 00:26:38,040
>> Entón é así que declarar
unha variable en Python.

538
00:26:38,040 --> 00:26:40,200
Non ten que dar o tipo de datos.

539
00:26:40,200 --> 00:26:43,150
Acaba de escribir "letras",
tipo de gusto en PHP.

540
00:26:43,150 --> 00:26:44,890
Ten sentido?

541
00:26:44,890 --> 00:26:47,770
>> Entón, cales son as cousas que eu teño que
calcular a ser capaz de calcular a

542
00:26:47,770 --> 00:26:49,360
probabilidades?

543
00:26:49,360 --> 00:26:55,110
Teño que calcular os "antecedentes"
de cada un dos diferentes

544
00:26:55,110 --> 00:26:56,710
clases que eu teño.

545
00:26:56,710 --> 00:27:06,680
Teño que calcular os "posteriors",
ou practicamente as probabilidades

546
00:27:06,680 --> 00:27:12,150
cada unha das palabras que diferentes
Podo ter a cada artista.

547
00:27:12,150 --> 00:27:17,210
Entón, dentro de Gaga, por exemplo, eu vou
ter unha lista de cantas veces eu vexo

548
00:27:17,210 --> 00:27:19,250
cada unha das palabras.

549
00:27:19,250 --> 00:27:20,760
Ten sentido?

550
00:27:20,760 --> 00:27:25,370
>> E, finalmente, eu estou indo só para ter un
lista chamada "palabras" que só vai

551
00:27:25,370 --> 00:27:29,780
ter cantas palabras que
ter para cada artista.

552
00:27:29,780 --> 00:27:33,760
Así, para Gaga, por exemplo, cando eu ollo
para as letras, que eu tiña, eu creo, 24

553
00:27:33,760 --> 00:27:34,750
palabras en total.

554
00:27:34,750 --> 00:27:38,970
Polo tanto, este é só terá
Gaga 24, e Katy outro número.

555
00:27:38,970 --> 00:27:40,130
Ten sentido?

556
00:27:40,130 --> 00:27:40,560
Aceptar.

557
00:27:40,560 --> 00:27:42,530
>> Entón, agora, de feito, imos
ir á codificación.

558
00:27:42,530 --> 00:27:45,270
Así, en Python, pode realmente
voltar unha morea de diferentes

559
00:27:45,270 --> 00:27:46,630
cousas dunha función.

560
00:27:46,630 --> 00:27:50,810
Entón, eu estou indo a crear esta función
chamado "condicional", que vai

561
00:27:50,810 --> 00:27:53,890
para volver todas estas cousas, o
"Antecedentes", as "probabilidades", eo

562
00:27:53,890 --> 00:28:05,690
"Palabras". Así, "condicional", e é
será pór en "letras".

563
00:28:05,690 --> 00:28:11,510
>> Entón agora quero que realmente
escribir esta función.

564
00:28:11,510 --> 00:28:17,750
Así, a forma que eu podo escribir este
función é só marcou este

565
00:28:17,750 --> 00:28:20,620
funciona con "def". Entón eu fixen "def
condicional ", e está tomando

566
00:28:20,620 --> 00:28:28,700
"Letras". E o que iso vai facer
é, antes de todo, eu teño as miñas priores

567
00:28:28,700 --> 00:28:31,030
que quero calcular.

568
00:28:31,030 --> 00:28:34,330
>> Así, a forma que eu poida facelo é crear
un dicionario en Python, o que

569
00:28:34,330 --> 00:28:37,320
é practicamente o mesmo que un hash
mesa, ou é como un iterativo

570
00:28:37,320 --> 00:28:40,480
array en PHP.

571
00:28:40,480 --> 00:28:44,150
Isto é como eu declarar un dicionario.

572
00:28:44,150 --> 00:28:53,580
E, basicamente, o que isto significa que
priores de Gaga é de 0,5, por exemplo, se

573
00:28:53,580 --> 00:28:57,200
50% das letras son de
Gaga, 50% son de Katy.

574
00:28:57,200 --> 00:28:58,450
Ten sentido?

575
00:28:58,450 --> 00:29:00,680

576
00:29:00,680 --> 00:29:03,680
Entón eu teño que descubrir como
para calcular os antecedentes.

577
00:29:03,680 --> 00:29:07,120
>> Os próximos que eu teño que facer, tamén,
son as probabilidades e as palabras.

578
00:29:07,120 --> 00:29:17,100
Así, as probabilidades de Gaga é a lista
de todas as probabilidades de que I

579
00:29:17,100 --> 00:29:19,160
ter para cada unha das palabras de Gaga.

580
00:29:19,160 --> 00:29:23,880
Entón, se eu for a probabilidade de Gaga
"Bebé", por exemplo, el me vai dar

581
00:29:23,880 --> 00:29:28,750
algo así como 2 máis de 24 nese caso.

582
00:29:28,750 --> 00:29:30,070
Ten sentido?

583
00:29:30,070 --> 00:29:36,120
Entón eu vou para "probabilidades", vaia para o
Balde "gagá", que ten unha lista de todos

584
00:29:36,120 --> 00:29:40,550
as palabras Gaga, entón eu vou para "bebé"
e eu vexo a probabilidade.

585
00:29:40,550 --> 00:29:45,940
>> E, finalmente, eu teño esa
"As palabras" dicionario.

586
00:29:45,940 --> 00:29:53,620
Entón, aquí, "probabilidades". E entón
"Palabras". Entón, se eu fago "palabras", "gagá",

587
00:29:53,620 --> 00:29:58,330
o que vai ocorrer é que é
me vai dar 24, dicindo que eu

588
00:29:58,330 --> 00:30:01,990
ten 24 palabras dentro letras de Gaga.

589
00:30:01,990 --> 00:30:04,110
Ten sentido?

590
00:30:04,110 --> 00:30:07,070
Entón, aquí, "palabras" coincide dah-dah-dah.

591
00:30:07,070 --> 00:30:07,620
Ok

592
00:30:07,620 --> 00:30:12,210
>> Entón o que eu vou facer é que eu vou
iterado sobre cada unha das letras, así

593
00:30:12,210 --> 00:30:14,490
cada unha das cordas que
Teño na lista.

594
00:30:14,490 --> 00:30:18,040
E eu vou para calcular isto
para cada un dos candidatos.

595
00:30:18,040 --> 00:30:19,950
Ten sentido?

596
00:30:19,950 --> 00:30:21,700
Entón eu teño que facer un loop for.

597
00:30:21,700 --> 00:30:26,300
>> Así, en Python, o que podo facer é "para a liña
en letras. "O mesmo que un

598
00:30:26,300 --> 00:30:28,000
"Para cada" declaración en PHP.

599
00:30:28,000 --> 00:30:33,420
Lembra-se como se fose PHP eu puidese
dicir "para cada letras como

600
00:30:33,420 --> 00:30:35,220
liña. "Ten sentido?

601
00:30:35,220 --> 00:30:38,900
Entón, eu estou tomando cada unha das liñas, neste
caso, esta secuencia ea próxima

602
00:30:38,900 --> 00:30:44,540
corda de xeito para cada unha das liñas que eu son
vai facer é, primeiro, eu vou

603
00:30:44,540 --> 00:30:49,150
dividir esta liña nunha lista de
palabras separadas por espazos.

604
00:30:49,150 --> 00:30:53,730
>> Entón, a cousa legal sobre Python é que
podería só o Google como "Como podo

605
00:30:53,730 --> 00:30:58,220
dividir unha cadea palabras? "E é
vou dicir-lle como facelo.

606
00:30:58,220 --> 00:31:04,890
E o xeito de facelo, é só liña "
= Line.split () "e é basicamente

607
00:31:04,890 --> 00:31:08,640
vai dar-lle unha lista con
cada un dos termos aquí.

608
00:31:08,640 --> 00:31:09,620
Ten sentido?

609
00:31:09,620 --> 00:31:15,870
Polo tanto, agora que eu fixen iso que quero saber
quen é o cantante da canción.

610
00:31:15,870 --> 00:31:20,130
E para facelo eu teño que aproveitar o
primeiro elemento do array, non?

611
00:31:20,130 --> 00:31:26,390
Entón, eu só podo dicir que eu "cantante
= Liña (0) "Ten sentido?

612
00:31:26,390 --> 00:31:32,010
>> E entón o que eu teño que facer é, en primeiro lugar
todo, eu vou actualizar cantos

613
00:31:32,010 --> 00:31:36,130
palabras que eu teño en "gagá". entón eu son só
vai dicir cantas palabras que

614
00:31:36,130 --> 00:31:38,690
ten nesta lista, non?

615
00:31:38,690 --> 00:31:41,910
Porque este é o número de palabras que eu teño
nas letras e eu só vou

616
00:31:41,910 --> 00:31:44,120
engadir lo á matriz "gagá".

617
00:31:44,120 --> 00:31:47,090
Será que isto ten sentido?

618
00:31:47,090 --> 00:31:49,010
Non concentrarse moito na sintaxe.

619
00:31:49,010 --> 00:31:50,430
Pense máis sobre os conceptos.

620
00:31:50,430 --> 00:31:52,400
Esta é a parte máis importante.

621
00:31:52,400 --> 00:31:52,720
Aceptar.

622
00:31:52,720 --> 00:32:00,260
>> Entón, o que podo facer é "gagá" é
xa nesa lista, polo que "se cantante

623
00:32:00,260 --> 00:32:03,190
palabras "o que significa que eu xa
teño palabras por Gaga.

624
00:32:03,190 --> 00:32:06,640
Eu só quero engadir o adicional
palabras para iso.

625
00:32:06,640 --> 00:32:15,810
Entón, o que fago é "palabras (cantante)
+ = Len (liña) - 1 ".

626
00:32:15,810 --> 00:32:18,250
E entón podo só facer a
lonxitude da liña.

627
00:32:18,250 --> 00:32:21,860
Entón, como moitos elementos I
ter na matriz.

628
00:32:21,860 --> 00:32:27,060
E eu teño que facer menos 1 só porque
o primeiro elemento da matriz é só

629
00:32:27,060 --> 00:32:29,180
un cantante e os que non son letras.

630
00:32:29,180 --> 00:32:31,420
Ten sentido?

631
00:32:31,420 --> 00:32:32,780
Aceptar.

632
00:32:32,780 --> 00:32:35,820
>> "Else", isto significa que quero, en realidade,
introducir Gaga na lista.

633
00:32:35,820 --> 00:32:45,990
Entón, eu só fago "palabras (cantante)
= Len (liña) - 1, "Sentímolo.

634
00:32:45,990 --> 00:32:49,200
Así, a única diferenza entre os dous
liñas é que un agasallo, isto non acontece

635
00:32:49,200 --> 00:32:51,080
existen aínda, entón eu son só
arrinque la.

636
00:32:51,080 --> 00:32:53,820
Este realmente estou engadindo.

637
00:32:53,820 --> 00:32:55,570
Aceptar.

638
00:32:55,570 --> 00:32:59,480
Polo tanto, esta foi a adición de palabras.

639
00:32:59,480 --> 00:33:03,040
>> Agora quero engadir aos antecedentes.

640
00:33:03,040 --> 00:33:05,480
Entón, como fago para calcular os priores?

641
00:33:05,480 --> 00:33:11,580
Os antecedentes pódese calcular
por cantas veces.

642
00:33:11,580 --> 00:33:15,340
Entón, cantas veces ves que a cantante
entre todos os cantantes que vostedes,

643
00:33:15,340 --> 00:33:16,380
ten, non?

644
00:33:16,380 --> 00:33:18,810
Así, por Gaga e Katy Perry,
neste caso, non vexo Gaga

645
00:33:18,810 --> 00:33:20,570
xa que, Katy Perry vez.

646
00:33:20,570 --> 00:33:23,320
>> Entón, basicamente, os priores para Gaga
e para Katy Perry faría

647
00:33:23,320 --> 00:33:24,390
ser só un, non?

648
00:33:24,390 --> 00:33:26,500
Só as veces
Eu vexo o artista.

649
00:33:26,500 --> 00:33:28,740
Entón iso é moi fácil de calcular.

650
00:33:28,740 --> 00:33:34,100
Podo só algo semellante como como "se
cantante en priores, "Eu só vou

651
00:33:34,100 --> 00:33:38,970
engadir 1 para a súa caixa de antecedentes.

652
00:33:38,970 --> 00:33:51,000
Entón, "priores (cantar)" + = 1 "e despois" senón "
Vou facer "priores (cantante)

653
00:33:51,000 --> 00:33:55,000
= 1. "Ten sentido?

654
00:33:55,000 --> 00:34:00,080
>> Entón, se non existir Acabo de pór
como 1, se non, eu só engadir 1.

655
00:34:00,080 --> 00:34:11,280
OK, entón agora o único que me queda facer
tamén é engadir cada unha das palabras do

656
00:34:11,280 --> 00:34:12,290
probabilidades.

657
00:34:12,290 --> 00:34:14,889
Entón eu teño que contar cantas veces
Vexo cada unha das palabras.

658
00:34:14,889 --> 00:34:18,780
Entón, eu só teño que facer outro
loop for na liña.

659
00:34:18,780 --> 00:34:25,190
>> Entón o primeiro que vou facer é
comprobar que o cantante xa ten un

660
00:34:25,190 --> 00:34:26,969
variedade probabilidades.

661
00:34:26,969 --> 00:34:31,739
Entón, eu estou comprobando se a cantante non fai
ter unha matriz probabilidades, eu son só

662
00:34:31,739 --> 00:34:34,480
indo a arrincar un deles.

663
00:34:34,480 --> 00:34:36,400
Non é nin mesmo unha matriz, desculpe,
é un dicionario.

664
00:34:36,400 --> 00:34:43,080
Así, as probabilidades de cantante vai
para ser un dicionario aberto, polo que estou

665
00:34:43,080 --> 00:34:45,830
só arrincar un dicionario para el.

666
00:34:45,830 --> 00:34:46,820
OK?

667
00:34:46,820 --> 00:34:58,330
>> E agora podo realmente facer un loop
para calcular cada unha das palabras '

668
00:34:58,330 --> 00:35:00,604
probabilidades.

669
00:35:00,604 --> 00:35:01,540
Aceptar.

670
00:35:01,540 --> 00:35:04,160
Entón, o que podo facer é un loop for.

671
00:35:04,160 --> 00:35:06,590
Entón, eu só vou facer unha iteración
sobre a matriz.

672
00:35:06,590 --> 00:35:15,320
Así, a forma que eu podo facer iso en Python
é "ser i in range". A partir do 1

673
00:35:15,320 --> 00:35:19,200
porque quero comezar o segundo
elemento porque o primeiro é o

674
00:35:19,200 --> 00:35:20,260
Nome cantante.

675
00:35:20,260 --> 00:35:24,990
Entón, a partir dun ata o
lonxitude da liña.

676
00:35:24,990 --> 00:35:29,760
E cando eu variar realmente ir de
como aquí de 1 a len do

677
00:35:29,760 --> 00:35:30,740
liña menos 1.

678
00:35:30,740 --> 00:35:33,810
Por iso, xa fai esa cousa de facer
n menos 1 para matrices que é moi

679
00:35:33,810 --> 00:35:35,500
cómodo.

680
00:35:35,500 --> 00:35:37,850
Ten sentido?

681
00:35:37,850 --> 00:35:42,770
>> Así, para cada unha delas, o que eu vou
facer é, así como no outro,

682
00:35:42,770 --> 00:35:50,320
Vou comprobar se a palabra neste
posición na liña que xa está en

683
00:35:50,320 --> 00:35:51,570
probabilidades.

684
00:35:51,570 --> 00:35:53,400

685
00:35:53,400 --> 00:35:57,260
E entón, como dixen aquí, as probabilidades
palabras, como en engada

686
00:35:57,260 --> 00:35:58,400
"Probabilidades (cantante)".

687
00:35:58,400 --> 00:35:59,390
Así, o nome da cantante.

688
00:35:59,390 --> 00:36:03,450
Entón, se xa está en
"Probabilit (cantante)", quere dicir que eu

689
00:36:03,450 --> 00:36:11,960
desexa engadir 1 a iso, entón eu vou
facer "probabilidades (cantante)", ea

690
00:36:11,960 --> 00:36:14,100
palabra é chamado de "liña de (i)".

691
00:36:14,100 --> 00:36:22,630
Eu estou indo a engadir un e "senón" Eu son só
indo a inicializar-lo para 1.

692
00:36:22,630 --> 00:36:23,880
"Liña (i)".

693
00:36:23,880 --> 00:36:26,920

694
00:36:26,920 --> 00:36:28,420
Ten sentido?

695
00:36:28,420 --> 00:36:30,180
>> Entón, I calculada tódalas matrices.

696
00:36:30,180 --> 00:36:36,580
Entón, agora todo o que eu teño que facer para
este é só "volver priores,

697
00:36:36,580 --> 00:36:43,230
probabilidade e palabras. "Imos
ver se hai algún, Aceptar.

698
00:36:43,230 --> 00:36:45,690
Parece que todo funciona ata agora.

699
00:36:45,690 --> 00:36:46,900
Entón, iso ten sentido?

700
00:36:46,900 --> 00:36:47,750
De algunha maneira?

701
00:36:47,750 --> 00:36:49,280
Aceptar.

702
00:36:49,280 --> 00:36:51,980
Entón agora eu teño todas as probabilidades.

703
00:36:51,980 --> 00:36:55,100
Entón, agora o único que me queda
é só para ter esa cousa que

704
00:36:55,100 --> 00:36:58,650
calcula o produto de todos os
probabilidades cando chegar a letra.

705
00:36:58,650 --> 00:37:06,270
>> Entón, imos dicir que quero chamar agora
esta función "clasificar ()" eo

706
00:37:06,270 --> 00:37:08,880
que función ten
é só unha discusión.

707
00:37:08,880 --> 00:37:13,170
Imos dicir "Baby, eu estou no lume" e é
Vai descubrir que é o

708
00:37:13,170 --> 00:37:14,490
probabilidade de que se trata Gaga?

709
00:37:14,490 --> 00:37:16,405
Cal é a probabilidade
que este é Katie?

710
00:37:16,405 --> 00:37:19,690
Parece bo?

711
00:37:19,690 --> 00:37:25,750
Entón, eu só vou ter que crear un
nova función chamada "clasificar ()" e

712
00:37:25,750 --> 00:37:29,180
iso vai levar moito
letras tamén.

713
00:37:29,180 --> 00:37:31,790

714
00:37:31,790 --> 00:37:36,160
E alén das letras que eu tamén
ten que enviar os priores, o

715
00:37:36,160 --> 00:37:37,700
probabilidade e as palabras.

716
00:37:37,700 --> 00:37:44,000
Entón eu vou mandar cartas, priores,
probabilidades, palabras.

717
00:37:44,000 --> 00:37:51,840
>> Entón, iso está tomando letras, priores,
probabilidades, palabras.

718
00:37:51,840 --> 00:37:53,530
Entón, o que fai?

719
00:37:53,530 --> 00:37:57,180
É basicamente vai pasar por todo
os posibles candidatos que teña

720
00:37:57,180 --> 00:37:58,510
ten como cantante.

721
00:37:58,510 --> 00:37:59,425
E onde están os candidatos?

722
00:37:59,425 --> 00:38:01,020
Están no priores, non?

723
00:38:01,020 --> 00:38:02,710
Entón, eu teño todos os alí.

724
00:38:02,710 --> 00:38:07,870
Entón, eu vou ter un dicionario
de todos os candidatos posíbeis.

725
00:38:07,870 --> 00:38:14,220
E, a continuación, para cada candidato no
priores, entón iso significa que vai

726
00:38:14,220 --> 00:38:17,740
ser Gaga, Katie se eu tivese
máis sería máis.

727
00:38:17,740 --> 00:38:20,410
Vou comezar a calcular
esta probabilidade.

728
00:38:20,410 --> 00:38:28,310
A probabilidade, como vimos no
PowerPoint é os tempos anteriores a

729
00:38:28,310 --> 00:38:30,800
produto de cada un dos
outros probabilidades.

730
00:38:30,800 --> 00:38:32,520
>> Entón eu podo facer o mesmo aquí.

731
00:38:32,520 --> 00:38:36,330
Podo só facer a probabilidade é
inicialmente só o anterior.

732
00:38:36,330 --> 00:38:40,340
Así antecedentes do candidato.

733
00:38:40,340 --> 00:38:40,870
Non?

734
00:38:40,870 --> 00:38:45,360
E agora teño que iterado sobre todo o
palabras que eu teño nas letras a ser

735
00:38:45,360 --> 00:38:48,820
capaz de engadir a probabilidade
para cada un deles, ok?

736
00:38:48,820 --> 00:38:57,900
Entón, "por palabra nas letras" o que eu vou
que facer é, se a palabra está en

737
00:38:57,900 --> 00:39:01,640
"Probabilidades (candidatos)", que
significa que é unha palabra que o

738
00:39:01,640 --> 00:39:03,640
candidato ten nas súas letras -

739
00:39:03,640 --> 00:39:05,940
por exemplo, "bebé" para Gaga -

740
00:39:05,940 --> 00:39:11,710
o que eu vou facer é que o
probabilidade será multiplicada

741
00:39:11,710 --> 00:39:22,420
por 1 máis as probabilidades
o candidato a esa palabra.

742
00:39:22,420 --> 00:39:25,710
E iso é chamado de "palabra".

743
00:39:25,710 --> 00:39:32,440
Esta dividido polo número de palabras
que eu teño para este candidato.

744
00:39:32,440 --> 00:39:37,450
O número total de palabras que eu teño
ao cantante que estou mirando.

745
00:39:37,450 --> 00:39:40,290
>> "Else". isto significa que é un novo contrasinal
polo que sería por exemplo

746
00:39:40,290 --> 00:39:41,860
"Lume" de Lady Gaga.

747
00:39:41,860 --> 00:39:45,760
Entón, eu só quero facer un sobre
"Palabras (candidato)".

748
00:39:45,760 --> 00:39:47,710
Entón eu non quero poñer este termo aquí.

749
00:39:47,710 --> 00:39:50,010
>> Por iso, será basicamente
copiando e pegando esta.

750
00:39:50,010 --> 00:39:54,380

751
00:39:54,380 --> 00:39:56,000
Pero eu vou borrar esa parte.

752
00:39:56,000 --> 00:39:57,610
Por iso, só será 1 sobre iso.

753
00:39:57,610 --> 00:40:00,900

754
00:40:00,900 --> 00:40:02,150
Parece bo?

755
00:40:02,150 --> 00:40:03,980

756
00:40:03,980 --> 00:40:09,700
E agora, ao final, eu só vou
imprimir o nome do demandante e

757
00:40:09,700 --> 00:40:15,750
a probabilidade de que ten de
tendo a S en súas letras.

758
00:40:15,750 --> 00:40:16,200
Ten sentido?

759
00:40:16,200 --> 00:40:18,390
E eu, de feito, nin sequera
precisa deste dicionario.

760
00:40:18,390 --> 00:40:19,510
Ten sentido?

761
00:40:19,510 --> 00:40:21,810
>> Entón, imos ver se isto realmente funciona.

762
00:40:21,810 --> 00:40:24,880
Entón, se eu executar tanto, non funcionou.

763
00:40:24,880 --> 00:40:26,130
Espere un segundo.

764
00:40:26,130 --> 00:40:28,870

765
00:40:28,870 --> 00:40:31,720
"Palabras (candidatos)", "palabras (candidatos)",
iso é

766
00:40:31,720 --> 00:40:33,750
nome da matriz.

767
00:40:33,750 --> 00:40:41,435
OK Entón, el di que hai algún erro
ao candidato en antecedentes.

768
00:40:41,435 --> 00:40:46,300

769
00:40:46,300 --> 00:40:48,760
Déixeme só relaxarse ​​un pouco.

770
00:40:48,760 --> 00:40:50,360
Aceptar.

771
00:40:50,360 --> 00:40:51,305
Imos probar.

772
00:40:51,305 --> 00:40:51,720
Aceptar.

773
00:40:51,720 --> 00:40:58,710
>> Entón dá Katy Perry ten este
probabilidade de isto veces 10 elevado a

774
00:40:58,710 --> 00:41:02,200
menos rúbricas 7, e Gaga ten esta
veces 10 elevado a menos 6.

775
00:41:02,200 --> 00:41:05,610
Entón ve que demostra que Gaga
ten unha maior probabilidade.

776
00:41:05,610 --> 00:41:09,260
Así, "Baby, eu estou no lume" é
probablemente unha canción Gaga.

777
00:41:09,260 --> 00:41:10,580
Ten sentido?

778
00:41:10,580 --> 00:41:12,030
Entón é iso que nós fixemos.

779
00:41:12,030 --> 00:41:16,010
>> Este código será publicado en liña,
para que vostedes poidan revisar.

780
00:41:16,010 --> 00:41:20,720
Quizais usa algunhas delas para se quere
facer un proxecto ou algo semellante.

781
00:41:20,720 --> 00:41:22,150
Aceptar.

782
00:41:22,150 --> 00:41:25,930
Este foi só para amosar
computacional que

783
00:41:25,930 --> 00:41:27,230
código lingüística parece.

784
00:41:27,230 --> 00:41:33,040
Pero agora imos a máis
material de alto nivel.

785
00:41:33,040 --> 00:41:33,340
Aceptar.

786
00:41:33,340 --> 00:41:35,150
>> Así, os outros problemas que eu
estaba falando -

787
00:41:35,150 --> 00:41:37,550
o problema de segmentación
é a primeira delas.

788
00:41:37,550 --> 00:41:40,820
Entón tes aquí xaponesa.

789
00:41:40,820 --> 00:41:43,420
E entón ve que
non hai espazos.

790
00:41:43,420 --> 00:41:49,110
Polo tanto, esta é, basicamente, significa que é
o principio da materia, non?

791
00:41:49,110 --> 00:41:50,550
Vostede fala xaponés?

792
00:41:50,550 --> 00:41:52,840
É o principio da materia, non?

793
00:41:52,840 --> 00:41:54,480
>> ALUMNO: Eu non sei o que
o kanji alí é.

794
00:41:54,480 --> 00:41:57,010
>> LUCAS FREITAS: É [a falar xaponés]

795
00:41:57,010 --> 00:41:57,950
Aceptar.

796
00:41:57,950 --> 00:42:00,960
Por iso basicamente significa materia de arriba.

797
00:42:00,960 --> 00:42:03,620
Entón, se tivese que poñer un espazo
sería aquí.

798
00:42:03,620 --> 00:42:05,970
E entón tes [? Ueda-san. ?]

799
00:42:05,970 --> 00:42:09,040
Que basicamente significa Ueda.

800
00:42:09,040 --> 00:42:13,180
E ve que "Ueda" e ten un
espazo e, a continuación, "san." Entón ve que

801
00:42:13,180 --> 00:42:15,470
Aquí "UE" é por si só.

802
00:42:15,470 --> 00:42:17,750
E aquí ten un carácter
ó lado.

803
00:42:17,750 --> 00:42:21,720
>> Entón non é como nas linguas
caracteres que significan unha palabra del para que

804
00:42:21,720 --> 00:42:23,980
só tes que poñer unha morea de espazos.

805
00:42:23,980 --> 00:42:25,500
Caracteres refírense se uns aos outros.

806
00:42:25,500 --> 00:42:28,680
E poden estar xuntos
como dous, tres, un.

807
00:42:28,680 --> 00:42:34,520
Entón, o que realmente ten que crear algún tipo
de forma de poñer estes espazos.

808
00:42:34,520 --> 00:42:38,850
>> E esa cousa é que cada vez que comeza
datos destes idiomas asiáticos,

809
00:42:38,850 --> 00:42:40,580
todo vén unsegmented.

810
00:42:40,580 --> 00:42:45,940
Porque ninguén que escribe xaponés
ou chinés escribe con espazos.

811
00:42:45,940 --> 00:42:48,200
Sempre que está escribindo chinés,
Xaponés que acaba de escribir todo

812
00:42:48,200 --> 00:42:48,710
sen espazos.

813
00:42:48,710 --> 00:42:52,060
Non fai moito sentido
para poñer espazos.

814
00:42:52,060 --> 00:42:57,960
Entón cando comeza a partir de datos, algúns
Idioma do leste asiático, se quere

815
00:42:57,960 --> 00:43:00,760
realmente facer algo con iso
ten que primeiro segmento.

816
00:43:00,760 --> 00:43:05,130
>> Debería facer o exemplo de
as letras, sen espazos.

817
00:43:05,130 --> 00:43:07,950
Así, as únicas letras que ten
será sentenzas, non?

818
00:43:07,950 --> 00:43:09,470
Separados por puntos.

819
00:43:09,470 --> 00:43:13,930
Pero, entón, que só a sentenza ha
non realmente axudar a dar información

820
00:43:13,930 --> 00:43:17,760
de que estas letras son de.

821
00:43:17,760 --> 00:43:18,120
Non?

822
00:43:18,120 --> 00:43:20,010
Polo tanto, ten que poñer espazos en primeiro lugar.

823
00:43:20,010 --> 00:43:21,990
Entón, como pode facelo?

824
00:43:21,990 --> 00:43:24,920
>> Entón, a continuación, ven a idea dunha lingua
modelo que é algo realmente

825
00:43:24,920 --> 00:43:26,870
importante para computacional
lingüística.

826
00:43:26,870 --> 00:43:32,790
Así, un modelo de linguaxe é basicamente un
táboa de probabilidades que mostra

827
00:43:32,790 --> 00:43:36,260
antes de todo, cal é a probabilidade
de ter a palabra nunha lingua?

828
00:43:36,260 --> 00:43:39,590
Entón, amosando como unha palabra é frecuente.

829
00:43:39,590 --> 00:43:43,130
E, a continuación, tamén, que mostra a relación
entre as palabras nunha frase.

830
00:43:43,130 --> 00:43:51,500
>> Así, a idea principal é que, se un estraño veu
para ti e dixo unha frase para

831
00:43:51,500 --> 00:43:55,600
ti, cal é a probabilidade de que, para
exemplo, "esta é a miña irmá [? GTF"?]

832
00:43:55,600 --> 00:43:57,480
foi a frase que a persoa dixo?

833
00:43:57,480 --> 00:44:00,380
Entón, obviamente, algunhas frases son
máis comúns do que outros.

834
00:44:00,380 --> 00:44:04,450
Por exemplo, "bo día" ou "boa
noite ", ou" hey alí, "é moito máis

835
00:44:04,450 --> 00:44:08,260
común do que a maioría das sentenzas
que temos un inglés.

836
00:44:08,260 --> 00:44:11,060
Entón, por que estas frases
máis frecuente?

837
00:44:11,060 --> 00:44:14,060
>> Primeiro de nada, é porque ten
palabras que son máis frecuentes.

838
00:44:14,060 --> 00:44:20,180
Así, por exemplo, se di, o can é
grande, e que o can é xigantesca, vostede

839
00:44:20,180 --> 00:44:23,880
xeralmente probablemente escoitar o can é grande
máis frecuentemente, por "gran" é máis

840
00:44:23,880 --> 00:44:27,260
frecuente en inglés de "xigantesco".
Así, un dos

841
00:44:27,260 --> 00:44:30,100
cousas é a frecuencia de palabras.

842
00:44:30,100 --> 00:44:34,490
>> A segunda cousa que é realmente
importante é só o

843
00:44:34,490 --> 00:44:35,490
orde das palabras.

844
00:44:35,490 --> 00:44:39,500
Así, é común dicir que "o gato está
dentro da caixa. ", pero xeralmente non

845
00:44:39,500 --> 00:44:44,250
ver en "O cadro de dentro é o gato." así
ve que hai algunha importancia

846
00:44:44,250 --> 00:44:46,030
na orde das palabras.

847
00:44:46,030 --> 00:44:50,160
Non pode simplemente dicir que os dous
sentenzas teñen a mesma probabilidade

848
00:44:50,160 --> 00:44:53,010
só porque teñen as mesmas palabras.

849
00:44:53,010 --> 00:44:55,550
Realmente ten que coidar
sobre a orde tamén.

850
00:44:55,550 --> 00:44:57,650
Ten sentido?

851
00:44:57,650 --> 00:44:59,490
>> Entón, o que facemos?

852
00:44:59,490 --> 00:45:01,550
Entón, o que eu podería intentar levalo?

853
00:45:01,550 --> 00:45:04,400
Estou intentando conseguir o que nós
chamar os modelos n-gramos.

854
00:45:04,400 --> 00:45:09,095
Así, os modelos n-gram basicamente asumir
que, para cada palabra que

855
00:45:09,095 --> 00:45:10,960
ten nunha frase.

856
00:45:10,960 --> 00:45:15,020
É a probabilidade de ter que
palabra non depende non só do

857
00:45:15,020 --> 00:45:18,395
frecuencia da palabra na lingua,
pero tamén en que as palabras

858
00:45:18,395 --> 00:45:19,860
están ao seu redor.

859
00:45:19,860 --> 00:45:25,810
>> Así, por exemplo, xeralmente cando ve
algo así como en ou polo que é

860
00:45:25,810 --> 00:45:28,040
probablemente vai ver un
substantivo despois, non?

861
00:45:28,040 --> 00:45:31,750
Porque cando tes unha preposición
xeralmente leva substantivo despois del.

862
00:45:31,750 --> 00:45:35,540
Ou se ten un verbo que é transitivo
normalmente van

863
00:45:35,540 --> 00:45:36,630
ter un sintagma nominal.

864
00:45:36,630 --> 00:45:38,780
Por iso, vai ter un substantivo
en algún lugar en torno a el.

865
00:45:38,780 --> 00:45:44,950
>> Entón, basicamente, o que fai é que
considera a probabilidade de ter

866
00:45:44,950 --> 00:45:47,960
palabras á beira do outro, cando
está calculando o

867
00:45:47,960 --> 00:45:49,050
probabilidade dunha sentenza.

868
00:45:49,050 --> 00:45:50,960
E iso é o que a lingua
modelo é basicamente.

869
00:45:50,960 --> 00:45:54,620
Só ten que dicir cal é a probabilidade
de ter unha específica

870
00:45:54,620 --> 00:45:57,120
sentenza nunha lingua?

871
00:45:57,120 --> 00:45:59,110
Entón, por que é tan útil, basicamente?

872
00:45:59,110 --> 00:46:02,390
E antes de todo o que é
un modelo de n-gramos, entón?

873
00:46:02,390 --> 00:46:08,850
>> Así, un modelo de n-gramos significa que
cada palabra depende da

874
00:46:08,850 --> 00:46:12,700
N próxima de menos 1 palabras.

875
00:46:12,700 --> 00:46:18,150
Entón, basicamente, significa que se eu ollar,
por exemplo, o TF CS50 cando

876
00:46:18,150 --> 00:46:21,500
Estou calculando a probabilidade de
a frase, vai ser como "o

877
00:46:21,500 --> 00:46:25,280
probabilidade de ter a palabra "a"
veces a probabilidade de ter o "

878
00:46:25,280 --> 00:46:31,720
CS50 "veces a probabilidade de ter
"O TF CS50". Entón, basicamente, eu conto

879
00:46:31,720 --> 00:46:35,720
todas as formas posibles de estirala-lo.

880
00:46:35,720 --> 00:46:41,870
>> E, entón, xeralmente cando está facendo iso,
como nun proxecto, se pon N a ser

881
00:46:41,870 --> 00:46:42,600
un valor baixo.

882
00:46:42,600 --> 00:46:45,930
Entón, xeralmente teñen bigramas ou trigramas.

883
00:46:45,930 --> 00:46:51,090
Así que acaba de contar dúas palabras, unha
grupo de dúas palabras, ou tres palabras,

884
00:46:51,090 --> 00:46:52,620
só para problemas de rendemento.

885
00:46:52,620 --> 00:46:56,395
E tamén porque, se cadra, se ten
algo así como "O TF CS50". Cando

886
00:46:56,395 --> 00:47:00,510
ter "TF", é moi importante que
"CS50" está ao lado del, non?

887
00:47:00,510 --> 00:47:04,050
Esas dúas cousas son normalmente
á beira do outro.

888
00:47:04,050 --> 00:47:06,410
>> Se pensar en "TF", é probablemente
terá que

889
00:47:06,410 --> 00:47:07,890
clase é TF'ing para.

890
00:47:07,890 --> 00:47:11,330
Tamén "a" é realmente importante
para CS50 TF.

891
00:47:11,330 --> 00:47:14,570
Pero se ten algo como "O CS50
TF fun á clase e deron o seu

892
00:47:14,570 --> 00:47:20,060
os alumnos algúns doces. "" Candy "e" a "
non teñen relación de verdade, non?

893
00:47:20,060 --> 00:47:23,670
Están tan distantes unhas das outras que
iso realmente non importa o que

894
00:47:23,670 --> 00:47:25,050
palabras que ten.

895
00:47:25,050 --> 00:47:31,210
>> Entón, facendo un bigram ou un trigrama, el
Significa só que está limitando

896
00:47:31,210 --> 00:47:33,430
a algunhas palabras
que están ao redor.

897
00:47:33,430 --> 00:47:35,810
Ten sentido?

898
00:47:35,810 --> 00:47:40,630
Entón, cando quere facer segmentación,
Basicamente, o que quere facer é ver

899
00:47:40,630 --> 00:47:44,850
cales son todas as formas posibles que
podes segmentar a frase.

900
00:47:44,850 --> 00:47:49,090
>> De tal forma que ve o que é a
probabilidade de cada unha das mencionadas frases

901
00:47:49,090 --> 00:47:50,880
existente na linguaxe?

902
00:47:50,880 --> 00:47:53,410
Entón, o que fai é como, así, imos
me tentar poñer un espazo aquí.

903
00:47:53,410 --> 00:47:55,570
Entón poñer un espazo alí
e ve o que é a

904
00:47:55,570 --> 00:47:57,590
probabilidade de que a sentenza?

905
00:47:57,590 --> 00:48:00,240
Entón é como, OK, quizais
que non era tan bo.

906
00:48:00,240 --> 00:48:03,420
Entón engada un espazo alí e un espazo
alí, e calcular a

907
00:48:03,420 --> 00:48:06,240
probabilidade agora, e ve que
é unha probabilidade máis elevada.

908
00:48:06,240 --> 00:48:12,160
>> Polo tanto, este é un algoritmo chamado TANGO
algoritmo de segmentación, que é

909
00:48:12,160 --> 00:48:14,990
en realidade, algo que sería realmente
legal para un proxecto, que

910
00:48:14,990 --> 00:48:20,860
basicamente leva texto unsegmented que
pode ser xaponés ou chinés ou que

911
00:48:20,860 --> 00:48:26,080
Inglés sen espazos e intenta poñer
espazos entre as palabras e fai

912
00:48:26,080 --> 00:48:29,120
que, ao utilizar un modelo de linguaxe e
tentar ver o que é o máis alto

913
00:48:29,120 --> 00:48:31,270
probabilidade pode comezar.

914
00:48:31,270 --> 00:48:32,230
Aceptar.

915
00:48:32,230 --> 00:48:33,800
Polo tanto, esta é a segmentación.

916
00:48:33,800 --> 00:48:35,450
>> Agora sintaxe.

917
00:48:35,450 --> 00:48:40,940
Así, a sintaxe está a ser usado para
tantas cousas neste momento.

918
00:48:40,940 --> 00:48:44,880
Así, por Graph Investigación, por Siri para
practicamente calquera tipo de recursos naturais

919
00:48:44,880 --> 00:48:46,490
procesamento de linguaxe que ten.

920
00:48:46,490 --> 00:48:49,140
Entón, cales son os importantes
cousas sobre sintaxe?

921
00:48:49,140 --> 00:48:52,390
Así, as sentenzas en xeral, teñen
o que chamamos electores.

922
00:48:52,390 --> 00:48:57,080
Cales son os tipo de como grupos de palabras
que teñen unha función na frase.

923
00:48:57,080 --> 00:49:02,220
E eles non poden realmente ser
afastados uns dos outros.

924
00:49:02,220 --> 00:49:07,380
>> Entón, se eu digo, por exemplo, "Lauren ama
Milo. "Sei que" Lauren "é un

925
00:49:07,380 --> 00:49:10,180
constituínte e despois "amores
Milo "é tamén outra.

926
00:49:10,180 --> 00:49:16,860
Porque non pode dicir como "Lauren Milo
ama "ter o mesmo significado.

927
00:49:16,860 --> 00:49:18,020
Non terá
mesmo significado.

928
00:49:18,020 --> 00:49:22,500
Ou eu non podo dicir como "Milo Lauren
ama. "Non todo ten o mesmo

929
00:49:22,500 --> 00:49:25,890
significando con iso.

930
00:49:25,890 --> 00:49:31,940
>> Así, as dúas cousas máis importantes sobre
sintaxe son os tipos lexicais que se

931
00:49:31,940 --> 00:49:35,390
basicamente a función que
teño palabras por si mesmos.

932
00:49:35,390 --> 00:49:39,180
Entón tes que saber que "Lauren"
e "Milo" son substantivos.

933
00:49:39,180 --> 00:49:41,040
"Love" é un verbo.

934
00:49:41,040 --> 00:49:45,660
E a segunda cousa importante é
que son tipo frasais.

935
00:49:45,660 --> 00:49:48,990
Entón vostede sabe que "ama Milo"
é, en realidade, unha frase verbal.

936
00:49:48,990 --> 00:49:52,390
Entón, cando digo "Lauren," Sei que
Lauren está facendo algo.

937
00:49:52,390 --> 00:49:53,620
O que está facendo?

938
00:49:53,620 --> 00:49:54,570
Ela está amando Milo.

939
00:49:54,570 --> 00:49:56,440
Entón é unha cousa toda.

940
00:49:56,440 --> 00:50:01,640
Pero os seus compoñentes son
substantivo e un verbo.

941
00:50:01,640 --> 00:50:04,210
Pero xuntos, eles fan unha frase verbal.

942
00:50:04,210 --> 00:50:08,680
>> Entón, o que podemos realmente facer
lingüística computacional?

943
00:50:08,680 --> 00:50:13,810
Entón, se eu tivera algo, por exemplo,
"Amigos de Allison". Vexo si

944
00:50:13,810 --> 00:50:17,440
unha árbore sintáctica gustaríame saber que
"Amigos" é unha frase que é un substantivo

945
00:50:17,440 --> 00:50:21,480
substantivo e despois "de Allison" é un
locución prepositiva en que "de" é

946
00:50:21,480 --> 00:50:24,810
unha proposición e "Allison" é un substantivo.

947
00:50:24,810 --> 00:50:30,910
O que eu podería facer é ensinar o meu ordenador
que cando eu teño un sintagma nominal e un

948
00:50:30,910 --> 00:50:33,080
logo unha frase preposicional.

949
00:50:33,080 --> 00:50:39,020
Entón, neste caso, "amigos" e logo "de
Milo "Sei que isto significa que

950
00:50:39,020 --> 00:50:43,110
NP2, a segunda, posúe NP1.

951
00:50:43,110 --> 00:50:47,680
>> Para que eu poida crear algún tipo de relación,
algún tipo de función para el.

952
00:50:47,680 --> 00:50:52,370
Así, cada vez que vexo esta estrutura, que
corresponde exactamente con "amigos de

953
00:50:52,370 --> 00:50:56,030
Allison, "Sei que Allison
ten os amigos.

954
00:50:56,030 --> 00:50:58,830
Así, os amigos son algo
que ten Allison.

955
00:50:58,830 --> 00:50:59,610
Ten sentido?

956
00:50:59,610 --> 00:51:01,770
Entón, iso é basicamente o que
Gráfico Busca fai.

957
00:51:01,770 --> 00:51:04,360
Só crea regras
para unha morea de cousas.

958
00:51:04,360 --> 00:51:08,190
Así, "amigos de Allison", "meus amigos
que viven en Cambridge "," meus amigos

959
00:51:08,190 --> 00:51:12,970
que van a Harvard. "El crea regras
para todas esas cousas.

960
00:51:12,970 --> 00:51:14,930
>> Agora tradución automática.

961
00:51:14,930 --> 00:51:18,850
Así, a tradución automática tamén é
algo estatística.

962
00:51:18,850 --> 00:51:21,340
E, de feito, se se involucrar en
lingüística computacional, unha morea de

963
00:51:21,340 --> 00:51:23,580
o seu material será estatísticas.

964
00:51:23,580 --> 00:51:26,670
Entón, como eu estaba facendo o exemplo con
unha morea de probabilidades de que eu era

965
00:51:26,670 --> 00:51:30,540
cálculo, e entón comeza a este
número moi pequeno que é o final

966
00:51:30,540 --> 00:51:33,180
probabilidade, e iso é o que
dálle a resposta.

967
00:51:33,180 --> 00:51:37,540
A tradución automática tamén usa
un modelo estatístico.

968
00:51:37,540 --> 00:51:44,790
E se queres pensar en máquina
tradución no máis sinxelo posible

969
00:51:44,790 --> 00:51:48,970
forma, o que pode pensar é só
traducir palabra por palabra, non?

970
00:51:48,970 --> 00:51:52,150
>> Cando está a aprender un idioma para o
primeira vez, que xeralmente é o que

971
00:51:52,150 --> 00:51:52,910
fai, non?

972
00:51:52,910 --> 00:51:57,050
Se quere, traducir unha frase
na súa lingua a linguaxe

973
00:51:57,050 --> 00:52:00,060
está a aprender, xeralmente en primeiro lugar, ten
converter cada unha das palabras

974
00:52:00,060 --> 00:52:03,180
individualmente, e logo tentar
para poñer as palabras no seu lugar.

975
00:52:03,180 --> 00:52:07,100
>> Entón, se eu quería traducir este,
[PORTUGUÉS LINGUA]

976
00:52:07,100 --> 00:52:10,430
que significa "o gato branco fuxiu."
Se eu quixese traducir-lo desde

977
00:52:10,430 --> 00:52:13,650
Portugués a inglés, o que eu
podería facer é, en primeiro lugar, eu só

978
00:52:13,650 --> 00:52:14,800
traducir palabra por palabra.

979
00:52:14,800 --> 00:52:20,570
Así, "o" é "a", "gato", "gato",
"Branco", "branco", e entón "Fugio" é

980
00:52:20,570 --> 00:52:21,650
"Fuxiu".

981
00:52:21,650 --> 00:52:26,130
>> Entón eu teño todas as palabras aquí,
pero eles non están en orde.

982
00:52:26,130 --> 00:52:29,590
É como "o gato branco fuxiu"
que é gramatical.

983
00:52:29,590 --> 00:52:34,490
Así, entón eu podo ter un segundo paso, que
será atopar o ideal

984
00:52:34,490 --> 00:52:36,610
posición para cada unha das palabras.

985
00:52:36,610 --> 00:52:40,240
Entón eu sei que eu realmente quero ter
"Gato branco" no canto de "gato branco". Así

986
00:52:40,240 --> 00:52:46,050
o que podo facer é, o método máis inxenuo
sería a creación de toda a

987
00:52:46,050 --> 00:52:49,720
permutacións posibles de
palabras, de posicións.

988
00:52:49,720 --> 00:52:53,300
E entón ver cal deles ten o
maior probabilidade de acordo

989
00:52:53,300 --> 00:52:54,970
para o meu modelo de linguaxe.

990
00:52:54,970 --> 00:52:58,390
E entón, cando eu atopar o que ten
a máis alta probabilidade de que, o que é

991
00:52:58,390 --> 00:53:01,910
probablemente "o gato branco fuxiu"
esa é a miña tradución.

992
00:53:01,910 --> 00:53:06,710
>> E esta é unha maneira sinxela de explicar
como unha morea de tradución automática

993
00:53:06,710 --> 00:53:07,910
algoritmos funcionan.

994
00:53:07,910 --> 00:53:08,920
Será que isto ten sentido?

995
00:53:08,920 --> 00:53:12,735
Isto tamén é algo realmente emocionante
que vostedes poden explotar se cadra por un

996
00:53:12,735 --> 00:53:13,901
proxecto final, non?

997
00:53:13,901 --> 00:53:15,549
>> ALUMNO: Ben, vostede dixo que era
a forma inxenua, entón cal é

998
00:53:15,549 --> 00:53:17,200
a forma non inxenua?

999
00:53:17,200 --> 00:53:18,400
>> LUCAS FREITAS: O xeito non inxenua?

1000
00:53:18,400 --> 00:53:19,050
Aceptar.

1001
00:53:19,050 --> 00:53:22,860
Entón o primeiro que é malo sobre
deste método é que eu só traducido

1002
00:53:22,860 --> 00:53:24,330
palabras, palabra por palabra.

1003
00:53:24,330 --> 00:53:30,570
Pero ás veces ten palabras que
pode ter varias traducións.

1004
00:53:30,570 --> 00:53:32,210
Vou tentar pensar
de algo.

1005
00:53:32,210 --> 00:53:37,270
Por exemplo, "manga" en lata Portugués
quere ser "mangle" ou "manga". Así

1006
00:53:37,270 --> 00:53:40,450
cando estás a traducir palabra
por palabra, pódese dar-lle

1007
00:53:40,450 --> 00:53:42,050
algo que non ten sentido.

1008
00:53:42,050 --> 00:53:45,770
>> Entón, o que realmente quere que ollar para todos
as posibles traducións da

1009
00:53:45,770 --> 00:53:49,840
palabras e ver, en primeiro lugar,
cal é a orde.

1010
00:53:49,840 --> 00:53:52,000
Estabamos falando sobre permutando
as cousas?

1011
00:53:52,000 --> 00:53:54,150
Para ver todas as ordes posibles e
escoller aquel co maior

1012
00:53:54,150 --> 00:53:54,990
probabilidade?

1013
00:53:54,990 --> 00:53:57,860
Tamén podes escoller todo o posible
traducións para cada

1014
00:53:57,860 --> 00:54:00,510
palabra e, a continuación, ver -

1015
00:54:00,510 --> 00:54:01,950
combinados coas permutacións -

1016
00:54:01,950 --> 00:54:03,710
cal deles ten a maior probabilidade.

1017
00:54:03,710 --> 00:54:08,590
>> Ademais, tamén se pode ver non
só palabras, senón frases.

1018
00:54:08,590 --> 00:54:11,700
para que poida analizar as relacións entre
as palabras e, a continuación, obter un

1019
00:54:11,700 --> 00:54:13,210
mellor tradución.

1020
00:54:13,210 --> 00:54:16,690
Tamén outra cousa, de xeito que este semestre
En realidade, estou facendo unha investigación en

1021
00:54:16,690 --> 00:54:19,430
Chinés-Inglés tradución automática,
así traducindo

1022
00:54:19,430 --> 00:54:20,940
Chinés para o inglés.

1023
00:54:20,940 --> 00:54:26,760
>> E unha cousa que facemos é, ademais de utilizar
un modelo estatístico, que é só

1024
00:54:26,760 --> 00:54:30,570
vendo as probabilidades de ver
postura nunha frase, eu son

1025
00:54:30,570 --> 00:54:35,360
de feito tamén engadir un pouco de sintaxe ao meu
modelo, dicindo: Oh, se eu ver este tipo

1026
00:54:35,360 --> 00:54:39,420
de construción, que é o que quero
mudalo para cando traducir.

1027
00:54:39,420 --> 00:54:43,880
Así, tamén se pode engadir algún tipo de
elemento de sintaxis para facer o

1028
00:54:43,880 --> 00:54:47,970
tradución máis eficiente
e máis preciso.

1029
00:54:47,970 --> 00:54:48,550
Aceptar.

1030
00:54:48,550 --> 00:54:51,010
>> Entón, como pode comezar, se quere
de facer algo en computacional

1031
00:54:51,010 --> 00:54:51,980
lingüística?

1032
00:54:51,980 --> 00:54:54,560
>> En primeiro lugar, escolle un proxecto
que implica idiomas.

1033
00:54:54,560 --> 00:54:56,310
Así, non hai tantos por aí.

1034
00:54:56,310 --> 00:54:58,420
Hai tantas cousas que podes facer.

1035
00:54:58,420 --> 00:55:00,510
E despois podemos pensar nun modelo
que pode usar.

1036
00:55:00,510 --> 00:55:04,710
Normalmente, isto significa que o pensamento de
suposicións, como, como, oh, cando eu era

1037
00:55:04,710 --> 00:55:05,770
como o pensamento das letras.

1038
00:55:05,770 --> 00:55:09,510
Eu era como, ben, se quero descubrir
un que escribiu iso, eu probablemente quere

1039
00:55:09,510 --> 00:55:15,400
mirar para as palabras da persoa e usa
ver quen usa esa palabra con moita frecuencia.

1040
00:55:15,400 --> 00:55:18,470
Polo tanto, probe facer suposicións e
tente pensar en modelos.

1041
00:55:18,470 --> 00:55:21,395
E entón tamén pode buscar en liña para
o tipo de problema que ten,

1042
00:55:21,395 --> 00:55:24,260
e só pode suxerir
para vós modelos que quizais

1043
00:55:24,260 --> 00:55:26,560
modelado esa cousa tamén.

1044
00:55:26,560 --> 00:55:29,080
>> E tamén pode sempre enviar correo-e me.

1045
00:55:29,080 --> 00:55:31,140
me@lfreitas.com.

1046
00:55:31,140 --> 00:55:34,940
E eu só podo responder as súas preguntas.

1047
00:55:34,940 --> 00:55:38,600
Podemos incluso pode atoparse para que eu poida
dar suxerencias sobre as formas de

1048
00:55:38,600 --> 00:55:41,490
implementación do seu proxecto.

1049
00:55:41,490 --> 00:55:45,610
E quero dicir, se se involucrar co
lingüística computacional, que vai

1050
00:55:45,610 --> 00:55:46,790
para ser grande.

1051
00:55:46,790 --> 00:55:48,370
Vai ver que
moito potencial.

1052
00:55:48,370 --> 00:55:52,060
E a industria quere contratar
vostede é tan malo por causa diso.

1053
00:55:52,060 --> 00:55:54,720
Entón, eu espero que vós guste.

1054
00:55:54,720 --> 00:55:57,030
Se vós ten algunha dúbida,
que me pode preguntar despois.

1055
00:55:57,030 --> 00:55:58,280
Pero grazas.

1056
00:55:58,280 --> 00:56:00,150