1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS:嘿。 3 00:00:08,870 --> 00:00:09,980 欢迎大家。 4 00:00:09,980 --> 00:00:11,216 我的名字是卢卡斯塔斯。 5 00:00:11,216 --> 00:00:15,220 我是一个大三学生[听不清]研究 计算机科学与重点 6 00:00:15,220 --> 00:00:16,410 计算语言学。 7 00:00:16,410 --> 00:00:19,310 所以,我的中学是在语言 和语言学理论。 8 00:00:19,310 --> 00:00:21,870 我真的很兴奋,教你们 关于外地一点点。 9 00:00:21,870 --> 00:00:24,300 这是一个非常激动人心的领域来研究。 10 00:00:24,300 --> 00:00:27,260 也有很大的潜力 为将来。 11 00:00:27,260 --> 00:00:30,160 所以,我真的很兴奋,你的家伙 正在考虑中的项目 12 00:00:30,160 --> 00:00:31,160 计算语言学。 13 00:00:31,160 --> 00:00:35,460 我会很乐意提供意见 任何的你,如果你决定 14 00:00:35,460 --> 00:00:37,090 追求其中的一个。 15 00:00:37,090 --> 00:00:40,010 >> 所以首先什么是计算的 语言学? 16 00:00:40,010 --> 00:00:44,630 因此,计算语言学是 语言学和之间的交集 17 00:00:44,630 --> 00:00:46,390 计算机科学。 18 00:00:46,390 --> 00:00:47,415 那么,什么是语言学? 19 00:00:47,415 --> 00:00:48,490 什么是计算机科学? 20 00:00:48,490 --> 00:00:51,580 以及从语言学,是什么 我们采取的是语言。 21 00:00:51,580 --> 00:00:54,960 因此,语言学实际上是研究 在一般的自然语言。 22 00:00:54,960 --> 00:00:58,330 所以,自然语言 - 大家说说 我们实际使用的语言 23 00:00:58,330 --> 00:00:59,770 相互通信。 24 00:00:59,770 --> 00:01:02,200 因此,我们不正是在说 关于C或Java。 25 00:01:02,200 --> 00:01:05,900 我们谈论更多关于英语和 中国和其他语言,我们 26 00:01:05,900 --> 00:01:07,780 用于彼此进行通信。 27 00:01:07,780 --> 00:01:12,470 >> 有关的具有挑战性的事情是, 现在我们有近7000 28 00:01:12,470 --> 00:01:14,260 语言在世界上。 29 00:01:14,260 --> 00:01:19,520 因此,有相当高的品种 的语言,我们可以研究。 30 00:01:19,520 --> 00:01:22,600 然后你认为它可能是 很难做到,比如, 31 00:01:22,600 --> 00:01:26,960 翻译从一种语言到 另外,考虑到你有 32 00:01:26,960 --> 00:01:28,240 其中近7000人。 33 00:01:28,240 --> 00:01:31,450 所以,如果你想这样做的翻译 从一种语言到另你 34 00:01:31,450 --> 00:01:35,840 几乎超过一百万 不同的组合,你可以 35 00:01:35,840 --> 00:01:37,330 必须从语言到语言。 36 00:01:37,330 --> 00:01:40,820 所以它的真正挑战做了一些 类的实例翻译系统的 37 00:01:40,820 --> 00:01:43,540 每一个语言。 38 00:01:43,540 --> 00:01:47,120 >> 所以,对待语言学与语法, 语义,语用学。 39 00:01:47,120 --> 00:01:49,550 你们不完全需要 要知道什么是他们的。 40 00:01:49,550 --> 00:01:55,090 但非常有趣的是, 作为母语的人,当你学会 41 00:01:55,090 --> 00:01:59,010 语言作为孩子,你居然学会 所有这些事情 - 语法语义 42 00:01:59,010 --> 00:02:00,500 和语用 - 43 00:02:00,500 --> 00:02:01,430 由你自己。 44 00:02:01,430 --> 00:02:04,820 和任何人都没有教你语法 你明白的句子是如何 45 00:02:04,820 --> 00:02:05,290 结构。 46 00:02:05,290 --> 00:02:07,980 所以,这真的很有趣,因为 它的东西,来非常 47 00:02:07,980 --> 00:02:10,389 直观。 48 00:02:10,389 --> 00:02:13,190 >> 和你在服用 计算机科学? 49 00:02:13,190 --> 00:02:16,700 好了,最重要的事情是我们 在计算机科学,首先是 50 00:02:16,700 --> 00:02:19,340 总之,人工智能 和机器学习。 51 00:02:19,340 --> 00:02:22,610 所以,我们正在努力做 计算语言学是教 52 00:02:22,610 --> 00:02:26,990 您的计算机如何做 用的语言。 53 00:02:26,990 --> 00:02:28,630 >> 因此,例如,在机 翻译。 54 00:02:28,630 --> 00:02:32,490 我想教我的电脑怎么 知道如何从一个过渡 55 00:02:32,490 --> 00:02:33,310 语言到另一边。 56 00:02:33,310 --> 00:02:35,790 所以,基本上喜欢教学 一台电脑两种语言。 57 00:02:35,790 --> 00:02:38,870 如果我这样做自然语言处理, 这是示例的情况下 58 00:02:38,870 --> 00:02:41,810 Facebook的图搜索,你教 你的电脑怎么理解 59 00:02:41,810 --> 00:02:42,730 查询好。 60 00:02:42,730 --> 00:02:48,130 >> 所以,如果你说“的照片我的 朋友。“Facebook并没有把那 61 00:02:48,130 --> 00:02:51,130 作为具有整个字符串 只是一堆话。 62 00:02:51,130 --> 00:02:56,020 它实际上是理解的关系 “照片”和“我的朋友”之间 63 00:02:56,020 --> 00:02:59,620 了解到,“照片”是 物业“我的朋友。” 64 00:02:59,620 --> 00:03:02,350 >> 所以,这部分,例如 自然语言处理。 65 00:03:02,350 --> 00:03:04,790 它试图了解什么 之间的关系是 66 00:03:04,790 --> 00:03:07,520 词语的句子。 67 00:03:07,520 --> 00:03:11,170 而最大的问题是,你可以 教电脑如何说话 68 00:03:11,170 --> 00:03:12,650 在一般的语言? 69 00:03:12,650 --> 00:03:17,810 这是一个非常有趣的问题 想想,好像,也许在未来, 70 00:03:17,810 --> 00:03:19,930 你要能 谈谈您的手机。 71 00:03:19,930 --> 00:03:23,290 有点像我们做什么用的Siri,但 更多的东西一样,你实际上可以 72 00:03:23,290 --> 00:03:25,690 说任何你想要的手机 是要明白一切。 73 00:03:25,690 --> 00:03:28,350 而且它可以有后续问题 并继续谈判。 74 00:03:28,350 --> 00:03:30,880 这件事情真的很令人兴奋, 在我看来。 75 00:03:30,880 --> 00:03:33,070 >> 因此,一些关于自然语言。 76 00:03:33,070 --> 00:03:36,220 一些真正有趣 自然语言是说,这是 77 00:03:36,220 --> 00:03:38,470 信用到我的语言学教授, 玛丽亚Polinsky。 78 00:03:38,470 --> 00:03:40,830 她举了一个例子,我认为 这真的很有趣。 79 00:03:40,830 --> 00:03:47,060 因为我们学语文时,从 我们出生,然后我们的母语 80 00:03:47,060 --> 00:03:49,170 一种语言的生长在我们。 81 00:03:49,170 --> 00:03:52,570 >> 基本上你学习语言 从最小的投入,对不对? 82 00:03:52,570 --> 00:03:56,700 你刚刚从输入您的 您的语言听起来父母什么 83 00:03:56,700 --> 00:03:58,770 喜欢和你只是学习它。 84 00:03:58,770 --> 00:04:02,240 所以,这很有趣,因为如果你看一下 在这些句子,例如。 85 00:04:02,240 --> 00:04:06,980 你看,“玛丽穿上大衣每 一次,她离开家。“ 86 00:04:06,980 --> 00:04:10,650 >> 在这种情况下,有可能有 单词“她”指的是玛丽,对不对? 87 00:04:10,650 --> 00:04:13,500 你可以说“玛丽穿上大衣 每次玛丽离开 88 00:04:13,500 --> 00:04:14,960 房子。“,这样很好。 89 00:04:14,960 --> 00:04:19,370 但是如果你看一下这句话 “她每次穿上大衣玛丽 90 00:04:19,370 --> 00:04:22,850 离开房子。“你知道这是 不可能说“她”是 91 00:04:22,850 --> 00:04:24,260 提及玛丽。 92 00:04:24,260 --> 00:04:27,070 >> 有没有办法说,“玛丽把 一件大衣,每次离开玛丽 93 00:04:27,070 --> 00:04:30,790 房子,“所以这很有趣,因为 这是一种直觉 94 00:04:30,790 --> 00:04:32,890 每一个母语了。 95 00:04:32,890 --> 00:04:36,370 也没有人告诉我们,这是 该语法的工作方式。 96 00:04:36,370 --> 00:04:41,930 而且,你只能拥有这件“她” 提及玛丽在第一种情况下, 97 00:04:41,930 --> 00:04:44,260 实际上在这等 过,但不是在这一个。 98 00:04:44,260 --> 00:04:46,500 但每个人都种得 以相同的答案。 99 00:04:46,500 --> 00:04:48,580 每个人都同意这一点。 100 00:04:48,580 --> 00:04:53,280 所以,这真的很有趣,虽然如何 你不知道所有的规则 101 00:04:53,280 --> 00:04:55,575 那种在你的语言你懂 语言如何工作的。 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> 因此,关于自然的有趣的事情 语言是你不必 104 00:05:01,530 --> 00:05:06,970 知道任何语法知道,如果一个句子 是语法或不合语法的 105 00:05:06,970 --> 00:05:08,810 大多数情况下。 106 00:05:08,810 --> 00:05:13,220 它让你觉得,也许什么 发生的情况是通过你的生活,你 107 00:05:13,220 --> 00:05:17,410 只是不断变得越来越 句子告诉你。 108 00:05:17,410 --> 00:05:19,800 然后你保持记忆 所有的句子。 109 00:05:19,800 --> 00:05:24,230 然后当有人告诉你 什么,你听到这句话,并 110 00:05:24,230 --> 00:05:27,040 你看看你的词汇量 的句子,看看是否 111 00:05:27,040 --> 00:05:28,270 那句话是存在的。 112 00:05:28,270 --> 00:05:29,830 如果是有你 说这是语法。 113 00:05:29,830 --> 00:05:31,740 如果它不是你说这是 不合语法。 114 00:05:31,740 --> 00:05:35,150 >> 所以,在这种情况下,你会说,哦, 让您拥有一个庞大的所有列表 115 00:05:35,150 --> 00:05:36,140 可能的句子。 116 00:05:36,140 --> 00:05:38,240 然后,当你听到一个句子, 你知道它的语法或 117 00:05:38,240 --> 00:05:39,450 不基于这一点。 118 00:05:39,450 --> 00:05:42,360 问题是,如果你看一下 一个句子,例如“该 119 00:05:42,360 --> 00:05:47,540 五头CS50转录因子煮熟的盲 使用DAPA杯章鱼。“这是 120 00:05:47,540 --> 00:05:49,630 绝对不是一句 你听说过。 121 00:05:49,630 --> 00:05:52,380 但在同一时间,你知道这是 相当多的语法,对不对? 122 00:05:52,380 --> 00:05:55,570 有没有语法错误 你可以说, 123 00:05:55,570 --> 00:05:57,020 这是一个可能的句子。 124 00:05:57,020 --> 00:06:01,300 >> 因此,它使我们觉得实际上是 这样,我们学习语言不仅是 125 00:06:01,300 --> 00:06:07,090 由具有巨大的可能的数据库 词或句子,但更多的 126 00:06:07,090 --> 00:06:11,490 理解的关系 也就是说在那些句子。 127 00:06:11,490 --> 00:06:14,570 这是否有道理? 128 00:06:14,570 --> 00:06:19,370 因此,接下来的问题是,能 电脑学习语言? 129 00:06:19,370 --> 00:06:21,490 我们可以教语言的计算机? 130 00:06:21,490 --> 00:06:24,230 >> 所以,让我们想到的差异 一种语言的母语之间 131 00:06:24,230 --> 00:06:25,460 和一台计算机。 132 00:06:25,460 --> 00:06:27,340 那么,究竟发生了扬声器? 133 00:06:27,340 --> 00:06:30,430 那么,母语学习一 从接触到它的语言。 134 00:06:30,430 --> 00:06:34,200 通常早期的童年岁月。 135 00:06:34,200 --> 00:06:38,570 所以,基本上,你只要有一个孩子, 你一直说要它,它 136 00:06:38,570 --> 00:06:40,540 刚刚学会如何说话 语言,对不对? 137 00:06:40,540 --> 00:06:42,660 所以,你基本上放弃 输入到婴儿。 138 00:06:42,660 --> 00:06:45,200 这样,那么你可以说,一台电脑 可以做同样的事情,对不对? 139 00:06:45,200 --> 00:06:49,510 你可以只给语言 作为输入到计算机中。 140 00:06:49,510 --> 00:06:53,410 >> 作为例子一堆文件 有英语书籍。 141 00:06:53,410 --> 00:06:56,190 也许这是一种方式,你 也可能教 142 00:06:56,190 --> 00:06:57,850 计算机英语,对不对? 143 00:06:57,850 --> 00:07:01,000 而事实上,如果你仔细想想, 它需要你,也许一对夫妇 144 00:07:01,000 --> 00:07:02,680 天读一本书。 145 00:07:02,680 --> 00:07:05,760 对于一台电脑需要一秒钟 看着一本书的所有单词。 146 00:07:05,760 --> 00:07:10,810 所以,你可以认为这或许正是这 从你周围的输入参数, 147 00:07:10,810 --> 00:07:15,440 这还不够,说这是 东西,只有人类可以做到的。 148 00:07:15,440 --> 00:07:17,680 你能想到的电脑 还可以得到输入。 149 00:07:17,680 --> 00:07:21,170 >> 第二件事是,母语 也有大脑,有 150 00:07:21,170 --> 00:07:23,870 语言学习能力。 151 00:07:23,870 --> 00:07:27,020 但是,如果你仔细想想, 大脑是一个坚实的事情。 152 00:07:27,020 --> 00:07:30,450 当你出生时,它已经被设置 - 153 00:07:30,450 --> 00:07:31,320 这是你的大脑。 154 00:07:31,320 --> 00:07:34,660 而当你长大了,你只会得到更多的 语言的输入,也许营养素 155 00:07:34,660 --> 00:07:35,960 和其他的东西。 156 00:07:35,960 --> 00:07:38,170 但几乎你的大脑 是一个坚实的事情。 157 00:07:38,170 --> 00:07:41,290 >> 所以,你可以说,好吧,也许你可以 构建有一堆电脑 158 00:07:41,290 --> 00:07:45,890 功能和刚模仿方法 语言学习能力。 159 00:07:45,890 --> 00:07:49,630 所以在这个意义上,你可以说,好,我 能有一个具有所有电脑 160 00:07:49,630 --> 00:07:52,270 事情我需要学习的语言。 161 00:07:52,270 --> 00:07:56,200 而最后一件事情是,原生 扬声器学会从试验和错误。 162 00:07:56,200 --> 00:08:01,090 在所以基本上另一个重要的事情 语言的学习是你那种 163 00:08:01,090 --> 00:08:05,340 通过使学习的东西 你所听到的概括。 164 00:08:05,340 --> 00:08:10,280 >> 所以当你在成长过程中你学到了 有些话更像是名词, 165 00:08:10,280 --> 00:08:11,820 一些其他的都是形容词。 166 00:08:11,820 --> 00:08:14,250 而且你不必有任何 语言学知识 167 00:08:14,250 --> 00:08:15,040 要理解这一点。 168 00:08:15,040 --> 00:08:18,560 但你只是知道有一些单词 被定位在的某些部分 169 00:08:18,560 --> 00:08:22,570 句子和其他一些人在其他 部分的句子。 170 00:08:22,570 --> 00:08:26,110 >> 并且,当你做的东西是 就像一个句子是不正确的 - 171 00:08:26,110 --> 00:08:28,770 也许是因为过度泛化 例如。 172 00:08:28,770 --> 00:08:32,210 也许当你长大了,你注意到 该复数通常是 173 00:08:32,210 --> 00:08:35,809 通过把一个S在形成 字的结尾。 174 00:08:35,809 --> 00:08:40,042 然后尝试做的复数 “鹿”为“鹿”或“牙”为 175 00:08:40,042 --> 00:08:44,780 “tooths。”这样的话你的父母或 有人纠正你,说,不, 176 00:08:44,780 --> 00:08:49,020 “鹿”的复数是“鹿”和 的“牙齿”复数是“牙齿”。进而 177 00:08:49,020 --> 00:08:50,060 你学那些东西。 178 00:08:50,060 --> 00:08:51,520 所以,如果你尝试和错误中学习。 179 00:08:51,520 --> 00:08:53,100 >> 但你也可以做到这一点 用一台计算机。 180 00:08:53,100 --> 00:08:55,310 你可以有一些所谓 强化学习。 181 00:08:55,310 --> 00:08:58,560 这基本上就像给一个 计算机时,它做了奖励 182 00:08:58,560 --> 00:08:59,410 正确的东西。 183 00:08:59,410 --> 00:09:04,710 并给它奖励的对面 当它做错了事。 184 00:09:04,710 --> 00:09:07,410 实际上,你可以看到,如果你走 到谷歌翻译,并试图 185 00:09:07,410 --> 00:09:10,220 翻译一个句子,它 要求您提供反馈意见。 186 00:09:10,220 --> 00:09:13,240 所以,如果你说,哦,还有更好的 翻译这句话。 187 00:09:13,240 --> 00:09:18,140 您可以键入它,然后如果有很多 人们一直说这是一个更好的 188 00:09:18,140 --> 00:09:21,560 翻译,它只是学习它 应使用的翻译,而不是 189 00:09:21,560 --> 00:09:22,960 一个它是给。 190 00:09:22,960 --> 00:09:28,830 >> 所以,这是一个非常哲学问题 看是否计算机都将是 191 00:09:28,830 --> 00:09:30,340 谈得来与否的未来。 192 00:09:30,340 --> 00:09:34,440 但我有很高的期望,他们可以 只是根据这些参数。 193 00:09:34,440 --> 00:09:38,570 但它只是更多的是一种哲学 问题。 194 00:09:38,570 --> 00:09:43,460 >> 因此,尽管电脑仍无法说话, 什么样的事情,我们可以做什么? 195 00:09:43,460 --> 00:09:47,070 一些非常酷的东西是 数据分类。 196 00:09:47,070 --> 00:09:53,210 因此,举例来说,你们知道 该电子邮件服务做的,为 197 00:09:53,210 --> 00:09:55,580 例如,垃圾邮件过滤。 198 00:09:55,580 --> 00:09:59,070 所以每当你收到垃圾邮件,它 试图筛选到另一个框。 199 00:09:59,070 --> 00:10:00,270 那么它是怎样做到这一点? 200 00:10:00,270 --> 00:10:06,080 它不象电脑才知道 什么电子邮件地址发送垃圾邮件。 201 00:10:06,080 --> 00:10:09,130 因此,它更是以内容 消息,或者标题,或 202 00:10:09,130 --> 00:10:11,310 也许你有一些图案。 203 00:10:11,310 --> 00:10:15,690 >> 所以,基本上,你所能做的就是得到一个 大量的电子邮件是垃圾邮件的数据, 204 00:10:15,690 --> 00:10:19,980 邮件是不是垃圾邮件,并了解 样的模式,你必须在 205 00:10:19,980 --> 00:10:21,000 那些是垃圾邮件。 206 00:10:21,000 --> 00:10:23,260 这是计算的一部分 语言学。 207 00:10:23,260 --> 00:10:24,720 这就是所谓的数据分类。 208 00:10:24,720 --> 00:10:28,100 而我们实际上将看到一个 例如,在接下来的幻灯片。 209 00:10:28,100 --> 00:10:32,910 >> 第二件事是自然语言 处理这是事情的 210 00:10:32,910 --> 00:10:36,580 图搜索是做又让 你写一个句子。 211 00:10:36,580 --> 00:10:38,690 它相信你明白 的含义,并给出 212 00:10:38,690 --> 00:10:39,940 你一个更好的结果。 213 00:10:39,940 --> 00:10:43,880 其实,如果你去谷歌或Bing 你搜索的东西像Lady 214 00:10:43,880 --> 00:10:47,060 Gaga的高度,你实际上会 得到5',而不是信息1“ 215 00:10:47,060 --> 00:10:50,170 从她的,因为它实际上理解 你在说什么。 216 00:10:50,170 --> 00:10:52,140 所以这是自然的一部分, 语言处理。 217 00:10:52,140 --> 00:10:57,000 >> 或者也当你使用Siri的,第一 你有一个算法,试图 218 00:10:57,000 --> 00:11:01,130 翻译你在说什么 成文字,在文字。 219 00:11:01,130 --> 00:11:03,690 然后它会尝试翻译 到那个意思。 220 00:11:03,690 --> 00:11:06,570 所以这是所有自然的一部分 语言处理。 221 00:11:06,570 --> 00:11:08,320 >> 那么你有机器翻译 - 222 00:11:08,320 --> 00:11:10,300 这实际上是1 我的最爱 - 223 00:11:10,300 --> 00:11:14,060 这是刚刚从翻译 一种语言到另一种。 224 00:11:14,060 --> 00:11:17,950 所以,你可以认为,当你正在做的 机器翻译,你有 225 00:11:17,950 --> 00:11:19,750 句子的无限可能性。 226 00:11:19,750 --> 00:11:22,960 因此,有没有办法只存储 每一个翻译。 227 00:11:22,960 --> 00:11:27,440 所以,你必须想出有趣 算法能够 228 00:11:27,440 --> 00:11:30,110 翻译每一个 句子以某种方式。 229 00:11:30,110 --> 00:11:32,483 >> 你们有什么问题这么远吗? 230 00:11:32,483 --> 00:11:34,450 没有? 231 00:11:34,450 --> 00:11:34,830 确定。 232 00:11:34,830 --> 00:11:36,900 >> 那么,我们要看到今天? 233 00:11:36,900 --> 00:11:39,300 首先,我要说说 分类问题。 234 00:11:39,300 --> 00:11:41,440 这样一说我是 说关于垃圾邮件。 235 00:11:41,440 --> 00:11:46,820 我什么都做的是,给定的歌词 一首歌,你可以揣摩 236 00:11:46,820 --> 00:11:49,810 以高概率 谁是歌手? 237 00:11:49,810 --> 00:11:53,590 比方说,我从夫人的歌 Gaga和Katy Perry的,如果我给你一个 238 00:11:53,590 --> 00:11:58,130 新的歌曲,你可以计算出,如果 这是凯蒂·佩里还是Lady Gaga的? 239 00:11:58,130 --> 00:12:01,490 >> 第二个,我只是要谈 关于分割问题。 240 00:12:01,490 --> 00:12:05,780 所以,我不知道,如果你们知道,但 中国,日本,其他东亚 241 00:12:05,780 --> 00:12:08,090 语言和其它语言 在一般情况下,不必 242 00:12:08,090 --> 00:12:09,830 单词之间的空格。 243 00:12:09,830 --> 00:12:13,540 然后,如果你想的方式, 你的电脑亲切的尝试,以 244 00:12:13,540 --> 00:12:18,600 理解自然语言处理, 它着眼于单词和 245 00:12:18,600 --> 00:12:21,500 试图了解关系 他们之间,对不对? 246 00:12:21,500 --> 00:12:25,440 但是,如果你有中国人,你 具有零位,这真的很难 247 00:12:25,440 --> 00:12:28,360 搞清楚什么是之间的关系 也就是说,因为它们不具有任何 248 00:12:28,360 --> 00:12:29,530 也就是说在第一。 249 00:12:29,530 --> 00:12:32,600 所以,你必须做一些所谓的 分割这只是意味着把 250 00:12:32,600 --> 00:12:36,490 我们所说的空间 也就是说在这些语言。 251 00:12:36,490 --> 00:12:37,740 有意义吗? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> 然后我们要 说说语法。 254 00:12:41,540 --> 00:12:44,050 关于自然的,因此只是一点点 语言处理。 255 00:12:44,050 --> 00:12:45,420 这将只是一个概述。 256 00:12:45,420 --> 00:12:50,700 所以今天,基本上是我想要做的 是给你们的一点点 257 00:12:50,700 --> 00:12:53,930 什么是内部的可能性 你可以用做计算 258 00:12:53,930 --> 00:12:54,960 语言学。 259 00:12:54,960 --> 00:13:00,410 然后你就可以看到你的想法 凉爽的那些东西。 260 00:13:00,410 --> 00:13:02,270 也许你能想到的一个项目 和来跟我说话。 261 00:13:02,270 --> 00:13:05,260 我可以给你建议 关于如何实现它。 262 00:13:05,260 --> 00:13:09,060 >> 所以语法将是一点点 关于图搜索和机器 263 00:13:09,060 --> 00:13:09,670 翻译。 264 00:13:09,670 --> 00:13:13,650 我只是想给怎样一个例子 你可以,例如,翻译 265 00:13:13,650 --> 00:13:16,020 从东西到葡萄牙语英语。 266 00:13:16,020 --> 00:13:17,830 听起来不错? 267 00:13:17,830 --> 00:13:19,293 >> 因此,首先,在分类问题。 268 00:13:19,293 --> 00:13:23,590 我会说,这部分研讨会 将是最具挑战性的 269 00:13:23,590 --> 00:13:27,560 一个只因为那里是怎么回事 是一些编码。 270 00:13:27,560 --> 00:13:29,470 但它的将是Python的。 271 00:13:29,470 --> 00:13:34,380 我知道你们不知道的Python,所以 我只是要对高解释 272 00:13:34,380 --> 00:13:35,750 平我在做什么。 273 00:13:35,750 --> 00:13:40,900 而你没有真正在乎过 很多关于语法,因为这是 274 00:13:40,900 --> 00:13:42,140 东西你们可以学习。 275 00:13:42,140 --> 00:13:42,540 好不好? 276 00:13:42,540 --> 00:13:43,580 听起来不错。 277 00:13:43,580 --> 00:13:46,020 >> 那么什么是分类问题? 278 00:13:46,020 --> 00:13:49,140 所以,你给一些歌词 一首歌曲,你要猜 279 00:13:49,140 --> 00:13:50,620 谁在唱。 280 00:13:50,620 --> 00:13:54,045 这可以是任何类型的 的其他问题。 281 00:13:54,045 --> 00:13:59,980 所以可以,例如,你有一个 总统竞选和你有一个 282 00:13:59,980 --> 00:14:02,610 讲话,你想找到 出,如果它是,例如, 283 00:14:02,610 --> 00:14:04,470 奥巴马或罗姆尼。 284 00:14:04,470 --> 00:14:07,700 或者你可以有一大堆的电子邮件和 你要搞清楚,如果他们是 285 00:14:07,700 --> 00:14:08,890 垃圾邮件。 286 00:14:08,890 --> 00:14:11,440 所以它只是一些分类 基于该字的数据 287 00:14:11,440 --> 00:14:13,790 你有没有。 288 00:14:13,790 --> 00:14:16,295 >> 因此,要做到这一点,你必须 做一些假设。 289 00:14:16,295 --> 00:14:20,570 所以很多关于计算语言学 正在假设, 290 00:14:20,570 --> 00:14:24,100 通常聪明的假设,从而使 你可以得到很好的效果。 291 00:14:24,100 --> 00:14:26,670 试图建立一个模型了。 292 00:14:26,670 --> 00:14:31,290 然后再尝试一下,看看它是否工作, 如果它给你很好的精度。 293 00:14:31,290 --> 00:14:33,940 如果确实如此,那么你 尝试改善它。 294 00:14:33,940 --> 00:14:37,640 如果没有,你肯定在想:好吧,也许我 应该做出不同的假设。 295 00:14:37,640 --> 00:14:44,030 >> 让我们将假设 提出的是一个艺术家通常唱 296 00:14:44,030 --> 00:14:49,220 的一个话题多次,也许 使用的话多次刚 297 00:14:49,220 --> 00:14:50,270 因为他们已经习惯了它。 298 00:14:50,270 --> 00:14:51,890 你可以认为你的朋友的。 299 00:14:51,890 --> 00:14:57,350 我敢肯定,你们都有朋友 那说,他们的签名短语, 300 00:14:57,350 --> 00:14:59,260 从字面上每一个句子 - 301 00:14:59,260 --> 00:15:02,660 像一些特定的词或某些特定 短语,他们说的 302 00:15:02,660 --> 00:15:04,020 每一个句子。 303 00:15:04,020 --> 00:15:07,920 >> 什么可以说的是,如果你看 一个句子,有一个签名 304 00:15:07,920 --> 00:15:11,450 词组,你可以猜测,大概 你的朋友是 305 00:15:11,450 --> 00:15:13,310 有一句话说,对不对? 306 00:15:13,310 --> 00:15:18,410 所以,你做这样的假设,然后 这就是你如何创建一个模型。 307 00:15:18,410 --> 00:15:24,440 >> 那我要举的例子是 如何Lady Gaga的,例如,人 308 00:15:24,440 --> 00:15:27,430 说,她使用“宝贝”的 她所有的头号歌曲。 309 00:15:27,430 --> 00:15:32,270 而实际上,这是一个视频,显示 她说这个词“宝贝”的 310 00:15:32,270 --> 00:15:33,410 不同的歌曲。 311 00:15:33,410 --> 00:15:33,860 >> [视频回放] 312 00:15:33,860 --> 00:15:34,310 >> - (唱)婴儿。 313 00:15:34,310 --> 00:15:36,220 宝贝。 314 00:15:36,220 --> 00:15:37,086 宝贝。 315 00:15:37,086 --> 00:15:37,520 宝贝。 316 00:15:37,520 --> 00:15:37,770 宝贝。 317 00:15:37,770 --> 00:15:38,822 贝贝。 318 00:15:38,822 --> 00:15:39,243 宝贝。 319 00:15:39,243 --> 00:15:40,085 宝贝。 320 00:15:40,085 --> 00:15:40,510 宝贝。 321 00:15:40,510 --> 00:15:40,850 宝贝。 322 00:15:40,850 --> 00:15:41,090 >> [完录像回放 - 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS:所以有,我认为, 40首歌曲在这里,她说, 324 00:15:44,020 --> 00:15:48,690 词“宝贝”。所以,你基本上可以猜到 如果你看到一首歌,有 325 00:15:48,690 --> 00:15:52,180 单词“宝宝”有一些高 概率,它是Lady Gaga的。 326 00:15:52,180 --> 00:15:56,450 但是,让我们尝试开发这样 进一步更正式。 327 00:15:56,450 --> 00:16:00,470 >> 所以这些都是歌词歌曲 Lady Gaga和Katy Perry的。 328 00:16:00,470 --> 00:16:04,120 所以,你看Lady Gaga的,你看他们 有很多事件的“宝贝”,一 329 00:16:04,120 --> 00:16:07,710 大量出现的“方式”。进而 凯蒂·佩里有很多事件的发生 330 00:16:07,710 --> 00:16:10,360 “对,”很多事件的发生“火灾”。 331 00:16:10,360 --> 00:16:14,560 >> 所以基本上我们想要 做的是,你会得到一首抒情诗。 332 00:16:14,560 --> 00:16:20,480 比方说,你会得到一个抒情的 歌曲是“宝贝”,只是“宝贝”。如果 333 00:16:20,480 --> 00:16:24,750 你刚刚得到了这个词“宝贝”,这 是你的所有,从数据 334 00:16:24,750 --> 00:16:27,880 Lady Gaga和凯蒂·佩里,谁也 你猜是人 335 00:16:27,880 --> 00:16:29,370 是谁唱这首歌? 336 00:16:29,370 --> 00:16:32,360 Lady Gaga的还是凯蒂·佩里? 337 00:16:32,360 --> 00:16:33,150 Lady Gaga的,对不对? 338 00:16:33,150 --> 00:16:37,400 因为她是唯一一个说谁 “宝贝”。这听起来很愚蠢,对吧? 339 00:16:37,400 --> 00:16:38,760 OK,这是很容易的。 340 00:16:38,760 --> 00:16:41,860 我只是在看的两首歌曲,并 当然,她是谁的唯一 341 00:16:41,860 --> 00:16:42,660 “宝贝”。 342 00:16:42,660 --> 00:16:44,740 >> 但是,如果你有一堆话? 343 00:16:44,740 --> 00:16:50,900 如果你有一个实际的歌词,东西 一样,“宝贝,我只是 344 00:16:50,900 --> 00:16:51,610 去看了[? CFT?] 345 00:16:51,610 --> 00:16:54,020 讲座“,或者类似的东西,和 那么你实际上必须弄清楚 - 346 00:16:54,020 --> 00:16:55,780 基于所有这些话 - 347 00:16:55,780 --> 00:16:58,350 谁是谁的艺术家可能 唱这首歌? 348 00:16:58,350 --> 00:17:01,860 所以让我们尝试开发 这远一点。 349 00:17:01,860 --> 00:17:05,630 >> 好了,根据刚刚的数据,我们 得到了,似乎加加可能是 350 00:17:05,630 --> 00:17:06,260 歌手。 351 00:17:06,260 --> 00:17:07,904 但如何才能写 这更正式? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 并有将是一个小 统计位。 354 00:17:13,140 --> 00:17:15,880 所以,如果你迷路了,只要尝试 要理解这个概念。 355 00:17:15,880 --> 00:17:18,700 如果你理解不要紧, 方程非常清楚。 356 00:17:18,700 --> 00:17:22,150 这是所有要上线了。 357 00:17:22,150 --> 00:17:25,490 >> 所以基本上就是我计算的是 概率,这首歌是由 358 00:17:25,490 --> 00:17:28,040 Lady Gaga的因为 - 359 00:17:28,040 --> 00:17:30,660 所以这条表示因为 - 360 00:17:30,660 --> 00:17:33,680 我看到这个词“宝贝”。 这是否有道理? 361 00:17:33,680 --> 00:17:35,540 所以我试图计算 这种可能性。 362 00:17:35,540 --> 00:17:38,540 >> 所以有这个定理称为 贝叶斯定理是说, 363 00:17:38,540 --> 00:17:43,330 一个给定的B的概率,是 乙的概率给出A,倍 364 00:17:43,330 --> 00:17:47,660 概率A的,超过的概率 B.这是一个长期的方程。 365 00:17:47,660 --> 00:17:51,970 但是,你有什么从理解 这是,这是我想要的 366 00:17:51,970 --> 00:17:52,830 计算,对不对? 367 00:17:52,830 --> 00:17:56,570 让这首歌是由概率 Lady Gaga的因为我看到这个词 368 00:17:56,570 --> 00:17:58,230 “宝贝”。 369 00:17:58,230 --> 00:18:02,960 >> 现在有什么我得到的是 单词“宝贝”的概率给出 370 00:18:02,960 --> 00:18:04,390 我有Lady Gaga的。 371 00:18:04,390 --> 00:18:07,220 什么是基本? 372 00:18:07,220 --> 00:18:10,500 这也就意味着,有什么 看到这个词“宝贝”的概率 373 00:18:10,500 --> 00:18:12,130 在Gaga的歌词? 374 00:18:12,130 --> 00:18:16,240 如果我想计算出在一个非常 简单的方法,它只是数 375 00:18:16,240 --> 00:18:23,640 次我看到“宝贝”在总数 在加加歌词的话,对不对? 376 00:18:23,640 --> 00:18:27,600 什么是我看到的频率 在Gaga的工作这个词? 377 00:18:27,600 --> 00:18:30,530 有意义吗? 378 00:18:30,530 --> 00:18:33,420 >> 第二项是 概率加加。 379 00:18:33,420 --> 00:18:34,360 这是什么意思? 380 00:18:34,360 --> 00:18:38,550 这基本上意味着,请问是什么 分类的概率 381 00:18:38,550 --> 00:18:40,690 有些歌词加加? 382 00:18:40,690 --> 00:18:45,320 那就是很怪,但 让我们想到的一个例子。 383 00:18:45,320 --> 00:18:49,230 因此,让我们说的概率 在一首歌曲有“宝贝”是一样的 384 00:18:49,230 --> 00:18:51,760 对于Gaga和布兰妮斯皮尔斯。 385 00:18:51,760 --> 00:18:54,950 但布兰妮斯皮尔斯有两次 比Lady Gaga的多首歌曲。 386 00:18:54,950 --> 00:19:00,570 因此,如果有人只是随机给你 “宝贝”的第一件事歌词你 387 00:19:00,570 --> 00:19:04,710 看的是,什么是概率 在Gaga的歌曲有“宝贝”,“宝贝” 388 00:19:04,710 --> 00:19:05,410 在布兰妮的歌? 389 00:19:05,410 --> 00:19:06,460 它是同样的事情。 390 00:19:06,460 --> 00:19:10,040 >> 所以,你会看到的第二件事情是, 那么,什么是概率 391 00:19:10,040 --> 00:19:13,770 这歌词本身是一个Gaga的歌词, 是什么的概率 392 00:19:13,770 --> 00:19:15,380 作为布兰妮的歌词? 393 00:19:15,380 --> 00:19:18,950 所以自从布兰妮有那么多的歌词 比加加,你可能会 394 00:19:18,950 --> 00:19:21,470 比方说,好了,这可能是 布兰妮的歌词。 395 00:19:21,470 --> 00:19:23,340 所以这就是为什么我们有这个 该词在这里。 396 00:19:23,340 --> 00:19:24,670 概率加加。 397 00:19:24,670 --> 00:19:26,950 有道理? 398 00:19:26,950 --> 00:19:28,660 不是吗? 399 00:19:28,660 --> 00:19:29,370 确定。 400 00:19:29,370 --> 00:19:33,500 >> 和最后一个是刚才的概率 “婴儿”的不 401 00:19:33,500 --> 00:19:34,810 真正的问题那么多。 402 00:19:34,810 --> 00:19:39,940 但它的概率 看到“宝贝”的英文。 403 00:19:39,940 --> 00:19:42,725 我们通常不关心 很多关于这个词。 404 00:19:42,725 --> 00:19:44,490 这是否有道理? 405 00:19:44,490 --> 00:19:48,110 所以加加的概率是 称为先验概率 406 00:19:48,110 --> 00:19:49,530 之类的加加。 407 00:19:49,530 --> 00:19:53,840 因为它只是意味着,请问是什么 有那个类的概率 - 408 00:19:53,840 --> 00:19:55,520 这是加加 - 409 00:19:55,520 --> 00:19:59,350 只是在一般情况下,刚 没有条件。 410 00:19:59,350 --> 00:20:02,560 >> 然后当我有概率 加加给“宝贝”,我们把它叫做加 411 00:20:02,560 --> 00:20:06,160 流泪的概率,因为它是 具有的概率 412 00:20:06,160 --> 00:20:08,300 加加给出了一些证据。 413 00:20:08,300 --> 00:20:11,050 所以我给你证据 我看到这个词的婴儿和 414 00:20:11,050 --> 00:20:12,690 这首歌有意义吗? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 确定。 417 00:20:16,410 --> 00:20:22,400 >> 所以,如果我计算过,每个 该歌曲的Lady Gaga, 418 00:20:22,400 --> 00:20:25,916 是什么将是 - 419 00:20:25,916 --> 00:20:27,730 显然,我不能动了。 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 加加的概率将是 类似,在2 24,次数的1/2, 422 00:20:36,920 --> 00:20:38,260 在2比53。 423 00:20:38,260 --> 00:20:40,640 如果你知道它什么都无所谓 这些数字的来源。 424 00:20:40,640 --> 00:20:44,750 但它只是一个数字,是怎么回事 为大于0,对不对? 425 00:20:44,750 --> 00:20:48,610 >> 然后当我做凯蒂·佩里,该 “宝宝”的概率给出卡提现 426 00:20:48,610 --> 00:20:49,830 已经为0,对不对? 427 00:20:49,830 --> 00:20:52,820 因为没有“宝贝” 在凯蒂·佩里。 428 00:20:52,820 --> 00:20:56,360 是这样,那么这变成0,并且加加 胜,这意味着Gaga是 429 00:20:56,360 --> 00:20:57,310 大概是歌手。 430 00:20:57,310 --> 00:20:58,560 这是否有道理? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 确定。 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> 所以,如果我想使这个更正式, 我其实可以做一个模型 435 00:21:11,750 --> 00:21:12,700 多个单词。 436 00:21:12,700 --> 00:21:14,610 因此,让我们说我有话 一样,“宝贝,我 437 00:21:14,610 --> 00:21:16,030 着火了,“什么的。 438 00:21:16,030 --> 00:21:17,760 因此,它具有多个单词。 439 00:21:17,760 --> 00:21:20,880 在这种情况下,你可以看到 这“宝贝”是加加, 440 00:21:20,880 --> 00:21:21,710 但它不是在凯蒂。 441 00:21:21,710 --> 00:21:24,940 与“火”是凯蒂,但 它不是在Gaga的,对不对? 442 00:21:24,940 --> 00:21:27,200 因此,它变得棘手,对吧? 443 00:21:27,200 --> 00:21:31,440 因为它似乎,你几乎 有两者之间的领带。 444 00:21:31,440 --> 00:21:36,980 >> 所以你要做的就是承担 独立性的话之一。 445 00:21:36,980 --> 00:21:41,210 所以基本上这是什么意思是, 我只是计算是什么 446 00:21:41,210 --> 00:21:44,330 看到的概率“宝贝”,什么是 看到的可能性“我”和 447 00:21:44,330 --> 00:21:46,670 “是”和“上”和“火” 所有独立。 448 00:21:46,670 --> 00:21:48,670 然后我乘他们。 449 00:21:48,670 --> 00:21:52,420 而我看​​到的是概率 的看到整个句子。 450 00:21:52,420 --> 00:21:55,210 有意义吗? 451 00:21:55,210 --> 00:22:00,270 >> 所以基本上,如果我只有一个字, 我想要找的是阿根廷最大, 452 00:22:00,270 --> 00:22:05,385 这意味着,那是什么是类 给我最高的概率是多少? 453 00:22:05,385 --> 00:22:10,010 那么,什么是给类 我的最高概率 454 00:22:10,010 --> 00:22:11,940 类的概率给定的单词。 455 00:22:11,940 --> 00:22:17,610 因此,在这种情况下,给予加加“宝贝”。 或凯蒂给“宝贝”。有意义吗? 456 00:22:17,610 --> 00:22:21,040 >> 而刚刚从贝叶斯,那 方程式我发现, 457 00:22:21,040 --> 00:22:24,780 我们创建这个分数。 458 00:22:24,780 --> 00:22:28,750 唯一的一点是,你看到 字中给出的概率 459 00:22:28,750 --> 00:22:31,370 根据班级的变化 在类的吧? 460 00:22:31,370 --> 00:22:34,260 的“宝贝”s表示我有多少 在Gaga是从凯蒂不同。 461 00:22:34,260 --> 00:22:37,640 类的概率也 的变化,因为它只是数 462 00:22:37,640 --> 00:22:39,740 歌曲他们每个人都有。 463 00:22:39,740 --> 00:22:43,980 >> 但这个词本身的概率 将是相同的所有的 464 00:22:43,980 --> 00:22:44,740 艺术家,对不对? 465 00:22:44,740 --> 00:22:47,150 这样的单词的概率是 只是,什么是概率 466 00:22:47,150 --> 00:22:49,820 看到在这个词 英语? 467 00:22:49,820 --> 00:22:51,420 因此,它是相同的所有的人。 468 00:22:51,420 --> 00:22:55,790 所以,因为这是不变的,我们可以只 下降的,根本没有在意它。 469 00:22:55,790 --> 00:23:00,230 因此,这将是真正的 方程我们正在寻找。 470 00:23:00,230 --> 00:23:03,360 >> 如果我有多个的话,我 仍然会有事先 471 00:23:03,360 --> 00:23:04,610 概率在这里。 472 00:23:04,610 --> 00:23:06,980 唯一的一点是,我乘 的概率 473 00:23:06,980 --> 00:23:08,490 所有其他的话。 474 00:23:08,490 --> 00:23:10,110 所以我乘他们。 475 00:23:10,110 --> 00:23:12,610 有意义吗? 476 00:23:12,610 --> 00:23:18,440 它看起来很奇怪,但基本上意味着, 计算前的类,并 477 00:23:18,440 --> 00:23:22,100 然后由每个的概率相乘 在这个类是的话。 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> 而且你知道的概率 给定一类字将是对 480 00:23:29,150 --> 00:23:34,520 你看到这个词次数 该类别,由数除以 481 00:23:34,520 --> 00:23:37,020 也就是说你必须在这 类一般。 482 00:23:37,020 --> 00:23:37,990 有意义吗? 483 00:23:37,990 --> 00:23:41,680 这是在多么“宝贝”是2 字的数目是 484 00:23:41,680 --> 00:23:43,020 我在歌词中。 485 00:23:43,020 --> 00:23:45,130 因此,只要频率。 486 00:23:45,130 --> 00:23:46,260 >> 但有一件事。 487 00:23:46,260 --> 00:23:51,250 还记得我是怎么显示的 的“宝贝”是概率的歌词 488 00:23:51,250 --> 00:23:56,350 从凯蒂·佩里为0,只是因为凯蒂 佩里并没有在所有有“宝贝”? 489 00:23:56,350 --> 00:24:04,900 但它听起来有点刺耳,只是 简单地说,歌词不能从 490 00:24:04,900 --> 00:24:10,040 只是因为它们没有一个艺术家 该单词在特定随时。 491 00:24:10,040 --> 00:24:13,330 >> 所以你可以只说,好吧,如果你 没有这个字,我要去 492 00:24:13,330 --> 00:24:15,640 给你一个较低的概率, 但我只是不打算 493 00:24:15,640 --> 00:24:17,420 给你0的时候了。 494 00:24:17,420 --> 00:24:21,040 因为也许是类似, “火,火,火,火,”这是 495 00:24:21,040 --> 00:24:21,990 完全凯蒂·佩里。 496 00:24:21,990 --> 00:24:26,060 然后“宝贝”,它只是去 0的时候了,因为有一个 497 00:24:26,060 --> 00:24:27,250 “宝贝”。 498 00:24:27,250 --> 00:24:31,440 >> 所以基本上我们做的是什么 所谓的拉普拉斯平滑。 499 00:24:31,440 --> 00:24:36,260 这只是意味着我放弃 有些甚至可能的话 500 00:24:36,260 --> 00:24:37,850 不存在的。 501 00:24:37,850 --> 00:24:43,170 因此,我要做的是,当我 计算这个,我总是加1 502 00:24:43,170 --> 00:24:44,180 分子中。 503 00:24:44,180 --> 00:24:48,060 所以即使单词不存在,在 这种情况下,如果是0,我还是 504 00:24:48,060 --> 00:24:51,250 计算此为1比 单词总数。 505 00:24:51,250 --> 00:24:55,060 否则,我得到多少个字 我已经和我加1。 506 00:24:55,060 --> 00:24:58,300 所以我就指望这两种情况。 507 00:24:58,300 --> 00:25:00,430 有意义吗? 508 00:25:00,430 --> 00:25:03,060 >> 所以,现在让我们做一些编码。 509 00:25:03,060 --> 00:25:06,440 我将不得不这样做相当快, 但它只是重要的是你 510 00:25:06,440 --> 00:25:08,600 人理解的概念。 511 00:25:08,600 --> 00:25:13,450 所以,我们正在试图做的 也正是实施这一 512 00:25:13,450 --> 00:25:14,330 的事情,我只是说 - 513 00:25:14,330 --> 00:25:19,110 我希望你把歌词从 Lady Gaga和Katy Perry的。 514 00:25:19,110 --> 00:25:22,980 和节目是要能够 说,如果这些新的歌词是从加加 515 00:25:22,980 --> 00:25:24,170 或凯蒂·佩里。 516 00:25:24,170 --> 00:25:25,800 有意义吗? 517 00:25:25,800 --> 00:25:27,530 确定。 518 00:25:27,530 --> 00:25:30,710 >> 所以,我有这个计划我要去 打电话classify.py。 519 00:25:30,710 --> 00:25:31,970 所以这是Python的。 520 00:25:31,970 --> 00:25:34,210 这是一种新的编程语言。 521 00:25:34,210 --> 00:25:38,020 它是在某些非常相似 方式到C和PHP。 522 00:25:38,020 --> 00:25:43,180 这是类似的,因为如果你想 明知℃之后学习Python,它的 523 00:25:43,180 --> 00:25:46,270 真的没有那么多的挑战 只是因为Python是容易得多 524 00:25:46,270 --> 00:25:47,520 比C,首先。 525 00:25:47,520 --> 00:25:49,370 和很多东西都已经 实现你。 526 00:25:49,370 --> 00:25:56,820 那么究竟像PHP有函数 排序的列表,或是添加一些东西 527 00:25:56,820 --> 00:25:58,780 到一个数组,或者胡说,胡说,胡说。 528 00:25:58,780 --> 00:26:00,690 Python有所有这些为好。 529 00:26:00,690 --> 00:26:05,960 >> 所以我只是要迅速解释 我们如何能做到分类 530 00:26:05,960 --> 00:26:07,860 问题在这里。 531 00:26:07,860 --> 00:26:13,230 所以我们可以说,在这种情况下,我有 从Gaga和Katy Perry的歌词。 532 00:26:13,230 --> 00:26:21,880 我有那些歌词的方式是, 歌词的第一个字是 533 00:26:21,880 --> 00:26:25,250 艺术家的名字,以及 剩下的就是歌词。 534 00:26:25,250 --> 00:26:29,470 所以我们可以说,我在这个名单 其中第一个是歌词由加加。 535 00:26:29,470 --> 00:26:31,930 所以在这里,我在正确的轨道。 536 00:26:31,930 --> 00:26:35,270 而下一个是凯蒂和 它也有歌词。 537 00:26:35,270 --> 00:26:38,040 >> 所以,你这是怎么声明 在Python中的变量。 538 00:26:38,040 --> 00:26:40,200 你不必给的数据类型。 539 00:26:40,200 --> 00:26:43,150 你只写“的歌词,” 那种喜欢在PHP。 540 00:26:43,150 --> 00:26:44,890 有意义吗? 541 00:26:44,890 --> 00:26:47,770 >> 那么,什么是我的事 计算,以便能够计算出 542 00:26:47,770 --> 00:26:49,360 概率? 543 00:26:49,360 --> 00:26:55,110 我要计算“先验” 每一个不同的 544 00:26:55,110 --> 00:26:56,710 类,我有。 545 00:26:56,710 --> 00:27:06,680 我要计算“后验” 或相当多的概率 546 00:27:06,680 --> 00:27:12,150 每一个不同的词 我可以为每个艺术家。 547 00:27:12,150 --> 00:27:17,210 所以在加加,例如,我要去 到有多少次我看到一个列表 548 00:27:17,210 --> 00:27:19,250 每个单词。 549 00:27:19,250 --> 00:27:20,760 有意义吗? 550 00:27:20,760 --> 00:27:25,370 >> 最后,我只是有一个 列表被称为“字”,也就是刚准备 551 00:27:25,370 --> 00:27:29,780 有多少字我 为每个艺术家。 552 00:27:29,780 --> 00:27:33,760 因此,对于加加,例如,当我看 的歌词,我,我想,24 553 00:27:33,760 --> 00:27:34,750 字总。 554 00:27:34,750 --> 00:27:38,970 所以这个列表只是将不得不 加加24,和Katy另一个号码。 555 00:27:38,970 --> 00:27:40,130 有意义吗? 556 00:27:40,130 --> 00:27:40,560 确定。 557 00:27:40,560 --> 00:27:42,530 >> 所以,现在,居然,让我们 去编码。 558 00:27:42,530 --> 00:27:45,270 所以在Python中,你实际上可以 返回一堆不同 559 00:27:45,270 --> 00:27:46,630 活动从一个函数。 560 00:27:46,630 --> 00:27:50,810 所以我打算创造这个功能 称为“有条件的”,这是打算 561 00:27:50,810 --> 00:27:53,890 返回所有这些事情时, “先验”的“概率”,并 562 00:27:53,890 --> 00:28:05,690 “字样。”因此,“有条件的”,它是 将要调入“的歌词。” 563 00:28:05,690 --> 00:28:11,510 >> 所以,现在我要你真正 写这个函数。 564 00:28:11,510 --> 00:28:17,750 所以,我可以写这个的方式 功能是我刚才定义这 565 00:28:17,750 --> 00:28:20,620 功能与“高清”。所以我做了“高清 有条件的,“和它的服用 566 00:28:20,620 --> 00:28:28,700 “的歌词。”以及这是要干什么 是,首先,我有我的先验 567 00:28:28,700 --> 00:28:31,030 我想计算。 568 00:28:31,030 --> 00:28:34,330 >> 这样我可以做到这一点的方法是创建 在Python中,字典的 569 00:28:34,330 --> 00:28:37,320 几乎是同样的事情作为一个哈希 表,或者它就像一个迭代 570 00:28:37,320 --> 00:28:40,480 数组在PHP。 571 00:28:40,480 --> 00:28:44,150 这是我声明一个字典。 572 00:28:44,150 --> 00:28:53,580 基本上这是什么意思是, 加加的先验概率是0.5,例如,如果 573 00:28:53,580 --> 00:28:57,200 歌词50%是由 加加,50%是由凯蒂。 574 00:28:57,200 --> 00:28:58,450 有意义吗? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 所以,我必须弄清楚如何 计算先验。 577 00:29:03,680 --> 00:29:07,120 >> 接下来的那些我必须做的,还可以, 是概率和单词。 578 00:29:07,120 --> 00:29:17,100 所以加加的概率是列表 所有的概率,我 579 00:29:17,100 --> 00:29:19,160 对每个单词为加加。 580 00:29:19,160 --> 00:29:23,880 所以,如果我去加加的概率 “宝贝”为例,它会给我 581 00:29:23,880 --> 00:29:28,750 像2比24在这种情况下。 582 00:29:28,750 --> 00:29:30,070 有意义吗? 583 00:29:30,070 --> 00:29:36,120 于是我去“概率”,进入 “加加”斗具有所有列表 584 00:29:36,120 --> 00:29:40,550 加加的话,那我去“宝贝” 而我看​​到的概率。 585 00:29:40,550 --> 00:29:45,940 >> 最后我有这个 “字”字典。 586 00:29:45,940 --> 00:29:53,620 所以在这里,“概率”。进而 “字样。”所以,如果我这样做“的话,”“嘎嘎,” 587 00:29:53,620 --> 00:29:58,330 什么将要发生的是它的 要给我24,说我 588 00:29:58,330 --> 00:30:01,990 有内Gaga的歌词24个字。 589 00:30:01,990 --> 00:30:04,110 有道理? 590 00:30:04,110 --> 00:30:07,070 所以在这里,“话”等于DAH-DAH-DAH。 591 00:30:07,070 --> 00:30:07,620 行 592 00:30:07,620 --> 00:30:12,210 >> 所以,我什么都做的是我要去 遍历每个歌词,所以 593 00:30:12,210 --> 00:30:14,490 每个串的那 我已经在列表中。 594 00:30:14,490 --> 00:30:18,040 我要去计算那些事 每个候选人。 595 00:30:18,040 --> 00:30:19,950 有道理? 596 00:30:19,950 --> 00:30:21,700 所以,我必须做一个for循环。 597 00:30:21,700 --> 00:30:26,300 >> 所以在Python中有什么我可以做的是“线路 在抒情诗。“同样的事,作为一个 598 00:30:26,300 --> 00:30:28,000 “为每一个”在PHP语句。 599 00:30:28,000 --> 00:30:33,420 记住我,如果它是PHP怎么可能 说“每个歌词 600 00:30:33,420 --> 00:30:35,220 线。“有道理? 601 00:30:35,220 --> 00:30:38,900 所以我每次走的线路,在这个 情况下,这个字符串和下一 602 00:30:38,900 --> 00:30:44,540 字符串,以便为每个什么我是线 要做的是首先,我要 603 00:30:44,540 --> 00:30:49,150 拆分此行成的名单 字以空格分隔。 604 00:30:49,150 --> 00:30:53,730 >> 所以,关于Python的很酷的事情是, 你可能只是谷歌像“我怎么能 605 00:30:53,730 --> 00:30:58,220 字符串分割成单词? “和它的 要告诉你如何做到这一点。 606 00:30:58,220 --> 00:31:04,890 而做到这一点的方式,它只是“行 = line.split()“,它基本上是 607 00:31:04,890 --> 00:31:08,640 将会给你一个列表 每个在这里的话。 608 00:31:08,640 --> 00:31:09,620 有道理? 609 00:31:09,620 --> 00:31:15,870 所以,现在我这样做,我想知道 谁是那首歌的歌手。 610 00:31:15,870 --> 00:31:20,130 要做到这一点我必须得到 数组的第一个元素,对不对? 611 00:31:20,130 --> 00:31:26,390 所以,我只能说我“歌手 =行(0)“有道理? 612 00:31:26,390 --> 00:31:32,010 >> 然后我需要做的是,首先 所有,我要更新多少 613 00:31:32,010 --> 00:31:36,130 也就是说我有下“加加”。所以我只是 要计算多少字我 614 00:31:36,130 --> 00:31:38,690 在这个列表中,右键? 615 00:31:38,690 --> 00:31:41,910 因为这是我多少字有 在歌词中,我只是要 616 00:31:41,910 --> 00:31:44,120 将它添加到“加加”阵列。 617 00:31:44,120 --> 00:31:47,090 这是否有道理? 618 00:31:47,090 --> 00:31:49,010 太不注重语法。 619 00:31:49,010 --> 00:31:50,430 多思考的概念。 620 00:31:50,430 --> 00:31:52,400 这是最重要的部分。 621 00:31:52,400 --> 00:31:52,720 确定。 622 00:31:52,720 --> 00:32:00,260 >> 因此,我可以做到这一点的是,如果“加加”是 已经在该列表中,因此“如果歌手在 623 00:32:00,260 --> 00:32:03,190 话“,这意味着我已经 由加加有话。 624 00:32:03,190 --> 00:32:06,640 我只是想添加额外的 是这个意思。 625 00:32:06,640 --> 00:32:15,810 所以,我要做的就是“字(歌手) + = LEN(线路) - 1“。 626 00:32:15,810 --> 00:32:18,250 然后我可以做的 长行。 627 00:32:18,250 --> 00:32:21,860 那么有多少个元素我 在阵列中。 628 00:32:21,860 --> 00:32:27,060 而我所要做的零下1只是因为 该阵列的第一个元素是刚 629 00:32:27,060 --> 00:32:29,180 一个歌手,这些都不是歌词。 630 00:32:29,180 --> 00:32:31,420 有道理? 631 00:32:31,420 --> 00:32:32,780 确定。 632 00:32:32,780 --> 00:32:35,820 >> “否则,”这意味着我要实际 加加插入到列表中。 633 00:32:35,820 --> 00:32:45,990 所以,我只是做“字(歌手) = LEN(线路) - 1,“对不起。 634 00:32:45,990 --> 00:32:49,200 因此,两者之间的唯一区别 行的是,这一次,它不 635 00:32:49,200 --> 00:32:51,080 还存在,所以我只是 初始化它。 636 00:32:51,080 --> 00:32:53,820 这其中实际上,我加入。 637 00:32:53,820 --> 00:32:55,570 确定。 638 00:32:55,570 --> 00:32:59,480 因此,这是增加的话。 639 00:32:59,480 --> 00:33:03,040 >> 现在我想添加到先验。 640 00:33:03,040 --> 00:33:05,480 所以,我怎么计算先验? 641 00:33:05,480 --> 00:33:11,580 先验概率可以计算 通过多少次。 642 00:33:11,580 --> 00:33:15,340 你这么有多少次看到歌手 在所有的歌手,你的 643 00:33:15,340 --> 00:33:16,380 有,对不对? 644 00:33:16,380 --> 00:33:18,810 因此,对于Gaga和凯蒂·佩里, 在这种情况下,我看到加加 645 00:33:18,810 --> 00:33:20,570 一次,Katy Perry的一次。 646 00:33:20,570 --> 00:33:23,320 >> 所以基本上是先验的加加 和凯蒂·佩里会 647 00:33:23,320 --> 00:33:24,390 仅仅是一个,对不对? 648 00:33:24,390 --> 00:33:26,500 你有多少次 我看到了艺术家。 649 00:33:26,500 --> 00:33:28,740 所以这是很容易计算。 650 00:33:28,740 --> 00:33:34,100 我可以只是一些类似,像“如果 歌手先验,“我只是去 651 00:33:34,100 --> 00:33:38,970 加入1〜他们的先验箱。 652 00:33:38,970 --> 00:33:51,000 所以,“先验(唱)”+ = 1“,然后”其他“ 我该怎么办“先验(歌手) 653 00:33:51,000 --> 00:33:55,000 = 1“。有道理? 654 00:33:55,000 --> 00:34:00,080 >> 所以,如果它不存在,我只是把 为1,否则我只加1。 655 00:34:00,080 --> 00:34:11,280 好了,现在所有的,我已经离开办 也是每个单词添加到 656 00:34:11,280 --> 00:34:12,290 概率。 657 00:34:12,290 --> 00:34:14,889 所以,我必须指望有多少次 我看到每个单词。 658 00:34:14,889 --> 00:34:18,780 所以,我只是需要做的另一 for循环中的行。 659 00:34:18,780 --> 00:34:25,190 >> 我要去这样做的第一件事就是 检查的歌手已经有 660 00:34:25,190 --> 00:34:26,969 概率数组。 661 00:34:26,969 --> 00:34:31,739 所以我检查,如果歌手不 有一个概率的数组,我只是 662 00:34:31,739 --> 00:34:34,480 要初始化一个用于它们。 663 00:34:34,480 --> 00:34:36,400 它甚至不是一个数组,对不起, 这是一本字典。 664 00:34:36,400 --> 00:34:43,080 所以歌手的概率是怎么回事 是一个开放的字典,所以我 665 00:34:43,080 --> 00:34:45,830 只是初始化字典吧。 666 00:34:45,830 --> 00:34:46,820 好不好? 667 00:34:46,820 --> 00:34:58,330 >> 现在我可以真正做一个for循环 计算每个单词' 668 00:34:58,330 --> 00:35:00,604 概率。 669 00:35:00,604 --> 00:35:01,540 确定。 670 00:35:01,540 --> 00:35:04,160 因此,我所能做的就是一个for循环。 671 00:35:04,160 --> 00:35:06,590 所以我只是去遍历 在阵列。 672 00:35:06,590 --> 00:35:15,320 这样我可以做到这一点在Python的方式 是“因为我在范围内。”从1 673 00:35:15,320 --> 00:35:19,200 因为我要开始第二 元件,因为第一个是 674 00:35:19,200 --> 00:35:20,260 歌手名。 675 00:35:20,260 --> 00:35:24,990 所以从1至 长行。 676 00:35:24,990 --> 00:35:29,760 当我做它的范围实际上从去 喜欢这里从1到的LEN 677 00:35:29,760 --> 00:35:30,740 行减1。 678 00:35:30,740 --> 00:35:33,810 所以它已经这样做这样做的那件事 Ñ​​减1为数组,这是非常 679 00:35:33,810 --> 00:35:35,500 方便。 680 00:35:35,500 --> 00:35:37,850 有道理? 681 00:35:37,850 --> 00:35:42,770 >> 因此,对于每一个这些,有什么我要去 做的是,就像在另外一个, 682 00:35:42,770 --> 00:35:50,320 我要检查,如果在这个字 在该线的位置已在 683 00:35:50,320 --> 00:35:51,570 概率。 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 然后我说在这里,概率 也就是说,在我把 686 00:35:57,260 --> 00:35:58,400 “概率(歌手)”。 687 00:35:58,400 --> 00:35:59,390 这样的歌手的名字。 688 00:35:59,390 --> 00:36:03,450 所以,如果它已经在 “probabilit(歌手)”,这意味着我 689 00:36:03,450 --> 00:36:11,960 要加1,所以我要去 做“的概率(歌手)”,以及 690 00:36:11,960 --> 00:36:14,100 字被称为“线(一)”。 691 00:36:14,100 --> 00:36:22,630 我要加1和“其他”我只是 将它初始化为1。 692 00:36:22,630 --> 00:36:23,880 “行(一)”。 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 有道理? 695 00:36:28,420 --> 00:36:30,180 >> 所以,我计算出的所有阵列。 696 00:36:30,180 --> 00:36:36,580 所以,现在的一切,我所要做的 这个人是刚刚“回归先验, 697 00:36:36,580 --> 00:36:43,230 概率和单词。“让我们 看看是否有任何好不好。 698 00:36:43,230 --> 00:36:45,690 似乎一切工作至今。 699 00:36:45,690 --> 00:36:46,900 所以,这是有道理的? 700 00:36:46,900 --> 00:36:47,750 以某种方式? 701 00:36:47,750 --> 00:36:49,280 确定。 702 00:36:49,280 --> 00:36:51,980 所以,现在我把所有的可能性。 703 00:36:51,980 --> 00:36:55,100 所以,现在我已经离开的唯一的事 只是有这种事情, 704 00:36:55,100 --> 00:36:58,650 计算出的所有产品 当我拿到歌词的概率。 705 00:36:58,650 --> 00:37:06,270 >> 因此,让我们说,我想现在打电话 这个功能“分类()”和 706 00:37:06,270 --> 00:37:08,880 东西函数接受 只是一个说法。 707 00:37:08,880 --> 00:37:13,170 比方说,“宝贝,我着火了”,它的 要弄清楚什么是 708 00:37:13,170 --> 00:37:14,490 概率,这是加加? 709 00:37:14,490 --> 00:37:16,405 这是概率 这是凯蒂? 710 00:37:16,405 --> 00:37:19,690 听起来不错? 711 00:37:19,690 --> 00:37:25,750 所以我只是将不得不创建一个 所谓的新功能“分类()”和 712 00:37:25,750 --> 00:37:29,180 它会采取一些 歌词也是如此。 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 而除了歌词我也 有送先验的 715 00:37:36,160 --> 00:37:37,700 概率和单词。 716 00:37:37,700 --> 00:37:44,000 所以我打算送歌词,先验, 概率的话。 717 00:37:44,000 --> 00:37:51,840 >> 因此,这是采取的歌词,先验, 概率的话。 718 00:37:51,840 --> 00:37:53,530 那么,它有什么作用? 719 00:37:53,530 --> 00:37:57,180 它基本上是要通过所有 可能的候选人,你 720 00:37:57,180 --> 00:37:58,510 有作为一名歌手。 721 00:37:58,510 --> 00:37:59,425 和那些人在那里候选人? 722 00:37:59,425 --> 00:38:01,020 他们是在先验,对不对? 723 00:38:01,020 --> 00:38:02,710 所以,我有所有这些存在的。 724 00:38:02,710 --> 00:38:07,870 所以,我要准备一本字典 所有可能的候选人。 725 00:38:07,870 --> 00:38:14,220 然后在每个候选 先验概率,因此它意味着它要 726 00:38:14,220 --> 00:38:17,740 是加加,凯蒂如果我有 更会比较。 727 00:38:17,740 --> 00:38:20,410 我要开始计算 这个概率。 728 00:38:20,410 --> 00:38:28,310 正如我们在看到的概率 PowerPoint是事先倍 729 00:38:28,310 --> 00:38:30,800 每一个的产品 其他可能性。 730 00:38:30,800 --> 00:38:32,520 >> 所以,我在这里可以这样做。 731 00:38:32,520 --> 00:38:36,330 我可以做的是概率 刚开始之前。 732 00:38:36,330 --> 00:38:40,340 因此,先验的候选人。 733 00:38:40,340 --> 00:38:40,870 对不对? 734 00:38:40,870 --> 00:38:45,360 现在我不得不遍历所有的 我有在歌词是词 735 00:38:45,360 --> 00:38:48,820 能够添加的概率 为他们每个人,好不好? 736 00:38:48,820 --> 00:38:57,900 因此,“为字的歌词”我什么都 做的是,如果该字是在 737 00:38:57,900 --> 00:39:01,640 “概率(候选人)”,这 也就是说,它是一个字的 738 00:39:01,640 --> 00:39:03,640 候选人在他们的歌词 - 739 00:39:03,640 --> 00:39:05,940 例如,“婴儿”的加加 - 740 00:39:05,940 --> 00:39:11,710 我现在要做的是, 概率将被乘以 741 00:39:11,710 --> 00:39:22,420 由加的概率1 候选人的那个词。 742 00:39:22,420 --> 00:39:25,710 它被称为“字”。 743 00:39:25,710 --> 00:39:32,440 这除以单词数 我对那个候选人。 744 00:39:32,440 --> 00:39:37,450 字的总数,我有 对于我期待的歌手。 745 00:39:37,450 --> 00:39:40,290 >> “否则”。这意味着它是一个新词 所以它会像例如 746 00:39:40,290 --> 00:39:41,860 “火”的Lady Gaga的。 747 00:39:41,860 --> 00:39:45,760 所以,我只想做超过1 “字(候选人)”。 748 00:39:45,760 --> 00:39:47,710 所以,我不希望把这个词在这里。 749 00:39:47,710 --> 00:39:50,010 >> 所以它的将是基本 复制并粘贴此。 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 但我要删除这部分。 752 00:39:56,000 --> 00:39:57,610 所以它只是将是1比那。 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 听起来不错? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 现在到了最后,我只是要 印上候选人的名字和 757 00:40:09,700 --> 00:40:15,750 你有概率 在他们的歌词有标。 758 00:40:15,750 --> 00:40:16,200 有道理? 759 00:40:16,200 --> 00:40:18,390 我其实不连 需要这本词典。 760 00:40:18,390 --> 00:40:19,510 有道理? 761 00:40:19,510 --> 00:40:21,810 >> 所以,让我们看看这个实际工作。 762 00:40:21,810 --> 00:40:24,880 所以,如果我运行这个,也没有工作。 763 00:40:24,880 --> 00:40:26,130 等待一秒钟。 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 “言(候选人)”,“字(候选人)”, 这是 766 00:40:31,720 --> 00:40:33,750 该数组的名称。 767 00:40:33,750 --> 00:40:41,435 好了,所以,它说,有一些bug 候选的先验。 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 让我冷静下来一点点。 770 00:40:48,760 --> 00:40:50,360 确定。 771 00:40:50,360 --> 00:40:51,305 让我们试试。 772 00:40:51,305 --> 00:40:51,720 确定。 773 00:40:51,720 --> 00:40:58,710 >> 所以,它给了凯蒂·佩里有这个 在此乘以10的概率 774 00:40:58,710 --> 00:41:02,200 减去7,和加加有这个 乘以10的负6。 775 00:41:02,200 --> 00:41:05,610 所以你看它表明加加 具有更高的概率。 776 00:41:05,610 --> 00:41:09,260 因此,“宝贝,我在火”是 可能是Gaga的歌。 777 00:41:09,260 --> 00:41:10,580 有道理? 778 00:41:10,580 --> 00:41:12,030 所以这就是我们所做的。 779 00:41:12,030 --> 00:41:16,010 >> 此代码将被发布到网上, 所以你们可以检查出来。 780 00:41:16,010 --> 00:41:20,720 也许用一些它,如果你想 做项目或类似的事情。 781 00:41:20,720 --> 00:41:22,150 确定。 782 00:41:22,150 --> 00:41:25,930 这只是为了显示 怎样计算 783 00:41:25,930 --> 00:41:27,230 语言学的代码如下所示。 784 00:41:27,230 --> 00:41:33,040 但是,现在让我们去更多 高层次的东西。 785 00:41:33,040 --> 00:41:33,340 确定。 786 00:41:33,340 --> 00:41:35,150 >> 因此,其他的问题我 说的是 - 787 00:41:35,150 --> 00:41:37,550 分割问题 是第一人。 788 00:41:37,550 --> 00:41:40,820 所以,你必须在这里的日本。 789 00:41:40,820 --> 00:41:43,420 然后就看到了 有没有空格。 790 00:41:43,420 --> 00:41:49,110 因此,这基本上意味着它 椅子的顶部,对不对? 791 00:41:49,110 --> 00:41:50,550 你说日语吗? 792 00:41:50,550 --> 00:41:52,840 这是椅子的顶部,对不对? 793 00:41:52,840 --> 00:41:54,480 >> 学生:我不知道是什么 汉字那边。 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS:这是[操日语] 795 00:41:57,010 --> 00:41:57,950 确定。 796 00:41:57,950 --> 00:42:00,960 所以它基本上意味着顶部​​的椅子。 797 00:42:00,960 --> 00:42:03,620 所以,如果你不得不把一个空间 这将是在这里。 798 00:42:03,620 --> 00:42:05,970 然后你有[?上田山。 ?] 799 00:42:05,970 --> 00:42:09,040 这基本上意味着上田先生。 800 00:42:09,040 --> 00:42:13,180 而你看到的“田”和你有一个 空间,然后“圣”。所以你看到, 801 00:42:13,180 --> 00:42:15,470 在这里你“UE”就像本身。 802 00:42:15,470 --> 00:42:17,750 在这里,它有一个字符 在它旁边。 803 00:42:17,750 --> 00:42:21,720 >> 所以它不像这些语言 字义的单词,这样你 804 00:42:21,720 --> 00:42:23,980 刚刚投入了大量的空间。 805 00:42:23,980 --> 00:42:25,500 字符之间的相互关系。 806 00:42:25,500 --> 00:42:28,680 他们能在一起 像二,三,一。 807 00:42:28,680 --> 00:42:34,520 所以,你实际上必须建立某种 的方式把这些空间。 808 00:42:34,520 --> 00:42:38,850 >> 而这件事情是,每当你得到 从这些亚洲语言的数据, 809 00:42:38,850 --> 00:42:40,580 一切都无节。 810 00:42:40,580 --> 00:42:45,940 因为没有人谁写日本 还是中国写为空格。 811 00:42:45,940 --> 00:42:48,200 当你在写中国, 日本你刚才写的一切 812 00:42:48,200 --> 00:42:48,710 没有空格。 813 00:42:48,710 --> 00:42:52,060 它甚至没有任何意义 把空间。 814 00:42:52,060 --> 00:42:57,960 这样的话,当你从得到的数据,一些 东亚语言,如果你想 815 00:42:57,960 --> 00:43:00,760 其实做一些与 你必须先分段。 816 00:43:00,760 --> 00:43:05,130 >> 认为这样做的实例中的 不带空格的歌词。 817 00:43:05,130 --> 00:43:07,950 所以,你拥有的唯一歌词 将句子,对不对? 818 00:43:07,950 --> 00:43:09,470 用句点分隔。 819 00:43:09,470 --> 00:43:13,930 但是刚走了句会 没有真正在给予信息帮助 820 00:43:13,930 --> 00:43:17,760 是谁的歌词是由。 821 00:43:17,760 --> 00:43:18,120 对不对? 822 00:43:18,120 --> 00:43:20,010 所以,你应该首先将空间。 823 00:43:20,010 --> 00:43:21,990 你那么如何才能做到这一点? 824 00:43:21,990 --> 00:43:24,920 >> 所以后来谈到语言的想法 模型这是真的东西 825 00:43:24,920 --> 00:43:26,870 用于计算重要 语言学。 826 00:43:26,870 --> 00:43:32,790 所以一个语言模型基本上是一个 表概率的表演 827 00:43:32,790 --> 00:43:36,260 首先什么是概率 具有一种语言的单词? 828 00:43:36,260 --> 00:43:39,590 那么如何展示频繁的一句话就是。 829 00:43:39,590 --> 00:43:43,130 然后还展示了关系 在一个句子中词与词之间。 830 00:43:43,130 --> 00:43:51,500 >> 所以主要的想法是,如果一个陌生人来到 给你说了一句话 831 00:43:51,500 --> 00:43:55,600 你,什么是概率,对于 例如,“这是我妹妹[?GTF”?] 832 00:43:55,600 --> 00:43:57,480 是那句话的人说的吗? 833 00:43:57,480 --> 00:44:00,380 所以,很显然有些句子 比其他人更常见。 834 00:44:00,380 --> 00:44:04,450 例如,“早上好”或“好 晚上,“或”嘿,“得多 835 00:44:04,450 --> 00:44:08,260 比最常见的句子 我们有一个英语。 836 00:44:08,260 --> 00:44:11,060 那么,为什么那些句子 更频繁? 837 00:44:11,060 --> 00:44:14,060 >> 首先,这是因为你有 话是更频繁。 838 00:44:14,060 --> 00:44:20,180 因此,举例来说,如果你说,狗是 大,而狗是巨大的,你 839 00:44:20,180 --> 00:44:23,880 通常可能听到狗是大 更多的时候,因为“大”更 840 00:44:23,880 --> 00:44:27,260 频繁的英语不是“巨大”。 所以,1的 841 00:44:27,260 --> 00:44:30,100 事情是这个词的频率。 842 00:44:30,100 --> 00:44:34,490 >> 这是真正的第二件事 重要的仅仅是 843 00:44:34,490 --> 00:44:35,490 顺序的话。 844 00:44:35,490 --> 00:44:39,500 所以,经常会说“猫是 里面的箱子。“但你通常不 845 00:44:39,500 --> 00:44:44,250 见“盒子里面是猫。”所以 你看,有一些重要 846 00:44:44,250 --> 00:44:46,030 中的词的顺序。 847 00:44:46,030 --> 00:44:50,160 你不能只是说,这两个 句子具有相同的概率 848 00:44:50,160 --> 00:44:53,010 仅仅是因为他们具有相同的话。 849 00:44:53,010 --> 00:44:55,550 实际上,你要关心 关于秩序良好。 850 00:44:55,550 --> 00:44:57,650 有意义吗? 851 00:44:57,650 --> 00:44:59,490 >> 那么,我们该怎么办? 852 00:44:59,490 --> 00:45:01,550 所以我可能会尝试帮你吗? 853 00:45:01,550 --> 00:45:04,400 我试图让你我们 调用的n-gram模型。 854 00:45:04,400 --> 00:45:09,095 所以,一个n-gram模型的基本假设 对于每个字 855 00:45:09,095 --> 00:45:10,960 你在一个句子里。 856 00:45:10,960 --> 00:45:15,020 它具有的概率 字不仅有依赖于 857 00:45:15,020 --> 00:45:18,395 频率在语言文字的, 同时也对词 858 00:45:18,395 --> 00:45:19,860 都围绕着它。 859 00:45:19,860 --> 00:45:25,810 >> 因此,举例来说,通常当你看到 像上或在你 860 00:45:25,810 --> 00:45:28,040 可能会看到一个 名词之后,对不对? 861 00:45:28,040 --> 00:45:31,750 因为当你有一个介词 通常它需要后一个名词。 862 00:45:31,750 --> 00:45:35,540 或者如果你有一个动词是及物动词 你通常要 863 00:45:35,540 --> 00:45:36,630 有一个名词短语。 864 00:45:36,630 --> 00:45:38,780 因此,这将有一个名词 围绕它的地方。 865 00:45:38,780 --> 00:45:44,950 >> 所以,基本上,它的作用在于,它 认为具有的概率 866 00:45:44,950 --> 00:45:47,960 话彼此相邻,当 你的计算 867 00:45:47,960 --> 00:45:49,050 概率句子。 868 00:45:49,050 --> 00:45:50,960 而这正是一种语言 模型基本上是。 869 00:45:50,960 --> 00:45:54,620 只是说有什么可能性 的具有特定 870 00:45:54,620 --> 00:45:57,120 句子的语言? 871 00:45:57,120 --> 00:45:59,110 那么,为什么是有用的,基本上是? 872 00:45:59,110 --> 00:46:02,390 并首先什么是 一个n-gram模型,然后呢? 873 00:46:02,390 --> 00:46:08,850 >> 所以,一个n-gram模型意味着, 每个字取决于 874 00:46:08,850 --> 00:46:12,700 接下来的N减1的话。 875 00:46:12,700 --> 00:46:18,150 所以,基本上,这意味着如果我看起来, 例如,在CS50 TF时 876 00:46:18,150 --> 00:46:21,500 我计算的概率 这句话,你会像“ 877 00:46:21,500 --> 00:46:25,280 具有单词“the”的概率 具有次的概率“的 878 00:46:25,280 --> 00:46:31,720 具有CS50“时间的概率 “该CS50 TF。”所以,基本上,我算 879 00:46:31,720 --> 00:46:35,720 伸展它的所有可能的方式。 880 00:46:35,720 --> 00:46:41,870 >> 然后通常当你这样做, 作为一个项目,你把电量为 881 00:46:41,870 --> 00:46:42,600 一个低的值。 882 00:46:42,600 --> 00:46:45,930 所以,通常有双字母组或卦。 883 00:46:45,930 --> 00:46:51,090 所以,你只算两个词,一个 组两个词,或者三个字, 884 00:46:51,090 --> 00:46:52,620 只为性能问题。 885 00:46:52,620 --> 00:46:56,395 也因为也许如果你有 像“的CS50 TF。”当你 886 00:46:56,395 --> 00:47:00,510 有“TF”,这是非常重要的, “CS50”是在它旁边,对不对? 887 00:47:00,510 --> 00:47:04,050 这两件事通常是 彼此相邻。 888 00:47:04,050 --> 00:47:06,410 >> 如果你觉得“TF”,它可能 将有哪些 889 00:47:06,410 --> 00:47:07,890 类它TF'ing的。 890 00:47:07,890 --> 00:47:11,330 也是“”真的很重要 为CS50 TF。 891 00:47:11,330 --> 00:47:14,570 但是,如果你有一些像“CS50 TF去上课,并给了他们 892 00:47:14,570 --> 00:47:20,060 学生们一些糖果。“”糖果“和”the“ 没有关系真的,对不对? 893 00:47:20,060 --> 00:47:23,670 他们是彼此如此遥远的 它并不真正的问题是什么 894 00:47:23,670 --> 00:47:25,050 也就是说你有。 895 00:47:25,050 --> 00:47:31,210 >> 所以,做一个两字或卦,它 只是意味着你限制 896 00:47:31,210 --> 00:47:33,430 自己的一些话 这是各地。 897 00:47:33,430 --> 00:47:35,810 有意义吗? 898 00:47:35,810 --> 00:47:40,630 所以,当你想要做的分割, 基本上,你想要做什么见 899 00:47:40,630 --> 00:47:44,850 什么都是可能的方式, 你可以分段的句子。 900 00:47:44,850 --> 00:47:49,090 >> 这样,你看到的是什么 每个句子的概率 901 00:47:49,090 --> 00:47:50,880 现有的语言吗? 902 00:47:50,880 --> 00:47:53,410 所以,你做什么就好了,好了,让 我试图把一个空间在这里。 903 00:47:53,410 --> 00:47:55,570 所以,你把一个空间有 和你看到的是什么 904 00:47:55,570 --> 00:47:57,590 那句话的概率是多少? 905 00:47:57,590 --> 00:48:00,240 那么你是喜欢,好吧,也许 这不太好。 906 00:48:00,240 --> 00:48:03,420 所以我把一个空间有一个空格 在那里,你的计算 907 00:48:03,420 --> 00:48:06,240 概率现在,你看到 这是一个更高的概率。 908 00:48:06,240 --> 00:48:12,160 >> 所以,这就是所谓的TANGO的算法 分割算法,这是 909 00:48:12,160 --> 00:48:14,990 实际的东西,会是真的 凉爽的项目,该项目 910 00:48:14,990 --> 00:48:20,860 基本上采取不分段全文 可能是日本人还是中国人也许 911 00:48:20,860 --> 00:48:26,080 英语没有空格,并试图把 字和它之间的空间 912 00:48:26,080 --> 00:48:29,120 通过使用一个语言模型,并 想看看是最高的 913 00:48:29,120 --> 00:48:31,270 概率可以得到。 914 00:48:31,270 --> 00:48:32,230 确定。 915 00:48:32,230 --> 00:48:33,800 因此,这是分割。 916 00:48:33,800 --> 00:48:35,450 >> 现在的语法。 917 00:48:35,450 --> 00:48:40,940 这样,句法被用于 这么多东西现在。 918 00:48:40,940 --> 00:48:44,880 因此,对于图搜索,对于Siri的供 几乎任何类型的自然 919 00:48:44,880 --> 00:48:46,490 语言处理你。 920 00:48:46,490 --> 00:48:49,140 那么什么是重要的 有关语法的东西呢? 921 00:48:49,140 --> 00:48:52,390 因此,句子一般有 就是我们所说的成分。 922 00:48:52,390 --> 00:48:57,080 这是一种像组词 有在句中的功能。 923 00:48:57,080 --> 00:49:02,220 他们不能真正 彼此分开。 924 00:49:02,220 --> 00:49:07,380 >> 所以,如果我说,例如,“劳伦爱 米洛。“我知道,”劳伦“是一个 925 00:49:07,380 --> 00:49:10,180 成分,然后“爱 米洛“也是一个又一个。 926 00:49:10,180 --> 00:49:16,860 因为你不能说像“劳伦米洛 喜欢“具有相同的含义。 927 00:49:16,860 --> 00:49:18,020 它不会有 相同的含义。 928 00:49:18,020 --> 00:49:22,500 或者,我不能说像“米洛·劳伦 爱。“不是任何事物都有相同的 929 00:49:22,500 --> 00:49:25,890 这意味着这样做。 930 00:49:25,890 --> 00:49:31,940 >> 因此,这两个更重要的事情 语法是词法类型是 931 00:49:31,940 --> 00:49:35,390 基本的功能,你 自己有话。 932 00:49:35,390 --> 00:49:39,180 所以,你要知道,“劳伦” 与“米洛”都是名词。 933 00:49:39,180 --> 00:49:41,040 “爱”是一个动词。 934 00:49:41,040 --> 00:49:45,660 第二重要的是 他们是短语的类型。 935 00:49:45,660 --> 00:49:48,990 所以,你知道,“爱米洛” 实际上是一个口头短语。 936 00:49:48,990 --> 00:49:52,390 所以,当我说“劳伦,”我知道, 劳伦是做什么的。 937 00:49:52,390 --> 00:49:53,620 她在干什么? 938 00:49:53,620 --> 00:49:54,570 她爱米洛。 939 00:49:54,570 --> 00:49:56,440 所以这是一个整体的东西。 940 00:49:56,440 --> 00:50:01,640 但它的成分是 一个名词和一个动词。 941 00:50:01,640 --> 00:50:04,210 但同时,他们提出了一个动词短语。 942 00:50:04,210 --> 00:50:08,680 >> 所以,我们可以真正做 计算语言学? 943 00:50:08,680 --> 00:50:13,810 所以,如果我有东西,例如 “朋友佳佳的。”我认为如果我只是 944 00:50:13,810 --> 00:50:17,440 没有一个语法树我想知道 “朋友”是一个名词短语是 945 00:50:17,440 --> 00:50:21,480 “艾里逊的”名词,然后是 “的”介词短语在这 946 00:50:21,480 --> 00:50:24,810 一个主张和“佳佳”是一个名词。 947 00:50:24,810 --> 00:50:30,910 有什么我可以做的是教给我的电脑 当我有一个名词短语之一, 948 00:50:30,910 --> 00:50:33,080 然后一个介词短语。 949 00:50:33,080 --> 00:50:39,020 所以在这种情况下,“朋友”,然后“ 米洛“我知道这意味着 950 00:50:39,020 --> 00:50:43,110 NP2,第二个,拥有NP1。 951 00:50:43,110 --> 00:50:47,680 >> 所以,我可以创造某种关系, 某种功能吧。 952 00:50:47,680 --> 00:50:52,370 所以每当我看到这个结构, 正好与“朋友的匹配 953 00:50:52,370 --> 00:50:56,030 佳佳,“我知道佳佳 拥有朋友。 954 00:50:56,030 --> 00:50:58,830 所以,朋友们的东西 佳佳了。 955 00:50:58,830 --> 00:50:59,610 有道理? 956 00:50:59,610 --> 00:51:01,770 因此,这基本上是什么 图搜索一样。 957 00:51:01,770 --> 00:51:04,360 它只是创建规则 对于很多事情。 958 00:51:04,360 --> 00:51:08,190 所以,“朋友阿利森的”,“我的朋友们 谁住在剑桥“,”我的朋友们 959 00:51:08,190 --> 00:51:12,970 谁去哈佛。“它创造规则 对于所有这些事情。 960 00:51:12,970 --> 00:51:14,930 >> 现在的机器翻译。 961 00:51:14,930 --> 00:51:18,850 因此,机器翻译也 一些统计。 962 00:51:18,850 --> 00:51:21,340 而实际上,如果你涉足 计算语言学,很多 963 00:51:21,340 --> 00:51:23,580 你的东西将是统计数据。 964 00:51:23,580 --> 00:51:26,670 所以当我在做的例子有 有很多可能性的,我是 965 00:51:26,670 --> 00:51:30,540 计算,然后你到这个 极少数这是最后的 966 00:51:30,540 --> 00:51:33,180 概率,这就是 给你答案。 967 00:51:33,180 --> 00:51:37,540 机器翻译还使用 统计模型。 968 00:51:37,540 --> 00:51:44,790 如果你要考虑机器的 翻译在最简单的可能 969 00:51:44,790 --> 00:51:48,970 顺便问一下,你能想到的仅仅是 翻译一字一句,对不对? 970 00:51:48,970 --> 00:51:52,150 >> 当你学习一门语言的 第一次,这通常是什么 971 00:51:52,150 --> 00:51:52,910 你这样做,对不对? 972 00:51:52,910 --> 00:51:57,050 如果你想你翻译一个句子 在你的语言的语言 973 00:51:57,050 --> 00:52:00,060 你正在学习,通常首先,你 翻译的每个字 974 00:52:00,060 --> 00:52:03,180 个别地,然后尝试 把单词到位。 975 00:52:03,180 --> 00:52:07,100 >> 所以,如果我想翻译这个, [发言葡萄牙语] 976 00:52:07,100 --> 00:52:10,430 这意味着“白猫跑掉了。” 如果我想从翻译 977 00:52:10,430 --> 00:52:13,650 葡萄牙语到英语,我 可以做的是,第一,我只是 978 00:52:13,650 --> 00:52:14,800 逐字翻译单词。 979 00:52:14,800 --> 00:52:20,570 因此,“O”是“,”“加托”,“猫” “布兰科”,“白”,然后“fugio”是 980 00:52:20,570 --> 00:52:21,650 “跑了。” 981 00:52:21,650 --> 00:52:26,130 >> 于是我把所有的话在这里, 但他们不是为了。 982 00:52:26,130 --> 00:52:29,590 这就像“猫白跑了” 这是不合语法。 983 00:52:29,590 --> 00:52:34,490 这样的话,我可以有第二个步骤,即 将要寻找的理想 984 00:52:34,490 --> 00:52:36,610 对于每个字的位置。 985 00:52:36,610 --> 00:52:40,240 所以我知道,其实我是想有 “白猫”,而不是“猫白。”所以 986 00:52:40,240 --> 00:52:46,050 有什么我可以做的是,最天真的方法 将创建所有 987 00:52:46,050 --> 00:52:49,720 可能的排列 字位置。 988 00:52:49,720 --> 00:52:53,300 然后看看哪一个具有 根据概率最高 989 00:52:53,300 --> 00:52:54,970 我的语言模型。 990 00:52:54,970 --> 00:52:58,390 然后当我找到一个有 概率最高的,这是 991 00:52:58,390 --> 00:53:01,910 可能是“白猫跑了,” 这是我的翻译。 992 00:53:01,910 --> 00:53:06,710 >> 这是说明一个简单的方法 怎么了很多机器翻译 993 00:53:06,710 --> 00:53:07,910 算法工作。 994 00:53:07,910 --> 00:53:08,920 这是否有道理? 995 00:53:08,920 --> 00:53:12,735 这也是一些真正令人兴奋的 那你们也许可以探索一个 996 00:53:12,735 --> 00:53:13,901 最后的项目,是吗? 997 00:53:13,901 --> 00:53:15,549 >> 学生:嗯,你说这是 天真的方式,有啥 998 00:53:15,549 --> 00:53:17,200 非幼稚的方式? 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS:非幼稚的方式? 1000 00:53:18,400 --> 00:53:19,050 确定。 1001 00:53:19,050 --> 00:53:22,860 所以这是坏的第一件事 这个方法是我刚翻译 1002 00:53:22,860 --> 00:53:24,330 也就是说,一个字一个字。 1003 00:53:24,330 --> 00:53:30,570 但有时你必须说的话 可以有多种译文。 1004 00:53:30,570 --> 00:53:32,210 我会尽量想 的东西。 1005 00:53:32,210 --> 00:53:37,270 例如,在葡萄牙可以“漫画” 要么是“裂伤”或“套筒”。所以 1006 00:53:37,270 --> 00:53:40,450 当你试图翻译单词 通过文字,它可能给你 1007 00:53:40,450 --> 00:53:42,050 东西是没有意义的。 1008 00:53:42,050 --> 00:53:45,770 >> 所以,你其实是要你在所有 的可能的翻译 1009 00:53:45,770 --> 00:53:49,840 单词和看,首先, 什么是顺序。 1010 00:53:49,840 --> 00:53:52,000 我们都在谈论permutating 事情? 1011 00:53:52,000 --> 00:53:54,150 要查看所有可能的订单, 选择一个具有最高 1012 00:53:54,150 --> 00:53:54,990 概率是多少? 1013 00:53:54,990 --> 00:53:57,860 您也可以选择所有可能的 翻译每个 1014 00:53:57,860 --> 00:54:00,510 单词,然后看 - 1015 00:54:00,510 --> 00:54:01,950 结合的排列 - 1016 00:54:01,950 --> 00:54:03,710 哪一个具有最高的概率。 1017 00:54:03,710 --> 00:54:08,590 >> 另外,你也可以看看不 只字,但短语。 1018 00:54:08,590 --> 00:54:11,700 这样你就可以分析之间的关系 这些词汇,然后得到一个 1019 00:54:11,700 --> 00:54:13,210 更好的翻译建议。 1020 00:54:13,210 --> 00:54:16,690 另外别的东西,所以这学期 实际上,我在做研究 1021 00:54:16,690 --> 00:54:19,430 中国英语机器翻译, 从这么翻译 1022 00:54:19,430 --> 00:54:20,940 中国成英文。 1023 00:54:20,940 --> 00:54:26,760 >> 而我们做的事情是,除了使用 一个统计模型,它只是 1024 00:54:26,760 --> 00:54:30,570 再看到的可能性 在一个句子中的某个位置,我 1025 00:54:30,570 --> 00:54:35,360 居然还加入一些语法来我 模型,说,哦,如果我看到这样的 1026 00:54:35,360 --> 00:54:39,420 建筑,这就是我想要的 改变它,当我翻译。 1027 00:54:39,420 --> 00:54:43,880 所以,你也可以添加某种 语法元素以使 1028 00:54:43,880 --> 00:54:47,970 翻译更高效 和更精确。 1029 00:54:47,970 --> 00:54:48,550 确定。 1030 00:54:48,550 --> 00:54:51,010 >> 所以你怎么能上手,如果你想 做一下计算 1031 00:54:51,010 --> 00:54:51,980 语言学? 1032 00:54:51,980 --> 00:54:54,560 >> 首先,你选择一个项目 涉及语言。 1033 00:54:54,560 --> 00:54:56,310 因此,有这么多的在那里。 1034 00:54:56,310 --> 00:54:58,420 有这么多的事情可以做。 1035 00:54:58,420 --> 00:55:00,510 然后可以把一个模型 您可以使用。 1036 00:55:00,510 --> 00:55:04,710 通常,这意味着思维 假设,因为喜欢,呵呵,当我 1037 00:55:04,710 --> 00:55:05,770 喜欢的歌词思维。 1038 00:55:05,770 --> 00:55:09,510 我当时想,好吧,如果我想弄清楚 出是谁写的,我可能要 1039 00:55:09,510 --> 00:55:15,400 看的话的人使用, 看看谁使用这个词非常频繁。 1040 00:55:15,400 --> 00:55:18,470 所以尽量作出假设及 再想想模型。 1041 00:55:18,470 --> 00:55:21,395 然后你也可以在网上搜索 什么样的问题,你有, 1042 00:55:21,395 --> 00:55:24,260 而且它要建议 你的模型,也许 1043 00:55:24,260 --> 00:55:26,560 仿照那个东西好。 1044 00:55:26,560 --> 00:55:29,080 >> ,你也可以随时给我发电子邮件。 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com。 1046 00:55:31,140 --> 00:55:34,940 而且我可以回答你的问题。 1047 00:55:34,940 --> 00:55:38,600 我们甚至可能会碰见这样我就可以 给对方法的建议 1048 00:55:38,600 --> 00:55:41,490 实施项目。 1049 00:55:41,490 --> 00:55:45,610 我的意思是,如果你卷入到 计算语言学,这是怎么回事 1050 00:55:45,610 --> 00:55:46,790 是巨大的。 1051 00:55:46,790 --> 00:55:48,370 你会看到有 这么多的潜力。 1052 00:55:48,370 --> 00:55:52,060 和业界都希望雇佣 你是因为有那么糟糕。 1053 00:55:52,060 --> 00:55:54,720 所以,我希望你们喜欢这个。 1054 00:55:54,720 --> 00:55:57,030 如果你们有任何问题, 您可以在此之后问我。 1055 00:55:57,030 --> 00:55:58,280 但是谢谢你。 1056 00:55:58,280 --> 00:56:00,150