LUCAS FREITAS:嘿。 欢迎大家。 我的名字是卢卡斯塔斯。 我是一个大三学生[听不清]研究 计算机科学与重点 计算语言学。 所以,我的中学是在语言 和语言学理论。 我真的很兴奋,教你们 关于外地一点点。 这是一个非常激动人心的领域来研究。 也有很大的潜力 为将来。 所以,我真的很兴奋,你的家伙 正在考虑中的项目 计算语言学。 我会很乐意提供意见 任何的你,如果你决定 追求其中的一个。 所以首先什么是计算的 语言学? 因此,计算语言学是 语言学和之间的交集 计算机科学。 那么,什么是语言学? 什么是计算机科学? 以及从语言学,是什么 我们采取的是语言。 因此,语言学实际上是研究 在一般的自然语言。 所以,自然语言 - 大家说说 我们实际使用的语言 相互通信。 因此,我们不正是在说 关于C或Java。 我们谈论更多关于英语和 中国和其他语言,我们 用于彼此进行通信。 有关的具有挑战性的事情是, 现在我们有近7000 语言在世界上。 因此,有相当高的品种 的语言,我们可以研究。 然后你认为它可能是 很难做到,比如, 翻译从一种语言到 另外,考虑到你有 其中近7000人。 所以,如果你想这样做的翻译 从一种语言到另你 几乎超过一百万 不同的组合,你可以 必须从语言到语言。 所以它的真正挑战做了一些 类的实例翻译系统的 每一个语言。 所以,对待语言学与语法, 语义,语用学。 你们不完全需要 要知道什么是他们的。 但非常有趣的是, 作为母语的人,当你学会 语言作为孩子,你居然学会 所有这些事情 - 语法语义 和语用 - 由你自己。 和任何人都没有教你语法 你明白的句子是如何 结构。 所以,这真的很有趣,因为 它的东西,来非常 直观。 和你在服用 计算机科学? 好了,最重要的事情是我们 在计算机科学,首先是 总之,人工智能 和机器学习。 所以,我们正在努力做 计算语言学是教 您的计算机如何做 用的语言。 因此,例如,在机 翻译。 我想教我的电脑怎么 知道如何从一个过渡 语言到另一边。 所以,基本上喜欢教学 一台电脑两种语言。 如果我这样做自然语言处理, 这是示例的情况下 Facebook的图搜索,你教 你的电脑怎么理解 查询好。 所以,如果你说“的照片我的 朋友。“Facebook并没有把那 作为具有整个字符串 只是一堆话。 它实际上是理解的关系 “照片”和“我的朋友”之间 了解到,“照片”是 物业“我的朋友。” 所以,这部分,例如 自然语言处理。 它试图了解什么 之间的关系是 词语的句子。 而最大的问题是,你可以 教电脑如何说话 在一般的语言? 这是一个非常有趣的问题 想想,好像,也许在未来, 你要能 谈谈您的手机。 有点像我们做什么用的Siri,但 更多的东西一样,你实际上可以 说任何你想要的手机 是要明白一切。 而且它可以有后续问题 并继续谈判。 这件事情真的很令人兴奋, 在我看来。 因此,一些关于自然语言。 一些真正有趣 自然语言是说,这是 信用到我的语言学教授, 玛丽亚Polinsky。 她举了一个例子,我认为 这真的很有趣。 因为我们学语文时,从 我们出生,然后我们的母语 一种语言的生长在我们。 基本上你学习语言 从最小的投入,对不对? 你刚刚从输入您的 您的语言听起来父母什么 喜欢和你只是学习它。 所以,这很有趣,因为如果你看一下 在这些句子,例如。 你看,“玛丽穿上大衣每 一次,她离开家。“ 在这种情况下,有可能有 单词“她”指的是玛丽,对不对? 你可以说“玛丽穿上大衣 每次玛丽离开 房子。“,这样很好。 但是如果你看一下这句话 “她每次穿上大衣玛丽 离开房子。“你知道这是 不可能说“她”是 提及玛丽。 有没有办法说,“玛丽把 一件大衣,每次离开玛丽 房子,“所以这很有趣,因为 这是一种直觉 每一个母语了。 也没有人告诉我们,这是 该语法的工作方式。 而且,你只能拥有这件“她” 提及玛丽在第一种情况下, 实际上在这等 过,但不是在这一个。 但每个人都种得 以相同的答案。 每个人都同意这一点。 所以,这真的很有趣,虽然如何 你不知道所有的规则 那种在你的语言你懂 语言如何工作的。 因此,关于自然的有趣的事情 语言是你不必 知道任何语法知道,如果一个句子 是语法或不合语法的 大多数情况下。 它让你觉得,也许什么 发生的情况是通过你的生活,你 只是不断变得越来越 句子告诉你。 然后你保持记忆 所有的句子。 然后当有人告诉你 什么,你听到这句话,并 你看看你的词汇量 的句子,看看是否 那句话是存在的。 如果是有你 说这是语法。 如果它不是你说这是 不合语法。 所以,在这种情况下,你会说,哦, 让您拥有一个庞大的所有列表 可能的句子。 然后,当你听到一个句子, 你知道它的语法或 不基于这一点。 问题是,如果你看一下 一个句子,例如“该 五头CS50转录因子煮熟的盲 使用DAPA杯章鱼。“这是 绝对不是一句 你听说过。 但在同一时间,你知道这是 相当多的语法,对不对? 有没有语法错误 你可以说, 这是一个可能的句子。 因此,它使我们觉得实际上是 这样,我们学习语言不仅是 由具有巨大的可能的数据库 词或句子,但更多的 理解的关系 也就是说在那些句子。 这是否有道理? 因此,接下来的问题是,能 电脑学习语言? 我们可以教语言的计算机? 所以,让我们想到的差异 一种语言的母语之间 和一台计算机。 那么,究竟发生了扬声器? 那么,母语学习一 从接触到它的语言。 通常早期的童年岁月。 所以,基本上,你只要有一个孩子, 你一直说要它,它 刚刚学会如何说话 语言,对不对? 所以,你基本上放弃 输入到婴儿。 这样,那么你可以说,一台电脑 可以做同样的事情,对不对? 你可以只给语言 作为输入到计算机中。 作为例子一堆文件 有英语书籍。 也许这是一种方式,你 也可能教 计算机英语,对不对? 而事实上,如果你仔细想想, 它需要你,也许一对夫妇 天读一本书。 对于一台电脑需要一秒钟 看着一本书的所有单词。 所以,你可以认为这或许正是这 从你周围的输入参数, 这还不够,说这是 东西,只有人类可以做到的。 你能想到的电脑 还可以得到输入。 第二件事是,母语 也有大脑,有 语言学习能力。 但是,如果你仔细想想, 大脑是一个坚实的事情。 当你出生时,它已经被设置 - 这是你的大脑。 而当你长大了,你只会得到更多的 语言的输入,也许营养素 和其他的东西。 但几乎你的大脑 是一个坚实的事情。 所以,你可以说,好吧,也许你可以 构建有一堆电脑 功能和刚模仿方法 语言学习能力。 所以在这个意义上,你可以说,好,我 能有一个具有所有电脑 事情我需要学习的语言。 而最后一件事情是,原生 扬声器学会从试验和错误。 在所以基本上另一个重要的事情 语言的学习是你那种 通过使学习的东西 你所听到的概括。 所以当你在成长过程中你学到了 有些话更像是名词, 一些其他的都是形容词。 而且你不必有任何 语言学知识 要理解这一点。 但你只是知道有一些单词 被定位在的某些部分 句子和其他一些人在其他 部分的句子。 并且,当你做的东西是 就像一个句子是不正确的 - 也许是因为过度泛化 例如。 也许当你长大了,你注意到 该复数通常是 通过把一个S在形成 字的结尾。 然后尝试做的复数 “鹿”为“鹿”或“牙”为 “tooths。”这样的话你的父母或 有人纠正你,说,不, “鹿”的复数是“鹿”和 的“牙齿”复数是“牙齿”。进而 你学那些东西。 所以,如果你尝试和错误中学习。 但你也可以做到这一点 用一台计算机。 你可以有一些所谓 强化学习。 这基本上就像给一个 计算机时,它做了奖励 正确的东西。 并给它奖励的对面 当它做错了事。 实际上,你可以看到,如果你走 到谷歌翻译,并试图 翻译一个句子,它 要求您提供反馈意见。 所以,如果你说,哦,还有更好的 翻译这句话。 您可以键入它,然后如果有很多 人们一直说这是一个更好的 翻译,它只是学习它 应使用的翻译,而不是 一个它是给。 所以,这是一个非常哲学问题 看是否计算机都将是 谈得来与否的未来。 但我有很高的期望,他们可以 只是根据这些参数。 但它只是更多的是一种哲学 问题。 因此,尽管电脑仍无法说话, 什么样的事情,我们可以做什么? 一些非常酷的东西是 数据分类。 因此,举例来说,你们知道 该电子邮件服务做的,为 例如,垃圾邮件过滤。 所以每当你收到垃圾邮件,它 试图筛选到另一个框。 那么它是怎样做到这一点? 它不象电脑才知道 什么电子邮件地址发送垃圾邮件。 因此,它更是以内容 消息,或者标题,或 也许你有一些图案。 所以,基本上,你所能做的就是得到一个 大量的电子邮件是垃圾邮件的数据, 邮件是不是垃圾邮件,并了解 样的模式,你必须在 那些是垃圾邮件。 这是计算的一部分 语言学。 这就是所谓的数据分类。 而我们实际上将看到一个 例如,在接下来的幻灯片。 第二件事是自然语言 处理这是事情的 图搜索是做又让 你写一个句子。 它相信你明白 的含义,并给出 你一个更好的结果。 其实,如果你去谷歌或Bing 你搜索的东西像Lady Gaga的高度,你实际上会 得到5',而不是信息1“ 从她的,因为它实际上理解 你在说什么。 所以这是自然的一部分, 语言处理。 或者也当你使用Siri的,第一 你有一个算法,试图 翻译你在说什么 成文字,在文字。 然后它会尝试翻译 到那个意思。 所以这是所有自然的一部分 语言处理。 那么你有机器翻译 - 这实际上是1 我的最爱 - 这是刚刚从翻译 一种语言到另一种。 所以,你可以认为,当你正在做的 机器翻译,你有 句子的无限可能性。 因此,有没有办法只存储 每一个翻译。 所以,你必须想出有趣 算法能够 翻译每一个 句子以某种方式。 你们有什么问题这么远吗? 没有? 确定。 那么,我们要看到今天? 首先,我要说说 分类问题。 这样一说我是 说关于垃圾邮件。 我什么都做的是,给定的歌词 一首歌,你可以揣摩 以高概率 谁是歌手? 比方说,我从夫人的歌 Gaga和Katy Perry的,如果我给你一个 新的歌曲,你可以计算出,如果 这是凯蒂·佩里还是Lady Gaga的? 第二个,我只是要谈 关于分割问题。 所以,我不知道,如果你们知道,但 中国,日本,其他东亚 语言和其它语言 在一般情况下,不必 单词之间的空格。 然后,如果你想的方式, 你的电脑亲切的尝试,以 理解自然语言处理, 它着眼于单词和 试图了解关系 他们之间,对不对? 但是,如果你有中国人,你 具有零位,这真的很难 搞清楚什么是之间的关系 也就是说,因为它们不具有任何 也就是说在第一。 所以,你必须做一些所谓的 分割这只是意味着把 我们所说的空间 也就是说在这些语言。 有意义吗? 然后我们要 说说语法。 关于自然的,因此只是一点点 语言处理。 这将只是一个概述。 所以今天,基本上是我想要做的 是给你们的一点点 什么是内部的可能性 你可以用做计算 语言学。 然后你就可以看到你的想法 凉爽的那些东西。 也许你能想到的一个项目 和来跟我说话。 我可以给你建议 关于如何实现它。 所以语法将是一点点 关于图搜索和机器 翻译。 我只是想给怎样一个例子 你可以,例如,翻译 从东西到葡萄牙语英语。 听起来不错? 因此,首先,在分类问题。 我会说,这部分研讨会 将是最具挑战性的 一个只因为那里是怎么回事 是一些编码。 但它的将是Python的。 我知道你们不知道的Python,所以 我只是要对高解释 平我在做什么。 而你没有真正在乎过 很多关于语法,因为这是 东西你们可以学习。 好不好? 听起来不错。 那么什么是分类问题? 所以,你给一些歌词 一首歌曲,你要猜 谁在唱。 这可以是任何类型的 的其他问题。 所以可以,例如,你有一个 总统竞选和你有一个 讲话,你想找到 出,如果它是,例如, 奥巴马或罗姆尼。 或者你可以有一大堆的电子邮件和 你要搞清楚,如果他们是 垃圾邮件。 所以它只是一些分类 基于该字的数据 你有没有。 因此,要做到这一点,你必须 做一些假设。 所以很多关于计算语言学 正在假设, 通常聪明的假设,从而使 你可以得到很好的效果。 试图建立一个模型了。 然后再尝试一下,看看它是否工作, 如果它给你很好的精度。 如果确实如此,那么你 尝试改善它。 如果没有,你肯定在想:好吧,也许我 应该做出不同的假设。 让我们将假设 提出的是一个艺术家通常唱 的一个话题多次,也许 使用的话多次刚 因为他们已经习惯了它。 你可以认为你的朋友的。 我敢肯定,你们都有朋友 那说,他们的签名短语, 从字面上每一个句子 - 像一些特定的词或某些特定 短语,他们说的 每一个句子。 什么可以说的是,如果你看 一个句子,有一个签名 词组,你可以猜测,大概 你的朋友是 有一句话说,对不对? 所以,你做这样的假设,然后 这就是你如何创建一个模型。 那我要举的例子是 如何Lady Gaga的,例如,人 说,她使用“宝贝”的 她所有的头号歌曲。 而实际上,这是一个视频,显示 她说这个词“宝贝”的 不同的歌曲。 [视频回放] - (唱)婴儿。 宝贝。 宝贝。 宝贝。 宝贝。 贝贝。 宝贝。 宝贝。 宝贝。 宝贝。 [完录像回放 - LUCAS FREITAS:所以有,我认为, 40首歌曲在这里,她说, 词“宝贝”。所以,你基本上可以猜到 如果你看到一首歌,有 单词“宝宝”有一些高 概率,它是Lady Gaga的。 但是,让我们尝试开发这样 进一步更正式。 所以这些都是歌词歌曲 Lady Gaga和Katy Perry的。 所以,你看Lady Gaga的,你看他们 有很多事件的“宝贝”,一 大量出现的“方式”。进而 凯蒂·佩里有很多事件的发生 “对,”很多事件的发生“火灾”。 所以基本上我们想要 做的是,你会得到一首抒情诗。 比方说,你会得到一个抒情的 歌曲是“宝贝”,只是“宝贝”。如果 你刚刚得到了这个词“宝贝”,这 是你的所有,从数据 Lady Gaga和凯蒂·佩里,谁也 你猜是人 是谁唱这首歌? Lady Gaga的还是凯蒂·佩里? Lady Gaga的,对不对? 因为她是唯一一个说谁 “宝贝”。这听起来很愚蠢,对吧? OK,这是很容易的。 我只是在看的两首歌曲,并 当然,她是谁的唯一 “宝贝”。 但是,如果你有一堆话? 如果你有一个实际的歌词,东西 一样,“宝贝,我只是 去看了[? CFT?] 讲座“,或者类似的东西,和 那么你实际上必须弄清楚 - 基于所有这些话 - 谁是谁的艺术家可能 唱这首歌? 所以让我们尝试开发 这远一点。 好了,根据刚刚的数据,我们 得到了,似乎加加可能是 歌手。 但如何才能写 这更正式? 并有将是一个小 统计位。 所以,如果你迷路了,只要尝试 要理解这个概念。 如果你理解不要紧, 方程非常清楚。 这是所有要上线了。 所以基本上就是我计算的是 概率,这首歌是由 Lady Gaga的因为 - 所以这条表示因为 - 我看到这个词“宝贝”。 这是否有道理? 所以我试图计算 这种可能性。 所以有这个定理称为 贝叶斯定理是说, 一个给定的B的概率,是 乙的概率给出A,倍 概率A的,超过的概率 B.这是一个长期的方程。 但是,你有什么从理解 这是,这是我想要的 计算,对不对? 让这首歌是由概率 Lady Gaga的因为我看到这个词 “宝贝”。 现在有什么我得到的是 单词“宝贝”的概率给出 我有Lady Gaga的。 什么是基本? 这也就意味着,有什么 看到这个词“宝贝”的概率 在Gaga的歌词? 如果我想计算出在一个非常 简单的方法,它只是数 次我看到“宝贝”在总数 在加加歌词的话,对不对? 什么是我看到的频率 在Gaga的工作这个词? 有意义吗? 第二项是 概率加加。 这是什么意思? 这基本上意味着,请问是什么 分类的概率 有些歌词加加? 那就是很怪,但 让我们想到的一个例子。 因此,让我们说的概率 在一首歌曲有“宝贝”是一样的 对于Gaga和布兰妮斯皮尔斯。 但布兰妮斯皮尔斯有两次 比Lady Gaga的多首歌曲。 因此,如果有人只是随机给你 “宝贝”的第一件事歌词你 看的是,什么是概率 在Gaga的歌曲有“宝贝”,“宝贝” 在布兰妮的歌? 它是同样的事情。 所以,你会看到的第二件事情是, 那么,什么是概率 这歌词本身是一个Gaga的歌词, 是什么的概率 作为布兰妮的歌词? 所以自从布兰妮有那么多的歌词 比加加,你可能会 比方说,好了,这可能是 布兰妮的歌词。 所以这就是为什么我们有这个 该词在这里。 概率加加。 有道理? 不是吗? 确定。 和最后一个是刚才的概率 “婴儿”的不 真正的问题那么多。 但它的概率 看到“宝贝”的英文。 我们通常不关心 很多关于这个词。 这是否有道理? 所以加加的概率是 称为先验概率 之类的加加。 因为它只是意味着,请问是什么 有那个类的概率 - 这是加加 - 只是在一般情况下,刚 没有条件。 然后当我有概率 加加给“宝贝”,我们把它叫做加 流泪的概率,因为它是 具有的概率 加加给出了一些证据。 所以我给你证据 我看到这个词的婴儿和 这首歌有意义吗? 确定。 所以,如果我计算过,每个 该歌曲的Lady Gaga, 是什么将是 - 显然,我不能动了。 加加的概率将是 类似,在2 24,次数的1/2, 在2比53。 如果你知道它什么都无所谓 这些数字的来源。 但它只是一个数字,是怎么回事 为大于0,对不对? 然后当我做凯蒂·佩里,该 “宝宝”的概率给出卡提现 已经为0,对不对? 因为没有“宝贝” 在凯蒂·佩里。 是这样,那么这变成0,并且加加 胜,这意味着Gaga是 大概是歌手。 这是否有道理? 确定。 所以,如果我想使这个更正式, 我其实可以做一个模型 多个单词。 因此,让我们说我有话 一样,“宝贝,我 着火了,“什么的。 因此,它具有多个单词。 在这种情况下,你可以看到 这“宝贝”是加加, 但它不是在凯蒂。 与“火”是凯蒂,但 它不是在Gaga的,对不对? 因此,它变得棘手,对吧? 因为它似乎,你几乎 有两者之间的领带。 所以你要做的就是承担 独立性的话之一。 所以基本上这是什么意思是, 我只是计算是什么 看到的概率“宝贝”,什么是 看到的可能性“我”和 “是”和“上”和“火” 所有独立。 然后我乘他们。 而我看​​到的是概率 的看到整个句子。 有意义吗? 所以基本上,如果我只有一个字, 我想要找的是阿根廷最大, 这意味着,那是什么是类 给我最高的概率是多少? 那么,什么是给类 我的最高概率 类的概率给定的单词。 因此,在这种情况下,给予加加“宝贝”。 或凯蒂给“宝贝”。有意义吗? 而刚刚从贝叶斯,那 方程式我发现, 我们创建这个分数。 唯一的一点是,你看到 字中给出的概率 根据班级的变化 在类的吧? 的“宝贝”s表示我有多少 在Gaga是从凯蒂不同。 类的概率也 的变化,因为它只是数 歌曲他们每个人都有。 但这个词本身的概率 将是相同的所有的 艺术家,对不对? 这样的单词的概率是 只是,什么是概率 看到在这个词 英语? 因此,它是相同的所有的人。 所以,因为这是不变的,我们可以只 下降的,根本没有在意它。 因此,这将是真正的 方程我们正在寻找。 如果我有多个的话,我 仍然会有事先 概率在这里。 唯一的一点是,我乘 的概率 所有其他的话。 所以我乘他们。 有意义吗? 它看起来很奇怪,但基本上意味着, 计算前的类,并 然后由每个的概率相乘 在这个类是的话。 而且你知道的概率 给定一类字将是对 你看到这个词次数 该类别,由数除以 也就是说你必须在这 类一般。 有意义吗? 这是在多么“宝贝”是2 字的数目是 我在歌词中。 因此,只要频率。 但有一件事。 还记得我是怎么显示的 的“宝贝”是概率的歌词 从凯蒂·佩里为0,只是因为凯蒂 佩里并没有在所有有“宝贝”? 但它听起来有点刺耳,只是 简单地说,歌词不能从 只是因为它们没有一个艺术家 该单词在特定随时。 所以你可以只说,好吧,如果你 没有这个字,我要去 给你一个较低的概率, 但我只是不打算 给你0的时候了。 因为也许是类似, “火,火,火,火,”这是 完全凯蒂·佩里。 然后“宝贝”,它只是去 0的时候了,因为有一个 “宝贝”。 所以基本上我们做的是什么 所谓的拉普拉斯平滑。 这只是意味着我放弃 有些甚至可能的话 不存在的。 因此,我要做的是,当我 计算这个,我总是加1 分子中。 所以即使单词不存在,在 这种情况下,如果是0,我还是 计算此为1比 单词总数。 否则,我得到多少个字 我已经和我加1。 所以我就指望这两种情况。 有意义吗? 所以,现在让我们做一些编码。 我将不得不这样做相当快, 但它只是重要的是你 人理解的概念。 所以,我们正在试图做的 也正是实施这一 的事情,我只是说 - 我希望你把歌词从 Lady Gaga和Katy Perry的。 和节目是要能够 说,如果这些新的歌词是从加加 或凯蒂·佩里。 有意义吗? 确定。 所以,我有这个计划我要去 打电话classify.py。 所以这是Python的。 这是一种新的编程语言。 它是在某些非常相似 方式到C和PHP。 这是类似的,因为如果你想 明知℃之后学习Python,它的 真的没有那么多的挑战 只是因为Python是容易得多 比C,首先。 和很多东西都已经 实现你。 那么究竟像PHP有函数 排序的列表,或是添加一些东西 到一个数组,或者胡说,胡说,胡说。 Python有所有这些为好。 所以我只是要迅速解释 我们如何能做到分类 问题在这里。 所以我们可以说,在这种情况下,我有 从Gaga和Katy Perry的歌词。 我有那些歌词的方式是, 歌词的第一个字是 艺术家的名字,以及 剩下的就是歌词。 所以我们可以说,我在这个名单 其中第一个是歌词由加加。 所以在这里,我在正确的轨道。 而下一个是凯蒂和 它也有歌词。 所以,你这是怎么声明 在Python中的变量。 你不必给的数据类型。 你只写“的歌词,” 那种喜欢在PHP。 有意义吗? 那么,什么是我的事 计算,以便能够计算出 概率? 我要计算“先验” 每一个不同的 类,我有。 我要计算“后验” 或相当多的概率 每一个不同的词 我可以为每个艺术家。 所以在加加,例如,我要去 到有多少次我看到一个列表 每个单词。 有意义吗? 最后,我只是有一个 列表被称为“字”,也就是刚准备 有多少字我 为每个艺术家。 因此,对于加加,例如,当我看 的歌词,我,我想,24 字总。 所以这个列表只是将不得不 加加24,和Katy另一个号码。 有意义吗? 确定。 所以,现在,居然,让我们 去编码。 所以在Python中,你实际上可以 返回一堆不同 活动从一个函数。 所以我打算创造这个功能 称为“有条件的”,这是打算 返回所有这些事情时, “先验”的“概率”,并 “字样。”因此,“有条件的”,它是 将要调入“的歌词。” 所以,现在我要你真正 写这个函数。 所以,我可以写这个的方式 功能是我刚才定义这 功能与“高清”。所以我做了“高清 有条件的,“和它的服用 “的歌词。”以及这是要干什么 是,首先,我有我的先验 我想计算。 这样我可以做到这一点的方法是创建 在Python中,字典的 几乎是同样的事情作为一个哈希 表,或者它就像一个迭代 数组在PHP。 这是我声明一个字典。 基本上这是什么意思是, 加加的先验概率是0.5,例如,如果 歌词50%是由 加加,50%是由凯蒂。 有意义吗? 所以,我必须弄清楚如何 计算先验。 接下来的那些我必须做的,还可以, 是概率和单词。 所以加加的概率是列表 所有的概率,我 对每个单词为加加。 所以,如果我去加加的概率 “宝贝”为例,它会给我 像2比24在这种情况下。 有意义吗? 于是我去“概率”,进入 “加加”斗具有所有列表 加加的话,那我去“宝贝” 而我看​​到的概率。 最后我有这个 “字”字典。 所以在这里,“概率”。进而 “字样。”所以,如果我这样做“的话,”“嘎嘎,” 什么将要发生的是它的 要给我24,说我 有内Gaga的歌词24个字。 有道理? 所以在这里,“话”等于DAH-DAH-DAH。 行 所以,我什么都做的是我要去 遍历每个歌词,所以 每个串的那 我已经在列表中。 我要去计算那些事 每个候选人。 有道理? 所以,我必须做一个for循环。 所以在Python中有什么我可以做的是“线路 在抒情诗。“同样的事,作为一个 “为每一个”在PHP语句。 记住我,如果它是PHP怎么可能 说“每个歌词 线。“有道理? 所以我每次走的线路,在这个 情况下,这个字符串和下一 字符串,以便为每个什么我是线 要做的是首先,我要 拆分此行成的名单 字以空格分隔。 所以,关于Python的很酷的事情是, 你可能只是谷歌像“我怎么能 字符串分割成单词? “和它的 要告诉你如何做到这一点。 而做到这一点的方式,它只是“行 = line.split()“,它基本上是 将会给你一个列表 每个在这里的话。 有道理? 所以,现在我这样做,我想知道 谁是那首歌的歌手。 要做到这一点我必须得到 数组的第一个元素,对不对? 所以,我只能说我“歌手 =行(0)“有道理? 然后我需要做的是,首先 所有,我要更新多少 也就是说我有下“加加”。所以我只是 要计算多少字我 在这个列表中,右键? 因为这是我多少字有 在歌词中,我只是要 将它添加到“加加”阵列。 这是否有道理? 太不注重语法。 多思考的概念。 这是最重要的部分。 确定。 因此,我可以做到这一点的是,如果“加加”是 已经在该列表中,因此“如果歌手在 话“,这意味着我已经 由加加有话。 我只是想添加额外的 是这个意思。 所以,我要做的就是“字(歌手) + = LEN(线路) - 1“。 然后我可以做的 长行。 那么有多少个元素我 在阵列中。 而我所要做的零下1只是因为 该阵列的第一个元素是刚 一个歌手,这些都不是歌词。 有道理? 确定。 “否则,”这意味着我要实际 加加插入到列表中。 所以,我只是做“字(歌手) = LEN(线路) - 1,“对不起。 因此,两者之间的唯一区别 行的是,这一次,它不 还存在,所以我只是 初始化它。 这其中实际上,我加入。 确定。 因此,这是增加的话。 现在我想添加到先验。 所以,我怎么计算先验? 先验概率可以计算 通过多少次。 你这么有多少次看到歌手 在所有的歌手,你的 有,对不对? 因此,对于Gaga和凯蒂·佩里, 在这种情况下,我看到加加 一次,Katy Perry的一次。 所以基本上是先验的加加 和凯蒂·佩里会 仅仅是一个,对不对? 你有多少次 我看到了艺术家。 所以这是很容易计算。 我可以只是一些类似,像“如果 歌手先验,“我只是去 加入1〜他们的先验箱。 所以,“先验(唱)”+ = 1“,然后”其他“ 我该怎么办“先验(歌手) = 1“。有道理? 所以,如果它不存在,我只是把 为1,否则我只加1。 好了,现在所有的,我已经离开办 也是每个单词添加到 概率。 所以,我必须指望有多少次 我看到每个单词。 所以,我只是需要做的另一 for循环中的行。 我要去这样做的第一件事就是 检查的歌手已经有 概率数组。 所以我检查,如果歌手不 有一个概率的数组,我只是 要初始化一个用于它们。 它甚至不是一个数组,对不起, 这是一本字典。 所以歌手的概率是怎么回事 是一个开放的字典,所以我 只是初始化字典吧。 好不好? 现在我可以真正做一个for循环 计算每个单词' 概率。 确定。 因此,我所能做的就是一个for循环。 所以我只是去遍历 在阵列。 这样我可以做到这一点在Python的方式 是“因为我在范围内。”从1 因为我要开始第二 元件,因为第一个是 歌手名。 所以从1至 长行。 当我做它的范围实际上从去 喜欢这里从1到的LEN 行减1。 所以它已经这样做这样做的那件事 Ñ​​减1为数组,这是非常 方便。 有道理? 因此,对于每一个这些,有什么我要去 做的是,就像在另外一个, 我要检查,如果在这个字 在该线的位置已在 概率。 然后我说在这里,概率 也就是说,在我把 “概率(歌手)”。 这样的歌手的名字。 所以,如果它已经在 “probabilit(歌手)”,这意味着我 要加1,所以我要去 做“的概率(歌手)”,以及 字被称为“线(一)”。 我要加1和“其他”我只是 将它初始化为1。 “行(一)”。 有道理? 所以,我计算出的所有阵列。 所以,现在的一切,我所要做的 这个人是刚刚“回归先验, 概率和单词。“让我们 看看是否有任何好不好。 似乎一切工作至今。 所以,这是有道理的? 以某种方式? 确定。 所以,现在我把所有的可能性。 所以,现在我已经离开的唯一的事 只是有这种事情, 计算出的所有产品 当我拿到歌词的概率。 因此,让我们说,我想现在打电话 这个功能“分类()”和 东西函数接受 只是一个说法。 比方说,“宝贝,我着火了”,它的 要弄清楚什么是 概率,这是加加? 这是概率 这是凯蒂? 听起来不错? 所以我只是将不得不创建一个 所谓的新功能“分类()”和 它会采取一些 歌词也是如此。 而除了歌词我也 有送先验的 概率和单词。 所以我打算送歌词,先验, 概率的话。 因此,这是采取的歌词,先验, 概率的话。 那么,它有什么作用? 它基本上是要通过所有 可能的候选人,你 有作为一名歌手。 和那些人在那里候选人? 他们是在先验,对不对? 所以,我有所有这些存在的。 所以,我要准备一本字典 所有可能的候选人。 然后在每个候选 先验概率,因此它意味着它要 是加加,凯蒂如果我有 更会比较。 我要开始计算 这个概率。 正如我们在看到的概率 PowerPoint是事先倍 每一个的产品 其他可能性。 所以,我在这里可以这样做。 我可以做的是概率 刚开始之前。 因此,先验的候选人。 对不对? 现在我不得不遍历所有的 我有在歌词是词 能够添加的概率 为他们每个人,好不好? 因此,“为字的歌词”我什么都 做的是,如果该字是在 “概率(候选人)”,这 也就是说,它是一个字的 候选人在他们的歌词 - 例如,“婴儿”的加加 - 我现在要做的是, 概率将被乘以 由加的概率1 候选人的那个词。 它被称为“字”。 这除以单词数 我对那个候选人。 字的总数,我有 对于我期待的歌手。 “否则”。这意味着它是一个新词 所以它会像例如 “火”的Lady Gaga的。 所以,我只想做超过1 “字(候选人)”。 所以,我不希望把这个词在这里。 所以它的将是基本 复制并粘贴此。 但我要删除这部分。 所以它只是将是1比那。 听起来不错? 现在到了最后,我只是要 印上候选人的名字和 你有概率 在他们的歌词有标。 有道理? 我其实不连 需要这本词典。 有道理? 所以,让我们看看这个实际工作。 所以,如果我运行这个,也没有工作。 等待一秒钟。 “言(候选人)”,“字(候选人)”, 这是 该数组的名称。 好了,所以,它说,有一些bug 候选的先验。 让我冷静下来一点点。 确定。 让我们试试。 确定。 所以,它给了凯蒂·佩里有这个 在此乘以10的概率 减去7,和加加有这个 乘以10的负6。 所以你看它表明加加 具有更高的概率。 因此,“宝贝,我在火”是 可能是Gaga的歌。 有道理? 所以这就是我们所做的。 此代码将被发布到网上, 所以你们可以检查出来。 也许用一些它,如果你想 做项目或类似的事情。 确定。 这只是为了显示 怎样计算 语言学的代码如下所示。 但是,现在让我们去更多 高层次的东西。 确定。 因此,其他的问题我 说的是 - 分割问题 是第一人。 所以,你必须在这里的日本。 然后就看到了 有没有空格。 因此,这基本上意味着它 椅子的顶部,对不对? 你说日语吗? 这是椅子的顶部,对不对? 学生:我不知道是什么 汉字那边。 LUCAS FREITAS:这是[操日语] 确定。 所以它基本上意味着顶部​​的椅子。 所以,如果你不得不把一个空间 这将是在这里。 然后你有[?上田山。 ?] 这基本上意味着上田先生。 而你看到的“田”和你有一个 空间,然后“圣”。所以你看到, 在这里你“UE”就像本身。 在这里,它有一个字符 在它旁边。 所以它不像这些语言 字义的单词,这样你 刚刚投入了大量的空间。 字符之间的相互关系。 他们能在一起 像二,三,一。 所以,你实际上必须建立某种 的方式把这些空间。 而这件事情是,每当你得到 从这些亚洲语言的数据, 一切都无节。 因为没有人谁写日本 还是中国写为空格。 当你在写中国, 日本你刚才写的一切 没有空格。 它甚至没有任何意义 把空间。 这样的话,当你从得到的数据,一些 东亚语言,如果你想 其实做一些与 你必须先分段。 认为这样做的实例中的 不带空格的歌词。 所以,你拥有的唯一歌词 将句子,对不对? 用句点分隔。 但是刚走了句会 没有真正在给予信息帮助 是谁的歌词是由。 对不对? 所以,你应该首先将空间。 你那么如何才能做到这一点? 所以后来谈到语言的想法 模型这是真的东西 用于计算重要 语言学。 所以一个语言模型基本上是一个 表概率的表演 首先什么是概率 具有一种语言的单词? 那么如何展示频繁的一句话就是。 然后还展示了关系 在一个句子中词与词之间。 所以主要的想法是,如果一个陌生人来到 给你说了一句话 你,什么是概率,对于 例如,“这是我妹妹[?GTF”?] 是那句话的人说的吗? 所以,很显然有些句子 比其他人更常见。 例如,“早上好”或“好 晚上,“或”嘿,“得多 比最常见的句子 我们有一个英语。 那么,为什么那些句子 更频繁? 首先,这是因为你有 话是更频繁。 因此,举例来说,如果你说,狗是 大,而狗是巨大的,你 通常可能听到狗是大 更多的时候,因为“大”更 频繁的英语不是“巨大”。 所以,1的 事情是这个词的频率。 这是真正的第二件事 重要的仅仅是 顺序的话。 所以,经常会说“猫是 里面的箱子。“但你通常不 见“盒子里面是猫。”所以 你看,有一些重要 中的词的顺序。 你不能只是说,这两个 句子具有相同的概率 仅仅是因为他们具有相同的话。 实际上,你要关心 关于秩序良好。 有意义吗? 那么,我们该怎么办? 所以我可能会尝试帮你吗? 我试图让你我们 调用的n-gram模型。 所以,一个n-gram模型的基本假设 对于每个字 你在一个句子里。 它具有的概率 字不仅有依赖于 频率在语言文字的, 同时也对词 都围绕着它。 因此,举例来说,通常当你看到 像上或在你 可能会看到一个 名词之后,对不对? 因为当你有一个介词 通常它需要后一个名词。 或者如果你有一个动词是及物动词 你通常要 有一个名词短语。 因此,这将有一个名词 围绕它的地方。 所以,基本上,它的作用在于,它 认为具有的概率 话彼此相邻,当 你的计算 概率句子。 而这正是一种语言 模型基本上是。 只是说有什么可能性 的具有特定 句子的语言? 那么,为什么是有用的,基本上是? 并首先什么是 一个n-gram模型,然后呢? 所以,一个n-gram模型意味着, 每个字取决于 接下来的N减1的话。 所以,基本上,这意味着如果我看起来, 例如,在CS50 TF时 我计算的概率 这句话,你会像“ 具有单词“the”的概率 具有次的概率“的 具有CS50“时间的概率 “该CS50 TF。”所以,基本上,我算 伸展它的所有可能的方式。 然后通常当你这样做, 作为一个项目,你把电量为 一个低的值。 所以,通常有双字母组或卦。 所以,你只算两个词,一个 组两个词,或者三个字, 只为性能问题。 也因为也许如果你有 像“的CS50 TF。”当你 有“TF”,这是非常重要的, “CS50”是在它旁边,对不对? 这两件事通常是 彼此相邻。 如果你觉得“TF”,它可能 将有哪些 类它TF'ing的。 也是“”真的很重要 为CS50 TF。 但是,如果你有一些像“CS50 TF去上课,并给了他们 学生们一些糖果。“”糖果“和”the“ 没有关系真的,对不对? 他们是彼此如此遥远的 它并不真正的问题是什么 也就是说你有。 所以,做一个两字或卦,它 只是意味着你限制 自己的一些话 这是各地。 有意义吗? 所以,当你想要做的分割, 基本上,你想要做什么见 什么都是可能的方式, 你可以分段的句子。 这样,你看到的是什么 每个句子的概率 现有的语言吗? 所以,你做什么就好了,好了,让 我试图把一个空间在这里。 所以,你把一个空间有 和你看到的是什么 那句话的概率是多少? 那么你是喜欢,好吧,也许 这不太好。 所以我把一个空间有一个空格 在那里,你的计算 概率现在,你看到 这是一个更高的概率。 所以,这就是所谓的TANGO的算法 分割算法,这是 实际的东西,会是真的 凉爽的项目,该项目 基本上采取不分段全文 可能是日本人还是中国人也许 英语没有空格,并试图把 字和它之间的空间 通过使用一个语言模型,并 想看看是最高的 概率可以得到。 确定。 因此,这是分割。 现在的语法。 这样,句法被用于 这么多东西现在。 因此,对于图搜索,对于Siri的供 几乎任何类型的自然 语言处理你。 那么什么是重要的 有关语法的东西呢? 因此,句子一般有 就是我们所说的成分。 这是一种像组词 有在句中的功能。 他们不能真正 彼此分开。 所以,如果我说,例如,“劳伦爱 米洛。“我知道,”劳伦“是一个 成分,然后“爱 米洛“也是一个又一个。 因为你不能说像“劳伦米洛 喜欢“具有相同的含义。 它不会有 相同的含义。 或者,我不能说像“米洛·劳伦 爱。“不是任何事物都有相同的 这意味着这样做。 因此,这两个更重要的事情 语法是词法类型是 基本的功能,你 自己有话。 所以,你要知道,“劳伦” 与“米洛”都是名词。 “爱”是一个动词。 第二重要的是 他们是短语的类型。 所以,你知道,“爱米洛” 实际上是一个口头短语。 所以,当我说“劳伦,”我知道, 劳伦是做什么的。 她在干什么? 她爱米洛。 所以这是一个整体的东西。 但它的成分是 一个名词和一个动词。 但同时,他们提出了一个动词短语。 所以,我们可以真正做 计算语言学? 所以,如果我有东西,例如 “朋友佳佳的。”我认为如果我只是 没有一个语法树我想知道 “朋友”是一个名词短语是 “艾里逊的”名词,然后是 “的”介词短语在这 一个主张和“佳佳”是一个名词。 有什么我可以做的是教给我的电脑 当我有一个名词短语之一, 然后一个介词短语。 所以在这种情况下,“朋友”,然后“ 米洛“我知道这意味着 NP2,第二个,拥有NP1。 所以,我可以创造某种关系, 某种功能吧。 所以每当我看到这个结构, 正好与“朋友的匹配 佳佳,“我知道佳佳 拥有朋友。 所以,朋友们的东西 佳佳了。 有道理? 因此,这基本上是什么 图搜索一样。 它只是创建规则 对于很多事情。 所以,“朋友阿利森的”,“我的朋友们 谁住在剑桥“,”我的朋友们 谁去哈佛。“它创造规则 对于所有这些事情。 现在的机器翻译。 因此,机器翻译也 一些统计。 而实际上,如果你涉足 计算语言学,很多 你的东西将是统计数据。 所以当我在做的例子有 有很多可能性的,我是 计算,然后你到这个 极少数这是最后的 概率,这就是 给你答案。 机器翻译还使用 统计模型。 如果你要考虑机器的 翻译在最简单的可能 顺便问一下,你能想到的仅仅是 翻译一字一句,对不对? 当你学习一门语言的 第一次,这通常是什么 你这样做,对不对? 如果你想你翻译一个句子 在你的语言的语言 你正在学习,通常首先,你 翻译的每个字 个别地,然后尝试 把单词到位。 所以,如果我想翻译这个, [发言葡萄牙语] 这意味着“白猫跑掉了。” 如果我想从翻译 葡萄牙语到英语,我 可以做的是,第一,我只是 逐字翻译单词。 因此,“O”是“,”“加托”,“猫” “布兰科”,“白”,然后“fugio”是 “跑了。” 于是我把所有的话在这里, 但他们不是为了。 这就像“猫白跑了” 这是不合语法。 这样的话,我可以有第二个步骤,即 将要寻找的理想 对于每个字的位置。 所以我知道,其实我是想有 “白猫”,而不是“猫白。”所以 有什么我可以做的是,最天真的方法 将创建所有 可能的排列 字位置。 然后看看哪一个具有 根据概率最高 我的语言模型。 然后当我找到一个有 概率最高的,这是 可能是“白猫跑了,” 这是我的翻译。 这是说明一个简单的方法 怎么了很多机器翻译 算法工作。 这是否有道理? 这也是一些真正令人兴奋的 那你们也许可以探索一个 最后的项目,是吗? 学生:嗯,你说这是 天真的方式,有啥 非幼稚的方式? LUCAS FREITAS:非幼稚的方式? 确定。 所以这是坏的第一件事 这个方法是我刚翻译 也就是说,一个字一个字。 但有时你必须说的话 可以有多种译文。 我会尽量想 的东西。 例如,在葡萄牙可以“漫画” 要么是“裂伤”或“套筒”。所以 当你试图翻译单词 通过文字,它可能给你 东西是没有意义的。 所以,你其实是要你在所有 的可能的翻译 单词和看,首先, 什么是顺序。 我们都在谈论permutating 事情? 要查看所有可能的订单, 选择一个具有最高 概率是多少? 您也可以选择所有可能的 翻译每个 单词,然后看 - 结合的排列 - 哪一个具有最高的概率。 另外,你也可以看看不 只字,但短语。 这样你就可以分析之间的关系 这些词汇,然后得到一个 更好的翻译建议。 另外别的东西,所以这学期 实际上,我在做研究 中国英语机器翻译, 从这么翻译 中国成英文。 而我们做的事情是,除了使用 一个统计模型,它只是 再看到的可能性 在一个句子中的某个位置,我 居然还加入一些语法来我 模型,说,哦,如果我看到这样的 建筑,这就是我想要的 改变它,当我翻译。 所以,你也可以添加某种 语法元素以使 翻译更高效 和更精确。 确定。 所以你怎么能上手,如果你想 做一下计算 语言学? 首先,你选择一个项目 涉及语言。 因此,有这么多的在那里。 有这么多的事情可以做。 然后可以把一个模型 您可以使用。 通常,这意味着思维 假设,因为喜欢,呵呵,当我 喜欢的歌词思维。 我当时想,好吧,如果我想弄清楚 出是谁写的,我可能要 看的话的人使用, 看看谁使用这个词非常频繁。 所以尽量作出假设及 再想想模型。 然后你也可以在网上搜索 什么样的问题,你有, 而且它要建议 你的模型,也许 仿照那个东西好。 ,你也可以随时给我发电子邮件。 me@lfreitas.com。 而且我可以回答你的问题。 我们甚至可能会碰见这样我就可以 给对方法的建议 实施项目。 我的意思是,如果你卷入到 计算语言学,这是怎么回事 是巨大的。 你会看到有 这么多的潜力。 和业界都希望雇佣 你是因为有那么糟糕。 所以,我希望你们喜欢这个。 如果你们有任何问题, 您可以在此之后问我。 但是谢谢你。