JEFFREY LICHT:您好。 我杰弗里·利希特。 而我在这里跟大家介绍一下 哈佛大学图书馆和建筑明天的 今天的图书馆,我猜。 所以这里的背景下, 本届会议的球场 本质上是有 很多书目数据 可在哈佛图书馆。 并有机会, 通过一些工具 而这正在开发的一个项目, 以获得信息的访问 并把它带到的地方是, 哈佛大学图书馆是不是现在做, 做新的东西呢,实验 并发挥与它周围。 这样的入口点,这是一个API 所谓哈佛图书馆云,这 是一个开放的元数据服务器, 我就说说现在。 这样的背景是,有一 很多东西在哈佛图书馆。 我们有超过13万条书目 记录,数以百万计的图像, 和成千上万的检索工具,它 基本上文件描述 收藏,说什么 在他们的论文盒 等等,代表了 一万个人文件。 而且还有一个很大的 信息库中有 有关内容如何使用的 可能是感兴趣的人 谁可能要与它合作。 因此,所有的信息 图书馆有元数据。 这样的元数据是关于数据的数据。 所以,当我们谈论 这就是信息 可通过库 云的提供, 它不一定 实际文件 本身,不一定全 书籍或完整的图像文字, 虽然实际上可能是这种情况。 但它确实 关于数据的信息。 所以,你能想到的编目 信息,电话号码,科目, 多少的副本 本书有什么 是的版本,有哪些 格式,作者,等等。 因此,有大量的信息约 集合中的信息, 本身就是一种天生有用。 虽然如果你 做了深入的研究, 你显然希望得到实际 内容本身看数据, 在方面的元数据是非常有用的 既胼分析作为一个整体, 像集合中有什么事情。 他们如何与? 它可以帮助你真正找到其他的东西, 这是它真正的主要目的。 的点 元数据和目录 是帮助你找到所有 这就是信息 现有的馆藏之内。 因此,这是元数据的一个例子 一本书的哈佛大学图书馆。 所以它的存在。 你可以看到它的 实际上中等复杂。 和元数据的价值的一部分 哈佛图书馆系统内 是,它已经排序 建成了由编目 组装应用的人 大量的专业知识和技能 并认为随着时间的推移, 其中有一个很大的价值。 所以,如果你看看这个纪录 附注的爱丽丝,你可以找到 你已经拿到了冠军,谁写的,在 作者和所有不同的科目 人们已编目成。 你可以看到另外还有,在 除了很多好的信息 在这里,有一些重复。 有很多复杂的那 通过元数据反映 你有。 因此,这本书的一个标题是 爱丽丝梦游仙境。 所以这是一个带注释 版本的书。 但它也被称为注释 爱丽丝,爱丽丝梦游 仙境因为 它的一些东西, 马丁·加德纳写道: 并注明了这本书。 并有很多伟大的信息 关于逻辑谜题和东西 在爱丽丝你 大概不知道。 所以,你应该去阅读它。 但是你可以看到有 很多细节在这里, 包括标识符,当它 创建,它是从哪里来的, 在哈佛的条款 系统,等等。 所以这是一个样本 元数据的类型 你可能会看到一本书中 哈佛大学图书馆收藏。 这是完全不同的东西。 因此,有一个叫做系统 VIA哈佛,基本上 被编目的图像和艺术对象 并在整个哈佛视觉的东西, 并增加了一些元数据 对他们来说,他们的分类, 并且,在某些情况下,提供 小缩略图 你可以采取 看看,如果你愿意的话。 因此,这是一个例子 你有一个板块的元数据 从,据推测,爱丽丝梦游仙境。 你可以看到有 少在这里的元数据。 这只是一个不同类型的对象。 所以有较少的信息。 你大多有一个事实,即,呼叫 数,基本上是谁创造了​​它, - 我们不知道在创建时。 - 兼标题。 另一个例子。 这是一个发现的援助。 所以这是刘易斯的集合 卡罗尔的论文在哈佛。 因此,这说明了什么 在该集合。 所以有人走过,并 通过所有的箱子看 而其编,给予一定的背景, 写的什么是这里的总结。 如果你看看 进一步在此,本 那张页面和页面 和页面,但会告诉你 什么信什么 建于什么样箱 存在于整个集合。 不过这是后话 ,如果你在哈佛, 你可以去和实际的物理期待 起来,大概看看。 所以这是所有伟大的。 这种元数据的有用。 这是哈佛图书馆系统。 有在线工具,你在哪里 可以去看看它, 看到它,并搜寻它。 你可以切片和切块 它在许多不同的方式。 但它确实只有当 你是一个人坐下 在Web浏览器或某事或 你的手机,并通过它浏览。 它不是在真正可用 任何一种可用的时尚 对于其它系统,或 其他计算机使用, 不与内部系统 哈佛图书馆 但在外界系统, 只是其他人一般。 所以,问题是,我们如何能 使其向计算机提供 这样我们就可以做更多有趣的 东西与它不仅仅是 浏览它自己呢? 那么,为什么要这么做? 有很多的可能性。 一个是你可以建立一个完全 浏览不同的方式 这是可用的内容 通过哈佛大学图书馆。 我会告诉你一 后来被称为Stacklife, 它有一个完全不同的 承担寻找的内容。 你可以建立一个推荐引擎。 所以哈佛库不处于 说法业务,你喜欢这本书。 然后去看看这17等 你可能会感兴趣的图书 或者这18其他图像。 但是,可以肯定 是一个有价值的功能。 并给出了元数据,它可能 有可能把该在一起。 你可能有不同的需求 搜索的内容方面, 如可能,尽管工具 可用的库使 可用,您可能希望 以不同的方式来搜索 或优化用于特定用途的情况下, 这也许是非常专业的。 也许只有少数 人在世界上谁 要搜索的内容 以这种方式,但它 将是巨大的,如果我们 可以让他们做到这一点。 有很多的分析 在短短的人们如何 使用这将是真正的内容 有趣的了解,找出 什么书都被使用, 什么都没有,等等。 然后还有很多的 机会整合 与其他信息 那是在那里在网络上。 所以我们have-- 例如,NPR有 书评段, 他们采访 有关书籍的作者。 因此,这将是巨大的,如果你是 找了一本书,在哈佛 图书馆,和你说,OK,还有 过了笔者的采访。 让我们去看看那个。 或者有一个维基百科页面,作为 权威,学术参考 关于这本书,你 可能要看一看。 有这些类型的源 遍布网络。 并把它们放在一起 可能是一个伟大的使用 给别人看的 内容寻找的东西。 但它也没有 之类的话,你会 希望库负责 对于下降和追捕 所有这些不同的来源 和堵塞在一起 因为他们是不断变化的。 他们认为什么是重要的5月 不是你的想法是很重要的。 甚至更多的话,基本上有一个 很多东西我们都没有想到呢。 因此,如果我们可以打开这件事,更 除了半打左右的人, 谁在看这一个 定期能想到的想法 和按摩的数据,并 做他们想做的事情。 所以,我们想使这个 提供给世界的数据。 嗯,有一对夫妇的并发症。 之一是,该元数据 是在不同的系统。 它在不同的格式。 所以有一些正常化 这需要发生, 这是正常化的过程 把东西从不同的格式 并将其映射到一个单一格式 使得字段将匹配。 有一些版权限制。 奇怪的是,目录条目 一本书是对版权负责。 因此,即使它只是 从书中获得的信息, 它的版权保护。 并根据究竟是谁 创建元数据, 有可能是在谁的限制 可以分发,类似to-- 我不知道。 它可以是或可以不是类似于 这首歌的歌词的情况下, 例如。 所以,我们都知道该如何平移出。 所以,你需要避开这个问题。 然后另一块是 这有很多的数据。 所以,如果我是一个谁愿意工作 与数据或有一个很酷的想法, 处理14000000 我的笔记本电脑记录 可能是有问题的 并且难以管理。 所以,我们要减少 为人们的障碍 要能够与数据一起工作。 因此,办法,希望地址 所有这些问题是两部分。 其中之一就是建立一个平台,需要 从所有这些不同来源的数据 并加剧它,规范化, 丰富它,使 它在一个位置可用。 它使得它可以通过 一个公共API,人们可以调用。 因此,一个API是应用程序 编程接口。 它基本上是指一种 端点系统或技术 可以调用和找回数据的 的方式结构化格式 它可以被使用。 因此,它不依赖 要去网站 刮数据关闭 它,例如。 所以这是的主页 图书馆云项目API, 这实质上是它的两个版本。 所以它的第二次迭代 试图让所有的数据 提供给世界。 所以它的 http://api.lib.harvard.edu/v2/items。 而刚刚打破下来 一点点,这是什么意思 是,这是在API两个版本。 有一个版本的一个,这 我不想多谈。 但有一个版本之一。 如果你调用这个 API,你得到的物品。 和的想法的一部分 API是一个API是一个合同。 这件事情,是 不会改变的。 因此,例如, - 其原因是,如果我 建立某种制度的 将要使用的库云API 显示书籍或帮助人们找到 以独特的方式信息, 我们不希望发生 是我们去如何改变 该API的工作,突然 一切打破在终端用户侧。 所以,如果你正在做API的一部分 提供给世界,这是 很好的做法,把 在它的版本号这样的人 知道是什么版本,他们正在处理。 所以,如果我们决定找到一种更好的方法 使提供这些信息的, 我们可能会改变,要 调用三个版本。 所以大家谁仍然是使用 2版本,还是会正常工作。 但是,版本3将 所有的新东西。 所以这是一个API,但是这 真的看起来像一个URL。 还等什么,这是一个 例如是什么 称之为REST API,它可 以上只是一个普通的网络连接。 你其实可以 去它在浏览器中。 所以在这里我只是打开了Firefox和 去api.lib.harvard.edu/v2/items。 所以我在这里买到 基本上在第一页 从整个结果 设置,我们已经有了项目。 而且它在这里的XML格式。 而且它也被 通过Firefox的美化。 它实际上并不具备所有这些 小扩张和收缩 doohickeys这里。 这是形式的更好 版本的方式来看待它。 但是,这是告诉我们的是 我已经要求所有的项目。 因此,有13289475项。 我期待在第一次 10,起始位置为零 因为在计算机科学 我们总是从零开始。 而我在这里,如果我只是崩溃 这一点,你会看到我已经得到了10个项目。 如果我来看看一个项目,我可以 看到我有关于它的信息。 这是什么所谓MODS的形式。 所以我要切换 回到这里了一会儿。 好不好。 因此,让我们寻找的东西 具体的,因为第一项 发生时,你要拿出 通过整个集合 是,根据定义,是随机的。 因此,让我们来看看一些甜甜圈。 呵呵。 好不好。 所以甜甜圈。 因此,我们发现有80项 引用甜甜圈的集合。 我们期待在第一次10人。 现在,你可以在这里看到的方式, 我说我要找的甜甜圈, 我只是说的东西 URL的查询字符串。 所以,Q等于甜甜圈,你可以 看到更容易在这里一点点。 这基本上意味着有 一个规范的API,这 定义了所有的东西 这些参数的意思。 这意味着我们要 搜索一切为了甜甜圈。 因此,第一项在这里我们有 你可以看到标题是甜甜圈, 并且有一个叫做一个字幕 美国的激情,这一点,我想, 适当的。 有很多的different-- 一旦你到了点 获得的数据, 有很多不同的 格式,你可以让它进入。 并有不同的长处 和弱点为所有这些。 所以这一块,你可以看到 在这里,这种形式非常丰富。 和它的标准化。 所以这是一个特定的标题 场,字幕字段。 还有一个备用 标题,一个美国人激情。 有一个与它相关联的名称。 资源类型是文本。 有大量的信息 这里在这种格式。 但也有一堆 不同的格式。 所以我们刚才什么 看着是一种格式 所谓MODS,它代表 元数据对象描述服务, 有可能。 我其实不太肯定的 S.但它是一个相当复杂的格式。 它的默认格式。 但它是一个信守 的所有数据的丰富性 该图书馆有,因为 它非常接近于 图书馆内部使用。 这是一个标准,它是 在全国范围内使用, 世界各地的高校图书馆。 而且它是非常互通。 所以,如果你已经有了一个文件 这是MODS的格式, 你可以把那个给别人 其系统的理解MODS, 他们可以将其导入。 所以这是一个标准。 这是非常明确的,非常具体。 那是什么使得它 可互操作的,因为如果有人说, 这是一个在备用标题 记录,每个人都知道这意味着什么。 在另一面,这是非常复杂的。 所以,如果你看一看 在这里这个纪录, 如果我只是想获得 这个文件的标题, 这本书,这可能是甜甜圈, 美国的激情,解析出来 有点复杂。 而还有另一种 格式被称为都柏林核心, 这是一个非常非常简单的格式。 所以你在这里看到,有没有 标题,副标题,替​​代称号。 这里还有称号, 甜甜圈,一个美国人激情, 而另一个标题,美国的激情。 所以,当你在看什么形式 你想要得到的数据出来, 很多取决于如何 你要使用它。 您使用的 互操作性还是你 想要的东西,简单的说 可能是比较容易的工作? 在另一面,很多的 排序方式压扁了。 你可能会失去的细微差别 什么是特定领域的手段 如果你正在处理的都柏林核心, 你不会得到与MODS。 因此,这些都是两个格式 你可以走出API的。 基本上,我们保持 其背后的MODS的场景。 但是,我们可以给你它和MODS 都柏林核心和其他任何为好。 其他考虑因素 你要找的数据 是你能得到它的无论是JSON,这 代表JavaScript对象符号, 或XML,它代表 可扩展标记语言。 而这些数据均表示 具有完全相同的数据,正好 相同的字段。 但他们只是 语法不同。 因此,这是A-- 那么,就让我们进行切换。 所以这是我们查询 甜甜圈的XML格式。 如果我只是切换这是JSON, 我可以看到它看起来不一样。 所以,现在,这是同样的内容, 但不同的结构。 有较少的尖括号。 还有更简洁。 而这是一个格式,如果 工作在网络环境下, 你最有可能会 到想要使用,因为一个 的好东西大约是JSON 它是用JavaScript兼容。 所以,如果我写的Web应用程序,我可以拉 在JSON,只是用它直接工作。 而使用XML,这是一个 稍微有点复杂。 如此反复,这些都是有用的。 他们只是在不同的使用情况 人们可能会想使用它们。 好不好。 所以回API。 所以,我们可以搜索for-- 我举一个例子 寻找甜甜圈。 我们还可以搜索只是在一个 在此范围内特定领域。 因此,而不是搜索 整个记录, 我可以只搜索标题字段。 所以现在有25个东西, 具有甜甜圈的称号,其中之一 即将恢复 管理湿地 在圆环的孔的 计划,这可能是 我们期待并不一定是什么 因为当我们正在寻找甜甜圈。 您还可以,当你 处理一个API-- 有一个API的一部分是给 人们访问大数据集。 并有不同的一对夫妇 工具,你可以用它来做到这一点。 其一是,很简单,你 可浏览数据。 所以,就像你做一个查询 通过Web界面, 你可以看看一个页面, 第二页,第三页。 你可以这样做 通过API的事情。 你只需要在 明确的,你是怎么做到的。 因此,举例来说,如果我要找 我的第一个查询在这里, 在那里我做了搜索的东西 在标题甜甜圈,我可以说, 和极限等于20,这意味着 给我的第一个20条记录,而不是 第10位,这是默认的, 因为我想看看20的时间。 或者,我可以说,设置 开始等于20和限 等于20,这将给 我记录了21至40。 所以我想的东西 带走这里 我们使用的查询字符串 上设置的查询参数。 它可以让你控制 你会得到什么。 您可以使用另一种工具 - 这是真正有用的 条款探索数据。 --is一些所谓的小面。 所以说,小面是 不一定普遍。 但是你们都见过。 如果你看一看 亚马逊,例如 你做一个搜索 甜甜圈的书籍, 在这里,他们已经有了一个系列丛书, 他们正在按类别分组, 你会得到不同的类别, 多少在每个类别的书籍 显示。 因此,这基本上是一个方面。 你把所有的书,1800 匹配甜甜圈亚马逊的书籍。 其中12个是在 早餐类别。 在糕点和烘焙21, 等,等等。 因此,这的确是一个非常有用 工具游览内容 在图书馆内,以及 因为当你看一个方面, 它给你什么科目的想法 存在的,喜欢什么类型的科目 是你的查询集内最流行的。 它可以帮助你赶走和探索。 因此,我们可以做同样的事情。 如果我们要使用的 API,看看方面, 我们添加另一个参数 我们的朋友的查询字符串。 所以面等于逗号分隔 是我们想要的面名单。 这样的刻面中的一个可能是主题。 另一种可能是语言。 所以,如果我们运行的查询,我们get-- 它看起来非常这里一样。 但是,我们已经添加到最后 列表的一组小刻面。 因此,我们有一个叫做主题方面。 因此,这是在告诉我们,如果我期待 在我80结果从甜甜圈查询, 其中13个有 受到美国。 有三个主题甜甜圈。 有三个主题 湿地修复, 这可能是我们在甜甜圈洞。 他们两个人,辛普森, 等,等等。 因此,这可以是如果有用 要缩小搜索范围。 它可以帮助你做到这一点。 特别是如果你有 不止,说80的效果。 同样,我们也问 对于语言方面。 因此,如果我们看看我们的结果,我们可以看到76 他们都是英文的,四家在法国, 两人在西班牙,2,我认为这是 未定义或未知,荷兰和拉丁美洲。 所以我觉得拉丁 甜甜圈结果,再次 有无关焙烤食品。 不过你去那里。 如此这是那种你展示 如何将数据内容取回 从API刚刚经历 网页浏览器,这是伟大的。 但它不是真正的你会 通常是用在为它的API。 你怎么这么一个例子 能真正做到这一点是我 写了一个超小程序, 其中,再次,做我的甜甜圈搜索 并选择了几个字段 并在表中显示它们。 所以这是非常多的 同样的内容,我们只是 锯了几场拉出。 所以冠军,名单 什么样的书的位置 大约是,语言, 等,等等。 那么如何实际发生的,因为 我想我们来看看一些代码, is-- 我们在这里是一个简单的HTML 页面,该页面显示的文本, 欢迎库云 然后显示结果的一个表。 并有明显的没有结果的 当页面被加载该表。 但是我们在做什么 是,首先,我们 加载一个名为库 jQuery的,这基本上是 一个JavaScript库,这使得它 很容易操纵的JavaScript 本身,HTML和创建网页, 客户端逻辑和网页。 所以,我们在这里是jQuery的 有一个名为Get方法, 基本上会去 一个URL,其​​中,在这种情况下, 这是熟悉的期待URL。 然后将得到的内容 该URL,然后在其上运行的功能。 所以我们说去api.lib.harvard / EDU。 搜索甜甜圈。 给我们20个记录。 然后运行该功能, 我选择,它传递的数据。 并且该数据是JSON那 从API得到恢复。 然后我们在说,内 数据有一个名为项目现场。 如果我去看看回 这些结果是在这里的, 有什么东西called-- 好了,这就是所谓的项目。 因此,这可能是因为。 而它的作用是 经过每个项目 然后调用另一个 功能上的每个项目。 而且基本功能 走的是价值 的项目,这是 基本上是个人记录 使我们能够拉出来的称号, 覆盖率和语言。 因此,我们呼吁每一个函数 我们得到了来自API回来项目。 如果你只是看看 在这一块就在这里, 我们正在做的是什么 我们要创建一个字符串, 这实质上是一些HTML标记 围着一张桌子,用value.title, 这是在标题 对象,value.coverage, 这是覆盖, - 我们正在做的检查 在这里,看看谁是不确定的 和隐藏它,如果它说不确定, 因为我们并不真正感兴趣 在这一点。 - 并且那么语言。 然后呢我们 做的是追加了 表即 确定此字符串这里。 和jQuery是如何工作的 正是这种在说 在查找表的想法 结果这个文本添加到它。 并且这是表与想法的结果。 所以,你到底是什么了 同是这个页面在这里。 而且为了查看source-- 嗯,源实际上不是 更新时发生。 所以你可以看到实际的 该表的结果,虽然在这里。 所以,这只是一个简单的例子 这样做对API一个很基本的查询 且在一些其它显示信息 形成,并没有做什么太花哨。 现在,另一个例子是像 申请由David温伯格 作为演示的这一点,这 基本上显示你 你如何混搭你的结果 从库云API获取 有,说,谷歌图书。 这里的想法是,我可以 运行对谷歌图书的查询, 得到一个完整的文本搜索,得到一些结果 背部,找出这些项目的 实际存在的霍利斯, 图书馆系统, 然后给我联系 回的那些项目。 所以,如果我搜索,它是 月黑风高的夜晚,我 拿回一堆结果 从谷歌,然后一个结果 这是一个时间皱纹。 这些都是存在的联系书籍 在哈佛图书馆系统。 所以我想在这里一点都不 这么多,这可能会或可能不会 是你所希望的方式 搜索库, 但它是一个完全不同的 方式是不提供给你 之前,就像你有没有办法做 在书的全文搜索,即使 是哈佛图书馆系统的一部分。 所以现在这是一种 你能做到这一点。 并且可以在显示它们 任何格式你想要的。 因此,这里的问题是,基本上, 我们正在开拓的人新途径 与数据一起工作。 另一块库云是 它有助于揭露一些使用数据的 该图书馆有。 所以,如果你去图书馆, 你正在寻找的书籍, 你不一定 其实有一个想法, 用于在所有项目 特定的主题,是什么 是人在 社区,无论是 定义为哈佛或 国家或你的类, 他们有什么最有用? 而图书馆实际上有一个 吨左右的信息是什么 是最有用的,因为如果有很多 人们检查了一本书, 告诉你一件事。 一定有某种原因 他们想一探究竟。 很多人把它放在储备。 如果是候补名单上的很多 类,告诉你一件事。 如果教职员工正在检查它 出了很多,本科生都没有, 告诉我的东西。 反之亦然,这也 告诉你一件事。 所以,这将是非常有趣的 把这些信息在那里,让 人们用它来帮助他们找到 图书馆系统内工作。 在另一面,这是 也有一些严重的隐私 关注,因为所述一个 图书馆的核心原则 是我们不打算在告诉 人什么其他人都在阅读。 即使你是说这 本书是签出四倍 在一个特定的月份, 可用于 回链接到特定 人因去匿名数据 并找出谁检查出来。 这样的方式,我们可以avoid-- 我们可以尝试提取的方式 所有信息的某些信号 不侵犯 任何人的隐私问题 基本上我们看 10年使用数据, - 因此,它是在一段很长的时间。 - 并且说,OK,让我们看看如何 很多时候,这工作时, 和谁在这一时期 时间,然后基本 还给了一些,我们称之为 一叠得分,这基本上 代表多少的被使用。 而且number-- 很多不同的计算 进入该号码。 - 但它是一个非常粗糙 公制,让你 如何略知一二 社会可能重视这项工作。 所以另一种连 更充实的应用 即利用 这是值得 所谓Stacklife,这实际上是 可通过主哈佛 图书馆门户网站。 所以,你去library.harvard.edu。 你会看到许多不同的 如何搜索库。 及它们中的一个被称为Stacklife。 而这是一个应用程序 浏览该库的内容, 但完全建立 关于这些API的顶部。 因此,有没有什么特别的东西 怎么回事幕后。 有没有访问 数据你没有。 它使用的API,为您提供 一个完全不同的浏览 的经验。 所以,如果我寻找爱丽丝 仙境在这种情况下, 我得到的结果看起来像 这一点,这是非常much-- 它非常类似于任何其它搜索 你可能只是在这种情况下做的, 我们通过排名的项目 stackscore,它给你 如何普及这些略知一二 项目是在社区内。 和这么清楚,爱丽丝梦游仙境 由沃尔特·迪斯尼是非常受欢迎的。 但你也可以看到前四 这里是那些你可能不actually-- 事情是高度使用, 但你马上可能不 与爱丽丝梦游仙境连接。 所以,我们的老朋友 注释爱丽丝在这里。 这样我就可以看看它。 现在我期待什么 在基本上是一个集of-- 我可以有注释 爱丽丝在这里。 我有一些关于它的信息。 我也有一个stackscore 的,在这种情况下,26。 这告诉我这类的大致 我们是如何走到这stackscore, 喜欢谁检查出来,怎么样 很多时候它被签出, 像教师或本科生,怎么 许多副本的图书馆有, 等,等等。 而且你还可以,够有趣 在这里,几乎浏览堆栈。 因此,这里的数据, 是您展示排序 一个虚拟的代表性 什么样的架子威力 看,如果你要像 所有图书馆的馆藏 并把它们放在一起 在一个无限的货架。 而好处是,我们can-- 首先,在 关于这些图书的元数据 常常告诉你,当它被发表。 它会告诉你多少页有。 它可能会告诉你的尺寸。 所以你可以看到这是这里反映 在书的大小方面。 然后我们可以使用 堆叠分数突出 具有较高分数的堆栈的书籍。 因此,如果它是更暗,这意味着, 据推测,它是用来更频繁。 因此,在这种情况下,我 去猜测,这 是爱丽丝梦游仙境的版本 这是非常常用并且最 访问,该库 有一种最副本。 所以,如果你正在寻找 为爱丽丝梦游仙境, 这可能是一个良好的开端。 然后在这里你还可以链接出 于说,亚马逊购买图书, 等,等等。 这里的关键,同样, 与其说是这 是浏览库的最佳方式 或合适的工具适合各种场合。 但它这样做的另一种方式。 并且通过使数据 可以通过一个API,它 是由非常简单的积木, 它允许你搜索的内容, 你可以建立的东西 这样,可以 格外 有价值的一些人。 这就是那种,就像我想 真正说的API是什么 什么是暴露,有一个整体 一堆东​​西在幕后,这 我只是触及简要 那种只是因为它是在这个 从在一个完全不同的角 如何做这样的事情条款 得到落实到位? 因此,一个API是一个标准 连接所有这些内容。 但要得到它那里, 第一件事情,我们不得不这样做 在齐心协力信息 书籍和影像 和发现艾滋病,收集 来自哈佛大学的各种系统文件。 阿列夫,VIA和OASIS是 该系统的名称。 并且它们基本上进入一个 管线,一个处理管线。 所以首先,我们得到的出口 从所有这些系统的文件。 我们将它们分割成不同的物品。 因此,我们有一个文件,这是技嘉, 其中有一百万条记录。 所以我们把它分解成单个项目。 然后,对于每个项目,我们将其转换 到MODS,是因为其中的一些 本身是MODS,其中一些则不是。 所以我们让他们都来 是在相同的格式。 然后有各个 浓缩步骤,在这里 我们添加更多的信息,以将数据 比在图书馆提供。 因此,我们需要添加的是,第一次 我们有什么库,持有它。 我们经历的步骤 计算stackscore。 我们经历的另一步 在条款中加入更多的元数据 什么样的人的集合 有可能增加this-- 人们在制作 项的集合。 它属于什么收藏? 如何有标记的人 在过去这内容? 然后你过滤掉,而你限制 的记录,因为正如我所说, 还有一些记录的,因为 版权原因,我们无法显示。 然后我们加载它们 成一种叫 Solr的,这不是一个拼写错误,但 是一个软件的名称 ,做搜索索引,其中 驱动所有的API背后的搜索。 然后它变得可用来 该API,人们可以使用它。 因此,这就像一个相当 简单的过程。 一个有趣的 事情大概是 我们正在处理 13万条记录 我们将要处理以上。 我们希望能够处理 这些在一个相对快速的方式。 这需要很长的时间来 处理1300万条记录。 因此,如何这条管道是 设置是你can-- 我猜的优势 管道,我们是问题 想在这里解决,就是 所有的转换,所有的 在这这些步骤 管道是分开的。 有没有相关性。 如果你正在处理 一本书的记录, 有一个在没有依赖性 另一本书之间。 所以,我们可以做的是基本, 在管道中的每个步骤, 我们把它放到云中的队列。 我正好是在Amazon Web Services。 因此,有列表, 说,万项 需要进行归一化和 转换为MODS格式。 我们旋转起来尽可能多的服务器 我们想,也许10台服务器。 并且每个服务器只 坐在那里,看上去在队列中, 看到这有一个需要 加工,拉它关闭队列, 处理它,和棍棒 它的下一个队列。 还等什么,让我们 做的是应用,从根本上, 尽可能多的硬件,因为我们希望这 的时间很短的时间的问题 以最快的速度处理数据 可能的话,这恐怕是唯一的, 现在在云计算的世界 我们可以提供基本的服务器 瞬间,是有用的。 因此,我们不必有 巨型服务器围坐 所有的时间做加工 这一个星期可能发生一次。 所以这主要是它。 有可用文档 对于图书馆云API项目 在这个URL,这将 可后来。 并请到看看 ,看看是否有什么事, 你有什么想法。 玩它。 鬼混。 并希望你能来 与一些伟大的事情。 谢谢。