1
00:00:00,000 --> 00:00:11,370

2
00:00:11,370 --> 00:00:12,370
JEFFREY LICHT：您好。

3
00:00:12,370 --> 00:00:13,550
我杰弗裡·利希特。

4
00:00:13,550 --> 00:00:17,890
而我在這裡跟大家介紹一下
哈佛大學圖書館和建築明天的

5
00:00:17,890 --> 00:00:20,870
今天的圖書館，我猜。

6
00:00:20,870 --> 00:00:23,040
所以這裡的背景下，
本屆會議的球場

7
00:00:23,040 --> 00:00:26,930
本質上是有
很多書目數據

8
00:00:26,930 --> 00:00:28,400
可在哈佛圖書館。

9
00:00:28,400 --> 00:00:33,434
並有機會，
通過一些工具

10
00:00:33,434 --> 00:00:36,350
而這正在開發的一個項目，
以獲得信息的訪問

11
00:00:36,350 --> 00:00:42,430
並把它帶到的地方是，
哈佛大學圖書館是不是現在做，

12
00:00:42,430 --> 00:00:45,460
做新的東西呢，實驗
並發揮與它周圍。

13
00:00:45,460 --> 00:00:52,413
>> 這樣的入口點，這是一個API
所謂哈佛圖書館雲，這

14
00:00:52,413 --> 00:00:57,650
是一個開放的元數據服務器，
我就說說現在。

15
00:00:57,650 --> 00:01:02,595
這樣的背景是，有一
很多東西在哈佛圖書館。

16
00:01:02,595 --> 00:01:07,150
我們有超過13萬條書目
記錄，數以百萬計的圖像，

17
00:01:07,150 --> 00:01:11,090
和成千上萬的檢索工具，它
基本上文件描述

18
00:01:11,090 --> 00:01:15,500
收藏，說什麼
在他們的論文盒

19
00:01:15,500 --> 00:01:21,080
等等，代表了
一萬個人文件。

20
00:01:21,080 --> 00:01:24,290
而且還有一個很大的
信息庫中有

21
00:01:24,290 --> 00:01:28,180
有關內容如何使用的
可能是感興趣的人

22
00:01:28,180 --> 00:01:32,400
誰可能要與它合作。

23
00:01:32,400 --> 00:01:36,150
>> 因此，所有的信息
圖書館有元數據。

24
00:01:36,150 --> 00:01:39,500
這樣的元數據是關於數據的數據。

25
00:01:39,500 --> 00:01:42,070
所以，當我們談論
這就是信息

26
00:01:42,070 --> 00:01:44,890
可通過庫
雲的提供，

27
00:01:44,890 --> 00:01:47,760
它不一定
實際文件

28
00:01:47,760 --> 00:01:53,060
本身，不一定全
書籍或完整的圖像文字，

29
00:01:53,060 --> 00:01:54,890
雖然實際上可能是這種情況。

30
00:01:54,890 --> 00:01:57,550
但它確實
關於數據的信息。

31
00:01:57,550 --> 00:02:00,909
>> 所以，你能想到的編目
信息，電話號碼，科目，

32
00:02:00,909 --> 00:02:02,700
多少的副本
本書有什麼

33
00:02:02,700 --> 00:02:06,380
是的版本，有哪些
格式，作者，等等。

34
00:02:06,380 --> 00:02:12,250
因此，有大量的信息約
集合中的信息，

35
00:02:12,250 --> 00:02:14,400
本身就是一種天生有用。

36
00:02:14,400 --> 00:02:19,230
雖然如果你
做了深入的研究，

37
00:02:19,230 --> 00:02:25,160
你顯然希望得到實際
內容本身看數據，

38
00:02:25,160 --> 00:02:30,140
在方面的元數據是非常有用的
既胼分析作為一個整體，

39
00:02:30,140 --> 00:02:33,870
像集合中有什麼事情。

40
00:02:33,870 --> 00:02:35,520
他們如何與？

41
00:02:35,520 --> 00:02:39,482
它可以幫助你真正​​找到其他的東西，
這是它真正的主要目的。

42
00:02:39,482 --> 00:02:41,190
的點
元數據和目錄

43
00:02:41,190 --> 00:02:43,230
是幫助你找到所有
這就是信息

44
00:02:43,230 --> 00:02:46,590
現有的館藏之內。

45
00:02:46,590 --> 00:02:53,690
>> 因此，這是元數據的一個例子
一本書的哈佛大學圖書館。

46
00:02:53,690 --> 00:02:56,370
所以它的存在。

47
00:02:56,370 --> 00:02:59,850
你可以看到它的
實際上中等複雜。

48
00:02:59,850 --> 00:03:04,610
和元數據的價值的一部分
哈佛圖書館系統內

49
00:03:04,610 --> 00:03:09,320
是，它已經排序
建成了由編目

50
00:03:09,320 --> 00:03:12,720
組裝應用的人
大量的專業知識和技能

51
00:03:12,720 --> 00:03:20,030
並認為隨著時間的推移，
其中有一個很大的價值。

52
00:03:20,030 --> 00:03:25,450
>> 所以，如果你看看這個紀錄
附註的愛麗絲，你可以找到

53
00:03:25,450 --> 00:03:32,590
你已經拿到了冠軍，誰寫的，在
作者和所有不同的科目

54
00:03:32,590 --> 00:03:35,380
人們已編目成。

55
00:03:35,380 --> 00:03:40,110
你可以看到另外還有，在
除了很多好的信息

56
00:03:40,110 --> 00:03:42,852
在這裡，有一些重複。

57
00:03:42,852 --> 00:03:45,560
有很多複雜的那
通過元數據反映

58
00:03:45,560 --> 00:03:46,300
你有。

59
00:03:46,300 --> 00:03:50,320
>> 因此，這本書的一個標題是
愛麗絲夢遊仙境。

60
00:03:50,320 --> 00:03:53,880
所以這是一個帶註釋
版本的書。

61
00:03:53,880 --> 00:03:56,380
但它也被稱為註釋
愛麗絲，愛麗絲夢遊

62
00:03:56,380 --> 00:03:58,570
仙境因為
它的一些東西，

63
00:03:58,570 --> 00:04:00,430
馬丁·加德納寫道：
並註明了這本書。

64
00:04:00,430 --> 00:04:03,369
並有很多偉大的信息
關於邏輯謎題和東西

65
00:04:03,369 --> 00:04:05,410
在愛麗絲你
大概不知道。

66
00:04:05,410 --> 00:04:07,000
所以，你應該去閱讀它。

67
00:04:07,000 --> 00:04:11,940
>> 但是你可以看到有
很多細節在這裡，

68
00:04:11,940 --> 00:04:15,340
包括標識符，當它
創建，它是從哪裡來的，

69
00:04:15,340 --> 00:04:17,420
在哈佛的條款
系統，等等。

70
00:04:17,420 --> 00:04:20,350
所以這是一個樣本
元數據的類型

71
00:04:20,350 --> 00:04:24,340
你可能會看到一本書中
哈佛大學圖書館收藏。

72
00:04:24,340 --> 00:04:26,680
>> 這是完全不同的東西。

73
00:04:26,680 --> 00:04:32,610
因此，有一個叫做系統
VIA哈佛，基本上

74
00:04:32,610 --> 00:04:39,990
被編目的圖像和藝術對象
並在整個哈佛視覺的東西，

75
00:04:39,990 --> 00:04:44,010
並增加了一些元數據
對他們來說，他們的分類，

76
00:04:44,010 --> 00:04:49,200
並且，在某些情況下，提供
小縮略圖

77
00:04:49,200 --> 00:04:51,250
你可以採取
看看，如果你願意的話​​。

78
00:04:51,250 --> 00:04:54,240
>> 因此，這是一個例子
你有一個板塊的元數據

79
00:04:54,240 --> 00:04:57,840
從，據推測，愛麗絲夢遊仙境。

80
00:04:57,840 --> 00:05:00,499
你可以看到有
少在這裡的元數據。

81
00:05:00,499 --> 00:05:02,040
這只是一個不同類型的對象。

82
00:05:02,040 --> 00:05:03,425
所以有較少的信息。

83
00:05:03,425 --> 00:05:07,790
>> 你大多有一個事實，即，呼叫
數，基本上是誰創造了它， - 

84
00:05:07,790 --> 00:05:10,410
>> 我們不知道在創建時。

85
00:05:10,410 --> 00:05:13,320
>>  - 兼標題。

86
00:05:13,320 --> 00:05:14,300
>> 另一個例子。

87
00:05:14,300 --> 00:05:16,380
這是一個發現的援助。

88
00:05:16,380 --> 00:05:19,030
所以這是劉易斯的集合
卡羅爾的論文在哈佛。

89
00:05:19,030 --> 00:05:23,601
因此，這說明了什麼
在該集合。

90
00:05:23,601 --> 00:05:26,100
所以有人走過，並
通過所有的箱子看

91
00:05:26,100 --> 00:05:32,220
而其編，給予一定的背景，
寫的什麼是這裡的總結。

92
00:05:32,220 --> 00:05:35,290
如果你看看
進一步在此，本

93
00:05:35,290 --> 00:05:39,620
那張頁面和頁面
和頁面，但會告訴你

94
00:05:39,620 --> 00:05:41,860
什麼信什麼
建於什麼樣箱

95
00:05:41,860 --> 00:05:44,289
存在於整個集合。

96
00:05:44,289 --> 00:05:46,330
不過這是後話
，如果你在哈佛，

97
00:05:46,330 --> 00:05:50,720
你可以去和實際的物理期待
起來，大概看看。

98
00:05:50,720 --> 00:05:53,440
>> 所以這是所有偉大的。

99
00:05:53,440 --> 00:05:54,450
這種元數據的有用。

100
00:05:54,450 --> 00:05:56,327
這是哈佛圖書館系統。

101
00:05:56,327 --> 00:05:58,910
有在線工具，你在哪裡
可以去看看它，

102
00:05:58,910 --> 00:05:59,993
看到它，並搜尋它。

103
00:05:59,993 --> 00:06:02,810
你可以切片和切塊
它在許多不同的方式。

104
00:06:02,810 --> 00:06:06,920
>> 但它確實只有當
你是一個人坐下

105
00:06:06,920 --> 00:06:12,600
在Web瀏覽器或某事或
你的手機，並通過它瀏覽。

106
00:06:12,600 --> 00:06:16,730
它不是在真正可用
任何一種可用的時尚

107
00:06:16,730 --> 00:06:19,520
對於其它系統，或
其他計算機使用，

108
00:06:19,520 --> 00:06:21,500
不與內部系統
哈佛圖書館

109
00:06:21,500 --> 00:06:24,890
但在外界系統，
只是其他人一般。

110
00:06:24,890 --> 00:06:30,210
所以，問題是，我們如何能
使其向計算機提供

111
00:06:30,210 --> 00:06:33,560
這樣我們就可以做更多有趣的
東西與它不僅僅是

112
00:06:33,560 --> 00:06:36,550
瀏覽它自己呢？

113
00:06:36,550 --> 00:06:39,766
>> 那麼，為什麼要這麼做？

114
00:06:39,766 --> 00:06:41,140
有很多的可能性。

115
00:06:41,140 --> 00:06:43,980
一個是你可以建立一個完全
瀏覽不同的方式

116
00:06:43,980 --> 00:06:46,962
這是可用的內容
通過哈佛大學圖書館。

117
00:06:46,962 --> 00:06:48,670
我會告訴你一
後來被稱為Stacklife，

118
00:06:48,670 --> 00:06:52,440
它有一個完全不同的
承擔尋找的內容。

119
00:06:52,440 --> 00:06:54,560
>> 你可以建立一個推薦引擎。

120
00:06:54,560 --> 00:06:57,955
所以哈佛庫不處於
說法業務，你喜歡這本書。

121
00:06:57,955 --> 00:07:01,080
然後去看看這17等
你可能會感興趣的圖書

122
00:07:01,080 --> 00:07:03,200
或者這18其他圖像。

123
00:07:03,200 --> 00:07:06,040
但是，可以肯定
是一個有價值的功能。

124
00:07:06,040 --> 00:07:09,272
並給出了元數據，它可能
有可能把該在一起。

125
00:07:09,272 --> 00:07:11,980
你可能有不同的需求
搜索的內容方面，

126
00:07:11,980 --> 00:07:16,200
如可能，儘管工具
可用的庫使

127
00:07:16,200 --> 00:07:18,450
可用，您可能希望
以不同的方式來搜索

128
00:07:18,450 --> 00:07:21,847
或優化用於特定用途的情況下，
這也許是非常專業的。

129
00:07:21,847 --> 00:07:23,930
也許只有少數
人在世界上誰

130
00:07:23,930 --> 00:07:25,846
要搜索的內容
以這種方式，但它

131
00:07:25,846 --> 00:07:28,985
將是巨大的，如果我們
可以讓他們做到這一點。

132
00:07:28,985 --> 00:07:30,860
有很多的分析
在短短的人們如何

133
00:07:30,860 --> 00:07:33,860
使用這將是真正的內容
有趣的了解，找出

134
00:07:33,860 --> 00:07:37,280
什麼書都被使用，
什麼都沒有，等等。

135
00:07:37,280 --> 00:07:41,670
然後還有很多的
機會整合

136
00:07:41,670 --> 00:07:45,210
與其他信息
那是在那裡在網絡上。

137
00:07:45,210 --> 00:07:46,880
所以我們have--

138
00:07:46,880 --> 00:07:50,260
>> 例如，NPR有
書評段，

139
00:07:50,260 --> 00:07:53,090
他們採訪
有關書籍的作者。

140
00:07:53,090 --> 00:07:56,837
因此，這將是巨大的，如果你是
找了一本書，在哈佛

141
00:07:56,837 --> 00:07:59,670
圖書館，和你說，OK，還有
過了筆者的採訪。

142
00:07:59,670 --> 00:08:00,878
讓我們去看看那個。

143
00:08:00,878 --> 00:08:05,461
或者有一個維基百科頁面，作為
權威，學術參考

144
00:08:05,461 --> 00:08:07,710
關於這本書，你
可能要看一看。

145
00:08:07,710 --> 00:08:12,600
>> 有這些類型的源
遍布網絡。

146
00:08:12,600 --> 00:08:16,555
並把它們放在一起
可能是一個偉大的使用

147
00:08:16,555 --> 00:08:18,930
給別人看的
內容尋找的東西。

148
00:08:18,930 --> 00:08:20,180
但它也沒有
之類的話，你會

149
00:08:20,180 --> 00:08:23,205
希望庫負責
對於下降和追捕

150
00:08:23,205 --> 00:08:25,455
所有這些不同的來源
和堵塞在一起

151
00:08:25,455 --> 00:08:28,920
因為他們是不斷變化的。

152
00:08:28,920 --> 00:08:33,570
他們認為什麼是重要的5月
不是你的想法是很重要的。

153
00:08:33,570 --> 00:08:36,929
>> 甚至更多的話，基本上有一個
很多東西我們都沒有想到呢。

154
00:08:36,929 --> 00:08:42,222
因此，如果我們可以打開這件事，更
除了半打左右的人，

155
00:08:42,222 --> 00:08:45,174
誰在看這一個
定期能想到的想法

156
00:08:45,174 --> 00:08:47,340
和按摩的數據，並
做他們想做的事情。

157
00:08:47,340 --> 00:08:49,920

158
00:08:49,920 --> 00:08:54,045
>> 所以，我們想使這個
提供給世界的數據。

159
00:08:54,045 --> 00:08:55,670
嗯，有一對夫婦的並發症。

160
00:08:55,670 --> 00:08:58,540
之一是，該元數據
是在不同的系統。

161
00:08:58,540 --> 00:09:01,110
它在不同的格式。

162
00:09:01,110 --> 00:09:04,719
所以有一些正常化
這需要發生，

163
00:09:04,719 --> 00:09:08,010
這是正常化的過程
把東西從不同的格式

164
00:09:08,010 --> 00:09:12,940
並將其映射到一個單一格式
使得字段將匹配。

165
00:09:12,940 --> 00:09:15,160
>> 有一些版權限制。

166
00:09:15,160 --> 00:09:21,010
奇怪的是，目錄條目
一本書是對版權負責。

167
00:09:21,010 --> 00:09:24,060
因此，即使它只是
從書中獲得的信息，

168
00:09:24,060 --> 00:09:25,330
它的版權保護。

169
00:09:25,330 --> 00:09:28,400
並根據究竟是誰
創建元數據，

170
00:09:28,400 --> 00:09:32,175
有可能是在誰的限制
可以分發，類似to--

171
00:09:32,175 --> 00:09:33,402
>> 我不知道。

172
00:09:33,402 --> 00:09:36,110
它可以是或可以不是類似於
這首歌的歌詞的情況下，

173
00:09:36,110 --> 00:09:36,610
例如。

174
00:09:36,610 --> 00:09:38,560
所以，我們都知道該如何平移出。

175
00:09:38,560 --> 00:09:40,450
所以，你需要避開這個問題。

176
00:09:40,450 --> 00:09:44,910
>> 然後另一塊是
這有很多的數據。

177
00:09:44,910 --> 00:09:52,420
所以，如果我是一個誰願意工作
與數據或有一個很酷的想法，

178
00:09:52,420 --> 00:09:55,350
處理14000000
我的筆記本電腦記錄

179
00:09:55,350 --> 00:09:57,487
可能是有問題的
並且難以管理。

180
00:09:57,487 --> 00:09:59,320
所以，我們要減少
為人們的障礙

181
00:09:59,320 --> 00:10:02,130
要能夠與數據一起工作。

182
00:10:02,130 --> 00:10:07,880
>> 因此，辦法，希望地址
所有這些問題是兩部分。

183
00:10:07,880 --> 00:10:11,770
其中之一就是建立一個平台，需要
從所有這些不同來源的數據

184
00:10:11,770 --> 00:10:14,350
並加劇它，規範化，
豐富它，使

185
00:10:14,350 --> 00:10:16,650
它在一個位置可用。

186
00:10:16,650 --> 00:10:20,950
它使得它可以通過
一個公共API，人們可以調用。

187
00:10:20,950 --> 00:10:24,430
>> 因此，一個API是應用程序
編程接口。

188
00:10:24,430 --> 00:10:28,930
它基本上是指一種
端點系統或技術

189
00:10:28,930 --> 00:10:31,720
可以調用和找回數據的
的方式結構化格式

190
00:10:31,720 --> 00:10:32,900
它可以被使用。

191
00:10:32,900 --> 00:10:36,060
因此，它不依賴
要去網站

192
00:10:36,060 --> 00:10:37,970
刮數據關閉
它，例如。

193
00:10:37,970 --> 00:10:40,690

194
00:10:40,690 --> 00:10:45,010
>> 所以這是的主頁
圖書館雲項目API，

195
00:10:45,010 --> 00:10:47,220
這實質上是它的兩個版本。

196
00:10:47,220 --> 00:10:50,130
所以它的第二次迭代
試圖讓所有的數據

197
00:10:50,130 --> 00:10:53,280
提供給世界。

198
00:10:53,280 --> 00:10:59,560
所以它的
http://api.lib.harvard.edu/v2/items。

199
00:10:59,560 --> 00:11:03,830
而剛剛打破下來
一點點，這是什麼意思

200
00:11:03,830 --> 00:11:06,115
是，這是在API兩個版本。

201
00:11:06,115 --> 00:11:08,490
有一個版本的一個，這
我不想多談。

202
00:11:08,490 --> 00:11:09,750
但有一個版本之一。

203
00:11:09,750 --> 00:11:14,740
>> 如果你調用這個
API，你得到的物品。

204
00:11:14,740 --> 00:11:20,640
和的想法的一部分
API是一個API是一個合同。

205
00:11:20,640 --> 00:11:23,440
這件事情，是
不會改變的。

206
00:11:23,440 --> 00:11:24,850
因此，例如， - 

207
00:11:24,850 --> 00:11:27,410
>> 其原因是，如果我
建立某種制度的

208
00:11:27,410 --> 00:11:33,210
將要使用的庫雲API
顯示書籍或幫助人們找到

209
00:11:33,210 --> 00:11:36,190
以獨特的方式信息，
我們不希望發生

210
00:11:36,190 --> 00:11:38,940
是我們去如何改變
該API的工作，突然

211
00:11:38,940 --> 00:11:41,340
一切打破在終端用戶側。

212
00:11:41,340 --> 00:11:46,710
所以，如果你正在做API的一部分
提供給世界，這是

213
00:11:46,710 --> 00:11:49,396
很好的做法，把
在它的版本號這樣的人

214
00:11:49,396 --> 00:11:51,020
知道是什麼版本，他們正在處理。

215
00:11:51,020 --> 00:11:54,300
>> 所以，如果我們決定找到一種更好的方法
使提供這些信息的，

216
00:11:54,300 --> 00:11:57,295
我們可能會改變，要
調用三個版本。

217
00:11:57,295 --> 00:11:59,920
所以大家誰仍然是使用
2版本，還是會正常工作。

218
00:11:59,920 --> 00:12:03,490
但是，版本3將
所有的新東西。

219
00:12:03,490 --> 00:12:06,680

220
00:12:06,680 --> 00:12:09,210
>> 所以這是一個API，但是這
真的看起來像一個URL。

221
00:12:09,210 --> 00:12:11,680
還等什麼，這是一個
例如是什麼

222
00:12:11,680 --> 00:12:16,615
稱之為REST API，它可
以上只是一個普通的網絡連接。

223
00:12:16,615 --> 00:12:19,680
你其實可以
去它在瀏覽器中。

224
00:12:19,680 --> 00:12:28,550
>> 所以在這裡我只是打開了Firefox和
去api.lib.harvard.edu/v2/items。

225
00:12:28,550 --> 00:12:31,560
所以我在這裡買到
基本上在第一頁

226
00:12:31,560 --> 00:12:34,740
從整個結果
設置，我們已經有了項目。

227
00:12:34,740 --> 00:12:37,460
而且它在這裡的XML格式。

228
00:12:37,460 --> 00:12:40,130

229
00:12:40,130 --> 00:12:42,210
而且它也被
通過Firefox的美化。

230
00:12:42,210 --> 00:12:45,850
它實際上並不具備所有這些
小擴張和收縮

231
00:12:45,850 --> 00:12:47,880
doohickeys這裡。

232
00:12:47,880 --> 00:12:52,520
這是形式的更好
版本的方式來看待它。

233
00:12:52,520 --> 00:12:57,040
>> 但是，這是告訴我們的是
我已經要求所有的項目。

234
00:12:57,040 --> 00:13:03,120
因此，有13289475項。

235
00:13:03,120 --> 00:13:06,150
我期待在第一次
10，起始位置為零

236
00:13:06,150 --> 00:13:09,760
因為在計算機科學
我們總是從零開始。

237
00:13:09,760 --> 00:13:15,150
而我在這裡，如果我只是崩潰
這一點，你會看到我已經得到了10個項目。

238
00:13:15,150 --> 00:13:20,410

239
00:13:20,410 --> 00:13:25,210
>> 如果我來看看一個項目，我可以
看到我有關於它的信息。

240
00:13:25,210 --> 00:13:27,400
這是什麼所謂MODS的形式。

241
00:13:27,400 --> 00:13:30,860
所以我要切換
回到這裡了一會兒。

242
00:13:30,860 --> 00:13:33,750
好不好。

243
00:13:33,750 --> 00:13:37,447
>> 因此，讓我們尋找的東西
具體的，因為第一項

244
00:13:37,447 --> 00:13:40,030
發生時，你要拿出
通過整個集合

245
00:13:40,030 --> 00:13:41,750
是，根據定義，是隨機的。

246
00:13:41,750 --> 00:13:44,550
因此，讓我們來看看一些甜甜圈。

247
00:13:44,550 --> 00:13:46,830
呵呵。

248
00:13:46,830 --> 00:13:49,190
>> 好不好。

249
00:13:49,190 --> 00:13:49,940
所以甜甜圈。

250
00:13:49,940 --> 00:13:55,360
因此，我們發現有80項
引用甜甜圈的集合。

251
00:13:55,360 --> 00:13:57,150
我們期待在第一次10人。

252
00:13:57,150 --> 00:14:01,890
現在，你可以在這裡看到的方式，
我說我要找的甜甜圈，

253
00:14:01,890 --> 00:14:04,400
我只是說的東西
URL的查詢字符串。

254
00:14:04,400 --> 00:14:09,680
所以，Q等於甜甜圈，你可以
看到更容易在這裡一點點。

255
00:14:09,680 --> 00:14:12,131
>> 這基本上意味著有
一個規範的API，這

256
00:14:12,131 --> 00:14:13,880
定義了所有的東西
這些參數的意思。

257
00:14:13,880 --> 00:14:17,150
這意味著我們要
搜索一切為了甜甜圈。

258
00:14:17,150 --> 00:14:24,910
>> 因此，第一項在這裡我們有
你可以看到標題是甜甜圈，

259
00:14:24,910 --> 00:14:29,310
並且有一個叫做一個字幕
美國的激情，這一點，我想，

260
00:14:29,310 --> 00:14:31,610
適當的。

261
00:14:31,610 --> 00:14:36,134
有很多的different--

262
00:14:36,134 --> 00:14:38,050
一旦你到了點
獲得的數據，

263
00:14:38,050 --> 00:14:41,020
有很多不同的
格式，你可以讓它進入。

264
00:14:41,020 --> 00:14:44,050
並有不同的長處
和弱點為所有這些。

265
00:14:44,050 --> 00:14:49,000
所以這一塊，你可以看到
在這裡，這種形式非常豐富。

266
00:14:49,000 --> 00:14:51,946
和它的標準化。

267
00:14:51,946 --> 00:14:55,040
>> 所以這是一個特定的標題
場，字幕字段。

268
00:14:55,040 --> 00:14:58,950
還有一個備用
標題，一個美國人激情。

269
00:14:58,950 --> 00:15:01,650
有一個與它相關聯的名稱。

270
00:15:01,650 --> 00:15:03,120
資源類型是文本。

271
00:15:03,120 --> 00:15:06,070
有大量的信息
這裡在這種格式。

272
00:15:06,070 --> 00:15:09,480
>> 但也有一堆
不同的格式。

273
00:15:09,480 --> 00:15:11,920
所以我們剛才什麼
看著是一種格式

274
00:15:11,920 --> 00:15:17,700
所謂MODS，它代表
元數據對象描述服務，

275
00:15:17,700 --> 00:15:18,250
有可能。

276
00:15:18,250 --> 00:15:23,030
我其實不太肯定的
S.但它是一個相當複雜的格式。

277
00:15:23,030 --> 00:15:24,240
它的默認格式。

278
00:15:24,240 --> 00:15:30,260
>> 但它是一個信守
的所有數據的豐富性

279
00:15:30,260 --> 00:15:33,820
該圖書館有，因為
它非常接近於

280
00:15:33,820 --> 00:15:35,110
圖書館內部使用。

281
00:15:35,110 --> 00:15:39,030
這是一個標準，它是
在全國范圍內使用，

282
00:15:39,030 --> 00:15:40,944
世界各地的高校圖書館。

283
00:15:40,944 --> 00:15:42,110
而且它是非常互通。

284
00:15:42,110 --> 00:15:44,852
所以，如果你已經有了一個文件
這是MODS的格式，

285
00:15:44,852 --> 00:15:47,560
你可以把那個給別人
其系統的理解MODS，

286
00:15:47,560 --> 00:15:48,518
他們可以將其導入。

287
00:15:48,518 --> 00:15:50,840
所以這是一個標準。

288
00:15:50,840 --> 00:15:54,250
這是非常明確的，非常具體。

289
00:15:54,250 --> 00:15:58,980
那是什麼使得它
可互操作的，因為如果有人說，

290
00:15:58,980 --> 00:16:04,930
這是一個在備用標題
記錄，每個人都知道這意味著什麼。

291
00:16:04,930 --> 00:16:07,740
在另一面，這是非常複雜的。

292
00:16:07,740 --> 00:16:13,160
>> 所以，如果你看一看
在這裡這個紀錄，

293
00:16:13,160 --> 00:16:15,320
如果我只是想獲得
這個文件的標題，

294
00:16:15,320 --> 00:16:21,150
這本書，這可能是甜甜圈，
美國的激情，解析出來

295
00:16:21,150 --> 00:16:22,940
有點複雜。

296
00:16:22,940 --> 00:16:27,380
而還有另一種
格式被稱為都柏林核心，

297
00:16:27,380 --> 00:16:29,730
這是一個非常非常簡單的格式。

298
00:16:29,730 --> 00:16:33,764
>> 所以你在這裡看到，有沒有
標題，副標題，替代稱號。

299
00:16:33,764 --> 00:16:35,930
這裡還有稱號，
甜甜圈，一個美國人激情，

300
00:16:35,930 --> 00:16:38,780
而另一個標題，美國的激情。

301
00:16:38,780 --> 00:16:42,907
所以，當你在看什麼形式
你想要得到的數據出來，

302
00:16:42,907 --> 00:16:44,740
很多取決於如何
你要使用它。

303
00:16:44,740 --> 00:16:46,573
您使用的
互操作性還是你

304
00:16:46,573 --> 00:16:49,970
想要的東西，簡單的說
可能是比較容易的工作？

305
00:16:49,970 --> 00:16:56,002
>> 在另一面，很多的
排序方式壓扁了。

306
00:16:56,002 --> 00:16:58,460
你可能會失去的細微差別
什麼是特定領域的手段

307
00:16:58,460 --> 00:17:02,960
如果你正在處理的都柏林核心，
你不會得到與MODS。

308
00:17:02,960 --> 00:17:06,462
因此，這些都是兩個格式
你可以走出API的。

309
00:17:06,462 --> 00:17:08,920
基本上，我們保持
其背後的MODS的場景。

310
00:17:08,920 --> 00:17:14,179
但是，我們可以給你它和MODS
都柏林核心和其他任何為好。

311
00:17:14,179 --> 00:17:16,470
其他考慮因素
你要找的數據

312
00:17:16,470 --> 00:17:21,210
是你能得到它的無論是JSON，這
代表JavaScript對象符號，

313
00:17:21,210 --> 00:17:24,720
或XML，它代表
可擴展標記語言。

314
00:17:24,720 --> 00:17:30,080
而這些數據均表示
具有完全相同的數據，正好

315
00:17:30,080 --> 00:17:31,080
相同的字段。

316
00:17:31,080 --> 00:17:33,644
但他們只是
語法不同。

317
00:17:33,644 --> 00:17:40,401
>> 因此，這是A--

318
00:17:40,401 --> 00:17:41,400
那麼，就讓我們進行切換。

319
00:17:41,400 --> 00:17:47,490
所以這是我們查詢
甜甜圈的XML格式。

320
00:17:47,490 --> 00:17:53,470
如果我只是切換這是JSON，
我可以看到它看起來不一樣。

321
00:17:53,470 --> 00:17:58,580
所以，現在，這是同樣的內容，
但不同的結構。

322
00:17:58,580 --> 00:18:00,080
有較少的尖括號。

323
00:18:00,080 --> 00:18:02,530
還有更簡潔。

324
00:18:02,530 --> 00:18:06,440
>> 而這是一個格式，如果
工作在網絡環境下，

325
00:18:06,440 --> 00:18:09,680
你最有可能會
到想要使用，因為一個

326
00:18:09,680 --> 00:18:12,630
的好東西大約是JSON
它是用JavaScript兼容。

327
00:18:12,630 --> 00:18:17,680
所以，如果我寫的Web應用程序，我可以拉
在JSON，只是用它直接工作。

328
00:18:17,680 --> 00:18:20,187
而使用XML，這是一個
稍微有點複雜。

329
00:18:20,187 --> 00:18:21,520
如此反复，這些都是有用的。

330
00:18:21,520 --> 00:18:26,387
他們只是在不同的使用情況
人們可能會想使用它們。

331
00:18:26,387 --> 00:18:26,886
好不好。

332
00:18:26,886 --> 00:18:29,810

333
00:18:29,810 --> 00:18:31,680
所以回API。

334
00:18:31,680 --> 00:18:32,900
所以，我們可以搜索for--

335
00:18:32,900 --> 00:18:36,220
>> 我舉一個例子
尋找甜甜圈。

336
00:18:36,220 --> 00:18:39,330
我們還可以搜索只是在一個
在此範圍內特定領域。

337
00:18:39,330 --> 00:18:41,310
因此，而不是搜索
整個記錄，

338
00:18:41,310 --> 00:18:43,870
我可以只搜索標題字段。

339
00:18:43,870 --> 00:18:48,810
所以現在有25個東西，
具有甜甜圈的稱號，其中之一

340
00:18:48,810 --> 00:18:52,430
即將恢復
管理濕地

341
00:18:52,430 --> 00:18:54,990
在圓環的孔的
計劃，這可能是

342
00:18:54,990 --> 00:18:58,970
我們期待並不一定是什麼
因為當我們正在尋找甜甜圈。

343
00:18:58,970 --> 00:19:02,790

344
00:19:02,790 --> 00:19:05,490
>> 您還可以，當你
處理一個API--

345
00:19:05,490 --> 00:19:08,827
>> 有一個API的一部分是給
人們訪問大數據集。

346
00:19:08,827 --> 00:19:11,410
並有不同的一對夫婦
工具，你可以用它來做到這一點。

347
00:19:11,410 --> 00:19:14,170
其一是，很簡單，你
可瀏覽數據。

348
00:19:14,170 --> 00:19:17,340
所以，就像你做一個查詢
通過Web界面，

349
00:19:17,340 --> 00:19:19,470
你可以看看一個頁面，
第二頁，第三頁。

350
00:19:19,470 --> 00:19:22,040
你可以這樣做
通過API的事情。

351
00:19:22,040 --> 00:19:24,150
你只需要在
明確的，你是怎麼做到的。

352
00:19:24,150 --> 00:19:29,511
>> 因此，舉例來說，如果我要找
我的第一個查詢在這裡，

353
00:19:29,511 --> 00:19:32,510
在那裡我做了搜索的東西
在標題甜甜圈，我可以說，

354
00:19:32,510 --> 00:19:35,415
和極限等於20，這意味著
給我的第一個20條記錄，而不是

355
00:19:35,415 --> 00:19:38,540
第10位，這是默認的，
因為我想看看20的時間。

356
00:19:38,540 --> 00:19:43,435
或者，我可以說，設置
開始等於20和限

357
00:19:43,435 --> 00:19:47,150
等於20，這將給
我記錄了21至40。

358
00:19:47,150 --> 00:19:52,680
>> 所以我想的東西
帶走這裡

359
00:19:52,680 --> 00:19:57,290
我們使用的查詢字符串
上設置的查詢參數。

360
00:19:57,290 --> 00:20:02,760
它可以讓你控制
你會得到什麼。

361
00:20:02,760 --> 00:20:05,980
>> 您可以使用另一種工具 - 

362
00:20:05,980 --> 00:20:09,250
>> 這是真正有用的
條款探索數據。

363
00:20:09,250 --> 00:20:10,840
>> --is一些所謂的小面。

364
00:20:10,840 --> 00:20:15,530
所以說，小面是
不一定普遍。

365
00:20:15,530 --> 00:20:16,880
但是你們都見過。

366
00:20:16,880 --> 00:20:18,630
如果你看一看
亞馬遜，例如

367
00:20:18,630 --> 00:20:20,870
你做一個搜索
甜甜圈的書籍，

368
00:20:20,870 --> 00:20:27,080
在這裡，他們已經有了一個系列叢書，
他們正在按類別分組，

369
00:20:27,080 --> 00:20:30,470
你會得到不同的類別，
多少在每個類別的書籍

370
00:20:30,470 --> 00:20:31,330
顯示。

371
00:20:31,330 --> 00:20:33,420
>> 因此，這基本上是一個方面。

372
00:20:33,420 --> 00:20:37,570
你把所有的書，1800
匹配甜甜圈亞馬遜的書籍。

373
00:20:37,570 --> 00:20:39,820
其中12個是在
早餐類別。

374
00:20:39,820 --> 00:20:43,100
在糕點和烘焙21，
等，等等。

375
00:20:43,100 --> 00:20:47,670
>> 因此，這的確是一個非常有用
工具遊覽內容

376
00:20:47,670 --> 00:20:53,260
在圖書館內，以及
因為當你看一個方面，

377
00:20:53,260 --> 00:20:56,520
它給你什麼科目的想法
存在的，喜歡什麼類型的科目

378
00:20:56,520 --> 00:20:58,510
是你的查詢集內最流行的。

379
00:20:58,510 --> 00:21:00,950
它可以幫助你趕走和探索。

380
00:21:00,950 --> 00:21:02,770
因此，我們可以做同樣的事情。

381
00:21:02,770 --> 00:21:05,940
>> 如果我們要使用的
API，看看方面，

382
00:21:05,940 --> 00:21:08,950
我們添加另一個參數
我們的朋友的查詢字符串。

383
00:21:08,950 --> 00:21:12,540
所以面等於逗號分隔
是我們想要的面名單。

384
00:21:12,540 --> 00:21:14,790
這樣的刻面中的一個可能是主題。

385
00:21:14,790 --> 00:21:16,565
另一種可能是語言。

386
00:21:16,565 --> 00:21:19,665
所以，如果我們運行的查詢，我們get--

387
00:21:19,665 --> 00:21:23,372

388
00:21:23,372 --> 00:21:24,830
它看起來非常這裡一樣。

389
00:21:24,830 --> 00:21:29,010
但是，我們已經添加到最後
列表的一組小刻面。

390
00:21:29,010 --> 00:21:34,060
因此，我們有一個叫做主題方面。

391
00:21:34,060 --> 00:21:40,250
因此，這是在告訴我們，如果我期待
在我80結果從甜甜圈查詢，

392
00:21:40,250 --> 00:21:42,100
其中13個有
受到美國。

393
00:21:42,100 --> 00:21:43,684
有三個主題甜甜圈。

394
00:21:43,684 --> 00:21:45,600
有三個主題
濕地修復，

395
00:21:45,600 --> 00:21:47,720
這可能是我們在甜甜圈洞。

396
00:21:47,720 --> 00:21:51,780
他們兩個人，辛普森，
等，等等。

397
00:21:51,780 --> 00:21:59,211
>> 因此，這可以是如果有用
要縮小搜索範圍。

398
00:21:59,211 --> 00:22:00,210
它可以幫助你做到這一點。

399
00:22:00,210 --> 00:22:03,580
特別是如果你有
不止，說80的效果。

400
00:22:03,580 --> 00:22:05,980
>> 同樣，我們也問
對於語言方面。

401
00:22:05,980 --> 00:22:14,790
因此，如果我們看看我們的結果，我們可以看到76
他們都是英文的，四家在法國，

402
00:22:14,790 --> 00:22:19,620
兩人在西班牙，2，我認為這是
未定義或未知，荷蘭和拉丁美洲。

403
00:22:19,620 --> 00:22:22,830
所以我覺得拉丁
甜甜圈結果，再次

404
00:22:22,830 --> 00:22:24,922
有無關焙烤食品。

405
00:22:24,922 --> 00:22:25,630
不過你去那裡。

406
00:22:25,630 --> 00:22:31,420

407
00:22:31,420 --> 00:22:38,630
>> 如此這是那種你展示
如何將數據內容取回

408
00:22:38,630 --> 00:22:41,270
從API剛剛經歷
網頁瀏覽器，這是偉大的。

409
00:22:41,270 --> 00:22:44,320
但它不是真正的你會
通常是用在為它的API。

410
00:22:44,320 --> 00:22:48,710
你怎麼這麼一個例子
能真正做到這一點是我

411
00:22:48,710 --> 00:22:54,720
寫了一個超小程序，
其中，再次，做我的甜甜圈搜索

412
00:22:54,720 --> 00:22:59,010
並選擇了幾個字段
並在表中顯示它們。

413
00:22:59,010 --> 00:23:01,610
所以這是非常多的
同樣的內容，我們只是

414
00:23:01,610 --> 00:23:04,830
鋸了幾場拉出。

415
00:23:04,830 --> 00:23:12,090
所以冠軍，名單
什麼樣的書的位置

416
00:23:12,090 --> 00:23:15,120
大約是，語言，
等，等等。

417
00:23:15,120 --> 00:23:20,480
>> 那麼如何實際發生的，因為
我想我們來看看一些代碼，

418
00:23:20,480 --> 00:23:22,420
is--

419
00:23:22,420 --> 00:23:28,060
>> 我們在這裡是一個簡單的HTML
頁面，該頁面顯示的文本，

420
00:23:28,060 --> 00:23:32,900
歡迎庫雲
然後顯示結果的一個表。

421
00:23:32,900 --> 00:23:37,790
並有明顯的沒有結果的
當頁面被加載該表。

422
00:23:37,790 --> 00:23:41,380
但是我們在做什麼
是，首先，我們

423
00:23:41,380 --> 00:23:46,290
加載一個名為庫
jQuery的，這基本上是

424
00:23:46,290 --> 00:23:52,030
一個JavaScript庫，這使得它
很容易操縱的JavaScript

425
00:23:52,030 --> 00:23:58,780
本身，HTML和創建網頁，
客戶端邏輯和網頁。

426
00:23:58,780 --> 00:24:01,595
>> 所以，我們在這裡是jQuery的
有一個名為Get方法，

427
00:24:01,595 --> 00:24:05,270
基本上會去
一個URL，其​​中，在這種情況下，

428
00:24:05,270 --> 00:24:09,070
這是熟悉的期待URL。

429
00:24:09,070 --> 00:24:14,440
然後將得到的內容
該URL，然後在其上運行的功能。

430
00:24:14,440 --> 00:24:19,240
所以我們說去api.lib.harvard / EDU。

431
00:24:19,240 --> 00:24:20,060
搜索甜甜圈。

432
00:24:20,060 --> 00:24:21,300
給我們20個記錄。

433
00:24:21,300 --> 00:24:28,590
然後運行該功能，
我選擇，它傳遞的數據。

434
00:24:28,590 --> 00:24:34,430
並且該數據是JSON那
從API得到恢復。

435
00:24:34,430 --> 00:24:40,120
>> 然後我們在說，內
數據有一個名為項目現場。

436
00:24:40,120 --> 00:24:48,117
如果我去看看回
這些結果是在這裡的，

437
00:24:48,117 --> 00:24:49,200
有什麼東西called--

438
00:24:49,200 --> 00:24:50,220
>> 好了，這就是所謂的項目。

439
00:24:50,220 --> 00:24:53,520
因此，這可能是因為。

440
00:24:53,520 --> 00:25:01,840
而它的作用是
經過每個項目

441
00:25:01,840 --> 00:25:05,300
然後調用另一個
功能上的每個項目。

442
00:25:05,300 --> 00:25:08,440
而且基本功能
走的是價值

443
00:25:08,440 --> 00:25:12,010
的項目，這是
基本上是個人記錄

444
00:25:12,010 --> 00:25:18,220
使我們能夠拉出來的稱號，
覆蓋率和語言。

445
00:25:18,220 --> 00:25:21,640
>> 因此，我們呼籲每一個函數
我們得到了來自API回來項目。

446
00:25:21,640 --> 00:25:25,397
如果你只是看看
在這一塊就在這裡，

447
00:25:25,397 --> 00:25:27,230
我們正在做的是什麼
我們要創建一個字符串，

448
00:25:27,230 --> 00:25:31,810
這實質上是一些HTML標記
圍著一張桌子，用value.title，

449
00:25:31,810 --> 00:25:35,790
這是在標題
對象，value.coverage，

450
00:25:35,790 --> 00:25:36,790
這是覆蓋， - 

451
00:25:36,790 --> 00:25:38,225
>> 我們正在做的檢查
在這裡，看看誰是不確定的

452
00:25:38,225 --> 00:25:40,570
和隱藏它，如果它說不確定，
因為我們並不真正感興趣

453
00:25:40,570 --> 00:25:41,600
在這一點。

454
00:25:41,600 --> 00:25:42,939
>>  - 並且那麼語言。

455
00:25:42,939 --> 00:25:44,730
然後呢我們
做的是追加了

456
00:25:44,730 --> 00:25:48,510
表即
確定此字符串這裡。

457
00:25:48,510 --> 00:25:50,790
和jQuery是如何工作的
正是這種在說

458
00:25:50,790 --> 00:25:56,420
在查找表的想法
結果這個文本添加到它。

459
00:25:56,420 --> 00:25:59,380
並且這是表與想法的結果。

460
00:25:59,380 --> 00:26:04,998
所以，你到底是什麼了
同是這個頁面在這裡。

461
00:26:04,998 --> 00:26:06,206
而且為了查看source--

462
00:26:06,206 --> 00:26:11,310

463
00:26:11,310 --> 00:26:13,810
嗯，源實際上不是
更新時發生。

464
00:26:13,810 --> 00:26:18,740
所以你可以看到實際的
該表的結果，雖然在這裡。

465
00:26:18,740 --> 00:26:24,770
>> 所以，這只是一個簡單的例子
這樣做對API一個很基本的查詢

466
00:26:24,770 --> 00:26:29,020
且在一些其它顯示信息
形成，並沒有做什麼太花哨。

467
00:26:29,020 --> 00:26:36,370
現在，另一個例子是像
申請由David溫伯格

468
00:26:36,370 --> 00:26:39,120
作為演示的這一點，這
基本上顯示你

469
00:26:39,120 --> 00:26:44,620
你如何混搭你的結果
從庫雲API獲取

470
00:26:44,620 --> 00:26:46,250
有，說，谷歌圖書。

471
00:26:46,250 --> 00:26:52,225
>> 這裡的想法是，我可以
運行對谷歌圖書的查詢，

472
00:26:52,225 --> 00:26:56,060
得到一個完整的文本搜索，得到一些結果
背部，找出這些項目的

473
00:26:56,060 --> 00:27:01,180
實際存在的霍利斯，
圖書館系統，

474
00:27:01,180 --> 00:27:03,200
然後給我聯繫
回的那些項目。

475
00:27:03,200 --> 00:27:12,730
所以，如果我搜索，它是
月黑風高的夜晚，我

476
00:27:12,730 --> 00:27:16,210
拿回一堆結果
從谷歌，然後一個結果

477
00:27:16,210 --> 00:27:19,460
這是一個時間皺紋。

478
00:27:19,460 --> 00:27:29,330
這些都是存在的聯繫書籍
在哈佛圖書館系統。

479
00:27:29,330 --> 00:27:32,160
>> 所以我想在這裡一點都不
這麼多，這可能會或可能不會

480
00:27:32,160 --> 00:27:34,118
是你所希望的方式
搜索庫，

481
00:27:34,118 --> 00:27:38,310
但它是一個完全不同的
方式是不提供給你

482
00:27:38,310 --> 00:27:42,884
之前，就像你有沒有辦法做
在書的全文搜索，即使

483
00:27:42,884 --> 00:27:44,550
是哈佛圖書館系統的一部分。

484
00:27:44,550 --> 00:27:46,870
所以現在這是一種
你能做到這一點。

485
00:27:46,870 --> 00:27:51,930
並且可以在顯示它們
任何格式你想要的。

486
00:27:51,930 --> 00:27:55,990
因此，這裡的問題是，基本上，
我們正在開拓的人新途徑

487
00:27:55,990 --> 00:27:59,080
與數據一起工作。

488
00:27:59,080 --> 00:28:07,925
>> 另一塊庫雲是
它有助於揭露一些使用數據的

489
00:28:07,925 --> 00:28:08,800
該圖書館有。

490
00:28:08,800 --> 00:28:12,630
所以，如果你去圖書館，
你正在尋找的書籍，

491
00:28:12,630 --> 00:28:15,770
你不一定
其實有一個想法，

492
00:28:15,770 --> 00:28:19,080
用於在所有項目
特定的主題，是什麼

493
00:28:19,080 --> 00:28:21,200
是人在
社區，無論是

494
00:28:21,200 --> 00:28:24,890
定義為哈佛或
國家或你的類，

495
00:28:24,890 --> 00:28:26,421
他們有什麼最有用？

496
00:28:26,421 --> 00:28:28,920
而圖書館實際上有一個
噸左右的信息是什麼

497
00:28:28,920 --> 00:28:32,999
是最有用的，因為如果有很多
人們檢查了一本書，

498
00:28:32,999 --> 00:28:34,040
告訴你一件事。

499
00:28:34,040 --> 00:28:36,498
一定有某種原因
他們想一探究竟。

500
00:28:36,498 --> 00:28:38,270
很多人把它放在儲備。

501
00:28:38,270 --> 00:28:42,520
>> 如果是候補名單上的很多
類，告訴你一件事。

502
00:28:42,520 --> 00:28:45,960
如果教職員工正在檢查它
出了很多，本科生都沒有，

503
00:28:45,960 --> 00:28:47,200
告訴我的東西。

504
00:28:47,200 --> 00:28:49,280
反之亦然，這也
告訴你一件事。

505
00:28:49,280 --> 00:28:54,680
所以，這將是非常有趣的
把這些信息在那裡，讓

506
00:28:54,680 --> 00:28:59,969
人們用它來幫助他們找到
圖書館系統內工作。

507
00:28:59,969 --> 00:29:02,260
在另一面，這是
也有一些嚴重的隱私

508
00:29:02,260 --> 00:29:07,854
關注，因為所述一個
圖書館的核心原則

509
00:29:07,854 --> 00:29:10,770
是我們不打算在告訴
人什麼其他人都在閱讀。

510
00:29:10,770 --> 00:29:17,360
即使你是說這
本書是簽出四倍

511
00:29:17,360 --> 00:29:20,070
在一個特定的月份，
可用於

512
00:29:20,070 --> 00:29:25,252
回鏈接到特定
人因去匿名數據

513
00:29:25,252 --> 00:29:26,710
並找出誰檢查出來。

514
00:29:26,710 --> 00:29:30,792
這樣的方式，我們可以avoid--

515
00:29:30,792 --> 00:29:33,750
我們可以嘗試提取的方式
所有信息的某些信號

516
00:29:33,750 --> 00:29:36,740
不侵犯
任何人的隱私問題

517
00:29:36,740 --> 00:29:42,150
基本上我們看
10年使用數據， - 

518
00:29:42,150 --> 00:29:43,930
>> 因此，它是在一段很長的時間。

519
00:29:43,930 --> 00:29:50,639
>>  - 並且說，OK，讓我們看看如何
很多時候，這工作時，

520
00:29:50,639 --> 00:29:52,930
和誰在這一時期
時間，然後基本

521
00:29:52,930 --> 00:29:56,300
還給了一些，我們稱之為
一疊得分，這基本上

522
00:29:56,300 --> 00:29:59,910
代表多少的被使用。

523
00:29:59,910 --> 00:30:01,084
而且number--

524
00:30:01,084 --> 00:30:03,250
很多不同的計算
進入該號碼。

525
00:30:03,250 --> 00:30:05,150
 - 但它是一個非常粗糙
公制，讓你

526
00:30:05,150 --> 00:30:11,300
如何略知一二
社會可能重視這項工作。

527
00:30:11,300 --> 00:30:16,772
>> 所以另一種連
更充實的應用

528
00:30:16,772 --> 00:30:18,480
即利用
這是值得

529
00:30:18,480 --> 00:30:24,000
所謂Stacklife，這實際上是
可通過主哈佛

530
00:30:24,000 --> 00:30:24,880
圖書館門戶網站。

531
00:30:24,880 --> 00:30:26,700
所以，你去library.harvard.edu。

532
00:30:26,700 --> 00:30:29,360
你會看到許多不同的
如何搜索庫。

533
00:30:29,360 --> 00:30:32,300
及它們中的一個被稱為Stacklife。

534
00:30:32,300 --> 00:30:38,980
>> 而這是一個應用程序
瀏覽該庫的內容，

535
00:30:38,980 --> 00:30:43,490
但完全建立
關於這些API的頂部。

536
00:30:43,490 --> 00:30:46,910
因此，有沒有什麼特別的東西
怎麼回事幕後。

537
00:30:46,910 --> 00:30:49,570
有沒有訪問
數據你沒有。

538
00:30:49,570 --> 00:30:54,090
它使用的API，為您提供
一個完全不同的瀏覽

539
00:30:54,090 --> 00:30:55,480
的經驗。

540
00:30:55,480 --> 00:30:58,570
>> 所以，如果我尋找愛麗絲
仙境在這種情況下，

541
00:30:58,570 --> 00:31:02,600
我得到的結果看起來像
這一點，這是非常much--

542
00:31:02,600 --> 00:31:05,430

543
00:31:05,430 --> 00:31:10,870
>> 它非常類似於任何其它搜索
你可能只是在這種情況下做的，

544
00:31:10,870 --> 00:31:15,730
我們通過排名的項目
stackscore，它給你

545
00:31:15,730 --> 00:31:19,850
如何普及這些略知一二
項目是在社區內。

546
00:31:19,850 --> 00:31:25,610
和這麼清楚，愛麗絲夢遊仙境
由沃爾​​特·迪斯尼是非常受歡迎的。

547
00:31:25,610 --> 00:31:36,570
但你也可以看到前四
這裡是那些你可能不actually--

548
00:31:36,570 --> 00:31:39,220
>> 事情是高度使用，
但你馬上可能不

549
00:31:39,220 --> 00:31:41,240
與愛麗絲夢遊仙境連接。

550
00:31:41,240 --> 00:31:44,650
所以，我們的老朋友
註釋愛麗絲在這裡。

551
00:31:44,650 --> 00:31:46,350
這樣我就可以看看它。

552
00:31:46,350 --> 00:31:52,010
現在我期待什麼
在基本上是一個集of--

553
00:31:52,010 --> 00:31:53,760
我可以有註釋
愛麗絲在這裡。

554
00:31:53,760 --> 00:31:56,700
我有一些關於它的信息。

555
00:31:56,700 --> 00:32:00,230
我也有一個stackscore
的，在這種情況下，26。

556
00:32:00,230 --> 00:32:03,169
這告訴我這類的大致
我們是如何走到這stackscore，

557
00:32:03,169 --> 00:32:05,835
喜歡誰檢查出來，怎麼樣
很多時候它被簽出，

558
00:32:05,835 --> 00:32:08,440
像教師或本科生，怎麼
許多副本的圖書館有，

559
00:32:08,440 --> 00:32:11,300
等，等等。

560
00:32:11,300 --> 00:32:16,460
>> 而且你還可以，夠有趣
在這裡，幾乎瀏覽堆棧。

561
00:32:16,460 --> 00:32:19,550
因此，這裡的數據，
是您展示排序

562
00:32:19,550 --> 00:32:23,547
一個虛擬的代表性
什麼樣的架子威力

563
00:32:23,547 --> 00:32:25,880
看，如果你要像
所有圖書館的館藏

564
00:32:25,880 --> 00:32:28,940
並把它們放在一起
在一個無限的貨架。

565
00:32:28,940 --> 00:32:30,990
而好處是，我們can--

566
00:32:30,990 --> 00:32:33,380
>> 首先，在
關於這些圖書的元數據

567
00:32:33,380 --> 00:32:35,627
常常告訴你，當它被發表。

568
00:32:35,627 --> 00:32:37,085
它會告訴你多少頁有。

569
00:32:37,085 --> 00:32:38,459
它可能會告訴你的尺寸。

570
00:32:38,459 --> 00:32:42,930
所以你可以看到這是這裡反映
在書的大小方面。

571
00:32:42,930 --> 00:32:46,740
>> 然後我們可以使用
堆疊分數突出

572
00:32:46,740 --> 00:32:49,170
具有較高分數的堆棧的書籍。

573
00:32:49,170 --> 00:32:54,930
因此，如果它是更暗，這意味著，
據推測，它是用來更頻繁。

574
00:32:54,930 --> 00:32:57,040
因此，在這種情況下，我
去猜測，這

575
00:32:57,040 --> 00:33:03,226
是愛麗絲夢遊仙境的版本
這是非常常用並且最

576
00:33:03,226 --> 00:33:05,100
訪問，該庫
有一種最副本。

577
00:33:05,100 --> 00:33:06,975
所以，如果你正在尋找
為愛麗絲夢遊仙境，

578
00:33:06,975 --> 00:33:10,220
這可能是一個良好的開端。

579
00:33:10,220 --> 00:33:13,500
>> 然後在這裡你還可以鏈接出
於說，亞馬遜購買圖書，

580
00:33:13,500 --> 00:33:15,182
等，等等。

581
00:33:15,182 --> 00:33:17,140
這裡的關鍵，同樣，
與其說是這

582
00:33:17,140 --> 00:33:25,030
是瀏覽庫的最佳方式
或合適的工具適合各種場合。

583
00:33:25,030 --> 00:33:28,400
但它這樣做的另一種方式。

584
00:33:28,400 --> 00:33:31,359
並且通過使數據
可以通過一個API，它

585
00:33:31,359 --> 00:33:34,650
是由非常簡單的積木，
它允許你搜索的內容，

586
00:33:34,650 --> 00:33:39,420
你可以建立的東西
這樣，可以

587
00:33:39,420 --> 00:33:41,520
格外
有價值的一些人。

588
00:33:41,520 --> 00:33:46,640

589
00:33:46,640 --> 00:33:51,860
>> 這就是那種，就像我想
真正說的API是什麼

590
00:33:51,860 --> 00:33:56,070
什麼是暴露，有一個整體
一堆東西在幕後，這

591
00:33:56,070 --> 00:33:59,480
我只是觸及簡要
那種只是因為它是在這個

592
00:33:59,480 --> 00:34:03,720
從在一個完全不同的角
如何做這樣的事情條款

593
00:34:03,720 --> 00:34:04,580
得到落實到位？

594
00:34:04,580 --> 00:34:10,820
>> 因此，一個API是一個標準
連接所有這些內容。

595
00:34:10,820 --> 00:34:13,820
但要得到它那裡，
第一件事情，我們不得不這樣做

596
00:34:13,820 --> 00:34:17,260
在齊心協力信息
書籍和影像

597
00:34:17,260 --> 00:34:21,580
和發現艾滋病，收集
來自哈佛大學的各種系統文件。

598
00:34:21,580 --> 00:34:23,929
阿列夫，VIA和OASIS是
該系統的名稱。

599
00:34:23,929 --> 00:34:28,820
並且它們基本上進入一個
管線，一個處理管線。

600
00:34:28,820 --> 00:34:33,230
>> 所以首先，我們得到的出口
從所有這些系統的文件。

601
00:34:33,230 --> 00:34:35,130
我們將它們分割成不同的物品。

602
00:34:35,130 --> 00:34:39,360
因此，我們有一個文件，這是技嘉，
其中有一百萬條記錄。

603
00:34:39,360 --> 00:34:42,290
所以我們把它分解成單個項目。

604
00:34:42,290 --> 00:34:45,374
然後，對於每個項目，我們將其轉換
到MODS，是因為其中的一些

605
00:34:45,374 --> 00:34:47,040
本身是MODS，其中一些則不是。

606
00:34:47,040 --> 00:34:49,204
所以我們讓他們都來
是在相同的格式。

607
00:34:49,204 --> 00:34:51,120
然後有各個
濃縮步驟，在這裡

608
00:34:51,120 --> 00:34:55,969
我們添加更多的信息，以將數據
比在圖書館提供。

609
00:34:55,969 --> 00:34:59,750
因此，我們需要添加的是，第一次
我們有什麼庫，持有它。

610
00:34:59,750 --> 00:35:02,250
我們經歷的步驟
計算stackscore。

611
00:35:02,250 --> 00:35:07,112
我們經歷的另一步
在條款中加入更多的元數據

612
00:35:07,112 --> 00:35:10,730
什麼樣的人的集合
有可能增加this--

613
00:35:10,730 --> 00:35:12,532
>> 人們在製作
項的集合。

614
00:35:12,532 --> 00:35:13,990
它屬於什麼收藏？

615
00:35:13,990 --> 00:35:17,220
如何有標記的人
在過去這內容？

616
00:35:17,220 --> 00:35:20,750
然後你過濾掉，而你限制
的記錄，因為正如我所說，

617
00:35:20,750 --> 00:35:24,120
還有一些記錄的，因為
版權原因，我們無法顯示。

618
00:35:24,120 --> 00:35:26,700
然後我們加載它們
成一種叫

619
00:35:26,700 --> 00:35:31,680
Solr的，這不是一個拼寫錯誤，但
是一個軟件的名稱

620
00:35:31,680 --> 00:35:35,710
，做搜索索引，其中
驅動所有的API背後的搜索。

621
00:35:35,710 --> 00:35:40,110
然後它變得可用來
該API，人們可以使用它。

622
00:35:40,110 --> 00:35:44,640
>> 因此，這就像一個相當
簡單的過程。

623
00:35:44,640 --> 00:35:47,230
一個有趣的
事情大概是

624
00:35:47,230 --> 00:35:50,990
我們正在處理
13萬條記錄

625
00:35:50,990 --> 00:35:53,820
我們將要處理以上。

626
00:35:53,820 --> 00:36:01,260
我們希望能夠處理
這些在一個相對快速的方式。

627
00:36:01,260 --> 00:36:03,630
這需要很長的時間來
處理1300萬條記錄。

628
00:36:03,630 --> 00:36:09,529
>> 因此，如何這條管道是
設置是你can--

629
00:36:09,529 --> 00:36:12,070
我猜的優勢
管道，我們是問題

630
00:36:12,070 --> 00:36:15,580
想在這裡解決，就是
所有的轉換，所有的

631
00:36:15,580 --> 00:36:18,729
在這這些步驟
管道是分開的。

632
00:36:18,729 --> 00:36:19,645
有沒有相關性。

633
00:36:19,645 --> 00:36:22,146
如果你正在處理
一本書的記錄，

634
00:36:22,146 --> 00:36:24,270
有一個在沒有依賴性
另一本書之間。

635
00:36:24,270 --> 00:36:27,760
>> 所以，我們可以做的是基本，
在管道中的每個步驟，

636
00:36:27,760 --> 00:36:30,470
我們把它放到雲中的隊列。

637
00:36:30,470 --> 00:36:32,250
我正好是在Amazon Web Services。

638
00:36:32,250 --> 00:36:35,140
因此，有列表，
說，萬項

639
00:36:35,140 --> 00:36:38,100
需要進行歸一化和
轉換為MODS格式。

640
00:36:38,100 --> 00:36:41,620
我們旋轉起來盡可能多的服務器
我們想，也許10台服務器。

641
00:36:41,620 --> 00:36:44,860
並且每個服務器只
坐在那裡，看上去在隊列中，

642
00:36:44,860 --> 00:36:46,730
看到這有一個需要
加工，拉它關閉隊列，

643
00:36:46,730 --> 00:36:48,740
處理它，和棍棒
它的下一個隊列。

644
00:36:48,740 --> 00:36:54,200
>> 還等什麼，讓我們
做的是應用，從根本上，

645
00:36:54,200 --> 00:36:58,110
盡可能多的硬件，因為我們希望這
的時間很短的時間的問題

646
00:36:58,110 --> 00:37:02,970
以最快的速度處理數據
可能的話，這恐怕是唯一的，

647
00:37:02,970 --> 00:37:08,220
現在在雲計算的世界
我們可以提供基本的服務器

648
00:37:08,220 --> 00:37:09,890
瞬間，是有用的。

649
00:37:09,890 --> 00:37:12,260
因此，我們不必有
巨型服務器圍坐

650
00:37:12,260 --> 00:37:16,700
所有的時間做加工
這一個星期可能發生一次。

651
00:37:16,700 --> 00:37:21,440
>> 所以這主要是它。

652
00:37:21,440 --> 00:37:27,590
有可用文檔
對於圖書館雲API項目

653
00:37:27,590 --> 00:37:31,960
在這個URL，這將
可後來。

654
00:37:31,960 --> 00:37:36,730
並請到看看
，看看是否有什麼事，

655
00:37:36,730 --> 00:37:37,579
你有什麼想法。

656
00:37:37,579 --> 00:37:38,120
玩它。

657
00:37:38,120 --> 00:37:38,830
鬼混。

658
00:37:38,830 --> 00:37:42,800
並希望你能來
與一些偉大的事情。

659
00:37:42,800 --> 00:37:44,740
謝謝。

660
00:37:44,740 --> 00:37:45,899