1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY LICHT:您好。 3 00:00:12,370 --> 00:00:13,550 我杰弗裡·利希特。 4 00:00:13,550 --> 00:00:17,890 而我在這裡跟大家介紹一下 哈佛大學圖書館和建築明天的 5 00:00:17,890 --> 00:00:20,870 今天的圖書館,我猜。 6 00:00:20,870 --> 00:00:23,040 所以這裡的背景下, 本屆會議的球場 7 00:00:23,040 --> 00:00:26,930 本質上是有 很多書目數據 8 00:00:26,930 --> 00:00:28,400 可在哈佛圖書館。 9 00:00:28,400 --> 00:00:33,434 並有機會, 通過一些工具 10 00:00:33,434 --> 00:00:36,350 而這正在開發的一個項目, 以獲得信息的訪問 11 00:00:36,350 --> 00:00:42,430 並把它帶到的地方是, 哈佛大學圖書館是不是現在做, 12 00:00:42,430 --> 00:00:45,460 做新的東西呢,實驗 並發揮與它周圍。 13 00:00:45,460 --> 00:00:52,413 >> 這樣的入口點,這是一個API 所謂哈佛圖書館雲,這 14 00:00:52,413 --> 00:00:57,650 是一個開放的元數據服務器, 我就說說現在。 15 00:00:57,650 --> 00:01:02,595 這樣的背景是,有一 很多東西在哈佛圖書館。 16 00:01:02,595 --> 00:01:07,150 我們有超過13萬條書目 記錄,數以百萬計的圖像, 17 00:01:07,150 --> 00:01:11,090 和成千上萬的檢索工具,它 基本上文件描述 18 00:01:11,090 --> 00:01:15,500 收藏,說什麼 在他們的論文盒 19 00:01:15,500 --> 00:01:21,080 等等,代表了 一萬個人文件。 20 00:01:21,080 --> 00:01:24,290 而且還有一個很大的 信息庫中有 21 00:01:24,290 --> 00:01:28,180 有關內容如何使用的 可能是感興趣的人 22 00:01:28,180 --> 00:01:32,400 誰可能要與它合作。 23 00:01:32,400 --> 00:01:36,150 >> 因此,所有的信息 圖書館有元數據。 24 00:01:36,150 --> 00:01:39,500 這樣的元數據是關於數據的數據。 25 00:01:39,500 --> 00:01:42,070 所以,當我們談論 這就是信息 26 00:01:42,070 --> 00:01:44,890 可通過庫 雲的提供, 27 00:01:44,890 --> 00:01:47,760 它不一定 實際文件 28 00:01:47,760 --> 00:01:53,060 本身,不一定全 書籍或完整的圖像文字, 29 00:01:53,060 --> 00:01:54,890 雖然實際上可能是這種情況。 30 00:01:54,890 --> 00:01:57,550 但它確實 關於數據的信息。 31 00:01:57,550 --> 00:02:00,909 >> 所以,你能想到的編目 信息,電話號碼,科目, 32 00:02:00,909 --> 00:02:02,700 多少的副本 本書有什麼 33 00:02:02,700 --> 00:02:06,380 是的版本,有哪些 格式,作者,等等。 34 00:02:06,380 --> 00:02:12,250 因此,有大量的信息約 集合中的信息, 35 00:02:12,250 --> 00:02:14,400 本身就是一種天生有用。 36 00:02:14,400 --> 00:02:19,230 雖然如果你 做了深入的研究, 37 00:02:19,230 --> 00:02:25,160 你顯然希望得到實際 內容本身看數據, 38 00:02:25,160 --> 00:02:30,140 在方面的元數據是非常有用的 既胼分析作為一個整體, 39 00:02:30,140 --> 00:02:33,870 像集合中有什麼事情。 40 00:02:33,870 --> 00:02:35,520 他們如何與? 41 00:02:35,520 --> 00:02:39,482 它可以幫助你真正​​找到其他的東西, 這是它真正的主要目的。 42 00:02:39,482 --> 00:02:41,190 的點 元數據和目錄 43 00:02:41,190 --> 00:02:43,230 是幫助你找到所有 這就是信息 44 00:02:43,230 --> 00:02:46,590 現有的館藏之內。 45 00:02:46,590 --> 00:02:53,690 >> 因此,這是元數據的一個例子 一本書的哈佛大學圖書館。 46 00:02:53,690 --> 00:02:56,370 所以它的存在。 47 00:02:56,370 --> 00:02:59,850 你可以看到它的 實際上中等複雜。 48 00:02:59,850 --> 00:03:04,610 和元數據的價值的一部分 哈佛圖書館系統內 49 00:03:04,610 --> 00:03:09,320 是,它已經排序 建成了由編目 50 00:03:09,320 --> 00:03:12,720 組裝應用的人 大量的專業知識和技能 51 00:03:12,720 --> 00:03:20,030 並認為隨著時間的推移, 其中有一個很大的價值。 52 00:03:20,030 --> 00:03:25,450 >> 所以,如果你看看這個紀錄 附註的愛麗絲,你可以找到 53 00:03:25,450 --> 00:03:32,590 你已經拿到了冠軍,誰寫的,在 作者和所有不同的科目 54 00:03:32,590 --> 00:03:35,380 人們已編目成。 55 00:03:35,380 --> 00:03:40,110 你可以看到另外還有,在 除了很多好的信息 56 00:03:40,110 --> 00:03:42,852 在這裡,有一些重複。 57 00:03:42,852 --> 00:03:45,560 有很多複雜的那 通過元數據反映 58 00:03:45,560 --> 00:03:46,300 你有。 59 00:03:46,300 --> 00:03:50,320 >> 因此,這本書的一個標題是 愛麗絲夢遊仙境。 60 00:03:50,320 --> 00:03:53,880 所以這是一個帶註釋 版本的書。 61 00:03:53,880 --> 00:03:56,380 但它也被稱為註釋 愛麗絲,愛麗絲夢遊 62 00:03:56,380 --> 00:03:58,570 仙境因為 它的一些東西, 63 00:03:58,570 --> 00:04:00,430 馬丁·加德納寫道: 並註明了這本書。 64 00:04:00,430 --> 00:04:03,369 並有很多偉大的信息 關於邏輯謎題和東西 65 00:04:03,369 --> 00:04:05,410 在愛麗絲你 大概不知道。 66 00:04:05,410 --> 00:04:07,000 所以,你應該去閱讀它。 67 00:04:07,000 --> 00:04:11,940 >> 但是你可以看到有 很多細節在這裡, 68 00:04:11,940 --> 00:04:15,340 包括標識符,當它 創建,它是從哪裡來的, 69 00:04:15,340 --> 00:04:17,420 在哈佛的條款 系統,等等。 70 00:04:17,420 --> 00:04:20,350 所以這是一個樣本 元數據的類型 71 00:04:20,350 --> 00:04:24,340 你可能會看到一本書中 哈佛大學圖書館收藏。 72 00:04:24,340 --> 00:04:26,680 >> 這是完全不同的東西。 73 00:04:26,680 --> 00:04:32,610 因此,有一個叫做系統 VIA哈佛,基本上 74 00:04:32,610 --> 00:04:39,990 被編目的圖像和藝術對象 並在整個哈佛視覺的東西, 75 00:04:39,990 --> 00:04:44,010 並增加了一些元數據 對他們來說,他們的分類, 76 00:04:44,010 --> 00:04:49,200 並且,在某些情況下,提供 小縮略圖 77 00:04:49,200 --> 00:04:51,250 你可以採取 看看,如果你願意的話​​。 78 00:04:51,250 --> 00:04:54,240 >> 因此,這是一個例子 你有一個板塊的元數據 79 00:04:54,240 --> 00:04:57,840 從,據推測,愛麗絲夢遊仙境。 80 00:04:57,840 --> 00:05:00,499 你可以看到有 少在這裡的元數據。 81 00:05:00,499 --> 00:05:02,040 這只是一個不同類型的對象。 82 00:05:02,040 --> 00:05:03,425 所以有較少的信息。 83 00:05:03,425 --> 00:05:07,790 >> 你大多有一個事實,即,呼叫 數,基本上是誰創造了它, - 84 00:05:07,790 --> 00:05:10,410 >> 我們不知道在創建時。 85 00:05:10,410 --> 00:05:13,320 >> - 兼標題。 86 00:05:13,320 --> 00:05:14,300 >> 另一個例子。 87 00:05:14,300 --> 00:05:16,380 這是一個發現的援助。 88 00:05:16,380 --> 00:05:19,030 所以這是劉易斯的集合 卡羅爾的論文在哈佛。 89 00:05:19,030 --> 00:05:23,601 因此,這說明了什麼 在該集合。 90 00:05:23,601 --> 00:05:26,100 所以有人走過,並 通過所有的箱子看 91 00:05:26,100 --> 00:05:32,220 而其編,給予一定的背景, 寫的什麼是這裡的總結。 92 00:05:32,220 --> 00:05:35,290 如果你看看 進一步在此,本 93 00:05:35,290 --> 00:05:39,620 那張頁面和頁面 和頁面,但會告訴你 94 00:05:39,620 --> 00:05:41,860 什麼信什麼 建於什麼樣箱 95 00:05:41,860 --> 00:05:44,289 存在於整個集合。 96 00:05:44,289 --> 00:05:46,330 不過這是後話 ,如果你在哈佛, 97 00:05:46,330 --> 00:05:50,720 你可以去和實際的物理期待 起來,大概看看。 98 00:05:50,720 --> 00:05:53,440 >> 所以這是所有偉大的。 99 00:05:53,440 --> 00:05:54,450 這種元數據的有用。 100 00:05:54,450 --> 00:05:56,327 這是哈佛圖書館系統。 101 00:05:56,327 --> 00:05:58,910 有在線工具,你在哪裡 可以去看看它, 102 00:05:58,910 --> 00:05:59,993 看到它,並搜尋它。 103 00:05:59,993 --> 00:06:02,810 你可以切片和切塊 它在許多不同的方式。 104 00:06:02,810 --> 00:06:06,920 >> 但它確實只有當 你是一個人坐下 105 00:06:06,920 --> 00:06:12,600 在Web瀏覽器或某事或 你的手機,並通過它瀏覽。 106 00:06:12,600 --> 00:06:16,730 它不是在真正可用 任何一種可用的時尚 107 00:06:16,730 --> 00:06:19,520 對於其它系統,或 其他計算機使用, 108 00:06:19,520 --> 00:06:21,500 不與內部系統 哈佛圖書館 109 00:06:21,500 --> 00:06:24,890 但在外界系統, 只是其他人一般。 110 00:06:24,890 --> 00:06:30,210 所以,問題是,我們如何能 使其向計算機提供 111 00:06:30,210 --> 00:06:33,560 這樣我們就可以做更多有趣的 東西與它不僅僅是 112 00:06:33,560 --> 00:06:36,550 瀏覽它自己呢? 113 00:06:36,550 --> 00:06:39,766 >> 那麼,為什麼要這麼做? 114 00:06:39,766 --> 00:06:41,140 有很多的可能性。 115 00:06:41,140 --> 00:06:43,980 一個是你可以建立一個完全 瀏覽不同的方式 116 00:06:43,980 --> 00:06:46,962 這是可用的內容 通過哈佛大學圖書館。 117 00:06:46,962 --> 00:06:48,670 我會告訴你一 後來被稱為Stacklife, 118 00:06:48,670 --> 00:06:52,440 它有一個完全不同的 承擔尋找的內容。 119 00:06:52,440 --> 00:06:54,560 >> 你可以建立一個推薦引擎。 120 00:06:54,560 --> 00:06:57,955 所以哈佛庫不處於 說法業務,你喜歡這本書。 121 00:06:57,955 --> 00:07:01,080 然後去看看這17等 你可能會感興趣的圖書 122 00:07:01,080 --> 00:07:03,200 或者這18其他圖像。 123 00:07:03,200 --> 00:07:06,040 但是,可以肯定 是一個有價值的功能。 124 00:07:06,040 --> 00:07:09,272 並給出了元數據,它可能 有可能把該在一起。 125 00:07:09,272 --> 00:07:11,980 你可能有不同的需求 搜索的內容方面, 126 00:07:11,980 --> 00:07:16,200 如可能,儘管工具 可用的庫使 127 00:07:16,200 --> 00:07:18,450 可用,您可能希望 以不同的方式來搜索 128 00:07:18,450 --> 00:07:21,847 或優化用於特定用途的情況下, 這也許是非常專業的。 129 00:07:21,847 --> 00:07:23,930 也許只有少數 人在世界上誰 130 00:07:23,930 --> 00:07:25,846 要搜索的內容 以這種方式,但它 131 00:07:25,846 --> 00:07:28,985 將是巨大的,如果我們 可以讓他們做到這一點。 132 00:07:28,985 --> 00:07:30,860 有很多的分析 在短短的人們如何 133 00:07:30,860 --> 00:07:33,860 使用這將是真正的內容 有趣的了解,找出 134 00:07:33,860 --> 00:07:37,280 什麼書都被使用, 什麼都沒有,等等。 135 00:07:37,280 --> 00:07:41,670 然後還有很多的 機會整合 136 00:07:41,670 --> 00:07:45,210 與其他信息 那是在那裡在網絡上。 137 00:07:45,210 --> 00:07:46,880 所以我們have-- 138 00:07:46,880 --> 00:07:50,260 >> 例如,NPR有 書評段, 139 00:07:50,260 --> 00:07:53,090 他們採訪 有關書籍的作者。 140 00:07:53,090 --> 00:07:56,837 因此,這將是巨大的,如果你是 找了一本書,在哈佛 141 00:07:56,837 --> 00:07:59,670 圖書館,和你說,OK,還有 過了筆者的採訪。 142 00:07:59,670 --> 00:08:00,878 讓我們去看看那個。 143 00:08:00,878 --> 00:08:05,461 或者有一個維基百科頁面,作為 權威,學術參考 144 00:08:05,461 --> 00:08:07,710 關於這本書,你 可能要看一看。 145 00:08:07,710 --> 00:08:12,600 >> 有這些類型的源 遍布網絡。 146 00:08:12,600 --> 00:08:16,555 並把它們放在一起 可能是一個偉大的使用 147 00:08:16,555 --> 00:08:18,930 給別人看的 內容尋找的東西。 148 00:08:18,930 --> 00:08:20,180 但它也沒有 之類的話,你會 149 00:08:20,180 --> 00:08:23,205 希望庫負責 對於下降和追捕 150 00:08:23,205 --> 00:08:25,455 所有這些不同的來源 和堵塞在一起 151 00:08:25,455 --> 00:08:28,920 因為他們是不斷變化的。 152 00:08:28,920 --> 00:08:33,570 他們認為什麼是重要的5月 不是你的想法是很重要的。 153 00:08:33,570 --> 00:08:36,929 >> 甚至更多的話,基本上有一個 很多東西我們都沒有想到呢。 154 00:08:36,929 --> 00:08:42,222 因此,如果我們可以打開這件事,更 除了半打左右的人, 155 00:08:42,222 --> 00:08:45,174 誰在看這一個 定期能想到的想法 156 00:08:45,174 --> 00:08:47,340 和按摩的數據,並 做他們想做的事情。 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> 所以,我們想使這個 提供給世界的數據。 159 00:08:54,045 --> 00:08:55,670 嗯,有一對夫婦的並發症。 160 00:08:55,670 --> 00:08:58,540 之一是,該元數據 是在不同的系統。 161 00:08:58,540 --> 00:09:01,110 它在不同的格式。 162 00:09:01,110 --> 00:09:04,719 所以有一些正常化 這需要發生, 163 00:09:04,719 --> 00:09:08,010 這是正常化的過程 把東西從不同的格式 164 00:09:08,010 --> 00:09:12,940 並將其映射到一個單一格式 使得字段將匹配。 165 00:09:12,940 --> 00:09:15,160 >> 有一些版權限制。 166 00:09:15,160 --> 00:09:21,010 奇怪的是,目錄條目 一本書是對版權負責。 167 00:09:21,010 --> 00:09:24,060 因此,即使它只是 從書中獲得的信息, 168 00:09:24,060 --> 00:09:25,330 它的版權保護。 169 00:09:25,330 --> 00:09:28,400 並根據究竟是誰 創建元數據, 170 00:09:28,400 --> 00:09:32,175 有可能是在誰的限制 可以分發,類似to-- 171 00:09:32,175 --> 00:09:33,402 >> 我不知道。 172 00:09:33,402 --> 00:09:36,110 它可以是或可以不是類似於 這首歌的歌詞的情況下, 173 00:09:36,110 --> 00:09:36,610 例如。 174 00:09:36,610 --> 00:09:38,560 所以,我們都知道該如何平移出。 175 00:09:38,560 --> 00:09:40,450 所以,你需要避開這個問題。 176 00:09:40,450 --> 00:09:44,910 >> 然後另一塊是 這有很多的數據。 177 00:09:44,910 --> 00:09:52,420 所以,如果我是一個誰願意工作 與數據或有一個很酷的想法, 178 00:09:52,420 --> 00:09:55,350 處理14000000 我的筆記本電腦記錄 179 00:09:55,350 --> 00:09:57,487 可能是有問題的 並且難以管理。 180 00:09:57,487 --> 00:09:59,320 所以,我們要減少 為人們的障礙 181 00:09:59,320 --> 00:10:02,130 要能夠與數據一起工作。 182 00:10:02,130 --> 00:10:07,880 >> 因此,辦法,希望地址 所有這些問題是兩部分。 183 00:10:07,880 --> 00:10:11,770 其中之一就是建立一個平台,需要 從所有這些不同來源的數據 184 00:10:11,770 --> 00:10:14,350 並加劇它,規範化, 豐富它,使 185 00:10:14,350 --> 00:10:16,650 它在一個位置可用。 186 00:10:16,650 --> 00:10:20,950 它使得它可以通過 一個公共API,人們可以調用。 187 00:10:20,950 --> 00:10:24,430 >> 因此,一個API是應用程序 編程接口。 188 00:10:24,430 --> 00:10:28,930 它基本上是指一種 端點系統或技術 189 00:10:28,930 --> 00:10:31,720 可以調用和找回數據的 的方式結構化格式 190 00:10:31,720 --> 00:10:32,900 它可以被使用。 191 00:10:32,900 --> 00:10:36,060 因此,它不依賴 要去網站 192 00:10:36,060 --> 00:10:37,970 刮數據關閉 它,例如。 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> 所以這是的主頁 圖書館雲項目API, 195 00:10:45,010 --> 00:10:47,220 這實質上是它的兩個版本。 196 00:10:47,220 --> 00:10:50,130 所以它的第二次迭代 試圖讓所有的數據 197 00:10:50,130 --> 00:10:53,280 提供給世界。 198 00:10:53,280 --> 00:10:59,560 所以它的 http://api.lib.harvard.edu/v2/items。 199 00:10:59,560 --> 00:11:03,830 而剛剛打破下來 一點點,這是什麼意思 200 00:11:03,830 --> 00:11:06,115 是,這是在API兩個版本。 201 00:11:06,115 --> 00:11:08,490 有一個版本的一個,這 我不想多談。 202 00:11:08,490 --> 00:11:09,750 但有一個版本之一。 203 00:11:09,750 --> 00:11:14,740 >> 如果你調用這個 API,你得到的物品。 204 00:11:14,740 --> 00:11:20,640 和的想法的一部分 API是一個API是一個合同。 205 00:11:20,640 --> 00:11:23,440 這件事情,是 不會改變的。 206 00:11:23,440 --> 00:11:24,850 因此,例如, - 207 00:11:24,850 --> 00:11:27,410 >> 其原因是,如果我 建立某種制度的 208 00:11:27,410 --> 00:11:33,210 將要使用的庫雲API 顯示書籍或幫助人們找到 209 00:11:33,210 --> 00:11:36,190 以獨特的方式信息, 我們不希望發生 210 00:11:36,190 --> 00:11:38,940 是我們去如何改變 該API的工作,突然 211 00:11:38,940 --> 00:11:41,340 一切打破在終端用戶側。 212 00:11:41,340 --> 00:11:46,710 所以,如果你正在做API的一部分 提供給世界,這是 213 00:11:46,710 --> 00:11:49,396 很好的做法,把 在它的版本號這樣的人 214 00:11:49,396 --> 00:11:51,020 知道是什麼版本,他們正在處理。 215 00:11:51,020 --> 00:11:54,300 >> 所以,如果我們決定找到一種更好的方法 使提供這些信息的, 216 00:11:54,300 --> 00:11:57,295 我們可能會改變,要 調用三個版本。 217 00:11:57,295 --> 00:11:59,920 所以大家誰仍然是使用 2版本,還是會正常工作。 218 00:11:59,920 --> 00:12:03,490 但是,版本3將 所有的新東西。 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> 所以這是一個API,但是這 真的看起來像一個URL。 221 00:12:09,210 --> 00:12:11,680 還等什麼,這是一個 例如是什麼 222 00:12:11,680 --> 00:12:16,615 稱之為REST API,它可 以上只是一個普通的網絡連接。 223 00:12:16,615 --> 00:12:19,680 你其實可以 去它在瀏覽器中。 224 00:12:19,680 --> 00:12:28,550 >> 所以在這裡我只是打開了Firefox和 去api.lib.harvard.edu/v2/items。 225 00:12:28,550 --> 00:12:31,560 所以我在這裡買到 基本上在第一頁 226 00:12:31,560 --> 00:12:34,740 從整個結果 設置,我們已經有了項目。 227 00:12:34,740 --> 00:12:37,460 而且它在這裡的XML格式。 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 而且它也被 通過Firefox的美化。 230 00:12:42,210 --> 00:12:45,850 它實際上並不具備所有這些 小擴張和收縮 231 00:12:45,850 --> 00:12:47,880 doohickeys這裡。 232 00:12:47,880 --> 00:12:52,520 這是形式的更好 版本的方式來看待它。 233 00:12:52,520 --> 00:12:57,040 >> 但是,這是告訴我們的是 我已經要求所有的項目。 234 00:12:57,040 --> 00:13:03,120 因此,有13289475項。 235 00:13:03,120 --> 00:13:06,150 我期待在第一次 10,起始位置為零 236 00:13:06,150 --> 00:13:09,760 因為在計算機科學 我們總是從零開始。 237 00:13:09,760 --> 00:13:15,150 而我在這裡,如果我只是崩潰 這一點,你會看到我已經得到了10個項目。 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> 如果我來看看一個項目,我可以 看到我有關於它的信息。 240 00:13:25,210 --> 00:13:27,400 這是什麼所謂MODS的形式。 241 00:13:27,400 --> 00:13:30,860 所以我要切換 回到這裡了一會兒。 242 00:13:30,860 --> 00:13:33,750 好不好。 243 00:13:33,750 --> 00:13:37,447 >> 因此,讓我們尋找的東西 具體的,因為第一項 244 00:13:37,447 --> 00:13:40,030 發生時,你要拿出 通過整個集合 245 00:13:40,030 --> 00:13:41,750 是,根據定義,是隨機的。 246 00:13:41,750 --> 00:13:44,550 因此,讓我們來看看一些甜甜圈。 247 00:13:44,550 --> 00:13:46,830 呵呵。 248 00:13:46,830 --> 00:13:49,190 >> 好不好。 249 00:13:49,190 --> 00:13:49,940 所以甜甜圈。 250 00:13:49,940 --> 00:13:55,360 因此,我們發現有80項 引用甜甜圈的集合。 251 00:13:55,360 --> 00:13:57,150 我們期待在第一次10人。 252 00:13:57,150 --> 00:14:01,890 現在,你可以在這裡看到的方式, 我說我要找的甜甜圈, 253 00:14:01,890 --> 00:14:04,400 我只是說的東西 URL的查詢字符串。 254 00:14:04,400 --> 00:14:09,680 所以,Q等於甜甜圈,你可以 看到更容易在這裡一點點。 255 00:14:09,680 --> 00:14:12,131 >> 這基本上意味著有 一個規範的API,這 256 00:14:12,131 --> 00:14:13,880 定義了所有的東西 這些參數的意思。 257 00:14:13,880 --> 00:14:17,150 這意味著我們要 搜索一切為了甜甜圈。 258 00:14:17,150 --> 00:14:24,910 >> 因此,第一項在這裡我們有 你可以看到標題是甜甜圈, 259 00:14:24,910 --> 00:14:29,310 並且有一個叫做一個字幕 美國的激情,這一點,我想, 260 00:14:29,310 --> 00:14:31,610 適當的。 261 00:14:31,610 --> 00:14:36,134 有很多的different-- 262 00:14:36,134 --> 00:14:38,050 一旦你到了點 獲得的數據, 263 00:14:38,050 --> 00:14:41,020 有很多不同的 格式,你可以讓它進入。 264 00:14:41,020 --> 00:14:44,050 並有不同的長處 和弱點為所有這些。 265 00:14:44,050 --> 00:14:49,000 所以這一塊,你可以看到 在這裡,這種形式非常豐富。 266 00:14:49,000 --> 00:14:51,946 和它的標準化。 267 00:14:51,946 --> 00:14:55,040 >> 所以這是一個特定的標題 場,字幕字段。 268 00:14:55,040 --> 00:14:58,950 還有一個備用 標題,一個美國人激情。 269 00:14:58,950 --> 00:15:01,650 有一個與它相關聯的名稱。 270 00:15:01,650 --> 00:15:03,120 資源類型是文本。 271 00:15:03,120 --> 00:15:06,070 有大量的信息 這裡在這種格式。 272 00:15:06,070 --> 00:15:09,480 >> 但也有一堆 不同的格式。 273 00:15:09,480 --> 00:15:11,920 所以我們剛才什麼 看著是一種格式 274 00:15:11,920 --> 00:15:17,700 所謂MODS,它代表 元數據對象描述服務, 275 00:15:17,700 --> 00:15:18,250 有可能。 276 00:15:18,250 --> 00:15:23,030 我其實不太肯定的 S.但它是一個相當複雜的格式。 277 00:15:23,030 --> 00:15:24,240 它的默認格式。 278 00:15:24,240 --> 00:15:30,260 >> 但它是一個信守 的所有數據的豐富性 279 00:15:30,260 --> 00:15:33,820 該圖書館有,因為 它非常接近於 280 00:15:33,820 --> 00:15:35,110 圖書館內部使用。 281 00:15:35,110 --> 00:15:39,030 這是一個標準,它是 在全國范圍內使用, 282 00:15:39,030 --> 00:15:40,944 世界各地的高校圖書館。 283 00:15:40,944 --> 00:15:42,110 而且它是非常互通。 284 00:15:42,110 --> 00:15:44,852 所以,如果你已經有了一個文件 這是MODS的格式, 285 00:15:44,852 --> 00:15:47,560 你可以把那個給別人 其系統的理解MODS, 286 00:15:47,560 --> 00:15:48,518 他們可以將其導入。 287 00:15:48,518 --> 00:15:50,840 所以這是一個標準。 288 00:15:50,840 --> 00:15:54,250 這是非常明確的,非常具體。 289 00:15:54,250 --> 00:15:58,980 那是什麼使得它 可互操作的,因為如果有人說, 290 00:15:58,980 --> 00:16:04,930 這是一個在備用標題 記錄,每個人都知道這意味著什麼。 291 00:16:04,930 --> 00:16:07,740 在另一面,這是非常複雜的。 292 00:16:07,740 --> 00:16:13,160 >> 所以,如果你看一看 在這裡這個紀錄, 293 00:16:13,160 --> 00:16:15,320 如果我只是想獲得 這個文件的標題, 294 00:16:15,320 --> 00:16:21,150 這本書,這可能是甜甜圈, 美國的激情,解析出來 295 00:16:21,150 --> 00:16:22,940 有點複雜。 296 00:16:22,940 --> 00:16:27,380 而還有另一種 格式被稱為都柏林核心, 297 00:16:27,380 --> 00:16:29,730 這是一個非常非常簡單的格式。 298 00:16:29,730 --> 00:16:33,764 >> 所以你在這裡看到,有沒有 標題,副標題,替代稱號。 299 00:16:33,764 --> 00:16:35,930 這裡還有稱號, 甜甜圈,一個美國人激情, 300 00:16:35,930 --> 00:16:38,780 而另一個標題,美國的激情。 301 00:16:38,780 --> 00:16:42,907 所以,當你在看什麼形式 你想要得到的數據出來, 302 00:16:42,907 --> 00:16:44,740 很多取決於如何 你要使用它。 303 00:16:44,740 --> 00:16:46,573 您使用的 互操作性還是你 304 00:16:46,573 --> 00:16:49,970 想要的東西,簡單的說 可能是比較容易的工作? 305 00:16:49,970 --> 00:16:56,002 >> 在另一面,很多的 排序方式壓扁了。 306 00:16:56,002 --> 00:16:58,460 你可能會失去的細微差別 什麼是特定領域的手段 307 00:16:58,460 --> 00:17:02,960 如果你正在處理的都柏林核心, 你不會得到與MODS。 308 00:17:02,960 --> 00:17:06,462 因此,這些都是兩個格式 你可以走出API的。 309 00:17:06,462 --> 00:17:08,920 基本上,我們保持 其背後的MODS的場景。 310 00:17:08,920 --> 00:17:14,179 但是,我們可以給你它和MODS 都柏林核心和其他任何為好。 311 00:17:14,179 --> 00:17:16,470 其他考慮因素 你要找的數據 312 00:17:16,470 --> 00:17:21,210 是你能得到它的無論是JSON,這 代表JavaScript對象符號, 313 00:17:21,210 --> 00:17:24,720 或XML,它代表 可擴展標記語言。 314 00:17:24,720 --> 00:17:30,080 而這些數據均表示 具有完全相同的數據,正好 315 00:17:30,080 --> 00:17:31,080 相同的字段。 316 00:17:31,080 --> 00:17:33,644 但他們只是 語法不同。 317 00:17:33,644 --> 00:17:40,401 >> 因此,這是A-- 318 00:17:40,401 --> 00:17:41,400 那麼,就讓我們進行切換。 319 00:17:41,400 --> 00:17:47,490 所以這是我們查詢 甜甜圈的XML格式。 320 00:17:47,490 --> 00:17:53,470 如果我只是切換這是JSON, 我可以看到它看起來不一樣。 321 00:17:53,470 --> 00:17:58,580 所以,現在,這是同樣的內容, 但不同的結構。 322 00:17:58,580 --> 00:18:00,080 有較少的尖括號。 323 00:18:00,080 --> 00:18:02,530 還有更簡潔。 324 00:18:02,530 --> 00:18:06,440 >> 而這是一個格式,如果 工作在網絡環境下, 325 00:18:06,440 --> 00:18:09,680 你最有可能會 到想要使用,因為一個 326 00:18:09,680 --> 00:18:12,630 的好東西大約是JSON 它是用JavaScript兼容。 327 00:18:12,630 --> 00:18:17,680 所以,如果我寫的Web應用程序,我可以拉 在JSON,只是用它直接工作。 328 00:18:17,680 --> 00:18:20,187 而使用XML,這是一個 稍微有點複雜。 329 00:18:20,187 --> 00:18:21,520 如此反复,這些都是有用的。 330 00:18:21,520 --> 00:18:26,387 他們只是在不同的使用情況 人們可能會想使用它們。 331 00:18:26,387 --> 00:18:26,886 好不好。 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 所以回API。 334 00:18:31,680 --> 00:18:32,900 所以,我們可以搜索for-- 335 00:18:32,900 --> 00:18:36,220 >> 我舉一個例子 尋找甜甜圈。 336 00:18:36,220 --> 00:18:39,330 我們還可以搜索只是在一個 在此範圍內特定領域。 337 00:18:39,330 --> 00:18:41,310 因此,而不是搜索 整個記錄, 338 00:18:41,310 --> 00:18:43,870 我可以只搜索標題字段。 339 00:18:43,870 --> 00:18:48,810 所以現在有25個東西, 具有甜甜圈的稱號,其中之一 340 00:18:48,810 --> 00:18:52,430 即將恢復 管理濕地 341 00:18:52,430 --> 00:18:54,990 在圓環的孔的 計劃,這可能是 342 00:18:54,990 --> 00:18:58,970 我們期待並不一定是什麼 因為當我們正在尋找甜甜圈。 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> 您還可以,當你 處理一個API-- 345 00:19:05,490 --> 00:19:08,827 >> 有一個API的一部分是給 人們訪問大數據集。 346 00:19:08,827 --> 00:19:11,410 並有不同的一對夫婦 工具,你可以用它來做到這一點。 347 00:19:11,410 --> 00:19:14,170 其一是,很簡單,你 可瀏覽數據。 348 00:19:14,170 --> 00:19:17,340 所以,就像你做一個查詢 通過Web界面, 349 00:19:17,340 --> 00:19:19,470 你可以看看一個頁面, 第二頁,第三頁。 350 00:19:19,470 --> 00:19:22,040 你可以這樣做 通過API的事情。 351 00:19:22,040 --> 00:19:24,150 你只需要在 明確的,你是怎麼做到的。 352 00:19:24,150 --> 00:19:29,511 >> 因此,舉例來說,如果我要找 我的第一個查詢在這裡, 353 00:19:29,511 --> 00:19:32,510 在那裡我做了搜索的東西 在標題甜甜圈,我可以說, 354 00:19:32,510 --> 00:19:35,415 和極限等於20,這意味著 給我的第一個20條記錄,而不是 355 00:19:35,415 --> 00:19:38,540 第10位,這是默認的, 因為我想看看20的時間。 356 00:19:38,540 --> 00:19:43,435 或者,我可以說,設置 開始等於20和限 357 00:19:43,435 --> 00:19:47,150 等於20,這將給 我記錄了21至40。 358 00:19:47,150 --> 00:19:52,680 >> 所以我想的東西 帶走這裡 359 00:19:52,680 --> 00:19:57,290 我們使用的查詢字符串 上設置的查詢參數。 360 00:19:57,290 --> 00:20:02,760 它可以讓你控制 你會得到什麼。 361 00:20:02,760 --> 00:20:05,980 >> 您可以使用另一種工具 - 362 00:20:05,980 --> 00:20:09,250 >> 這是真正有用的 條款探索數據。 363 00:20:09,250 --> 00:20:10,840 >> --is一些所謂的小面。 364 00:20:10,840 --> 00:20:15,530 所以說,小面是 不一定普遍。 365 00:20:15,530 --> 00:20:16,880 但是你們都見過。 366 00:20:16,880 --> 00:20:18,630 如果你看一看 亞馬遜,例如 367 00:20:18,630 --> 00:20:20,870 你做一個搜索 甜甜圈的書籍, 368 00:20:20,870 --> 00:20:27,080 在這裡,他們已經有了一個系列叢書, 他們正在按類別分組, 369 00:20:27,080 --> 00:20:30,470 你會得到不同的類別, 多少在每個類別的書籍 370 00:20:30,470 --> 00:20:31,330 顯示。 371 00:20:31,330 --> 00:20:33,420 >> 因此,這基本上是一個方面。 372 00:20:33,420 --> 00:20:37,570 你把所有的書,1800 匹配甜甜圈亞馬遜的書籍。 373 00:20:37,570 --> 00:20:39,820 其中12個是在 早餐類別。 374 00:20:39,820 --> 00:20:43,100 在糕點和烘焙21, 等,等等。 375 00:20:43,100 --> 00:20:47,670 >> 因此,這的確是一個非常有用 工具遊覽內容 376 00:20:47,670 --> 00:20:53,260 在圖書館內,以及 因為當你看一個方面, 377 00:20:53,260 --> 00:20:56,520 它給你什麼科目的想法 存在的,喜歡什麼類型的科目 378 00:20:56,520 --> 00:20:58,510 是你的查詢集內最流行的。 379 00:20:58,510 --> 00:21:00,950 它可以幫助你趕走和探索。 380 00:21:00,950 --> 00:21:02,770 因此,我們可以做同樣的事情。 381 00:21:02,770 --> 00:21:05,940 >> 如果我們要使用的 API,看看方面, 382 00:21:05,940 --> 00:21:08,950 我們添加另一個參數 我們的朋友的查詢字符串。 383 00:21:08,950 --> 00:21:12,540 所以面等於逗號分隔 是我們想要的面名單。 384 00:21:12,540 --> 00:21:14,790 這樣的刻面中的一個可能是主題。 385 00:21:14,790 --> 00:21:16,565 另一種可能是語言。 386 00:21:16,565 --> 00:21:19,665 所以,如果我們運行的查詢,我們get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 它看起來非常這裡一樣。 389 00:21:24,830 --> 00:21:29,010 但是,我們已經添加到最後 列表的一組小刻面。 390 00:21:29,010 --> 00:21:34,060 因此,我們有一個叫做主題方面。 391 00:21:34,060 --> 00:21:40,250 因此,這是在告訴我們,如果我期待 在我80結果從甜甜圈查詢, 392 00:21:40,250 --> 00:21:42,100 其中13個有 受到美國。 393 00:21:42,100 --> 00:21:43,684 有三個主題甜甜圈。 394 00:21:43,684 --> 00:21:45,600 有三個主題 濕地修復, 395 00:21:45,600 --> 00:21:47,720 這可能是我們在甜甜圈洞。 396 00:21:47,720 --> 00:21:51,780 他們兩個人,辛普森, 等,等等。 397 00:21:51,780 --> 00:21:59,211 >> 因此,這可以是如果有用 要縮小搜索範圍。 398 00:21:59,211 --> 00:22:00,210 它可以幫助你做到這一點。 399 00:22:00,210 --> 00:22:03,580 特別是如果你有 不止,說80的效果。 400 00:22:03,580 --> 00:22:05,980 >> 同樣,我們也問 對於語言方面。 401 00:22:05,980 --> 00:22:14,790 因此,如果我們看看我們的結果,我們可以看到76 他們都是英文的,四家在法國, 402 00:22:14,790 --> 00:22:19,620 兩人在西班牙,2,我認為這是 未定義或未知,荷蘭和拉丁美洲。 403 00:22:19,620 --> 00:22:22,830 所以我覺得拉丁 甜甜圈結果,再次 404 00:22:22,830 --> 00:22:24,922 有無關焙烤食品。 405 00:22:24,922 --> 00:22:25,630 不過你去那裡。 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> 如此這是那種你展示 如何將數據內容取回 408 00:22:38,630 --> 00:22:41,270 從API剛剛經歷 網頁瀏覽器,這是偉大的。 409 00:22:41,270 --> 00:22:44,320 但它不是真正的你會 通常是用在為它的API。 410 00:22:44,320 --> 00:22:48,710 你怎麼這麼一個例子 能真正做到這一點是我 411 00:22:48,710 --> 00:22:54,720 寫了一個超小程序, 其中,再次,做我的甜甜圈搜索 412 00:22:54,720 --> 00:22:59,010 並選擇了幾個字段 並在表中顯示它們。 413 00:22:59,010 --> 00:23:01,610 所以這是非常多的 同樣的內容,我們只是 414 00:23:01,610 --> 00:23:04,830 鋸了幾場拉出。 415 00:23:04,830 --> 00:23:12,090 所以冠軍,名單 什麼樣的書的位置 416 00:23:12,090 --> 00:23:15,120 大約是,語言, 等,等等。 417 00:23:15,120 --> 00:23:20,480 >> 那麼如何實際發生的,因為 我想我們來看看一些代碼, 418 00:23:20,480 --> 00:23:22,420 is-- 419 00:23:22,420 --> 00:23:28,060 >> 我們在這裡是一個簡單的HTML 頁面,該頁面顯示的文本, 420 00:23:28,060 --> 00:23:32,900 歡迎庫雲 然後顯示結果的一個表。 421 00:23:32,900 --> 00:23:37,790 並有明顯的沒有結果的 當頁面被加載該表。 422 00:23:37,790 --> 00:23:41,380 但是我們在做什麼 是,首先,我們 423 00:23:41,380 --> 00:23:46,290 加載一個名為庫 jQuery的,這基本上是 424 00:23:46,290 --> 00:23:52,030 一個JavaScript庫,這使得它 很容易操縱的JavaScript 425 00:23:52,030 --> 00:23:58,780 本身,HTML和創建網頁, 客戶端邏輯和網頁。 426 00:23:58,780 --> 00:24:01,595 >> 所以,我們在這裡是jQuery的 有一個名為Get方法, 427 00:24:01,595 --> 00:24:05,270 基本上會去 一個URL,其​​中,在這種情況下, 428 00:24:05,270 --> 00:24:09,070 這是熟悉的期待URL。 429 00:24:09,070 --> 00:24:14,440 然後將得到的內容 該URL,然後在其上運行的功能。 430 00:24:14,440 --> 00:24:19,240 所以我們說去api.lib.harvard / EDU。 431 00:24:19,240 --> 00:24:20,060 搜索甜甜圈。 432 00:24:20,060 --> 00:24:21,300 給我們20個記錄。 433 00:24:21,300 --> 00:24:28,590 然後運行該功能, 我選擇,它傳遞的數據。 434 00:24:28,590 --> 00:24:34,430 並且該數據是JSON那 從API得到恢復。 435 00:24:34,430 --> 00:24:40,120 >> 然後我們在說,內 數據有一個名為項目現場。 436 00:24:40,120 --> 00:24:48,117 如果我去看看回 這些結果是在這裡的, 437 00:24:48,117 --> 00:24:49,200 有什麼東西called-- 438 00:24:49,200 --> 00:24:50,220 >> 好了,這就是所謂的項目。 439 00:24:50,220 --> 00:24:53,520 因此,這可能是因為。 440 00:24:53,520 --> 00:25:01,840 而它的作用是 經過每個項目 441 00:25:01,840 --> 00:25:05,300 然後調用另一個 功能上的每個項目。 442 00:25:05,300 --> 00:25:08,440 而且基本功能 走的是價值 443 00:25:08,440 --> 00:25:12,010 的項目,這是 基本上是個人記錄 444 00:25:12,010 --> 00:25:18,220 使我們能夠拉出來的稱號, 覆蓋率和語言。 445 00:25:18,220 --> 00:25:21,640 >> 因此,我們呼籲每一個函數 我們得到了來自API回來項目。 446 00:25:21,640 --> 00:25:25,397 如果你只是看看 在這一塊就在這裡, 447 00:25:25,397 --> 00:25:27,230 我們正在做的是什麼 我們要創建一個字符串, 448 00:25:27,230 --> 00:25:31,810 這實質上是一些HTML標記 圍著一張桌子,用value.title, 449 00:25:31,810 --> 00:25:35,790 這是在標題 對象,value.coverage, 450 00:25:35,790 --> 00:25:36,790 這是覆蓋, - 451 00:25:36,790 --> 00:25:38,225 >> 我們正在做的檢查 在這裡,看看誰是不確定的 452 00:25:38,225 --> 00:25:40,570 和隱藏它,如果它說不確定, 因為我們並不真正感興趣 453 00:25:40,570 --> 00:25:41,600 在這一點。 454 00:25:41,600 --> 00:25:42,939 >> - 並且那麼語言。 455 00:25:42,939 --> 00:25:44,730 然後呢我們 做的是追加了 456 00:25:44,730 --> 00:25:48,510 表即 確定此字符串這裡。 457 00:25:48,510 --> 00:25:50,790 和jQuery是如何工作的 正是這種在說 458 00:25:50,790 --> 00:25:56,420 在查找表的想法 結果這個文本添加到它。 459 00:25:56,420 --> 00:25:59,380 並且這是表與想法的結果。 460 00:25:59,380 --> 00:26:04,998 所以,你到底是什麼了 同是這個頁面在這裡。 461 00:26:04,998 --> 00:26:06,206 而且為了查看source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 嗯,源實際上不是 更新時發生。 464 00:26:13,810 --> 00:26:18,740 所以你可以看到實際的 該表的結果,雖然在這裡。 465 00:26:18,740 --> 00:26:24,770 >> 所以,這只是一個簡單的例子 這樣做對API一個很基本的查詢 466 00:26:24,770 --> 00:26:29,020 且在一些其它顯示信息 形成,並沒有做什麼太花哨。 467 00:26:29,020 --> 00:26:36,370 現在,另一個例子是像 申請由David溫伯格 468 00:26:36,370 --> 00:26:39,120 作為演示的這一點,這 基本上顯示你 469 00:26:39,120 --> 00:26:44,620 你如何混搭你的結果 從庫雲API獲取 470 00:26:44,620 --> 00:26:46,250 有,說,谷歌圖書。 471 00:26:46,250 --> 00:26:52,225 >> 這裡的想法是,我可以 運行對谷歌圖書的查詢, 472 00:26:52,225 --> 00:26:56,060 得到一個完整的文本搜索,得到一些結果 背部,找出這些項目的 473 00:26:56,060 --> 00:27:01,180 實際存在的霍利斯, 圖書館系統, 474 00:27:01,180 --> 00:27:03,200 然後給我聯繫 回的那些項目。 475 00:27:03,200 --> 00:27:12,730 所以,如果我搜索,它是 月黑風高的夜晚,我 476 00:27:12,730 --> 00:27:16,210 拿回一堆結果 從谷歌,然後一個結果 477 00:27:16,210 --> 00:27:19,460 這是一個時間皺紋。 478 00:27:19,460 --> 00:27:29,330 這些都是存在的聯繫書籍 在哈佛圖書館系統。 479 00:27:29,330 --> 00:27:32,160 >> 所以我想在這裡一點都不 這麼多,這可能會或可能不會 480 00:27:32,160 --> 00:27:34,118 是你所希望的方式 搜索庫, 481 00:27:34,118 --> 00:27:38,310 但它是一個完全不同的 方式是不提供給你 482 00:27:38,310 --> 00:27:42,884 之前,就像你有沒有辦法做 在書的全文搜索,即使 483 00:27:42,884 --> 00:27:44,550 是哈佛圖書館系統的一部分。 484 00:27:44,550 --> 00:27:46,870 所以現在這是一種 你能做到這一點。 485 00:27:46,870 --> 00:27:51,930 並且可以在顯示它們 任何格式你想要的。 486 00:27:51,930 --> 00:27:55,990 因此,這裡的問題是,基本上, 我們正在開拓的人新途徑 487 00:27:55,990 --> 00:27:59,080 與數據一起工作。 488 00:27:59,080 --> 00:28:07,925 >> 另一塊庫雲是 它有助於揭露一些使用數據的 489 00:28:07,925 --> 00:28:08,800 該圖書館有。 490 00:28:08,800 --> 00:28:12,630 所以,如果你去圖書館, 你正在尋找的書籍, 491 00:28:12,630 --> 00:28:15,770 你不一定 其實有一個想法, 492 00:28:15,770 --> 00:28:19,080 用於在所有項目 特定的主題,是什麼 493 00:28:19,080 --> 00:28:21,200 是人在 社區,無論是 494 00:28:21,200 --> 00:28:24,890 定義為哈佛或 國家或你的類, 495 00:28:24,890 --> 00:28:26,421 他們有什麼最有用? 496 00:28:26,421 --> 00:28:28,920 而圖書館實際上有一個 噸左右的信息是什麼 497 00:28:28,920 --> 00:28:32,999 是最有用的,因為如果有很多 人們檢查了一本書, 498 00:28:32,999 --> 00:28:34,040 告訴你一件事。 499 00:28:34,040 --> 00:28:36,498 一定有某種原因 他們想一探究竟。 500 00:28:36,498 --> 00:28:38,270 很多人把它放在儲備。 501 00:28:38,270 --> 00:28:42,520 >> 如果是候補名單上的很多 類,告訴你一件事。 502 00:28:42,520 --> 00:28:45,960 如果教職員工正在檢查它 出了很多,本科生都沒有, 503 00:28:45,960 --> 00:28:47,200 告訴我的東西。 504 00:28:47,200 --> 00:28:49,280 反之亦然,這也 告訴你一件事。 505 00:28:49,280 --> 00:28:54,680 所以,這將是非常有趣的 把這些信息在那裡,讓 506 00:28:54,680 --> 00:28:59,969 人們用它來幫助他們找到 圖書館系統內工作。 507 00:28:59,969 --> 00:29:02,260 在另一面,這是 也有一些嚴重的隱私 508 00:29:02,260 --> 00:29:07,854 關注,因為所述一個 圖書館的核心原則 509 00:29:07,854 --> 00:29:10,770 是我們不打算在告訴 人什麼其他人都在閱讀。 510 00:29:10,770 --> 00:29:17,360 即使你是說這 本書是簽出四倍 511 00:29:17,360 --> 00:29:20,070 在一個特定的月份, 可用於 512 00:29:20,070 --> 00:29:25,252 回鏈接到特定 人因去匿名數據 513 00:29:25,252 --> 00:29:26,710 並找出誰檢查出來。 514 00:29:26,710 --> 00:29:30,792 這樣的方式,我們可以avoid-- 515 00:29:30,792 --> 00:29:33,750 我們可以嘗試提取的方式 所有信息的某些信號 516 00:29:33,750 --> 00:29:36,740 不侵犯 任何人的隱私問題 517 00:29:36,740 --> 00:29:42,150 基本上我們看 10年使用數據, - 518 00:29:42,150 --> 00:29:43,930 >> 因此,它是在一段很長的時間。 519 00:29:43,930 --> 00:29:50,639 >> - 並且說,OK,讓我們看看如何 很多時候,這工作時, 520 00:29:50,639 --> 00:29:52,930 和誰在這一時期 時間,然後基本 521 00:29:52,930 --> 00:29:56,300 還給了一些,我們稱之為 一疊得分,這基本上 522 00:29:56,300 --> 00:29:59,910 代表多少的被使用。 523 00:29:59,910 --> 00:30:01,084 而且number-- 524 00:30:01,084 --> 00:30:03,250 很多不同的計算 進入該號碼。 525 00:30:03,250 --> 00:30:05,150 - 但它是一個非常粗糙 公制,讓你 526 00:30:05,150 --> 00:30:11,300 如何略知一二 社會可能重視這項工作。 527 00:30:11,300 --> 00:30:16,772 >> 所以另一種連 更充實的應用 528 00:30:16,772 --> 00:30:18,480 即利用 這是值得 529 00:30:18,480 --> 00:30:24,000 所謂Stacklife,這實際上是 可通過主哈佛 530 00:30:24,000 --> 00:30:24,880 圖書館門戶網站。 531 00:30:24,880 --> 00:30:26,700 所以,你去library.harvard.edu。 532 00:30:26,700 --> 00:30:29,360 你會看到許多不同的 如何搜索庫。 533 00:30:29,360 --> 00:30:32,300 及它們中的一個被稱為Stacklife。 534 00:30:32,300 --> 00:30:38,980 >> 而這是一個應用程序 瀏覽該庫的內容, 535 00:30:38,980 --> 00:30:43,490 但完全建立 關於這些API的頂部。 536 00:30:43,490 --> 00:30:46,910 因此,有沒有什麼特別的東西 怎麼回事幕後。 537 00:30:46,910 --> 00:30:49,570 有沒有訪問 數據你沒有。 538 00:30:49,570 --> 00:30:54,090 它使用的API,為您提供 一個完全不同的瀏覽 539 00:30:54,090 --> 00:30:55,480 的經驗。 540 00:30:55,480 --> 00:30:58,570 >> 所以,如果我尋找愛麗絲 仙境在這種情況下, 541 00:30:58,570 --> 00:31:02,600 我得到的結果看起來像 這一點,這是非常much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> 它非常類似於任何其它搜索 你可能只是在這種情況下做的, 544 00:31:10,870 --> 00:31:15,730 我們通過排名的項目 stackscore,它給你 545 00:31:15,730 --> 00:31:19,850 如何普及這些略知一二 項目是在社區內。 546 00:31:19,850 --> 00:31:25,610 和這麼清楚,愛麗絲夢遊仙境 由沃爾​​特·迪斯尼是非常受歡迎的。 547 00:31:25,610 --> 00:31:36,570 但你也可以看到前四 這裡是那些你可能不actually-- 548 00:31:36,570 --> 00:31:39,220 >> 事情是高度使用, 但你馬上可能不 549 00:31:39,220 --> 00:31:41,240 與愛麗絲夢遊仙境連接。 550 00:31:41,240 --> 00:31:44,650 所以,我們的老朋友 註釋愛麗絲在這裡。 551 00:31:44,650 --> 00:31:46,350 這樣我就可以看看它。 552 00:31:46,350 --> 00:31:52,010 現在我期待什麼 在基本上是一個集of-- 553 00:31:52,010 --> 00:31:53,760 我可以有註釋 愛麗絲在這裡。 554 00:31:53,760 --> 00:31:56,700 我有一些關於它的信息。 555 00:31:56,700 --> 00:32:00,230 我也有一個stackscore 的,在這種情況下,26。 556 00:32:00,230 --> 00:32:03,169 這告訴我這類的大致 我們是如何走到這stackscore, 557 00:32:03,169 --> 00:32:05,835 喜歡誰檢查出來,怎麼樣 很多時候它被簽出, 558 00:32:05,835 --> 00:32:08,440 像教師或本科生,怎麼 許多副本的圖書館有, 559 00:32:08,440 --> 00:32:11,300 等,等等。 560 00:32:11,300 --> 00:32:16,460 >> 而且你還可以,夠有趣 在這裡,幾乎瀏覽堆棧。 561 00:32:16,460 --> 00:32:19,550 因此,這裡的數據, 是您展示排序 562 00:32:19,550 --> 00:32:23,547 一個虛擬的代表性 什麼樣的架子威力 563 00:32:23,547 --> 00:32:25,880 看,如果你要像 所有圖書館的館藏 564 00:32:25,880 --> 00:32:28,940 並把它們放在一起 在一個無限的貨架。 565 00:32:28,940 --> 00:32:30,990 而好處是,我們can-- 566 00:32:30,990 --> 00:32:33,380 >> 首先,在 關於這些圖書的元數據 567 00:32:33,380 --> 00:32:35,627 常常告訴你,當它被發表。 568 00:32:35,627 --> 00:32:37,085 它會告訴你多少頁有。 569 00:32:37,085 --> 00:32:38,459 它可能會告訴你的尺寸。 570 00:32:38,459 --> 00:32:42,930 所以你可以看到這是這裡反映 在書的大小方面。 571 00:32:42,930 --> 00:32:46,740 >> 然後我們可以使用 堆疊分數突出 572 00:32:46,740 --> 00:32:49,170 具有較高分數的堆棧的書籍。 573 00:32:49,170 --> 00:32:54,930 因此,如果它是更暗,這意味著, 據推測,它是用來更頻繁。 574 00:32:54,930 --> 00:32:57,040 因此,在這種情況下,我 去猜測,這 575 00:32:57,040 --> 00:33:03,226 是愛麗絲夢遊仙境的版本 這是非常常用並且最 576 00:33:03,226 --> 00:33:05,100 訪問,該庫 有一種最副本。 577 00:33:05,100 --> 00:33:06,975 所以,如果你正在尋找 為愛麗絲夢遊仙境, 578 00:33:06,975 --> 00:33:10,220 這可能是一個良好的開端。 579 00:33:10,220 --> 00:33:13,500 >> 然後在這裡你還可以鏈接出 於說,亞馬遜購買圖書, 580 00:33:13,500 --> 00:33:15,182 等,等等。 581 00:33:15,182 --> 00:33:17,140 這裡的關鍵,同樣, 與其說是這 582 00:33:17,140 --> 00:33:25,030 是瀏覽庫的最佳方式 或合適的工具適合各種場合。 583 00:33:25,030 --> 00:33:28,400 但它這樣做的另一種方式。 584 00:33:28,400 --> 00:33:31,359 並且通過使數據 可以通過一個API,它 585 00:33:31,359 --> 00:33:34,650 是由非常簡單的積木, 它允許你搜索的內容, 586 00:33:34,650 --> 00:33:39,420 你可以建立的東西 這樣,可以 587 00:33:39,420 --> 00:33:41,520 格外 有價值的一些人。 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> 這就是那種,就像我想 真正說的API是什麼 590 00:33:51,860 --> 00:33:56,070 什麼是暴露,有一個整體 一堆東西在幕後,這 591 00:33:56,070 --> 00:33:59,480 我只是觸及簡要 那種只是因為它是在這個 592 00:33:59,480 --> 00:34:03,720 從在一個完全不同的角 如何做這樣的事情條款 593 00:34:03,720 --> 00:34:04,580 得到落實到位? 594 00:34:04,580 --> 00:34:10,820 >> 因此,一個API是一個標準 連接所有這些內容。 595 00:34:10,820 --> 00:34:13,820 但要得到它那裡, 第一件事情,我們不得不這樣做 596 00:34:13,820 --> 00:34:17,260 在齊心協力信息 書籍和影像 597 00:34:17,260 --> 00:34:21,580 和發現艾滋病,收集 來自哈佛大學的各種系統文件。 598 00:34:21,580 --> 00:34:23,929 阿列夫,VIA和OASIS是 該系統的名稱。 599 00:34:23,929 --> 00:34:28,820 並且它們基本上進入一個 管線,一個處理管線。 600 00:34:28,820 --> 00:34:33,230 >> 所以首先,我們得到的出口 從所有這些系統的文件。 601 00:34:33,230 --> 00:34:35,130 我們將它們分割成不同的物品。 602 00:34:35,130 --> 00:34:39,360 因此,我們有一個文件,這是技嘉, 其中有一百萬條記錄。 603 00:34:39,360 --> 00:34:42,290 所以我們把它分解成單個項目。 604 00:34:42,290 --> 00:34:45,374 然後,對於每個項目,我們將其轉換 到MODS,是因為其中的一些 605 00:34:45,374 --> 00:34:47,040 本身是MODS,其中一些則不是。 606 00:34:47,040 --> 00:34:49,204 所以我們讓他們都來 是在相同的格式。 607 00:34:49,204 --> 00:34:51,120 然後有各個 濃縮步驟,在這裡 608 00:34:51,120 --> 00:34:55,969 我們添加更多的信息,以將數據 比在圖書館提供。 609 00:34:55,969 --> 00:34:59,750 因此,我們需要添加的是,第一次 我們有什麼庫,持有它。 610 00:34:59,750 --> 00:35:02,250 我們經歷的步驟 計算stackscore。 611 00:35:02,250 --> 00:35:07,112 我們經歷的另一步 在條款中加入更多的元數據 612 00:35:07,112 --> 00:35:10,730 什麼樣的人的集合 有可能增加this-- 613 00:35:10,730 --> 00:35:12,532 >> 人們在製作 項的集合。 614 00:35:12,532 --> 00:35:13,990 它屬於什麼收藏? 615 00:35:13,990 --> 00:35:17,220 如何有標記的人 在過去這內容? 616 00:35:17,220 --> 00:35:20,750 然後你過濾掉,而你限制 的記錄,因為正如我所說, 617 00:35:20,750 --> 00:35:24,120 還有一些記錄的,因為 版權原因,我們無法顯示。 618 00:35:24,120 --> 00:35:26,700 然後我們加載它們 成一種叫 619 00:35:26,700 --> 00:35:31,680 Solr的,這不是一個拼寫錯誤,但 是一個軟件的名稱 620 00:35:31,680 --> 00:35:35,710 ,做搜索索引,其中 驅動所有的API背後的搜索。 621 00:35:35,710 --> 00:35:40,110 然後它變得可用來 該API,人們可以使用它。 622 00:35:40,110 --> 00:35:44,640 >> 因此,這就像一個相當 簡單的過程。 623 00:35:44,640 --> 00:35:47,230 一個有趣的 事情大概是 624 00:35:47,230 --> 00:35:50,990 我們正在處理 13萬條記錄 625 00:35:50,990 --> 00:35:53,820 我們將要處理以上。 626 00:35:53,820 --> 00:36:01,260 我們希望能夠處理 這些在一個相對快速的方式。 627 00:36:01,260 --> 00:36:03,630 這需要很長的時間來 處理1300萬條記錄。 628 00:36:03,630 --> 00:36:09,529 >> 因此,如何這條管道是 設置是你can-- 629 00:36:09,529 --> 00:36:12,070 我猜的優勢 管道,我們是問題 630 00:36:12,070 --> 00:36:15,580 想在這裡解決,就是 所有的轉換,所有的 631 00:36:15,580 --> 00:36:18,729 在這這些步驟 管道是分開的。 632 00:36:18,729 --> 00:36:19,645 有沒有相關性。 633 00:36:19,645 --> 00:36:22,146 如果你正在處理 一本書的記錄, 634 00:36:22,146 --> 00:36:24,270 有一個在沒有依賴性 另一本書之間。 635 00:36:24,270 --> 00:36:27,760 >> 所以,我們可以做的是基本, 在管道中的每個步驟, 636 00:36:27,760 --> 00:36:30,470 我們把它放到雲中的隊列。 637 00:36:30,470 --> 00:36:32,250 我正好是在Amazon Web Services。 638 00:36:32,250 --> 00:36:35,140 因此,有列表, 說,萬項 639 00:36:35,140 --> 00:36:38,100 需要進行歸一化和 轉換為MODS格式。 640 00:36:38,100 --> 00:36:41,620 我們旋轉起來盡可能多的服務器 我們想,也許10台服務器。 641 00:36:41,620 --> 00:36:44,860 並且每個服務器只 坐在那裡,看上去在隊列中, 642 00:36:44,860 --> 00:36:46,730 看到這有一個需要 加工,拉它關閉隊列, 643 00:36:46,730 --> 00:36:48,740 處理它,和棍棒 它的下一個隊列。 644 00:36:48,740 --> 00:36:54,200 >> 還等什麼,讓我們 做的是應用,從根本上, 645 00:36:54,200 --> 00:36:58,110 盡可能多的硬件,因為我們希望這 的時間很短的時間的問題 646 00:36:58,110 --> 00:37:02,970 以最快的速度處理數據 可能的話,這恐怕是唯一的, 647 00:37:02,970 --> 00:37:08,220 現在在雲計算的世界 我們可以提供基本的服務器 648 00:37:08,220 --> 00:37:09,890 瞬間,是有用的。 649 00:37:09,890 --> 00:37:12,260 因此,我們不必有 巨型服務器圍坐 650 00:37:12,260 --> 00:37:16,700 所有的時間做加工 這一個星期可能發生一次。 651 00:37:16,700 --> 00:37:21,440 >> 所以這主要是它。 652 00:37:21,440 --> 00:37:27,590 有可用文檔 對於圖書館雲API項目 653 00:37:27,590 --> 00:37:31,960 在這個URL,這將 可後來。 654 00:37:31,960 --> 00:37:36,730 並請到看看 ,看看是否有什麼事, 655 00:37:36,730 --> 00:37:37,579 你有什麼想法。 656 00:37:37,579 --> 00:37:38,120 玩它。 657 00:37:38,120 --> 00:37:38,830 鬼混。 658 00:37:38,830 --> 00:37:42,800 並希望你能來 與一些偉大的事情。 659 00:37:42,800 --> 00:37:44,740 謝謝。 660 00:37:44,740 --> 00:37:45,899