JEFFREY LICHT:您好。 我杰弗裡·利希特。 而我在這裡跟大家介紹一下 哈佛大學圖書館和建築明天的 今天的圖書館,我猜。 所以這裡的背景下, 本屆會議的球場 本質上是有 很多書目數據 可在哈佛圖書館。 並有機會, 通過一些工具 而這正在開發的一個項目, 以獲得信息的訪問 並把它帶到的地方是, 哈佛大學圖書館是不是現在做, 做新的東西呢,實驗 並發揮與它周圍。 這樣的入口點,這是一個API 所謂哈佛圖書館雲,這 是一個開放的元數據服務器, 我就說說現在。 這樣的背景是,有一 很多東西在哈佛圖書館。 我們有超過13萬條書目 記錄,數以百萬計的圖像, 和成千上萬的檢索工具,它 基本上文件描述 收藏,說什麼 在他們的論文盒 等等,代表了 一萬個人文件。 而且還有一個很大的 信息庫中有 有關內容如何使用的 可能是感興趣的人 誰可能要與它合作。 因此,所有的信息 圖書館有元數據。 這樣的元數據是關於數據的數據。 所以,當我們談論 這就是信息 可通過庫 雲的提供, 它不一定 實際文件 本身,不一定全 書籍或完整的圖像文字, 雖然實際上可能是這種情況。 但它確實 關於數據的信息。 所以,你能想到的編目 信息,電話號碼,科目, 多少的副本 本書有什麼 是的版本,有哪些 格式,作者,等等。 因此,有大量的信息約 集合中的信息, 本身就是一種天生有用。 雖然如果你 做了深入的研究, 你顯然希望得到實際 內容本身看數據, 在方面的元數據是非常有用的 既胼分析作為一個整體, 像集合中有什麼事情。 他們如何與? 它可以幫助你真正​​找到其他的東西, 這是它真正的主要目的。 的點 元數據和目錄 是幫助你找到所有 這就是信息 現有的館藏之內。 因此,這是元數據的一個例子 一本書的哈佛大學圖書館。 所以它的存在。 你可以看到它的 實際上中等複雜。 和元數據的價值的一部分 哈佛圖書館系統內 是,它已經排序 建成了由編目 組裝應用的人 大量的專業知識和技能 並認為隨著時間的推移, 其中有一個很大的價值。 所以,如果你看看這個紀錄 附註的愛麗絲,你可以找到 你已經拿到了冠軍,誰寫的,在 作者和所有不同的科目 人們已編目成。 你可以看到另外還有,在 除了很多好的信息 在這裡,有一些重複。 有很多複雜的那 通過元數據反映 你有。 因此,這本書的一個標題是 愛麗絲夢遊仙境。 所以這是一個帶註釋 版本的書。 但它也被稱為註釋 愛麗絲,愛麗絲夢遊 仙境因為 它的一些東西, 馬丁·加德納寫道: 並註明了這本書。 並有很多偉大的信息 關於邏輯謎題和東西 在愛麗絲你 大概不知道。 所以,你應該去閱讀它。 但是你可以看到有 很多細節在這裡, 包括標識符,當它 創建,它是從哪裡來的, 在哈佛的條款 系統,等等。 所以這是一個樣本 元數據的類型 你可能會看到一本書中 哈佛大學圖書館收藏。 這是完全不同的東西。 因此,有一個叫做系統 VIA哈佛,基本上 被編目的圖像和藝術對象 並在整個哈佛視覺的東西, 並增加了一些元數據 對他們來說,他們的分類, 並且,在某些情況下,提供 小縮略圖 你可以採取 看看,如果你願意的話​​。 因此,這是一個例子 你有一個板塊的元數據 從,據推測,愛麗絲夢遊仙境。 你可以看到有 少在這裡的元數據。 這只是一個不同類型的對象。 所以有較少的信息。 你大多有一個事實,即,呼叫 數,基本上是誰創造了它, - 我們不知道在創建時。 - 兼標題。 另一個例子。 這是一個發現的援助。 所以這是劉易斯的集合 卡羅爾的論文在哈佛。 因此,這說明了什麼 在該集合。 所以有人走過,並 通過所有的箱子看 而其編,給予一定的背景, 寫的什麼是這裡的總結。 如果你看看 進一步在此,本 那張頁面和頁面 和頁面,但會告訴你 什麼信什麼 建於什麼樣箱 存在於整個集合。 不過這是後話 ,如果你在哈佛, 你可以去和實際的物理期待 起來,大概看看。 所以這是所有偉大的。 這種元數據的有用。 這是哈佛圖書館系統。 有在線工具,你在哪裡 可以去看看它, 看到它,並搜尋它。 你可以切片和切塊 它在許多不同的方式。 但它確實只有當 你是一個人坐下 在Web瀏覽器或某事或 你的手機,並通過它瀏覽。 它不是在真正可用 任何一種可用的時尚 對於其它系統,或 其他計算機使用, 不與內部系統 哈佛圖書館 但在外界系統, 只是其他人一般。 所以,問題是,我們如何能 使其向計算機提供 這樣我們就可以做更多有趣的 東西與它不僅僅是 瀏覽它自己呢? 那麼,為什麼要這麼做? 有很多的可能性。 一個是你可以建立一個完全 瀏覽不同的方式 這是可用的內容 通過哈佛大學圖書館。 我會告訴你一 後來被稱為Stacklife, 它有一個完全不同的 承擔尋找的內容。 你可以建立一個推薦引擎。 所以哈佛庫不處於 說法業務,你喜歡這本書。 然後去看看這17等 你可能會感興趣的圖書 或者這18其他圖像。 但是,可以肯定 是一個有價值的功能。 並給出了元數據,它可能 有可能把該在一起。 你可能有不同的需求 搜索的內容方面, 如可能,儘管工具 可用的庫使 可用,您可能希望 以不同的方式來搜索 或優化用於特定用途的情況下, 這也許是非常專業的。 也許只有少數 人在世界上誰 要搜索的內容 以這種方式,但它 將是巨大的,如果我們 可以讓他們做到這一點。 有很多的分析 在短短的人們如何 使用這將是真正的內容 有趣的了解,找出 什麼書都被使用, 什麼都沒有,等等。 然後還有很多的 機會整合 與其他信息 那是在那裡在網絡上。 所以我們have-- 例如,NPR有 書評段, 他們採訪 有關書籍的作者。 因此,這將是巨大的,如果你是 找了一本書,在哈佛 圖書館,和你說,OK,還有 過了筆者的採訪。 讓我們去看看那個。 或者有一個維基百科頁面,作為 權威,學術參考 關於這本書,你 可能要看一看。 有這些類型的源 遍布網絡。 並把它們放在一起 可能是一個偉大的使用 給別人看的 內容尋找的東西。 但它也沒有 之類的話,你會 希望庫負責 對於下降和追捕 所有這些不同的來源 和堵塞在一起 因為他們是不斷變化的。 他們認為什麼是重要的5月 不是你的想法是很重要的。 甚至更多的話,基本上有一個 很多東西我們都沒有想到呢。 因此,如果我們可以打開這件事,更 除了半打左右的人, 誰在看這一個 定期能想到的想法 和按摩的數據,並 做他們想做的事情。 所以,我們想使這個 提供給世界的數據。 嗯,有一對夫婦的並發症。 之一是,該元數據 是在不同的系統。 它在不同的格式。 所以有一些正常化 這需要發生, 這是正常化的過程 把東西從不同的格式 並將其映射到一個單一格式 使得字段將匹配。 有一些版權限制。 奇怪的是,目錄條目 一本書是對版權負責。 因此,即使它只是 從書中獲得的信息, 它的版權保護。 並根據究竟是誰 創建元數據, 有可能是在誰的限制 可以分發,類似to-- 我不知道。 它可以是或可以不是類似於 這首歌的歌詞的情況下, 例如。 所以,我們都知道該如何平移出。 所以,你需要避開這個問題。 然後另一塊是 這有很多的數據。 所以,如果我是一個誰願意工作 與數據或有一個很酷的想法, 處理14000000 我的筆記本電腦記錄 可能是有問題的 並且難以管理。 所以,我們要減少 為人們的障礙 要能夠與數據一起工作。 因此,辦法,希望地址 所有這些問題是兩部分。 其中之一就是建立一個平台,需要 從所有這些不同來源的數據 並加劇它,規範化, 豐富它,使 它在一個位置可用。 它使得它可以通過 一個公共API,人們可以調用。 因此,一個API是應用程序 編程接口。 它基本上是指一種 端點系統或技術 可以調用和找回數據的 的方式結構化格式 它可以被使用。 因此,它不依賴 要去網站 刮數據關閉 它,例如。 所以這是的主頁 圖書館雲項目API, 這實質上是它的兩個版本。 所以它的第二次迭代 試圖讓所有的數據 提供給世界。 所以它的 http://api.lib.harvard.edu/v2/items。 而剛剛打破下來 一點點,這是什麼意思 是,這是在API兩個版本。 有一個版本的一個,這 我不想多談。 但有一個版本之一。 如果你調用這個 API,你得到的物品。 和的想法的一部分 API是一個API是一個合同。 這件事情,是 不會改變的。 因此,例如, - 其原因是,如果我 建立某種制度的 將要使用的庫雲API 顯示書籍或幫助人們找到 以獨特的方式信息, 我們不希望發生 是我們去如何改變 該API的工作,突然 一切打破在終端用戶側。 所以,如果你正在做API的一部分 提供給世界,這是 很好的做法,把 在它的版本號這樣的人 知道是什麼版本,他們正在處理。 所以,如果我們決定找到一種更好的方法 使提供這些信息的, 我們可能會改變,要 調用三個版本。 所以大家誰仍然是使用 2版本,還是會正常工作。 但是,版本3將 所有的新東西。 所以這是一個API,但是這 真的看起來像一個URL。 還等什麼,這是一個 例如是什麼 稱之為REST API,它可 以上只是一個普通的網絡連接。 你其實可以 去它在瀏覽器中。 所以在這裡我只是打開了Firefox和 去api.lib.harvard.edu/v2/items。 所以我在這裡買到 基本上在第一頁 從整個結果 設置,我們已經有了項目。 而且它在這裡的XML格式。 而且它也被 通過Firefox的美化。 它實際上並不具備所有這些 小擴張和收縮 doohickeys這裡。 這是形式的更好 版本的方式來看待它。 但是,這是告訴我們的是 我已經要求所有的項目。 因此,有13289475項。 我期待在第一次 10,起始位置為零 因為在計算機科學 我們總是從零開始。 而我在這裡,如果我只是崩潰 這一點,你會看到我已經得到了10個項目。 如果我來看看一個項目,我可以 看到我有關於它的信息。 這是什麼所謂MODS的形式。 所以我要切換 回到這裡了一會兒。 好不好。 因此,讓我們尋找的東西 具體的,因為第一項 發生時,你要拿出 通過整個集合 是,根據定義,是隨機的。 因此,讓我們來看看一些甜甜圈。 呵呵。 好不好。 所以甜甜圈。 因此,我們發現有80項 引用甜甜圈的集合。 我們期待在第一次10人。 現在,你可以在這裡看到的方式, 我說我要找的甜甜圈, 我只是說的東西 URL的查詢字符串。 所以,Q等於甜甜圈,你可以 看到更容易在這裡一點點。 這基本上意味著有 一個規範的API,這 定義了所有的東西 這些參數的意思。 這意味著我們要 搜索一切為了甜甜圈。 因此,第一項在這裡我們有 你可以看到標題是甜甜圈, 並且有一個叫做一個字幕 美國的激情,這一點,我想, 適當的。 有很多的different-- 一旦你到了點 獲得的數據, 有很多不同的 格式,你可以讓它進入。 並有不同的長處 和弱點為所有這些。 所以這一塊,你可以看到 在這裡,這種形式非常豐富。 和它的標準化。 所以這是一個特定的標題 場,字幕字段。 還有一個備用 標題,一個美國人激情。 有一個與它相關聯的名稱。 資源類型是文本。 有大量的信息 這裡在這種格式。 但也有一堆 不同的格式。 所以我們剛才什麼 看著是一種格式 所謂MODS,它代表 元數據對象描述服務, 有可能。 我其實不太肯定的 S.但它是一個相當複雜的格式。 它的默認格式。 但它是一個信守 的所有數據的豐富性 該圖書館有,因為 它非常接近於 圖書館內部使用。 這是一個標準,它是 在全國范圍內使用, 世界各地的高校圖書館。 而且它是非常互通。 所以,如果你已經有了一個文件 這是MODS的格式, 你可以把那個給別人 其系統的理解MODS, 他們可以將其導入。 所以這是一個標準。 這是非常明確的,非常具體。 那是什麼使得它 可互操作的,因為如果有人說, 這是一個在備用標題 記錄,每個人都知道這意味著什麼。 在另一面,這是非常複雜的。 所以,如果你看一看 在這裡這個紀錄, 如果我只是想獲得 這個文件的標題, 這本書,這可能是甜甜圈, 美國的激情,解析出來 有點複雜。 而還有另一種 格式被稱為都柏林核心, 這是一個非常非常簡單的格式。 所以你在這裡看到,有沒有 標題,副標題,替代稱號。 這裡還有稱號, 甜甜圈,一個美國人激情, 而另一個標題,美國的激情。 所以,當你在看什麼形式 你想要得到的數據出來, 很多取決於如何 你要使用它。 您使用的 互操作性還是你 想要的東西,簡單的說 可能是比較容易的工作? 在另一面,很多的 排序方式壓扁了。 你可能會失去的細微差別 什麼是特定領域的手段 如果你正在處理的都柏林核心, 你不會得到與MODS。 因此,這些都是兩個格式 你可以走出API的。 基本上,我們保持 其背後的MODS的場景。 但是,我們可以給你它和MODS 都柏林核心和其他任何為好。 其他考慮因素 你要找的數據 是你能得到它的無論是JSON,這 代表JavaScript對象符號, 或XML,它代表 可擴展標記語言。 而這些數據均表示 具有完全相同的數據,正好 相同的字段。 但他們只是 語法不同。 因此,這是A-- 那麼,就讓我們進行切換。 所以這是我們查詢 甜甜圈的XML格式。 如果我只是切換這是JSON, 我可以看到它看起來不一樣。 所以,現在,這是同樣的內容, 但不同的結構。 有較少的尖括號。 還有更簡潔。 而這是一個格式,如果 工作在網絡環境下, 你最有可能會 到想要使用,因為一個 的好東西大約是JSON 它是用JavaScript兼容。 所以,如果我寫的Web應用程序,我可以拉 在JSON,只是用它直接工作。 而使用XML,這是一個 稍微有點複雜。 如此反复,這些都是有用的。 他們只是在不同的使用情況 人們可能會想使用它們。 好不好。 所以回API。 所以,我們可以搜索for-- 我舉一個例子 尋找甜甜圈。 我們還可以搜索只是在一個 在此範圍內特定領域。 因此,而不是搜索 整個記錄, 我可以只搜索標題字段。 所以現在有25個東西, 具有甜甜圈的稱號,其中之一 即將恢復 管理濕地 在圓環的孔的 計劃,這可能是 我們期待並不一定是什麼 因為當我們正在尋找甜甜圈。 您還可以,當你 處理一個API-- 有一個API的一部分是給 人們訪問大數據集。 並有不同的一對夫婦 工具,你可以用它來做到這一點。 其一是,很簡單,你 可瀏覽數據。 所以,就像你做一個查詢 通過Web界面, 你可以看看一個頁面, 第二頁,第三頁。 你可以這樣做 通過API的事情。 你只需要在 明確的,你是怎麼做到的。 因此,舉例來說,如果我要找 我的第一個查詢在這裡, 在那裡我做了搜索的東西 在標題甜甜圈,我可以說, 和極限等於20,這意味著 給我的第一個20條記錄,而不是 第10位,這是默認的, 因為我想看看20的時間。 或者,我可以說,設置 開始等於20和限 等於20,這將給 我記錄了21至40。 所以我想的東西 帶走這裡 我們使用的查詢字符串 上設置的查詢參數。 它可以讓你控制 你會得到什麼。 您可以使用另一種工具 - 這是真正有用的 條款探索數據。 --is一些所謂的小面。 所以說,小面是 不一定普遍。 但是你們都見過。 如果你看一看 亞馬遜,例如 你做一個搜索 甜甜圈的書籍, 在這裡,他們已經有了一個系列叢書, 他們正在按類別分組, 你會得到不同的類別, 多少在每個類別的書籍 顯示。 因此,這基本上是一個方面。 你把所有的書,1800 匹配甜甜圈亞馬遜的書籍。 其中12個是在 早餐類別。 在糕點和烘焙21, 等,等等。 因此,這的確是一個非常有用 工具遊覽內容 在圖書館內,以及 因為當你看一個方面, 它給你什麼科目的想法 存在的,喜歡什麼類型的科目 是你的查詢集內最流行的。 它可以幫助你趕走和探索。 因此,我們可以做同樣的事情。 如果我們要使用的 API,看看方面, 我們添加另一個參數 我們的朋友的查詢字符串。 所以面等於逗號分隔 是我們想要的面名單。 這樣的刻面中的一個可能是主題。 另一種可能是語言。 所以,如果我們運行的查詢,我們get-- 它看起來非常這裡一樣。 但是,我們已經添加到最後 列表的一組小刻面。 因此,我們有一個叫做主題方面。 因此,這是在告訴我們,如果我期待 在我80結果從甜甜圈查詢, 其中13個有 受到美國。 有三個主題甜甜圈。 有三個主題 濕地修復, 這可能是我們在甜甜圈洞。 他們兩個人,辛普森, 等,等等。 因此,這可以是如果有用 要縮小搜索範圍。 它可以幫助你做到這一點。 特別是如果你有 不止,說80的效果。 同樣,我們也問 對於語言方面。 因此,如果我們看看我們的結果,我們可以看到76 他們都是英文的,四家在法國, 兩人在西班牙,2,我認為這是 未定義或未知,荷蘭和拉丁美洲。 所以我覺得拉丁 甜甜圈結果,再次 有無關焙烤食品。 不過你去那裡。 如此這是那種你展示 如何將數據內容取回 從API剛剛經歷 網頁瀏覽器,這是偉大的。 但它不是真正的你會 通常是用在為它的API。 你怎麼這麼一個例子 能真正做到這一點是我 寫了一個超小程序, 其中,再次,做我的甜甜圈搜索 並選擇了幾個字段 並在表中顯示它們。 所以這是非常多的 同樣的內容,我們只是 鋸了幾場拉出。 所以冠軍,名單 什麼樣的書的位置 大約是,語言, 等,等等。 那麼如何實際發生的,因為 我想我們來看看一些代碼, is-- 我們在這裡是一個簡單的HTML 頁面,該頁面顯示的文本, 歡迎庫雲 然後顯示結果的一個表。 並有明顯的沒有結果的 當頁面被加載該表。 但是我們在做什麼 是,首先,我們 加載一個名為庫 jQuery的,這基本上是 一個JavaScript庫,這使得它 很容易操縱的JavaScript 本身,HTML和創建網頁, 客戶端邏輯和網頁。 所以,我們在這裡是jQuery的 有一個名為Get方法, 基本上會去 一個URL,其​​中,在這種情況下, 這是熟悉的期待URL。 然後將得到的內容 該URL,然後在其上運行的功能。 所以我們說去api.lib.harvard / EDU。 搜索甜甜圈。 給我們20個記錄。 然後運行該功能, 我選擇,它傳遞的數據。 並且該數據是JSON那 從API得到恢復。 然後我們在說,內 數據有一個名為項目現場。 如果我去看看回 這些結果是在這裡的, 有什麼東西called-- 好了,這就是所謂的項目。 因此,這可能是因為。 而它的作用是 經過每個項目 然後調用另一個 功能上的每個項目。 而且基本功能 走的是價值 的項目,這是 基本上是個人記錄 使我們能夠拉出來的稱號, 覆蓋率和語言。 因此,我們呼籲每一個函數 我們得到了來自API回來項目。 如果你只是看看 在這一塊就在這裡, 我們正在做的是什麼 我們要創建一個字符串, 這實質上是一些HTML標記 圍著一張桌子,用value.title, 這是在標題 對象,value.coverage, 這是覆蓋, - 我們正在做的檢查 在這裡,看看誰是不確定的 和隱藏它,如果它說不確定, 因為我們並不真正感興趣 在這一點。 - 並且那麼語言。 然後呢我們 做的是追加了 表即 確定此字符串這裡。 和jQuery是如何工作的 正是這種在說 在查找表的想法 結果這個文本添加到它。 並且這是表與想法的結果。 所以,你到底是什麼了 同是這個頁面在這裡。 而且為了查看source-- 嗯,源實際上不是 更新時發生。 所以你可以看到實際的 該表的結果,雖然在這裡。 所以,這只是一個簡單的例子 這樣做對API一個很基本的查詢 且在一些其它顯示信息 形成,並沒有做什麼太花哨。 現在,另一個例子是像 申請由David溫伯格 作為演示的這一點,這 基本上顯示你 你如何混搭你的結果 從庫雲API獲取 有,說,谷歌圖書。 這裡的想法是,我可以 運行對谷歌圖書的查詢, 得到一個完整的文本搜索,得到一些結果 背部,找出這些項目的 實際存在的霍利斯, 圖書館系統, 然後給我聯繫 回的那些項目。 所以,如果我搜索,它是 月黑風高的夜晚,我 拿回一堆結果 從谷歌,然後一個結果 這是一個時間皺紋。 這些都是存在的聯繫書籍 在哈佛圖書館系統。 所以我想在這裡一點都不 這麼多,這可能會或可能不會 是你所希望的方式 搜索庫, 但它是一個完全不同的 方式是不提供給你 之前,就像你有沒有辦法做 在書的全文搜索,即使 是哈佛圖書館系統的一部分。 所以現在這是一種 你能做到這一點。 並且可以在顯示它們 任何格式你想要的。 因此,這裡的問題是,基本上, 我們正在開拓的人新途徑 與數據一起工作。 另一塊庫雲是 它有助於揭露一些使用數據的 該圖書館有。 所以,如果你去圖書館, 你正在尋找的書籍, 你不一定 其實有一個想法, 用於在所有項目 特定的主題,是什麼 是人在 社區,無論是 定義為哈佛或 國家或你的類, 他們有什麼最有用? 而圖書館實際上有一個 噸左右的信息是什麼 是最有用的,因為如果有很多 人們檢查了一本書, 告訴你一件事。 一定有某種原因 他們想一探究竟。 很多人把它放在儲備。 如果是候補名單上的很多 類,告訴你一件事。 如果教職員工正在檢查它 出了很多,本科生都沒有, 告訴我的東西。 反之亦然,這也 告訴你一件事。 所以,這將是非常有趣的 把這些信息在那裡,讓 人們用它來幫助他們找到 圖書館系統內工作。 在另一面,這是 也有一些嚴重的隱私 關注,因為所述一個 圖書館的核心原則 是我們不打算在告訴 人什麼其他人都在閱讀。 即使你是說這 本書是簽出四倍 在一個特定的月份, 可用於 回鏈接到特定 人因去匿名數據 並找出誰檢查出來。 這樣的方式,我們可以avoid-- 我們可以嘗試提取的方式 所有信息的某些信號 不侵犯 任何人的隱私問題 基本上我們看 10年使用數據, - 因此,它是在一段很長的時間。 - 並且說,OK,讓我們看看如何 很多時候,這工作時, 和誰在這一時期 時間,然後基本 還給了一些,我們稱之為 一疊得分,這基本上 代表多少的被使用。 而且number-- 很多不同的計算 進入該號碼。 - 但它是一個非常粗糙 公制,讓你 如何略知一二 社會可能重視這項工作。 所以另一種連 更充實的應用 即利用 這是值得 所謂Stacklife,這實際上是 可通過主哈佛 圖書館門戶網站。 所以,你去library.harvard.edu。 你會看到許多不同的 如何搜索庫。 及它們中的一個被稱為Stacklife。 而這是一個應用程序 瀏覽該庫的內容, 但完全建立 關於這些API的頂部。 因此,有沒有什麼特別的東西 怎麼回事幕後。 有沒有訪問 數據你沒有。 它使用的API,為您提供 一個完全不同的瀏覽 的經驗。 所以,如果我尋找愛麗絲 仙境在這種情況下, 我得到的結果看起來像 這一點,這是非常much-- 它非常類似於任何其它搜索 你可能只是在這種情況下做的, 我們通過排名的項目 stackscore,它給你 如何普及這些略知一二 項目是在社區內。 和這麼清楚,愛麗絲夢遊仙境 由沃爾​​特·迪斯尼是非常受歡迎的。 但你也可以看到前四 這裡是那些你可能不actually-- 事情是高度使用, 但你馬上可能不 與愛麗絲夢遊仙境連接。 所以,我們的老朋友 註釋愛麗絲在這裡。 這樣我就可以看看它。 現在我期待什麼 在基本上是一個集of-- 我可以有註釋 愛麗絲在這裡。 我有一些關於它的信息。 我也有一個stackscore 的,在這種情況下,26。 這告訴我這類的大致 我們是如何走到這stackscore, 喜歡誰檢查出來,怎麼樣 很多時候它被簽出, 像教師或本科生,怎麼 許多副本的圖書館有, 等,等等。 而且你還可以,夠有趣 在這裡,幾乎瀏覽堆棧。 因此,這裡的數據, 是您展示排序 一個虛擬的代表性 什麼樣的架子威力 看,如果你要像 所有圖書館的館藏 並把它們放在一起 在一個無限的貨架。 而好處是,我們can-- 首先,在 關於這些圖書的元數據 常常告訴你,當它被發表。 它會告訴你多少頁有。 它可能會告訴你的尺寸。 所以你可以看到這是這裡反映 在書的大小方面。 然後我們可以使用 堆疊分數突出 具有較高分數的堆棧的書籍。 因此,如果它是更暗,這意味著, 據推測,它是用來更頻繁。 因此,在這種情況下,我 去猜測,這 是愛麗絲夢遊仙境的版本 這是非常常用並且最 訪問,該庫 有一種最副本。 所以,如果你正在尋找 為愛麗絲夢遊仙境, 這可能是一個良好的開端。 然後在這裡你還可以鏈接出 於說,亞馬遜購買圖書, 等,等等。 這裡的關鍵,同樣, 與其說是這 是瀏覽庫的最佳方式 或合適的工具適合各種場合。 但它這樣做的另一種方式。 並且通過使數據 可以通過一個API,它 是由非常簡單的積木, 它允許你搜索的內容, 你可以建立的東西 這樣,可以 格外 有價值的一些人。 這就是那種,就像我想 真正說的API是什麼 什麼是暴露,有一個整體 一堆東西在幕後,這 我只是觸及簡要 那種只是因為它是在這個 從在一個完全不同的角 如何做這樣的事情條款 得到落實到位? 因此,一個API是一個標準 連接所有這些內容。 但要得到它那裡, 第一件事情,我們不得不這樣做 在齊心協力信息 書籍和影像 和發現艾滋病,收集 來自哈佛大學的各種系統文件。 阿列夫,VIA和OASIS是 該系統的名稱。 並且它們基本上進入一個 管線,一個處理管線。 所以首先,我們得到的出口 從所有這些系統的文件。 我們將它們分割成不同的物品。 因此,我們有一個文件,這是技嘉, 其中有一百萬條記錄。 所以我們把它分解成單個項目。 然後,對於每個項目,我們將其轉換 到MODS,是因為其中的一些 本身是MODS,其中一些則不是。 所以我們讓他們都來 是在相同的格式。 然後有各個 濃縮步驟,在這裡 我們添加更多的信息,以將數據 比在圖書館提供。 因此,我們需要添加的是,第一次 我們有什麼庫,持有它。 我們經歷的步驟 計算stackscore。 我們經歷的另一步 在條款中加入更多的元數據 什麼樣的人的集合 有可能增加this-- 人們在製作 項的集合。 它屬於什麼收藏? 如何有標記的人 在過去這內容? 然後你過濾掉,而你限制 的記錄,因為正如我所說, 還有一些記錄的,因為 版權原因,我們無法顯示。 然後我們加載它們 成一種叫 Solr的,這不是一個拼寫錯誤,但 是一個軟件的名稱 ,做搜索索引,其中 驅動所有的API背後的搜索。 然後它變得可用來 該API,人們可以使用它。 因此,這就像一個相當 簡單的過程。 一個有趣的 事情大概是 我們正在處理 13萬條記錄 我們將要處理以上。 我們希望能夠處理 這些在一個相對快速的方式。 這需要很長的時間來 處理1300萬條記錄。 因此,如何這條管道是 設置是你can-- 我猜的優勢 管道,我們是問題 想在這裡解決,就是 所有的轉換,所有的 在這這些步驟 管道是分開的。 有沒有相關性。 如果你正在處理 一本書的記錄, 有一個在沒有依賴性 另一本書之間。 所以,我們可以做的是基本, 在管道中的每個步驟, 我們把它放到雲中的隊列。 我正好是在Amazon Web Services。 因此,有列表, 說,萬項 需要進行歸一化和 轉換為MODS格式。 我們旋轉起來盡可能多的服務器 我們想,也許10台服務器。 並且每個服務器只 坐在那裡,看上去在隊列中, 看到這有一個需要 加工,拉它關閉隊列, 處理它,和棍棒 它的下一個隊列。 還等什麼,讓我們 做的是應用,從根本上, 盡可能多的硬件,因為我們希望這 的時間很短的時間的問題 以最快的速度處理數據 可能的話,這恐怕是唯一的, 現在在雲計算的世界 我們可以提供基本的服務器 瞬間,是有用的。 因此,我們不必有 巨型服務器圍坐 所有的時間做加工 這一個星期可能發生一次。 所以這主要是它。 有可用文檔 對於圖書館雲API項目 在這個URL,這將 可後來。 並請到看看 ,看看是否有什麼事, 你有什麼想法。 玩它。 鬼混。 並希望你能來 與一些偉大的事情。 謝謝。