JEFFREY Licht: Hi there. Tôi Jeffrey Licht. Và tôi ở đây để nói chuyện với bạn về Thư viện và xây dựng Harvard ngày mai thư viện ngày hôm nay, tôi đoán. Vì vậy, các nền ở đây, sân cho phần này về cơ bản là có là rất nhiều dữ liệu thư mục có sẵn trong thư viện Harvard. Và đó là một cơ hội, thông qua một số các công cụ và một dự án đang được phát triển, để có được quyền truy cập vào các thông tin và mang nó đến những nơi mà các Thư viện Harvard không phải là làm ngay bây giờ, làm công cụ mới với nó, thí nghiệm và chơi đùa với nó. Vì vậy, các điểm vào này là một API gọi là Thư viện Mây Harvard, mà là một máy chủ siêu dữ liệu mở, mà tôi sẽ nói về hiện tại. Vì vậy, nền là có một rất nhiều thứ trong thư viện Harvard. Chúng tôi có hơn 13 triệu thư mục hồ sơ, hàng triệu bức ảnh, và hàng ngàn việc tìm kiếm sự trợ giúp, mà cơ bản là tài liệu mô tả bộ sưu tập, nói gì ở trong đó, hộp giấy và vv, chiếm hơn một triệu tài liệu cá nhân. Và cũng có rất nhiều thông tin mà thư viện có về cách thức nội dung được sử dụng mà có thể có ích cho mọi người những người có thể muốn làm việc với nó. 

Vì vậy, tất cả các thông tin thư viện có siêu dữ liệu. Vì vậy, siêu dữ liệu là dữ liệu về dữ liệu. Vì vậy, khi chúng ta nói về các thông tin đó là có sẵn thông qua thư viện đám mây đó là có sẵn, nó không nhất thiết các tài liệu thực tế mình, không nhất thiết phải đầy đủ văn bản của cuốn sách hoặc các hình ảnh đầy đủ, mặc dù thực sự có thể là trường hợp. Nhưng nó thực sự thông tin về dữ liệu. 

Vì vậy, bạn có thể nghĩ về biên mục thông tin, số cuộc gọi, đối tượng, bao nhiêu bản sao của Cuốn sách có, những gì là phiên bản, là những gì định dạng, các tác giả, và vân vân. Vì vậy, có rất nhiều thông tin về các thông tin trong bộ sưu tập, trong chính nó, là loại vốn hữu ích. Và mặc dù nếu bạn làm nghiên cứu chuyên sâu, rõ ràng là bạn muốn để có được các thực tế Nội dung chính nó và nhìn vào các dữ liệu, các siêu dữ liệu là hữu ích trong việc cả hai phân tích ngữ liệu như một toàn thể, giống như những gì đang có trong bộ sưu tập. Làm thế nào họ có liên quan? Nó sẽ giúp bạn thực sự tìm thấy các công cụ khác, mà thực sự là mục đích chính của nó. Điểm quan trọng của siêu dữ liệu và các cửa hàng là để giúp bạn tìm thấy tất cả các thông tin đó là có sẵn trong bộ sưu tập. 

Vì vậy, đây là một ví dụ của siêu dữ liệu cho một cuốn sách trong thư viện Harvard. Vì vậy, nó có. Và bạn có thể thấy nó thực sự phức tạp vừa phải. Và một phần giá trị của siêu dữ liệu trong hệ thống thư viện Harvard được rằng nó được phân loại được xây dựng lên bởi người biên mục và lắp ráp bởi người nộp đơn xin rất nhiều về chuyên môn và kỹ năng và nghĩ đến nó theo thời gian, trong đó có rất nhiều giá trị. 

Vì vậy, nếu bạn có một cái nhìn tại hồ sơ này cho Các chú thích Alice, bạn có thể tìm hiểu bạn đã có danh hiệu, người đã viết nó, tác giả, và tất cả các đối tượng khác nhau mà người dân đã xếp vào mục lục vào. Và bạn có thể nhìn thấy ở đây cũng có, trong Ngoài rất nhiều thông tin tốt ở đây, có một số trùng lắp. Có rất nhiều sự phức tạp đó là phản ánh thông qua các siêu dữ liệu mà bạn có. 

Vì vậy, một tiêu đề của cuốn sách này là Cuộc phiêu lưu của Alice in Wonderland. Vì vậy, đây là một chú thích phiên bản của cuốn sách đó. Nhưng nó cũng được gọi là Các chú thích Alice, Alice của cuộc phiêu lưu in Wonderland vì nó là cái gì đó Martin Gardner đã viết và chú thích các cuốn sách. Và có rất nhiều thông tin tuyệt vời những câu đố logic và điều Alice trong đó bạn có lẽ không biết về. Vì vậy, bạn nên đi đọc nó. 

Nhưng bạn có thể nhìn thấy ở đây rất nhiều chi tiết ở đây, bao gồm cả các định danh, khi đó đã được tạo ra, nó đến từ đâu, trong điều khoản của Harvard hệ thống, và vân vân. Vì vậy, đây là một mẫu của các loại siêu dữ liệu mà bạn có thể nhìn thấy trong một cuốn sách các bộ sưu tập thư viện Harvard. 

Đây là một cái gì đó hoàn toàn khác nhau. Vì vậy, có một hệ thống gọi là VIA Harvard, mà cơ bản được biên mục hình ảnh và các đối tượng của nghệ thuật và những thứ hình ảnh trong suốt Harvard, và thêm một số siêu dữ liệu với họ, phân loại chúng, và, trong một số trường hợp, cung cấp hình ảnh thumbnail nhỏ mà bạn có thể mất một xem xét nếu bạn rất muốn. 

Vì vậy, đây là một ví dụ về các siêu dữ liệu mà bạn có cho một tấm từ, có lẽ, Alice in Wonderland. Và bạn có thể nhìn thấy ở đây ít siêu dữ liệu ở đây. Nó chỉ là một loại khác nhau của các đối tượng. Và do đó, có ít thông tin hơn. 

Bạn chủ yếu là có một thực tế rằng, một cuộc gọi số lượng, cơ bản đã tạo ra nó, - 

Chúng tôi không biết khi nào nó được tạo ra. 

--and một tiêu đề. 

Một ví dụ khác. Đây là một viện trợ phát hiện. Vì vậy, có một bộ sưu tập của Lewis Giấy tờ Carroll tại Harvard. Vì vậy, điều này mô tả những gì là trong bộ sưu tập. Vì vậy, một người đã trải qua và nhìn qua tất cả các hộp và mục lục đó, đưa ra một số nền, viết một bản tóm tắt về những gì ở đây. Và nếu bạn đã tìm hơn nữa lúc này, điều này đi trên các trang và các trang và các trang, nhưng sẽ cho bạn biết những lá thư và những gì ngày từ những gì hộp tồn tại trong suốt bộ sưu tập. Nhưng đây là một cái gì đó rằng, nếu bạn đang ở Harvard, bạn có thể đi và thực chất tìm và, có lẽ, hãy nhìn vào. 

Vì vậy, đây là tất cả tuyệt vời. Của siêu dữ liệu hữu ích này. Đó là trong các hệ thống thư viện Harvard. Có những công cụ trực tuyến, nơi bạn có thể đi và có một cái nhìn vào nó, và nhìn thấy nó, và tìm kiếm nó. Và bạn có thể cắt nó và xúc xắc nó trong nhiều cách khác nhau. 

Nhưng nó thực sự chỉ có sẵn nếu bạn là một con người ngồi xuống tại trình duyệt web của bạn hoặc một cái gì đó hoặc điện thoại và điều hướng thông qua nó bạn. Nó không thực sự sẵn trong bất kỳ loại thời trang có thể sử dụng cho các hệ thống khác hoặc các máy tính khác để sử dụng, không có hệ thống trong vòng Thư viện Harvard, nhưng hệ thống trong thế giới bên ngoài, chỉ những người khác nói chung. Vì vậy, câu hỏi là, làm thế nào chúng ta có thể làm cho nó có sẵn cho máy tính để chúng tôi có thể làm thú vị hơn thứ với nó hơn là chỉ duyệt nó chính mình? 

Vì vậy, tại sao bạn sẽ muốn làm điều này? Có rất nhiều khả năng. Một là bạn có thể xây dựng một hoàn toàn cách khác nhau của trình duyệt các nội dung có sẵn thông qua các thư viện Harvard. Tôi sẽ cho bạn thấy một sau này gọi là Stacklife, trong đó có một hoàn toàn khác nhau đưa vào tìm kiếm nội dung. 

Bạn có thể xây dựng một công cụ khuyến nghị. Vì vậy, Thư viện Harvard không phải là trong kinh doanh nói, bạn thích cuốn sách này. Sau đó, hãy có một cái nhìn tại các 17 khác sách mà bạn có thể quan tâm hoặc những 18 hình ảnh khác. Nhưng đó chắc chắn có thể là một tính năng có giá trị. Và cho các siêu dữ liệu, nó có thể có thể đặt cùng nhau. Bạn có thể có những nhu cầu khác nhau trong các điều khoản của việc tìm kiếm các nội dung, như có lẽ mặc dù các công cụ có sẵn mà làm cho thư viện có sẵn, bạn có thể muốn để tìm kiếm theo một cách khác hoặc tối ưu hóa cho một trường hợp sử dụng cụ thể, mà có lẽ nó rất đặc biệt. Có lẽ chỉ có một vài mọi người trong thế giới những người muốn tìm kiếm các nội dung theo cách này, nhưng nó sẽ là tuyệt vời nếu chúng tôi có thể cho phép họ làm điều đó. Có rất nhiều phân tích chỉ trong cách mọi người sử dụng các nội dung đó sẽ được thực sự thú vị để biết về, tìm hiểu những cuốn sách nào đang được sử dụng, những gì không phải là, và vân vân. Và sau đó có rất nhiều cơ hội để tích hợp với các thông tin khác đó là hiện có trên web. Vì vậy, chúng tôi have-- 

Ví dụ, có NPR một đoạn xem xét cuốn sách, nơi họ phỏng vấn tác giả về cuốn sách. Và do đó, nó sẽ là tuyệt vời nếu bạn là nhìn lên một cuốn sách trong các Harvard Thư viện, và bạn nói, OK, có được một cuộc phỏng vấn với tác giả. Hãy đi tham quan một cái nhìn lúc đó. Hoặc có một trang Wikipedia, như một thẩm quyền, tài liệu tham khảo học thuật về cuốn sách này mà bạn có thể muốn xem xét. 

Có những loại nguồn nằm rải rác khắp các trang web. Và đưa họ lại với nhau có thể được sử dụng tuyệt vời để ai đó nhìn vào nội dung, tìm kiếm một cái gì đó. Nhưng nó cũng không phải là loại điều bạn muốn muốn thư viện phải chịu trách nhiệm cho đi xuống và săn lùng tất cả các nguồn khác nhau và cắm chúng với nhau bởi vì chúng ta đang thay đổi liên tục. Và may quan trọng những gì họ nghĩ là không được những gì bạn nghĩ là quan trọng. 

Và thậm chí nhiều hơn như vậy, về cơ bản có một rất nhiều thứ chúng tôi đã không nghĩ đến chưa. Vì vậy, nếu chúng ta có thể mở này lên, nhiều hơn người bên cạnh một nửa tá hoặc hơn, người đang tìm kiếm điều này trên một thường xuyên có thể nghĩ về ý tưởng và xoa bóp các dữ liệu, và làm những gì họ muốn với nó. 

Vì vậy, chúng tôi muốn làm điều này dữ liệu có sẵn cho thế giới. Vâng, có một vài biến chứng. Một là siêu dữ liệu này là trong các hệ thống khác nhau. Đó là trong các định dạng khác nhau. Vì vậy, có một số bình thường mà cần phải xảy ra, mà bình thường là quá trình mang lại những điều từ các định dạng khác nhau và lập bản đồ chúng vào một định dạng duy nhất do đó các trường sẽ phù hợp lên. 

Có một số hạn chế bản quyền. Lạ lùng thay, mục catalog về một cuốn sách là chịu trách nhiệm về bản quyền. Vì vậy, mặc dù nó chỉ là thông tin thu được từ cuốn sách, nó có bản quyền. Và tùy thuộc vào những người thực sự tạo ra siêu dữ liệu, có thể có những hạn chế về người có thể phân phối, đối với: tương tự 

Tôi không biết. Nó có thể hoặc có thể không giống với tình hình của lời bài hát, cho ví dụ. Vì vậy, tất cả chúng ta biết làm thế nào mà chảo ra. Vì vậy, bạn cần để có được xung quanh vấn đề này. 

Và sau đó là một mảnh khác rằng có rất nhiều dữ liệu. Vì vậy, nếu tôi là một người muốn làm việc với các dữ liệu hoặc có một ý tưởng mát mẻ, đối phó với 14 triệu hồ sơ trên máy tính xách tay của tôi có thể là có vấn đề và khó quản lý. Vì vậy, chúng ta muốn giảm các rào cản đối với người để có thể làm việc với các dữ liệu. 

Vì vậy, phương pháp này mà hy vọng địa chỉ tất cả các mối quan tâm là hai phần. Một là xây dựng một nền tảng mà mất dữ liệu từ tất cả các nguồn khác nhau và làm trầm trọng thêm nó, bình thường hóa, làm phong phú nó, và làm cho nó có sẵn trong một địa điểm duy nhất. Và nó làm cho nó có sẵn thông qua một API công cộng mà mọi người có thể gọi. 

Vì vậy, một API là một ứng dụng Giao diện lập trình. Và về cơ bản đề cập đến một endpoint rằng một hệ thống hoặc công nghệ có thể gọi và nhận được dữ liệu trở lại một định dạng cấu trúc một cách nó có thể được sử dụng. Vì vậy, nó không phụ thuộc trên đi đến một trang web và cạo dữ liệu ra của nó, ví dụ. 

Vì vậy, đây là trang chủ của Thư viện Mây mục API, mà chủ yếu là hai phiên bản của nó. Vì vậy, nó là lặp thứ hai của cố gắng để làm cho tất cả các dữ liệu này bố với thế giới. Vì vậy, nó là http://api.lib.harvard.edu/v2/items. Và chỉ để phá vỡ này xuống một chút, điều này có nghĩa là đây là phiên bản hai của API. Có một phiên bản một, mà Tôi sẽ không nói về. Nhưng có một phiên bản một. 

Và nếu bạn đang gọi điện thoại này API, bạn đang nhận được vật phẩm. Và một phần của ý tưởng về một API là một API là một hợp đồng. Nó là cái gì đó là sẽ không thay đổi. Vì vậy, ví dụ, - 

Và lý do là nếu tôi xây dựng một số loại hệ thống sẽ sử dụng một API thư viện đám mây để hiển thị sách hay giúp mọi người tìm thông tin theo những cách độc đáo, những gì chúng ta không muốn xảy ra là để chúng ta đi thay đổi như thế nào API là công trình, và đột nhiên phá vỡ mọi thứ về phía người dùng cuối. Vì vậy, một phần của nếu bạn đang làm cho API bố với thế giới, đó là thực hành tốt để đặt một số phiên bản trong nó để mọi người biết những gì phiên bản mà họ đang làm việc với. 

Vì vậy, nếu chúng ta quyết định, chúng tôi tìm thấy một cách tốt hơn làm cho thông tin này có sẵn, chúng ta có thể thay đổi điều đó để gọi đó là phiên bản ba. Vì vậy, tất cả những người vẫn đang sử dụng phiên bản hai, điều đó vẫn sẽ làm việc. Nhưng phiên bản ba sẽ có tất cả những thứ mới. 

Vì vậy, đây là một API, nhưng điều này thực sự trông giống như một URL. Và vì vậy những gì này là một ví dụ là gì được gọi là một API còn lại, trong đó có sẵn trên chỉ là một trang web kết nối thường xuyên. Và bạn có thể thực sự đi đến nó trong một trình duyệt. 

Vì vậy, ở đây tôi vừa mới mở lên và Firefox đi api.lib.harvard.edu/v2/items. Và vì vậy những gì tôi nhận được ở đây là về cơ bản trang đầu tiên kết quả từ toàn bộ thiết lập các mục mà chúng ta có. Và nó ở đây dạng XML. Và nó cũng được tô đẹp bằng Firefox. Nó không thực sự có tất cả các nhỏ đang mở rộng và hợp đồng doohickeys đây. Đây là loại một đẹp hơn phiên bản cách để nhìn vào nó. 

Nhưng điều này là nói cho chúng tôi là Tôi đã yêu cầu tất cả các mặt hàng. Vì vậy, có 13.289.475 mục. Và tôi đang nhìn vào đầu tiên 10, bắt đầu từ vị trí số không bởi vì trong khoa học máy tính chúng tôi luôn luôn bắt đầu từ số không. Và những gì tôi có ở đây, nếu tôi chỉ sụp đổ này, bạn sẽ thấy tôi đã có 10 mặt hàng. 

Và nếu tôi có một cái nhìn tại một mục, tôi có thể thấy rằng tôi đã có thông tin về nó. Và đây là những gì được gọi là hình thức MODS. Và vì vậy tôi sẽ chuyển trở lại đây một lúc. OK. 

Vì vậy, hãy tìm kiếm một cái gì đó trong cụ thể vì mục đầu tiên xảy ra cho đến khi bạn nhìn toàn bộ sưu tập là, theo định nghĩa, ngẫu nhiên. Vì vậy, hãy tìm một số bánh rán. Oh. 

OK. Vì vậy, bánh rán. Vì vậy, chúng tôi thấy có 80 mục trong các bộ sưu tập mà tham khảo bánh rán. Chúng tôi đang tìm kiếm 10 người đầu tiên của họ. Bây giờ, bạn có thể thấy ở đây cách mà Tôi nói rằng tôi đang tìm bánh rán, Tôi chỉ cần thêm một cái gì đó để các chuỗi truy vấn của URL. Vì vậy, q bằng bánh rán, mà bạn có thể thấy một chút dễ dàng hơn ở đây. 

Và điều này về cơ bản có nghĩa là có một spec cho các API, mà xác định tất cả những gì các thông số này có ý nghĩa. Và điều này có nghĩa là chúng ta sẽ Tìm kiếm tất cả mọi thứ cho bánh rán. 

Vì vậy, mục đầu tiên ở đây chúng tôi có bạn có thể thấy tiêu đề là Donuts, và có một phụ đề gọi là An Passion Mỹ, đó là, tôi đoán, thích hợp. Có rất nhiều different-- Một khi bạn nhận được đến điểm nhận dữ liệu, có rất nhiều khác nhau các định dạng mà bạn có thể nhận được nó vào. Và có những thế mạnh khác nhau và điểm yếu đối với tất cả chúng. Vì vậy, một này, bạn có thể nhìn thấy ở đây, hình thức này rất phong phú. Và nó được chuẩn hóa. 

Vì vậy, có một tiêu đề cụ thể lĩnh vực, một lĩnh vực phụ đề. Có một thay thế tiêu đề, An Passion Mỹ. Có tên liên kết với nó. Loại tài nguyên là văn bản. Có rất nhiều thông tin ở đây dạng này. 

Nhưng có một bó các định dạng khác nhau. Vì vậy, những gì chúng tôi đã chỉ nhìn vào là một định dạng gọi MODS, viết tắt Metadata Object Mô tả dịch vụ, tiềm năng. Tôi thực sự không hoàn toàn chắc chắn về S. Nhưng đó là một định dạng khá phức tạp. Đó là định dạng mặc định. 

Nhưng đó là cái mà tiếp tục sự phong phú của tất cả các dữ liệu mà thư viện có vì nó rất gần với những gì thư viện sử dụng trong nội bộ. Đó là một tiêu chuẩn mà là sử dụng trên toàn quốc, trên toàn thế giới trong các thư viện học thuật. Và nó rất tương thích. Vì vậy, nếu bạn đã có một tài liệu mà là ở định dạng MODS, bạn có thể cho rằng để người khác hệ thống có hiểu MODS, và họ có thể nhập nó. Vì vậy, nó là một tiêu chuẩn. Nó rất tốt được định nghĩa, rất cụ thể. Và đó là những gì làm cho nó tương thích, vì nếu ai đó nói rằng, đây là tiêu đề của một thay thế kỷ lục, mọi người đều biết điều đó có nghĩa. Mặt bên kia, nó rất phức tạp. 

Vì vậy, nếu bạn có một cái nhìn ở mức kỷ lục này ở đây, nếu tôi chỉ muốn có được tiêu đề của tài liệu này, của cuốn sách này, mà có lẽ là Donuts, Một Passion Mỹ, phân tích nó ra là một chút liên quan. Trong khi có một định dạng được gọi Dublin Core, mà là một, nhiều định dạng đơn giản hơn nhiều. 

Và như vậy bạn thấy ở đây, không có tiêu đề, phụ đề, tiêu đề thay thế. Không chỉ là danh hiệu, Donuts, An Passion Mỹ, và danh hiệu, Passion Mỹ. Vì vậy, khi bạn đang tìm kiếm những hình thức bạn muốn để có được các dữ liệu ra khỏi, rất nhiều phụ thuộc vào cách bạn sẽ sử dụng nó. Bạn đang sử dụng cho khả năng tương tác hoặc làm bạn muốn một cái gì đó đơn giản mà có thể được dễ dàng hơn để làm việc với? 

Mặt bên kia, rất nhiều các Các chi tiết được loại squished xuống. Bạn có thể mất đi các sắc thái của những gì một phương tiện lĩnh vực cụ thể nếu bạn đang đối phó với Dublin Core, mà bạn sẽ không nhận được với MODS. Vì vậy, những người là hai trong số các định dạng bạn có thể nhận ra các API. Và về cơ bản, chúng tôi đang giữ nó đằng sau những cảnh quay trong MODS. Nhưng chúng tôi có thể cung cấp cho bạn nó MODS và Dublin Core và bất cứ điều gì khác là tốt. Việc xem xét khác khi bạn đang tìm kiếm trong dữ liệu là bạn có thể nhận được nó như là JSON, mà viết tắt của JavaScript Object Notation, hay XML, viết tắt Extensible Markup Language. Và các cơ quan đại diện dữ liệu cả có chính xác cùng một dữ liệu, chính xác các lĩnh vực tương tự. Nhưng họ chỉ cú pháp khác nhau. 

Vì vậy, đây là a-- Vâng, chúng ta hãy chỉ cần chuyển đổi. Vì vậy, đây là câu hỏi của chúng tôi cho bánh rán trong định dạng XML. Nếu tôi chỉ cần chuyển đổi này là JSON, Tôi có thể nhìn thấy nó có vẻ khác. Vì vậy, bây giờ điều này là cùng một nội dung, nhưng một cấu trúc khác nhau. Có dấu ngoặc vuông góc ít hơn. Có ít tiết. 

Và đây là một định dạng đó, nếu bạn được làm việc trong môi trường web, bạn có nhiều khả năng xảy ra muốn sử dụng vì một trong những điều tốt đẹp về JSON là nó tương thích với JavaScript. Vì vậy, nếu tôi đang viết ứng dụng web, tôi có thể kéo trong JSON và chỉ làm việc với nó trực tiếp. Trong khi với XML, đó là một chút ít phức tạp hơn. Vì vậy, một lần nữa, cả hai đều hữu ích. Họ chỉ là những trường hợp sử dụng khác nhau nơi mọi người có thể muốn sử dụng chúng. OK. Vì vậy, trở lại các API. Vì vậy, chúng ta có thể tìm kiếm for-- 

Tôi đưa ra một ví dụ về tìm kiếm cho bánh rán. Chúng tôi cũng có thể tìm kiếm chỉ trong một lĩnh vực cụ thể trong phạm vi ở đây. Vì vậy, thay vì tìm kiếm toàn bộ hồ sơ, Tôi chỉ có thể tìm kiếm các lĩnh vực tiêu đề. Và vì vậy bây giờ có 25 điều mà có bánh rán trong tiêu đề, một trong số đó là về phục hồi vùng đất ngập nước trong quản lý của lỗ trong donut chương trình, mà có lẽ là không nhất thiết những gì chúng tôi đang tìm kiếm khi chúng tôi đang tìm kiếm cho bánh rán. 

Bạn cũng có thể, khi bạn đối phó với một API-- 

Một phần của việc có một API được cho người truy cập vào các tập dữ liệu lớn. Và có một vài khác nhau công cụ bạn có thể sử dụng để làm điều đó. Một là, rất đơn giản, bạn có thể thông qua các trang dữ liệu. Vì vậy, cũng giống như khi bạn làm một truy vấn thông qua một giao diện web, bạn có thể xem tại trang một, trang hai, trang ba. Bạn có thể làm tương tự điều thông qua các API. Bạn chỉ cần để được rõ ràng trong cách bạn làm điều đó. 

Vì vậy, ví dụ, nếu tôi đang tìm ở câu hỏi đầu tiên của tôi ở đây, nơi tôi đang làm một tìm kiếm cho những thứ với bánh rán trong tiêu đề, tôi có thể nói, và giới hạn bằng 20, có nghĩa là cho tôi 20 hồ sơ đầu tiên, không 10 người đầu tiên, đó là mặc định, bởi vì tôi muốn nhìn vào 20 tại một thời điểm. Hoặc tôi có thể nói, thiết lập bắt đầu bằng 20 và giới hạn bằng 20, mà sẽ cung cấp cho tôi ghi 21 đến 40. 

Vì vậy, tôi đoán điều để lấy đi ở đây là mà chúng ta đang sử dụng các chuỗi truy vấn để thiết lập các thông số trên các truy vấn. Và nó cho phép bạn kiểm soát những gì bạn nhận lại. 

Một công cụ mà bạn có thể sử dụng, - 

Và điều này là thực sự hữu ích trong về khai thác các dữ liệu. 

--is một cái gì đó gọi là faceting. Vì vậy, các faceting hạn là không nhất thiết phải phổ biến. Nhưng tất cả các bạn đã nhìn thấy nó trước. Nếu bạn có một cái nhìn tại Amazon, ví dụ, và bạn làm một tìm kiếm bánh rán trong những cuốn sách, ở đây họ đã có một loạt các cuốn sách, và họ đang theo nhóm, và bạn sẽ có được các loại khác nhau, và có bao nhiêu cuốn sách trong mỗi thể loại hiện. 

Vì vậy, đây là cơ bản một khía cạnh. Bạn lấy tất cả sách của họ, 1.800 cuốn sách khớp với bánh rán ở Amazon. 12 trong số đó là trong thể loại sáng. 21 trong bánh ngọt và bánh nướng, vv và vv. 

Vì vậy, đây thực sự là một hữu ích công cụ để khám phá nội dung trong thư viện cũng bởi vì khi bạn nhìn vào một khía cạnh, nó cung cấp cho bạn một ý tưởng về những gì môn tồn tại, giống như những gì loại của các đối tượng là phổ biến nhất trong tập hợp truy vấn của bạn. Và nó sẽ giúp bạn lái xe ra và khám phá. Vì vậy, chúng ta có thể làm điều tương tự. 

Nếu chúng ta muốn sử dụng API và nhìn vào khía cạnh, chúng ta thêm một tham số để bạn của chúng tôi các chuỗi truy vấn. Vì vậy, mặt bằng một dấu phẩy danh sách những gì chúng tôi muốn khía cạnh trên. Vì vậy, một trong những khía cạnh có thể phải áp. Khác có thể là ngôn ngữ. Và như vậy, nếu chúng ta chạy truy vấn đó, chúng tôi get-- Nó trông khá giống nhau ở đây. Nhưng chúng tôi đã thêm vào cuối cùng danh sách một loạt các khía cạnh. Vì vậy, chúng tôi có một khía cạnh được gọi là chủ đề. Vì vậy, đây là nói cho chúng ta biết rằng nếu tôi nhìn 80 của tôi kết quả từ các truy vấn donut, 13 trong số họ có chịu United States. Ba có bánh rán chịu. Ba có chủ đề phục hồi đất ngập nước, đó có thể là lỗ của chúng tôi trong chiếc bánh rán. Hai trong số họ, Simpsons, vv và vv. 

Vì vậy, đây có thể hữu ích nếu bạn muốn thu hẹp tìm kiếm của bạn. Nó có thể giúp bạn làm điều đó. Đặc biệt là nếu bạn có hơn, nói, 80 kết quả. 

Tương tự như vậy, chúng tôi cũng hỏi cho các khía cạnh về ngôn ngữ. Vì vậy, nếu chúng ta nhìn vào kết quả của chúng tôi, chúng tôi nhìn thấy 76 trong số họ đều là tiếng Anh, bốn trong tiếng Pháp, hai ở Tây Ban Nha, hai, tôi nghĩ rằng đó là không xác định hoặc không biết, Hà Lan và tiếng Latin. Vì vậy, tôi nghĩ rằng Latin donut kết quả, một lần nữa, không có gì để làm với các sản phẩm nung. Nhưng có bạn đi. 

Vì vậy, đây là loại hiển thị cho bạn làm thế nào bạn có thể kéo các nội dung trở lại từ API chỉ qua trình duyệt web, đó là rất tốt. Nhưng nó không phải là thực sự những gì bạn sẽ thường được sử dụng trong API cho nó. Vì vậy, một ví dụ về cách bạn thực sự có thể làm được điều này là tôi đã viết một chương trình siêu nhỏ, trong đó, một lần nữa, không tìm kiếm donut của tôi và chọn một vài lĩnh vực và hiển thị chúng trong một bảng. Vì vậy, đây là rất nhiều cùng một nội dung mà chúng ta chỉ cưa với một vài lĩnh vực kéo ra. Vì vậy, danh sách các danh hiệu, các vị trí của những gì cuốn sách là về, ngôn ngữ, vv và vv. 

Vậy làm thế nào điều này thực sự xảy ra, kể từ khi Tôi nghĩ chúng ta phải nhìn vào một số mã, is-- 

Một HTML đơn giản những gì chúng tôi có ở đây là Trang này hiển thị văn bản, chào mừng bạn đến thư viện và đám mây sau đó sẽ hiển thị một bảng kết quả. Và rõ ràng là không có kết quả trong bảng khi trang được nạp. Nhưng những gì chúng tôi đang làm là, trước hết, chúng ta đang tải một thư viện được gọi jQuery, đó là cơ bản một thư viện JavaScript, mà làm cho nó rất dễ dàng để thao tác JavaScript nguyên bản, HTML, và tạo ra các trang web, client-side logic và các trang web. 

Vì vậy, những gì chúng tôi có ở đây là jQuery có một phương pháp gọi là Get, mà chủ yếu sẽ đi đến một URL, trong đó, trong trường hợp này, là tìm kiếm URL quen thuộc này. Và sau đó sẽ nhận được nội dung từ URL đó và sau đó chạy một chức năng trên đó. Vì vậy, chúng tôi đã nói đến api.lib.harvard / edu. Tìm bánh rán. Hãy cho chúng tôi 20 hồ sơ. Và sau đó chạy chức năng này, mà Tôi đã chọn, qua đó các dữ liệu. Và các dữ liệu là JSON mà đã trở về từ các API. 

Và sau đó, chúng tôi đang nói, trong đó dữ liệu có là một lĩnh vực được gọi là item. Và nếu tôi đi tham quan một cái nhìn lại một trong những kết quả đó là ở đây, có điều gì đó called-- 

Vâng, nó được gọi là item. Vì vậy, đó có thể là. Và những gì nó có phải nó là đi qua mỗi mục và sau đó gọi một chức năng theo từng hạng mục. Và chức năng cơ bản được lấy giá trị của mục, đó là về cơ bản hồ sơ cá nhân và cho phép chúng ta rút khỏi danh hiệu, vùng phủ sóng và các ngôn ngữ. 

Vì vậy, chúng tôi gọi một chức năng trên mỗi mục mà chúng tôi nhận lại từ các API. Và nếu bạn chỉ có một cái nhìn vào tác phẩm này ngay tại đây, những gì chúng ta đang làm là chúng tôi đang tạo ra một chuỗi, mà chủ yếu là một số đánh dấu HTML quanh một cái bàn, với value.title, đó là tiêu đề của đối tượng, value.coverage, đó là bảo hiểm, - 

Và chúng tôi đang làm một kiểm tra vào đây để xem ai là không xác định và ẩn nó nếu nó nói không xác định, bởi vì chúng tôi không thực sự quan tâm trong đó. 

--and đó ngôn ngữ. Và sau đó những gì chúng tôi làm được phụ thêm mà vào bảng đó là xác định bởi chuỗi này ở đây. Và làm thế nào jQuery làm việc là điều này được nói đang tìm kiếm các bảng với ý tưởng kết quả và thêm văn bản này vào nó. Và đây là bảng với kết quả ý tưởng. Vì vậy, những gì bạn kết thúc với là trang này ở đây. Và để xem source-- Vâng, các nguồn không phải là thực sự cập nhật khi điều đó xảy ra. Vì vậy, bạn có thể thấy thực tế kết quả của bảng ở đây mặc dù. 

Vì vậy, đó chỉ là một ví dụ đơn giản của làm một truy vấn rất cơ bản đối với các API và hiển thị các thông tin trong một số khác hình thành, và không phải làm bất cứ điều gì quá lạ mắt. Bây giờ, một ví dụ khác là giống như một ứng dụng được viết bởi David Weinberger như một bản demo này, mà cơ bản cho bạn làm thế nào bạn có thể ngâm lên những kết quả bạn nhận được từ các API thư viện đám mây với, nói, Google Books. 

Và những suy nghĩ ở đây là tôi có thể chạy một truy vấn đối với Google Books, được một tìm kiếm văn bản đầy đủ, nhận được một số kết quả trở lại, tìm ra được những mặt hàng thực sự tồn tại trong Hollis, hệ thống thư viện, và sau đó cung cấp cho tôi liên kết trở lại với những mục. Vì vậy, nếu tôi tìm kiếm, đó là một đêm tối và bão tố, tôi lấy lại một loạt các kết quả từ Google, và sau đó là một kết quả đó là A Wrinkle in Time. Và đây là những liên kết đến các cuốn sách mà tồn tại trong hệ thống thư viện Harvard. 

Vì vậy, tôi đoán là ở đây không phải là rất nhiều mà điều này có thể hoặc có thể không là cách mà bạn muốn để tìm kiếm các thư viện, nhưng nó là hoàn toàn khác nhau Cách đó không phải là có sẵn cho bạn trước, như bạn không có cách nào làm toàn văn tìm kiếm trên sách mà ngay cả là một phần của hệ thống Thư Viện Harvard. Vì vậy, bây giờ điều này là một cách mà bạn có thể làm điều đó. Và bạn có thể hiển thị chúng trong bất cứ định dạng nào bạn muốn. Vì vậy, các điểm ở đây là, về cơ bản, chúng tôi đang mở ra những cách thức mới cho người dân để làm việc với dữ liệu. 

Một mảnh mây thư viện là nó giúp phơi bày một số các dữ liệu sử dụng mà thư viện có. Vì vậy, nếu bạn đi đến thư viện, và bạn đang tìm kiếm sách, bạn không nhất thiết phải thực sự có một ý tưởng, cho tất cả các mục trong một vấn đề cụ thể, những gì những người trong cộng đồng, cho dù đó là định nghĩa như Harvard hay nước hoặc lớp học của bạn, những gì có họ tìm thấy hữu ích nhất? Và thư viện thực sự có một tấn thông tin về những gì là hữu ích nhất vì nếu nhiều người được kiểm tra ra một cuốn sách, mà nói với bạn điều gì đó. Có phải đã có một số lý do họ muốn kiểm tra xem nó ra. Rất nhiều người đặt nó vào dự trữ. 

Nếu nó trên danh sách dự phòng cho rất nhiều các lớp học, mà nói với bạn điều gì đó. Nếu giảng viên đang kiểm tra nó ra rất nhiều và đại học đều không, mà nói với tôi điều gì đó. Ngược lại, đó cũng nói với bạn điều gì đó. Vì vậy, nó sẽ thực sự thú vị đưa thông tin đó ra khỏi đó và để cho người sử dụng nó để giúp họ tìm làm việc trong hệ thống thư viện. Phía bên trái của điều này là có một số sự riêng tư nghiêm trọng mối quan tâm bởi vì một trong những nguyên lý cốt lõi của thư viện là chúng tôi sẽ không thể nói mọi người những gì người khác đang đọc. Và thậm chí nếu bạn đang nói đến này Cuốn sách đã được kiểm tra ra bốn lần trong một tháng cụ thể, mà có thể được sử dụng liên kết lại với một đặc biệt người bằng dữ liệu de-ẩn danh và tìm ra những người kiểm tra nó ra. Vì vậy, cách mà chúng ta có thể avoid-- Cách mà chúng ta có thể cố gắng để trích xuất một số tín hiệu từ tất cả các thông tin không xâm phạm mối quan tâm riêng tư của bất cứ ai về cơ bản là chúng ta nhìn vào 10 năm của dữ liệu sử dụng, - 

Vì vậy, nó đã qua một thời gian dài. 

--and nói, OK, chúng ta hãy xem làm thế nào nhiều lần làm việc này đã được sử dụng, và bởi những người trong giai đoạn này thời gian, và sau đó về cơ bản trả lại một số, mà chúng ta gọi là một số điểm stack, mà cơ bản đại diện cho bao nhiêu nó được sử dụng. Và rằng number-- Rất nhiều tính toán khác nhau đi vào con số đó. --but đó là một rất thô số liệu cung cấp cho bạn một số ý tưởng về cách cộng đồng có giá trị công việc đó. 

Và như vậy một loại thậm chí nhiều thịt ra khỏi ứng dụng mà lợi dụng của điều này là một cái gì đó gọi Stacklife, mà thực sự là có sẵn thông qua các Harvard chính Cổng thư viện. Vì vậy, bạn đi đến library.harvard.edu. Bạn sẽ thấy một số lượng khác nhau cách để tìm kiếm thư viện. Và một trong số họ được gọi là Stacklife. 

Và đây là một ứng dụng duyệt các nội dung của thư viện, nhưng hoàn toàn xây dựng trên đầu trang của các API này. Vì vậy, không có công cụ đặc biệt xảy ra đằng sau hậu trường. Không có quyền truy cập vào dữ liệu mà bạn không có. Đó là sử dụng các API để cung cấp cho bạn với một trình duyệt hoàn toàn khác nhau kinh nghiệm. 

Vì vậy, nếu tôi tìm kiếm Alice in Wonderland trong trường hợp này, Tôi có được một kết quả mà trông giống như này, mà là khá much-- 

Nó rất giống với bất kỳ tìm kiếm khác bạn có thể làm được, ngoại trừ trong trường hợp này chúng tôi đang xếp hạng các mục bằng cách stackscore, mang đến cho bạn một số ý tưởng về cách phổ biến những các mặt hàng đều nằm trong cộng đồng. Và như vậy rõ ràng, Alice in Wonderland bởi Walt Disney là rất phổ biến. Nhưng bạn cũng có thể nhìn thấy đỉnh bốn đây là những người bạn có thể không actually-- 

Những điều đó được đánh giá cao được sử dụng, nhưng bạn có thể không ngay lập tức kết nối với Alice in Wonderland. Vì vậy, người bạn cũ của chúng tôi Các Chú thích Alice là ở đây. Vì vậy, tôi có thể có một cái nhìn vào nó. Và bây giờ những gì tôi đang tìm kiếm tại về cơ bản là một thiết of-- Tôi có thể có Các chú thích Alice ở ngay đây. Tôi có thông tin về nó. Và tôi cũng có một stackscore của, trong trường hợp này, 26. Và điều này nói với tôi loại khoảng như thế nào chúng tôi đến stackscore này, như những người kiểm tra nó ra, như thế nào nhiều lần nó đã được kiểm tra ra, như giảng viên hay sinh viên làm việc, làm thế nào nhiều bản sao các thư viện có, vv và vv. 

Và bạn cũng có thể, đủ thú vị ở đây, trình duyệt các ngăn xếp ảo. Vì vậy, các dữ liệu ở đây, điều này được hiển thị cho bạn các loại của một đại diện ảo về những gì sức kệ trông như thế nào nếu bạn đã có tất cả các cổ phần của thư viện và đặt chúng lại với nhau trên một kệ vô hạn. Và điều tuyệt vời là chúng tôi can-- 

Trước hết, các siêu dữ liệu về những cuốn sách này thường nói với bạn khi nó được xuất bản. Nó sẽ cho bạn biết có bao nhiêu trang mà nó có. Nó có thể cho bạn biết kích thước. Vì vậy, bạn có thể thấy đó là phản ánh ở đây về kích thước của cuốn sách. 

Và sau đó chúng ta có thể sử dụng ngăn xếp điểm để làm nổi bật những cuốn sách mà có điểm số cao hơn chồng. Vì vậy, nếu nó tối hơn, nó có nghĩa là, có lẽ, nó được sử dụng thường xuyên hơn. Vì vậy, trong trường hợp này, tôi sẽ đoán rằng điều này là phiên bản của Alice in Wonderland đó là rất thường được sử dụng và hầu hết truy cập, thư viện có nhiều bản sao. Vì vậy, nếu bạn đang tìm kiếm Alice in Wonderland, này có thể là một nơi tốt để bắt đầu. 

Và sau đó ở đây bạn cũng có thể liên kết ra để, nói, Amazon để mua sách, vv và vv. Vấn đề ở đây, một lần nữa, là không quá nhiều mà này là cách tốt nhất để duyệt thư viện hoặc các công cụ thích hợp cho mỗi dịp. Nhưng đó là một cách khác để làm việc đó. Và bằng cách làm cho các dữ liệu có sẵn thông qua một API, mà được làm từ những khối xây dựng rất đơn giản, mà cho phép bạn tìm kiếm nội dung, bạn có thể xây dựng một cái gì đó như thế này mà có thể có đột có giá trị cho một số người. 

Vì vậy, đó là sắp xếp của, nhiều như tôi muốn nói thật về những gì các API là và những gì nó cho thấy, có một toàn bộ loạt các công cụ phía sau hậu trường, trong đó Tôi chỉ cần đi để chạm vào một thời gian ngắn chỉ vì nó loại đi kèm này từ một góc độ hoàn toàn khác nhau trong về cách làm một cái gì đó như thế này được đặt vào đúng vị trí? 

Vì vậy, một API là một tiêu chuẩn giao diện cho tất cả các nội dung này. Nhưng để có được nó ở đó, các Điều đầu tiên chúng tôi phải làm đã kéo nhau thông tin sách và hình ảnh và trợ việc tìm kiếm, thu thập tài liệu từ các hệ thống khác nhau Harvard. Aleph, VIA, và OASIS là tên của các hệ thống. Và họ chủ yếu đi vào một đường ống, đường ống xử lý. 

Vì vậy, trước hết, chúng ta có được xuất khẩu tập tin từ tất cả các hệ thống này. Chúng tôi chia chúng ra thành từng hạng mục. Vì vậy, chúng tôi có một tập tin, mà là một gigabyte, trong đó có một triệu bản ghi trong đó. Vì vậy, chúng tôi chia nó ra thành từng hạng mục. Sau đó, cho mỗi mục, chúng tôi chuyển đổi nó vào MODS, bởi vì một số trong những MODS là nguyên bản, một số trong số họ không. Vì vậy, chúng tôi nhận được tất cả để được định dạng tương tự. Sau đó, có khác nhau bước làm giàu, nơi chúng tôi thêm thông tin vào dữ liệu hơn là có sẵn trong thư viện. Vì vậy, chúng ta cần thêm, đầu tiên của tất cả các chúng tôi có những gì thư viện giữ nó. Chúng tôi đi qua một bước tính stackscore. Chúng tôi đi qua một bước bổ sung thêm siêu dữ liệu về bộ sưu tập của những gì mọi người có thể có thêm this-- 

Mọi người đang tạo bộ sưu tập của các mục. Những gì bộ sưu tập nào đó thuộc về? Làm thế nào có người được gắn thẻ nội dung này trong quá khứ? Sau đó, bạn lọc ra, và bạn hạn chế các hồ sơ, vì như tôi đã đề cập, có một số hồ sơ đó, vì lý do bản quyền, chúng tôi không thể hiển thị. Và sau đó chúng tôi nạp cho họ vào một cái gì đó gọi là Solr, đó không phải là một lỗi chính tả, nhưng là tên của một phần của phần mềm mà không lập chỉ mục tìm kiếm, hướng tất cả tìm kiếm phía sau API. Và sau đó nó trở nên có sẵn để các API, và mọi người có thể sử dụng nó. 

Vì vậy, điều này giống như một khá quá trình đơn giản. Một trong những thú vị thứ về nó là rằng chúng ta đang đối phó với 13 triệu bản và chúng ta sẽ được giao dịch trở lên. Và chúng tôi muốn để có thể xử lý này trong một thời trang tương đối nhanh. Phải mất một thời gian dài để xử lý 13 triệu hồ sơ. 

Vậy làm thế nào đường ống này là thiết lập là bạn can-- Tôi đoán các lợi thế của đường ống dẫn, các vấn đề mà chúng tôi cố gắng giải quyết ở đây, là tất cả các biến đổi, tất cả các bước trong này đường ống được phân chia. Không có phụ thuộc. Nếu bạn đang xử lý một kỷ lục của một cuốn sách, không có sự phụ thuộc vào rằng giữa cuốn sách khác. 

Vì vậy, những gì chúng ta có thể làm là về cơ bản, ở mỗi bước trong các đường ống, chúng ta đặt nó vào một hàng đợi trong các đám mây. Tôi tình cờ được trên Amazon Web Services. Vì vậy, có một danh sách, nói, 10.000 mặt hàng đó cần phải được chuẩn hóa và chuyển đổi sang định dạng MODS. Và chúng tôi quay lên như nhiều máy chủ như chúng ta muốn, có lẽ 10 máy chủ. Và mỗi người trong những máy chủ chỉ ngồi ở đó, trông đợi rằng, thấy rằng có một cần được xử lý, kéo nó ra khỏi hàng đợi, xử lý nó, và gậy nó vào hàng đợi tới. 

Và vì vậy những gì cho phép chúng tôi để làm được áp dụng, về cơ bản, càng nhiều phần cứng như chúng ta muốn này vấn đề trong một thời gian rất ngắn thời gian để xử lý các dữ liệu một cách nhanh chóng như có thể, đó là một cái gì đó mà chỉ, Hiện tại trong thế giới của điện toán đám mây chúng tôi có thể cung cấp các máy chủ cơ bản ngay lập tức, đó là hữu ích. Vì vậy, chúng tôi không cần phải có một máy chủ khổng lồ ngồi xung quanh tất cả các thời gian để làm việc xử lý có thể xảy ra chỉ một lần một tuần. 

Vì vậy, mà chủ yếu là nó. Có tài liệu hướng dẫn có sẵn cho Thư viện Mây mục API tại URL này, mà sẽ có sau này. Và xin hãy xem qua nó để xem nếu có bất cứ điều gì, bạn có bất kỳ ý tưởng. Chơi với nó. Đánh lừa xung quanh. Và hy vọng bạn có thể đến lên với một cái gì đó tuyệt vời. Cám ơn.