JEFFREY Licht: Hi there. Aku Jeffrey Licht. Dan aku di sini untuk berbicara dengan Anda tentang Harvard Perpustakaan dan bangunan besok perpustakaan hari ini, saya kira. Jadi latar belakang di sini, lapangan untuk sesi ini pada dasarnya bahwa ada banyak data bibliografi tersedia di perpustakaan Harvard. Dan ada kesempatan, melalui beberapa alat dan proyek yang sedang dikembangkan, untuk mendapatkan akses ke informasi dan membawanya ke tempat-tempat yang Perpustakaan Universitas Harvard tidak lakukan sekarang, melakukan hal-hal baru dengan itu, eksperimen dan bermain-main dengan hal itu. Jadi titik masuk ke ini adalah API disebut Harvard Perpustakaan Cloud, yang adalah server metadata terbuka, yang saya akan berbicara tentang sekarang. Jadi latar belakang adalah bahwa ada banyak hal di perpustakaan Harvard. Kami memiliki lebih dari 13 juta bibliografi catatan, jutaan gambar, dan ribuan menemukan bantuan yang pada dasarnya dokumen yang menggambarkan koleksi, mengatakan apa ada di dalam mereka, kotak kertas dan sebagainya yang mewakili lebih dari satu juta dokumen pribadi. Dan ada juga banyak informasi bahwa perpustakaan memiliki tentang bagaimana konten digunakan bahwa bisa menarik bagi orang-orang yang mungkin ingin bekerja dengannya. 

Jadi semua informasi perpustakaan memiliki metadata. Jadi metadata adalah data tentang data. Jadi ketika kita berbicara tentang informasi yang tersedia melalui perpustakaan cloud yang tersedia, itu belum tentu dokumen aktual sendiri, belum tentu penuh teks buku atau gambar penuh, meskipun yang benar-benar mungkin terjadi. Tapi itu benar-benar informasi tentang data. 

Jadi Anda bisa memikirkan katalogisasi informasi, nomor telepon, mata pelajaran, berapa banyak salinan Buku yang ada, apa yang adalah edisi, apa format, penulis, dan sebagainya. Jadi ada banyak informasi tentang informasi dalam koleksi itu, dalam dirinya sendiri, adalah jenis inheren berguna. Dan meskipun jika Anda melakukan penelitian mendalam, Anda jelas ingin sampai ke aktual isi sendiri dan melihat data, metadata berguna dalam hal kedua menganalisis korpus secara keseluruhan, seperti apa yang hal-hal yang dalam koleksi. Bagaimana mereka berhubungan? Ini membantu Anda benar-benar menemukan hal-hal lain, yang benar-benar tujuan utama itu. Titik dari metadata dan katalog adalah untuk membantu Anda menemukan semua informasi yang tersedia dalam koleksi. 

Jadi ini adalah contoh dari metadata untuk buku di Perpustakaan Universitas Harvard. Jadi itu ada. Dan Anda dapat melihat itu sebenarnya cukup kompleks. Dan bagian dari nilai metadata dalam sistem Harvard Perpustakaan adalah bahwa hal itu sudah semacam dari dibangun oleh catalogers dan dirakit oleh orang-orang menerapkan banyak keahlian dan keterampilan dan berpikir untuk itu dari waktu ke waktu, yang memiliki banyak nilai. 

Jadi, jika Anda melihat pada catatan ini untuk The Annotated Alice, Anda dapat mengetahui Anda punya judul, yang menulis itu, yang penulis, dan semua mata pelajaran yang berbeda yang orang telah katalog ke. Dan Anda dapat melihat ada juga, di Selain banyak informasi yang baik di sini, ada beberapa duplikasi. Ada banyak kompleksitas yang tercermin melalui metadata yang Anda miliki. 

Jadi salah satu judul buku ini Alice Adventures in Wonderland. Jadi ini adalah beranotasi versi buku itu. Tapi itu juga disebut The Annotated Alice, Alice Adventures in Wonderland karena itu adalah sesuatu yang Martin Gardner menulis dan dijelaskan buku. Dan ada banyak informasi yang besar tentang teka-teki logika dan hal-hal dalam Alice bahwa Anda mungkin tidak tahu tentang. Jadi, Anda harus pergi membacanya. 

Tapi Anda bisa melihat ada banyak detail di sini, termasuk pengidentifikasi, ketika diciptakan, dari mana asalnya, dalam hal Harvard sistem, dan sebagainya. Jadi ini adalah contoh dari jenis metadata Anda mungkin melihat sebuah buku di koleksi Perpustakaan Universitas Harvard. 

Ini adalah sesuatu yang sama sekali berbeda. Jadi ada sistem yang disebut VIA Harvard, yang pada dasarnya adalah katalogisasi foto dan benda-benda seni dan hal-hal visual sepanjang Harvard, dan menambahkan beberapa metadata kepada mereka, mengklasifikasikan mereka, dan, dalam beberapa kasus, memberikan gambar thumbnail kecil Anda dapat mengambil melihat jika Anda begitu ingin. 

Jadi ini adalah contoh dari metadata yang Anda miliki untuk piring dari, mungkin, Alice in Wonderland. Dan Anda dapat melihat ada kurang metadata sini. Hanya saja yang berbeda objek. Dan jadi ada sedikit informasi. 

Sebagian besar Anda memiliki fakta bahwa, panggilan jumlah, pada dasarnya yang menciptakannya, - 

Kita tidak tahu kapan itu dibuat. 

--dan judul. 

Contoh lain. Ini adalah bantuan temuan. Jadi ada koleksi Lewis Makalah Carroll di Harvard. Jadi ini menjelaskan apa adalah dalam koleksi itu. Jadi seseorang telah melalui dan melihat melalui semua kotak dan katalog itu, mengingat beberapa latar belakang, menulis ringkasan dari apa yang ada di sini. Dan jika Anda adalah untuk melihat lanjut ini, ini berlangsung selama halaman dan halaman dan halaman, tetapi akan memberitahu Anda apa surat dan apa tanggal dari apa kotak ada di seluruh koleksi. Tapi ini adalah sesuatu bahwa, jika Anda berada di Harvard, Anda dapat pergi dan benar-benar secara fisik terlihat dan, mungkin, lihatlah. 

Jadi ini semua besar. Ini metadata yang berguna. Ada dalam sistem Harvard Library. Ada alat online di mana Anda bisa pergi dan melihat hal itu, dan melihatnya, dan mencari itu. Dan Anda dapat mengiris dan dadu dalam banyak cara yang berbeda. 

Tapi itu benar-benar hanya tersedia jika Anda adalah manusia duduk di web browser atau sesuatu atau telepon dan menavigasi melalui itu. Ini tidak benar-benar tersedia di setiap jenis busana yang dapat digunakan untuk sistem lain atau komputer lain untuk menggunakan, tidak dengan sistem dalam Perpustakaan Harvard, tetapi sistem di dunia luar, hanya orang lain pada umumnya. Jadi pertanyaannya adalah, bagaimana kita bisa membuatnya tersedia untuk komputer sehingga kita bisa melakukan lebih menarik hal dengan itu dari sekedar penjelajahan diri kita sendiri? 

Jadi, mengapa Anda ingin melakukan ini? Ada banyak kemungkinan. Salah satunya adalah Anda bisa membangun sepenuhnya cara yang berbeda browsing konten yang tersedia melalui Perpustakaan Harvard. Aku akan menunjukkan kepada Anda satu kemudian disebut Stacklife, yang memiliki sama sekali berbeda mengambil mencari konten. 

Anda bisa membangun sebuah mesin rekomendasi. Jadi Harvard Perpustakaan tidak dalam bisnis mengatakan, Anda seperti buku ini. Lalu pergi lihatlah ini 17 lainnya buku yang Anda mungkin tertarik atau 18 gambar-gambar ini lain. Tapi yang pasti bisa menjadi fitur yang berharga. Dan mengingat metadata, mungkin mungkin untuk menempatkan bersama-sama. Anda mungkin memiliki kebutuhan yang berbeda dalam hal mencari konten, seperti mungkin meskipun alat-alat yang tersedia bahwa perpustakaan membuat tersedia, Anda mungkin ingin untuk mencari dengan cara yang berbeda atau mengoptimalkan untuk kasus penggunaan tertentu, yang mungkin itu sangat khusus. Mungkin hanya ada beberapa orang di dunia yang ingin mencari konten dengan cara ini, tetapi akan lebih bagus lagi jika kita bisa membiarkan mereka melakukan itu. Ada banyak analisis hanya bagaimana orang menggunakan konten yang akan benar-benar menarik untuk mengetahui tentang, cari tahu buku apa yang digunakan, apa yang tidak, dan sebagainya. Dan kemudian ada banyak kesempatan untuk mengintegrasikan dengan informasi lain yang ada di luar sana di web. Jadi kita have-- 

Sebagai contoh, NPR memiliki segmen buku, di mana mereka mewawancarai penulis tentang buku-buku. Dan akan lebih bagus jika Anda mencari buku di Harvard Perpustakaan, dan Anda mengatakan, OK, ada menjadi sebuah wawancara dengan penulis. Mari kita lihat pada saat itu. Atau ada halaman Wikipedia, sebagai berwibawa, referensi ilmiah tentang buku ini yang Anda mungkin ingin mengambil melihat. 

Ada jenis sumber tersebar di seluruh web. Dan membawa mereka bersama-sama bisa menjadi sangat bermanfaat seseorang melihat konten, mencari sesuatu. Tapi itu juga tidak jenis hal Anda lebih ingin perpustakaan bertanggung jawab untuk turun dan memburu semua sumber yang berbeda dan memasukkan mereka bersama-sama karena mereka berubah terus menerus. Dan apa yang mereka anggap penting Mei bukan apa yang Anda anggap penting. 

Dan bahkan lebih, pada dasarnya ada banyak hal yang kita belum memikirkan belum. Jadi jika kita dapat membuka hal ini, lebih orang selain setengah lusin atau lebih, yang melihat ini pada secara teratur bisa memikirkan ide-ide dan pijat data, dan melakukan apa yang mereka inginkan dengan itu. 

Jadi kita ingin membuat ini data yang tersedia untuk dunia. Nah, ada beberapa komplikasi. Salah satunya adalah bahwa metadata ini dalam sistem yang berbeda. Ini dalam format yang berbeda. Jadi ada beberapa normalisasi yang perlu terjadi, yang menjadi normalisasi proses membawa hal-hal dari format yang berbeda dan pemetaan mereka ke format tunggal sehingga bidang akan cocok. 

Ada beberapa pembatasan hak cipta. Anehnya, entri katalog tentang buku bertanggung jawab atas hak cipta. Jadi meskipun itu hanya informasi yang diperoleh dari buku, itu memiliki hak cipta. Dan tergantung pada yang benar-benar menciptakan metadata itu, mungkin ada pembatasan yang dapat mendistribusikannya, to-- sama 

Saya tidak tahu. Ini mungkin atau mungkin tidak sama dengan situasi lirik lagu, sebagai contoh. Jadi kita semua tahu bagaimana panci keluar. Jadi, Anda perlu untuk berkeliling masalah itu. 

Dan kemudian bagian yang lain adalah bahwa ada banyak data. Jadi jika saya seseorang yang ingin bekerja dengan data atau memiliki ide yang dingin, berurusan dengan 14 juta catatan di laptop saya bisa menjadi masalah dan sulit untuk mengelola. Jadi kita ingin mengurangi hambatan bagi orang-orang untuk dapat bekerja dengan data. 

Jadi pendekatan yang mudah-mudahan alamat semua kekhawatiran ini adalah dua bagian. Salah satunya adalah membangun sebuah platform yang mengambil Data dari semua sumber tersebut berbeda dan memperburuk itu, menormalkan, memperkaya, dan merek itu tersedia dalam satu lokasi. Dan itu membuatnya tersedia melalui API publik yang dapat memanggil orang. 

Jadi API adalah Application Programming Interface. Dan pada dasarnya mengacu pada endpoint bahwa sistem atau teknologi bisa menelepon dan mendapatkan data kembali format terstruktur dengan cara bahwa hal itu dapat digunakan. Jadi, tidak tergantung pergi ke sebuah situs web dan menggores data dari itu, misalnya. 

Jadi ini adalah halaman rumah Perpustakaan Cloud Barang API, yang pada dasarnya adalah versi dua. Jadi itu adalah iterasi kedua mencoba untuk membuat semua data ini tersedia untuk dunia. Jadi itu http://api.lib.harvard.edu/v2/items. Dan hanya untuk istirahat ini turun sedikit, apa artinya ini adalah bahwa ini adalah versi dua dari API. Ada versi satu, yang Saya tidak akan berbicara tentang. Tapi ada versi satu. 

Dan jika Anda menelepon ini API, Anda memperoleh item. Dan bagian dari ide tentang API adalah API adalah kontrak. Ini adalah sesuatu yang tidak akan berubah. Jadi misalnya, - 

Dan alasannya adalah bahwa jika saya membangun semacam sistem yang akan menggunakan API perpustakaan awan untuk menampilkan buku atau membantu orang menemukan informasi dengan cara yang unik, apa yang tidak kita inginkan terjadi adalah bagi kita untuk pergi mengubah cara API yang bekerja, dan tiba-tiba semuanya istirahat di sisi pengguna akhir. Jadi bagian dari jika Anda membuat API tersedia untuk dunia, itu praktik yang baik untuk menempatkan nomor versi di dalamnya sehingga orang tahu apa versi mereka sedang berhadapan dengan. 

Jadi jika kita memutuskan kita menemukan cara yang lebih baik membuat informasi ini tersedia, kita mungkin mengubah ke menyebut bahwa versi ketiga. Jadi setiap orang yang masih menggunakan Versi kedua, yang masih akan bekerja. Tapi versi tiga akan memiliki semua barang baru. 

Jadi ini adalah API, tapi ini benar-benar terlihat seperti URL. Dan jadi apa ini adalah contoh adalah apa yang disebut API istirahat, yang tersedia lebih hanya koneksi web biasa. Dan Anda benar-benar bisa pergi ke dalam browser. 

Jadi di sini saya baru saja membuka Firefox dan pergi ke api.lib.harvard.edu/v2/items. Dan apa yang saya dapatkan di sini adalah pada dasarnya halaman pertama hasil dari seluruh yang set item yang kita punya. Dan itu ada di sini dalam format XML. Dan itu juga telah prettified oleh Firefox. Ini tidak benar-benar memiliki semua ini sedikit memperluas dan kontraktor doohickeys sini. Ini adalah semacam lebih baik Versi cara untuk melihat itu. 

Tapi apa ini memberitahu kita adalah Saya telah meminta semua item. Jadi ada 13.289.475 item. Dan aku melihat pertama 10, mulai dari posisi nol karena dalam ilmu komputer kita selalu mulai dari nol. Dan apa yang saya miliki di sini, jika saya hanya runtuh ini, Anda akan melihat saya punya 10 item. 

Dan jika saya melihat pada item, saya bisa melihat bahwa saya punya informasi tentang hal itu. Dan ini adalah apa yang disebut bentuk MODS. Dan jadi saya akan beralih kembali ke sini sebentar. OKE. 

Jadi mari kita mencari sesuatu di spesifik karena item pertama yang terjadi untuk datang ketika Anda melihat melalui seluruh koleksi adalah, menurut definisi, random. Jadi mari kita lihat beberapa donat. Oh. 

OKE. Jadi donat. Jadi kami menemukan ada 80 item dalam koleksi yang referensi donat. Kami sedang melihat pertama 10 dari mereka. Sekarang, Anda bisa lihat di sini cara yang Aku bilang aku sedang mencari donat, Saya baru saja menambahkan sesuatu untuk string URL. Jadi q sama donat, yang Anda bisa melihat sedikit lebih mudah di sini. 

Dan ini pada dasarnya berarti ada spec untuk API, yang mendefinisikan apa semua berarti parameter ini. Dan ini berarti kita akan mencari segala sesuatu untuk donat. 

Jadi item pertama di sini kita memiliki Anda dapat melihat judul Donuts, dan ada subtitle yang disebut An Gairah Amerika, yang, saya kira, yang sesuai. Ada banyak different-- Setelah Anda sampai ke titik mendapatkan data, ada banyak yang berbeda format yang bisa Anda peroleh ke dalam. Dan ada kekuatan yang berbeda dan kelemahan bagi mereka semua. Jadi yang satu ini, Anda bisa melihat di sini, formulir ini sangat kaya. Dan itu standar. 

Jadi ada judul tertentu lapangan, bidang subtitle. Ada alternatif judul, An Gairah Amerika. Ada nama yang terkait dengan itu. Jenis sumber daya adalah teks. Ada banyak informasi di sini dalam format ini. 

Tapi ada banyak yang format yang berbeda. Jadi apa yang kita hanya lihat adalah format disebut MODS, yang merupakan singkatan Metadata Object Description Service, berpotensi. Aku sebenarnya tidak yakin tentang S. Tapi itu format yang cukup kompleks. Ini adalah format standar. 

Tapi itu adalah salah satu yang membuat kekayaan semua data bahwa perpustakaan memiliki karena itu sangat dekat dengan apa perpustakaan menggunakan internal. Ini adalah standar yang digunakan di seluruh negeri, di seluruh dunia dalam perpustakaan akademik. Dan itu sangat interoperable. Jadi jika Anda punya dokumen yang dalam format MODS, Anda dapat memberikan bahwa untuk orang lain Sistem yang memahami MODS, dan mereka dapat mengimpor. Jadi itu standar. Ini sangat baik didefinisikan, sangat spesifik. Dan itulah yang membuatnya interoperable karena jika seseorang mengatakan, ini adalah judul alternatif dari catatan, semua orang tahu apa artinya. Di sisi lain, itu sangat rumit. 

Jadi jika anda melihat pada rekor ini di sini, jika saya hanya ingin mendapatkan judul dokumen ini, buku ini, yang mungkin Donuts, Seorang Gairah Amerika, parsing keluar sedikit terlibat. Sedangkan ada lagi format yang disebut Dublin Core, yang jauh, format yang lebih sederhana. 

Dan Anda lihat di sini, tidak ada judul, subjudul, judul alternatif. Hanya ada judul, Donuts, An Gairah Amerika, dan judul yang lain, Gairah Amerika. Jadi, ketika Anda melihat apa bentuk Anda ingin mendapatkan data dari, banyak tergantung pada bagaimana Anda akan menggunakannya. Apakah Anda menggunakan untuk interoperabilitas atau Anda ingin sesuatu yang sederhana yang mungkin lebih mudah untuk bekerja dengan? 

Di sisi lain, banyak Rincian mendapatkan semacam squished bawah. Anda mungkin kehilangan nuansa apa cara bidang tertentu jika Anda sedang berhadapan dengan Dublin Core, yang Anda tidak akan mendapatkan dengan MODS. Jadi mereka adalah dua format Anda bisa keluar dari API. Dan pada dasarnya, kami menjaga itu di belakang layar di MODS. Tapi kita bisa memberikan di MODS dan Dublin Core dan apa pun juga. Pertimbangan lain ketika Anda cari dalam data adalah Anda bisa mendapatkannya baik sebagai JSON, yang singkatan JavaScript Object Notation, atau XML, yang merupakan singkatan Extensible Markup Language. Dan ini representasi data baik memiliki data yang sama persis, tepatnya bidang yang sama. Tapi mereka hanya sintaksis yang berbeda. 

Jadi ini adalah a-- Nah, mari kita beralih. Jadi ini adalah permintaan kami untuk donat dalam format XML. Jika saya hanya beralih ini menjadi JSON, Aku bisa melihatnya terlihat berbeda. Jadi sekarang ini adalah konten yang sama, tetapi struktur yang berbeda. Ada kurung sudut lebih sedikit. Ada kurang verbose. 

Dan ini adalah format yang, jika Anda bekerja di lingkungan web, Anda kemungkinan besar akan ingin menggunakan karena salah satu satu hal yang menyenangkan tentang JSON adalah itu kompatibel dengan JavaScript. Jadi jika saya sedang menulis aplikasi web, saya bisa menarik di JSON dan hanya bekerja dengannya secara langsung. Sedangkan dengan XML, itu adalah sedikit lebih rumit. Jadi sekali lagi, ini adalah baik berguna. Mereka hanya kasus penggunaan yang berbeda di mana orang mungkin ingin menggunakannya. OKE. Jadi kembali ke API. Jadi kita bisa mencari for-- 

Saya memberikan contoh mencari donat. Kami juga dapat mencari hanya dalam bidang tertentu dalam sini. Jadi, bukannya mencari seluruh catatan, Aku hanya bisa mencari bidang judul. Dan sekarang ada 25 hal yang memiliki donat dalam judul, salah satunya adalah tentang pemulihan lahan basah dalam manajemen dari lubang di donat Program, yang mungkin belum tentu apa yang kita cari ketika kita sedang mencari donat. 

Anda juga bisa, ketika Anda berurusan dengan API-- 

Bagian dari memiliki API adalah memberikan orang akses ke set data yang besar. Dan ada beberapa yang berbeda alat yang dapat digunakan untuk melakukan itu. Salah satunya adalah, sangat sederhana, Anda dapat halaman melalui data. Jadi sama seperti jika Anda melakukan query melalui antarmuka web, Anda dapat melihat halaman satu, halaman dua, tiga halaman. Anda dapat melakukan hal yang sama Hal melalui API. Anda hanya perlu eksplisit dalam cara Anda melakukannya. 

Jadi misalnya, jika saya mencari pada permintaan pertama saya di sini, di mana aku melakukan pencarian untuk hal-hal dengan donat dalam judul, saya dapat mengatakan, dan batas sama 20, yang berarti memberi saya pertama 20 catatan, tidak pertama 10, yang merupakan default, karena saya ingin melihat 20 pada suatu waktu. Atau aku bisa mengatakan, mengatur mulai sama dengan 20 dan batas sama 20, yang akan memberikan saya mencatat 21 melalui 40. 

Jadi, saya kira hal itu untuk mengambil di sini adalah bahwa kita menggunakan query string untuk mengatur parameter pada query. Dan itu memungkinkan kendali Anda apa yang Anda dapatkan kembali. 

Alat lain yang dapat Anda gunakan, - 

Dan ini benar-benar membantu dalam hal mengeksplorasi data. 

--is sesuatu yang disebut faceting. Jadi faceting istilah belum tentu umum. Tapi Anda semua pernah melihat itu sebelumnya. Jika Anda melihat pada Amazon, misalnya, dan Anda melakukan pencarian untuk donat dalam buku-buku, di sini mereka punya serangkaian buku, dan mereka dikelompokkan berdasarkan kategori, dan Anda mendapatkan kategori yang berbeda, dan berapa banyak buku dalam setiap kategori muncul. 

Jadi ini pada dasarnya adalah sebuah aspek. Anda mengambil semua buku-buku mereka, 1.800 buku yang sesuai donat di Amazon. 12 dari mereka berada di Kategori sarapan. 21 di kue dan kue, dan sebagainya dan sebagainya. 

Jadi ini benar-benar berguna alat untuk menjelajahi konten dalam perpustakaan juga karena ketika Anda melihat segi sebuah, memberikan Anda gambaran tentang apa pelajaran ada, seperti apa jenis mata pelajaran yang paling populer dalam set query Anda. Dan membantu Anda mengusir dan mengeksplorasi. Jadi kita bisa melakukan hal yang sama. 

Jika kita ingin menggunakan API dan melihat aspek, kita menambahkan parameter lain untuk teman kita string. Jadi aspek sama dipisahkan koma daftar apa yang ingin kita Facet pada. Jadi salah satu aspek yang mungkin dikenakan. Lain mungkin bahasa. Dan jika kita menjalankan query itu, kami get-- Kelihatannya cukup banyak yang sama di sini. Tapi kami telah menambahkan sampai akhir daftar seperangkat aspek. Jadi kita memiliki facet disebut subjek. Jadi ini memberitahu kita bahwa jika saya melihat di saya 80 hasil dari query donat, 13 dari mereka memiliki subjek Amerika Serikat. Tiga memiliki donat subjek. Tiga memiliki subjek restorasi lahan basah, yang mungkin lubang kami di donat. Dua dari mereka, Simpsons, dan sebagainya dan sebagainya. 

Jadi ini dapat berguna jika Anda ingin mempersempit pencarian Anda. Hal ini dapat membantu Anda melakukannya. Terutama jika Anda memiliki lebih dari, katakanlah, 80 hasil. 

Demikian pula, kita juga meminta untuk aspek bahasa. Jadi jika kita melihat hasil kami, kami melihat 76 dari mereka adalah dalam bahasa Inggris, empat di Perancis, dua di Spanyol, dua, saya pikir itu terdefinisi atau tidak dikenal, Belanda dan Latin. Jadi saya pikir Latin Hasil donat, sekali lagi, tidak ada hubungannya dengan dipanggang. Tapi ada Anda pergi. 

Jadi ini semacam menunjukkan Anda bagaimana Anda dapat menarik isi kembali dari API hanya melalui web browser, yang sangat bagus. Tapi itu tidak benar-benar apa yang akan Anda biasanya akan digunakan dalam API untuk itu. Jadi salah satu contoh bagaimana Anda benar-benar bisa melakukan ini adalah saya sudah menulis sebuah program super kecil, yang, sekali lagi, melakukan pencarian donat saya dan memilih beberapa bidang dan menampilkannya dalam sebuah tabel. Jadi ini sangat banyak konten yang sama bahwa kita hanya melihat dengan beberapa bidang ditarik keluar. Jadi daftar judul, yang lokasi apa buku adalah tentang, bahasa, dan sebagainya dan sebagainya. 

Jadi bagaimana ini benar-benar terjadi, karena Saya kira kita harus melihat beberapa kode, aku s-- 

Apa yang kita miliki di sini adalah HTML sederhana Halaman, yang menampilkan teks, Selamat datang di awan perpustakaan dan kemudian menampilkan tabel hasil. Dan ada jelas tidak ada hasil meja ketika halaman akan dimuat. Tapi apa yang kita lakukan adalah, pertama-tama, kita memuat sebuah perpustakaan yang disebut jQuery, yang pada dasarnya adalah perpustakaan JavaScript, yang membuatnya sangat mudah untuk memanipulasi JavaScript native, HTML, dan membuat halaman web, logika sisi klien dan halaman web. 

Jadi apa yang kita miliki di sini adalah jQuery memiliki metode yang disebut Get, yang pada dasarnya akan pergi ke URL, yang, dalam hal ini, akrab mencari URL ini. Dan kemudian akan mendapatkan konten dari URL dan kemudian menjalankan fungsi di atasnya. Jadi kami mengatakan pergi ke api.lib.harvard / edu. Mencari donat. Beri kami 20 catatan. Dan kemudian jalankan fungsi ini, yang Aku telah memilih, lewat itu data. Dan data adalah JSON yang mendapat kembali dari API. 

Dan kemudian kita katakan, dalam itu Data ada field yang disebut item. Dan jika aku pergi melihat-lihat kembali salah satu hasil yang ada di sini, ada sesuatu called-- 

Nah, itu disebut item. Sehingga mungkin itu. Dan apa yang dilakukannya itu melewati setiap item dan kemudian memanggil lagi fungsi pada setiap item. Dan fungsi yang pada dasarnya adalah mengambil nilai item, yaitu dasarnya catatan individu dan memungkinkan kita untuk menarik judul, cakupan dan bahasa. 

Jadi kita memanggil fungsi pada setiap item yang kami kembali dari API. Dan jika Anda hanya melihat-lihat di bagian ini di sini, apa yang kita lakukan adalah kita menciptakan string, yang pada dasarnya beberapa markup HTML mengelilingi sebuah meja, dengan value.title, yang merupakan judul objek, value.coverage, yang merupakan cakupan, - 

Dan kami melakukan cek di sini untuk melihat siapa yang terdefinisi dan menyembunyikannya jika ia mengatakan tidak terdefinisi, karena kita tidak benar-benar tertarik dalam hal itu. 

--dan maka bahasa. Dan kemudian apa yang kita lakukan adalah menambahkan bahwa tabel yang diidentifikasi oleh string ini di sini. Dan bagaimana jQuery bekerja adalah apa ini mengatakan adalah mencari meja dengan ide Hasil dan menambahkan teks ini untuk itu. Dan ini adalah tabel dengan hasil ide. Jadi apa yang Anda berakhir dengan adalah halaman ini di sini. Dan untuk melihat source-- Nah, sumber sebenarnya tidak diperbarui ketika itu terjadi. Sehingga Anda dapat melihat yang sebenarnya Hasil dari tabel di sini meskipun. 

Jadi itu hanya contoh sederhana melakukan query sangat dasar terhadap API dan menampilkan informasi dalam beberapa lainnya bentuk, dan tidak melakukan apa-apa terlalu mewah. Sekarang, contoh lain adalah seperti Aplikasi yang ditulis oleh David Weinberger sebagai demo ini, yang dasarnya menunjukkan Anda bagaimana Anda dapat tumbuk sampai hasil Anda mendapatkan dari perpustakaan awan API dengan, katakanlah, Google Books. 

Dan pemikiran di sini adalah bahwa saya bisa menjalankan query terhadap Google Books, mendapatkan pencarian teks lengkap, mendapatkan beberapa hasil kembali, mengetahui item-item benar-benar ada di Hollis, sistem perpustakaan, dan kemudian memberi saya link kembali ke barang-barang. Jadi jika saya mencari, itu malam yang gelap dan penuh badai, saya mendapatkan kembali banyak hasil dari Google, dan kemudian satu hasil yang merupakan A Wrinkle in Time. Dan ini adalah link ke buku-buku yang ada dalam sistem Harvard Library. 

Jadi saya kira titik di sini adalah tidak sehingga hal ini mungkin atau mungkin tidak menjadi cara yang Anda inginkan untuk mencari perpustakaan, tapi itu adalah benar-benar berbeda cara yang tidak tersedia untuk Anda sebelumnya, seperti Anda tidak punya cara untuk melakukan teks lengkap pencarian pada buku yang bahkan adalah bagian dari sistem Harvard Library. Jadi sekarang ini adalah cara Anda bisa melakukan itu. Dan Anda dapat menampilkan mereka dalam Format apa pun yang Anda inginkan. Jadi intinya di sini adalah, pada dasarnya, kita membuka cara baru bagi orang-orang untuk bekerja dengan data. 

Sepotong awan perpustakaan adalah bahwa membantu mengekspos beberapa data penggunaan bahwa perpustakaan memiliki. Jadi, jika Anda pergi ke perpustakaan, dan Anda sedang mencari buku, Anda tidak perlu benar-benar memiliki ide, untuk semua item dalam pelajaran tertentu, apa adalah orang-orang di masyarakat, apakah itu didefinisikan sebagai Harvard atau negara atau kelas Anda, apa yang mereka temukan paling berguna? Dan perpustakaan sebenarnya memiliki ton informasi tentang apa yang paling berguna karena jika banyak orang yang memeriksa buku, yang memberitahu Anda sesuatu. Pasti ada beberapa alasan mereka ingin check it out. Banyak orang meletakkannya di cadangan. 

Jika pada daftar cadangan untuk banyak kelas, yang memberitahu Anda sesuatu. Jika anggota fakultas memeriksa itu keluar banyak dan mahasiswa tidak, yang memberitahu saya sesuatu. Begitu juga sebaliknya, yang juga memberitahu Anda sesuatu. Jadi akan sangat menarik untuk menaruh informasi bahwa di luar sana dan membiarkan orang menggunakannya untuk membantu mereka menemukan bekerja dalam sistem perpustakaan. Sisi lain dari ini adalah ada beberapa privasi yang serius kekhawatiran karena salah satu prinsip-prinsip inti dari perpustakaan adalah kita tidak akan memberitahu orang apa yang orang lain membaca. Dan bahkan jika Anda mengatakan ini Buku diperiksa empat kali di bulan tertentu, yang dapat digunakan untuk menghubungkan kembali ke tertentu orang dengan data de-anonymi dan mencari tahu siapa check it out. Jadi cara yang bisa kita avoid-- Cara yang bisa kita coba untuk mengekstrak beberapa sinyal dari semua informasi tanpa melanggar masalah privasi siapa pun pada dasarnya kita melihat 10 tahun data penggunaan, - 

Jadi itu selama jangka waktu yang panjang. 

--dan mengatakan, OK, mari kita lihat bagaimana berkali-kali pekerjaan ini digunakan, dan dengan yang selama periode ini waktu, dan kemudian pada dasarnya memberikan kembali nomor, yang kita sebut skor stack, yang pada dasarnya mewakili berapa banyak itu telah digunakan. Dan number-- itu Banyak perhitungan yang berbeda masuk ke nomor itu. --Tapi itu sangat kasar metrik yang memberikan beberapa gagasan tentang bagaimana masyarakat dapat menghargai pekerjaan itu. 

Dan jenis lain bahkan lebih fleshed keluar aplikasi yang mengambil keuntungan ini adalah sesuatu disebut Stacklife, yang sebenarnya tersedia melalui Harvard utama Perpustakaan Portal. Jadi Anda pergi ke library.harvard.edu. Anda akan melihat sejumlah berbeda cara mencari perpustakaan. Dan salah satunya disebut Stacklife. 

Dan ini adalah sebuah aplikasi yang menelusuri isi perpustakaan, tapi benar-benar dibangun di atas API ini. Jadi tidak ada hal-hal khusus terjadi di balik layar. Tidak ada akses ke Data yang Anda tidak memiliki. Ini menggunakan API untuk memberikan dengan browsing sama sekali berbeda Pengalaman. 

Jadi jika saya mencari Alice in Wonderland dalam hal ini, Saya mendapatkan hasil yang terlihat seperti ini, yang cukup much-- 

Ini sangat mirip dengan pencari lainnya Anda mungkin dilakukan, kecuali dalam kasus ini kita peringkat item dengan stackscore, yang memberi Anda beberapa gagasan tentang seberapa populer ini item dalam masyarakat. Dan begitu jelas, Alice in Wonderland oleh Walt Disney sangat populer. Tapi Anda juga dapat melihat empat besar di sini adalah orang-orang yang Anda mungkin tidak actually-- 

Hal-hal yang sangat digunakan, tetapi Anda mungkin tidak segera terhubung dengan Alice in Wonderland. Jadi teman lama kami di Annotated Alice di sini. Jadi saya bisa melihat hal itu. Dan sekarang apa yang saya cari pada dasarnya satu set of-- Saya dapat memiliki The Annotated Alice di sini. Saya memiliki informasi tentang hal itu. Dan saya juga memiliki sebuah stackscore dari, dalam hal ini, 26. Dan ini memberitahu saya semacam kasar bagaimana kita harus stackscore ini, seperti yang check it out, seperti bagaimana berkali-kali itu diperiksa, seperti fakultas atau undergrads, bagaimana banyak salinan perpustakaan memiliki, dan sebagainya dan sebagainya. 

Dan Anda juga bisa, cukup menarik di sini, menelusuri tumpukan virtual. Jadi data di sini, ini menunjukkan Anda menyortir dari representasi maya apa keperkasaan rak terlihat seperti jika Anda mengambil semua kepemilikan perpustakaan dan menempatkan mereka bersama-sama pada satu rak yang tak terbatas. Dan hal yang menyenangkan adalah bahwa kita can-- 

Pertama-tama, metadata tentang buku-buku ini sering memberitahu Anda ketika diterbitkan. Ini memberitahu Anda berapa banyak halaman itu. Ini akan memberitahu Anda dimensi. Sehingga Anda dapat melihat itu tercermin di sini dalam hal ukuran buku. 

Dan kemudian kita dapat menggunakan tumpukan skor untuk menyorot buku-buku yang memiliki nilai lebih tinggi tumpukan. Jadi jika itu gelap, itu berarti bahwa, mungkin, itu lebih sering digunakan. Jadi dalam hal ini, saya akan menebak bahwa ini adalah versi Alice in Wonderland yang sangat umum digunakan dan paling diakses, perpustakaan memiliki paling salinan. Jadi jika Anda mencari Alice in Wonderland, ini mungkin menjadi tempat yang baik untuk memulai. 

Dan maka di sini Anda juga dapat membuat link keluar untuk, katakanlah, Amazon untuk membeli buku, dan sebagainya dan sebagainya. Intinya di sini, sekali lagi, tidak begitu banyak bahwa ini adalah cara terbaik untuk mencari perpustakaan atau alat yang tepat untuk setiap kesempatan. Tapi itu cara lain untuk melakukan hal itu. Dan dengan membuat data tersedia melalui API, yang terbuat dari blok bangunan yang sangat sederhana, yang memungkinkan Anda untuk mencari konten, Anda dapat membangun sesuatu seperti ini yang bisa menjadi luar biasa berharga bagi beberapa orang. 

Jadi itu semacam, sebanyak yang saya inginkan mengatakan benar-benar tentang apa API adalah dan apa yang menghadapkan, ada keseluruhan banyak hal di balik layar, yang Aku hanya akan menyentuh secara singkat hanya karena semacam ini datang pada dari sudut yang sama sekali berbeda di hal bagaimana melakukan sesuatu seperti ini bisa dimasukkan ke dalam tempat? 

Jadi API adalah standar antarmuka untuk semua konten ini. Tapi untuk mendapatkannya di sana, Hal pertama yang harus kita lakukan adalah bekerja sama informasi buku dan gambar dan bantu menemukan, koleksi dokumen dari berbagai sistem Harvard. Aleph, VIA, dan OASIS adalah nama-nama sistem. Dan mereka pada dasarnya masuk ke pipa, pipa pengolahan. 

Jadi pertama-tama, kita mendapatkan ekspor file dari semua sistem ini. Kami membaginya dalam setiap item. Jadi kita memiliki file, yang gigabyte, yang memiliki satu juta catatan di dalamnya. Jadi kita membaginya menjadi item individu. Kemudian, untuk setiap item, kami mengubahnya menjadi MODS, karena beberapa di antaranya adalah MODS native, beberapa dari mereka yang tidak. Jadi kita mendapatkan mereka semua untuk dalam format yang sama. Lalu ada berbagai langkah pengayaan, di mana kita menambahkan lebih banyak informasi untuk data daripada yang tersedia di perpustakaan. Jadi kita perlu menambahkan, pertama-tama kita memiliki apa perpustakaan tahan. Kami pergi melalui langkah menghitung stackscore tersebut. Kami pergi melalui langkah lain menambahkan metadata dalam hal apa koleksi orang mungkin telah menambahkan this-- 

Orang-orang membuat koleksi item. Koleksi Apa milik? Bagaimana orang tag konten ini di masa lalu? Kemudian Anda menyaring, dan Anda membatasi catatan karena, seperti yang saya sebutkan, ada beberapa catatan itu, karena alasan hak cipta, kami tidak dapat menampilkan. Dan kemudian kita beban mereka menjadi sesuatu yang disebut Solr, yang tidak salah mengeja, tapi adalah nama dari sebuah software yang melakukan pencarian pengindeksan, yang drive semua pencarian di belakang API. Dan kemudian itu menjadi tersedia untuk API, dan orang-orang dapat menggunakannya. 

Jadi ini seperti cukup Proses mudah. Salah satu yang menarik hal-hal tentang itu bahwa kita berhadapan dengan 13 juta catatan dan kita akan berurusan atau lebih. Dan kami ingin bisa menangani ini secara relatif cepat. Dibutuhkan waktu yang lama untuk memproses 13 juta catatan. 

Jadi bagaimana pipa ini mengatur adalah bahwa Anda can-- Saya kira keuntungan dari pipa, masalah yang kita mencoba untuk memecahkan sini, adalah bahwa semua transformasi, semua langkah-langkah dalam hal ini pipa yang dipisahkan. Tidak ada ketergantungan. Jika Anda sedang memproses catatan satu buku, tidak ada ketergantungan bahwa antara buku lain. 

Jadi apa yang bisa kita lakukan pada dasarnya adalah, pada setiap langkah dalam pipa, kita memasukkannya ke dalam antrian di awan. Saya kebetulan berada di Amazon Web Services. Jadi ada daftar, mengatakan, 10.000 item yang harus dinormalisasi dan dikonversi ke format MODS. Dan kami berputar ke atas karena banyak server seperti yang kita inginkan, mungkin 10 server. Dan masing-masing server hanya duduk di sana, terlihat dalam antrian itu, melihat bahwa ada satu yang perlu diproses, menariknya keluar antrian, memprosesnya, dan tongkat pada antrian berikutnya. 

Dan apa yang memungkinkan kita lakukan adalah menerapkan, pada dasarnya, sebanyak hardware seperti yang kita ingin ini masalah untuk waktu yang sangat singkat untuk memproses data secepat mungkin, yang merupakan sesuatu yang hanya, sekarang dalam dunia komputasi awan kita bisa server ketentuan dasarnya instan, adalah bahwa berguna. Jadi kita tidak perlu memiliki Server raksasa duduk di sekitar sepanjang waktu untuk melakukan pemrosesan yang mungkin terjadi hanya sekali seminggu. 

Sehingga sebagian besar itu. Ada dokumentasi yang tersedia untuk Perpustakaan Cloud Barang API di URL ini, yang akan segera tersedia. Dan silahkan pergi lihatlah untuk melihat apakah ada sesuatu, Anda punya ide. Bermain dengan itu. Main-main. Dan mudah-mudahan Anda bisa datang dengan sesuatu yang besar. Terima kasih.