JEFFREY LICHT: Hi there. Sono Jeffrey Licht. E io sono qui per parlare con voi circa la Harvard Biblioteca e la costruzione di domani oggi biblioteca, immagino. Così il fondo qui, in campo per questa sessione è essenzialmente che c'è un sacco di dati bibliografici disponibili nelle biblioteche di Harvard. E vi è la possibilità, attraverso alcuni degli strumenti e un progetto che è in fase di sviluppo, per avere accesso alle informazioni e portarlo in luoghi che il Harvard Library non sta facendo in questo momento, fare cose nuove con esso, esperimento e giocare con esso. Così il punto di ingresso in questo è un'API chiamato Harvard Biblioteca Cloud, che è un server di metadati aperta, che parlerò ora. Quindi lo sfondo è che c'è una sacco di roba in biblioteca di Harvard. Abbiamo oltre 13 milioni bibliografica record, milioni di immagini, e migliaia di strumenti di ricerca, che sono essenzialmente documenti che descrivono collezioni, dicendo che cosa è in essi, scatole di carte e così via che rappresentano più un milione di singoli documenti. E c'è anche un sacco di informazioni che la libreria ha su come il contenuto viene utilizzato tale possa essere di interesse per le persone che potrebbe desiderare di lavorare con lui. 

Quindi tutte le informazioni la biblioteca ha metadati. Così metadati sono dati sui dati. Quindi, quando si parla di le informazioni che è disponibile nella libreria nuvola che è disponibile, non è necessariamente i documenti reali stessi, non necessariamente il pieno testo di libri o le immagini complete, però che in realtà può essere il caso. Ma è davvero informazioni sui dati. 

Così si può pensare di catalogazione informazioni, numeri di chiamata, i soggetti, il numero di copie del libro ci sono, cosa sono le edizioni, che cosa sono il formati, gli autori, e così via. Quindi c'è un sacco di informazioni su le informazioni nella collezione che, in sé, è sorta di intrinsecamente utile. E anche se siete fare ricerca in profondità, si vuole, ovviamente, per arrivare al reale accontentarsi e guardare i dati, i metadati è utile in termini di sia analizzando il corpus nel suo complesso, come quello che le cose sono nella collezione. Come si relazionano? Ti aiuta davvero trovare altre cose, che è davvero lo scopo principale di esso. Il punto di metadati e il catalogo è quello di aiutare a trovare tutti le informazioni che è disponibile all'interno delle collezioni. 

Quindi questo è un esempio di metadata per un libro nella biblioteca di Harvard. Quindi è lì. E si può vedere che è in realtà moderatamente complesso. E parte del valore dei metadati all'interno del sistema Harvard libreria è che è stato sorta di costruito da catalogatori e assemblato da persone che chiedono un sacco di esperienza e abilità e pensato ad esso nel tempo, che ha un sacco di valore. 

Quindi, se si dà un'occhiata a questo record The Annotated Alice, si può scoprire hai il titolo, che l'ha scritta, la autore e tutti i diversi soggetti che le persone hanno catalogato in. E si può vedere c'è anche, in Oltre a un sacco di buone informazioni qui, c'è qualche doppioni. C'è un sacco di complessità che è riflessa attraverso i metadati che si ha. 

Quindi un titolo di questo libro è Le avventure di Alice nel paese delle meraviglie. Quindi questo è annotata versione di quel libro. Ma è anche chiamato The Annotated Alice, Le avventure di Alice in Wonderland perché è qualcosa che Martin Gardner ha scritto e annotato il libro. E ci sono un sacco di grandi informazioni di puzzle logici e cose all'interno di Alice che si probabilmente non sapere. Quindi, si dovrebbe andare leggerlo. 

Ma si può vedere c'è un sacco di dettagli qui, identificatori, quando è stato creato, da dove proviene, in termini di Harvard sistema, e così via. Quindi questo è un esempio di il tipo di metadati che si potrebbe vedere di un libro in la collezione Harvard Library. 

Questo è qualcosa di completamente diverso. Quindi non vi è un sistema chiamato VIA Harvard, che fondamentalmente è catalogare immagini e oggetti d'arte e le cose visive tutta Harvard, e l'aggiunta di alcuni metadati a loro, loro classificazione, e, in alcuni casi, fornendo piccole immagini in miniatura che si può prendere un guardare se lo desiderate. 

Quindi questo è un esempio di metadati che avete per un piatto da, presumibilmente, Alice nel paese delle meraviglie. E si può vedere c'è meno metadati qui. E 'solo un diverso tipo di oggetto. E così ci sono meno informazioni. 

Avete soprattutto il fatto che, una chiamata numero, in sostanza, che creato, - 

Non sappiamo quando è stato creato. 

--e un titolo. 

Un altro esempio. Questo è uno strumento di ricerca. Quindi c'è una collezione di Lewis Carte di Carroll a Harvard. Quindi questo descrive cosa è in quella collezione. Così qualcuno ha attraversato e guardato attraverso tutte le caselle e catalogato che, data una certa priorità bassa, scritto un riassunto di ciò che è qui. E se si dovesse guardare oltre a questo, questo va avanti per pagine e pagine e le pagine, ma vi dirà quali lettere e ciò che date da quello scatole esistito in tutta la collezione. Ma questa è una cosa che, se siete a Harvard, si può andare e realmente guardare fisicamente e, presumibilmente, dare un'occhiata a. 

Quindi questo è tutto fantastico. Di utile questa metadati. E 'nel sistema Harvard Library. Ci sono strumenti online in cui si può andare e dare un'occhiata a esso, e vedere, e cercarlo. E si può tagliare e dadi in molti modi diversi. 

Ma è davvero solo se sei un essere umano seduto al vostro browser web o qualcosa o il telefono e la navigazione attraverso di essa. Non è davvero disponibile in qualsiasi tipo di moda utilizzabile per altri sistemi o altri computer da utilizzare, non con sistemi all'interno la Biblioteca di Harvard, ma i sistemi nel mondo esterno, solo altre persone in generale. Quindi la domanda è, come possiamo renderlo disponibile per i computer di modo che possiamo fare di più interessante roba con esso non solo browsing noi stessi? 

Allora perché si vuole fare questo? Ci sono un sacco di possibilità. Uno è che si potrebbe costruire un completamente diverso modo di navigazione il contenuto che è disponibile attraverso le biblioteche di Harvard. Ti faccio vedere uno più tardi chiamato Stacklife, che ha un completamente diverso assumere ricerca di contenuti. 

Si potrebbe costruire un motore di raccomandazione. Così Harvard Library non è in attività di dire, ti piace questo libro. Poi vai dare un'occhiata a questi 17 altri libri che si può essere interessati a o questi 18 altre immagini. Ma che di certo poteva essere una caratteristica importante. E dato i metadati, può possibile mettere che insieme. Si potrebbe avere esigenze diverse a termini di ricerca del contenuto, come forse nonostante gli strumenti che sono disponibili che la biblioteca fa disponibile, si potrebbe desiderare per cercare in modo diverso o ottimizzare per un particolare caso d'uso, che forse è molto specializzato. Forse ci sono solo pochi persone nel mondo che vuole cercare il contenuto in questo modo, ma sarebbe fantastico se ci potrebbe lasciarli fare quello. C'è un sacco di analisi in solo come la gente utilizzare il contenuto che sarebbe davvero interessante conoscere, scoprire quali libri vengono utilizzati, ciò che non sono, e così via. E poi ci sono un sacco di opportunità di integrare altre informazioni che è là fuori sul web. Così abbiamo have-- 

Ad esempio, ha NPR un segmento recensione del libro, dove intervistano autori di libri. E così sarebbe bello se tu fossi cercare un libro in Harvard Biblioteca, e lei dice, OK, non c'è stato un colloquio con l'autore. Andiamo a dare un'occhiata a questo. O c'è una pagina di Wikipedia, come autorevole, riferimento scientifica su questo libro che si potrebbe voler dare un'occhiata a. 

Ci sono questi tipi di fonti sparsi in tutto il web. E raggruppandoli potrebbe essere un grande uso qualcuno guardando la contenuti, alla ricerca di qualcosa. Ma non è anche il genere di cose che ci si vuole la biblioteca sia responsabile per andare verso il basso e la caccia tutte queste diverse fonti e collegare insieme perché sono in continuo cambiamento. E quello che pensano sia importante Maggio non essere ciò che pensi sia importante. 

E ancora di più, in fondo c'è un sacco di cose che non abbiamo ancora pensato. Quindi, se siamo in grado di aprire questo, più persone oltre a una mezza dozzina, che stanno guardando questo su un base regolare può pensare di idee e massaggiare i dati, e fanno quello che vogliono con esso. 

Così vogliamo fare questo i dati a disposizione del mondo. Beh, ci sono un paio di complicazioni. Uno è che questi metadati è in sistemi diversi. E 'in diversi formati. Quindi c'è una certa normalizzazione che deve accadere, che normalizzazione essendo il processo di portare le cose da diversi formati e mappatura di un singolo formato in modo che i campi saranno corrispondere. 

Ci sono alcune restrizioni di copyright. Stranamente, la voce di catalogo su un libro è responsabile per il copyright. Quindi, anche se è solo informazioni derivate dal libro, è coperti da copyright. E a seconda di chi in realtà creato che i metadati, ci possono essere restrizioni su chi può distribuirlo, a-- simile 

Non lo so. Si può o non può essere simile a la situazione i testi delle canzoni di, per esempio. Così sappiamo tutti come quello pentole che fuori. Quindi è necessario per aggirare questo problema. 

E poi un altro pezzo è che c'è un sacco di dati. Quindi, se io sono una persona che vuole lavorare con i dati o ha una grande idea, si tratta di 14 milioni record sul mio portatile potrebbe essere problematico e di difficile gestione. Così vogliamo ridurre le barriere per le persone essere in grado di lavorare con i dati. 

Così l'approccio che si spera indirizzi tutte queste preoccupazioni è due parti. Si sta costruendo una piattaforma che prende i dati da tutte queste fonti disparate e si aggrava, normalizza, arricchisce, e marche è disponibile in un unico luogo. E rende disponibile tramite una API pubblica che le persone possono chiamare. 

Quindi una API è un'applicazione Programming Interface. E si riferisce essenzialmente a un endpoint che un sistema o una tecnologia può chiamare e ottenere i dati di nuovo in un formato strutturato in modo che può essere utilizzato. Quindi non è dipendente di andare a un sito web e raschiando dati off di esso, per esempio. 

Quindi questa è la home page di la Biblioteca Nube API Item, che è essenzialmente la sua versione a due. Quindi è la seconda iterazione cercando di rendere tutti questi dati disposizione del mondo. Quindi è http://api.lib.harvard.edu/v2/items. E proprio per rompere questo giù un po ', cosa significa è che questa è la versione due API. C'è una versione di uno, che Non ho intenzione di parlare di. Ma vi è una versione uno. 

E se si sta chiamando questo API, hai trovato oggetti. E parte dell'idea di un API è una API è un contratto. E 'qualcosa che è non cambierà. Così, per esempio, - 

E la ragione è che se io costruire un qualche tipo di sistema che sta per utilizzare una API biblioteca nuvola per visualizzare libri o aiutare le persone a trovare informazioni in modo unico, ciò che non vogliamo che accada è per noi di andare cambiare il modo che API funziona, e improvvisamente tutto rompe sul lato utente finale. Quindi, parte di se stai facendo API disposizione del mondo, è buona norma mettere un numero di versione in modo persone sanno quale versione hanno a che fare con. 

Quindi, se decidiamo troviamo un modo migliore di rendere disponibili queste informazioni, potremmo cambiare la situazione di chiamare quella versione tre. Così tutti coloro che sono ancora utilizzando versione a due, che sarà ancora lavoro. Ma la versione a tre sarebbe avere tutte le novità. 

Quindi questo è un API, ma questo davvero sembra un URL. E così ciò che questo è un esempio di è ciò che è chiamato API riposo, che è disponibile sopra solo una connessione web regolare. E si può effettivamente andare in un browser. 

Così qui Ho appena aperto Firefox e andato a api.lib.harvard.edu/v2/items. E così quello che ottengo qui è fondamentalmente la prima pagina dei risultati dall'intera set di elementi che abbiamo. Ed è qui, in formato XML. Ed è stato anche prettified da Firefox. In pratica non ha tutti questi poco espansione e amministrazione doohickeys qui. Questa è una sorta di bello Versione modo di vedere le cose. 

Ma che cosa questo ci dice è Ho chiesto a tutti gli elementi. Quindi ci sono 13.289.475 articoli. E sto guardando la prima 10, a partire dalla posizione di zero perché in informatica partiamo sempre a zero. E quello che ho qui, se ho appena crollare questo, vedrete che ho 10 articoli. 

E se prendo uno sguardo a un oggetto, posso vedo che ho informazioni su di esso. E questo è quello che si chiama in forma MODS. E così ho intenzione di cambiare di nuovo qui per un momento. OK. 

Quindi cerchiamo di cercare qualcosa in specifica perché il primo elemento che succede a venire quando si guarda attraverso l'intera collezione è, per definizione, casuale. Così diamo un'occhiata per alcune ciambelle. Oh. 

OK. Così ciambelle. Così abbiamo trovato ci sono 80 articoli in la collezione che fanno riferimento ciambelle. Stiamo guardando i primi 10 di loro. Ora, si può vedere qui il modo in cui Ho detto che sto cercando ciambelle, Ho appena aggiunto qualcosa la stringa di query dell'URL. Così q uguale ciambelle, che è possibile vedere un po 'più facile qui. 

E questo significa non c'è una specifica per l'API, che definisce ciò che tutti questi parametri significano. E questo significa che stiamo andando a cercare tutto per ciambelle. 

Quindi il primo articolo qui abbiamo si può vedere il titolo è Donuts, e vi è un sottotitolo chiamato An Passione americano, che è, credo, appropriata. Ci sono un sacco di different-- Una volta arrivati ​​al punto di ottenere dati, ci sono molti differenti formati che si possono ottenere in. E ci sono diversi punti di forza e debolezze per tutti. Quindi questo, si può vedere qui, questa forma è molto ricco. Ed è standardizzato. 

Quindi c'è un titolo specifico campo, un campo sottotitolo. C'è un supplente titolo, una passione americana. Vi è il nome associato con esso. Tipo della risorsa è il testo. C'è un sacco di informazioni qui in questo formato. 

Ma ci sono un sacco di diversi formati. Così che cosa siamo stati solo guardando è un formato chiamati MODS, che sta per Metadata Object Description Service, potenzialmente. In realtà sono non del tutto sicuro della S. Ma è un formato piuttosto complesso. E 'il formato di default. 

Ma è quella che mantiene la ricchezza di tutti i dati che la biblioteca è perché è molto vicino a quello che la libreria utilizza internamente. E 'uno standard che è utilizzato in tutto il paese, in tutto il mondo nelle biblioteche accademiche. Ed è molto interoperabile. Quindi, se hai un documento cioè in formato MODS, si può dare che a qualcun altro sistemi la cui capiscono MODS, e possono importarlo. Quindi è uno standard. È molto ben definito, molto preciso. E questo è ciò che rende interoperabili perché se qualcuno dice, questo è il titolo alternativa di un disco, tutti sanno che cosa significa. Il rovescio della medaglia, è molto complicato. 

Quindi, se si dà un'occhiata a questo record qui, se voglio solo per ottenere il titolo di questo documento, di questo libro, che è probabilmente Donuts, Una passione americana, analisi fuori è un po 'coinvolto. Mentre c'è un altro formato chiamato Dublin Core, che è un formato molto, molto semplice. 

E così si vede qui, non c'è titolo, sottotitolo, titolo alternativo. C'è solo il titolo, Donuts, una passione americana, e un altro titolo, passione americana. Così, quando si sta guardando quale forma si desidera ottenere i dati fuori, molto dipende da come avete intenzione di usarlo. Si sta utilizzando per interoperabilità o si vogliono qualcosa di semplice che potrebbe essere più facile lavorare con? 

Il rovescio della medaglia, un sacco di dettagli vengono sorta di schiacciata verso il basso. Si potrebbe perdere le sfumature ciò che un particolare mezzo di campo se hai a che fare con Dublin Core, che non si otterrebbe con MODS. Quindi questi sono due dei formati si può uscire dalla API. E in fondo, stiamo mantenendo dietro le quinte in MODS. Ma siamo in grado di darvi in ​​MODS e Dublin Core e quant'altro pure. L'altra considerazione quando cerchi nei dati è che si può ottenere sia come JSON, che sta per JavaScript Object Notation, o XML, che sta per Extensible Markup Language. E queste rappresentazioni di dati sia hanno esattamente gli stessi dati, esattamente gli stessi campi. Ma sono solo sintatticamente diverso. 

Quindi questo è a-- Beh, diciamo solo passare. Quindi questa è la nostra query per ciambelle in formato XML. Se ho solo passare questo per essere JSON, Posso vedere un aspetto diverso. Così ora è lo stesso contenuto, ma una struttura diversa. Ci sono meno parentesi angolari. C'è meno prolisso. 

E questo è un formato che, se stanno lavorando in ambiente web, è più probabile andando a voler utilizzare perché uno delle cose belle su JSON è è compatibile con JavaScript. Quindi se sto scrivendo web app, posso tirare in JSON e solo lavorare con lui direttamente. Mentre con XML, è un po 'più complicato. Quindi, di nuovo, questi sono entrambi utili. Hanno appena sono diversi casi di utilizzo in cui le persone potrebbero voler utilizzarli. OK. Ma torniamo al API. Così possiamo cercare for-- 

Io do un esempio di ricerca di ciambelle. Possiamo anche cercare solo in un particolare campo all'interno qui. Così, invece di cercare l'intero record, Posso solo cercare il campo del titolo. E così ora ci sono 25 cose che avere ciambelle nel titolo, uno dei quali è sul ripristino zone umide nella gestione del foro della ciambella programma, che è probabilmente non necessariamente quello che stiamo cercando per quando siamo alla ricerca di ciambelle. 

È anche possibile, quando si è che fare con un API-- 

Parte di avere una API sta dando persone l'accesso a grandi insiemi di dati. E ci sono un paio diverso strumenti è possibile utilizzare per farlo. Uno è, molto semplicemente, è possibile scorrere i dati. Quindi, proprio come se si fa una query attraverso un'interfaccia web, si può guardare pagina uno, pagina due, pagina tre. Si può fare lo stesso cosa attraverso l'API. Hai solo bisogno di essere esplicito come lo fai. 

Così, per esempio, se sto cercando alla mia prima domanda qui, dove sto facendo una ricerca di cose con ciambelle nel titolo, posso dire, e limite uguale 20, il che significa darmi i primi 20 record, non il primo 10, che è quella predefinita, perché voglio guardare 20 alla volta. Oppure posso dire, impostare il avviare pari a 20 e limite uguale 20, che darà Mi record da 21 a 40. 

Quindi credo che la cosa togliere ecco che stiamo usando le stringhe di query per impostare i parametri della query. E ti permette di controllo quello che si ottiene indietro. 

Un altro strumento che è possibile utilizzare, - 

E questo è davvero utile in termini di esplorare i dati. 

--is qualcosa chiamato sfaccettatura. Così il termine sfaccettatura è non necessariamente comune. Ma hai visto tutti prima. Se si dà un'occhiata a Amazon, per esempio, e fate una ricerca per ciambelle nei libri, qui hanno ottenuto una serie di libri, e sono raggruppati per categoria, e si ottiene le diverse categorie, e quanti libri in ogni categoria presentarsi. 

Quindi questo è fondamentalmente una sfaccettatura. Prendete tutti i loro libri, il 1.800 libri che corrispondono ciambelle su Amazon. 12 di essi sono nella categoria colazione. 21 in pasticceria e da forno, e così via e così via. 

Quindi questo è davvero un utile strumento per esplorare il contenuto all'interno della biblioteca, nonché perché quando si guarda a un aspetto, ti dà un'idea di quello che sottopone esiste, come quello che i tipi di soggetti sono più popolari all'interno del set di query. E aiuta a guidare fuori ed esplorare. Così possiamo fare la stessa cosa. 

Se vogliamo usare la API e guardare sfaccettature, aggiungiamo un altro parametro a il nostro amico la stringa di query. Così sfaccettature pari a un separati da virgola elenco di quello che vogliamo sfaccettare on. Così uno degli aspetti potrebbe essere soggetto. Un altro potrebbe essere la lingua. E così se corriamo tale query, abbiamo get-- Sembra praticamente lo stesso qui. Ma abbiamo aggiunto alla fine della lista un insieme di sfaccettature. Quindi abbiamo un aspetto chiamato argomento. Quindi questo ci sta dicendo che se guardo i miei 80 risultati della query ciambella, 13 di loro hanno la sottoporre Stati Uniti. Tre sono le ciambelle soggetto. Tre hanno il soggetto di ripristino delle zone umide, che può essere il nostro buco nella ciambella. Due di loro, i Simpson, e così via e così via. 

Quindi questo può essere utile se si vuole restringere la ricerca. Si può aiutare a farlo. Soprattutto se si dispone più di, diciamo, 80 risultati. 

Allo stesso modo, abbiamo anche chiesto per sfaccettature sul linguaggio. Quindi, se guardiamo i nostri risultati, vediamo 76 di loro sono in inglese, quattro in Francia, due in spagnolo, due, penso che sia undefined o sconosciuto, olandese e latino. Quindi penso che il latino risultato ciambella, di nuovo, non ha nulla a che fare con prodotti da forno. Ma ci si va. 

Quindi questo è una sorta di mostra voi come si può tirare il contenuto indietro dal API proprio attraverso browser web, che è grande. Ma non è proprio quello che si farebbe normalmente utilizzando in API per esso. Così un esempio di come si potrebbe effettivamente fare questo è ho scritto un super piccolo programma, che, ancora una volta, la mia ricerca ciambella e seleziona un paio di campi e li visualizza in una tabella. Quindi questo è molto il stesso contenuto che abbiamo appena sega con alcuni campi tirato fuori. Così elenco dei titoli, i posizione di ciò che il libro è circa, la lingua, e così via e così via. 

Così come questo è realmente accaduto, in quanto Credo che dobbiamo guardare a un certo codice, è-- 

Quello che abbiamo qui è un semplice HTML pagina, che visualizza il testo, benvenuto al cloud biblioteca e quindi visualizza una tabella dei risultati. E ci sono, ovviamente, non si traduce in il tavolo quando la pagina viene caricata. Ma quello che stiamo facendo è, innanzitutto, abbiamo sono il caricamento di una libreria chiamata jQuery, che è fondamentalmente una libreria JavaScript, che rende molto facile da manipolare JavaScript nativo, HTML, e creare pagine web, logica lato client e le pagine web. 

Quindi quello che abbiamo qui è jQuery ha un metodo chiamato Get, che in sostanza andrà a un URL, che, in questo caso, è questo familiare URL cercando. E poi ottenere il contenuto dal tale URL e quindi eseguire una funzione su di esso. Così abbiamo detto vai a api.lib.harvard / edu. Ricerca di ciambelle. Dacci 20 record. E quindi eseguire questa funzione, che Ho selezionato, passandogli i dati. E il dato è la JSON che ma ho restituito dalla API. 

E poi stiamo dicendo, all'interno di tale dati c'è un campo chiamato voce. E se vado dare un'occhiata indietro uno di questi risultati che è qui, c'è qualcosa called-- 

Beh, si chiama punto. Così può essere che. E ciò che fa è che passa attraverso ogni elemento e quindi chiama un'altra funzione su ciascun elemento. E tale funzione fondamentalmente sta prendendo il valore dell'articolo, che è essenzialmente la scheda individuale e ci permette di tirare fuori il titolo, la copertura e la lingua. 

Quindi chiediamo una funzione su ogni voce che siamo tornati dalla API. E se si dà un'occhiata a questo pezzo qui, quello che stiamo facendo è stiamo creando una stringa, che è essenzialmente alcuni markup HTML intorno a un tavolo, con value.title, che è il titolo del oggetto, value.coverage, che è la copertura, - 

E noi stiamo facendo un controllo qui per vedere chi è undefined e nascondendola se dice indefinita, perché non siamo realmente interessati in questo. 

--e poi la lingua. E allora che cosa siamo facendo è aggiungendo che al tavolo che è identificati da questa stringa qui. E come funziona jQuery è ciò che questo sta dicendo è cercare il tavolo con l'idea risultati e aggiungere questo testo ad esso. E questo è il tavolo con risultati idea. Allora, cosa si finisce con questa pagina è qui. E al fine di visualizzare sorgente-- Ebbene, la sorgente non è effettivamente aggiornato quando è successo. Così si può vedere l'attuale risultati della tabella qui però. 

Ecco, questo è solo un semplice esempio di facendo una query di base contro l'API e la visualizzazione di informazioni in un altro forma, e non fare nulla di troppo di fantasia. Ora, un altro esempio è come un domanda scritta da David Weinberger come demo di questo, che in sostanza si mostra come si può schiacciare i risultati che siete ottenere dal API biblioteca nuvola con, diciamo, di Google Books. 

E il pensiero è che posso eseguire una query su Google Libri, ottenere una ricerca testo completo, ottenere alcuni risultati indietro, scoprire quale di queste voci in realtà esistono in Hollis, il sistema bibliotecario, e poi mi danno link torna a tali elementi. Quindi, se cerco, è stato una notte buia e tempestosa, mi tornare un po 'di risultati da Google, e quindi uno dei risultati che è A Wrinkle in Time. E questi sono link a libri che esistono all'interno del sistema Harvard Library. 

Quindi credo che il punto qui non è tanto che questo può o non può essere il modo in cui si desidera per selezionare la libreria, ma è completamente diverso modo che non era disponibile a voi prima, come voi non ha avuto modo di fare testo integrale cerca sui libri che anche facevano parte del sistema di Harvard Library. Così ora questo è un modo che si può fare. E si può visualizzare in qualunque formato desiderato. Quindi, il punto qui è, in fondo, stiamo aprendo nuovi modi per le persone lavorare con i dati. 

Un altro pezzo di nuvola biblioteca è che aiuta esporre alcuni dei dati di utilizzo che la biblioteca ha. Quindi, se si va in biblioteca, e siete alla ricerca di libri, Non necessariamente in realtà avere un'idea, per tutti gli elementi di una particolare argomento, cosa sono persone comunità, che si tratti di definita come Harvard o paese o la classe, cosa hanno trovato più utile? E la biblioteca ha in realtà una tonnellata di informazioni su ciò che è molto utile perché se molto di persone stanno controllando un libro, che ti dice qualcosa. Ci deve essere stato qualche motivo vogliono controllare. Un sacco di gente ha messo in riserva. 

Se è sulla lista di riserva per un sacco di classi, che ti dice qualcosa. Se i docenti stanno controllando lo fuori un sacco e studenti non sono, che mi dice qualcosa. Vice versa, che anche ti dice qualcosa. Quindi sarebbe davvero interessante inserire le informazioni là fuori e lasciare persone lo utilizzano per aiutarli a trovare opera all'interno del sistema bibliotecario. Il rovescio della medaglia di questo è ci sono alcuni gravi privacy preoccupazioni perché uno dei principi fondamentali della biblioteca è non stiamo andando da raccontare gente quello che gli altri stanno leggendo. E anche se si sta dicendo questo libro è stato controllato quattro volte in un mese particolare, che potrebbero essere utilizzati avere un collegamento ad un particolare persona da dati de-anonimizzazione e scoprire chi controllato fuori. Quindi il modo in cui possiamo avoid-- Il modo in cui possiamo cercare di estrarre un segnale dal complesso dei dati senza violare timori per la privacy di nessuno è essenzialmente guardiamo 10 anni di dati di utilizzo, - 

Quindi è un lungo periodo di tempo. 

--e dire, OK, vediamo come molte volte questo lavoro è stato utilizzato, e che in questo periodo di tempo, e quindi sostanzialmente restituire un numero, che noi chiamiamo una partitura stack, che fondamentalmente rappresenta quanto è stata usata. E che number-- Un sacco di diversi calcoli andare in quel numero. --ma è molto approssimativa metrica che ti dà un'idea di come il comunità può valutare che il lavoro. 

E così un altro tipo di ancora più concretizzati applicazione che prende vantaggio di questo è qualcosa chiamato Stacklife, che è in realtà disponibile attraverso il principale Harvard Portale Library. Così si va a library.harvard.edu. Vedrete una serie di diversi modi di ricerca della biblioteca. E uno di loro è chiamato Stacklife. 

E questo è un programma che esplora il contenuto della biblioteca, ma è completamente integrato in cima a queste API. Quindi non c'è roba speciale succede dietro le quinte. Non c'è accesso ai dati che non hai. Sta utilizzando le API di fornire con una navigazione completamente diverso esperienza. 

Quindi, se la ricerca di Alice nel paese delle meraviglie in questo caso, Ottengo un risultato che sembra questo, che è abbastanza much-- 

E 'molto simile a qualsiasi altra ricerca si potrebbe fare, tranne che in questo caso stiamo classifica gli articoli da stackscore, che vi dà qualche idea di quanto sia popolare questi oggetti erano all'interno della comunità. E così chiaramente, Alice nel paese delle meraviglie da Walt Disney è molto popolare. Ma si può anche vedere le prime quattro qui ci sono quelli che non si potrebbe actually-- 

Le cose che sono molto utilizzati, ma non si può immediatamente collegarsi con Alice nel paese delle meraviglie. Così il nostro vecchio amico The Annotated Alice è qui. Così posso dare un'occhiata a questo. E ora quello che sto cercando AT è fondamentalmente un insieme di-- Posso avere The Annotated Alice proprio qui. Ho informazioni su di esso. E ho anche un stackscore di, in questo caso, 26. E questo mi dice sorta di circa come siamo arrivati ​​a questo stackscore, come chi controllato fuori, come come molte volte è stato estratto, come facoltà o undergrads, come molte copie la biblioteca ha, e così via e così via. 

E si può anche, abbastanza interessante qui, esplorare le pile virtualmente. Così i dati qui, questo si sta mostrando sort di una rappresentazione virtuale di ciò che la forza shelf guardare come se si dovesse prendere tutte le aziende della biblioteca e metterli insieme su un ripiano infinita. E la cosa bella è che abbiamo can-- 

Prima di tutto, la metadati su questi libri spesso si dice quando è stato pubblicato. E ti dice quante pagine ha. Potrebbe dire le dimensioni. Così si può vedere che è riflesso qui in termini di dimensione dei libri. 

E allora possiamo usare il impilare punteggio per evidenziare i libri che hanno i punteggi più alti di stack. Quindi, se è più scura, significa che, presumibilmente, è usato più frequentemente. Quindi, in questo caso, sono intenzione di indovinare che questo è la versione di Alice nel paese delle meraviglie che è molto comunemente usato e più letta, la libreria ha il maggior numero di copie di. Quindi, se siete alla ricerca per Alice in Wonderland, questo potrebbe essere un buon punto di partenza. 

E poi qui si può anche collegare fuori a, dire, Amazon per l'acquisto del libro, e così via e così via. Il punto qui, di nuovo, non è tanto che questo è il modo migliore per sfogliare la libreria o lo strumento giusto per ogni occasione. Ma è un altro modo di farlo. E rendendo i dati disponibile attraverso un API, che è realizzato molto semplici blocchi, che ti permette di cercare il contenuto, si può costruire qualcosa come questo che può essere straordinariamente prezioso per alcune persone. 

Ecco, questo è una sorta di, quanto voglio dire veramente ciò che l'API è e quello che espone, c'è un intero mucchio di roba dietro le quinte, che Sto solo andando a toccare brevemente solo perché sorta di tratta a questo da un angolo completamente diverso termini di come si fa una cosa del genere avere messo in atto? 

Quindi una API è uno standard interfacciarsi a tutto questo contenuto. Ma per arrivare lì, la prima cosa che dovevamo fare è stato mettere insieme informazioni di libri e immagini e gli strumenti di ricerca, la raccolta documento da vari sistemi di Harvard. Aleph, VIA, e OASIS sono i nomi dei sistemi. E in sostanza, vanno in un conduttura, una pipeline di elaborazione. 

Quindi, prima di tutto, otteniamo esportazione file da tutti questi sistemi. Li dividiamo in singole voci. Così abbiamo un file, che è un gigabyte, che ha un milione di dischi in esso. Così abbiamo diviso su in singole voci. Poi, per ogni articolo, convertiamo esso in MODS, perché alcuni di questi sono MODS nativamente, alcuni di loro non sono. Quindi noi tutti arrivare a essere nello stesso formato. Poi ci sono diversi passaggi di arricchimento, dove aggiungiamo ulteriori informazioni ai dati che era disponibile nella libreria. Quindi abbiamo bisogno di aggiungere, prima di tutto abbiamo quello librerie tengono. Attraversiamo una fase di calcolo della stackscore. Andiamo attraverso un altro passo l'aggiunta di più di metadati in termini di ciò collezioni persone avrebbe potuto aggiungere questo-- 

Le persone stanno creando collezioni di oggetti. Che collezioni vuol appartiene? Come sono le persone con tag questo contenuto in passato? Poi filtrare fuori, e si limitano i record perché, come ho già detto, ci sono alcuni record che, a causa di motivi di copyright, non possiamo visualizzare. E poi li carichiamo in qualcosa chiamato Solr, che non è un errore, ma è il nome di un software che fa di ricerca l'indicizzazione, che spinge tutta la ricerca dietro l'API. E poi diventa disponibile per le API e le persone possono usare. 

Quindi questo è come un abbastanza processo semplice. Una delle interessanti cose su di esso è che si tratta con 13 milioni di dischi e stiamo andando a che fare o più. E noi vogliamo essere in grado di gestire questi in modo relativamente veloce. Ci vuole molto tempo per elaborare 13 milioni di dischi. 

Così come questo gasdotto è set up è che si can-- Credo che il vantaggio del gasdotto, il problema che siamo cercando di risolvere qui, è che tutte le trasformazioni, tutte questi passi in questo gasdotto sono separabili. Non c'è alcuna dipendenza. Se sei elaborazione un record di un libro, non c'è alcuna dipendenza in che tra un altro libro. 

Che cosa possiamo fare è fondamentalmente, ad ogni passo in cantiere, abbiamo messo in una coda nella nuvola. Mi è capitato di essere su Amazon Web Services. Quindi c'è un elenco di, dire, 10.000 articoli che devono essere normalizzato e convertiti in formato MODS. E noi spin up come molti server come vogliamo, forse 10 server. E ciascuno di questi server proprio siede lì, guarda in quella coda, vede che c'è uno che ha bisogno di elaborare, tira fuori la coda, processa e bastoni sulla coda successivo. 

E così quello che ci permette fare è applicare, in sostanza, tanto hardware vogliamo questo problema per un brevissimo periodo di tempo elaborare i dati più rapidamente possibile, che è qualcosa che solo, ora nel mondo del cloud computing noi can server provisioning essenzialmente istantaneamente, è che utile. Quindi non avere un Server gigante seduto intorno tutto il tempo per fare la trasformazione che potrebbe accadere solo una volta alla settimana. 

In modo che è in gran parte di esso. C'è documentazione disponibile per la Biblioteca Nube API Item a questo URL, che sarà sarà disponibile in seguito. E per favore andare a dare un'occhiata a per vedere se c'è qualcosa, avete qualche idea. Gioca con esso. Scherzare. E si spera si può venire con qualcosa di grande. Grazie.