1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY LICHT: Hi there. 3 00:00:12,370 --> 00:00:13,550 Sono Jeffrey Licht. 4 00:00:13,550 --> 00:00:17,890 E io sono qui per parlare con voi circa la Harvard Biblioteca e la costruzione di domani 5 00:00:17,890 --> 00:00:20,870 oggi biblioteca, immagino. 6 00:00:20,870 --> 00:00:23,040 Così il fondo qui, in campo per questa sessione 7 00:00:23,040 --> 00:00:26,930 è essenzialmente che c'è un sacco di dati bibliografici 8 00:00:26,930 --> 00:00:28,400 disponibili nelle biblioteche di Harvard. 9 00:00:28,400 --> 00:00:33,434 E vi è la possibilità, attraverso alcuni degli strumenti 10 00:00:33,434 --> 00:00:36,350 e un progetto che è in fase di sviluppo, per avere accesso alle informazioni 11 00:00:36,350 --> 00:00:42,430 e portarlo in luoghi che il Harvard Library non sta facendo in questo momento, 12 00:00:42,430 --> 00:00:45,460 fare cose nuove con esso, esperimento e giocare con esso. 13 00:00:45,460 --> 00:00:52,413 >> Così il punto di ingresso in questo è un'API chiamato Harvard Biblioteca Cloud, che 14 00:00:52,413 --> 00:00:57,650 è un server di metadati aperta, che parlerò ora. 15 00:00:57,650 --> 00:01:02,595 Quindi lo sfondo è che c'è una sacco di roba in biblioteca di Harvard. 16 00:01:02,595 --> 00:01:07,150 Abbiamo oltre 13 milioni bibliografica record, milioni di immagini, 17 00:01:07,150 --> 00:01:11,090 e migliaia di strumenti di ricerca, che sono essenzialmente documenti che descrivono 18 00:01:11,090 --> 00:01:15,500 collezioni, dicendo che cosa è in essi, scatole di carte 19 00:01:15,500 --> 00:01:21,080 e così via che rappresentano più un milione di singoli documenti. 20 00:01:21,080 --> 00:01:24,290 E c'è anche un sacco di informazioni che la libreria ha 21 00:01:24,290 --> 00:01:28,180 su come il contenuto viene utilizzato tale possa essere di interesse per le persone 22 00:01:28,180 --> 00:01:32,400 che potrebbe desiderare di lavorare con lui. 23 00:01:32,400 --> 00:01:36,150 >> Quindi tutte le informazioni la biblioteca ha metadati. 24 00:01:36,150 --> 00:01:39,500 Così metadati sono dati sui dati. 25 00:01:39,500 --> 00:01:42,070 Quindi, quando si parla di le informazioni che è 26 00:01:42,070 --> 00:01:44,890 disponibile nella libreria nuvola che è disponibile, 27 00:01:44,890 --> 00:01:47,760 non è necessariamente i documenti reali 28 00:01:47,760 --> 00:01:53,060 stessi, non necessariamente il pieno testo di libri o le immagini complete, 29 00:01:53,060 --> 00:01:54,890 però che in realtà può essere il caso. 30 00:01:54,890 --> 00:01:57,550 Ma è davvero informazioni sui dati. 31 00:01:57,550 --> 00:02:00,909 >> Così si può pensare di catalogazione informazioni, numeri di chiamata, i soggetti, 32 00:02:00,909 --> 00:02:02,700 il numero di copie del libro ci sono, cosa 33 00:02:02,700 --> 00:02:06,380 sono le edizioni, che cosa sono il formati, gli autori, e così via. 34 00:02:06,380 --> 00:02:12,250 Quindi c'è un sacco di informazioni su le informazioni nella collezione che, 35 00:02:12,250 --> 00:02:14,400 in sé, è sorta di intrinsecamente utile. 36 00:02:14,400 --> 00:02:19,230 E anche se siete fare ricerca in profondità, 37 00:02:19,230 --> 00:02:25,160 si vuole, ovviamente, per arrivare al reale accontentarsi e guardare i dati, 38 00:02:25,160 --> 00:02:30,140 i metadati è utile in termini di sia analizzando il corpus nel suo complesso, 39 00:02:30,140 --> 00:02:33,870 come quello che le cose sono nella collezione. 40 00:02:33,870 --> 00:02:35,520 Come si relazionano? 41 00:02:35,520 --> 00:02:39,482 Ti aiuta davvero trovare altre cose, che è davvero lo scopo principale di esso. 42 00:02:39,482 --> 00:02:41,190 Il punto di metadati e il catalogo 43 00:02:41,190 --> 00:02:43,230 è quello di aiutare a trovare tutti le informazioni che è 44 00:02:43,230 --> 00:02:46,590 disponibile all'interno delle collezioni. 45 00:02:46,590 --> 00:02:53,690 >> Quindi questo è un esempio di metadata per un libro nella biblioteca di Harvard. 46 00:02:53,690 --> 00:02:56,370 Quindi è lì. 47 00:02:56,370 --> 00:02:59,850 E si può vedere che è in realtà moderatamente complesso. 48 00:02:59,850 --> 00:03:04,610 E parte del valore dei metadati all'interno del sistema Harvard libreria 49 00:03:04,610 --> 00:03:09,320 è che è stato sorta di costruito da catalogatori 50 00:03:09,320 --> 00:03:12,720 e assemblato da persone che chiedono un sacco di esperienza e abilità 51 00:03:12,720 --> 00:03:20,030 e pensato ad esso nel tempo, che ha un sacco di valore. 52 00:03:20,030 --> 00:03:25,450 >> Quindi, se si dà un'occhiata a questo record The Annotated Alice, si può scoprire 53 00:03:25,450 --> 00:03:32,590 hai il titolo, che l'ha scritta, la autore e tutti i diversi soggetti 54 00:03:32,590 --> 00:03:35,380 che le persone hanno catalogato in. 55 00:03:35,380 --> 00:03:40,110 E si può vedere c'è anche, in Oltre a un sacco di buone informazioni 56 00:03:40,110 --> 00:03:42,852 qui, c'è qualche doppioni. 57 00:03:42,852 --> 00:03:45,560 C'è un sacco di complessità che è riflessa attraverso i metadati 58 00:03:45,560 --> 00:03:46,300 che si ha. 59 00:03:46,300 --> 00:03:50,320 >> Quindi un titolo di questo libro è Le avventure di Alice nel paese delle meraviglie. 60 00:03:50,320 --> 00:03:53,880 Quindi questo è annotata versione di quel libro. 61 00:03:53,880 --> 00:03:56,380 Ma è anche chiamato The Annotated Alice, Le avventure di Alice 62 00:03:56,380 --> 00:03:58,570 in Wonderland perché è qualcosa che 63 00:03:58,570 --> 00:04:00,430 Martin Gardner ha scritto e annotato il libro. 64 00:04:00,430 --> 00:04:03,369 E ci sono un sacco di grandi informazioni di puzzle logici e cose 65 00:04:03,369 --> 00:04:05,410 all'interno di Alice che si probabilmente non sapere. 66 00:04:05,410 --> 00:04:07,000 Quindi, si dovrebbe andare leggerlo. 67 00:04:07,000 --> 00:04:11,940 >> Ma si può vedere c'è un sacco di dettagli qui, 68 00:04:11,940 --> 00:04:15,340 identificatori, quando è stato creato, da dove proviene, 69 00:04:15,340 --> 00:04:17,420 in termini di Harvard sistema, e così via. 70 00:04:17,420 --> 00:04:20,350 Quindi questo è un esempio di il tipo di metadati 71 00:04:20,350 --> 00:04:24,340 che si potrebbe vedere di un libro in la collezione Harvard Library. 72 00:04:24,340 --> 00:04:26,680 >> Questo è qualcosa di completamente diverso. 73 00:04:26,680 --> 00:04:32,610 Quindi non vi è un sistema chiamato VIA Harvard, che fondamentalmente 74 00:04:32,610 --> 00:04:39,990 è catalogare immagini e oggetti d'arte e le cose visive tutta Harvard, 75 00:04:39,990 --> 00:04:44,010 e l'aggiunta di alcuni metadati a loro, loro classificazione, 76 00:04:44,010 --> 00:04:49,200 e, in alcuni casi, fornendo piccole immagini in miniatura 77 00:04:49,200 --> 00:04:51,250 che si può prendere un guardare se lo desiderate. 78 00:04:51,250 --> 00:04:54,240 >> Quindi questo è un esempio di metadati che avete per un piatto 79 00:04:54,240 --> 00:04:57,840 da, presumibilmente, Alice nel paese delle meraviglie. 80 00:04:57,840 --> 00:05:00,499 E si può vedere c'è meno metadati qui. 81 00:05:00,499 --> 00:05:02,040 E 'solo un diverso tipo di oggetto. 82 00:05:02,040 --> 00:05:03,425 E così ci sono meno informazioni. 83 00:05:03,425 --> 00:05:07,790 >> Avete soprattutto il fatto che, una chiamata numero, in sostanza, che creato, - 84 00:05:07,790 --> 00:05:10,410 >> Non sappiamo quando è stato creato. 85 00:05:10,410 --> 00:05:13,320 >> --e un titolo. 86 00:05:13,320 --> 00:05:14,300 >> Un altro esempio. 87 00:05:14,300 --> 00:05:16,380 Questo è uno strumento di ricerca. 88 00:05:16,380 --> 00:05:19,030 Quindi c'è una collezione di Lewis Carte di Carroll a Harvard. 89 00:05:19,030 --> 00:05:23,601 Quindi questo descrive cosa è in quella collezione. 90 00:05:23,601 --> 00:05:26,100 Così qualcuno ha attraversato e guardato attraverso tutte le caselle 91 00:05:26,100 --> 00:05:32,220 e catalogato che, data una certa priorità bassa, scritto un riassunto di ciò che è qui. 92 00:05:32,220 --> 00:05:35,290 E se si dovesse guardare oltre a questo, questo 93 00:05:35,290 --> 00:05:39,620 va avanti per pagine e pagine e le pagine, ma vi dirà 94 00:05:39,620 --> 00:05:41,860 quali lettere e ciò che date da quello scatole 95 00:05:41,860 --> 00:05:44,289 esistito in tutta la collezione. 96 00:05:44,289 --> 00:05:46,330 Ma questa è una cosa che, se siete a Harvard, 97 00:05:46,330 --> 00:05:50,720 si può andare e realmente guardare fisicamente e, presumibilmente, dare un'occhiata a. 98 00:05:50,720 --> 00:05:53,440 >> Quindi questo è tutto fantastico. 99 00:05:53,440 --> 00:05:54,450 Di utile questa metadati. 100 00:05:54,450 --> 00:05:56,327 E 'nel sistema Harvard Library. 101 00:05:56,327 --> 00:05:58,910 Ci sono strumenti online in cui si può andare e dare un'occhiata a esso, 102 00:05:58,910 --> 00:05:59,993 e vedere, e cercarlo. 103 00:05:59,993 --> 00:06:02,810 E si può tagliare e dadi in molti modi diversi. 104 00:06:02,810 --> 00:06:06,920 >> Ma è davvero solo se sei un essere umano seduto 105 00:06:06,920 --> 00:06:12,600 al vostro browser web o qualcosa o il telefono e la navigazione attraverso di essa. 106 00:06:12,600 --> 00:06:16,730 Non è davvero disponibile in qualsiasi tipo di moda utilizzabile 107 00:06:16,730 --> 00:06:19,520 per altri sistemi o altri computer da utilizzare, 108 00:06:19,520 --> 00:06:21,500 non con sistemi all'interno la Biblioteca di Harvard, 109 00:06:21,500 --> 00:06:24,890 ma i sistemi nel mondo esterno, solo altre persone in generale. 110 00:06:24,890 --> 00:06:30,210 Quindi la domanda è, come possiamo renderlo disponibile per i computer 111 00:06:30,210 --> 00:06:33,560 di modo che possiamo fare di più interessante roba con esso non solo 112 00:06:33,560 --> 00:06:36,550 browsing noi stessi? 113 00:06:36,550 --> 00:06:39,766 >> Allora perché si vuole fare questo? 114 00:06:39,766 --> 00:06:41,140 Ci sono un sacco di possibilità. 115 00:06:41,140 --> 00:06:43,980 Uno è che si potrebbe costruire un completamente diverso modo di navigazione 116 00:06:43,980 --> 00:06:46,962 il contenuto che è disponibile attraverso le biblioteche di Harvard. 117 00:06:46,962 --> 00:06:48,670 Ti faccio vedere uno più tardi chiamato Stacklife, 118 00:06:48,670 --> 00:06:52,440 che ha un completamente diverso assumere ricerca di contenuti. 119 00:06:52,440 --> 00:06:54,560 >> Si potrebbe costruire un motore di raccomandazione. 120 00:06:54,560 --> 00:06:57,955 Così Harvard Library non è in attività di dire, ti piace questo libro. 121 00:06:57,955 --> 00:07:01,080 Poi vai dare un'occhiata a questi 17 altri libri che si può essere interessati a 122 00:07:01,080 --> 00:07:03,200 o questi 18 altre immagini. 123 00:07:03,200 --> 00:07:06,040 Ma che di certo poteva essere una caratteristica importante. 124 00:07:06,040 --> 00:07:09,272 E dato i metadati, può possibile mettere che insieme. 125 00:07:09,272 --> 00:07:11,980 Si potrebbe avere esigenze diverse a termini di ricerca del contenuto, 126 00:07:11,980 --> 00:07:16,200 come forse nonostante gli strumenti che sono disponibili che la biblioteca fa 127 00:07:16,200 --> 00:07:18,450 disponibile, si potrebbe desiderare per cercare in modo diverso 128 00:07:18,450 --> 00:07:21,847 o ottimizzare per un particolare caso d'uso, che forse è molto specializzato. 129 00:07:21,847 --> 00:07:23,930 Forse ci sono solo pochi persone nel mondo che 130 00:07:23,930 --> 00:07:25,846 vuole cercare il contenuto in questo modo, ma 131 00:07:25,846 --> 00:07:28,985 sarebbe fantastico se ci potrebbe lasciarli fare quello. 132 00:07:28,985 --> 00:07:30,860 C'è un sacco di analisi in solo come la gente 133 00:07:30,860 --> 00:07:33,860 utilizzare il contenuto che sarebbe davvero interessante conoscere, scoprire 134 00:07:33,860 --> 00:07:37,280 quali libri vengono utilizzati, ciò che non sono, e così via. 135 00:07:37,280 --> 00:07:41,670 E poi ci sono un sacco di opportunità di integrare 136 00:07:41,670 --> 00:07:45,210 altre informazioni che è là fuori sul web. 137 00:07:45,210 --> 00:07:46,880 Così abbiamo have-- 138 00:07:46,880 --> 00:07:50,260 >> Ad esempio, ha NPR un segmento recensione del libro, 139 00:07:50,260 --> 00:07:53,090 dove intervistano autori di libri. 140 00:07:53,090 --> 00:07:56,837 E così sarebbe bello se tu fossi cercare un libro in Harvard 141 00:07:56,837 --> 00:07:59,670 Biblioteca, e lei dice, OK, non c'è stato un colloquio con l'autore. 142 00:07:59,670 --> 00:08:00,878 Andiamo a dare un'occhiata a questo. 143 00:08:00,878 --> 00:08:05,461 O c'è una pagina di Wikipedia, come autorevole, riferimento scientifica 144 00:08:05,461 --> 00:08:07,710 su questo libro che si potrebbe voler dare un'occhiata a. 145 00:08:07,710 --> 00:08:12,600 >> Ci sono questi tipi di fonti sparsi in tutto il web. 146 00:08:12,600 --> 00:08:16,555 E raggruppandoli potrebbe essere un grande uso 147 00:08:16,555 --> 00:08:18,930 qualcuno guardando la contenuti, alla ricerca di qualcosa. 148 00:08:18,930 --> 00:08:20,180 Ma non è anche il genere di cose che ci si 149 00:08:20,180 --> 00:08:23,205 vuole la biblioteca sia responsabile per andare verso il basso e la caccia 150 00:08:23,205 --> 00:08:25,455 tutte queste diverse fonti e collegare insieme 151 00:08:25,455 --> 00:08:28,920 perché sono in continuo cambiamento. 152 00:08:28,920 --> 00:08:33,570 E quello che pensano sia importante Maggio non essere ciò che pensi sia importante. 153 00:08:33,570 --> 00:08:36,929 >> E ancora di più, in fondo c'è un sacco di cose che non abbiamo ancora pensato. 154 00:08:36,929 --> 00:08:42,222 Quindi, se siamo in grado di aprire questo, più persone oltre a una mezza dozzina, 155 00:08:42,222 --> 00:08:45,174 che stanno guardando questo su un base regolare può pensare di idee 156 00:08:45,174 --> 00:08:47,340 e massaggiare i dati, e fanno quello che vogliono con esso. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Così vogliamo fare questo i dati a disposizione del mondo. 159 00:08:54,045 --> 00:08:55,670 Beh, ci sono un paio di complicazioni. 160 00:08:55,670 --> 00:08:58,540 Uno è che questi metadati è in sistemi diversi. 161 00:08:58,540 --> 00:09:01,110 E 'in diversi formati. 162 00:09:01,110 --> 00:09:04,719 Quindi c'è una certa normalizzazione che deve accadere, 163 00:09:04,719 --> 00:09:08,010 che normalizzazione essendo il processo di portare le cose da diversi formati 164 00:09:08,010 --> 00:09:12,940 e mappatura di un singolo formato in modo che i campi saranno corrispondere. 165 00:09:12,940 --> 00:09:15,160 >> Ci sono alcune restrizioni di copyright. 166 00:09:15,160 --> 00:09:21,010 Stranamente, la voce di catalogo su un libro è responsabile per il copyright. 167 00:09:21,010 --> 00:09:24,060 Quindi, anche se è solo informazioni derivate dal libro, 168 00:09:24,060 --> 00:09:25,330 è coperti da copyright. 169 00:09:25,330 --> 00:09:28,400 E a seconda di chi in realtà creato che i metadati, 170 00:09:28,400 --> 00:09:32,175 ci possono essere restrizioni su chi può distribuirlo, a-- simile 171 00:09:32,175 --> 00:09:33,402 >> Non lo so. 172 00:09:33,402 --> 00:09:36,110 Si può o non può essere simile a la situazione i testi delle canzoni di, 173 00:09:36,110 --> 00:09:36,610 per esempio. 174 00:09:36,610 --> 00:09:38,560 Così sappiamo tutti come quello pentole che fuori. 175 00:09:38,560 --> 00:09:40,450 Quindi è necessario per aggirare questo problema. 176 00:09:40,450 --> 00:09:44,910 >> E poi un altro pezzo è che c'è un sacco di dati. 177 00:09:44,910 --> 00:09:52,420 Quindi, se io sono una persona che vuole lavorare con i dati o ha una grande idea, 178 00:09:52,420 --> 00:09:55,350 si tratta di 14 milioni record sul mio portatile 179 00:09:55,350 --> 00:09:57,487 potrebbe essere problematico e di difficile gestione. 180 00:09:57,487 --> 00:09:59,320 Così vogliamo ridurre le barriere per le persone 181 00:09:59,320 --> 00:10:02,130 essere in grado di lavorare con i dati. 182 00:10:02,130 --> 00:10:07,880 >> Così l'approccio che si spera indirizzi tutte queste preoccupazioni è due parti. 183 00:10:07,880 --> 00:10:11,770 Si sta costruendo una piattaforma che prende i dati da tutte queste fonti disparate 184 00:10:11,770 --> 00:10:14,350 e si aggrava, normalizza, arricchisce, e marche 185 00:10:14,350 --> 00:10:16,650 è disponibile in un unico luogo. 186 00:10:16,650 --> 00:10:20,950 E rende disponibile tramite una API pubblica che le persone possono chiamare. 187 00:10:20,950 --> 00:10:24,430 >> Quindi una API è un'applicazione Programming Interface. 188 00:10:24,430 --> 00:10:28,930 E si riferisce essenzialmente a un endpoint che un sistema o una tecnologia 189 00:10:28,930 --> 00:10:31,720 può chiamare e ottenere i dati di nuovo in un formato strutturato in modo 190 00:10:31,720 --> 00:10:32,900 che può essere utilizzato. 191 00:10:32,900 --> 00:10:36,060 Quindi non è dipendente di andare a un sito web 192 00:10:36,060 --> 00:10:37,970 e raschiando dati off di esso, per esempio. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Quindi questa è la home page di la Biblioteca Nube API Item, 195 00:10:45,010 --> 00:10:47,220 che è essenzialmente la sua versione a due. 196 00:10:47,220 --> 00:10:50,130 Quindi è la seconda iterazione cercando di rendere tutti questi dati 197 00:10:50,130 --> 00:10:53,280 disposizione del mondo. 198 00:10:53,280 --> 00:10:59,560 Quindi è http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 E proprio per rompere questo giù un po ', cosa significa 200 00:11:03,830 --> 00:11:06,115 è che questa è la versione due API. 201 00:11:06,115 --> 00:11:08,490 C'è una versione di uno, che Non ho intenzione di parlare di. 202 00:11:08,490 --> 00:11:09,750 Ma vi è una versione uno. 203 00:11:09,750 --> 00:11:14,740 >> E se si sta chiamando questo API, hai trovato oggetti. 204 00:11:14,740 --> 00:11:20,640 E parte dell'idea di un API è una API è un contratto. 205 00:11:20,640 --> 00:11:23,440 E 'qualcosa che è non cambierà. 206 00:11:23,440 --> 00:11:24,850 Così, per esempio, - 207 00:11:24,850 --> 00:11:27,410 >> E la ragione è che se io costruire un qualche tipo di sistema che 208 00:11:27,410 --> 00:11:33,210 sta per utilizzare una API biblioteca nuvola per visualizzare libri o aiutare le persone a trovare 209 00:11:33,210 --> 00:11:36,190 informazioni in modo unico, ciò che non vogliamo che accada 210 00:11:36,190 --> 00:11:38,940 è per noi di andare cambiare il modo che API funziona, e improvvisamente 211 00:11:38,940 --> 00:11:41,340 tutto rompe sul lato utente finale. 212 00:11:41,340 --> 00:11:46,710 Quindi, parte di se stai facendo API disposizione del mondo, è 213 00:11:46,710 --> 00:11:49,396 buona norma mettere un numero di versione in modo persone 214 00:11:49,396 --> 00:11:51,020 sanno quale versione hanno a che fare con. 215 00:11:51,020 --> 00:11:54,300 >> Quindi, se decidiamo troviamo un modo migliore di rendere disponibili queste informazioni, 216 00:11:54,300 --> 00:11:57,295 potremmo cambiare la situazione di chiamare quella versione tre. 217 00:11:57,295 --> 00:11:59,920 Così tutti coloro che sono ancora utilizzando versione a due, che sarà ancora lavoro. 218 00:11:59,920 --> 00:12:03,490 Ma la versione a tre sarebbe avere tutte le novità. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Quindi questo è un API, ma questo davvero sembra un URL. 221 00:12:09,210 --> 00:12:11,680 E così ciò che questo è un esempio di è ciò che è 222 00:12:11,680 --> 00:12:16,615 chiamato API riposo, che è disponibile sopra solo una connessione web regolare. 223 00:12:16,615 --> 00:12:19,680 E si può effettivamente andare in un browser. 224 00:12:19,680 --> 00:12:28,550 >> Così qui Ho appena aperto Firefox e andato a api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 E così quello che ottengo qui è fondamentalmente la prima pagina 226 00:12:31,560 --> 00:12:34,740 dei risultati dall'intera set di elementi che abbiamo. 227 00:12:34,740 --> 00:12:37,460 Ed è qui, in formato XML. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 Ed è stato anche prettified da Firefox. 230 00:12:42,210 --> 00:12:45,850 In pratica non ha tutti questi poco espansione e amministrazione 231 00:12:45,850 --> 00:12:47,880 doohickeys qui. 232 00:12:47,880 --> 00:12:52,520 Questa è una sorta di bello Versione modo di vedere le cose. 233 00:12:52,520 --> 00:12:57,040 >> Ma che cosa questo ci dice è Ho chiesto a tutti gli elementi. 234 00:12:57,040 --> 00:13:03,120 Quindi ci sono 13.289.475 articoli. 235 00:13:03,120 --> 00:13:06,150 E sto guardando la prima 10, a partire dalla posizione di zero 236 00:13:06,150 --> 00:13:09,760 perché in informatica partiamo sempre a zero. 237 00:13:09,760 --> 00:13:15,150 E quello che ho qui, se ho appena crollare questo, vedrete che ho 10 articoli. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> E se prendo uno sguardo a un oggetto, posso vedo che ho informazioni su di esso. 240 00:13:25,210 --> 00:13:27,400 E questo è quello che si chiama in forma MODS. 241 00:13:27,400 --> 00:13:30,860 E così ho intenzione di cambiare di nuovo qui per un momento. 242 00:13:30,860 --> 00:13:33,750 OK. 243 00:13:33,750 --> 00:13:37,447 >> Quindi cerchiamo di cercare qualcosa in specifica perché il primo elemento che 244 00:13:37,447 --> 00:13:40,030 succede a venire quando si guarda attraverso l'intera collezione 245 00:13:40,030 --> 00:13:41,750 è, per definizione, casuale. 246 00:13:41,750 --> 00:13:44,550 Così diamo un'occhiata per alcune ciambelle. 247 00:13:44,550 --> 00:13:46,830 Oh. 248 00:13:46,830 --> 00:13:49,190 >> OK. 249 00:13:49,190 --> 00:13:49,940 Così ciambelle. 250 00:13:49,940 --> 00:13:55,360 Così abbiamo trovato ci sono 80 articoli in la collezione che fanno riferimento ciambelle. 251 00:13:55,360 --> 00:13:57,150 Stiamo guardando i primi 10 di loro. 252 00:13:57,150 --> 00:14:01,890 Ora, si può vedere qui il modo in cui Ho detto che sto cercando ciambelle, 253 00:14:01,890 --> 00:14:04,400 Ho appena aggiunto qualcosa la stringa di query dell'URL. 254 00:14:04,400 --> 00:14:09,680 Così q uguale ciambelle, che è possibile vedere un po 'più facile qui. 255 00:14:09,680 --> 00:14:12,131 >> E questo significa non c'è una specifica per l'API, che 256 00:14:12,131 --> 00:14:13,880 definisce ciò che tutti questi parametri significano. 257 00:14:13,880 --> 00:14:17,150 E questo significa che stiamo andando a cercare tutto per ciambelle. 258 00:14:17,150 --> 00:14:24,910 >> Quindi il primo articolo qui abbiamo si può vedere il titolo è Donuts, 259 00:14:24,910 --> 00:14:29,310 e vi è un sottotitolo chiamato An Passione americano, che è, credo, 260 00:14:29,310 --> 00:14:31,610 appropriata. 261 00:14:31,610 --> 00:14:36,134 Ci sono un sacco di different-- 262 00:14:36,134 --> 00:14:38,050 Una volta arrivati ​​al punto di ottenere dati, 263 00:14:38,050 --> 00:14:41,020 ci sono molti differenti formati che si possono ottenere in. 264 00:14:41,020 --> 00:14:44,050 E ci sono diversi punti di forza e debolezze per tutti. 265 00:14:44,050 --> 00:14:49,000 Quindi questo, si può vedere qui, questa forma è molto ricco. 266 00:14:49,000 --> 00:14:51,946 Ed è standardizzato. 267 00:14:51,946 --> 00:14:55,040 >> Quindi c'è un titolo specifico campo, un campo sottotitolo. 268 00:14:55,040 --> 00:14:58,950 C'è un supplente titolo, una passione americana. 269 00:14:58,950 --> 00:15:01,650 Vi è il nome associato con esso. 270 00:15:01,650 --> 00:15:03,120 Tipo della risorsa è il testo. 271 00:15:03,120 --> 00:15:06,070 C'è un sacco di informazioni qui in questo formato. 272 00:15:06,070 --> 00:15:09,480 >> Ma ci sono un sacco di diversi formati. 273 00:15:09,480 --> 00:15:11,920 Così che cosa siamo stati solo guardando è un formato 274 00:15:11,920 --> 00:15:17,700 chiamati MODS, che sta per Metadata Object Description Service, 275 00:15:17,700 --> 00:15:18,250 potenzialmente. 276 00:15:18,250 --> 00:15:23,030 In realtà sono non del tutto sicuro della S. Ma è un formato piuttosto complesso. 277 00:15:23,030 --> 00:15:24,240 E 'il formato di default. 278 00:15:24,240 --> 00:15:30,260 >> Ma è quella che mantiene la ricchezza di tutti i dati 279 00:15:30,260 --> 00:15:33,820 che la biblioteca è perché è molto vicino a quello che 280 00:15:33,820 --> 00:15:35,110 la libreria utilizza internamente. 281 00:15:35,110 --> 00:15:39,030 E 'uno standard che è utilizzato in tutto il paese, 282 00:15:39,030 --> 00:15:40,944 in tutto il mondo nelle biblioteche accademiche. 283 00:15:40,944 --> 00:15:42,110 Ed è molto interoperabile. 284 00:15:42,110 --> 00:15:44,852 Quindi, se hai un documento cioè in formato MODS, 285 00:15:44,852 --> 00:15:47,560 si può dare che a qualcun altro sistemi la cui capiscono MODS, 286 00:15:47,560 --> 00:15:48,518 e possono importarlo. 287 00:15:48,518 --> 00:15:50,840 Quindi è uno standard. 288 00:15:50,840 --> 00:15:54,250 È molto ben definito, molto preciso. 289 00:15:54,250 --> 00:15:58,980 E questo è ciò che rende interoperabili perché se qualcuno dice, 290 00:15:58,980 --> 00:16:04,930 questo è il titolo alternativa di un disco, tutti sanno che cosa significa. 291 00:16:04,930 --> 00:16:07,740 Il rovescio della medaglia, è molto complicato. 292 00:16:07,740 --> 00:16:13,160 >> Quindi, se si dà un'occhiata a questo record qui, 293 00:16:13,160 --> 00:16:15,320 se voglio solo per ottenere il titolo di questo documento, 294 00:16:15,320 --> 00:16:21,150 di questo libro, che è probabilmente Donuts, Una passione americana, analisi fuori 295 00:16:21,150 --> 00:16:22,940 è un po 'coinvolto. 296 00:16:22,940 --> 00:16:27,380 Mentre c'è un altro formato chiamato Dublin Core, 297 00:16:27,380 --> 00:16:29,730 che è un formato molto, molto semplice. 298 00:16:29,730 --> 00:16:33,764 >> E così si vede qui, non c'è titolo, sottotitolo, titolo alternativo. 299 00:16:33,764 --> 00:16:35,930 C'è solo il titolo, Donuts, una passione americana, 300 00:16:35,930 --> 00:16:38,780 e un altro titolo, passione americana. 301 00:16:38,780 --> 00:16:42,907 Così, quando si sta guardando quale forma si desidera ottenere i dati fuori, 302 00:16:42,907 --> 00:16:44,740 molto dipende da come avete intenzione di usarlo. 303 00:16:44,740 --> 00:16:46,573 Si sta utilizzando per interoperabilità o si 304 00:16:46,573 --> 00:16:49,970 vogliono qualcosa di semplice che potrebbe essere più facile lavorare con? 305 00:16:49,970 --> 00:16:56,002 >> Il rovescio della medaglia, un sacco di dettagli vengono sorta di schiacciata verso il basso. 306 00:16:56,002 --> 00:16:58,460 Si potrebbe perdere le sfumature ciò che un particolare mezzo di campo 307 00:16:58,460 --> 00:17:02,960 se hai a che fare con Dublin Core, che non si otterrebbe con MODS. 308 00:17:02,960 --> 00:17:06,462 Quindi questi sono due dei formati si può uscire dalla API. 309 00:17:06,462 --> 00:17:08,920 E in fondo, stiamo mantenendo dietro le quinte in MODS. 310 00:17:08,920 --> 00:17:14,179 Ma siamo in grado di darvi in ​​MODS e Dublin Core e quant'altro pure. 311 00:17:14,179 --> 00:17:16,470 L'altra considerazione quando cerchi nei dati 312 00:17:16,470 --> 00:17:21,210 è che si può ottenere sia come JSON, che sta per JavaScript Object Notation, 313 00:17:21,210 --> 00:17:24,720 o XML, che sta per Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 E queste rappresentazioni di dati sia hanno esattamente gli stessi dati, esattamente 315 00:17:30,080 --> 00:17:31,080 gli stessi campi. 316 00:17:31,080 --> 00:17:33,644 Ma sono solo sintatticamente diverso. 317 00:17:33,644 --> 00:17:40,401 >> Quindi questo è a-- 318 00:17:40,401 --> 00:17:41,400 Beh, diciamo solo passare. 319 00:17:41,400 --> 00:17:47,490 Quindi questa è la nostra query per ciambelle in formato XML. 320 00:17:47,490 --> 00:17:53,470 Se ho solo passare questo per essere JSON, Posso vedere un aspetto diverso. 321 00:17:53,470 --> 00:17:58,580 Così ora è lo stesso contenuto, ma una struttura diversa. 322 00:17:58,580 --> 00:18:00,080 Ci sono meno parentesi angolari. 323 00:18:00,080 --> 00:18:02,530 C'è meno prolisso. 324 00:18:02,530 --> 00:18:06,440 >> E questo è un formato che, se stanno lavorando in ambiente web, 325 00:18:06,440 --> 00:18:09,680 è più probabile andando a voler utilizzare perché uno 326 00:18:09,680 --> 00:18:12,630 delle cose belle su JSON è è compatibile con JavaScript. 327 00:18:12,630 --> 00:18:17,680 Quindi se sto scrivendo web app, posso tirare in JSON e solo lavorare con lui direttamente. 328 00:18:17,680 --> 00:18:20,187 Mentre con XML, è un po 'più complicato. 329 00:18:20,187 --> 00:18:21,520 Quindi, di nuovo, questi sono entrambi utili. 330 00:18:21,520 --> 00:18:26,387 Hanno appena sono diversi casi di utilizzo in cui le persone potrebbero voler utilizzarli. 331 00:18:26,387 --> 00:18:26,886 OK. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Ma torniamo al API. 334 00:18:31,680 --> 00:18:32,900 Così possiamo cercare for-- 335 00:18:32,900 --> 00:18:36,220 >> Io do un esempio di ricerca di ciambelle. 336 00:18:36,220 --> 00:18:39,330 Possiamo anche cercare solo in un particolare campo all'interno qui. 337 00:18:39,330 --> 00:18:41,310 Così, invece di cercare l'intero record, 338 00:18:41,310 --> 00:18:43,870 Posso solo cercare il campo del titolo. 339 00:18:43,870 --> 00:18:48,810 E così ora ci sono 25 cose che avere ciambelle nel titolo, uno dei quali 340 00:18:48,810 --> 00:18:52,430 è sul ripristino zone umide nella gestione 341 00:18:52,430 --> 00:18:54,990 del foro della ciambella programma, che è probabilmente 342 00:18:54,990 --> 00:18:58,970 non necessariamente quello che stiamo cercando per quando siamo alla ricerca di ciambelle. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> È anche possibile, quando si è che fare con un API-- 345 00:19:05,490 --> 00:19:08,827 >> Parte di avere una API sta dando persone l'accesso a grandi insiemi di dati. 346 00:19:08,827 --> 00:19:11,410 E ci sono un paio diverso strumenti è possibile utilizzare per farlo. 347 00:19:11,410 --> 00:19:14,170 Uno è, molto semplicemente, è possibile scorrere i dati. 348 00:19:14,170 --> 00:19:17,340 Quindi, proprio come se si fa una query attraverso un'interfaccia web, 349 00:19:17,340 --> 00:19:19,470 si può guardare pagina uno, pagina due, pagina tre. 350 00:19:19,470 --> 00:19:22,040 Si può fare lo stesso cosa attraverso l'API. 351 00:19:22,040 --> 00:19:24,150 Hai solo bisogno di essere esplicito come lo fai. 352 00:19:24,150 --> 00:19:29,511 >> Così, per esempio, se sto cercando alla mia prima domanda qui, 353 00:19:29,511 --> 00:19:32,510 dove sto facendo una ricerca di cose con ciambelle nel titolo, posso dire, 354 00:19:32,510 --> 00:19:35,415 e limite uguale 20, il che significa darmi i primi 20 record, non 355 00:19:35,415 --> 00:19:38,540 il primo 10, che è quella predefinita, perché voglio guardare 20 alla volta. 356 00:19:38,540 --> 00:19:43,435 Oppure posso dire, impostare il avviare pari a 20 e limite 357 00:19:43,435 --> 00:19:47,150 uguale 20, che darà Mi record da 21 a 40. 358 00:19:47,150 --> 00:19:52,680 >> Quindi credo che la cosa togliere ecco 359 00:19:52,680 --> 00:19:57,290 che stiamo usando le stringhe di query per impostare i parametri della query. 360 00:19:57,290 --> 00:20:02,760 E ti permette di controllo quello che si ottiene indietro. 361 00:20:02,760 --> 00:20:05,980 >> Un altro strumento che è possibile utilizzare, - 362 00:20:05,980 --> 00:20:09,250 >> E questo è davvero utile in termini di esplorare i dati. 363 00:20:09,250 --> 00:20:10,840 >> --is qualcosa chiamato sfaccettatura. 364 00:20:10,840 --> 00:20:15,530 Così il termine sfaccettatura è non necessariamente comune. 365 00:20:15,530 --> 00:20:16,880 Ma hai visto tutti prima. 366 00:20:16,880 --> 00:20:18,630 Se si dà un'occhiata a Amazon, per esempio, 367 00:20:18,630 --> 00:20:20,870 e fate una ricerca per ciambelle nei libri, 368 00:20:20,870 --> 00:20:27,080 qui hanno ottenuto una serie di libri, e sono raggruppati per categoria, 369 00:20:27,080 --> 00:20:30,470 e si ottiene le diverse categorie, e quanti libri in ogni categoria 370 00:20:30,470 --> 00:20:31,330 presentarsi. 371 00:20:31,330 --> 00:20:33,420 >> Quindi questo è fondamentalmente una sfaccettatura. 372 00:20:33,420 --> 00:20:37,570 Prendete tutti i loro libri, il 1.800 libri che corrispondono ciambelle su Amazon. 373 00:20:37,570 --> 00:20:39,820 12 di essi sono nella categoria colazione. 374 00:20:39,820 --> 00:20:43,100 21 in pasticceria e da forno, e così via e così via. 375 00:20:43,100 --> 00:20:47,670 >> Quindi questo è davvero un utile strumento per esplorare il contenuto 376 00:20:47,670 --> 00:20:53,260 all'interno della biblioteca, nonché perché quando si guarda a un aspetto, 377 00:20:53,260 --> 00:20:56,520 ti dà un'idea di quello che sottopone esiste, come quello che i tipi di soggetti 378 00:20:56,520 --> 00:20:58,510 sono più popolari all'interno del set di query. 379 00:20:58,510 --> 00:21:00,950 E aiuta a guidare fuori ed esplorare. 380 00:21:00,950 --> 00:21:02,770 Così possiamo fare la stessa cosa. 381 00:21:02,770 --> 00:21:05,940 >> Se vogliamo usare la API e guardare sfaccettature, 382 00:21:05,940 --> 00:21:08,950 aggiungiamo un altro parametro a il nostro amico la stringa di query. 383 00:21:08,950 --> 00:21:12,540 Così sfaccettature pari a un separati da virgola elenco di quello che vogliamo sfaccettare on. 384 00:21:12,540 --> 00:21:14,790 Così uno degli aspetti potrebbe essere soggetto. 385 00:21:14,790 --> 00:21:16,565 Un altro potrebbe essere la lingua. 386 00:21:16,565 --> 00:21:19,665 E così se corriamo tale query, abbiamo get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Sembra praticamente lo stesso qui. 389 00:21:24,830 --> 00:21:29,010 Ma abbiamo aggiunto alla fine della lista un insieme di sfaccettature. 390 00:21:29,010 --> 00:21:34,060 Quindi abbiamo un aspetto chiamato argomento. 391 00:21:34,060 --> 00:21:40,250 Quindi questo ci sta dicendo che se guardo i miei 80 risultati della query ciambella, 392 00:21:40,250 --> 00:21:42,100 13 di loro hanno la sottoporre Stati Uniti. 393 00:21:42,100 --> 00:21:43,684 Tre sono le ciambelle soggetto. 394 00:21:43,684 --> 00:21:45,600 Tre hanno il soggetto di ripristino delle zone umide, 395 00:21:45,600 --> 00:21:47,720 che può essere il nostro buco nella ciambella. 396 00:21:47,720 --> 00:21:51,780 Due di loro, i Simpson, e così via e così via. 397 00:21:51,780 --> 00:21:59,211 >> Quindi questo può essere utile se si vuole restringere la ricerca. 398 00:21:59,211 --> 00:22:00,210 Si può aiutare a farlo. 399 00:22:00,210 --> 00:22:03,580 Soprattutto se si dispone più di, diciamo, 80 risultati. 400 00:22:03,580 --> 00:22:05,980 >> Allo stesso modo, abbiamo anche chiesto per sfaccettature sul linguaggio. 401 00:22:05,980 --> 00:22:14,790 Quindi, se guardiamo i nostri risultati, vediamo 76 di loro sono in inglese, quattro in Francia, 402 00:22:14,790 --> 00:22:19,620 due in spagnolo, due, penso che sia undefined o sconosciuto, olandese e latino. 403 00:22:19,620 --> 00:22:22,830 Quindi penso che il latino risultato ciambella, di nuovo, 404 00:22:22,830 --> 00:22:24,922 non ha nulla a che fare con prodotti da forno. 405 00:22:24,922 --> 00:22:25,630 Ma ci si va. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Quindi questo è una sorta di mostra voi come si può tirare il contenuto indietro 408 00:22:38,630 --> 00:22:41,270 dal API proprio attraverso browser web, che è grande. 409 00:22:41,270 --> 00:22:44,320 Ma non è proprio quello che si farebbe normalmente utilizzando in API per esso. 410 00:22:44,320 --> 00:22:48,710 Così un esempio di come si potrebbe effettivamente fare questo è ho 411 00:22:48,710 --> 00:22:54,720 scritto un super piccolo programma, che, ancora una volta, la mia ricerca ciambella 412 00:22:54,720 --> 00:22:59,010 e seleziona un paio di campi e li visualizza in una tabella. 413 00:22:59,010 --> 00:23:01,610 Quindi questo è molto il stesso contenuto che abbiamo appena 414 00:23:01,610 --> 00:23:04,830 sega con alcuni campi tirato fuori. 415 00:23:04,830 --> 00:23:12,090 Così elenco dei titoli, i posizione di ciò che il libro 416 00:23:12,090 --> 00:23:15,120 è circa, la lingua, e così via e così via. 417 00:23:15,120 --> 00:23:20,480 >> Così come questo è realmente accaduto, in quanto Credo che dobbiamo guardare a un certo codice, 418 00:23:20,480 --> 00:23:22,420 è-- 419 00:23:22,420 --> 00:23:28,060 >> Quello che abbiamo qui è un semplice HTML pagina, che visualizza il testo, 420 00:23:28,060 --> 00:23:32,900 benvenuto al cloud biblioteca e quindi visualizza una tabella dei risultati. 421 00:23:32,900 --> 00:23:37,790 E ci sono, ovviamente, non si traduce in il tavolo quando la pagina viene caricata. 422 00:23:37,790 --> 00:23:41,380 Ma quello che stiamo facendo è, innanzitutto, abbiamo 423 00:23:41,380 --> 00:23:46,290 sono il caricamento di una libreria chiamata jQuery, che è fondamentalmente 424 00:23:46,290 --> 00:23:52,030 una libreria JavaScript, che rende molto facile da manipolare JavaScript 425 00:23:52,030 --> 00:23:58,780 nativo, HTML, e creare pagine web, logica lato client e le pagine web. 426 00:23:58,780 --> 00:24:01,595 >> Quindi quello che abbiamo qui è jQuery ha un metodo chiamato Get, 427 00:24:01,595 --> 00:24:05,270 che in sostanza andrà a un URL, che, in questo caso, 428 00:24:05,270 --> 00:24:09,070 è questo familiare URL cercando. 429 00:24:09,070 --> 00:24:14,440 E poi ottenere il contenuto dal tale URL e quindi eseguire una funzione su di esso. 430 00:24:14,440 --> 00:24:19,240 Così abbiamo detto vai a api.lib.harvard / edu. 431 00:24:19,240 --> 00:24:20,060 Ricerca di ciambelle. 432 00:24:20,060 --> 00:24:21,300 Dacci 20 record. 433 00:24:21,300 --> 00:24:28,590 E quindi eseguire questa funzione, che Ho selezionato, passandogli i dati. 434 00:24:28,590 --> 00:24:34,430 E il dato è la JSON che ma ho restituito dalla API. 435 00:24:34,430 --> 00:24:40,120 >> E poi stiamo dicendo, all'interno di tale dati c'è un campo chiamato voce. 436 00:24:40,120 --> 00:24:48,117 E se vado dare un'occhiata indietro uno di questi risultati che è qui, 437 00:24:48,117 --> 00:24:49,200 c'è qualcosa called-- 438 00:24:49,200 --> 00:24:50,220 >> Beh, si chiama punto. 439 00:24:50,220 --> 00:24:53,520 Così può essere che. 440 00:24:53,520 --> 00:25:01,840 E ciò che fa è che passa attraverso ogni elemento 441 00:25:01,840 --> 00:25:05,300 e quindi chiama un'altra funzione su ciascun elemento. 442 00:25:05,300 --> 00:25:08,440 E tale funzione fondamentalmente sta prendendo il valore 443 00:25:08,440 --> 00:25:12,010 dell'articolo, che è essenzialmente la scheda individuale 444 00:25:12,010 --> 00:25:18,220 e ci permette di tirare fuori il titolo, la copertura e la lingua. 445 00:25:18,220 --> 00:25:21,640 >> Quindi chiediamo una funzione su ogni voce che siamo tornati dalla API. 446 00:25:21,640 --> 00:25:25,397 E se si dà un'occhiata a questo pezzo qui, 447 00:25:25,397 --> 00:25:27,230 quello che stiamo facendo è stiamo creando una stringa, 448 00:25:27,230 --> 00:25:31,810 che è essenzialmente alcuni markup HTML intorno a un tavolo, con value.title, 449 00:25:31,810 --> 00:25:35,790 che è il titolo del oggetto, value.coverage, 450 00:25:35,790 --> 00:25:36,790 che è la copertura, - 451 00:25:36,790 --> 00:25:38,225 >> E noi stiamo facendo un controllo qui per vedere chi è undefined 452 00:25:38,225 --> 00:25:40,570 e nascondendola se dice indefinita, perché non siamo realmente interessati 453 00:25:40,570 --> 00:25:41,600 in questo. 454 00:25:41,600 --> 00:25:42,939 >> --e poi la lingua. 455 00:25:42,939 --> 00:25:44,730 E allora che cosa siamo facendo è aggiungendo che 456 00:25:44,730 --> 00:25:48,510 al tavolo che è identificati da questa stringa qui. 457 00:25:48,510 --> 00:25:50,790 E come funziona jQuery è ciò che questo sta dicendo 458 00:25:50,790 --> 00:25:56,420 è cercare il tavolo con l'idea risultati e aggiungere questo testo ad esso. 459 00:25:56,420 --> 00:25:59,380 E questo è il tavolo con risultati idea. 460 00:25:59,380 --> 00:26:04,998 Allora, cosa si finisce con questa pagina è qui. 461 00:26:04,998 --> 00:26:06,206 E al fine di visualizzare sorgente-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Ebbene, la sorgente non è effettivamente aggiornato quando è successo. 464 00:26:13,810 --> 00:26:18,740 Così si può vedere l'attuale risultati della tabella qui però. 465 00:26:18,740 --> 00:26:24,770 >> Ecco, questo è solo un semplice esempio di facendo una query di base contro l'API 466 00:26:24,770 --> 00:26:29,020 e la visualizzazione di informazioni in un altro forma, e non fare nulla di troppo di fantasia. 467 00:26:29,020 --> 00:26:36,370 Ora, un altro esempio è come un domanda scritta da David Weinberger 468 00:26:36,370 --> 00:26:39,120 come demo di questo, che in sostanza si mostra 469 00:26:39,120 --> 00:26:44,620 come si può schiacciare i risultati che siete ottenere dal API biblioteca nuvola 470 00:26:44,620 --> 00:26:46,250 con, diciamo, di Google Books. 471 00:26:46,250 --> 00:26:52,225 >> E il pensiero è che posso eseguire una query su Google Libri, 472 00:26:52,225 --> 00:26:56,060 ottenere una ricerca testo completo, ottenere alcuni risultati indietro, scoprire quale di queste voci 473 00:26:56,060 --> 00:27:01,180 in realtà esistono in Hollis, il sistema bibliotecario, 474 00:27:01,180 --> 00:27:03,200 e poi mi danno link torna a tali elementi. 475 00:27:03,200 --> 00:27:12,730 Quindi, se cerco, è stato una notte buia e tempestosa, mi 476 00:27:12,730 --> 00:27:16,210 tornare un po 'di risultati da Google, e quindi uno dei risultati 477 00:27:16,210 --> 00:27:19,460 che è A Wrinkle in Time. 478 00:27:19,460 --> 00:27:29,330 E questi sono link a libri che esistono all'interno del sistema Harvard Library. 479 00:27:29,330 --> 00:27:32,160 >> Quindi credo che il punto qui non è tanto che questo può o non può 480 00:27:32,160 --> 00:27:34,118 essere il modo in cui si desidera per selezionare la libreria, 481 00:27:34,118 --> 00:27:38,310 ma è completamente diverso modo che non era disponibile a voi 482 00:27:38,310 --> 00:27:42,884 prima, come voi non ha avuto modo di fare testo integrale cerca sui libri che anche 483 00:27:42,884 --> 00:27:44,550 facevano parte del sistema di Harvard Library. 484 00:27:44,550 --> 00:27:46,870 Così ora questo è un modo che si può fare. 485 00:27:46,870 --> 00:27:51,930 E si può visualizzare in qualunque formato desiderato. 486 00:27:51,930 --> 00:27:55,990 Quindi, il punto qui è, in fondo, stiamo aprendo nuovi modi per le persone 487 00:27:55,990 --> 00:27:59,080 lavorare con i dati. 488 00:27:59,080 --> 00:28:07,925 >> Un altro pezzo di nuvola biblioteca è che aiuta esporre alcuni dei dati di utilizzo 489 00:28:07,925 --> 00:28:08,800 che la biblioteca ha. 490 00:28:08,800 --> 00:28:12,630 Quindi, se si va in biblioteca, e siete alla ricerca di libri, 491 00:28:12,630 --> 00:28:15,770 Non necessariamente in realtà avere un'idea, 492 00:28:15,770 --> 00:28:19,080 per tutti gli elementi di una particolare argomento, cosa 493 00:28:19,080 --> 00:28:21,200 sono persone comunità, che si tratti di 494 00:28:21,200 --> 00:28:24,890 definita come Harvard o paese o la classe, 495 00:28:24,890 --> 00:28:26,421 cosa hanno trovato più utile? 496 00:28:26,421 --> 00:28:28,920 E la biblioteca ha in realtà una tonnellata di informazioni su ciò che 497 00:28:28,920 --> 00:28:32,999 è molto utile perché se molto di persone stanno controllando un libro, 498 00:28:32,999 --> 00:28:34,040 che ti dice qualcosa. 499 00:28:34,040 --> 00:28:36,498 Ci deve essere stato qualche motivo vogliono controllare. 500 00:28:36,498 --> 00:28:38,270 Un sacco di gente ha messo in riserva. 501 00:28:38,270 --> 00:28:42,520 >> Se è sulla lista di riserva per un sacco di classi, che ti dice qualcosa. 502 00:28:42,520 --> 00:28:45,960 Se i docenti stanno controllando lo fuori un sacco e studenti non sono, 503 00:28:45,960 --> 00:28:47,200 che mi dice qualcosa. 504 00:28:47,200 --> 00:28:49,280 Vice versa, che anche ti dice qualcosa. 505 00:28:49,280 --> 00:28:54,680 Quindi sarebbe davvero interessante inserire le informazioni là fuori e lasciare 506 00:28:54,680 --> 00:28:59,969 persone lo utilizzano per aiutarli a trovare opera all'interno del sistema bibliotecario. 507 00:28:59,969 --> 00:29:02,260 Il rovescio della medaglia di questo è ci sono alcuni gravi privacy 508 00:29:02,260 --> 00:29:07,854 preoccupazioni perché uno dei principi fondamentali della biblioteca 509 00:29:07,854 --> 00:29:10,770 è non stiamo andando da raccontare gente quello che gli altri stanno leggendo. 510 00:29:10,770 --> 00:29:17,360 E anche se si sta dicendo questo libro è stato controllato quattro volte 511 00:29:17,360 --> 00:29:20,070 in un mese particolare, che potrebbero essere utilizzati 512 00:29:20,070 --> 00:29:25,252 avere un collegamento ad un particolare persona da dati de-anonimizzazione 513 00:29:25,252 --> 00:29:26,710 e scoprire chi controllato fuori. 514 00:29:26,710 --> 00:29:30,792 Quindi il modo in cui possiamo avoid-- 515 00:29:30,792 --> 00:29:33,750 Il modo in cui possiamo cercare di estrarre un segnale dal complesso dei dati 516 00:29:33,750 --> 00:29:36,740 senza violare timori per la privacy di nessuno 517 00:29:36,740 --> 00:29:42,150 è essenzialmente guardiamo 10 anni di dati di utilizzo, - 518 00:29:42,150 --> 00:29:43,930 >> Quindi è un lungo periodo di tempo. 519 00:29:43,930 --> 00:29:50,639 >> --e dire, OK, vediamo come molte volte questo lavoro è stato utilizzato, 520 00:29:50,639 --> 00:29:52,930 e che in questo periodo di tempo, e quindi sostanzialmente 521 00:29:52,930 --> 00:29:56,300 restituire un numero, che noi chiamiamo una partitura stack, che fondamentalmente 522 00:29:56,300 --> 00:29:59,910 rappresenta quanto è stata usata. 523 00:29:59,910 --> 00:30:01,084 E che number-- 524 00:30:01,084 --> 00:30:03,250 Un sacco di diversi calcoli andare in quel numero. 525 00:30:03,250 --> 00:30:05,150 --ma è molto approssimativa metrica che ti dà 526 00:30:05,150 --> 00:30:11,300 un'idea di come il comunità può valutare che il lavoro. 527 00:30:11,300 --> 00:30:16,772 >> E così un altro tipo di ancora più concretizzati applicazione 528 00:30:16,772 --> 00:30:18,480 che prende vantaggio di questo è qualcosa 529 00:30:18,480 --> 00:30:24,000 chiamato Stacklife, che è in realtà disponibile attraverso il principale Harvard 530 00:30:24,000 --> 00:30:24,880 Portale Library. 531 00:30:24,880 --> 00:30:26,700 Così si va a library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Vedrete una serie di diversi modi di ricerca della biblioteca. 533 00:30:29,360 --> 00:30:32,300 E uno di loro è chiamato Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> E questo è un programma che esplora il contenuto della biblioteca, 535 00:30:38,980 --> 00:30:43,490 ma è completamente integrato in cima a queste API. 536 00:30:43,490 --> 00:30:46,910 Quindi non c'è roba speciale succede dietro le quinte. 537 00:30:46,910 --> 00:30:49,570 Non c'è accesso ai dati che non hai. 538 00:30:49,570 --> 00:30:54,090 Sta utilizzando le API di fornire con una navigazione completamente diverso 539 00:30:54,090 --> 00:30:55,480 esperienza. 540 00:30:55,480 --> 00:30:58,570 >> Quindi, se la ricerca di Alice nel paese delle meraviglie in questo caso, 541 00:30:58,570 --> 00:31:02,600 Ottengo un risultato che sembra questo, che è abbastanza much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> E 'molto simile a qualsiasi altra ricerca si potrebbe fare, tranne che in questo caso 544 00:31:10,870 --> 00:31:15,730 stiamo classifica gli articoli da stackscore, che vi dà 545 00:31:15,730 --> 00:31:19,850 qualche idea di quanto sia popolare questi oggetti erano all'interno della comunità. 546 00:31:19,850 --> 00:31:25,610 E così chiaramente, Alice nel paese delle meraviglie da Walt Disney è molto popolare. 547 00:31:25,610 --> 00:31:36,570 Ma si può anche vedere le prime quattro qui ci sono quelli che non si potrebbe actually-- 548 00:31:36,570 --> 00:31:39,220 >> Le cose che sono molto utilizzati, ma non si può immediatamente 549 00:31:39,220 --> 00:31:41,240 collegarsi con Alice nel paese delle meraviglie. 550 00:31:41,240 --> 00:31:44,650 Così il nostro vecchio amico The Annotated Alice è qui. 551 00:31:44,650 --> 00:31:46,350 Così posso dare un'occhiata a questo. 552 00:31:46,350 --> 00:31:52,010 E ora quello che sto cercando AT è fondamentalmente un insieme di-- 553 00:31:52,010 --> 00:31:53,760 Posso avere The Annotated Alice proprio qui. 554 00:31:53,760 --> 00:31:56,700 Ho informazioni su di esso. 555 00:31:56,700 --> 00:32:00,230 E ho anche un stackscore di, in questo caso, 26. 556 00:32:00,230 --> 00:32:03,169 E questo mi dice sorta di circa come siamo arrivati ​​a questo stackscore, 557 00:32:03,169 --> 00:32:05,835 come chi controllato fuori, come come molte volte è stato estratto, 558 00:32:05,835 --> 00:32:08,440 come facoltà o undergrads, come molte copie la biblioteca ha, 559 00:32:08,440 --> 00:32:11,300 e così via e così via. 560 00:32:11,300 --> 00:32:16,460 >> E si può anche, abbastanza interessante qui, esplorare le pile virtualmente. 561 00:32:16,460 --> 00:32:19,550 Così i dati qui, questo si sta mostrando sort 562 00:32:19,550 --> 00:32:23,547 di una rappresentazione virtuale di ciò che la forza shelf 563 00:32:23,547 --> 00:32:25,880 guardare come se si dovesse prendere tutte le aziende della biblioteca 564 00:32:25,880 --> 00:32:28,940 e metterli insieme su un ripiano infinita. 565 00:32:28,940 --> 00:32:30,990 E la cosa bella è che abbiamo can-- 566 00:32:30,990 --> 00:32:33,380 >> Prima di tutto, la metadati su questi libri 567 00:32:33,380 --> 00:32:35,627 spesso si dice quando è stato pubblicato. 568 00:32:35,627 --> 00:32:37,085 E ti dice quante pagine ha. 569 00:32:37,085 --> 00:32:38,459 Potrebbe dire le dimensioni. 570 00:32:38,459 --> 00:32:42,930 Così si può vedere che è riflesso qui in termini di dimensione dei libri. 571 00:32:42,930 --> 00:32:46,740 >> E allora possiamo usare il impilare punteggio per evidenziare 572 00:32:46,740 --> 00:32:49,170 i libri che hanno i punteggi più alti di stack. 573 00:32:49,170 --> 00:32:54,930 Quindi, se è più scura, significa che, presumibilmente, è usato più frequentemente. 574 00:32:54,930 --> 00:32:57,040 Quindi, in questo caso, sono intenzione di indovinare che questo 575 00:32:57,040 --> 00:33:03,226 è la versione di Alice nel paese delle meraviglie che è molto comunemente usato e più 576 00:33:03,226 --> 00:33:05,100 letta, la libreria ha il maggior numero di copie di. 577 00:33:05,100 --> 00:33:06,975 Quindi, se siete alla ricerca per Alice in Wonderland, 578 00:33:06,975 --> 00:33:10,220 questo potrebbe essere un buon punto di partenza. 579 00:33:10,220 --> 00:33:13,500 >> E poi qui si può anche collegare fuori a, dire, Amazon per l'acquisto del libro, 580 00:33:13,500 --> 00:33:15,182 e così via e così via. 581 00:33:15,182 --> 00:33:17,140 Il punto qui, di nuovo, non è tanto che questo 582 00:33:17,140 --> 00:33:25,030 è il modo migliore per sfogliare la libreria o lo strumento giusto per ogni occasione. 583 00:33:25,030 --> 00:33:28,400 Ma è un altro modo di farlo. 584 00:33:28,400 --> 00:33:31,359 E rendendo i dati disponibile attraverso un API, che 585 00:33:31,359 --> 00:33:34,650 è realizzato molto semplici blocchi, che ti permette di cercare il contenuto, 586 00:33:34,650 --> 00:33:39,420 si può costruire qualcosa come questo che può 587 00:33:39,420 --> 00:33:41,520 essere straordinariamente prezioso per alcune persone. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Ecco, questo è una sorta di, quanto voglio dire veramente ciò che l'API è 590 00:33:51,860 --> 00:33:56,070 e quello che espone, c'è un intero mucchio di roba dietro le quinte, che 591 00:33:56,070 --> 00:33:59,480 Sto solo andando a toccare brevemente solo perché sorta di tratta a questo 592 00:33:59,480 --> 00:34:03,720 da un angolo completamente diverso termini di come si fa una cosa del genere 593 00:34:03,720 --> 00:34:04,580 avere messo in atto? 594 00:34:04,580 --> 00:34:10,820 >> Quindi una API è uno standard interfacciarsi a tutto questo contenuto. 595 00:34:10,820 --> 00:34:13,820 Ma per arrivare lì, la prima cosa che dovevamo fare 596 00:34:13,820 --> 00:34:17,260 è stato mettere insieme informazioni di libri e immagini 597 00:34:17,260 --> 00:34:21,580 e gli strumenti di ricerca, la raccolta documento da vari sistemi di Harvard. 598 00:34:21,580 --> 00:34:23,929 Aleph, VIA, e OASIS sono i nomi dei sistemi. 599 00:34:23,929 --> 00:34:28,820 E in sostanza, vanno in un conduttura, una pipeline di elaborazione. 600 00:34:28,820 --> 00:34:33,230 >> Quindi, prima di tutto, otteniamo esportazione file da tutti questi sistemi. 601 00:34:33,230 --> 00:34:35,130 Li dividiamo in singole voci. 602 00:34:35,130 --> 00:34:39,360 Così abbiamo un file, che è un gigabyte, che ha un milione di dischi in esso. 603 00:34:39,360 --> 00:34:42,290 Così abbiamo diviso su in singole voci. 604 00:34:42,290 --> 00:34:45,374 Poi, per ogni articolo, convertiamo esso in MODS, perché alcuni di questi 605 00:34:45,374 --> 00:34:47,040 sono MODS nativamente, alcuni di loro non sono. 606 00:34:47,040 --> 00:34:49,204 Quindi noi tutti arrivare a essere nello stesso formato. 607 00:34:49,204 --> 00:34:51,120 Poi ci sono diversi passaggi di arricchimento, dove 608 00:34:51,120 --> 00:34:55,969 aggiungiamo ulteriori informazioni ai dati che era disponibile nella libreria. 609 00:34:55,969 --> 00:34:59,750 Quindi abbiamo bisogno di aggiungere, prima di tutto abbiamo quello librerie tengono. 610 00:34:59,750 --> 00:35:02,250 Attraversiamo una fase di calcolo della stackscore. 611 00:35:02,250 --> 00:35:07,112 Andiamo attraverso un altro passo l'aggiunta di più di metadati in termini 612 00:35:07,112 --> 00:35:10,730 di ciò collezioni persone avrebbe potuto aggiungere questo-- 613 00:35:10,730 --> 00:35:12,532 >> Le persone stanno creando collezioni di oggetti. 614 00:35:12,532 --> 00:35:13,990 Che collezioni vuol appartiene? 615 00:35:13,990 --> 00:35:17,220 Come sono le persone con tag questo contenuto in passato? 616 00:35:17,220 --> 00:35:20,750 Poi filtrare fuori, e si limitano i record perché, come ho già detto, 617 00:35:20,750 --> 00:35:24,120 ci sono alcuni record che, a causa di motivi di copyright, non possiamo visualizzare. 618 00:35:24,120 --> 00:35:26,700 E poi li carichiamo in qualcosa chiamato 619 00:35:26,700 --> 00:35:31,680 Solr, che non è un errore, ma è il nome di un software 620 00:35:31,680 --> 00:35:35,710 che fa di ricerca l'indicizzazione, che spinge tutta la ricerca dietro l'API. 621 00:35:35,710 --> 00:35:40,110 E poi diventa disponibile per le API e le persone possono usare. 622 00:35:40,110 --> 00:35:44,640 >> Quindi questo è come un abbastanza processo semplice. 623 00:35:44,640 --> 00:35:47,230 Una delle interessanti cose su di esso è 624 00:35:47,230 --> 00:35:50,990 che si tratta con 13 milioni di dischi 625 00:35:50,990 --> 00:35:53,820 e stiamo andando a che fare o più. 626 00:35:53,820 --> 00:36:01,260 E noi vogliamo essere in grado di gestire questi in modo relativamente veloce. 627 00:36:01,260 --> 00:36:03,630 Ci vuole molto tempo per elaborare 13 milioni di dischi. 628 00:36:03,630 --> 00:36:09,529 >> Così come questo gasdotto è set up è che si can-- 629 00:36:09,529 --> 00:36:12,070 Credo che il vantaggio del gasdotto, il problema che siamo 630 00:36:12,070 --> 00:36:15,580 cercando di risolvere qui, è che tutte le trasformazioni, tutte 631 00:36:15,580 --> 00:36:18,729 questi passi in questo gasdotto sono separabili. 632 00:36:18,729 --> 00:36:19,645 Non c'è alcuna dipendenza. 633 00:36:19,645 --> 00:36:22,146 Se sei elaborazione un record di un libro, 634 00:36:22,146 --> 00:36:24,270 non c'è alcuna dipendenza in che tra un altro libro. 635 00:36:24,270 --> 00:36:27,760 >> Che cosa possiamo fare è fondamentalmente, ad ogni passo in cantiere, 636 00:36:27,760 --> 00:36:30,470 abbiamo messo in una coda nella nuvola. 637 00:36:30,470 --> 00:36:32,250 Mi è capitato di essere su Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Quindi c'è un elenco di, dire, 10.000 articoli che 639 00:36:35,140 --> 00:36:38,100 devono essere normalizzato e convertiti in formato MODS. 640 00:36:38,100 --> 00:36:41,620 E noi spin up come molti server come vogliamo, forse 10 server. 641 00:36:41,620 --> 00:36:44,860 E ciascuno di questi server proprio siede lì, guarda in quella coda, 642 00:36:44,860 --> 00:36:46,730 vede che c'è uno che ha bisogno di elaborare, tira fuori la coda, 643 00:36:46,730 --> 00:36:48,740 processa e bastoni sulla coda successivo. 644 00:36:48,740 --> 00:36:54,200 >> E così quello che ci permette fare è applicare, in sostanza, 645 00:36:54,200 --> 00:36:58,110 tanto hardware vogliamo questo problema per un brevissimo periodo di tempo 646 00:36:58,110 --> 00:37:02,970 elaborare i dati più rapidamente possibile, che è qualcosa che solo, 647 00:37:02,970 --> 00:37:08,220 ora nel mondo del cloud computing noi can server provisioning essenzialmente 648 00:37:08,220 --> 00:37:09,890 istantaneamente, è che utile. 649 00:37:09,890 --> 00:37:12,260 Quindi non avere un Server gigante seduto intorno 650 00:37:12,260 --> 00:37:16,700 tutto il tempo per fare la trasformazione che potrebbe accadere solo una volta alla settimana. 651 00:37:16,700 --> 00:37:21,440 >> In modo che è in gran parte di esso. 652 00:37:21,440 --> 00:37:27,590 C'è documentazione disponibile per la Biblioteca Nube API Item 653 00:37:27,590 --> 00:37:31,960 a questo URL, che sarà sarà disponibile in seguito. 654 00:37:31,960 --> 00:37:36,730 E per favore andare a dare un'occhiata a per vedere se c'è qualcosa, 655 00:37:36,730 --> 00:37:37,579 avete qualche idea. 656 00:37:37,579 --> 00:37:38,120 Gioca con esso. 657 00:37:38,120 --> 00:37:38,830 Scherzare. 658 00:37:38,830 --> 00:37:42,800 E si spera si può venire con qualcosa di grande. 659 00:37:42,800 --> 00:37:44,740 Grazie. 660 00:37:44,740 --> 00:37:45,899