1
00:00:00,000 --> 00:00:11,370

2
00:00:11,370 --> 00:00:12,370
JEFFREY LICHT: Hi there.

3
00:00:12,370 --> 00:00:13,550
Sono Jeffrey Licht.

4
00:00:13,550 --> 00:00:17,890
E io sono qui per parlare con voi circa la
Harvard Biblioteca e la costruzione di domani

5
00:00:17,890 --> 00:00:20,870
oggi biblioteca, immagino.

6
00:00:20,870 --> 00:00:23,040
Così il fondo qui,
in campo per questa sessione

7
00:00:23,040 --> 00:00:26,930
è essenzialmente che c'è
un sacco di dati bibliografici

8
00:00:26,930 --> 00:00:28,400
disponibili nelle biblioteche di Harvard.

9
00:00:28,400 --> 00:00:33,434
E vi è la possibilità,
attraverso alcuni degli strumenti

10
00:00:33,434 --> 00:00:36,350
e un progetto che è in fase di sviluppo,
per avere accesso alle informazioni

11
00:00:36,350 --> 00:00:42,430
e portarlo in luoghi che il
Harvard Library non sta facendo in questo momento,

12
00:00:42,430 --> 00:00:45,460
fare cose nuove con esso, esperimento
e giocare con esso.

13
00:00:45,460 --> 00:00:52,413
>> Così il punto di ingresso in questo è un'API
chiamato Harvard Biblioteca Cloud, che

14
00:00:52,413 --> 00:00:57,650
è un server di metadati aperta,
che parlerò ora.

15
00:00:57,650 --> 00:01:02,595
Quindi lo sfondo è che c'è una
sacco di roba in biblioteca di Harvard.

16
00:01:02,595 --> 00:01:07,150
Abbiamo oltre 13 milioni bibliografica
record, milioni di immagini,

17
00:01:07,150 --> 00:01:11,090
e migliaia di strumenti di ricerca, che
sono essenzialmente documenti che descrivono

18
00:01:11,090 --> 00:01:15,500
collezioni, dicendo che cosa
è in essi, scatole di carte

19
00:01:15,500 --> 00:01:21,080
e così via che rappresentano più
un milione di singoli documenti.

20
00:01:21,080 --> 00:01:24,290
E c'è anche un sacco di
informazioni che la libreria ha

21
00:01:24,290 --> 00:01:28,180
su come il contenuto viene utilizzato tale
possa essere di interesse per le persone

22
00:01:28,180 --> 00:01:32,400
che potrebbe desiderare di lavorare con lui.

23
00:01:32,400 --> 00:01:36,150
>> Quindi tutte le informazioni
la biblioteca ha metadati.

24
00:01:36,150 --> 00:01:39,500
Così metadati sono dati sui dati.

25
00:01:39,500 --> 00:01:42,070
Quindi, quando si parla di
le informazioni che è

26
00:01:42,070 --> 00:01:44,890
disponibile nella libreria
nuvola che è disponibile,

27
00:01:44,890 --> 00:01:47,760
non è necessariamente
i documenti reali

28
00:01:47,760 --> 00:01:53,060
stessi, non necessariamente il pieno
testo di libri o le immagini complete,

29
00:01:53,060 --> 00:01:54,890
però che in realtà può essere il caso.

30
00:01:54,890 --> 00:01:57,550
Ma è davvero
informazioni sui dati.

31
00:01:57,550 --> 00:02:00,909
>> Così si può pensare di catalogazione
informazioni, numeri di chiamata, i soggetti,

32
00:02:00,909 --> 00:02:02,700
il numero di copie del
libro ci sono, cosa

33
00:02:02,700 --> 00:02:06,380
sono le edizioni, che cosa sono il
formati, gli autori, e così via.

34
00:02:06,380 --> 00:02:12,250
Quindi c'è un sacco di informazioni su
le informazioni nella collezione che,

35
00:02:12,250 --> 00:02:14,400
in sé, è sorta di intrinsecamente utile.

36
00:02:14,400 --> 00:02:19,230
E anche se siete
fare ricerca in profondità,

37
00:02:19,230 --> 00:02:25,160
si vuole, ovviamente, per arrivare al reale
accontentarsi e guardare i dati,

38
00:02:25,160 --> 00:02:30,140
i metadati è utile in termini di
sia analizzando il corpus nel suo complesso,

39
00:02:30,140 --> 00:02:33,870
come quello che le cose sono nella collezione.

40
00:02:33,870 --> 00:02:35,520
Come si relazionano?

41
00:02:35,520 --> 00:02:39,482
Ti aiuta davvero trovare altre cose,
che è davvero lo scopo principale di esso.

42
00:02:39,482 --> 00:02:41,190
Il punto di
metadati e il catalogo

43
00:02:41,190 --> 00:02:43,230
è quello di aiutare a trovare tutti
le informazioni che è

44
00:02:43,230 --> 00:02:46,590
disponibile all'interno delle collezioni.

45
00:02:46,590 --> 00:02:53,690
>> Quindi questo è un esempio di metadata
per un libro nella biblioteca di Harvard.

46
00:02:53,690 --> 00:02:56,370
Quindi è lì.

47
00:02:56,370 --> 00:02:59,850
E si può vedere che è
in realtà moderatamente complesso.

48
00:02:59,850 --> 00:03:04,610
E parte del valore dei metadati
all'interno del sistema Harvard libreria

49
00:03:04,610 --> 00:03:09,320
è che è stato sorta
di costruito da catalogatori

50
00:03:09,320 --> 00:03:12,720
e assemblato da persone che chiedono
un sacco di esperienza e abilità

51
00:03:12,720 --> 00:03:20,030
e pensato ad esso nel tempo,
che ha un sacco di valore.

52
00:03:20,030 --> 00:03:25,450
>> Quindi, se si dà un'occhiata a questo record
The Annotated Alice, si può scoprire

53
00:03:25,450 --> 00:03:32,590
hai il titolo, che l'ha scritta, la
autore e tutti i diversi soggetti

54
00:03:32,590 --> 00:03:35,380
che le persone hanno catalogato in.

55
00:03:35,380 --> 00:03:40,110
E si può vedere c'è anche, in
Oltre a un sacco di buone informazioni

56
00:03:40,110 --> 00:03:42,852
qui, c'è qualche doppioni.

57
00:03:42,852 --> 00:03:45,560
C'è un sacco di complessità che è
riflessa attraverso i metadati

58
00:03:45,560 --> 00:03:46,300
che si ha.

59
00:03:46,300 --> 00:03:50,320
>> Quindi un titolo di questo libro è
Le avventure di Alice nel paese delle meraviglie.

60
00:03:50,320 --> 00:03:53,880
Quindi questo è annotata
versione di quel libro.

61
00:03:53,880 --> 00:03:56,380
Ma è anche chiamato The Annotated
Alice, Le avventure di Alice

62
00:03:56,380 --> 00:03:58,570
in Wonderland perché
è qualcosa che

63
00:03:58,570 --> 00:04:00,430
Martin Gardner ha scritto
e annotato il libro.

64
00:04:00,430 --> 00:04:03,369
E ci sono un sacco di grandi informazioni
di puzzle logici e cose

65
00:04:03,369 --> 00:04:05,410
all'interno di Alice che si
probabilmente non sapere.

66
00:04:05,410 --> 00:04:07,000
Quindi, si dovrebbe andare leggerlo.

67
00:04:07,000 --> 00:04:11,940
>> Ma si può vedere c'è
un sacco di dettagli qui,

68
00:04:11,940 --> 00:04:15,340
identificatori, quando
è stato creato, da dove proviene,

69
00:04:15,340 --> 00:04:17,420
in termini di Harvard
sistema, e così via.

70
00:04:17,420 --> 00:04:20,350
Quindi questo è un esempio di
il tipo di metadati

71
00:04:20,350 --> 00:04:24,340
che si potrebbe vedere di un libro in
la collezione Harvard Library.

72
00:04:24,340 --> 00:04:26,680
>> Questo è qualcosa di completamente diverso.

73
00:04:26,680 --> 00:04:32,610
Quindi non vi è un sistema chiamato
VIA Harvard, che fondamentalmente

74
00:04:32,610 --> 00:04:39,990
è catalogare immagini e oggetti d'arte
e le cose visive tutta Harvard,

75
00:04:39,990 --> 00:04:44,010
e l'aggiunta di alcuni metadati
a loro, loro classificazione,

76
00:04:44,010 --> 00:04:49,200
e, in alcuni casi, fornendo
piccole immagini in miniatura

77
00:04:49,200 --> 00:04:51,250
che si può prendere un
guardare se lo desiderate.

78
00:04:51,250 --> 00:04:54,240
>> Quindi questo è un esempio di
metadati che avete per un piatto

79
00:04:54,240 --> 00:04:57,840
da, presumibilmente, Alice nel paese delle meraviglie.

80
00:04:57,840 --> 00:05:00,499
E si può vedere c'è
meno metadati qui.

81
00:05:00,499 --> 00:05:02,040
E 'solo un diverso tipo di oggetto.

82
00:05:02,040 --> 00:05:03,425
E così ci sono meno informazioni.

83
00:05:03,425 --> 00:05:07,790
>> Avete soprattutto il fatto che, una chiamata
numero, in sostanza, che creato, -

84
00:05:07,790 --> 00:05:10,410
>> Non sappiamo quando è stato creato.

85
00:05:10,410 --> 00:05:13,320
>> --e un titolo.

86
00:05:13,320 --> 00:05:14,300
>> Un altro esempio.

87
00:05:14,300 --> 00:05:16,380
Questo è uno strumento di ricerca.

88
00:05:16,380 --> 00:05:19,030
Quindi c'è una collezione di Lewis
Carte di Carroll a Harvard.

89
00:05:19,030 --> 00:05:23,601
Quindi questo descrive cosa
è in quella collezione.

90
00:05:23,601 --> 00:05:26,100
Così qualcuno ha attraversato e
guardato attraverso tutte le caselle

91
00:05:26,100 --> 00:05:32,220
e catalogato che, data una certa priorità bassa,
scritto un riassunto di ciò che è qui.

92
00:05:32,220 --> 00:05:35,290
E se si dovesse guardare
oltre a questo, questo

93
00:05:35,290 --> 00:05:39,620
va avanti per pagine e pagine
e le pagine, ma vi dirà

94
00:05:39,620 --> 00:05:41,860
quali lettere e ciò che
date da quello scatole

95
00:05:41,860 --> 00:05:44,289
esistito in tutta la collezione.

96
00:05:44,289 --> 00:05:46,330
Ma questa è una cosa
che, se siete a Harvard,

97
00:05:46,330 --> 00:05:50,720
si può andare e realmente guardare fisicamente
e, presumibilmente, dare un'occhiata a.

98
00:05:50,720 --> 00:05:53,440
>> Quindi questo è tutto fantastico.

99
00:05:53,440 --> 00:05:54,450
Di utile questa metadati.

100
00:05:54,450 --> 00:05:56,327
E 'nel sistema Harvard Library.

101
00:05:56,327 --> 00:05:58,910
Ci sono strumenti online in cui si
può andare e dare un'occhiata a esso,

102
00:05:58,910 --> 00:05:59,993
e vedere, e cercarlo.

103
00:05:59,993 --> 00:06:02,810
E si può tagliare e dadi
in molti modi diversi.

104
00:06:02,810 --> 00:06:06,920
>> Ma è davvero solo se
sei un essere umano seduto

105
00:06:06,920 --> 00:06:12,600
al vostro browser web o qualcosa o
il telefono e la navigazione attraverso di essa.

106
00:06:12,600 --> 00:06:16,730
Non è davvero disponibile in
qualsiasi tipo di moda utilizzabile

107
00:06:16,730 --> 00:06:19,520
per altri sistemi o
altri computer da utilizzare,

108
00:06:19,520 --> 00:06:21,500
non con sistemi all'interno
la Biblioteca di Harvard,

109
00:06:21,500 --> 00:06:24,890
ma i sistemi nel mondo esterno,
solo altre persone in generale.

110
00:06:24,890 --> 00:06:30,210
Quindi la domanda è, come possiamo
renderlo disponibile per i computer

111
00:06:30,210 --> 00:06:33,560
di modo che possiamo fare di più interessante
roba con esso non solo

112
00:06:33,560 --> 00:06:36,550
browsing noi stessi?

113
00:06:36,550 --> 00:06:39,766
>> Allora perché si vuole fare questo?

114
00:06:39,766 --> 00:06:41,140
Ci sono un sacco di possibilità.

115
00:06:41,140 --> 00:06:43,980
Uno è che si potrebbe costruire un completamente
diverso modo di navigazione

116
00:06:43,980 --> 00:06:46,962
il contenuto che è disponibile
attraverso le biblioteche di Harvard.

117
00:06:46,962 --> 00:06:48,670
Ti faccio vedere uno
più tardi chiamato Stacklife,

118
00:06:48,670 --> 00:06:52,440
che ha un completamente diverso
assumere ricerca di contenuti.

119
00:06:52,440 --> 00:06:54,560
>> Si potrebbe costruire un motore di raccomandazione.

120
00:06:54,560 --> 00:06:57,955
Così Harvard Library non è in
attività di dire, ti piace questo libro.

121
00:06:57,955 --> 00:07:01,080
Poi vai dare un'occhiata a questi 17 altri
libri che si può essere interessati a

122
00:07:01,080 --> 00:07:03,200
o questi 18 altre immagini.

123
00:07:03,200 --> 00:07:06,040
Ma che di certo poteva
essere una caratteristica importante.

124
00:07:06,040 --> 00:07:09,272
E dato i metadati, può
possibile mettere che insieme.

125
00:07:09,272 --> 00:07:11,980
Si potrebbe avere esigenze diverse a
termini di ricerca del contenuto,

126
00:07:11,980 --> 00:07:16,200
come forse nonostante gli strumenti che
sono disponibili che la biblioteca fa

127
00:07:16,200 --> 00:07:18,450
disponibile, si potrebbe desiderare
per cercare in modo diverso

128
00:07:18,450 --> 00:07:21,847
o ottimizzare per un particolare caso d'uso,
che forse è molto specializzato.

129
00:07:21,847 --> 00:07:23,930
Forse ci sono solo pochi
persone nel mondo che

130
00:07:23,930 --> 00:07:25,846
vuole cercare il contenuto
in questo modo, ma

131
00:07:25,846 --> 00:07:28,985
sarebbe fantastico se ci
potrebbe lasciarli fare quello.

132
00:07:28,985 --> 00:07:30,860
C'è un sacco di analisi
in solo come la gente

133
00:07:30,860 --> 00:07:33,860
utilizzare il contenuto che sarebbe davvero
interessante conoscere, scoprire

134
00:07:33,860 --> 00:07:37,280
quali libri vengono utilizzati,
ciò che non sono, e così via.

135
00:07:37,280 --> 00:07:41,670
E poi ci sono un sacco di
opportunità di integrare

136
00:07:41,670 --> 00:07:45,210
altre informazioni
che è là fuori sul web.

137
00:07:45,210 --> 00:07:46,880
Così abbiamo have--

138
00:07:46,880 --> 00:07:50,260
>> Ad esempio, ha NPR
un segmento recensione del libro,

139
00:07:50,260 --> 00:07:53,090
dove intervistano
autori di libri.

140
00:07:53,090 --> 00:07:56,837
E così sarebbe bello se tu fossi
cercare un libro in Harvard

141
00:07:56,837 --> 00:07:59,670
Biblioteca, e lei dice, OK, non c'è
stato un colloquio con l'autore.

142
00:07:59,670 --> 00:08:00,878
Andiamo a dare un'occhiata a questo.

143
00:08:00,878 --> 00:08:05,461
O c'è una pagina di Wikipedia, come
autorevole, riferimento scientifica

144
00:08:05,461 --> 00:08:07,710
su questo libro che si
potrebbe voler dare un'occhiata a.

145
00:08:07,710 --> 00:08:12,600
>> Ci sono questi tipi di fonti
sparsi in tutto il web.

146
00:08:12,600 --> 00:08:16,555
E raggruppandoli
potrebbe essere un grande uso

147
00:08:16,555 --> 00:08:18,930
qualcuno guardando la
contenuti, alla ricerca di qualcosa.

148
00:08:18,930 --> 00:08:20,180
Ma non è anche il
genere di cose che ci si

149
00:08:20,180 --> 00:08:23,205
vuole la biblioteca sia responsabile
per andare verso il basso e la caccia

150
00:08:23,205 --> 00:08:25,455
tutte queste diverse fonti
e collegare insieme

151
00:08:25,455 --> 00:08:28,920
perché sono in continuo cambiamento.

152
00:08:28,920 --> 00:08:33,570
E quello che pensano sia importante Maggio
non essere ciò che pensi sia importante.

153
00:08:33,570 --> 00:08:36,929
>> E ancora di più, in fondo c'è un
sacco di cose che non abbiamo ancora pensato.

154
00:08:36,929 --> 00:08:42,222
Quindi, se siamo in grado di aprire questo, più
persone oltre a una mezza dozzina,

155
00:08:42,222 --> 00:08:45,174
che stanno guardando questo su un
base regolare può pensare di idee

156
00:08:45,174 --> 00:08:47,340
e massaggiare i dati, e
fanno quello che vogliono con esso.

157
00:08:47,340 --> 00:08:49,920

158
00:08:49,920 --> 00:08:54,045
>> Così vogliamo fare questo
i dati a disposizione del mondo.

159
00:08:54,045 --> 00:08:55,670
Beh, ci sono un paio di complicazioni.

160
00:08:55,670 --> 00:08:58,540
Uno è che questi metadati
è in sistemi diversi.

161
00:08:58,540 --> 00:09:01,110
E 'in diversi formati.

162
00:09:01,110 --> 00:09:04,719
Quindi c'è una certa normalizzazione
che deve accadere,

163
00:09:04,719 --> 00:09:08,010
che normalizzazione essendo il processo di
portare le cose da diversi formati

164
00:09:08,010 --> 00:09:12,940
e mappatura di un singolo formato
in modo che i campi saranno corrispondere.

165
00:09:12,940 --> 00:09:15,160
>> Ci sono alcune restrizioni di copyright.

166
00:09:15,160 --> 00:09:21,010
Stranamente, la voce di catalogo
su un libro è responsabile per il copyright.

167
00:09:21,010 --> 00:09:24,060
Quindi, anche se è solo
informazioni derivate dal libro,

168
00:09:24,060 --> 00:09:25,330
è coperti da copyright.

169
00:09:25,330 --> 00:09:28,400
E a seconda di chi in realtà
creato che i metadati,

170
00:09:28,400 --> 00:09:32,175
ci possono essere restrizioni su chi
può distribuirlo, a-- simile

171
00:09:32,175 --> 00:09:33,402
>> Non lo so.

172
00:09:33,402 --> 00:09:36,110
Si può o non può essere simile a
la situazione i testi delle canzoni di,

173
00:09:36,110 --> 00:09:36,610
per esempio.

174
00:09:36,610 --> 00:09:38,560
Così sappiamo tutti come quello pentole che fuori.

175
00:09:38,560 --> 00:09:40,450
Quindi è necessario per aggirare questo problema.

176
00:09:40,450 --> 00:09:44,910
>> E poi un altro pezzo è
che c'è un sacco di dati.

177
00:09:44,910 --> 00:09:52,420
Quindi, se io sono una persona che vuole lavorare
con i dati o ha una grande idea,

178
00:09:52,420 --> 00:09:55,350
si tratta di 14 milioni
record sul mio portatile

179
00:09:55,350 --> 00:09:57,487
potrebbe essere problematico
e di difficile gestione.

180
00:09:57,487 --> 00:09:59,320
Così vogliamo ridurre
le barriere per le persone

181
00:09:59,320 --> 00:10:02,130
essere in grado di lavorare con i dati.

182
00:10:02,130 --> 00:10:07,880
>> Così l'approccio che si spera indirizzi
tutte queste preoccupazioni è due parti.

183
00:10:07,880 --> 00:10:11,770
Si sta costruendo una piattaforma che prende
i dati da tutte queste fonti disparate

184
00:10:11,770 --> 00:10:14,350
e si aggrava, normalizza,
arricchisce, e marche

185
00:10:14,350 --> 00:10:16,650
è disponibile in un unico luogo.

186
00:10:16,650 --> 00:10:20,950
E rende disponibile tramite
una API pubblica che le persone possono chiamare.

187
00:10:20,950 --> 00:10:24,430
>> Quindi una API è un'applicazione
Programming Interface.

188
00:10:24,430 --> 00:10:28,930
E si riferisce essenzialmente a un
endpoint che un sistema o una tecnologia

189
00:10:28,930 --> 00:10:31,720
può chiamare e ottenere i dati di nuovo in
un formato strutturato in modo

190
00:10:31,720 --> 00:10:32,900
che può essere utilizzato.

191
00:10:32,900 --> 00:10:36,060
Quindi non è dipendente
di andare a un sito web

192
00:10:36,060 --> 00:10:37,970
e raschiando dati off
di esso, per esempio.

193
00:10:37,970 --> 00:10:40,690

194
00:10:40,690 --> 00:10:45,010
>> Quindi questa è la home page di
la Biblioteca Nube API Item,

195
00:10:45,010 --> 00:10:47,220
che è essenzialmente la sua versione a due.

196
00:10:47,220 --> 00:10:50,130
Quindi è la seconda iterazione
cercando di rendere tutti questi dati

197
00:10:50,130 --> 00:10:53,280
disposizione del mondo.

198
00:10:53,280 --> 00:10:59,560
Quindi è
http://api.lib.harvard.edu/v2/items.

199
00:10:59,560 --> 00:11:03,830
E proprio per rompere questo giù
un po ', cosa significa

200
00:11:03,830 --> 00:11:06,115
è che questa è la versione due API.

201
00:11:06,115 --> 00:11:08,490
C'è una versione di uno, che
Non ho intenzione di parlare di.

202
00:11:08,490 --> 00:11:09,750
Ma vi è una versione uno.

203
00:11:09,750 --> 00:11:14,740
>> E se si sta chiamando questo
API, hai trovato oggetti.

204
00:11:14,740 --> 00:11:20,640
E parte dell'idea di un
API è una API è un contratto.

205
00:11:20,640 --> 00:11:23,440
E 'qualcosa che è
non cambierà.

206
00:11:23,440 --> 00:11:24,850
Così, per esempio, -

207
00:11:24,850 --> 00:11:27,410
>> E la ragione è che se io
costruire un qualche tipo di sistema che

208
00:11:27,410 --> 00:11:33,210
sta per utilizzare una API biblioteca nuvola
per visualizzare libri o aiutare le persone a trovare

209
00:11:33,210 --> 00:11:36,190
informazioni in modo unico,
ciò che non vogliamo che accada

210
00:11:36,190 --> 00:11:38,940
è per noi di andare cambiare il modo
che API funziona, e improvvisamente

211
00:11:38,940 --> 00:11:41,340
tutto rompe sul lato utente finale.

212
00:11:41,340 --> 00:11:46,710
Quindi, parte di se stai facendo API
disposizione del mondo, è

213
00:11:46,710 --> 00:11:49,396
buona norma mettere un
numero di versione in modo persone

214
00:11:49,396 --> 00:11:51,020
sanno quale versione hanno a che fare con.

215
00:11:51,020 --> 00:11:54,300
>> Quindi, se decidiamo troviamo un modo migliore
di rendere disponibili queste informazioni,

216
00:11:54,300 --> 00:11:57,295
potremmo cambiare la situazione di
chiamare quella versione tre.

217
00:11:57,295 --> 00:11:59,920
Così tutti coloro che sono ancora utilizzando
versione a due, che sarà ancora lavoro.

218
00:11:59,920 --> 00:12:03,490
Ma la versione a tre sarebbe
avere tutte le novità.

219
00:12:03,490 --> 00:12:06,680

220
00:12:06,680 --> 00:12:09,210
>> Quindi questo è un API, ma questo
davvero sembra un URL.

221
00:12:09,210 --> 00:12:11,680
E così ciò che questo è un
esempio di è ciò che è

222
00:12:11,680 --> 00:12:16,615
chiamato API riposo, che è disponibile
sopra solo una connessione web regolare.

223
00:12:16,615 --> 00:12:19,680
E si può effettivamente
andare in un browser.

224
00:12:19,680 --> 00:12:28,550
>> Così qui Ho appena aperto Firefox e
andato a api.lib.harvard.edu/v2/items.

225
00:12:28,550 --> 00:12:31,560
E così quello che ottengo qui è
fondamentalmente la prima pagina

226
00:12:31,560 --> 00:12:34,740
dei risultati dall'intera
set di elementi che abbiamo.

227
00:12:34,740 --> 00:12:37,460
Ed è qui, in formato XML.

228
00:12:37,460 --> 00:12:40,130

229
00:12:40,130 --> 00:12:42,210
Ed è stato anche
prettified da Firefox.

230
00:12:42,210 --> 00:12:45,850
In pratica non ha tutti questi
poco espansione e amministrazione

231
00:12:45,850 --> 00:12:47,880
doohickeys qui.

232
00:12:47,880 --> 00:12:52,520
Questa è una sorta di bello
Versione modo di vedere le cose.

233
00:12:52,520 --> 00:12:57,040
>> Ma che cosa questo ci dice è
Ho chiesto a tutti gli elementi.

234
00:12:57,040 --> 00:13:03,120
Quindi ci sono 13.289.475 articoli.

235
00:13:03,120 --> 00:13:06,150
E sto guardando la prima
10, a partire dalla posizione di zero

236
00:13:06,150 --> 00:13:09,760
perché in informatica
partiamo sempre a zero.

237
00:13:09,760 --> 00:13:15,150
E quello che ho qui, se ho appena crollare
questo, vedrete che ho 10 articoli.

238
00:13:15,150 --> 00:13:20,410

239
00:13:20,410 --> 00:13:25,210
>> E se prendo uno sguardo a un oggetto, posso
vedo che ho informazioni su di esso.

240
00:13:25,210 --> 00:13:27,400
E questo è quello che si chiama in forma MODS.

241
00:13:27,400 --> 00:13:30,860
E così ho intenzione di cambiare
di nuovo qui per un momento.

242
00:13:30,860 --> 00:13:33,750
OK.

243
00:13:33,750 --> 00:13:37,447
>> Quindi cerchiamo di cercare qualcosa in
specifica perché il primo elemento che

244
00:13:37,447 --> 00:13:40,030
succede a venire quando si guarda
attraverso l'intera collezione

245
00:13:40,030 --> 00:13:41,750
è, per definizione, casuale.

246
00:13:41,750 --> 00:13:44,550
Così diamo un'occhiata per alcune ciambelle.

247
00:13:44,550 --> 00:13:46,830
Oh.

248
00:13:46,830 --> 00:13:49,190
>> OK.

249
00:13:49,190 --> 00:13:49,940
Così ciambelle.

250
00:13:49,940 --> 00:13:55,360
Così abbiamo trovato ci sono 80 articoli in
la collezione che fanno riferimento ciambelle.

251
00:13:55,360 --> 00:13:57,150
Stiamo guardando i primi 10 di loro.

252
00:13:57,150 --> 00:14:01,890
Ora, si può vedere qui il modo in cui
Ho detto che sto cercando ciambelle,

253
00:14:01,890 --> 00:14:04,400
Ho appena aggiunto qualcosa
la stringa di query dell'URL.

254
00:14:04,400 --> 00:14:09,680
Così q uguale ciambelle, che è possibile
vedere un po 'più facile qui.

255
00:14:09,680 --> 00:14:12,131
>> E questo significa non c'è
una specifica per l'API, che

256
00:14:12,131 --> 00:14:13,880
definisce ciò che tutti
questi parametri significano.

257
00:14:13,880 --> 00:14:17,150
E questo significa che stiamo andando a
cercare tutto per ciambelle.

258
00:14:17,150 --> 00:14:24,910
>> Quindi il primo articolo qui abbiamo
si può vedere il titolo è Donuts,

259
00:14:24,910 --> 00:14:29,310
e vi è un sottotitolo chiamato An
Passione americano, che è, credo,

260
00:14:29,310 --> 00:14:31,610
appropriata.

261
00:14:31,610 --> 00:14:36,134
Ci sono un sacco di different--

262
00:14:36,134 --> 00:14:38,050
Una volta arrivati ​​al punto
di ottenere dati,

263
00:14:38,050 --> 00:14:41,020
ci sono molti differenti
formati che si possono ottenere in.

264
00:14:41,020 --> 00:14:44,050
E ci sono diversi punti di forza
e debolezze per tutti.

265
00:14:44,050 --> 00:14:49,000
Quindi questo, si può vedere
qui, questa forma è molto ricco.

266
00:14:49,000 --> 00:14:51,946
Ed è standardizzato.

267
00:14:51,946 --> 00:14:55,040
>> Quindi c'è un titolo specifico
campo, un campo sottotitolo.

268
00:14:55,040 --> 00:14:58,950
C'è un supplente
titolo, una passione americana.

269
00:14:58,950 --> 00:15:01,650
Vi è il nome associato con esso.

270
00:15:01,650 --> 00:15:03,120
Tipo della risorsa è il testo.

271
00:15:03,120 --> 00:15:06,070
C'è un sacco di informazioni
qui in questo formato.

272
00:15:06,070 --> 00:15:09,480
>> Ma ci sono un sacco
di diversi formati.

273
00:15:09,480 --> 00:15:11,920
Così che cosa siamo stati solo
guardando è un formato

274
00:15:11,920 --> 00:15:17,700
chiamati MODS, che sta per
Metadata Object Description Service,

275
00:15:17,700 --> 00:15:18,250
potenzialmente.

276
00:15:18,250 --> 00:15:23,030
In realtà sono non del tutto sicuro della
S. Ma è un formato piuttosto complesso.

277
00:15:23,030 --> 00:15:24,240
E 'il formato di default.

278
00:15:24,240 --> 00:15:30,260
>> Ma è quella che mantiene
la ricchezza di tutti i dati

279
00:15:30,260 --> 00:15:33,820
che la biblioteca è perché
è molto vicino a quello che

280
00:15:33,820 --> 00:15:35,110
la libreria utilizza internamente.

281
00:15:35,110 --> 00:15:39,030
E 'uno standard che è
utilizzato in tutto il paese,

282
00:15:39,030 --> 00:15:40,944
in tutto il mondo nelle biblioteche accademiche.

283
00:15:40,944 --> 00:15:42,110
Ed è molto interoperabile.

284
00:15:42,110 --> 00:15:44,852
Quindi, se hai un documento
cioè in formato MODS,

285
00:15:44,852 --> 00:15:47,560
si può dare che a qualcun altro
sistemi la cui capiscono MODS,

286
00:15:47,560 --> 00:15:48,518
e possono importarlo.

287
00:15:48,518 --> 00:15:50,840
Quindi è uno standard.

288
00:15:50,840 --> 00:15:54,250
È molto ben definito, molto preciso.

289
00:15:54,250 --> 00:15:58,980
E questo è ciò che rende
interoperabili perché se qualcuno dice,

290
00:15:58,980 --> 00:16:04,930
questo è il titolo alternativa di un
disco, tutti sanno che cosa significa.

291
00:16:04,930 --> 00:16:07,740
Il rovescio della medaglia, è molto complicato.

292
00:16:07,740 --> 00:16:13,160
>> Quindi, se si dà un'occhiata
a questo record qui,

293
00:16:13,160 --> 00:16:15,320
se voglio solo per ottenere il
titolo di questo documento,

294
00:16:15,320 --> 00:16:21,150
di questo libro, che è probabilmente Donuts,
Una passione americana, analisi fuori

295
00:16:21,150 --> 00:16:22,940
è un po 'coinvolto.

296
00:16:22,940 --> 00:16:27,380
Mentre c'è un altro
formato chiamato Dublin Core,

297
00:16:27,380 --> 00:16:29,730
che è un formato molto, molto semplice.

298
00:16:29,730 --> 00:16:33,764
>> E così si vede qui, non c'è
titolo, sottotitolo, titolo alternativo.

299
00:16:33,764 --> 00:16:35,930
C'è solo il titolo,
Donuts, una passione americana,

300
00:16:35,930 --> 00:16:38,780
e un altro titolo, passione americana.

301
00:16:38,780 --> 00:16:42,907
Così, quando si sta guardando quale forma
si desidera ottenere i dati fuori,

302
00:16:42,907 --> 00:16:44,740
molto dipende da come
avete intenzione di usarlo.

303
00:16:44,740 --> 00:16:46,573
Si sta utilizzando per
interoperabilità o si

304
00:16:46,573 --> 00:16:49,970
vogliono qualcosa di semplice che
potrebbe essere più facile lavorare con?

305
00:16:49,970 --> 00:16:56,002
>> Il rovescio della medaglia, un sacco di
dettagli vengono sorta di schiacciata verso il basso.

306
00:16:56,002 --> 00:16:58,460
Si potrebbe perdere le sfumature
ciò che un particolare mezzo di campo

307
00:16:58,460 --> 00:17:02,960
se hai a che fare con Dublin Core,
che non si otterrebbe con MODS.

308
00:17:02,960 --> 00:17:06,462
Quindi questi sono due dei formati
si può uscire dalla API.

309
00:17:06,462 --> 00:17:08,920
E in fondo, stiamo mantenendo
dietro le quinte in MODS.

310
00:17:08,920 --> 00:17:14,179
Ma siamo in grado di darvi in ​​MODS e
Dublin Core e quant'altro pure.

311
00:17:14,179 --> 00:17:16,470
L'altra considerazione quando
cerchi nei dati

312
00:17:16,470 --> 00:17:21,210
è che si può ottenere sia come JSON, che
sta per JavaScript Object Notation,

313
00:17:21,210 --> 00:17:24,720
o XML, che sta per
Extensible Markup Language.

314
00:17:24,720 --> 00:17:30,080
E queste rappresentazioni di dati sia
hanno esattamente gli stessi dati, esattamente

315
00:17:30,080 --> 00:17:31,080
gli stessi campi.

316
00:17:31,080 --> 00:17:33,644
Ma sono solo
sintatticamente diverso.

317
00:17:33,644 --> 00:17:40,401
>> Quindi questo è a--

318
00:17:40,401 --> 00:17:41,400
Beh, diciamo solo passare.

319
00:17:41,400 --> 00:17:47,490
Quindi questa è la nostra query per
ciambelle in formato XML.

320
00:17:47,490 --> 00:17:53,470
Se ho solo passare questo per essere JSON,
Posso vedere un aspetto diverso.

321
00:17:53,470 --> 00:17:58,580
Così ora è lo stesso contenuto,
ma una struttura diversa.

322
00:17:58,580 --> 00:18:00,080
Ci sono meno parentesi angolari.

323
00:18:00,080 --> 00:18:02,530
C'è meno prolisso.

324
00:18:02,530 --> 00:18:06,440
>> E questo è un formato che, se
stanno lavorando in ambiente web,

325
00:18:06,440 --> 00:18:09,680
è più probabile andando
a voler utilizzare perché uno

326
00:18:09,680 --> 00:18:12,630
delle cose belle su JSON è
è compatibile con JavaScript.

327
00:18:12,630 --> 00:18:17,680
Quindi se sto scrivendo web app, posso tirare
in JSON e solo lavorare con lui direttamente.

328
00:18:17,680 --> 00:18:20,187
Mentre con XML, è un
po 'più complicato.

329
00:18:20,187 --> 00:18:21,520
Quindi, di nuovo, questi sono entrambi utili.

330
00:18:21,520 --> 00:18:26,387
Hanno appena sono diversi casi di utilizzo
in cui le persone potrebbero voler utilizzarli.

331
00:18:26,387 --> 00:18:26,886
OK.

332
00:18:26,886 --> 00:18:29,810

333
00:18:29,810 --> 00:18:31,680
Ma torniamo al API.

334
00:18:31,680 --> 00:18:32,900
Così possiamo cercare for--

335
00:18:32,900 --> 00:18:36,220
>> Io do un esempio di
ricerca di ciambelle.

336
00:18:36,220 --> 00:18:39,330
Possiamo anche cercare solo in un
particolare campo all'interno qui.

337
00:18:39,330 --> 00:18:41,310
Così, invece di cercare
l'intero record,

338
00:18:41,310 --> 00:18:43,870
Posso solo cercare il campo del titolo.

339
00:18:43,870 --> 00:18:48,810
E così ora ci sono 25 cose che
avere ciambelle nel titolo, uno dei quali

340
00:18:48,810 --> 00:18:52,430
è sul ripristino
zone umide nella gestione

341
00:18:52,430 --> 00:18:54,990
del foro della ciambella
programma, che è probabilmente

342
00:18:54,990 --> 00:18:58,970
non necessariamente quello che stiamo cercando
per quando siamo alla ricerca di ciambelle.

343
00:18:58,970 --> 00:19:02,790

344
00:19:02,790 --> 00:19:05,490
>> È anche possibile, quando si è
che fare con un API--

345
00:19:05,490 --> 00:19:08,827
>> Parte di avere una API sta dando
persone l'accesso a grandi insiemi di dati.

346
00:19:08,827 --> 00:19:11,410
E ci sono un paio diverso
strumenti è possibile utilizzare per farlo.

347
00:19:11,410 --> 00:19:14,170
Uno è, molto semplicemente, è
possibile scorrere i dati.

348
00:19:14,170 --> 00:19:17,340
Quindi, proprio come se si fa una query
attraverso un'interfaccia web,

349
00:19:17,340 --> 00:19:19,470
si può guardare pagina uno,
pagina due, pagina tre.

350
00:19:19,470 --> 00:19:22,040
Si può fare lo stesso
cosa attraverso l'API.

351
00:19:22,040 --> 00:19:24,150
Hai solo bisogno di essere
esplicito come lo fai.

352
00:19:24,150 --> 00:19:29,511
>> Così, per esempio, se sto cercando
alla mia prima domanda qui,

353
00:19:29,511 --> 00:19:32,510
dove sto facendo una ricerca di cose
con ciambelle nel titolo, posso dire,

354
00:19:32,510 --> 00:19:35,415
e limite uguale 20, il che significa
darmi i primi 20 record, non

355
00:19:35,415 --> 00:19:38,540
il primo 10, che è quella predefinita,
perché voglio guardare 20 alla volta.

356
00:19:38,540 --> 00:19:43,435
Oppure posso dire, impostare il
avviare pari a 20 e limite

357
00:19:43,435 --> 00:19:47,150
uguale 20, che darà
Mi record da 21 a 40.

358
00:19:47,150 --> 00:19:52,680
>> Quindi credo che la cosa
togliere ecco

359
00:19:52,680 --> 00:19:57,290
che stiamo usando le stringhe di query
per impostare i parametri della query.

360
00:19:57,290 --> 00:20:02,760
E ti permette di controllo
quello che si ottiene indietro.

361
00:20:02,760 --> 00:20:05,980
>> Un altro strumento che è possibile utilizzare, -

362
00:20:05,980 --> 00:20:09,250
>> E questo è davvero utile in
termini di esplorare i dati.

363
00:20:09,250 --> 00:20:10,840
>> --is qualcosa chiamato sfaccettatura.

364
00:20:10,840 --> 00:20:15,530
Così il termine sfaccettatura è
non necessariamente comune.

365
00:20:15,530 --> 00:20:16,880
Ma hai visto tutti prima.

366
00:20:16,880 --> 00:20:18,630
Se si dà un'occhiata a
Amazon, per esempio,

367
00:20:18,630 --> 00:20:20,870
e fate una ricerca per
ciambelle nei libri,

368
00:20:20,870 --> 00:20:27,080
qui hanno ottenuto una serie di libri,
e sono raggruppati per categoria,

369
00:20:27,080 --> 00:20:30,470
e si ottiene le diverse categorie,
e quanti libri in ogni categoria

370
00:20:30,470 --> 00:20:31,330
presentarsi.

371
00:20:31,330 --> 00:20:33,420
>> Quindi questo è fondamentalmente una sfaccettatura.

372
00:20:33,420 --> 00:20:37,570
Prendete tutti i loro libri, il 1.800
libri che corrispondono ciambelle su Amazon.

373
00:20:37,570 --> 00:20:39,820
12 di essi sono nella
categoria colazione.

374
00:20:39,820 --> 00:20:43,100
21 in pasticceria e da forno,
e così via e così via.

375
00:20:43,100 --> 00:20:47,670
>> Quindi questo è davvero un utile
strumento per esplorare il contenuto

376
00:20:47,670 --> 00:20:53,260
all'interno della biblioteca, nonché
perché quando si guarda a un aspetto,

377
00:20:53,260 --> 00:20:56,520
ti dà un'idea di quello che sottopone
esiste, come quello che i tipi di soggetti

378
00:20:56,520 --> 00:20:58,510
sono più popolari all'interno del set di query.

379
00:20:58,510 --> 00:21:00,950
E aiuta a guidare fuori ed esplorare.

380
00:21:00,950 --> 00:21:02,770
Così possiamo fare la stessa cosa.

381
00:21:02,770 --> 00:21:05,940
>> Se vogliamo usare la
API e guardare sfaccettature,

382
00:21:05,940 --> 00:21:08,950
aggiungiamo un altro parametro a
il nostro amico la stringa di query.

383
00:21:08,950 --> 00:21:12,540
Così sfaccettature pari a un separati da virgola
elenco di quello che vogliamo sfaccettare on.

384
00:21:12,540 --> 00:21:14,790
Così uno degli aspetti potrebbe essere soggetto.

385
00:21:14,790 --> 00:21:16,565
Un altro potrebbe essere la lingua.

386
00:21:16,565 --> 00:21:19,665
E così se corriamo tale query, abbiamo get--

387
00:21:19,665 --> 00:21:23,372

388
00:21:23,372 --> 00:21:24,830
Sembra praticamente lo stesso qui.

389
00:21:24,830 --> 00:21:29,010
Ma abbiamo aggiunto alla fine
della lista un insieme di sfaccettature.

390
00:21:29,010 --> 00:21:34,060
Quindi abbiamo un aspetto chiamato argomento.

391
00:21:34,060 --> 00:21:40,250
Quindi questo ci sta dicendo che se guardo
i miei 80 risultati della query ciambella,

392
00:21:40,250 --> 00:21:42,100
13 di loro hanno la
sottoporre Stati Uniti.

393
00:21:42,100 --> 00:21:43,684
Tre sono le ciambelle soggetto.

394
00:21:43,684 --> 00:21:45,600
Tre hanno il soggetto
di ripristino delle zone umide,

395
00:21:45,600 --> 00:21:47,720
che può essere il nostro buco nella ciambella.

396
00:21:47,720 --> 00:21:51,780
Due di loro, i Simpson,
e così via e così via.

397
00:21:51,780 --> 00:21:59,211
>> Quindi questo può essere utile se si
vuole restringere la ricerca.

398
00:21:59,211 --> 00:22:00,210
Si può aiutare a farlo.

399
00:22:00,210 --> 00:22:03,580
Soprattutto se si dispone
più di, diciamo, 80 risultati.

400
00:22:03,580 --> 00:22:05,980
>> Allo stesso modo, abbiamo anche chiesto
per sfaccettature sul linguaggio.

401
00:22:05,980 --> 00:22:14,790
Quindi, se guardiamo i nostri risultati, vediamo 76
di loro sono in inglese, quattro in Francia,

402
00:22:14,790 --> 00:22:19,620
due in spagnolo, due, penso che sia
undefined o sconosciuto, olandese e latino.

403
00:22:19,620 --> 00:22:22,830
Quindi penso che il latino
risultato ciambella, di nuovo,

404
00:22:22,830 --> 00:22:24,922
non ha nulla a che fare con prodotti da forno.

405
00:22:24,922 --> 00:22:25,630
Ma ci si va.

406
00:22:25,630 --> 00:22:31,420

407
00:22:31,420 --> 00:22:38,630
>> Quindi questo è una sorta di mostra voi
come si può tirare il contenuto indietro

408
00:22:38,630 --> 00:22:41,270
dal API proprio attraverso
browser web, che è grande.

409
00:22:41,270 --> 00:22:44,320
Ma non è proprio quello che si farebbe
normalmente utilizzando in API per esso.

410
00:22:44,320 --> 00:22:48,710
Così un esempio di come si
potrebbe effettivamente fare questo è ho

411
00:22:48,710 --> 00:22:54,720
scritto un super piccolo programma,
che, ancora una volta, la mia ricerca ciambella

412
00:22:54,720 --> 00:22:59,010
e seleziona un paio di campi
e li visualizza in una tabella.

413
00:22:59,010 --> 00:23:01,610
Quindi questo è molto il
stesso contenuto che abbiamo appena

414
00:23:01,610 --> 00:23:04,830
sega con alcuni campi tirato fuori.

415
00:23:04,830 --> 00:23:12,090
Così elenco dei titoli, i
posizione di ciò che il libro

416
00:23:12,090 --> 00:23:15,120
è circa, la lingua,
e così via e così via.

417
00:23:15,120 --> 00:23:20,480
>> Così come questo è realmente accaduto, in quanto
Credo che dobbiamo guardare a un certo codice,

418
00:23:20,480 --> 00:23:22,420
è--

419
00:23:22,420 --> 00:23:28,060
>> Quello che abbiamo qui è un semplice HTML
pagina, che visualizza il testo,

420
00:23:28,060 --> 00:23:32,900
benvenuto al cloud biblioteca e
quindi visualizza una tabella dei risultati.

421
00:23:32,900 --> 00:23:37,790
E ci sono, ovviamente, non si traduce in
il tavolo quando la pagina viene caricata.

422
00:23:37,790 --> 00:23:41,380
Ma quello che stiamo facendo
è, innanzitutto, abbiamo

423
00:23:41,380 --> 00:23:46,290
sono il caricamento di una libreria chiamata
jQuery, che è fondamentalmente

424
00:23:46,290 --> 00:23:52,030
una libreria JavaScript, che rende
molto facile da manipolare JavaScript

425
00:23:52,030 --> 00:23:58,780
nativo, HTML, e creare pagine web,
logica lato client e le pagine web.

426
00:23:58,780 --> 00:24:01,595
>> Quindi quello che abbiamo qui è jQuery
ha un metodo chiamato Get,

427
00:24:01,595 --> 00:24:05,270
che in sostanza andrà a
un URL, che, in questo caso,

428
00:24:05,270 --> 00:24:09,070
è questo familiare URL cercando.

429
00:24:09,070 --> 00:24:14,440
E poi ottenere il contenuto dal
tale URL e quindi eseguire una funzione su di esso.

430
00:24:14,440 --> 00:24:19,240
Così abbiamo detto vai a api.lib.harvard / edu.

431
00:24:19,240 --> 00:24:20,060
Ricerca di ciambelle.

432
00:24:20,060 --> 00:24:21,300
Dacci 20 record.

433
00:24:21,300 --> 00:24:28,590
E quindi eseguire questa funzione, che
Ho selezionato, passandogli i dati.

434
00:24:28,590 --> 00:24:34,430
E il dato è la JSON che
ma ho restituito dalla API.

435
00:24:34,430 --> 00:24:40,120
>> E poi stiamo dicendo, all'interno di tale
dati c'è un campo chiamato voce.

436
00:24:40,120 --> 00:24:48,117
E se vado dare un'occhiata indietro
uno di questi risultati che è qui,

437
00:24:48,117 --> 00:24:49,200
c'è qualcosa called--

438
00:24:49,200 --> 00:24:50,220
>> Beh, si chiama punto.

439
00:24:50,220 --> 00:24:53,520
Così può essere che.

440
00:24:53,520 --> 00:25:01,840
E ciò che fa è che
passa attraverso ogni elemento

441
00:25:01,840 --> 00:25:05,300
e quindi chiama un'altra
funzione su ciascun elemento.

442
00:25:05,300 --> 00:25:08,440
E tale funzione fondamentalmente
sta prendendo il valore

443
00:25:08,440 --> 00:25:12,010
dell'articolo, che è
essenzialmente la scheda individuale

444
00:25:12,010 --> 00:25:18,220
e ci permette di tirare fuori il titolo,
la copertura e la lingua.

445
00:25:18,220 --> 00:25:21,640
>> Quindi chiediamo una funzione su ogni
voce che siamo tornati dalla API.

446
00:25:21,640 --> 00:25:25,397
E se si dà un'occhiata
a questo pezzo qui,

447
00:25:25,397 --> 00:25:27,230
quello che stiamo facendo è
stiamo creando una stringa,

448
00:25:27,230 --> 00:25:31,810
che è essenzialmente alcuni markup HTML
intorno a un tavolo, con value.title,

449
00:25:31,810 --> 00:25:35,790
che è il titolo del
oggetto, value.coverage,

450
00:25:35,790 --> 00:25:36,790
che è la copertura, -

451
00:25:36,790 --> 00:25:38,225
>> E noi stiamo facendo un controllo
qui per vedere chi è undefined

452
00:25:38,225 --> 00:25:40,570
e nascondendola se dice indefinita,
perché non siamo realmente interessati

453
00:25:40,570 --> 00:25:41,600
in questo.

454
00:25:41,600 --> 00:25:42,939
>> --e poi la lingua.

455
00:25:42,939 --> 00:25:44,730
E allora che cosa siamo
facendo è aggiungendo che

456
00:25:44,730 --> 00:25:48,510
al tavolo che è
identificati da questa stringa qui.

457
00:25:48,510 --> 00:25:50,790
E come funziona jQuery
è ciò che questo sta dicendo

458
00:25:50,790 --> 00:25:56,420
è cercare il tavolo con l'idea
risultati e aggiungere questo testo ad esso.

459
00:25:56,420 --> 00:25:59,380
E questo è il tavolo con risultati idea.

460
00:25:59,380 --> 00:26:04,998
Allora, cosa si finisce
con questa pagina è qui.

461
00:26:04,998 --> 00:26:06,206
E al fine di visualizzare sorgente--

462
00:26:06,206 --> 00:26:11,310

463
00:26:11,310 --> 00:26:13,810
Ebbene, la sorgente non è effettivamente
aggiornato quando è successo.

464
00:26:13,810 --> 00:26:18,740
Così si può vedere l'attuale
risultati della tabella qui però.

465
00:26:18,740 --> 00:26:24,770
>> Ecco, questo è solo un semplice esempio di
facendo una query di base contro l'API

466
00:26:24,770 --> 00:26:29,020
e la visualizzazione di informazioni in un altro
forma, e non fare nulla di troppo di fantasia.

467
00:26:29,020 --> 00:26:36,370
Ora, un altro esempio è come un
domanda scritta da David Weinberger

468
00:26:36,370 --> 00:26:39,120
come demo di questo, che
in sostanza si mostra

469
00:26:39,120 --> 00:26:44,620
come si può schiacciare i risultati che siete
ottenere dal API biblioteca nuvola

470
00:26:44,620 --> 00:26:46,250
con, diciamo, di Google Books.

471
00:26:46,250 --> 00:26:52,225
>> E il pensiero è che posso
eseguire una query su Google Libri,

472
00:26:52,225 --> 00:26:56,060
ottenere una ricerca testo completo, ottenere alcuni risultati
indietro, scoprire quale di queste voci

473
00:26:56,060 --> 00:27:01,180
in realtà esistono in Hollis,
il sistema bibliotecario,

474
00:27:01,180 --> 00:27:03,200
e poi mi danno link
torna a tali elementi.

475
00:27:03,200 --> 00:27:12,730
Quindi, se cerco, è stato
una notte buia e tempestosa, mi

476
00:27:12,730 --> 00:27:16,210
tornare un po 'di risultati
da Google, e quindi uno dei risultati

477
00:27:16,210 --> 00:27:19,460
che è A Wrinkle in Time.

478
00:27:19,460 --> 00:27:29,330
E questi sono link a libri che esistono
all'interno del sistema Harvard Library.

479
00:27:29,330 --> 00:27:32,160
>> Quindi credo che il punto qui non è
tanto che questo può o non può

480
00:27:32,160 --> 00:27:34,118
essere il modo in cui si desidera
per selezionare la libreria,

481
00:27:34,118 --> 00:27:38,310
ma è completamente diverso
modo che non era disponibile a voi

482
00:27:38,310 --> 00:27:42,884
prima, come voi non ha avuto modo di fare
testo integrale cerca sui libri che anche

483
00:27:42,884 --> 00:27:44,550
facevano parte del sistema di Harvard Library.

484
00:27:44,550 --> 00:27:46,870
Così ora questo è un modo
che si può fare.

485
00:27:46,870 --> 00:27:51,930
E si può visualizzare in
qualunque formato desiderato.

486
00:27:51,930 --> 00:27:55,990
Quindi, il punto qui è, in fondo,
stiamo aprendo nuovi modi per le persone

487
00:27:55,990 --> 00:27:59,080
lavorare con i dati.

488
00:27:59,080 --> 00:28:07,925
>> Un altro pezzo di nuvola biblioteca è che
aiuta esporre alcuni dei dati di utilizzo

489
00:28:07,925 --> 00:28:08,800
che la biblioteca ha.

490
00:28:08,800 --> 00:28:12,630
Quindi, se si va in biblioteca,
e siete alla ricerca di libri,

491
00:28:12,630 --> 00:28:15,770
Non necessariamente
in realtà avere un'idea,

492
00:28:15,770 --> 00:28:19,080
per tutti gli elementi di una
particolare argomento, cosa

493
00:28:19,080 --> 00:28:21,200
sono persone
comunità, che si tratti di

494
00:28:21,200 --> 00:28:24,890
definita come Harvard o
paese o la classe,

495
00:28:24,890 --> 00:28:26,421
cosa hanno trovato più utile?

496
00:28:26,421 --> 00:28:28,920
E la biblioteca ha in realtà una
tonnellata di informazioni su ciò che

497
00:28:28,920 --> 00:28:32,999
è molto utile perché se molto
di persone stanno controllando un libro,

498
00:28:32,999 --> 00:28:34,040
che ti dice qualcosa.

499
00:28:34,040 --> 00:28:36,498
Ci deve essere stato qualche motivo
vogliono controllare.

500
00:28:36,498 --> 00:28:38,270
Un sacco di gente ha messo in riserva.

501
00:28:38,270 --> 00:28:42,520
>> Se è sulla lista di riserva per un sacco
di classi, che ti dice qualcosa.

502
00:28:42,520 --> 00:28:45,960
Se i docenti stanno controllando lo
fuori un sacco e studenti non sono,

503
00:28:45,960 --> 00:28:47,200
che mi dice qualcosa.

504
00:28:47,200 --> 00:28:49,280
Vice versa, che anche
ti dice qualcosa.

505
00:28:49,280 --> 00:28:54,680
Quindi sarebbe davvero interessante
inserire le informazioni là fuori e lasciare

506
00:28:54,680 --> 00:28:59,969
persone lo utilizzano per aiutarli a trovare
opera all'interno del sistema bibliotecario.

507
00:28:59,969 --> 00:29:02,260
Il rovescio della medaglia di questo è
ci sono alcuni gravi privacy

508
00:29:02,260 --> 00:29:07,854
preoccupazioni perché uno dei
principi fondamentali della biblioteca

509
00:29:07,854 --> 00:29:10,770
è non stiamo andando da raccontare
gente quello che gli altri stanno leggendo.

510
00:29:10,770 --> 00:29:17,360
E anche se si sta dicendo questo
libro è stato controllato quattro volte

511
00:29:17,360 --> 00:29:20,070
in un mese particolare,
che potrebbero essere utilizzati

512
00:29:20,070 --> 00:29:25,252
avere un collegamento ad un particolare
persona da dati de-anonimizzazione

513
00:29:25,252 --> 00:29:26,710
e scoprire chi controllato fuori.

514
00:29:26,710 --> 00:29:30,792
Quindi il modo in cui possiamo avoid--

515
00:29:30,792 --> 00:29:33,750
Il modo in cui possiamo cercare di estrarre
un segnale dal complesso dei dati

516
00:29:33,750 --> 00:29:36,740
senza violare
timori per la privacy di nessuno

517
00:29:36,740 --> 00:29:42,150
è essenzialmente guardiamo
10 anni di dati di utilizzo, -

518
00:29:42,150 --> 00:29:43,930
>> Quindi è un lungo periodo di tempo.

519
00:29:43,930 --> 00:29:50,639
>> --e dire, OK, vediamo come
molte volte questo lavoro è stato utilizzato,

520
00:29:50,639 --> 00:29:52,930
e che in questo periodo
di tempo, e quindi sostanzialmente

521
00:29:52,930 --> 00:29:56,300
restituire un numero, che noi chiamiamo
una partitura stack, che fondamentalmente

522
00:29:56,300 --> 00:29:59,910
rappresenta quanto è stata usata.

523
00:29:59,910 --> 00:30:01,084
E che number--

524
00:30:01,084 --> 00:30:03,250
Un sacco di diversi calcoli
andare in quel numero.

525
00:30:03,250 --> 00:30:05,150
--ma è molto approssimativa
metrica che ti dà

526
00:30:05,150 --> 00:30:11,300
un'idea di come il
comunità può valutare che il lavoro.

527
00:30:11,300 --> 00:30:16,772
>> E così un altro tipo di ancora
più concretizzati applicazione

528
00:30:16,772 --> 00:30:18,480
che prende vantaggio
di questo è qualcosa

529
00:30:18,480 --> 00:30:24,000
chiamato Stacklife, che è in realtà
disponibile attraverso il principale Harvard

530
00:30:24,000 --> 00:30:24,880
Portale Library.

531
00:30:24,880 --> 00:30:26,700
Così si va a library.harvard.edu.

532
00:30:26,700 --> 00:30:29,360
Vedrete una serie di diversi
modi di ricerca della biblioteca.

533
00:30:29,360 --> 00:30:32,300
E uno di loro è chiamato Stacklife.

534
00:30:32,300 --> 00:30:38,980
>> E questo è un programma che
esplora il contenuto della biblioteca,

535
00:30:38,980 --> 00:30:43,490
ma è completamente integrato
in cima a queste API.

536
00:30:43,490 --> 00:30:46,910
Quindi non c'è roba speciale
succede dietro le quinte.

537
00:30:46,910 --> 00:30:49,570
Non c'è accesso ai
dati che non hai.

538
00:30:49,570 --> 00:30:54,090
Sta utilizzando le API di fornire
con una navigazione completamente diverso

539
00:30:54,090 --> 00:30:55,480
esperienza.

540
00:30:55,480 --> 00:30:58,570
>> Quindi, se la ricerca di Alice
nel paese delle meraviglie in questo caso,

541
00:30:58,570 --> 00:31:02,600
Ottengo un risultato che sembra
questo, che è abbastanza much--

542
00:31:02,600 --> 00:31:05,430

543
00:31:05,430 --> 00:31:10,870
>> E 'molto simile a qualsiasi altra ricerca
si potrebbe fare, tranne che in questo caso

544
00:31:10,870 --> 00:31:15,730
stiamo classifica gli articoli da
stackscore, che vi dà

545
00:31:15,730 --> 00:31:19,850
qualche idea di quanto sia popolare questi
oggetti erano all'interno della comunità.

546
00:31:19,850 --> 00:31:25,610
E così chiaramente, Alice nel paese delle meraviglie
da Walt Disney è molto popolare.

547
00:31:25,610 --> 00:31:36,570
Ma si può anche vedere le prime quattro
qui ci sono quelli che non si potrebbe actually--

548
00:31:36,570 --> 00:31:39,220
>> Le cose che sono molto utilizzati,
ma non si può immediatamente

549
00:31:39,220 --> 00:31:41,240
collegarsi con Alice nel paese delle meraviglie.

550
00:31:41,240 --> 00:31:44,650
Così il nostro vecchio amico The
Annotated Alice è qui.

551
00:31:44,650 --> 00:31:46,350
Così posso dare un'occhiata a questo.

552
00:31:46,350 --> 00:31:52,010
E ora quello che sto cercando
AT è fondamentalmente un insieme di--

553
00:31:52,010 --> 00:31:53,760
Posso avere The Annotated
Alice proprio qui.

554
00:31:53,760 --> 00:31:56,700
Ho informazioni su di esso.

555
00:31:56,700 --> 00:32:00,230
E ho anche un stackscore
di, in questo caso, 26.

556
00:32:00,230 --> 00:32:03,169
E questo mi dice sorta di circa
come siamo arrivati ​​a questo stackscore,

557
00:32:03,169 --> 00:32:05,835
come chi controllato fuori, come come
molte volte è stato estratto,

558
00:32:05,835 --> 00:32:08,440
come facoltà o undergrads, come
molte copie la biblioteca ha,

559
00:32:08,440 --> 00:32:11,300
e così via e così via.

560
00:32:11,300 --> 00:32:16,460
>> E si può anche, abbastanza interessante
qui, esplorare le pile virtualmente.

561
00:32:16,460 --> 00:32:19,550
Così i dati qui, questo
si sta mostrando sort

562
00:32:19,550 --> 00:32:23,547
di una rappresentazione virtuale
di ciò che la forza shelf

563
00:32:23,547 --> 00:32:25,880
guardare come se si dovesse prendere
tutte le aziende della biblioteca

564
00:32:25,880 --> 00:32:28,940
e metterli insieme
su un ripiano infinita.

565
00:32:28,940 --> 00:32:30,990
E la cosa bella è che abbiamo can--

566
00:32:30,990 --> 00:32:33,380
>> Prima di tutto, la
metadati su questi libri

567
00:32:33,380 --> 00:32:35,627
spesso si dice quando è stato pubblicato.

568
00:32:35,627 --> 00:32:37,085
E ti dice quante pagine ha.

569
00:32:37,085 --> 00:32:38,459
Potrebbe dire le dimensioni.

570
00:32:38,459 --> 00:32:42,930
Così si può vedere che è riflesso qui
in termini di dimensione dei libri.

571
00:32:42,930 --> 00:32:46,740
>> E allora possiamo usare il
impilare punteggio per evidenziare

572
00:32:46,740 --> 00:32:49,170
i libri che hanno i punteggi più alti di stack.

573
00:32:49,170 --> 00:32:54,930
Quindi, se è più scura, significa che,
presumibilmente, è usato più frequentemente.

574
00:32:54,930 --> 00:32:57,040
Quindi, in questo caso, sono
intenzione di indovinare che questo

575
00:32:57,040 --> 00:33:03,226
è la versione di Alice nel paese delle meraviglie
che è molto comunemente usato e più

576
00:33:03,226 --> 00:33:05,100
letta, la libreria
ha il maggior numero di copie di.

577
00:33:05,100 --> 00:33:06,975
Quindi, se siete alla ricerca
per Alice in Wonderland,

578
00:33:06,975 --> 00:33:10,220
questo potrebbe essere un buon punto di partenza.

579
00:33:10,220 --> 00:33:13,500
>> E poi qui si può anche collegare fuori
a, dire, Amazon per l'acquisto del libro,

580
00:33:13,500 --> 00:33:15,182
e così via e così via.

581
00:33:15,182 --> 00:33:17,140
Il punto qui, di nuovo,
non è tanto che questo

582
00:33:17,140 --> 00:33:25,030
è il modo migliore per sfogliare la libreria
o lo strumento giusto per ogni occasione.

583
00:33:25,030 --> 00:33:28,400
Ma è un altro modo di farlo.

584
00:33:28,400 --> 00:33:31,359
E rendendo i dati
disponibile attraverso un API, che

585
00:33:31,359 --> 00:33:34,650
è realizzato molto semplici blocchi,
che ti permette di cercare il contenuto,

586
00:33:34,650 --> 00:33:39,420
si può costruire qualcosa
come questo che può

587
00:33:39,420 --> 00:33:41,520
essere straordinariamente
prezioso per alcune persone.

588
00:33:41,520 --> 00:33:46,640

589
00:33:46,640 --> 00:33:51,860
>> Ecco, questo è una sorta di, quanto voglio
dire veramente ciò che l'API è

590
00:33:51,860 --> 00:33:56,070
e quello che espone, c'è un intero
mucchio di roba dietro le quinte, che

591
00:33:56,070 --> 00:33:59,480
Sto solo andando a toccare brevemente
solo perché sorta di tratta a questo

592
00:33:59,480 --> 00:34:03,720
da un angolo completamente diverso
termini di come si fa una cosa del genere

593
00:34:03,720 --> 00:34:04,580
avere messo in atto?

594
00:34:04,580 --> 00:34:10,820
>> Quindi una API è uno standard
interfacciarsi a tutto questo contenuto.

595
00:34:10,820 --> 00:34:13,820
Ma per arrivare lì, la
prima cosa che dovevamo fare

596
00:34:13,820 --> 00:34:17,260
è stato mettere insieme informazioni
di libri e immagini

597
00:34:17,260 --> 00:34:21,580
e gli strumenti di ricerca, la raccolta
documento da vari sistemi di Harvard.

598
00:34:21,580 --> 00:34:23,929
Aleph, VIA, e OASIS sono
i nomi dei sistemi.

599
00:34:23,929 --> 00:34:28,820
E in sostanza, vanno in un
conduttura, una pipeline di elaborazione.

600
00:34:28,820 --> 00:34:33,230
>> Quindi, prima di tutto, otteniamo esportazione
file da tutti questi sistemi.

601
00:34:33,230 --> 00:34:35,130
Li dividiamo in singole voci.

602
00:34:35,130 --> 00:34:39,360
Così abbiamo un file, che è un gigabyte,
che ha un milione di dischi in esso.

603
00:34:39,360 --> 00:34:42,290
Così abbiamo diviso su in singole voci.

604
00:34:42,290 --> 00:34:45,374
Poi, per ogni articolo, convertiamo esso
in MODS, perché alcuni di questi

605
00:34:45,374 --> 00:34:47,040
sono MODS nativamente, alcuni di loro non sono.

606
00:34:47,040 --> 00:34:49,204
Quindi noi tutti arrivare a
essere nello stesso formato.

607
00:34:49,204 --> 00:34:51,120
Poi ci sono diversi
passaggi di arricchimento, dove

608
00:34:51,120 --> 00:34:55,969
aggiungiamo ulteriori informazioni ai dati
che era disponibile nella libreria.

609
00:34:55,969 --> 00:34:59,750
Quindi abbiamo bisogno di aggiungere, prima di tutto
abbiamo quello librerie tengono.

610
00:34:59,750 --> 00:35:02,250
Attraversiamo una fase di
calcolo della stackscore.

611
00:35:02,250 --> 00:35:07,112
Andiamo attraverso un altro passo
l'aggiunta di più di metadati in termini

612
00:35:07,112 --> 00:35:10,730
di ciò collezioni persone
avrebbe potuto aggiungere questo--

613
00:35:10,730 --> 00:35:12,532
>> Le persone stanno creando
collezioni di oggetti.

614
00:35:12,532 --> 00:35:13,990
Che collezioni vuol appartiene?

615
00:35:13,990 --> 00:35:17,220
Come sono le persone con tag
questo contenuto in passato?

616
00:35:17,220 --> 00:35:20,750
Poi filtrare fuori, e si limitano
i record perché, come ho già detto,

617
00:35:20,750 --> 00:35:24,120
ci sono alcuni record che, a causa di
motivi di copyright, non possiamo visualizzare.

618
00:35:24,120 --> 00:35:26,700
E poi li carichiamo
in qualcosa chiamato

619
00:35:26,700 --> 00:35:31,680
Solr, che non è un errore, ma
è il nome di un software

620
00:35:31,680 --> 00:35:35,710
che fa di ricerca l'indicizzazione, che
spinge tutta la ricerca dietro l'API.

621
00:35:35,710 --> 00:35:40,110
E poi diventa disponibile per
le API e le persone possono usare.

622
00:35:40,110 --> 00:35:44,640
>> Quindi questo è come un abbastanza
processo semplice.

623
00:35:44,640 --> 00:35:47,230
Una delle interessanti
cose su di esso è

624
00:35:47,230 --> 00:35:50,990
che si tratta
con 13 milioni di dischi

625
00:35:50,990 --> 00:35:53,820
e stiamo andando a che fare o più.

626
00:35:53,820 --> 00:36:01,260
E noi vogliamo essere in grado di gestire
questi in modo relativamente veloce.

627
00:36:01,260 --> 00:36:03,630
Ci vuole molto tempo per
elaborare 13 milioni di dischi.

628
00:36:03,630 --> 00:36:09,529
>> Così come questo gasdotto è
set up è che si can--

629
00:36:09,529 --> 00:36:12,070
Credo che il vantaggio del
gasdotto, il problema che siamo

630
00:36:12,070 --> 00:36:15,580
cercando di risolvere qui, è che
tutte le trasformazioni, tutte

631
00:36:15,580 --> 00:36:18,729
questi passi in questo
gasdotto sono separabili.

632
00:36:18,729 --> 00:36:19,645
Non c'è alcuna dipendenza.

633
00:36:19,645 --> 00:36:22,146
Se sei elaborazione
un record di un libro,

634
00:36:22,146 --> 00:36:24,270
non c'è alcuna dipendenza in
che tra un altro libro.

635
00:36:24,270 --> 00:36:27,760
>> Che cosa possiamo fare è fondamentalmente,
ad ogni passo in cantiere,

636
00:36:27,760 --> 00:36:30,470
abbiamo messo in una coda nella nuvola.

637
00:36:30,470 --> 00:36:32,250
Mi è capitato di essere su Amazon Web Services.

638
00:36:32,250 --> 00:36:35,140
Quindi c'è un elenco di,
dire, 10.000 articoli che

639
00:36:35,140 --> 00:36:38,100
devono essere normalizzato e
convertiti in formato MODS.

640
00:36:38,100 --> 00:36:41,620
E noi spin up come molti server
come vogliamo, forse 10 server.

641
00:36:41,620 --> 00:36:44,860
E ciascuno di questi server proprio
siede lì, guarda in quella coda,

642
00:36:44,860 --> 00:36:46,730
vede che c'è uno che ha bisogno di
elaborare, tira fuori la coda,

643
00:36:46,730 --> 00:36:48,740
processa e bastoni
sulla coda successivo.

644
00:36:48,740 --> 00:36:54,200
>> E così quello che ci permette
fare è applicare, in sostanza,

645
00:36:54,200 --> 00:36:58,110
tanto hardware vogliamo questo
problema per un brevissimo periodo di tempo

646
00:36:58,110 --> 00:37:02,970
elaborare i dati più rapidamente
possibile, che è qualcosa che solo,

647
00:37:02,970 --> 00:37:08,220
ora nel mondo del cloud computing
noi can server provisioning essenzialmente

648
00:37:08,220 --> 00:37:09,890
istantaneamente, è che utile.

649
00:37:09,890 --> 00:37:12,260
Quindi non avere un
Server gigante seduto intorno

650
00:37:12,260 --> 00:37:16,700
tutto il tempo per fare la trasformazione
che potrebbe accadere solo una volta alla settimana.

651
00:37:16,700 --> 00:37:21,440
>> In modo che è in gran parte di esso.

652
00:37:21,440 --> 00:37:27,590
C'è documentazione disponibile
per la Biblioteca Nube API Item

653
00:37:27,590 --> 00:37:31,960
a questo URL, che sarà
sarà disponibile in seguito.

654
00:37:31,960 --> 00:37:36,730
E per favore andare a dare un'occhiata a
per vedere se c'è qualcosa,

655
00:37:36,730 --> 00:37:37,579
avete qualche idea.

656
00:37:37,579 --> 00:37:38,120
Gioca con esso.

657
00:37:38,120 --> 00:37:38,830
Scherzare.

658
00:37:38,830 --> 00:37:42,800
E si spera si può venire
con qualcosa di grande.

659
00:37:42,800 --> 00:37:44,740
Grazie.

660
00:37:44,740 --> 00:37:45,899