1
00:00:00,000 --> 00:00:11,370

2
00:00:11,370 --> 00:00:12,370
JEFFREY LICHT: Hi there.

3
00:00:12,370 --> 00:00:13,550
Ik ben Jeffrey Licht.

4
00:00:13,550 --> 00:00:17,890
En ik ben hier om u te praten over de
Harvard Library en de bouw van morgen

5
00:00:17,890 --> 00:00:20,870
vandaag bibliotheek, denk ik.

6
00:00:20,870 --> 00:00:23,040
Dus de achtergrond hier,
de standplaats voor deze sessie

7
00:00:23,040 --> 00:00:26,930
wezen dat er
veel bibliografische gegevens

8
00:00:26,930 --> 00:00:28,400
in de Harvard bibliotheken.

9
00:00:28,400 --> 00:00:33,434
En er is een kans,
door enkele van de instrumenten

10
00:00:33,434 --> 00:00:36,350
en een project dat wordt ontwikkeld,
de toegang tot de informatie

11
00:00:36,350 --> 00:00:42,430
en neem het mee naar plaatsen die de
Harvard Library is niet nu doet,

12
00:00:42,430 --> 00:00:45,460
doe nieuwe dingen mee, experiment
en spelen rond met het.

13
00:00:45,460 --> 00:00:52,413
>> Dus de toegangspoort tot dit is een API
riep de Harvard Library Cloud, die

14
00:00:52,413 --> 00:00:57,650
is een open metadata-server,
die ik zal spreken over nu.

15
00:00:57,650 --> 00:01:02,595
Dus de achtergrond is dat er een
veel dingen in de Harvard bibliotheek.

16
00:01:02,595 --> 00:01:07,150
We hebben meer dan 13 miljoen bibliografische
records, miljoenen afbeeldingen,

17
00:01:07,150 --> 00:01:11,090
en duizenden van het vinden van hulpmiddelen, die
hoofdzakelijk documenten beschrijven

18
00:01:11,090 --> 00:01:15,500
collecties, zeggen wat
is in hen, dozen van papers

19
00:01:15,500 --> 00:01:21,080
enzovoort, dat meer dan vertegenwoordigen
een miljoen afzonderlijke documenten.

20
00:01:21,080 --> 00:01:24,290
En er is ook een heleboel
informatie die de bibliotheek

21
00:01:24,290 --> 00:01:28,180
over hoe de inhoud wordt gebruikt dat
van belang mensen konden

22
00:01:28,180 --> 00:01:32,400
die zou willen werken.

23
00:01:32,400 --> 00:01:36,150
>> Dus alle informatie
de bibliotheek metadata.

24
00:01:36,150 --> 00:01:39,500
Dus metadata is data over data.

25
00:01:39,500 --> 00:01:42,070
Dus als we praten over
de informatie die

26
00:01:42,070 --> 00:01:44,890
beschikbaar via de bibliotheek
wolk die beschikbaar is,

27
00:01:44,890 --> 00:01:47,760
het is niet per se
de eigenlijke documenten

28
00:01:47,760 --> 00:01:53,060
zelf geen volledig
tekst van boeken of de volledige afbeeldingen,

29
00:01:53,060 --> 00:01:54,890
hoewel die daadwerkelijk het geval kan zijn.

30
00:01:54,890 --> 00:01:57,550
Maar het is echt
informatie over de gegevens.

31
00:01:57,550 --> 00:02:00,909
>> Zo kunt u denken aan het catalogiseren
informatie, telefoonnummers, onderwerpen,

32
00:02:00,909 --> 00:02:02,700
hoeveel exemplaren van de
boek zijn er, wat

33
00:02:02,700 --> 00:02:06,380
zijn de uitgaven, wat zijn de
formaten, de auteurs, enzovoort.

34
00:02:06,380 --> 00:02:12,250
Dus er is een heleboel informatie over
de gegevens in de collectie,

35
00:02:12,250 --> 00:02:14,400
op zich, is een soort van inherent nuttig.

36
00:02:14,400 --> 00:02:19,230
En hoewel als je
het doen van diepgaand onderzoek,

37
00:02:19,230 --> 00:02:25,160
wilt u natuurlijk de werkelijke te krijgen
inhoud zelf en kijken naar de gegevens,

38
00:02:25,160 --> 00:02:30,140
de metadata is nuttig in termen van
zowel analyseren corpus als geheel,

39
00:02:30,140 --> 00:02:33,870
zoals wat dingen zijn in de collectie.

40
00:02:33,870 --> 00:02:35,520
Hoe verhouden ze zich?

41
00:02:35,520 --> 00:02:39,482
Het helpt je echt andere dingen te vinden,
dat is echt het belangrijkste doel van het.

42
00:02:39,482 --> 00:02:41,190
Het punt van de
metadata en de catalogus

43
00:02:41,190 --> 00:02:43,230
is om u te helpen alle
de informatie die

44
00:02:43,230 --> 00:02:46,590
beschikbaar zijn binnen de collecties.

45
00:02:46,590 --> 00:02:53,690
>> Dit is dus een voorbeeld van metadata
voor een boek in de Harvard Library.

46
00:02:53,690 --> 00:02:56,370
Dus het is er.

47
00:02:56,370 --> 00:02:59,850
En je kunt zien dat het
eigenlijk matig complex.

48
00:02:59,850 --> 00:03:04,610
En een deel van de waarde van metadata
binnen de Harvard Library systeem

49
00:03:04,610 --> 00:03:09,320
is dat het soort geweest
van opgebouwd door postorderbedrijven

50
00:03:09,320 --> 00:03:12,720
en gemonteerd door mensen toe te passen
veel expertise en vaardigheden

51
00:03:12,720 --> 00:03:20,030
en dacht om het na verloop van tijd,
die heeft veel waarde.

52
00:03:20,030 --> 00:03:25,450
>> Dus als je een kijkje nemen op deze record voor nemen
De Geannoteerde Alice, kun je erachter komen

53
00:03:25,450 --> 00:03:32,590
u de titel, die het geschreven, het hebt
auteur, en al de verschillende onderwerpen

54
00:03:32,590 --> 00:03:35,380
die mensen hebben het gecatalogiseerd in.

55
00:03:35,380 --> 00:03:40,110
En je kunt zien is er ook, in
Naast een heleboel goede informatie

56
00:03:40,110 --> 00:03:42,852
hier, is er een aantal doublures.

57
00:03:42,852 --> 00:03:45,560
Er is een hoop complexiteit dat is
weerspiegeld door de metadata

58
00:03:45,560 --> 00:03:46,300
die je hebt.

59
00:03:46,300 --> 00:03:50,320
>> Dus een titel van dit boek is
De avonturen van Alice in Wonderland.

60
00:03:50,320 --> 00:03:53,880
Dus dit is een geannoteerde
versie van dat boek.

61
00:03:53,880 --> 00:03:56,380
Maar het is ook wel Geannoteerde
Alice, Alice's Adventures

62
00:03:56,380 --> 00:03:58,570
in Wonderland omdat
het is iets wat

63
00:03:58,570 --> 00:04:00,430
Martin Gardner schreef
en geannoteerde het boek.

64
00:04:00,430 --> 00:04:03,369
En er is een groot aantal mooie informatie
over logische puzzels en dingen

65
00:04:03,369 --> 00:04:05,410
binnen Alice dat u
waarschijnlijk nog niet wist over.

66
00:04:05,410 --> 00:04:07,000
Dus je moet gaan lezen.

67
00:04:07,000 --> 00:04:11,940
>> Maar je kunt zien dat er
veel detail hier,

68
00:04:11,940 --> 00:04:15,340
met inbegrip van identificatiemiddelen, als het
werd opgericht, waar het vandaan kwam,

69
00:04:15,340 --> 00:04:17,420
in termen van de Harvard
systeem, enzovoort.

70
00:04:17,420 --> 00:04:20,350
Dit is dus een voorbeeld van
het type metadata

71
00:04:20,350 --> 00:04:24,340
dat je zou kunnen zien voor een boek in
de collectie Harvard Library.

72
00:04:24,340 --> 00:04:26,680
>> Dat is iets heel anders.

73
00:04:26,680 --> 00:04:32,610
Dus er is een systeem genaamd
VIA Harvard, die fundamenteel

74
00:04:32,610 --> 00:04:39,990
wordt catalogiseren beelden en voorwerpen van kunst
en visuele dingen overal in Harvard,

75
00:04:39,990 --> 00:04:44,010
en het toevoegen van enkele metadata
om hen classificeren,

76
00:04:44,010 --> 00:04:49,200
en, in sommige gevallen, het verstrekken
kleine miniatuurafbeeldingen

77
00:04:49,200 --> 00:04:51,250
dat u een kunt nemen
kijken als u dat wenst.

78
00:04:51,250 --> 00:04:54,240
>> Dit is dus een voorbeeld van de
metadata die je hebt voor een bord

79
00:04:54,240 --> 00:04:57,840
uit, vermoedelijk, Alice in Wonderland.

80
00:04:57,840 --> 00:05:00,499
En je kunt zien dat er
minder metadata hier.

81
00:05:00,499 --> 00:05:02,040
Het is gewoon een ander soort object.

82
00:05:02,040 --> 00:05:03,425
En dus is er minder informatie.

83
00:05:03,425 --> 00:05:07,790
>> Heb je meestal het feit dat een gesprek
nummer, wezen wie het heeft gemaakt, -

84
00:05:07,790 --> 00:05:10,410
>> We weten niet wanneer het is gemaakt.

85
00:05:10,410 --> 00:05:13,320
>> --en een titel.

86
00:05:13,320 --> 00:05:14,300
>> Een ander voorbeeld.

87
00:05:14,300 --> 00:05:16,380
Dit is een bevinding hulp.

88
00:05:16,380 --> 00:05:19,030
Dus er is een verzameling van Lewis
Papers Carroll op Harvard.

89
00:05:19,030 --> 00:05:23,601
Dus dit wordt beschreven wat
is in die verzameling.

90
00:05:23,601 --> 00:05:26,100
Dus iemand heeft doorgemaakt en
keek door alle vakken

91
00:05:26,100 --> 00:05:32,220
en gecatalogiseerd het, gegeven wat achtergrond,
schriftelijk een samenvatting van wat er is.

92
00:05:32,220 --> 00:05:35,290
En als je zou kijken
verder bij deze, deze

93
00:05:35,290 --> 00:05:39,620
gaat voor pagina's en pagina
en pagina's, maar zal u vertellen

94
00:05:39,620 --> 00:05:41,860
wat brieven en wat
dateert van wat dozen

95
00:05:41,860 --> 00:05:44,289
bestond de hele collectie.

96
00:05:44,289 --> 00:05:46,330
Maar dit is iets
dat, als je op Harvard,

97
00:05:46,330 --> 00:05:50,720
je kunt gaan en daadwerkelijk fysiek kijken
en, vermoedelijk, een kijkje nemen op.

98
00:05:50,720 --> 00:05:53,440
>> Dus dit is allemaal geweldig.

99
00:05:53,440 --> 00:05:54,450
Deze metadata is nuttig.

100
00:05:54,450 --> 00:05:56,327
Het is in de Harvard Library systeem.

101
00:05:56,327 --> 00:05:58,910
Er zijn gereedschappen waar je online
kan gaan en een kijkje nemen op het,

102
00:05:58,910 --> 00:05:59,993
en zie het, en zoek het.

103
00:05:59,993 --> 00:06:02,810
En je kunt het en dobbelstenen snijden
het op veel verschillende manieren.

104
00:06:02,810 --> 00:06:06,920
>> Maar het is echt alleen beschikbaar als
je bent een mens zitten

105
00:06:06,920 --> 00:06:12,600
op uw web browser of iets of
uw telefoon en het navigeren doorheen.

106
00:06:12,600 --> 00:06:16,730
Het is niet echt beschikbaar in
elke vorm van bruikbare mode

107
00:06:16,730 --> 00:06:19,520
andere systemen of
andere computers te gebruiken,

108
00:06:19,520 --> 00:06:21,500
niet met systemen binnen
de Harvard Library,

109
00:06:21,500 --> 00:06:24,890
maar systemen de buitenwereld,
gewoon andere mensen in het algemeen.

110
00:06:24,890 --> 00:06:30,210
Dus de vraag is, hoe kunnen we
beschikbaar te maken voor computers

111
00:06:30,210 --> 00:06:33,560
zodat wij interessanter kunnen doen
spullen mee dan alleen

112
00:06:33,560 --> 00:06:36,550
surfen op het zelf?

113
00:06:36,550 --> 00:06:39,766
>> Dus waarom zou je dit willen doen?

114
00:06:39,766 --> 00:06:41,140
Er zijn veel mogelijkheden.

115
00:06:41,140 --> 00:06:43,980
Een daarvan is kon je helemaal het bouwen van een
andere manier van browsen

116
00:06:43,980 --> 00:06:46,962
de inhoud die beschikbaar is
door de Harvard bibliotheken.

117
00:06:46,962 --> 00:06:48,670
Ik zal je één laten zien
later belde Stacklife,

118
00:06:48,670 --> 00:06:52,440
die een heel ander heeft
nemen op zoek naar content.

119
00:06:52,440 --> 00:06:54,560
>> Je kon een aanbeveling motor te bouwen.

120
00:06:54,560 --> 00:06:57,955
Dus Harvard Library is niet in de
bedrijf van te zeggen, je wilt dit boek.

121
00:06:57,955 --> 00:07:01,080
Ga dan een kijkje nemen op deze 17 andere
boeken die u misschien geïnteresseerd in

122
00:07:01,080 --> 00:07:03,200
of deze 18 andere afbeeldingen.

123
00:07:03,200 --> 00:07:06,040
Maar dat kon zeker
zijn een waardevolle eigenschap.

124
00:07:06,040 --> 00:07:09,272
En gezien de metadata, het kan
mogelijk zijn om samen te stellen dat.

125
00:07:09,272 --> 00:07:11,980
Je zou kunnen hebben verschillende behoeften in
termen van het doorzoeken van de inhoud,

126
00:07:11,980 --> 00:07:16,200
zoals misschien ondanks de hulpmiddelen die
beschikbaar die de bibliotheek maakt

127
00:07:16,200 --> 00:07:18,450
beschikbaar, wilt u misschien
om te zoeken op een andere manier

128
00:07:18,450 --> 00:07:21,847
of optimaliseren voor bepaalde use case,
die misschien is het zeer gespecialiseerd.

129
00:07:21,847 --> 00:07:23,930
Misschien zijn er slechts een paar
mensen in de wereld die

130
00:07:23,930 --> 00:07:25,846
de inhoud wilt zoeken
op deze manier, maar

131
00:07:25,846 --> 00:07:28,985
zou geweldig zijn als we
kon laten dat ze dat doen.

132
00:07:28,985 --> 00:07:30,860
Er is veel van analytics
in hoe mensen

133
00:07:30,860 --> 00:07:33,860
gebruik maken van de inhoud die echt zou zijn
interessant om te weten, te weten

134
00:07:33,860 --> 00:07:37,280
welke boeken worden gebruikt,
wat niet, enzovoort.

135
00:07:37,280 --> 00:07:41,670
En dan is er nog een heleboel
gelegenheid te integreren

136
00:07:41,670 --> 00:07:45,210
met andere informatie
dat is die er op het web.

137
00:07:45,210 --> 00:07:46,880
Dus we have--

138
00:07:46,880 --> 00:07:50,260
>> Bijvoorbeeld, NPR heeft
een boekbespreking segment,

139
00:07:50,260 --> 00:07:53,090
waar ze interviewen
auteurs over boeken.

140
00:07:53,090 --> 00:07:56,837
En zo zou het geweldig zijn als je
opzoeken van een boek in de Harvard

141
00:07:56,837 --> 00:07:59,670
Bibliotheek, en je zegt, OK, er is
geweest een interview met de auteur.

142
00:07:59,670 --> 00:08:00,878
Laten we een kijkje nemen op die.

143
00:08:00,878 --> 00:08:05,461
Of er is een Wikipedia-pagina, zoals een
gezaghebbende, wetenschappelijke verwijzing

144
00:08:05,461 --> 00:08:07,710
over dit boek dat u
Misschien wil je een kijkje op te nemen.

145
00:08:07,710 --> 00:08:12,600
>> Er zijn deze types van bronnen
verspreid over het web.

146
00:08:12,600 --> 00:08:16,555
En ze samenbrengen
een groot nut zou kunnen zijn

147
00:08:16,555 --> 00:08:18,930
iemand kijken naar de
inhoud, op zoek naar iets.

148
00:08:18,930 --> 00:08:20,180
Maar het is ook niet de
soort dingen je zou

149
00:08:20,180 --> 00:08:23,205
wil de bibliotheek verantwoordelijk te zijn
voor te gaan zitten en de jacht op

150
00:08:23,205 --> 00:08:25,455
al deze verschillende bronnen
en aan elkaar steken ze

151
00:08:25,455 --> 00:08:28,920
omdat ze voortdurend veranderen.

152
00:08:28,920 --> 00:08:33,570
En wat zij belangrijk vinden mei
niet wat je denkt dat belangrijk is.

153
00:08:33,570 --> 00:08:36,929
>> En meer nog, eigenlijk is er een
veel dingen die we nog niet aan gedacht.

154
00:08:36,929 --> 00:08:42,222
Dus als we dit kunnen openstellen, meer
mensen naast een half dozijn of zo,

155
00:08:42,222 --> 00:08:45,174
die op zoek zijn naar deze op een
regelmatige basis kan bedenken ideeën

156
00:08:45,174 --> 00:08:47,340
en masseer de gegevens, en
doen wat ze willen met het.

157
00:08:47,340 --> 00:08:49,920

158
00:08:49,920 --> 00:08:54,045
>> Dus we willen dit doen
gegevens beschikbaar zijn voor de wereld.

159
00:08:54,045 --> 00:08:55,670
Nou, er zijn een paar complicaties.

160
00:08:55,670 --> 00:08:58,540
Een daarvan is dat deze metadata
in verschillende systemen.

161
00:08:58,540 --> 00:09:01,110
Het is in verschillende formaten.

162
00:09:01,110 --> 00:09:04,719
Dus er is wat normalisering
dat moet gebeuren,

163
00:09:04,719 --> 00:09:08,010
waarin normalisatie wordt de werkwijze
dingen brengen van verschillende formaten

164
00:09:08,010 --> 00:09:12,940
en in kaart te brengen om één format
zodat de velden zullen overeenkomen.

165
00:09:12,940 --> 00:09:15,160
>> Er zijn een aantal beperkingen van het auteursrecht.

166
00:09:15,160 --> 00:09:21,010
Vreemd genoeg, de titelbeschrijving
over een boek is aansprakelijk voor het auteursrecht.

167
00:09:21,010 --> 00:09:24,060
Dus ook al is het gewoon
informatie afkomstig uit het boek,

168
00:09:24,060 --> 00:09:25,330
het auteursrecht.

169
00:09:25,330 --> 00:09:28,400
En afhankelijk van wie daadwerkelijk
geschapen dat metadata,

170
00:09:28,400 --> 00:09:32,175
Er kunnen beperkingen op die zijn
mag het verspreiden, vergelijkbaar to--

171
00:09:32,175 --> 00:09:33,402
>> Ik weet het niet.

172
00:09:33,402 --> 00:09:36,110
Het kan al dan niet vergelijkbaar zijn
de situatie van de songteksten,

173
00:09:36,110 --> 00:09:36,610
bijvoorbeeld.

174
00:09:36,610 --> 00:09:38,560
Dus we weten allemaal hoe dat uitpakt.

175
00:09:38,560 --> 00:09:40,450
Dus je moet rond dat probleem te krijgen.

176
00:09:40,450 --> 00:09:44,910
>> En dan nog een stuk is
dat er een grote hoeveelheid gegevens.

177
00:09:44,910 --> 00:09:52,420
Dus als ik ben iemand die wil werken
met de gegevens of heeft een cool idee,

178
00:09:52,420 --> 00:09:55,350
omgaan met 14 miljoen
platen op mijn laptop

179
00:09:55,350 --> 00:09:57,487
problematisch kan zijn
en moeilijk te beheren.

180
00:09:57,487 --> 00:09:59,320
Dus we willen verminderen
de barrières voor mensen

181
00:09:59,320 --> 00:10:02,130
om te kunnen werken met de data.

182
00:10:02,130 --> 00:10:07,880
>> Dus de aanpak die hopelijk adressen
al deze zorgen twee delen.

183
00:10:07,880 --> 00:10:11,770
Een daarvan is het bouwen van een platform dat neemt
van alle in verschillende bronnen

184
00:10:11,770 --> 00:10:14,350
en verergert het, normaliseert,
verrijkt, en merken

185
00:10:14,350 --> 00:10:16,650
het beschikbaar stellen in een enkele locatie.

186
00:10:16,650 --> 00:10:20,950
En het is beschikbaar via maakt
een publieke API dat mensen kunnen bellen.

187
00:10:20,950 --> 00:10:24,430
>> Dus een API is een Application
Programming Interface.

188
00:10:24,430 --> 00:10:28,930
En principe verwijst naar een
eindpunt dat een systeem of technologie

189
00:10:28,930 --> 00:10:31,720
kan bellen en data terug in
een gestructureerd op een manier

190
00:10:31,720 --> 00:10:32,900
dat kan worden gebruikt.

191
00:10:32,900 --> 00:10:36,060
Dus het is niet afhankelijk
bij het gaan naar een website

192
00:10:36,060 --> 00:10:37,970
en schrapen gegevens uit
ervan, bijvoorbeeld.

193
00:10:37,970 --> 00:10:40,690

194
00:10:40,690 --> 00:10:45,010
>> Dus dit is de homepage van
de Bibliotheek Cloud Item API,

195
00:10:45,010 --> 00:10:47,220
die in wezen is de versie twee.

196
00:10:47,220 --> 00:10:50,130
Dus het is de tweede iteratie van
proberen om al deze gegevens te maken

197
00:10:50,130 --> 00:10:53,280
naar de wereld.

198
00:10:53,280 --> 00:10:59,560
Dus het is
http://api.lib.harvard.edu/v2/items.

199
00:10:59,560 --> 00:11:03,830
En alleen maar om deze af te breken
een beetje, wat dit betekent

200
00:11:03,830 --> 00:11:06,115
is dat dit tweede versie van de API.

201
00:11:06,115 --> 00:11:08,490
Er is een versie van één, die
Ik ben niet van plan om over te praten.

202
00:11:08,490 --> 00:11:09,750
Er is een versie one.

203
00:11:09,750 --> 00:11:14,740
>> En als je deze belt
API, krijg je punten.

204
00:11:14,740 --> 00:11:20,640
En deel van het idee van een
API is een API is een contract.

205
00:11:20,640 --> 00:11:23,440
Het is iets dat is
niet gaat veranderen.

206
00:11:23,440 --> 00:11:24,850
Dus bijvoorbeeld, -

207
00:11:24,850 --> 00:11:27,410
>> De reden is dat als ik
bouwen van een soort systeem dat

208
00:11:27,410 --> 00:11:33,210
gaat om een ​​bibliotheek cloud-API gebruiken
om boeken te geven of mensen te helpen vinden

209
00:11:33,210 --> 00:11:36,190
informatie op een unieke manier,
wat we niet willen dat er gebeurt

210
00:11:36,190 --> 00:11:38,940
is voor ons om te gaan veranderen hoe
dat API werkt, en plotseling

211
00:11:38,940 --> 00:11:41,340
alles breekt op de eindgebruiker kant.

212
00:11:41,340 --> 00:11:46,710
Dus een deel van als je het maken API
ter beschikking van de wereld, het is

213
00:11:46,710 --> 00:11:49,396
goede gewoonte om een ​​zet
versienummer in het dus mensen

214
00:11:49,396 --> 00:11:51,020
weten welke versie ze te maken hebben.

215
00:11:51,020 --> 00:11:54,300
>> Dus als we besluiten we een betere manier
van het maken van deze informatie beschikbaar is,

216
00:11:54,300 --> 00:11:57,295
we kunnen veranderen dat aan
noemen die versie drie.

217
00:11:57,295 --> 00:11:59,920
Dus iedereen die nog steeds met behulp van
versie twee, dat zal nog steeds werken.

218
00:11:59,920 --> 00:12:03,490
Maar de derde versie zou
hebben alle nieuwe dingen.

219
00:12:03,490 --> 00:12:06,680

220
00:12:06,680 --> 00:12:09,210
>> Dus dit is een API voor dit
echt ziet eruit als een URL.

221
00:12:09,210 --> 00:12:11,680
En ja, wat is dit een
voorbeeld van is wat is

222
00:12:11,680 --> 00:12:16,615
genoemd rust API beschikbare
meer dan gewoon een normale web-verbinding.

223
00:12:16,615 --> 00:12:19,680
En je kan eigenlijk
gaan in een browser.

224
00:12:19,680 --> 00:12:28,550
>> Dus hier heb ik net geopend Firefox en
gegaan naar api.lib.harvard.edu/v2/items.

225
00:12:28,550 --> 00:12:31,560
En dus wat ik krijg hier is
in feite de eerste pagina

226
00:12:31,560 --> 00:12:34,740
van de resultaten van de gehele
set van items die we hebben.

227
00:12:34,740 --> 00:12:37,460
En het is hier in XML-formaat.

228
00:12:37,460 --> 00:12:40,130

229
00:12:40,130 --> 00:12:42,210
En het is ook geweest
prettified door Firefox.

230
00:12:42,210 --> 00:12:45,850
Het is eigenlijk al deze hebben
weinig uitzetten en samentrekken

231
00:12:45,850 --> 00:12:47,880
puntenslijpertjes hier.

232
00:12:47,880 --> 00:12:52,520
Dit is een soort van een mooiere
versie manier om ernaar te kijken.

233
00:12:52,520 --> 00:12:57,040
>> Maar wat dit is ons te vertellen is
Ik heb gevraagd alle items.

234
00:12:57,040 --> 00:13:03,120
Dus er zijn 13.289.475 items.

235
00:13:03,120 --> 00:13:06,150
En ik ben op zoek naar de eerste
10, beginnend op positie nul

236
00:13:06,150 --> 00:13:09,760
omdat in de informatica
We beginnen altijd op nul.

237
00:13:09,760 --> 00:13:15,150
En wat ik hier heb, als ik gewoon instorten
dit, zie je ik heb 10 items.

238
00:13:15,150 --> 00:13:20,410

239
00:13:20,410 --> 00:13:25,210
>> En als ik een kijkje nemen op een item, kan ik
zien dat ik informatie over het hebt.

240
00:13:25,210 --> 00:13:27,400
En dit is in wat heet MODS vorm.

241
00:13:27,400 --> 00:13:30,860
En dus ik ga om te schakelen
hier terug voor een moment.

242
00:13:30,860 --> 00:13:33,750
OK.

243
00:13:33,750 --> 00:13:37,447
>> Dus laten we zoeken naar iets in
specifieke omdat het eerste item dat

244
00:13:37,447 --> 00:13:40,030
gebeurt op de proppen komen als je kijkt
door de gehele collectie

245
00:13:40,030 --> 00:13:41,750
is, per definitie, willekeurig.

246
00:13:41,750 --> 00:13:44,550
Dus laten we eens kijken naar een aantal donuts.

247
00:13:44,550 --> 00:13:46,830
Oh.

248
00:13:46,830 --> 00:13:49,190
>> OK.

249
00:13:49,190 --> 00:13:49,940
Zo donuts.

250
00:13:49,940 --> 00:13:55,360
Dus vonden we zijn er 80 items in
de collectie die donuts verwijzen.

251
00:13:55,360 --> 00:13:57,150
We kijken naar de eerste 10 van hen.

252
00:13:57,150 --> 00:14:01,890
Nu, kunt u hier zien de manier waarop
Ik zei dat ik ben op zoek naar donuts,

253
00:14:01,890 --> 00:14:04,400
Ik gewoon iets om toegevoegd
de query string van de URL.

254
00:14:04,400 --> 00:14:09,680
Dus q gelijk aan donuts, die u kunt
zien een beetje meer hier.

255
00:14:09,680 --> 00:14:12,131
>> En dit betekent in feite dat er
een specificatie voor de API, die

256
00:14:12,131 --> 00:14:13,880
bepaalt wat al
deze parameters betekenen.

257
00:14:13,880 --> 00:14:17,150
En dit betekent dat we gaan
zoeken alles voor donuts.

258
00:14:17,150 --> 00:14:24,910
>> Dus het eerste item hier hebben we
je kunt zien dat de titel is Donuts,

259
00:14:24,910 --> 00:14:29,310
Er is een ondertitel genoemd
Amerikaanse passie, dat is, denk ik,

260
00:14:29,310 --> 00:14:31,610
geschikt.

261
00:14:31,610 --> 00:14:36,134
Er zijn een heleboel different--

262
00:14:36,134 --> 00:14:38,050
Als je eenmaal op het punt
het krijgen van de gegevens,

263
00:14:38,050 --> 00:14:41,020
er zijn een heleboel verschillende
formats dat je het kunt krijgen in.

264
00:14:41,020 --> 00:14:44,050
En er zijn verschillende sterktes
en zwakke punten voor hen allen.

265
00:14:44,050 --> 00:14:49,000
Dus dit kunt u zien
Hier, deze vorm is zeer rijk.

266
00:14:49,000 --> 00:14:51,946
En het is gestandaardiseerd.

267
00:14:51,946 --> 00:14:55,040
>> Dus er is een specifieke titel
veld, een veld ondertitel.

268
00:14:55,040 --> 00:14:58,950
Er is een alternatieve
titel, Een Amerikaanse Passion.

269
00:14:58,950 --> 00:15:01,650
Er is de naam die ermee verbonden zijn.

270
00:15:01,650 --> 00:15:03,120
Het type van de bron is tekst.

271
00:15:03,120 --> 00:15:06,070
Er is een heleboel informatie
hier in dit formaat.

272
00:15:06,070 --> 00:15:09,480
>> Maar er zijn een heleboel
van verschillende formaten.

273
00:15:09,480 --> 00:15:11,920
Dus wat we waren gewoon
kijken naar een format

274
00:15:11,920 --> 00:15:17,700
genaamd MODS, wat staat voor
Metadata Object Beschrijving Dienst,

275
00:15:17,700 --> 00:15:18,250
potentieel.

276
00:15:18,250 --> 00:15:23,030
Ik ben eigenlijk niet helemaal zeker over de
S. Maar het is een vrij complexe opmaak.

277
00:15:23,030 --> 00:15:24,240
Het is het standaard formaat.

278
00:15:24,240 --> 00:15:30,260
>> Maar het is degene die houdt
de rijkdom van alle gegevens

279
00:15:30,260 --> 00:15:33,820
dat de bibliotheek heeft, omdat
het is heel dicht bij wat

280
00:15:33,820 --> 00:15:35,110
de bibliotheek intern gebruikt.

281
00:15:35,110 --> 00:15:39,030
Het is een standaard die is
gebruikt in het hele land,

282
00:15:39,030 --> 00:15:40,944
over de hele wereld in wetenschappelijke bibliotheken.

283
00:15:40,944 --> 00:15:42,110
En het is heel interoperabel.

284
00:15:42,110 --> 00:15:44,852
Dus als je een document hebt
die in MODS formaat,

285
00:15:44,852 --> 00:15:47,560
je kunt geven dat aan iemand anders
waarvan de systemen te begrijpen MODS,

286
00:15:47,560 --> 00:15:48,518
en ze kunnen importeren.

287
00:15:48,518 --> 00:15:50,840
Dus het is een standaard.

288
00:15:50,840 --> 00:15:54,250
Het is zeer goed gedefinieerd, zeer specifiek.

289
00:15:54,250 --> 00:15:58,980
En dat is wat maakt het
interoperabele want als iemand zegt,

290
00:15:58,980 --> 00:16:04,930
Dit is de alternatieve titel van een
record, iedereen weet wat dat betekent.

291
00:16:04,930 --> 00:16:07,740
Aan de andere kant, het is erg ingewikkeld.

292
00:16:07,740 --> 00:16:13,160
>> Dus als je een kijkje nemen
op hier dit record,

293
00:16:13,160 --> 00:16:15,320
als ik wil gewoon het krijgen
titel van dit document,

294
00:16:15,320 --> 00:16:21,150
van dit boek, dat is waarschijnlijk Donuts,
Een Amerikaanse Passion, het ontleden van het uit

295
00:16:21,150 --> 00:16:22,940
is een beetje betrokken.

296
00:16:22,940 --> 00:16:27,380
Overwegende dat er een andere
formaat genaamd Dublin Core,

297
00:16:27,380 --> 00:16:29,730
wat een veel, veel eenvoudiger formaat.

298
00:16:29,730 --> 00:16:33,764
>> En zo zie je hier, er is geen
titel, ondertitel, alternatieve titel.

299
00:16:33,764 --> 00:16:35,930
Er is gewoon de titel,
Donuts, An American Passion,

300
00:16:35,930 --> 00:16:38,780
en een andere titel, American Passion.

301
00:16:38,780 --> 00:16:42,907
Dus als u op zoek bent naar wat vorm
u wilt de gegevens uit,

302
00:16:42,907 --> 00:16:44,740
veel hangt af van hoe
je gaat om het te gebruiken.

303
00:16:44,740 --> 00:16:46,573
Gebruikt u voor
interoperabiliteit of heb je

304
00:16:46,573 --> 00:16:49,970
willen iets eenvoudig dat
misschien makkelijker om mee te werken?

305
00:16:49,970 --> 00:16:56,002
>> Aan de andere kant, een groot deel van de
details te krijgen soort gepropt zitten.

306
00:16:56,002 --> 00:16:58,460
Je zou de nuances van verliezen
wat een bepaald gebied middel

307
00:16:58,460 --> 00:17:02,960
als je te maken hebt met Dublin Core,
die je niet zou krijgen met MODS.

308
00:17:02,960 --> 00:17:06,462
Dus dat zijn twee van de formaten
je kunt krijgen van de API.

309
00:17:06,462 --> 00:17:08,920
En eigenlijk, we houden
het achter de schermen in MODS.

310
00:17:08,920 --> 00:17:14,179
Maar we kunnen je het in MODS en
Dublin Core en iets anders ook.

311
00:17:14,179 --> 00:17:16,470
De andere overweging bij
u op zoek bent in de data

312
00:17:16,470 --> 00:17:21,210
is dat je kunt krijgen als ofwel JSON, die
staat voor JavaScript Object Notation,

313
00:17:21,210 --> 00:17:24,720
of XML, wat staat voor
Extensible Markup Language.

314
00:17:24,720 --> 00:17:30,080
En deze data representaties zowel
precies dezelfde gegevens precies

315
00:17:30,080 --> 00:17:31,080
dezelfde velden.

316
00:17:31,080 --> 00:17:33,644
Maar ze zijn gewoon
syntactisch verschillend.

317
00:17:33,644 --> 00:17:40,401
>> Dus dit is a--

318
00:17:40,401 --> 00:17:41,400
Nou, laten we gewoon schakelen.

319
00:17:41,400 --> 00:17:47,490
Dus dit is onze vraag voor
donuts in XML-formaat.

320
00:17:47,490 --> 00:17:53,470
Als ik gewoon overschakelen dit om JSON te zijn,
Ik kan zien ziet het er anders uit.

321
00:17:53,470 --> 00:17:58,580
Nu is dezelfde inhoud,
maar een andere structuur.

322
00:17:58,580 --> 00:18:00,080
Er zijn minder punthaken.

323
00:18:00,080 --> 00:18:02,530
Er is minder breedsprakig.

324
00:18:02,530 --> 00:18:06,440
>> En dit is een formaat dat, als je
werkzaam zijn in de web-omgeving,

325
00:18:06,440 --> 00:18:09,680
je bent het meest waarschijnlijk zal
willen gebruiken omdat een

326
00:18:09,680 --> 00:18:12,630
van de leuke dingen over JSON is
het is compatibel met JavaScript.

327
00:18:12,630 --> 00:18:17,680
Dus als ik aan het schrijven ben web app, kan ik trek
in JSON en gewoon werken met het direct.

328
00:18:17,680 --> 00:18:20,187
Overwegende dat met XML, het is een
beetje meer ingewikkeld.

329
00:18:20,187 --> 00:18:21,520
Dus nogmaals, deze zijn beide nuttig.

330
00:18:21,520 --> 00:18:26,387
Ze zijn gewoon verschillende use cases
waar mensen zou willen om ze te gebruiken.

331
00:18:26,387 --> 00:18:26,886
OK.

332
00:18:26,886 --> 00:18:29,810

333
00:18:29,810 --> 00:18:31,680
Dus terug naar de API.

334
00:18:31,680 --> 00:18:32,900
Dus we kunnen zoeken voor--

335
00:18:32,900 --> 00:18:36,220
>> Ik geef een voorbeeld van
op zoek naar donuts.

336
00:18:36,220 --> 00:18:39,330
We kunnen ook zoeken alleen in een
specifieke gebied binnen hier.

337
00:18:39,330 --> 00:18:41,310
Dus in plaats van het zoeken
het hele record,

338
00:18:41,310 --> 00:18:43,870
Ik kan gewoon zoeken op het veld titel.

339
00:18:43,870 --> 00:18:48,810
En nu zijn er 25 dingen die
hebben donuts in de titel, waarvan één

340
00:18:48,810 --> 00:18:52,430
is over het herstellen
wetlands in het management

341
00:18:52,430 --> 00:18:54,990
van het gat in de donut
programma, dat is waarschijnlijk

342
00:18:54,990 --> 00:18:58,970
niet per se wat we zoeken
voor als we op zoek naar donuts.

343
00:18:58,970 --> 00:19:02,790

344
00:19:02,790 --> 00:19:05,490
>> U kunt ook, als je
te maken met een API--

345
00:19:05,490 --> 00:19:08,827
>> Een deel van het hebben een API geeft
mensen toegang tot grote datasets.

346
00:19:08,827 --> 00:19:11,410
En er zijn een paar verschillende
tools die u kunt gebruiken om dat te doen.

347
00:19:11,410 --> 00:19:14,170
Een daarvan is, heel eenvoudig, u
kunt door de gegevens.

348
00:19:14,170 --> 00:19:17,340
Dus net alsof je een query doen
via een webinterface,

349
00:19:17,340 --> 00:19:19,470
U kunt kijken naar de eerste pagina,
pagina twee, pagina drie.

350
00:19:19,470 --> 00:19:22,040
U kunt hetzelfde doen
ding via de API.

351
00:19:22,040 --> 00:19:24,150
Je hoeft alleen maar te zijn
expliciet in hoe je het doet.

352
00:19:24,150 --> 00:19:29,511
>> Dus bijvoorbeeld, als ik ben op zoek
op hier mijn eerste vraag,

353
00:19:29,511 --> 00:19:32,510
waar ik ben bezig met een zoektocht naar de dingen
met donuts in de titel, kan ik zeggen,

354
00:19:32,510 --> 00:19:35,415
en beperken gelijk 20, waardoor
geef mij de eerste 20 records, niet

355
00:19:35,415 --> 00:19:38,540
de eerste 10, de standaard,
omdat ik wil kijken naar 20 per keer.

356
00:19:38,540 --> 00:19:43,435
Of ik kan zeggen, zet de
beginnen gelijk aan 20 en beperken

357
00:19:43,435 --> 00:19:47,150
gelijk 20, die geeft
mij registreert 21 tot en met 40.

358
00:19:47,150 --> 00:19:52,680
>> Dus ik denk dat het ding
om hier weg te nemen is

359
00:19:52,680 --> 00:19:57,290
dat we met behulp van de query strings
parameters op de vraag stellen.

360
00:19:57,290 --> 00:20:02,760
En het laat je de controle
wat je krijgt terug.

361
00:20:02,760 --> 00:20:05,980
>> Een andere tool die je kunt gebruiken, -

362
00:20:05,980 --> 00:20:09,250
>> En dit is echt nuttig in
termen van het verkennen van de gegevens.

363
00:20:09,250 --> 00:20:10,840
>> --is iets genaamd facetten.

364
00:20:10,840 --> 00:20:15,530
Dus de term faceting is
niet noodzakelijkerwijs algemeen.

365
00:20:15,530 --> 00:20:16,880
Maar je hebt al eerder gezien.

366
00:20:16,880 --> 00:20:18,630
Als u een kijkje nemen op
Amazon bijvoorbeeld

367
00:20:18,630 --> 00:20:20,870
en je een zoektocht naar doen
donuts in de boeken,

368
00:20:20,870 --> 00:20:27,080
hier ze hebben een reeks van boeken,
en ze zijn gegroepeerd per categorie,

369
00:20:27,080 --> 00:20:30,470
en krijg je de verschillende categorieën,
en hoeveel boeken in elke categorie

370
00:20:30,470 --> 00:20:31,330
opdagen.

371
00:20:31,330 --> 00:20:33,420
>> Dus dit is eigenlijk een facet.

372
00:20:33,420 --> 00:20:37,570
Je neemt al hun boeken, de 1800
boeken die overeenkomen donuts bij Amazon.

373
00:20:37,570 --> 00:20:39,820
12 van hen zijn in de
ontbijt categorie.

374
00:20:39,820 --> 00:20:43,100
21 in gebak en bakken,
en zo verder en zo voort.

375
00:20:43,100 --> 00:20:47,670
>> Dus dit is echt een nuttig
hulpmiddel voor het verkennen van de inhoud

376
00:20:47,670 --> 00:20:53,260
binnen de bibliotheek ook
want als je kijkt naar een facet,

377
00:20:53,260 --> 00:20:56,520
het geeft je een idee van welke onderwerpen
bestaat, zoals wat typen onderwerpen

378
00:20:56,520 --> 00:20:58,510
zijn het meest populair binnen uw vraag te stellen.

379
00:20:58,510 --> 00:21:00,950
En het helpt je wegrijden en te verkennen.

380
00:21:00,950 --> 00:21:02,770
Dus we kunnen hetzelfde doen.

381
00:21:02,770 --> 00:21:05,940
>> Als we willen het gebruiken
API en kijk naar facetten,

382
00:21:05,940 --> 00:21:08,950
voegen we een andere parameter aan
onze vriend de query string.

383
00:21:08,950 --> 00:21:12,540
Dus facetten komt overeen met een door komma's gescheiden
lijst van wat we willen facet op.

384
00:21:12,540 --> 00:21:14,790
Dus een van de facetten kunnen worden onderworpen.

385
00:21:14,790 --> 00:21:16,565
Een ander zou kunnen zijn taal.

386
00:21:16,565 --> 00:21:19,665
En dus als we lopen dat query, we get--

387
00:21:19,665 --> 00:21:23,372

388
00:21:23,372 --> 00:21:24,830
Het ziet er vrijwel hetzelfde hier.

389
00:21:24,830 --> 00:21:29,010
Maar we hebben toegevoegd aan het einde
van de lijst een reeks facetten.

390
00:21:29,010 --> 00:21:34,060
Dus we hebben een facet genoemd onderwerp.

391
00:21:34,060 --> 00:21:40,250
Dus dit is ons te vertellen dat als ik kijk
bij mijn 80 resultaten van de donut query,

392
00:21:40,250 --> 00:21:42,100
13 van hen hebben de
onderwerpen Verenigde Staten.

393
00:21:42,100 --> 00:21:43,684
Drie hebben het onderwerp donuts.

394
00:21:43,684 --> 00:21:45,600
Drie hebben het onderwerp
van herstel van wetlands,

395
00:21:45,600 --> 00:21:47,720
die onze gat in de donut kunnen zijn.

396
00:21:47,720 --> 00:21:51,780
Twee van hen, de Simpsons,
en zo verder en zo voort.

397
00:21:51,780 --> 00:21:59,211
>> Dus dit kan handig zijn als u zijn
wilt uw zoekopdracht.

398
00:21:59,211 --> 00:22:00,210
Het kan u helpen dat te doen.

399
00:22:00,210 --> 00:22:03,580
Vooral als je
meer dan, zeg, 80 resultaten.

400
00:22:03,580 --> 00:22:05,980
>> Op dezelfde wij ook gevraagd
voor facetten van de taal.

401
00:22:05,980 --> 00:22:14,790
Dus als we kijken naar onze resultaten zien we 76
van hen zijn in het Engels, vier in het Frans,

402
00:22:14,790 --> 00:22:19,620
twee in het Spaans, twee, ik denk dat dat
undefined of onbekende, het Nederlands en het Latijn.

403
00:22:19,620 --> 00:22:22,830
Dus ik denk dat de Latijnse
donut resultaat weer,

404
00:22:22,830 --> 00:22:24,922
heeft niets te maken met gebakken goederen.

405
00:22:24,922 --> 00:22:25,630
Maar daar ga je.

406
00:22:25,630 --> 00:22:31,420

407
00:22:31,420 --> 00:22:38,630
>> Dus dit is een soort van het tonen van je
hoe je kunt de inhoud terug te trekken

408
00:22:38,630 --> 00:22:41,270
van de API alleen via
webbrowser, wat geweldig is.

409
00:22:41,270 --> 00:22:44,320
Maar het is niet echt wat je zou doen
normaal gebruik API voor.

410
00:22:44,320 --> 00:22:48,710
Dus een voorbeeld van hoe u
kon eigenlijk doen is ik heb

411
00:22:48,710 --> 00:22:54,720
schriftelijk een super klein programma,
die, nogmaals, doet mijn donut zoekopdracht

412
00:22:54,720 --> 00:22:59,010
en selecteert een paar velden
en geeft deze weer in een tabel.

413
00:22:59,010 --> 00:23:01,610
Dus dit is zeer de
dezelfde inhoud dat we net

414
00:23:01,610 --> 00:23:04,830
zaag met een paar velden uitgetrokken.

415
00:23:04,830 --> 00:23:12,090
Dus lijst met titels, de
plaats van wat het boek

416
00:23:12,090 --> 00:23:15,120
is over, de taal,
en zo verder en zo voort.

417
00:23:15,120 --> 00:23:20,480
>> Dus hoe dit ook daadwerkelijk gebeurd is, omdat
Ik denk dat we moeten kijken naar wat code,

418
00:23:20,480 --> 00:23:22,420
is--

419
00:23:22,420 --> 00:23:28,060
>> Wat we hier hebben is een eenvoudige HTML
pagina, die de tekst weergeeft,

420
00:23:28,060 --> 00:23:32,900
van harte welkom in de bibliotheek cloud en
toont dan een tabel van de resultaten.

421
00:23:32,900 --> 00:23:37,790
Er zijn natuurlijk geen resultaten
de tafel wanneer de pagina wordt geladen.

422
00:23:37,790 --> 00:23:41,380
Maar wat we doen
is allereerst, we

423
00:23:41,380 --> 00:23:46,290
het laden van een bibliotheek genaamd
jQuery, die in feite

424
00:23:46,290 --> 00:23:52,030
een JavaScript-bibliotheek, die het maakt
zeer gemakkelijk te manipuleren JavaScript

425
00:23:52,030 --> 00:23:58,780
native, HTML, en het creëren van webpagina's,
client-side logica en webpagina's.

426
00:23:58,780 --> 00:24:01,595
>> Dus wat we hier hebben is jQuery
heeft een methode genaamd Get,

427
00:24:01,595 --> 00:24:05,270
die in wezen gaat naar
een URL, die in dit geval,

428
00:24:05,270 --> 00:24:09,070
is dit bekend op zoek URL.

429
00:24:09,070 --> 00:24:14,440
En krijgt dan de inhoud van
dat URL en voer vervolgens een functie op.

430
00:24:14,440 --> 00:24:19,240
Dus zeiden we gaan naar api.lib.harvard / edu.

431
00:24:19,240 --> 00:24:20,060
Zoeken naar donuts.

432
00:24:20,060 --> 00:24:21,300
Geef ons 20 platen.

433
00:24:21,300 --> 00:24:28,590
En dan is deze functie, lopen die
Ik heb gekozen, het doorgeven van de gegevens.

434
00:24:28,590 --> 00:24:34,430
En de gegevens is de JSON dat
kreeg terug van de API.

435
00:24:34,430 --> 00:24:40,120
>> En dan zijn we zeggen, binnen die
data is er een veld genaamd punt.

436
00:24:40,120 --> 00:24:48,117
En als ik ga een kijkje nemen terug op
één van deze resultaten die hier,

437
00:24:48,117 --> 00:24:49,200
er is iets called--

438
00:24:49,200 --> 00:24:50,220
>> Nou ja, het heet voorwerp.

439
00:24:50,220 --> 00:24:53,520
Opdat kan zijn dat.

440
00:24:53,520 --> 00:25:01,840
En wat het doet is het
gaat door elk item

441
00:25:01,840 --> 00:25:05,300
en roept dan nog
functie op elk item.

442
00:25:05,300 --> 00:25:08,440
En die functie in principe
neemt de waarde

443
00:25:08,440 --> 00:25:12,010
van het item, dat is
wezen in het persoonlijk dossier

444
00:25:12,010 --> 00:25:18,220
en laat ons toe te trekken uit de titel,
de dekking en de taal.

445
00:25:18,220 --> 00:25:21,640
>> Dus een functie op elke noemen we
item dat wij terug van de API kreeg.

446
00:25:21,640 --> 00:25:25,397
En als je gewoon een kijkje nemen
op dit stuk hier,

447
00:25:25,397 --> 00:25:27,230
wat we doen is
we zijn het creëren van een string,

448
00:25:27,230 --> 00:25:31,810
die in wezen is wat HTML-opmaak
rond een tafel, met value.title,

449
00:25:31,810 --> 00:25:35,790
dat is de titel van het
voorwerp, value.coverage,

450
00:25:35,790 --> 00:25:36,790
dat de dekking, -

451
00:25:36,790 --> 00:25:38,225
>> En we doen een cheque
hier om te zien wie undefined

452
00:25:38,225 --> 00:25:40,570
en het verbergen van het als het undefined zegt,
omdat we niet echt geïnteresseerd

453
00:25:40,570 --> 00:25:41,600
in dat.

454
00:25:41,600 --> 00:25:42,939
>> --en dan is de taal.

455
00:25:42,939 --> 00:25:44,730
En wat zijn we
doen is het toevoegen van dat

456
00:25:44,730 --> 00:25:48,510
om de tafel, die
die door deze string in.

457
00:25:48,510 --> 00:25:50,790
En hoe jQuery werkt
is wat dit zegt

458
00:25:50,790 --> 00:25:56,420
is op zoek naar de tafel met idee
resultaten en voeg deze tekst aan het.

459
00:25:56,420 --> 00:25:59,380
En dit is de tafel met idee resultaten.

460
00:25:59,380 --> 00:26:04,998
Dus wat je uiteindelijk
met is deze pagina hier.

461
00:26:04,998 --> 00:26:06,206
En om source-- bekijken

462
00:26:06,206 --> 00:26:11,310

463
00:26:11,310 --> 00:26:13,810
Nou, de bron is niet echt
bijgewerkt wanneer dat gebeurde.

464
00:26:13,810 --> 00:26:18,740
Zodat u kunt zien de werkelijke
resultaten van de tabel hier wel.

465
00:26:18,740 --> 00:26:24,770
>> Dus dat is gewoon een simpel voorbeeld van
het doen van een zeer fundamentele vraag tegen de API

466
00:26:24,770 --> 00:26:29,020
en weergeven van informatie op een andere
vormen, en niets te fancy doen.

467
00:26:29,020 --> 00:26:36,370
Nu, een ander voorbeeld is als een
applicatie geschreven door David Weinberger

468
00:26:36,370 --> 00:26:39,120
als een demo van deze, die
laat je in wezen

469
00:26:39,120 --> 00:26:44,620
hoe je kunt mash up van de resultaten die je bent
krijgen uit de bibliotheek cloud API

470
00:26:44,620 --> 00:26:46,250
met, zeg, Google Books.

471
00:26:46,250 --> 00:26:52,225
>> En het denken hier is dat ik kan
een query tegen Google Books,

472
00:26:52,225 --> 00:26:56,060
krijgt een full text search, nog wat resultaten
terug, erachter te komen welke van deze items

473
00:26:56,060 --> 00:27:01,180
werkelijk bestaan ​​in Hollis,
het bibliotheeksysteem,

474
00:27:01,180 --> 00:27:03,200
en dan geef me koppelingen
terug naar die artikelen.

475
00:27:03,200 --> 00:27:12,730
Dus als ik zoek naar, het was
een donkere en stormachtige nacht, ik

476
00:27:12,730 --> 00:27:16,210
terug te krijgen een heleboel resultaten
van Google, en dan is een resultaat

477
00:27:16,210 --> 00:27:19,460
dat is een rimpel in de tijd.

478
00:27:19,460 --> 00:27:29,330
En dit zijn links naar boeken die er bestaan
binnen de Harvard Library systeem.

479
00:27:29,330 --> 00:27:32,160
>> Dus ik denk dat het punt is hier niet
zo veel dat dit kan wel of niet

480
00:27:32,160 --> 00:27:34,118
zijn de manier waarop u wilt
naar de bibliotheek te zoeken,

481
00:27:34,118 --> 00:27:38,310
maar het is een geheel andere
manier die niet beschikbaar was voor u

482
00:27:38,310 --> 00:27:42,884
voor, zoals je had geen manier van doen
volledige tekst zoekt op boeken die zelfs

483
00:27:42,884 --> 00:27:44,550
maakten deel uit van de Harvard Library systeem.

484
00:27:44,550 --> 00:27:46,870
Dus nu is dit een manier
dat je dat kunt doen.

485
00:27:46,870 --> 00:27:51,930
En je kunt ze weer te geven in
welk formaat je wilt.

486
00:27:51,930 --> 00:27:55,990
Dus het punt hier is, in principe,
we nieuwe mogelijkheden te creëren voor mensen

487
00:27:55,990 --> 00:27:59,080
om te werken met de gegevens.

488
00:27:59,080 --> 00:28:07,925
>> Een ander stuk van de bibliotheek cloud is dat
helpt bloot sommige gebruiksgegevens

489
00:28:07,925 --> 00:28:08,800
dat de bibliotheek heeft.

490
00:28:08,800 --> 00:28:12,630
Dus als je naar de bibliotheek,
en je bent op zoek naar boeken,

491
00:28:12,630 --> 00:28:15,770
je per se niet
eigenlijk een idee van,

492
00:28:15,770 --> 00:28:19,080
voor alle items in een
specifiek, wat

493
00:28:19,080 --> 00:28:21,200
zijn mensen in de
gemeenschap, of het nu

494
00:28:21,200 --> 00:28:24,890
gedefinieerd als Harvard of
land of je klas,

495
00:28:24,890 --> 00:28:26,421
wat hebben ze gevonden meest nuttig?

496
00:28:26,421 --> 00:28:28,920
En de bibliotheek heeft eigenlijk een
ton van informatie over wat

497
00:28:28,920 --> 00:28:32,999
is vooral handig omdat als veel
mensen zijn het controleren van een boek,

498
00:28:32,999 --> 00:28:34,040
dat je iets vertelt.

499
00:28:34,040 --> 00:28:36,498
Er moet een reden zijn geweest
ze willen om het te controleren.

500
00:28:36,498 --> 00:28:38,270
Veel mensen zetten het op reserve.

501
00:28:38,270 --> 00:28:42,520
>> Als het op de reservelijst voor een heleboel
van de klassen, die je iets vertelt.

502
00:28:42,520 --> 00:28:45,960
Als docenten zijn het controleren van het
veel en studenten zijn het niet,

503
00:28:45,960 --> 00:28:47,200
dat zegt me iets.

504
00:28:47,200 --> 00:28:49,280
Vice versa, dat ook
vertelt u iets.

505
00:28:49,280 --> 00:28:54,680
Dus het zou echt interessant te zijn
zet dat informatie die er zijn en laat

506
00:28:54,680 --> 00:28:59,969
mensen gebruiken het om hen te helpen vinden
werkt binnen het bibliotheeksysteem.

507
00:28:59,969 --> 00:29:02,260
De keerzijde hiervan is
er zijn een aantal ernstige privacy

508
00:29:02,260 --> 00:29:07,854
zorgen omdat een van de
basisprincipes van de bibliotheek

509
00:29:07,854 --> 00:29:10,770
is dat we niet van plan om te vertellen
mensen wat andere mensen aan het lezen bent.

510
00:29:10,770 --> 00:29:17,360
En zelfs als je dit zegt
boek werd vier keer uitgecheckt

511
00:29:17,360 --> 00:29:20,070
in een bepaalde maand,
dat kan worden gebruikt

512
00:29:20,070 --> 00:29:25,252
om terug te koppelen aan een bepaalde
persoon door de-anonimiseren gegevens

513
00:29:25,252 --> 00:29:26,710
en uit te vinden wie uitgecheckt.

514
00:29:26,710 --> 00:29:30,792
Dus de manier waarop we kunnen avoid--

515
00:29:30,792 --> 00:29:33,750
De manier waarop we kunnen proberen te halen
sommige signaal van alle informatie

516
00:29:33,750 --> 00:29:36,740
zonder inbreuk te maken
persoonlijke levenssfeer ieders

517
00:29:36,740 --> 00:29:42,150
is in wezen we kijken naar
10 jaar van datagebruik, -

518
00:29:42,150 --> 00:29:43,930
>> Dus het is over een lange tijdsperiode.

519
00:29:43,930 --> 00:29:50,639
>> --en zeggen, OK, laten we eens kijken hoe
vele malen dit werk werd gebruikt,

520
00:29:50,639 --> 00:29:52,930
en door die over deze periode
van de tijd, en dan in principe

521
00:29:52,930 --> 00:29:56,300
terug te geven een aantal, dat noemen we
een stapel score, die in feite

522
00:29:56,300 --> 00:29:59,910
vertegenwoordigt hoeveel het is al gebruikt.

523
00:29:59,910 --> 00:30:01,084
En dat number--

524
00:30:01,084 --> 00:30:03,250
Een heleboel verschillende berekeningen
ga in dat nummer.

525
00:30:03,250 --> 00:30:05,150
--maar het is een zeer ruwe
metric die u

526
00:30:05,150 --> 00:30:11,300
een idee van hoe de
gemeenschap kan dat werk waarderen.

527
00:30:11,300 --> 00:30:16,772
>> En dus een ander soort zelfs
meer uitgewerkt applicatie

528
00:30:16,772 --> 00:30:18,480
dat gebruik maakt
dit is iets

529
00:30:18,480 --> 00:30:24,000
genaamd Stacklife, dat is eigenlijk
beschikbaar via de belangrijkste Harvard

530
00:30:24,000 --> 00:30:24,880
Bibliotheek portal.

531
00:30:24,880 --> 00:30:26,700
Dus ga je naar library.harvard.edu.

532
00:30:26,700 --> 00:30:29,360
Je zult een aantal verschillende zien
zoekmethoden de bibliotheek.

533
00:30:29,360 --> 00:30:32,300
En een van hen wordt genoemd Stacklife.

534
00:30:32,300 --> 00:30:38,980
>> En dit is een applicatie die
doorzoekt de inhoud van de bibliotheek,

535
00:30:38,980 --> 00:30:43,490
maar is volledig gebouwd
bovenop deze API.

536
00:30:43,490 --> 00:30:46,910
Dus er is geen speciale spullen
er achter de schermen.

537
00:30:46,910 --> 00:30:49,570
Er is geen toegang tot
gegevens die u niet hebt.

538
00:30:49,570 --> 00:30:54,090
Het is met behulp van de API's om u te voorzien
met een compleet andere browsen

539
00:30:54,090 --> 00:30:55,480
ervaring.

540
00:30:55,480 --> 00:30:58,570
>> Dus als ik zoek naar Alice
in Wonderland in dit geval,

541
00:30:58,570 --> 00:31:02,600
Ik krijg een resultaat dat lijkt op
dit, dat is vrij much--

542
00:31:02,600 --> 00:31:05,430

543
00:31:05,430 --> 00:31:10,870
>> Het is zeer vergelijkbaar met een andere zoekopdracht
je zou kunnen doen, behalve in dit geval

544
00:31:10,870 --> 00:31:15,730
we de rangschikking van de items door
stackscore, die u geeft

545
00:31:15,730 --> 00:31:19,850
een idee van hoe populair deze
items waren binnen de gemeenschap.

546
00:31:19,850 --> 00:31:25,610
En zo duidelijk, Alice in Wonderland
door Walt Disney is zeer populair.

547
00:31:25,610 --> 00:31:36,570
Maar je kunt ook de top vier
hier zijn degenen die je misschien niet actually--

548
00:31:36,570 --> 00:31:39,220
>> Dingen die in hoge mate worden gebruikt,
maar je mag niet onmiddellijk

549
00:31:39,220 --> 00:31:41,240
verbinden met Alice in Wonderland.

550
00:31:41,240 --> 00:31:44,650
Dus onze oude vriend The
Geannoteerde Alice is hier.

551
00:31:44,650 --> 00:31:46,350
Dus ik kan een kijkje nemen op het.

552
00:31:46,350 --> 00:31:52,010
En nu wat ik zoek
in feite een ingesteld van--

553
00:31:52,010 --> 00:31:53,760
Ik kan Geannoteerde hebben
Alice hier.

554
00:31:53,760 --> 00:31:56,700
Ik heb informatie over.

555
00:31:56,700 --> 00:32:00,230
En ik heb ook een stackscore
van, in dit geval, 26.

556
00:32:00,230 --> 00:32:03,169
En dit zegt me soort van ruwweg
hoe we dit stackscore,

557
00:32:03,169 --> 00:32:05,835
zoals wie uitgecheckt, zoals hoe
vele malen werd uitgecheckt,

558
00:32:05,835 --> 00:32:08,440
zoals faculteit of undergrads, hoe
veel exemplaren van de bibliotheek,

559
00:32:08,440 --> 00:32:11,300
en zo verder en zo voort.

560
00:32:11,300 --> 00:32:16,460
>> En je kunt ook, interessant genoeg
hier, browse door de stapels virtueel.

561
00:32:16,460 --> 00:32:19,550
Zodat de gegevens hier, dit
toont u sorteren

562
00:32:19,550 --> 00:32:23,547
van een virtuele representatie
van wat de plank macht

563
00:32:23,547 --> 00:32:25,880
uitzien als je te nemen
alle bedrijven van de bibliotheek

564
00:32:25,880 --> 00:32:28,940
en zet ze samen
één oneindige plank.

565
00:32:28,940 --> 00:32:30,990
En het leuke is dat we can--

566
00:32:30,990 --> 00:32:33,380
>> Allereerst, de
metadata over deze boeken

567
00:32:33,380 --> 00:32:35,627
vaak vertelt u wanneer het werd gepubliceerd.

568
00:32:35,627 --> 00:32:37,085
Het vertelt je hoeveel pagina's het heeft.

569
00:32:37,085 --> 00:32:38,459
Het zou u vertellen de afmetingen.

570
00:32:38,459 --> 00:32:42,930
Zodat u kunt zien dat is hier terug te vinden
in termen van de omvang van de boeken.

571
00:32:42,930 --> 00:32:46,740
>> En dan kunnen we gebruik maken van de
stapelen score te markeren

572
00:32:46,740 --> 00:32:49,170
de boeken die hogere stapel scores hebben.

573
00:32:49,170 --> 00:32:54,930
Dus als het donkerder, betekent dat,
Vermoedelijk wordt vaker gebruikt.

574
00:32:54,930 --> 00:32:57,040
Dus in dit geval, ik ben
gaan om te raden dat deze

575
00:32:57,040 --> 00:33:03,226
is de versie van Alice in Wonderland
die zeer vaak gebruikte en

576
00:33:03,226 --> 00:33:05,100
geopend, de bibliotheek
heeft de meeste exemplaren van.

577
00:33:05,100 --> 00:33:06,975
Dus als u op zoek bent
voor Alice in Wonderland,

578
00:33:06,975 --> 00:33:10,220
dit is misschien een goede plek om te beginnen.

579
00:33:10,220 --> 00:33:13,500
>> En dan hier kunt u ook een koppeling uit
naar, zeg, Amazon om het boek te kopen,

580
00:33:13,500 --> 00:33:15,182
en zo verder en zo voort.

581
00:33:15,182 --> 00:33:17,140
Het punt hier, nogmaals,
is niet zozeer dat deze

582
00:33:17,140 --> 00:33:25,030
is de beste manier om de bibliotheek te bladeren
of het juiste gereedschap voor elke gelegenheid.

583
00:33:25,030 --> 00:33:28,400
Maar het is een andere manier van doen.

584
00:33:28,400 --> 00:33:31,359
En door de gegevens
verkrijgbaar via een API, die

585
00:33:31,359 --> 00:33:34,650
is gemaakt van zeer eenvoudige bouwstenen,
waarmee u de inhoud doorzoeken,

586
00:33:34,650 --> 00:33:39,420
kun je iets op te bouwen
als dit, dat kan

587
00:33:39,420 --> 00:33:41,520
zijn buitengewoon
waardevol voor sommige mensen.

588
00:33:41,520 --> 00:33:46,640

589
00:33:46,640 --> 00:33:51,860
>> Dus dat is een soort van, zoveel als ik wil
om echt te zeggen over wat de API is

590
00:33:51,860 --> 00:33:56,070
en wat het bloot, er is een hele
heleboel dingen achter de schermen, die

591
00:33:56,070 --> 00:33:59,480
Ik ga gewoon aan te raken op het kort
gewoon omdat het soort komt op deze

592
00:33:59,480 --> 00:34:03,720
vanuit een andere hoek
termen van hoe werkt zoiets als dit

593
00:34:03,720 --> 00:34:04,580
krijgen op zijn plaats te zetten?

594
00:34:04,580 --> 00:34:10,820
>> Dus een API is een standaard
interface naar alle van deze inhoud.

595
00:34:10,820 --> 00:34:13,820
Maar om het daar, het krijgen
eerste wat we moesten doen

596
00:34:13,820 --> 00:34:17,260
werd samen te trekken informatie
van boeken en beelden

597
00:34:17,260 --> 00:34:21,580
en het vinden van hulpmiddelen, de collectie
document uit verschillende Harvard systemen.

598
00:34:21,580 --> 00:34:23,929
Aleph, VIA, en OASIS zijn
de namen van de systemen.

599
00:34:23,929 --> 00:34:28,820
En ze wezen gaan in een
pijpleiding, een verwerking pijplijn.

600
00:34:28,820 --> 00:34:33,230
>> Dus in de eerste plaats, krijgen we export
bestanden van al deze systemen.

601
00:34:33,230 --> 00:34:35,130
We splitsen in afzonderlijke artikelen.

602
00:34:35,130 --> 00:34:39,360
Dus we hebben een bestand, dat is een gigabyte,
die een miljoen records in het.

603
00:34:39,360 --> 00:34:42,290
Dus we splitsen in afzonderlijke artikelen.

604
00:34:42,290 --> 00:34:45,374
Dan, voor elk item, zetten we het
in MODS, omdat sommige van deze

605
00:34:45,374 --> 00:34:47,040
zijn native MODS, sommige van hen zijn niet.

606
00:34:47,040 --> 00:34:49,204
Dus krijgen we ze allemaal
in hetzelfde formaat.

607
00:34:49,204 --> 00:34:51,120
Dan zijn er verschillende
verrijking stappen, waarbij

608
00:34:51,120 --> 00:34:55,969
we meer informatie toevoegen aan de gegevens
dan is in de bibliotheek.

609
00:34:55,969 --> 00:34:59,750
Dus we moeten eerst toevoegen, van alle
wij hebben wat bibliotheken vasthouden.

610
00:34:59,750 --> 00:35:02,250
We gaan door een stap van
berekenen van de stackscore.

611
00:35:02,250 --> 00:35:07,112
We gaan door een andere stap van
toevoegen van meer metadata in termen

612
00:35:07,112 --> 00:35:10,730
van wat collecties mensen
zou hebben toegevoegd dit--

613
00:35:10,730 --> 00:35:12,532
>> Mensen zijn het creëren van
verzamelingen van artikelen.

614
00:35:12,532 --> 00:35:13,990
Wat collecties behoort het tot?

615
00:35:13,990 --> 00:35:17,220
Hoe hebben de mensen getagd
deze inhoud in het verleden?

616
00:35:17,220 --> 00:35:20,750
Dan filteren je uit, en je beperken
de administratie, omdat, zoals ik al zei,

617
00:35:20,750 --> 00:35:24,120
er is een aantal records dat, als gevolg van
auteursrechtelijke redenen, kunnen we niet geven.

618
00:35:24,120 --> 00:35:26,700
En ze vervolgens te laden we
in iets riep

619
00:35:26,700 --> 00:35:31,680
SOLR, die geen verkeerde spelling, maar
is de naam van een stuk software

620
00:35:31,680 --> 00:35:35,710
dat doet zoeken indexeren, hetgeen
rijdt al het zoeken achter de API.

621
00:35:35,710 --> 00:35:40,110
En dan is het beschikbaar voor wordt
de API, en mensen kunnen het gebruiken.

622
00:35:40,110 --> 00:35:44,640
>> Dus dit is als een vrij
eenvoudig proces.

623
00:35:44,640 --> 00:35:47,230
Eén van de interessante
dingen over het is

624
00:35:47,230 --> 00:35:50,990
dat we te maken hebben
met 13 miljoen platen

625
00:35:50,990 --> 00:35:53,820
en we gaan te maken te hebben of meer.

626
00:35:53,820 --> 00:36:01,260
En we willen kunnen verwerken
deze in een relatief snelle manier.

627
00:36:01,260 --> 00:36:03,630
Het duurt een lange tijd om
verwerken 13 miljoen platen.

628
00:36:03,630 --> 00:36:09,529
>> Dus hoe deze pijpleiding is
set-up is dat je can--

629
00:36:09,529 --> 00:36:12,070
Ik denk dat het voordeel van de
pijpleiding, het probleem is dat we

630
00:36:12,070 --> 00:36:15,580
probeer te lossen, is dat
alle transformaties, alle

631
00:36:15,580 --> 00:36:18,729
deze stappen in deze
pijplijn te scheiden zijn.

632
00:36:18,729 --> 00:36:19,645
Er is geen afhankelijkheid.

633
00:36:19,645 --> 00:36:22,146
Als je het verwerken
een record van een boek,

634
00:36:22,146 --> 00:36:24,270
er is geen afhankelijkheid in
dat tussen een ander boek.

635
00:36:24,270 --> 00:36:27,760
>> Dus wat we kunnen doen is in principe,
bij elke stap in de pijplijn,

636
00:36:27,760 --> 00:36:30,470
we zetten het in een wachtrij in de cloud.

637
00:36:30,470 --> 00:36:32,250
Ik was toevallig op Amazon Web Services.

638
00:36:32,250 --> 00:36:35,140
Dus er is een lijst van,
zeggen, 10.000 items die

639
00:36:35,140 --> 00:36:38,100
moeten genormaliseerd worden en
geconverteerd naar MODS formaat.

640
00:36:38,100 --> 00:36:41,620
En we draaien als veel servers
als we willen, misschien 10 servers.

641
00:36:41,620 --> 00:36:44,860
En elk van deze servers alleen
zit daar, kijkt in die wachtrij,

642
00:36:44,860 --> 00:36:46,730
ziet dat er een die moet
worden verwerkt, trekt het uit de wachtrij,

643
00:36:46,730 --> 00:36:48,740
verwerkt deze en stokken
het op de volgende rij.

644
00:36:48,740 --> 00:36:54,200
>> En dus wat dat ons in staat stelt
te doen is toe te passen, in wezen,

645
00:36:54,200 --> 00:36:58,110
zoveel hardware als we dit willen
probleem voor een zeer korte periode

646
00:36:58,110 --> 00:37:02,970
zo snel als de gegevens verwerken
mogelijk, dat is iets dat alleen,

647
00:37:02,970 --> 00:37:08,220
nu in de wereld van cloud computing
kunnen we bepaling servers wezen

648
00:37:08,220 --> 00:37:09,890
ogenblikkelijk, dat nuttig.

649
00:37:09,890 --> 00:37:12,260
Dus we hoeven niet een hebben
gigantische server zitten rond

650
00:37:12,260 --> 00:37:16,700
de hele tijd om de verwerking te doen
dat zou kunnen maar een keer per week gebeuren.

651
00:37:16,700 --> 00:37:21,440
>> Dus dat is meestal het.

652
00:37:21,440 --> 00:37:27,590
Er is documentatie beschikbaar
voor de Bibliotheek Cloud Item API

653
00:37:27,590 --> 00:37:31,960
op deze URL, die zal
zijn later beschikbaar.

654
00:37:31,960 --> 00:37:36,730
En ga dan een kijkje nemen op
om te zien of er iets is,

655
00:37:36,730 --> 00:37:37,579
u ideeën.

656
00:37:37,579 --> 00:37:38,120
Ermee spelen.

657
00:37:38,120 --> 00:37:38,830
Gek rond.

658
00:37:38,830 --> 00:37:42,800
En hopelijk u kunt komen
omhoog met iets groots.

659
00:37:42,800 --> 00:37:44,740
Dankjewel.

660
00:37:44,740 --> 00:37:45,899