1
00:00:00,000 --> 00:00:11,370

2
00:00:11,370 --> 00:00:12,370
JEFFREY LICHT: Hej der.

3
00:00:12,370 --> 00:00:13,550
Jeg er Jeffrey Licht.

4
00:00:13,550 --> 00:00:17,890
Og jeg er her for at tale med dig om det
Harvard Library og bygning morgendagens

5
00:00:17,890 --> 00:00:20,870
bibliotek i dag, tror jeg.

6
00:00:20,870 --> 00:00:23,040
Så baggrunden her,
banen for denne session

7
00:00:23,040 --> 00:00:26,930
er i det væsentlige, at der er
en masse af bibliografiske data

8
00:00:26,930 --> 00:00:28,400
tilgængelig i Harvard biblioteker.

9
00:00:28,400 --> 00:00:33,434
Og der er en mulighed,
gennem nogle af de værktøjer

10
00:00:33,434 --> 00:00:36,350
og et projekt, der er under udvikling,
at få adgang til de oplysninger,

11
00:00:36,350 --> 00:00:42,430
og tage det til steder, som den
Harvard Library ikke gør lige nu,

12
00:00:42,430 --> 00:00:45,460
gøre nye ting med det, eksperimentere
og lege med det.

13
00:00:45,460 --> 00:00:52,413
>> Så indgang til dette er en API
kaldet Harvard Library Cloud, som

14
00:00:52,413 --> 00:00:57,650
er en åben metadata server,
som jeg vil tale om nu.

15
00:00:57,650 --> 00:01:02,595
Så baggrunden er, at der er en
masse ting i Harvard-biblioteket.

16
00:01:02,595 --> 00:01:07,150
Vi har over 13 millioner bibliografiske
optegnelser, millioner af billeder,

17
00:01:07,150 --> 00:01:11,090
og tusindvis af finde hjælpemidler, der
er væsentlige dokumenter, der beskriver

18
00:01:11,090 --> 00:01:15,500
samlinger, siger hvad
er i dem, kasser med papirer

19
00:01:15,500 --> 00:01:21,080
og så videre, der repræsenterer over
en million enkelte dokumenter.

20
00:01:21,080 --> 00:01:24,290
Og der er også en masse
oplysninger om, at biblioteket har

21
00:01:24,290 --> 00:01:28,180
om, hvordan indholdet anvendes som
kunne være af interesse for mennesker

22
00:01:28,180 --> 00:01:32,400
som måske ønsker at arbejde med det.

23
00:01:32,400 --> 00:01:36,150
>> Så alle de oplysninger
biblioteket har metadata.

24
00:01:36,150 --> 00:01:39,500
Så metadata er data om data.

25
00:01:39,500 --> 00:01:42,070
Så når vi taler om
de oplysninger, der er

26
00:01:42,070 --> 00:01:44,890
tilgængelige via biblioteket
sky, der er til rådighed,

27
00:01:44,890 --> 00:01:47,760
det er ikke nødvendigvis
den faktiske dokumenter

28
00:01:47,760 --> 00:01:53,060
selv ikke nødvendigvis den fulde
Teksten bøger eller de fulde billeder,

29
00:01:53,060 --> 00:01:54,890
selv om det kan faktisk være tilfældet.

30
00:01:54,890 --> 00:01:57,550
Men det er virkelig
oplysninger om dataene.

31
00:01:57,550 --> 00:02:00,909
>> Så du kan tænke på katalogisering
information, telefonnumre, fag,

32
00:02:00,909 --> 00:02:02,700
hvor mange kopier af
bog er der, hvad

33
00:02:02,700 --> 00:02:06,380
er de udgaver, hvad er det
formater, forfatterne, og så videre.

34
00:02:06,380 --> 00:02:12,250
Så der er en masse oplysninger om
oplysningerne i den samling,,

35
00:02:12,250 --> 00:02:14,400
i sig selv er slags iboende nyttig.

36
00:02:14,400 --> 00:02:19,230
Og selv hvis du er
gøre grundig forskning,

37
00:02:19,230 --> 00:02:25,160
du naturligvis ønsker at komme til den faktiske
nøjes og se på dataene,

38
00:02:25,160 --> 00:02:30,140
metadata er nyttig med hensyn til
både analysere corpus som helhed,

39
00:02:30,140 --> 00:02:33,870
lige hvad tingene er i samlingen.

40
00:02:33,870 --> 00:02:35,520
Hvordan de vedrører?

41
00:02:35,520 --> 00:02:39,482
Det hjælper du virkelig finde andre ting,
som er virkelig det vigtigste formål med den.

42
00:02:39,482 --> 00:02:41,190
Pointen i
metadata og kataloget

43
00:02:41,190 --> 00:02:43,230
er at hjælpe dig med at finde alle
de oplysninger, der er

44
00:02:43,230 --> 00:02:46,590
rådighed inden for de samlinger.

45
00:02:46,590 --> 00:02:53,690
>> Så dette er et eksempel på metadata
for en bog i Harvard Library.

46
00:02:53,690 --> 00:02:56,370
Så det er der.

47
00:02:56,370 --> 00:02:59,850
Og du kan se, det er
faktisk moderat kompleks.

48
00:02:59,850 --> 00:03:04,610
Og en del af værdien af ​​metadata
inden Harvard Library systemet

49
00:03:04,610 --> 00:03:09,320
er, at det har været slags
af bygget op af catalogers

50
00:03:09,320 --> 00:03:12,720
og samlet af personer, der ansøger
en masse af ekspertise og dygtighed

51
00:03:12,720 --> 00:03:20,030
og tænkte at det over tid,
som har en masse værdi.

52
00:03:20,030 --> 00:03:25,450
>> Så hvis du tager et kig på denne rekord for
Kommenteret Alice, kan du finde ud af

53
00:03:25,450 --> 00:03:32,590
du har fået titlen, der skrev det, det
forfatter, og alle de forskellige fag

54
00:03:32,590 --> 00:03:35,380
som folk har katalogiseret det ind.

55
00:03:35,380 --> 00:03:40,110
Og du kan se er der også, i
Foruden en masse god information

56
00:03:40,110 --> 00:03:42,852
her, er der nogle overlapning.

57
00:03:42,852 --> 00:03:45,560
Der er en masse af kompleksitet, der er
afspejles gennem metadata

58
00:03:45,560 --> 00:03:46,300
som du har.

59
00:03:46,300 --> 00:03:50,320
>> Så en titlen på denne bog er
Alice i Eventyrland.

60
00:03:50,320 --> 00:03:53,880
Så dette er en annoteret
version af denne bog.

61
00:03:53,880 --> 00:03:56,380
Men det er også kaldet den kommenterede
Alice, Alice Adventures

62
00:03:56,380 --> 00:03:58,570
i Eventyrland, fordi
det er noget, som

63
00:03:58,570 --> 00:04:00,430
Martin Gardner skrev
og kommenteret bogen.

64
00:04:00,430 --> 00:04:03,369
Og der er en masse store oplysninger
om logiske gåder og ting

65
00:04:03,369 --> 00:04:05,410
inden Alice, at du
sandsynligvis ikke kender til.

66
00:04:05,410 --> 00:04:07,000
Så du skal gå læse den.

67
00:04:07,000 --> 00:04:11,940
>> Men du kan se, at der er
en masse detaljer her,

68
00:04:11,940 --> 00:04:15,340
herunder identifikatorer, når det
blev oprettet, hvor den kom fra,

69
00:04:15,340 --> 00:04:17,420
i form af Harvard
systemet, og så videre.

70
00:04:17,420 --> 00:04:20,350
Så dette er et eksempel på
typen af ​​metadata

71
00:04:20,350 --> 00:04:24,340
at du måske se en bog i
Harvard Library kollektionen.

72
00:04:24,340 --> 00:04:26,680
>> Det er noget helt andet.

73
00:04:26,680 --> 00:04:32,610
Så der er et system kaldet
VIA Harvard, som dybest set

74
00:04:32,610 --> 00:04:39,990
katalogisering af billeder og kunstgenstande
og visuelle ting hele Harvard,

75
00:04:39,990 --> 00:04:44,010
og tilføje nogle metadata
til dem, klassificere dem,

76
00:04:44,010 --> 00:04:49,200
og i nogle tilfælde give
små miniaturebilleder

77
00:04:49,200 --> 00:04:51,250
at du kan tage en
se på, hvis du ønsker det.

78
00:04:51,250 --> 00:04:54,240
>> Så dette er et eksempel på
metadata, du har for en plade

79
00:04:54,240 --> 00:04:57,840
fra, formentlig, Alice i Eventyrland.

80
00:04:57,840 --> 00:05:00,499
Og du kan se der er
færre metadata her.

81
00:05:00,499 --> 00:05:02,040
Det er bare en anden slags objekt.

82
00:05:02,040 --> 00:05:03,425
Og så der er færre oplysninger.

83
00:05:03,425 --> 00:05:07,790
>> Du har hovedsagelig den omstændighed, at et opkald
nummer, hovedsagelig som skabte det, -

84
00:05:07,790 --> 00:05:10,410
>> Vi ved ikke, hvornår den blev oprettet.

85
00:05:10,410 --> 00:05:13,320
>> DET-- en titel.

86
00:05:13,320 --> 00:05:14,300
>> Et andet eksempel.

87
00:05:14,300 --> 00:05:16,380
Det er en konstatering støtte.

88
00:05:16,380 --> 00:05:19,030
Så der er en samling af Lewis
Carroll papirer på Harvard.

89
00:05:19,030 --> 00:05:23,601
Så dette beskriver, hvad
er i denne samling.

90
00:05:23,601 --> 00:05:26,100
Så nogen har været igennem, og
kiggede gennem alle boksene

91
00:05:26,100 --> 00:05:32,220
og katalogiseret det, givet nogle baggrund,
skrevet en oversigt over, hvad der er her.

92
00:05:32,220 --> 00:05:35,290
Og hvis du skulle kigge
yderligere på dette, dette

93
00:05:35,290 --> 00:05:39,620
går for sider og sider
og sider, men vil fortælle dig

94
00:05:39,620 --> 00:05:41,860
hvilke bogstaver og hvad
datoer Fra hvad kasser

95
00:05:41,860 --> 00:05:44,289
eksisterede i hele kollektionen.

96
00:05:44,289 --> 00:05:46,330
Men det er noget
at hvis du er på Harvard,

97
00:05:46,330 --> 00:05:50,720
du kan gå og rent fysisk se
op og, formentlig, tage et kig på.

98
00:05:50,720 --> 00:05:53,440
>> Så dette er alle store.

99
00:05:53,440 --> 00:05:54,450
Denne metadata er nyttige.

100
00:05:54,450 --> 00:05:56,327
Det er i Harvard Library system.

101
00:05:56,327 --> 00:05:58,910
Der er værktøjer online, hvor du
kan gå og tage et kig på det,

102
00:05:58,910 --> 00:05:59,993
og se det, og søg den.

103
00:05:59,993 --> 00:06:02,810
Og du kan skære det og terninger
det på mange forskellige måder.

104
00:06:02,810 --> 00:06:06,920
>> Men det er virkelig kun tilgængelig, hvis
du er et menneske sidder ned

105
00:06:06,920 --> 00:06:12,600
på din webbrowser eller noget eller
telefonen og navigere igennem den.

106
00:06:12,600 --> 00:06:16,730
Det er egentlig ikke tilgængelig i
enhver form for anvendelig mode

107
00:06:16,730 --> 00:06:19,520
for andre systemer eller
andre computere at bruge,

108
00:06:19,520 --> 00:06:21,500
ikke med systemer inden
Harvard Library,

109
00:06:21,500 --> 00:06:24,890
men systemer i omverdenen,
bare andre mennesker generelt.

110
00:06:24,890 --> 00:06:30,210
Så spørgsmålet er, kan vi, hvordan
gøre det tilgængeligt for computere

111
00:06:30,210 --> 00:06:33,560
så vi kan gøre mere interessant
ting med det, end blot

112
00:06:33,560 --> 00:06:36,550
browsing det selv?

113
00:06:36,550 --> 00:06:39,766
>> Så hvorfor skulle du ønsker at gøre dette?

114
00:06:39,766 --> 00:06:41,140
Der er en masse muligheder.

115
00:06:41,140 --> 00:06:43,980
Den ene er, at du kan bygge en helt
anderledes måde browsing

116
00:06:43,980 --> 00:06:46,962
det indhold, der er til rådighed
gennem Harvard biblioteker.

117
00:06:46,962 --> 00:06:48,670
Jeg vil vise dig en
senere kaldet Stacklife,

118
00:06:48,670 --> 00:06:52,440
som har en helt anden
tage på udkig efter indhold.

119
00:06:52,440 --> 00:06:54,560
>> Du kan bygge en anbefaling motor.

120
00:06:54,560 --> 00:06:57,955
Så Harvard Library er ikke i
virksomhed for at sige, du kan lide denne bog.

121
00:06:57,955 --> 00:07:01,080
Så gå tage et kig på disse 17 andre
bøger, som du kan være interesseret i

122
00:07:01,080 --> 00:07:03,200
eller disse 18 andre billeder.

123
00:07:03,200 --> 00:07:06,040
Men det helt sikkert kunne
være en værdifuld funktion.

124
00:07:06,040 --> 00:07:09,272
Og i betragtning af metadata, kan den
være muligt at sætte det sammen.

125
00:07:09,272 --> 00:07:11,980
Du kan have forskellige behov i
Betingelser for at søge på indhold,

126
00:07:11,980 --> 00:07:16,200
som måske på trods af de værktøjer, som
findes at biblioteket gør

127
00:07:16,200 --> 00:07:18,450
tilgængelige, kan du
at søge på en anden måde

128
00:07:18,450 --> 00:07:21,847
eller optimere til en bestemt anvendelse sag,
som måske er det meget specialiseret.

129
00:07:21,847 --> 00:07:23,930
Måske er der kun nogle få
mennesker i verden, der

130
00:07:23,930 --> 00:07:25,846
ønsker at søge på indhold
på denne måde, men det

131
00:07:25,846 --> 00:07:28,985
ville være dejligt, hvis vi
kunne lade dem gøre det.

132
00:07:28,985 --> 00:07:30,860
Der er en masse analytics
på bare hvordan folk

133
00:07:30,860 --> 00:07:33,860
bruge indholdet, der ville være virkelig
interessant at vide om, finde ud af

134
00:07:33,860 --> 00:07:37,280
Hvilke bøger bliver brugt,
hvad er ikke, og så videre.

135
00:07:37,280 --> 00:07:41,670
Og så er der en masse
mulighed for at integrere

136
00:07:41,670 --> 00:07:45,210
med andre oplysninger
der er derude på nettet.

137
00:07:45,210 --> 00:07:46,880
Så vi have--

138
00:07:46,880 --> 00:07:50,260
>> For eksempel NPR har
en boganmeldelse segment,

139
00:07:50,260 --> 00:07:53,090
hvor de interviewer
forfattere om bøger.

140
00:07:53,090 --> 00:07:56,837
Og så det ville være dejligt, hvis du var
kigge op en bog i Harvard

141
00:07:56,837 --> 00:07:59,670
Bibliotek, og du siger, OK, er der
været et interview med forfatteren.

142
00:07:59,670 --> 00:08:00,878
Lad os gå tage et kig på det.

143
00:08:00,878 --> 00:08:05,461
Eller der er en Wikipedia side, som en
autoritativ, videnskabelig henvisning

144
00:08:05,461 --> 00:08:07,710
om denne bog, som du
måske ønsker at tage et kig på.

145
00:08:07,710 --> 00:08:12,600
>> Der er disse typer af kilder
spredt over hele nettet.

146
00:08:12,600 --> 00:08:16,555
Og at samle dem
kunne være en stor brug

147
00:08:16,555 --> 00:08:18,930
til en person ser på
indhold, på udkig efter noget.

148
00:08:18,930 --> 00:08:20,180
Men det er heller ikke den
slags ting du ville

149
00:08:20,180 --> 00:08:23,205
ønsker biblioteket at være ansvarlig
for at gå ned og jagt ned

150
00:08:23,205 --> 00:08:25,455
alle disse forskellige kilder
og sætte dem sammen

151
00:08:25,455 --> 00:08:28,920
fordi de ændrer sig konstant.

152
00:08:28,920 --> 00:08:33,570
Og hvad de synes er vigtigt maj
ikke være, hvad du synes er vigtigt.

153
00:08:33,570 --> 00:08:36,929
>> Og endnu mere, dybest set er der en
masse ting, vi ikke har tænkt på endnu.

154
00:08:36,929 --> 00:08:42,222
Så hvis vi kan åbne denne op, mere
mennesker foruden et halvt dusin eller så,

155
00:08:42,222 --> 00:08:45,174
der kigger på dette på en
regelmæssigt kan tænke på ideer

156
00:08:45,174 --> 00:08:47,340
og massere af data, og
gøre hvad de vil med det.

157
00:08:47,340 --> 00:08:49,920

158
00:08:49,920 --> 00:08:54,045
>> Så vi ønsker at gøre dette
data til rådighed for verden.

159
00:08:54,045 --> 00:08:55,670
Nå, der er et par komplikationer.

160
00:08:55,670 --> 00:08:58,540
Den ene er, at denne metadata
er i forskellige systemer.

161
00:08:58,540 --> 00:09:01,110
Det er i forskellige formater.

162
00:09:01,110 --> 00:09:04,719
Så der er en vis normalisering
der skal ske,

163
00:09:04,719 --> 00:09:08,010
som normalisering er processen
bringer ting fra forskellige formater

164
00:09:08,010 --> 00:09:12,940
og kortlægge dem til et enkelt format
således at felterne vil matche op.

165
00:09:12,940 --> 00:09:15,160
>> Der er nogle begrænsninger ophavsret.

166
00:09:15,160 --> 00:09:21,010
Mærkeligt nok, kataloget post
om en bog er ansvarlig for ophavsret.

167
00:09:21,010 --> 00:09:24,060
Så selvom det er bare
information udledt fra bogen,

168
00:09:24,060 --> 00:09:25,330
det er copyrightable.

169
00:09:25,330 --> 00:09:28,400
Og afhængigt af, hvem der rent faktisk
skabt, metadata,

170
00:09:28,400 --> 00:09:32,175
Der kan være restriktioner for hvem
kan distribuere den tilsvarende at--

171
00:09:32,175 --> 00:09:33,402
>> Jeg ved det ikke.

172
00:09:33,402 --> 00:09:36,110
Det kan eller kan ikke være lig
situationen for de sangtekster,

173
00:09:36,110 --> 00:09:36,610
f.eks.

174
00:09:36,610 --> 00:09:38,560
Så vi ved alle, hvordan det pander ud.

175
00:09:38,560 --> 00:09:40,450
Så du har brug for at komme omkring dette problem.

176
00:09:40,450 --> 00:09:44,910
>> Og så et andet stykke er
at der er en masse data.

177
00:09:44,910 --> 00:09:52,420
Så hvis jeg er en person, der ønsker at arbejde
til oplysningerne eller har en cool idé,

178
00:09:52,420 --> 00:09:55,350
beskæftiger sig med 14 millioner
optegnelser om min laptop

179
00:09:55,350 --> 00:09:57,487
kunne være problematisk
og vanskelige at håndtere.

180
00:09:57,487 --> 00:09:59,320
Så vi ønsker at reducere
barriererne for folk

181
00:09:59,320 --> 00:10:02,130
at være i stand til at arbejde med dataene.

182
00:10:02,130 --> 00:10:07,880
>> Så den tilgang, forhåbentlig adresser
alle disse bekymringer er to dele.

183
00:10:07,880 --> 00:10:11,770
Man er ved at opbygge en platform, der tager
data fra alle disse forskellige kilder

184
00:10:11,770 --> 00:10:14,350
og forværrer det, normaliserer,
beriger det, og gør

185
00:10:14,350 --> 00:10:16,650
det fås i et enkelt sted.

186
00:10:16,650 --> 00:10:20,950
Og det gør det tilgængeligt via
en offentlig API, som folk kan ringe til.

187
00:10:20,950 --> 00:10:24,430
>> Så en API er et program
Programming Interface.

188
00:10:24,430 --> 00:10:28,930
Og det dybest set refererer til en
endepunkt, at et system eller teknologi

189
00:10:28,930 --> 00:10:31,720
kan ringe og få data tilbage i
et struktureret format på en måde

190
00:10:31,720 --> 00:10:32,900
at det kan anvendes.

191
00:10:32,900 --> 00:10:36,060
Så det er ikke afhængige
om at gå til et websted

192
00:10:36,060 --> 00:10:37,970
og skrabe data ud
af den, f.eks.

193
00:10:37,970 --> 00:10:40,690

194
00:10:40,690 --> 00:10:45,010
>> Så dette er hjemmesiden for
Biblioteket Cloud Item API,

195
00:10:45,010 --> 00:10:47,220
som i det væsentlige dens version to.

196
00:10:47,220 --> 00:10:50,130
Så det er den anden iteration af
forsøger at gøre alle disse data

197
00:10:50,130 --> 00:10:53,280
til rådighed for verden.

198
00:10:53,280 --> 00:10:59,560
Så det er
http://api.lib.harvard.edu/v2/items.

199
00:10:59,560 --> 00:11:03,830
Og bare for at opdele det
en lille smule, hvad det betyder

200
00:11:03,830 --> 00:11:06,115
er, at dette er version to af API.

201
00:11:06,115 --> 00:11:08,490
Der er en version én, som
Jeg har ikke tænkt mig at tale om.

202
00:11:08,490 --> 00:11:09,750
Men der er en version én.

203
00:11:09,750 --> 00:11:14,740
>> Og hvis du ringer dette
API, får du poster.

204
00:11:14,740 --> 00:11:20,640
Og en del af idéen om en
API er en API er en kontrakt.

205
00:11:20,640 --> 00:11:23,440
Det er noget, der er
ikke kommer til at ændre sig.

206
00:11:23,440 --> 00:11:24,850
Så for eksempel -

207
00:11:24,850 --> 00:11:27,410
>> Og grunden er, at hvis jeg
opbygge en slags system,

208
00:11:27,410 --> 00:11:33,210
skal bruge et bibliotek sky API
at vise bøger eller hjælpe folk med at finde

209
00:11:33,210 --> 00:11:36,190
information i unikke måder,
det, vi ikke ønsker at ske

210
00:11:36,190 --> 00:11:38,940
er for os at gå ændre, hvordan
at API fungerer, og pludselig

211
00:11:38,940 --> 00:11:41,340
alt bryder på slutbrugerens side.

212
00:11:41,340 --> 00:11:46,710
Så en del af, hvis du laver API
til rådighed for verden, er det

213
00:11:46,710 --> 00:11:49,396
god praksis at sætte en
versionsnummer i det så folk

214
00:11:49,396 --> 00:11:51,020
vide, hvilken version de har at gøre med.

215
00:11:51,020 --> 00:11:54,300
>> Så hvis vi beslutter vi finder en bedre måde
at gøre disse oplysninger,

216
00:11:54,300 --> 00:11:57,295
vi måske ændre det til
kalder denne version tre.

217
00:11:57,295 --> 00:11:59,920
Så alle, der er stadig bruger
udgave to, vil det stadig arbejde.

218
00:11:59,920 --> 00:12:03,490
Men versionen tre ville
have alle de nye ting.

219
00:12:03,490 --> 00:12:06,680

220
00:12:06,680 --> 00:12:09,210
>> Så det er et API, men dette
virkelig ligner en URL.

221
00:12:09,210 --> 00:12:11,680
Og så, hvad det er en
eksempel på er, hvad der er

222
00:12:11,680 --> 00:12:16,615
kaldes en API resten, som er til rådighed
i løbet af blot en almindelig web-forbindelse.

223
00:12:16,615 --> 00:12:19,680
Og du kan faktisk
gå til den i en browser.

224
00:12:19,680 --> 00:12:28,550
>> Så her jeg har lige åbnet Firefox og
gået til api.lib.harvard.edu/v2/items.

225
00:12:28,550 --> 00:12:31,560
Og så hvad jeg får her er
dybest set den første side

226
00:12:31,560 --> 00:12:34,740
af resultater fra hele
sæt af elementer, som vi har.

227
00:12:34,740 --> 00:12:37,460
Og det er her i XML-format.

228
00:12:37,460 --> 00:12:40,130

229
00:12:40,130 --> 00:12:42,210
Og det har også været
prettified af Firefox.

230
00:12:42,210 --> 00:12:45,850
Det behøver faktisk ikke have alle disse
lille ekspanderende og kontraherende

231
00:12:45,850 --> 00:12:47,880
doohickeys her.

232
00:12:47,880 --> 00:12:52,520
Det er sortering af en pænere
udgave måde at se på det.

233
00:12:52,520 --> 00:12:57,040
>> Men hvad dette fortæller os er
Jeg har anmodet alle elementerne.

234
00:12:57,040 --> 00:13:03,120
Så der er 13.289.475 poster.

235
00:13:03,120 --> 00:13:06,150
Og jeg ser på det første
10, begyndende ved position nul

236
00:13:06,150 --> 00:13:09,760
fordi i datalogi
Vi starter altid ved nul.

237
00:13:09,760 --> 00:13:15,150
Og hvad jeg har her, hvis jeg bare bryde sammen
dette, vil du se, at jeg har fået 10 poster.

238
00:13:15,150 --> 00:13:20,410

239
00:13:20,410 --> 00:13:25,210
>> Og hvis jeg tager et kig på et emne, kan jeg
se, at jeg har fået oplysninger om det.

240
00:13:25,210 --> 00:13:27,400
Og det er i, hvad der kaldes MODS form.

241
00:13:27,400 --> 00:13:30,860
Og så jeg har tænkt mig at skifte
tilbage her for et øjeblik.

242
00:13:30,860 --> 00:13:33,750
OK.

243
00:13:33,750 --> 00:13:37,447
>> Så lad os søge efter noget i
specifik, fordi det første element,

244
00:13:37,447 --> 00:13:40,030
sker for at komme op, når du ser
gennem hele samlingen

245
00:13:40,030 --> 00:13:41,750
er per definition tilfældigt.

246
00:13:41,750 --> 00:13:44,550
Så lad os kigge efter nogle donuts.

247
00:13:44,550 --> 00:13:46,830
Oh.

248
00:13:46,830 --> 00:13:49,190
>> OK.

249
00:13:49,190 --> 00:13:49,940
Så donuts.

250
00:13:49,940 --> 00:13:55,360
Så vi fandt der er 80 poster i
samlingen, der refererer donuts.

251
00:13:55,360 --> 00:13:57,150
Vi ser på de første 10 af dem.

252
00:13:57,150 --> 00:14:01,890
Nu kan du se her den måde, at
Jeg sagde jeg leder efter donuts,

253
00:14:01,890 --> 00:14:04,400
Jeg har lige tilføjet noget til
søgestrengen af ​​URL'en.

254
00:14:04,400 --> 00:14:09,680
Så q lig donuts, som du kan
se lidt lettere her.

255
00:14:09,680 --> 00:14:12,131
>> Og det dybest set betyder, at der er
en spec for API, som

256
00:14:12,131 --> 00:14:13,880
definerer, hvad alle
disse parametre betyder.

257
00:14:13,880 --> 00:14:17,150
Og det betyder, at vi kommer til at
søge alt til donuts.

258
00:14:17,150 --> 00:14:24,910
>> Så det første punkt her har vi
du kan se titlen er Donuts,

259
00:14:24,910 --> 00:14:29,310
og der er en undertekst kaldet An
American Passion, som er, tror jeg,

260
00:14:29,310 --> 00:14:31,610
hensigtsmæssigt.

261
00:14:31,610 --> 00:14:36,134
Der er en masse different--

262
00:14:36,134 --> 00:14:38,050
Når du kommer til det punkt
for at få de data,

263
00:14:38,050 --> 00:14:41,020
Der er en masse forskellige
formater, som du kan få det ind.

264
00:14:41,020 --> 00:14:44,050
Og der er forskellige styrker
og svagheder for dem alle.

265
00:14:44,050 --> 00:14:49,000
Så denne ene, kan du se
her er denne form er meget rig.

266
00:14:49,000 --> 00:14:51,946
Og det er standardiseret.

267
00:14:51,946 --> 00:14:55,040
>> Så der er et særligt afsnit
område, en undertitel felt.

268
00:14:55,040 --> 00:14:58,950
Der er en alternativ
titel, An American Passion.

269
00:14:58,950 --> 00:15:01,650
Der er navnet forbundet med det.

270
00:15:01,650 --> 00:15:03,120
Type af ressourcen er tekst.

271
00:15:03,120 --> 00:15:06,070
Der er en masse information
her i dette format.

272
00:15:06,070 --> 00:15:09,480
>> Men der er en flok
forskellige formater.

273
00:15:09,480 --> 00:15:11,920
Så det, vi var blot
ser på et format

274
00:15:11,920 --> 00:15:17,700
kaldet MODS, som står for
Metadataobjekt Beskrivelse Tjeneste,

275
00:15:17,700 --> 00:15:18,250
potentielt.

276
00:15:18,250 --> 00:15:23,030
Jeg er faktisk ikke helt sikker på om den
S. Men det er en temmelig kompliceret format.

277
00:15:23,030 --> 00:15:24,240
Det er standardformatet.

278
00:15:24,240 --> 00:15:30,260
>> Men det er den, der holder
den rigdom af alle de data

279
00:15:30,260 --> 00:15:33,820
at biblioteket har, fordi
det er meget tæt på, hvad

280
00:15:33,820 --> 00:15:35,110
Biblioteket anvender internt.

281
00:15:35,110 --> 00:15:39,030
Det er en standard, der er
bruges i hele landet,

282
00:15:39,030 --> 00:15:40,944
hele verden i akademiske biblioteker.

283
00:15:40,944 --> 00:15:42,110
Og det er meget interoperable.

284
00:15:42,110 --> 00:15:44,852
Så hvis du har fået et dokument
der er i MODS format,

285
00:15:44,852 --> 00:15:47,560
du kan give det til en anden
hvis systemer forstår MODS,

286
00:15:47,560 --> 00:15:48,518
og de kan importere den.

287
00:15:48,518 --> 00:15:50,840
Så det er en standard.

288
00:15:50,840 --> 00:15:54,250
Det er meget godt defineret, meget specifikke.

289
00:15:54,250 --> 00:15:58,980
Og det er det, der gør det
interoperable fordi hvis nogen siger,

290
00:15:58,980 --> 00:16:04,930
dette er den alternative titlen på en
rekord, alle ved, hvad det betyder.

291
00:16:04,930 --> 00:16:07,740
I flip side, det er meget kompliceret.

292
00:16:07,740 --> 00:16:13,160
>> Så hvis du tager et kig
på denne post her,

293
00:16:13,160 --> 00:16:15,320
hvis jeg ønsker bare at få den
titel af dette dokument,

294
00:16:15,320 --> 00:16:21,150
af denne bog, som er sandsynligvis Donuts,
En amerikansk Passion, parsing det ud

295
00:16:21,150 --> 00:16:22,940
er lidt involveret.

296
00:16:22,940 --> 00:16:27,380
Betragtninger der er en anden
format kaldet Dublin Core,

297
00:16:27,380 --> 00:16:29,730
som er et meget, meget enklere format.

298
00:16:29,730 --> 00:16:33,764
>> Og så du ser her, er der ingen
titel, undertitel, alternativ titel.

299
00:16:33,764 --> 00:16:35,930
Der er bare titlen,
Donuts, An American Passion,

300
00:16:35,930 --> 00:16:38,780
og en anden titel, amerikansk Passion.

301
00:16:38,780 --> 00:16:42,907
Så når du kigger på hvilken form
du ønsker at få data ud af,

302
00:16:42,907 --> 00:16:44,740
meget afhænger af, hvor
du kommer til at bruge det.

303
00:16:44,740 --> 00:16:46,573
Bruger du for
interoperabilitet eller har du

304
00:16:46,573 --> 00:16:49,970
ønsker noget simpelt, at
kan være lettere at arbejde med?

305
00:16:49,970 --> 00:16:56,002
>> På bagsiden, en masse af de
detaljer får slags squished ned.

306
00:16:56,002 --> 00:16:58,460
Du kan miste nuancerne i
hvad et bestemt felt middel

307
00:16:58,460 --> 00:17:02,960
hvis du har at gøre med Dublin Core,
som du ikke ville få med MODS.

308
00:17:02,960 --> 00:17:06,462
Så dem er to af de formater
du kan få ud af API.

309
00:17:06,462 --> 00:17:08,920
Og dybest set, holder vi
det bag kulisserne i MODS.

310
00:17:08,920 --> 00:17:14,179
Men vi kan give dig det i MODS og
Dublin Core og alt andet også.

311
00:17:14,179 --> 00:17:16,470
Den anden overvejelse, når
du søger i data

312
00:17:16,470 --> 00:17:21,210
er du kan få det som enten JSON, som
står for JavaScript Object Notation,

313
00:17:21,210 --> 00:17:24,720
eller XML, som står for
Extensible Markup Language.

314
00:17:24,720 --> 00:17:30,080
Og disse data repræsentationer både
har præcis de samme data, præcis

315
00:17:30,080 --> 00:17:31,080
på samme område.

316
00:17:31,080 --> 00:17:33,644
Men de er bare
syntaktisk anderledes.

317
00:17:33,644 --> 00:17:40,401
>> Så dette er en--

318
00:17:40,401 --> 00:17:41,400
Nå, lad os bare skifte.

319
00:17:41,400 --> 00:17:47,490
Så det er vores forespørgsel til
donuts i XML-format.

320
00:17:47,490 --> 00:17:53,470
Hvis jeg bare skifte dette er JSON,
Jeg kan se det ser anderledes ud.

321
00:17:53,470 --> 00:17:58,580
Så nu er det det samme indhold,
men en anden struktur.

322
00:17:58,580 --> 00:18:00,080
Der er færre vinkelbeslag.

323
00:18:00,080 --> 00:18:02,530
Der er mindre detaljeret.

324
00:18:02,530 --> 00:18:06,440
>> Og det er et format, hvis du
arbejder i web miljø,

325
00:18:06,440 --> 00:18:09,680
du er mest sandsynligt vil
at ville bruge, fordi en

326
00:18:09,680 --> 00:18:12,630
af de gode ting om JSON er
det er kompatibelt med JavaScript.

327
00:18:12,630 --> 00:18:17,680
Så hvis jeg skriver web-app, kan jeg trække
i JSON og bare arbejde med det direkte.

328
00:18:17,680 --> 00:18:20,187
Betragtninger med XML, er det en
lidt mere kompliceret.

329
00:18:20,187 --> 00:18:21,520
Så igen, det er både nyttigt.

330
00:18:21,520 --> 00:18:26,387
De bare er forskellige use cases
hvor folk måske ønsker at bruge dem.

331
00:18:26,387 --> 00:18:26,886
OK.

332
00:18:26,886 --> 00:18:29,810

333
00:18:29,810 --> 00:18:31,680
Så tilbage til API.

334
00:18:31,680 --> 00:18:32,900
Så vi kan søge for--

335
00:18:32,900 --> 00:18:36,220
>> Jeg giver et eksempel på
søge efter donuts.

336
00:18:36,220 --> 00:18:39,330
Vi kan også søge bare i en
bestemt felt indenfor her.

337
00:18:39,330 --> 00:18:41,310
Så i stedet for at søge
hele posten,

338
00:18:41,310 --> 00:18:43,870
Jeg kan bare søge titelfeltet.

339
00:18:43,870 --> 00:18:48,810
Og så nu er der 25 ting,
har donuts i titlen, hvoraf den ene

340
00:18:48,810 --> 00:18:52,430
handler om at genoprette
vådområder i ledelse

341
00:18:52,430 --> 00:18:54,990
af hullet i donut
program, hvilket sandsynligvis

342
00:18:54,990 --> 00:18:58,970
ikke nødvendigvis det, vi leder efter
for når vi søger efter donuts.

343
00:18:58,970 --> 00:19:02,790

344
00:19:02,790 --> 00:19:05,490
>> Du kan også, når du er
beskæftiger sig med en API--

345
00:19:05,490 --> 00:19:08,827
>> Del af at have en API giver
mennesker adgang til store datasæt.

346
00:19:08,827 --> 00:19:11,410
Og der er et par forskellige
værktøjer, du kan bruge til at gøre det.

347
00:19:11,410 --> 00:19:14,170
Den ene er, ganske enkelt, du
kan bladre gennem data.

348
00:19:14,170 --> 00:19:17,340
Så lige som hvis du gør en forespørgsel
via en web-grænseflade,

349
00:19:17,340 --> 00:19:19,470
du kan se på side et,
side to, side tre.

350
00:19:19,470 --> 00:19:22,040
Du kan gøre det samme
ting gennem API.

351
00:19:22,040 --> 00:19:24,150
Du skal blot være
eksplicit i hvordan du gør det.

352
00:19:24,150 --> 00:19:29,511
>> Altså for eksempel, hvis jeg søger
på min første forespørgsel her,

353
00:19:29,511 --> 00:19:32,510
hvor jeg gør en søgning efter ting
med donuts i titlen, kan jeg sige,

354
00:19:32,510 --> 00:19:35,415
og grænsen er lig med 20, hvilket betyder,
give mig de første 20 poster, ikke

355
00:19:35,415 --> 00:19:38,540
de første 10, som er standard,
fordi jeg ønsker at se på 20 ad gangen.

356
00:19:38,540 --> 00:19:43,435
Eller jeg kan sige, indstille
starte lig med 20 og grænsen

357
00:19:43,435 --> 00:19:47,150
svarer til 20, hvilket vil give
mig registrerer 21 gennem 40.

358
00:19:47,150 --> 00:19:52,680
>> Så jeg gætte ting
at tage væk her er

359
00:19:52,680 --> 00:19:57,290
at vi bruger de søgestrenge
at indstille parametre på forespørgslen.

360
00:19:57,290 --> 00:20:02,760
Og det kan du kontrol
hvad du får tilbage.

361
00:20:02,760 --> 00:20:05,980
>> Et andet værktøj, du kan bruge, -

362
00:20:05,980 --> 00:20:09,250
>> Og det er virkelig nyttige i
Betingelser for at udforske data.

363
00:20:09,250 --> 00:20:10,840
>> --is noget, der hedder facettering.

364
00:20:10,840 --> 00:20:15,530
Så termen facettering er
ikke nødvendigvis fælles.

365
00:20:15,530 --> 00:20:16,880
Men du har alle set det før.

366
00:20:16,880 --> 00:20:18,630
Hvis du tager et kig på
Amazon, for eksempel,

367
00:20:18,630 --> 00:20:20,870
og du gør en søgning efter
donuts i bøgerne,

368
00:20:20,870 --> 00:20:27,080
her har de fået en serie af bøger,
og de er grupperet efter kategori,

369
00:20:27,080 --> 00:20:30,470
og du får de forskellige kategorier,
og hvor mange bøger i hver kategori

370
00:20:30,470 --> 00:20:31,330
dukke op.

371
00:20:31,330 --> 00:20:33,420
>> Så dette er dybest set en facet.

372
00:20:33,420 --> 00:20:37,570
Du tager alle deres bøger, de 1.800
bøger, der matcher donuts på Amazon.

373
00:20:37,570 --> 00:20:39,820
12 af dem er i
Morgenmad kategori.

374
00:20:39,820 --> 00:20:43,100
21 i wienerbrød og bagning,
og så videre og så videre.

375
00:20:43,100 --> 00:20:47,670
>> Så dette er virkelig en nyttig
redskab til at udforske indholdet

376
00:20:47,670 --> 00:20:53,260
i bibliotek samt
fordi når man ser på en facet,

377
00:20:53,260 --> 00:20:56,520
det giver dig en idé om, hvilke fag
eksisterer, lige hvad slags emner

378
00:20:56,520 --> 00:20:58,510
er mest populære i din forespørgsel sæt.

379
00:20:58,510 --> 00:21:00,950
Og det hjælper du kører ud og udforske.

380
00:21:00,950 --> 00:21:02,770
Så vi kan gøre det samme.

381
00:21:02,770 --> 00:21:05,940
>> Hvis vi ønsker at bruge
API og se på facetter,

382
00:21:05,940 --> 00:21:08,950
vi tilføjer en anden parameter til
vores ven søgestrengen.

383
00:21:08,950 --> 00:21:12,540
Så facetter svarer til en kommasepareret
liste over, hvad vi ønsker at facet på.

384
00:21:12,540 --> 00:21:14,790
Så en af ​​de facetter kan være genstand.

385
00:21:14,790 --> 00:21:16,565
En anden kunne være sprog.

386
00:21:16,565 --> 00:21:19,665
Og så hvis vi kører den forespørgsel, vi get--

387
00:21:19,665 --> 00:21:23,372

388
00:21:23,372 --> 00:21:24,830
Det ser stort set den samme her.

389
00:21:24,830 --> 00:21:29,010
Men vi har tilføjet til slutningen
af listen et sæt af facetter.

390
00:21:29,010 --> 00:21:34,060
Så vi har en facet kaldet emne.

391
00:21:34,060 --> 00:21:40,250
Så dette er at fortælle os, at hvis jeg ser
på mine 80 resultater fra doughnut forespørgslen,

392
00:21:40,250 --> 00:21:42,100
13 af dem har
underlægge USA.

393
00:21:42,100 --> 00:21:43,684
Tre har omfattet donuts.

394
00:21:43,684 --> 00:21:45,600
Tre har emnet
af vådområder restaurering,

395
00:21:45,600 --> 00:21:47,720
som kan være vores hul i doughnut.

396
00:21:47,720 --> 00:21:51,780
To af dem, The Simpsons,
og så videre og så videre.

397
00:21:51,780 --> 00:21:59,211
>> Så det kan være nyttigt, hvis du
ønsker at indsnævre din søgning.

398
00:21:59,211 --> 00:22:00,210
Det kan hjælpe dig gøre det.

399
00:22:00,210 --> 00:22:03,580
Især hvis du har
mere end, siger, 80 resultater.

400
00:22:03,580 --> 00:22:05,980
>> Ligeledes har vi også spurgt
for facetter på sproget.

401
00:22:05,980 --> 00:22:14,790
Så hvis vi ser på vores resultater, ser vi 76
af dem er på engelsk, fire på fransk,

402
00:22:14,790 --> 00:22:19,620
to i spansk, to, tror jeg, det er
undefined eller ukendt, hollandsk og latin.

403
00:22:19,620 --> 00:22:22,830
Så jeg tror, ​​det latinske
donut resultat igen,

404
00:22:22,830 --> 00:22:24,922
har intet at gøre med bagværk.

405
00:22:24,922 --> 00:22:25,630
Men der du går.

406
00:22:25,630 --> 00:22:31,420

407
00:22:31,420 --> 00:22:38,630
>> Så dette er slags viser dig
hvordan du kan trække indholdet tilbage

408
00:22:38,630 --> 00:22:41,270
fra API blot gennem
webbrowser, som er stort.

409
00:22:41,270 --> 00:22:44,320
Men det er ikke rigtig, hvad du ville
normalt være brug i API for det.

410
00:22:44,320 --> 00:22:48,710
Så et eksempel på, hvordan man
kunne faktisk gøre dette er, jeg har

411
00:22:48,710 --> 00:22:54,720
skrevet en super lille program,
som igen gør min donut søgning

412
00:22:54,720 --> 00:22:59,010
og vælger et par felter
og viser dem i en tabel.

413
00:22:59,010 --> 00:23:01,610
Så dette er meget det
samme indhold, som vi bare

414
00:23:01,610 --> 00:23:04,830
sav med et par felter trukket ud.

415
00:23:04,830 --> 00:23:12,090
Så listen over titler, de
Placeringen af, hvad bogen

416
00:23:12,090 --> 00:23:15,120
handler om, sproget,
og så videre og så videre.

417
00:23:15,120 --> 00:23:20,480
>> Så hvordan det faktisk skete, da
Jeg tror vi er nødt til at se på nogle kode,

418
00:23:20,480 --> 00:23:22,420
is--

419
00:23:22,420 --> 00:23:28,060
>> Hvad vi har her er en simpel HTML
side, som viser teksten,

420
00:23:28,060 --> 00:23:32,900
velkommen til biblioteket sky og
viser derefter en oversigt af resultaterne.

421
00:23:32,900 --> 00:23:37,790
Og der er naturligvis ingen resultater i
bordet, når siden indlæses.

422
00:23:37,790 --> 00:23:41,380
Men hvad vi laver
er først og fremmest, vi

423
00:23:41,380 --> 00:23:46,290
lægger et bibliotek kaldet
jQuery, der egentlig

424
00:23:46,290 --> 00:23:52,030
et JavaScript bibliotek, som gør det
meget let at manipulere JavaScript

425
00:23:52,030 --> 00:23:58,780
indbygget, HTML og oprette websider,
client-side logik og websider.

426
00:23:58,780 --> 00:24:01,595
>> Så det, vi har her, er jQuery
har en metode kaldet Get,

427
00:24:01,595 --> 00:24:05,270
som i det væsentlige vil gå til
en URL, som i dette tilfælde,

428
00:24:05,270 --> 00:24:09,070
er dette velkendte leder webadresse.

429
00:24:09,070 --> 00:24:14,440
Og vil så få indholdet fra
at URL og derefter køre en funktion på den.

430
00:24:14,440 --> 00:24:19,240
Så vi sagde gå til api.lib.harvard / edu.

431
00:24:19,240 --> 00:24:20,060
Søg efter donuts.

432
00:24:20,060 --> 00:24:21,300
Giv os 20 poster.

433
00:24:21,300 --> 00:24:28,590
Og derefter køre denne funktion, som
Jeg har valgt, passerer det dataene.

434
00:24:28,590 --> 00:24:34,430
Og data er den JSON som
fik tilbage fra API.

435
00:24:34,430 --> 00:24:40,120
>> Og så er vi sige, inden for denne
data der er et felt kaldet element.

436
00:24:40,120 --> 00:24:48,117
Og hvis jeg gå tage et kig tilbage på
en af ​​disse resultater, at der er her,

437
00:24:48,117 --> 00:24:49,200
der er noget called--

438
00:24:49,200 --> 00:24:50,220
>> Tja, det hedder element.

439
00:24:50,220 --> 00:24:53,520
Så det kan være det.

440
00:24:53,520 --> 00:25:01,840
Og hvad det gør, er det
går gennem hvert element

441
00:25:01,840 --> 00:25:05,300
og opfordrer derefter en anden
funktionen på hvert punkt.

442
00:25:05,300 --> 00:25:08,440
Og denne funktion dybest set
tager værdien

443
00:25:08,440 --> 00:25:12,010
af elementet, som er
væsentlige de enkelte record

444
00:25:12,010 --> 00:25:18,220
og giver os mulighed for at trække sig ud af titlen,
dækningen og sproget.

445
00:25:18,220 --> 00:25:21,640
>> Så vi kalder en funktion på hver
element, vi fik tilbage fra API.

446
00:25:21,640 --> 00:25:25,397
Og hvis du bare tage et kig
på dette stykke lige her,

447
00:25:25,397 --> 00:25:27,230
hvad vi laver, er
Vi skaber en snor,

448
00:25:27,230 --> 00:25:31,810
som i det væsentlige nogle HTML markup
omkring et bord, med value.title,

449
00:25:31,810 --> 00:25:35,790
som er titlen på
objekt, value.coverage,

450
00:25:35,790 --> 00:25:36,790
som er dækning -

451
00:25:36,790 --> 00:25:38,225
>> Og vi laver en check
her for at se, hvem der er udefineret

452
00:25:38,225 --> 00:25:40,570
og skjule det, hvis det siger udefineret,
fordi vi er ikke rigtig interesseret

453
00:25:40,570 --> 00:25:41,600
i det.

454
00:25:41,600 --> 00:25:42,939
>> DET-- derefter sproget.

455
00:25:42,939 --> 00:25:44,730
Og hvad så vi er
gør, er at tilføje, at

456
00:25:44,730 --> 00:25:48,510
til bordet, der er
identificeret ved denne streng her.

457
00:25:48,510 --> 00:25:50,790
Og hvordan jQuery fungerer
er, hvad denne siger

458
00:25:50,790 --> 00:25:56,420
er se efter tabellen med idéen
resultater og tilføje denne tekst til det.

459
00:25:56,420 --> 00:25:59,380
Og dette er bordet med idé resultater.

460
00:25:59,380 --> 00:26:04,998
Så hvad du ender
med er denne side her.

461
00:26:04,998 --> 00:26:06,206
Og for at se source--

462
00:26:06,206 --> 00:26:11,310

463
00:26:11,310 --> 00:26:13,810
Nå, kilden er faktisk ikke
opdateres, når det skete.

464
00:26:13,810 --> 00:26:18,740
Så du kan se de faktiske
Resultaterne af tabellen her selv.

465
00:26:18,740 --> 00:26:24,770
>> Så det er bare et simpelt eksempel på
gør en meget grundlæggende forespørgsel mod API

466
00:26:24,770 --> 00:26:29,020
og visning af information i en anden
dannes, og ikke gør noget også dekorativ.

467
00:26:29,020 --> 00:26:36,370
Nu, et andet eksempel er som en
ansøgning skrevet af David Weinberger

468
00:26:36,370 --> 00:26:39,120
som en demo af dette, som
væsentlige viser dig

469
00:26:39,120 --> 00:26:44,620
hvordan du kan mash op de resultater, du
komme fra biblioteket sky API

470
00:26:44,620 --> 00:26:46,250
med, siger, Google Bøger.

471
00:26:46,250 --> 00:26:52,225
>> Og tankegangen er, at jeg kan
kører en forespørgsel mod Google Bøger,

472
00:26:52,225 --> 00:26:56,060
få en fuldtekstsøgning, få nogle resultater
tilbage, finde ud af, hvilke af disse elementer

473
00:26:56,060 --> 00:27:01,180
faktisk eksisterer i Hollis,
bibliotekssystemet,

474
00:27:01,180 --> 00:27:03,200
og derefter give mig links
tilbage til disse poster.

475
00:27:03,200 --> 00:27:12,730
Så hvis jeg søger efter, det var
en mørk og stormfuld nat, jeg

476
00:27:12,730 --> 00:27:16,210
komme tilbage en masse resultater
fra Google, og derefter ét resultat

477
00:27:16,210 --> 00:27:19,460
som er en rynke i tide.

478
00:27:19,460 --> 00:27:29,330
Og disse er links til bøger, der findes
inden Harvard Library system.

479
00:27:29,330 --> 00:27:32,160
>> Så jeg gætte det punkt her er ikke
så meget, at dette kan eller ikke

480
00:27:32,160 --> 00:27:34,118
være den måde, du vil
at søge i biblioteket,

481
00:27:34,118 --> 00:27:38,310
men det er en helt anden
måde, der ikke var til rådighed for dig

482
00:27:38,310 --> 00:27:42,884
før, ligesom du havde ingen måde at gøre
fuldtekst søger på bøger, der selv

483
00:27:42,884 --> 00:27:44,550
var en del af Harvard Library system.

484
00:27:44,550 --> 00:27:46,870
Så nu er det en måde
at du kan gøre det.

485
00:27:46,870 --> 00:27:51,930
Og du kan få dem vist i
uanset format, du ønsker.

486
00:27:51,930 --> 00:27:55,990
Så pointen her er, dybest set,
vi åbner nye veje for mennesker

487
00:27:55,990 --> 00:27:59,080
at arbejde med dataene.

488
00:27:59,080 --> 00:28:07,925
>> Et andet stykke af biblioteket cloud er, at
det hjælper afsløre nogle af dataforbrug

489
00:28:07,925 --> 00:28:08,800
at biblioteket har.

490
00:28:08,800 --> 00:28:12,630
Så hvis du gå på biblioteket,
og du leder efter bøger,

491
00:28:12,630 --> 00:28:15,770
Du behøver ikke nødvendigvis
faktisk har en idé om,

492
00:28:15,770 --> 00:28:19,080
for alle elementer i en
bestemt emne, hvad

493
00:28:19,080 --> 00:28:21,200
er folk i
samfund, uanset om det er

494
00:28:21,200 --> 00:28:24,890
defineret som Harvard eller
land eller din klasse,

495
00:28:24,890 --> 00:28:26,421
hvad har de fundet mest nyttige?

496
00:28:26,421 --> 00:28:28,920
Og biblioteket har faktisk en
ton af oplysninger om, hvad

497
00:28:28,920 --> 00:28:32,999
er mest nyttigt, fordi hvis en masse
af folk tjekker en bog,

498
00:28:32,999 --> 00:28:34,040
der fortæller dig noget.

499
00:28:34,040 --> 00:28:36,498
Der må have været en eller anden grund
de ønsker at tjekke det ud.

500
00:28:36,498 --> 00:28:38,270
En masse mennesker sætte det på reserven.

501
00:28:38,270 --> 00:28:42,520
>> Hvis det er på reservelisten for en masse
af klasser, der fortæller dig noget.

502
00:28:42,520 --> 00:28:45,960
Hvis videnskabelige medarbejdere kontrollerer det
ud en masse og bachelorer er ikke,

503
00:28:45,960 --> 00:28:47,200
der fortæller mig noget.

504
00:28:47,200 --> 00:28:49,280
Vice versa, der også
fortæller dig noget.

505
00:28:49,280 --> 00:28:54,680
Så det ville være virkelig interessant at
sætte disse oplysninger derude og lad

506
00:28:54,680 --> 00:28:59,969
folk bruger det til at hjælpe dem med at finde
arbejder inden for bibliotekssystemet.

507
00:28:59,969 --> 00:29:02,260
Bagsiden af ​​dette er
der er nogle alvorlige personlige oplysninger

508
00:29:02,260 --> 00:29:07,854
bekymringer, fordi en af
centrale principper i biblioteket

509
00:29:07,854 --> 00:29:10,770
er vi ikke kommer til at fortælle
folk, hvad andre mennesker læser.

510
00:29:10,770 --> 00:29:17,360
Og selvom du siger det
bog blev tjekket ud fire gange

511
00:29:17,360 --> 00:29:20,070
i en bestemt måned,
der kan anvendes

512
00:29:20,070 --> 00:29:25,252
at linke tilbage til en bestemt
person ved de-anonymiserings- data

513
00:29:25,252 --> 00:29:26,710
og finde ud af, hvem tjekket det ud.

514
00:29:26,710 --> 00:29:30,792
Så den måde, vi kan avoid--

515
00:29:30,792 --> 00:29:33,750
Den måde, at vi kan forsøge at udtrække
nogle signal fra alle de oplysninger

516
00:29:33,750 --> 00:29:36,740
uden at krænke
nogens privatlivets fred

517
00:29:36,740 --> 00:29:42,150
er i det væsentlige vi ser på
10 års brugsdata, -

518
00:29:42,150 --> 00:29:43,930
>> Så det er over en lang periode.

519
00:29:43,930 --> 00:29:50,639
>> DET-- sige, OK, lad os se, hvordan
mange gange dette arbejde blev anvendt,

520
00:29:50,639 --> 00:29:52,930
og af hvem i dette tidsrum
af tid, og derefter dybest set

521
00:29:52,930 --> 00:29:56,300
give tilbage et nummer, som vi kalder
en stak score, som dybest set

522
00:29:56,300 --> 00:29:59,910
angiver, hvor meget det er blevet brugt.

523
00:29:59,910 --> 00:30:01,084
Og det number--

524
00:30:01,084 --> 00:30:03,250
En masse forskellige beregninger
gå i dette nummer.

525
00:30:03,250 --> 00:30:05,150
--but det er en meget grov
metrisk, der giver dig

526
00:30:05,150 --> 00:30:11,300
en idé om, hvordan den
samfund kan værdsætte dette arbejde.

527
00:30:11,300 --> 00:30:16,772
>> Og så en anden slags selv
mere konkretiseret ansøgning

528
00:30:16,772 --> 00:30:18,480
der drager fordel
dette er noget

529
00:30:18,480 --> 00:30:24,000
kaldet Stacklife, som faktisk er
tilgængelig gennem den vigtigste Harvard

530
00:30:24,000 --> 00:30:24,880
Bibliotek portal.

531
00:30:24,880 --> 00:30:26,700
Så du går til library.harvard.edu.

532
00:30:26,700 --> 00:30:29,360
Du vil se en række forskellige
måder at søge i biblioteket.

533
00:30:29,360 --> 00:30:32,300
Og en af ​​dem kaldes Stacklife.

534
00:30:32,300 --> 00:30:38,980
>> Og det er et program,
gennemser indholdet af biblioteket,

535
00:30:38,980 --> 00:30:43,490
men er helt bygget
oven på disse API.

536
00:30:43,490 --> 00:30:46,910
Så der er ingen særlige ting
foregår bag kulisserne.

537
00:30:46,910 --> 00:30:49,570
Der er ingen adgang til
data, som du ikke har.

538
00:30:49,570 --> 00:30:54,090
Det er ved hjælp af API'er til at give dig
med en helt anden browsing

539
00:30:54,090 --> 00:30:55,480
oplevelse.

540
00:30:55,480 --> 00:30:58,570
>> Så hvis jeg søger efter Alice
i Eventyrland i denne sag,

541
00:30:58,570 --> 00:31:02,600
Jeg får et resultat, der ligner
dette, som er temmelig much--

542
00:31:02,600 --> 00:31:05,430

543
00:31:05,430 --> 00:31:10,870
>> Det er meget lig en anden søgning
du kan gøre, undtagen i dette tilfælde

544
00:31:10,870 --> 00:31:15,730
vi rangordne de elementer ved
stackscore, som giver dig

545
00:31:15,730 --> 00:31:19,850
en idé om, hvor populære disse
elementer var i samfundet.

546
00:31:19,850 --> 00:31:25,610
Og så klart, Alice i Eventyrland
af Walt Disney er meget populære.

547
00:31:25,610 --> 00:31:36,570
Men du kan også se top fire
Her er dem, du måske ikke actually--

548
00:31:36,570 --> 00:31:39,220
>> Ting, der er meget anvendt,
men du kan ikke umiddelbart

549
00:31:39,220 --> 00:31:41,240
forbinde med Alice i Eventyrland.

550
00:31:41,240 --> 00:31:44,650
Så vores gamle ven
Kommenterede Alice er her.

551
00:31:44,650 --> 00:31:46,350
Så jeg kan tage et kig på det.

552
00:31:46,350 --> 00:31:52,010
Og nu hvad jeg søger
på, er dybest set en indstillet of--

553
00:31:52,010 --> 00:31:53,760
Jeg kan have den kommenterede
Alice lige her.

554
00:31:53,760 --> 00:31:56,700
Jeg har oplysninger om det.

555
00:31:56,700 --> 00:32:00,230
Og jeg har også en stackscore
af, i dette tilfælde 26.

556
00:32:00,230 --> 00:32:03,169
Og det fortæller mig slags groft
hvordan vi kom til denne stackscore,

557
00:32:03,169 --> 00:32:05,835
ligesom der indskrev den ud, ligesom hvordan
mange gange det blev tjekket ud,

558
00:32:05,835 --> 00:32:08,440
ligesom fakultet eller undergrads, hvordan
mange kopier har biblioteket,

559
00:32:08,440 --> 00:32:11,300
og så videre og så videre.

560
00:32:11,300 --> 00:32:16,460
>> Og du kan også, interessant nok
her, gennemse stakkene virtuelt.

561
00:32:16,460 --> 00:32:19,550
Så de data, her, det
viser dig sortere

562
00:32:19,550 --> 00:32:23,547
af en virtuel repræsentation
hvad hylden might

563
00:32:23,547 --> 00:32:25,880
se ud, hvis du skulle tage
alle bibliotekets beholdning

564
00:32:25,880 --> 00:32:28,940
og sætte dem sammen
på en uendelig hylde.

565
00:32:28,940 --> 00:32:30,990
Og det gode er, at vi can--

566
00:32:30,990 --> 00:32:33,380
>> Først og fremmest
metadata om disse bøger

567
00:32:33,380 --> 00:32:35,627
ofte fortæller dig, når den blev offentliggjort.

568
00:32:35,627 --> 00:32:37,085
Det fortæller dig, hvor mange sider den har.

569
00:32:37,085 --> 00:32:38,459
Det kan fortælle dig dimensionerne.

570
00:32:38,459 --> 00:32:42,930
Så du kan se, der er afspejlet her
i form af størrelsen af ​​bøgerne.

571
00:32:42,930 --> 00:32:46,740
>> Og så kan vi bruge
stable score for at fremhæve

572
00:32:46,740 --> 00:32:49,170
bøgerne, der har højere stak scoringer.

573
00:32:49,170 --> 00:32:54,930
Så hvis det er mørkere, betyder det, at
formentlig er det anvendes oftere.

574
00:32:54,930 --> 00:32:57,040
Så i dette tilfælde, er jeg
vil gætte på, at dette

575
00:32:57,040 --> 00:33:03,226
er den version af Alice i Eventyrland
der er meget almindeligt anvendte og mest

576
00:33:03,226 --> 00:33:05,100
adgang, biblioteket
har flest kopier af.

577
00:33:05,100 --> 00:33:06,975
Så hvis du søger
til Alice i Eventyrland,

578
00:33:06,975 --> 00:33:10,220
dette kan være et godt sted at starte.

579
00:33:10,220 --> 00:33:13,500
>> Og så her kan du også linke ud
til, siger, at Amazon købe bogen,

580
00:33:13,500 --> 00:33:15,182
og så videre og så videre.

581
00:33:15,182 --> 00:33:17,140
Pointen her, igen,
er ikke så meget, at denne

582
00:33:17,140 --> 00:33:25,030
er den bedste måde at gennemse biblioteket
eller det rigtige værktøj til enhver lejlighed.

583
00:33:25,030 --> 00:33:28,400
Men det er en anden måde at gøre det.

584
00:33:28,400 --> 00:33:31,359
Og ved at gøre data
tilgængelige via et API, som

585
00:33:31,359 --> 00:33:34,650
er lavet af meget simple byggeblokke,
som giver dig mulighed for at søge i indholdet,

586
00:33:34,650 --> 00:33:39,420
du kan bygge noget
som denne, der kan

587
00:33:39,420 --> 00:33:41,520
være overordentligt
værdifuld for nogle mennesker.

588
00:33:41,520 --> 00:33:46,640

589
00:33:46,640 --> 00:33:51,860
>> Så det er lidt, så meget som jeg ønsker
at sige virkelig om, hvad API er

590
00:33:51,860 --> 00:33:56,070
og hvad det udsætter, er der en hel
masse ting bag kulisserne, som

591
00:33:56,070 --> 00:33:59,480
Jeg skal bare komme ind på kort
bare fordi det slags kommer på denne

592
00:33:59,480 --> 00:34:03,720
fra en helt anden vinkel i
forhold til, hvordan gør noget som dette

593
00:34:03,720 --> 00:34:04,580
få sat på plads?

594
00:34:04,580 --> 00:34:10,820
>> Så en API er en standard
interface til alt dette indhold.

595
00:34:10,820 --> 00:34:13,820
Men for at få det der,
første, vi havde at gøre

596
00:34:13,820 --> 00:34:17,260
blev samle information
af bøger og billeder

597
00:34:17,260 --> 00:34:21,580
og konstateringen hjælpemidler, indsamling
dokument fra forskellige Harvard-systemer.

598
00:34:21,580 --> 00:34:23,929
Aleph, VIA, og OASIS er
navnene på de systemer.

599
00:34:23,929 --> 00:34:28,820
Og de væsentlige går ind i en
rørledning, en behandling rørledning.

600
00:34:28,820 --> 00:34:33,230
>> Så først og fremmest får vi eksport
filer fra alle disse systemer.

601
00:34:33,230 --> 00:34:35,130
Vi delt dem op i individuelle elementer.

602
00:34:35,130 --> 00:34:39,360
Så vi har en fil, som er en gigabyte,
som har en million poster i det.

603
00:34:39,360 --> 00:34:42,290
Så vi delt det op i individuelle elementer.

604
00:34:42,290 --> 00:34:45,374
Så for hver enkelt post, konverterer vi det
i MODS, fordi nogle af disse

605
00:34:45,374 --> 00:34:47,040
er indbygget MODS, nogle af dem er ikke.

606
00:34:47,040 --> 00:34:49,204
Så vi får dem alle til
være i samme format.

607
00:34:49,204 --> 00:34:51,120
Så er der forskellige
berigelse trin, hvor

608
00:34:51,120 --> 00:34:55,969
vi tilføje flere oplysninger til data
end var tilgængelige i biblioteket.

609
00:34:55,969 --> 00:34:59,750
Så vi nødt til at tilføje, først og fremmest
vi har hvad biblioteker holde den.

610
00:34:59,750 --> 00:35:02,250
Vi går gennem et trin til
beregning af stackscore.

611
00:35:02,250 --> 00:35:07,112
Vi går igennem endnu et skridt på
tilføje flere metadata i form

612
00:35:07,112 --> 00:35:10,730
af, hvad kollektioner mennesker
kunne have tilføjet denne--

613
00:35:10,730 --> 00:35:12,532
>> Folk er ved at skabe
samlinger af genstande.

614
00:35:12,532 --> 00:35:13,990
Hvilke samlinger betyder det tilhører?

615
00:35:13,990 --> 00:35:17,220
Hvordan har folk tagget
dette indhold i fortiden?

616
00:35:17,220 --> 00:35:20,750
Så du filtrere, og du begrænse
posterne fordi, som jeg nævnte,

617
00:35:20,750 --> 00:35:24,120
Der er nogle poster, som på grund af
ophavsretlige årsager, kan vi ikke vise.

618
00:35:24,120 --> 00:35:26,700
Og så skal vi indlæse dem
i noget, der hedder

619
00:35:26,700 --> 00:35:31,680
Solr, som ikke er en stavefejl, men
er navnet på et stykke software

620
00:35:31,680 --> 00:35:35,710
der gør søgning indeksering, som
driver al søgningen bag API.

621
00:35:35,710 --> 00:35:40,110
Og så bliver det til rådighed for
API, og folk kan bruge det.

622
00:35:40,110 --> 00:35:44,640
>> Så dette er ligesom en temmelig
ligetil proces.

623
00:35:44,640 --> 00:35:47,230
En af de interessante
ting om det er

624
00:35:47,230 --> 00:35:50,990
at vi har at gøre
med 13 millioner plader

625
00:35:50,990 --> 00:35:53,820
og vi kommer til at beskæftige eller mere.

626
00:35:53,820 --> 00:36:01,260
Og vi ønsker at være i stand til at håndtere
disse i en relativt hurtig måde.

627
00:36:01,260 --> 00:36:03,630
Det tager lang tid at
behandle 13 millioner plader.

628
00:36:03,630 --> 00:36:09,529
>> Så hvordan denne rørledning er
oprettet er, at du can--

629
00:36:09,529 --> 00:36:12,070
Jeg gætter godt af
rørledning, det problem, at vi er

630
00:36:12,070 --> 00:36:15,580
forsøger at løse her, er, at
alle de transformationer, alle

631
00:36:15,580 --> 00:36:18,729
disse trin i denne
rørledning kan adskilles.

632
00:36:18,729 --> 00:36:19,645
Der er ingen afhængighed.

633
00:36:19,645 --> 00:36:22,146
Hvis du behandler
et referat af en bog,

634
00:36:22,146 --> 00:36:24,270
der er ingen afhængighed i
at mellem en anden bog.

635
00:36:24,270 --> 00:36:27,760
>> Så det, vi kan gøre, er dybest set,
på hvert trin på vej,

636
00:36:27,760 --> 00:36:30,470
vi sætte det ind i en kø i skyen.

637
00:36:30,470 --> 00:36:32,250
Jeg tilfældigvis på Amazon Web Services.

638
00:36:32,250 --> 00:36:35,140
Så der er en liste over,
sige, 10.000 genstande,

639
00:36:35,140 --> 00:36:38,100
nødt til at være normaliseret, og
konverteret til MODS format.

640
00:36:38,100 --> 00:36:41,620
Og vi spinde så mange servere
som vi ønsker, måske 10 servere.

641
00:36:41,620 --> 00:36:44,860
Og hver af disse servere lige
sidder der, ser i den kø,

642
00:36:44,860 --> 00:36:46,730
ser, at der er én, der har brug for at
forarbejdes, trækker det køen,

643
00:36:46,730 --> 00:36:48,740
behandler det, og pinde
det på den næste kø.

644
00:36:48,740 --> 00:36:54,200
>> Og hvad så, der giver os
at gøre, er anvendelse i det væsentlige,

645
00:36:54,200 --> 00:36:58,110
så meget hardware som vi ønsker at dette
problem for en meget kort periode

646
00:36:58,110 --> 00:37:02,970
at behandle oplysningerne så hurtigt som
muligt, hvilket er noget, som kun

647
00:37:02,970 --> 00:37:08,220
nu i en verden af ​​cloud computing
Vi kan bestemmelse servere væsentlige

648
00:37:08,220 --> 00:37:09,890
går, at nyttigt.

649
00:37:09,890 --> 00:37:12,260
Så vi behøver ikke at have en
kæmpe server sidder omkring

650
00:37:12,260 --> 00:37:16,700
hele tiden at gøre behandlingen
der kan ske bare en gang om ugen.

651
00:37:16,700 --> 00:37:21,440
>> Så det er for det meste.

652
00:37:21,440 --> 00:37:27,590
Der er dokumentation
til biblioteket Cloud Item API

653
00:37:27,590 --> 00:37:31,960
på denne webadresse, som vil
foreligge senere.

654
00:37:31,960 --> 00:37:36,730
Og venligst gå tage et kig på
den for at se om der er noget,

655
00:37:36,730 --> 00:37:37,579
du har nogen ideer.

656
00:37:37,579 --> 00:37:38,120
Spil med det.

657
00:37:38,120 --> 00:37:38,830
Fjolle rundt.

658
00:37:38,830 --> 00:37:42,800
Og forhåbentlig kan komme
op med noget stort.

659
00:37:42,800 --> 00:37:44,740
Tak.

660
00:37:44,740 --> 00:37:45,899