1
00:00:00,000 --> 00:00:11,370

2
00:00:11,370 --> 00:00:12,370
JEFFREY lig: Hi daar.

3
00:00:12,370 --> 00:00:13,550
Ek is Jeffrey lig.

4
00:00:13,550 --> 00:00:17,890
En ek is hier om te praat oor die
Harvard Biblioteek en die bou van môre se

5
00:00:17,890 --> 00:00:20,870
vandag biblioteek, dink ek.

6
00:00:20,870 --> 00:00:23,040
So die agtergrond hier,
die plek vir hierdie sessie

7
00:00:23,040 --> 00:00:26,930
is in wese dat daar
'n baie van bibliografiese data

8
00:00:26,930 --> 00:00:28,400
beskikbaar in die Harvard biblioteke.

9
00:00:28,400 --> 00:00:33,434
En daar is 'n geleentheid,
deur 'n paar van die gereedskap

10
00:00:33,434 --> 00:00:36,350
en 'n projek wat is ontwikkel,
toegang tot die inligting te kry

11
00:00:36,350 --> 00:00:42,430
en neem dit na plekke wat die
Harvard Biblioteek is nie nou doen,

12
00:00:42,430 --> 00:00:45,460
doen nuwe dinge met dit, eksperiment
en speel rond met dit.

13
00:00:45,460 --> 00:00:52,413
>> So die inskrywing punt in hierdie is 'n API
genoem die Harvard Biblioteek wolk

14
00:00:52,413 --> 00:00:57,650
is 'n oop metadata bediener,
wat ek sal praat oor die nou.

15
00:00:57,650 --> 00:01:02,595
So het die agtergrond is dat daar 'n
baie dinge in die Harvard biblioteek.

16
00:01:02,595 --> 00:01:07,150
Ons het meer as 13 miljoen bibliografiese
rekords, miljoene van beelde,

17
00:01:07,150 --> 00:01:11,090
en duisende van die vind van hulpmiddels, wat
is in wese dokumente beskryf

18
00:01:11,090 --> 00:01:15,500
versamelings, sê wat
is in hulle bokse papiere

19
00:01:15,500 --> 00:01:21,080
en so meer wat oor verteenwoordig
'n miljoen individuele dokumente.

20
00:01:21,080 --> 00:01:24,290
En daar is ook 'n baie
inligting wat die biblioteek het

21
00:01:24,290 --> 00:01:28,180
oor hoe die inhoud gebruik wat
van belang kan wees vir mense

22
00:01:28,180 --> 00:01:32,400
wat dalk wil om te werk met dit.

23
00:01:32,400 --> 00:01:36,150
>> So al die inligting
die biblioteek het metadata.

24
00:01:36,150 --> 00:01:39,500
So metadata is data oor die data.

25
00:01:39,500 --> 00:01:42,070
So wanneer ons praat oor
die inligting wat

26
00:01:42,070 --> 00:01:44,890
wat beskikbaar is deur die biblioteek
wolk wat beskikbaar is,

27
00:01:44,890 --> 00:01:47,760
dit is nie noodwendig
die werklike dokumente

28
00:01:47,760 --> 00:01:53,060
hulself, nie noodwendig die volle
teks van boeke of die volle beelde,

29
00:01:53,060 --> 00:01:54,890
al wat werklik die geval is.

30
00:01:54,890 --> 00:01:57,550
Maar dit is regtig
inligting oor die data.

31
00:01:57,550 --> 00:02:00,909
>> So jy kan dink katalogisering
inligting, skakel getalle, vakke,

32
00:02:00,909 --> 00:02:02,700
hoeveel eksemplare van die
boek is daar, wat

33
00:02:02,700 --> 00:02:06,380
is die uitgawes, wat die
formate, die skrywers, en so meer.

34
00:02:06,380 --> 00:02:12,250
So is daar 'n baie inligting oor
die inligting in die versameling wat,

35
00:02:12,250 --> 00:02:14,400
op sigself, is 'n soort van inherent nuttig.

36
00:02:14,400 --> 00:02:19,230
En al is jy
doen in-diepte navorsing,

37
00:02:19,230 --> 00:02:25,160
jy natuurlik wil te kry om die werklike
inhoud self en kyk na die data,

38
00:02:25,160 --> 00:02:30,140
die metadata is nuttig in terme van
beide die ontleding van die corpus as 'n geheel,

39
00:02:30,140 --> 00:02:33,870
soos wat dinge in die versameling.

40
00:02:33,870 --> 00:02:35,520
Hoe verband hulle?

41
00:02:35,520 --> 00:02:39,482
Dit help jou om werklik te vind ander dinge,
Dit is regtig die hoofdoel van dit.

42
00:02:39,482 --> 00:02:41,190
Die punt van die
metadata en die katalogus

43
00:02:41,190 --> 00:02:43,230
is om te help om al vind
die inligting wat

44
00:02:43,230 --> 00:02:46,590
beskikbaar is binne die versamelings.

45
00:02:46,590 --> 00:02:53,690
>> So, dit is 'n voorbeeld van metadata
vir 'n boek in die Harvard Biblioteek.

46
00:02:53,690 --> 00:02:56,370
So dit is daar.

47
00:02:56,370 --> 00:02:59,850
En jy kan sien dit is
eintlik matig komplekse.

48
00:02:59,850 --> 00:03:04,610
En 'n deel van die waarde van metadata
binne die Harvard Biblioteek stelsel

49
00:03:04,610 --> 00:03:09,320
is dat dit soort gewees
van opgebou deur catalogers

50
00:03:09,320 --> 00:03:12,720
en saamgestel deur mense wat aansoek doen
'n baie kundigheid en vaardigheid

51
00:03:12,720 --> 00:03:20,030
en het gedink om dit met verloop van tyd,
wat 'n baie waarde.

52
00:03:20,030 --> 00:03:25,450
>> So as jy 'n blik op hierdie rekord vir
Die Annotated Alice, kan jy uitvind

53
00:03:25,450 --> 00:03:32,590
jy het die titel, wat dit geskryf het, die
skrywer, en al die verskillende vakke

54
00:03:32,590 --> 00:03:35,380
wat mense het gekatalogiseer dit in.

55
00:03:35,380 --> 00:03:40,110
En jy kan sien daar is ook, in
Benewens 'n baie goeie inligting

56
00:03:40,110 --> 00:03:42,852
hier, daar is 'n paar duplisering.

57
00:03:42,852 --> 00:03:45,560
Daar is 'n baie van kompleksiteit wat
weerspieël deur die metadata

58
00:03:45,560 --> 00:03:46,300
wat jy het.

59
00:03:46,300 --> 00:03:50,320
>> So een titel van hierdie boek is
Alice se avonture in Wonderland.

60
00:03:50,320 --> 00:03:53,880
So, dit is 'n geannoteerde
weergawe van die boek.

61
00:03:53,880 --> 00:03:56,380
Maar dit is ook 'n beroep Die Annotated
Alice, Alice se avonture

62
00:03:56,380 --> 00:03:58,570
in Wonderland omdat
dit is iets wat

63
00:03:58,570 --> 00:04:00,430
Martin Gardner geskryf
en geannoteerde die boek.

64
00:04:00,430 --> 00:04:03,369
En daar is 'n baie goeie inligting
oor logiese raaisels en dinge

65
00:04:03,369 --> 00:04:05,410
binne Alice dat jy
waarskynlik nie geweet het nie oor.

66
00:04:05,410 --> 00:04:07,000
So jy moet gaan lees dit.

67
00:04:07,000 --> 00:04:11,940
>> Maar jy kan sien daar is
'n baie detail hier,

68
00:04:11,940 --> 00:04:15,340
insluitend identifiseerders, wanneer dit
geskep, waar dit vandaan kom,

69
00:04:15,340 --> 00:04:17,420
in terme van die Harvard
stelsel, en so meer.

70
00:04:17,420 --> 00:04:20,350
So, dit is 'n voorbeeld van
die tipe metadata

71
00:04:20,350 --> 00:04:24,340
dat jy kan sien 'n boek in
die Harvard Biblioteek versameling.

72
00:04:24,340 --> 00:04:26,680
>> Dit is iets heeltemal anders.

73
00:04:26,680 --> 00:04:32,610
So is daar 'n stelsel genoem
VIA Harvard, wat basies

74
00:04:32,610 --> 00:04:39,990
is katalogisering beelde en voorwerpe van kuns
en visuele dinge regdeur Harvard,

75
00:04:39,990 --> 00:04:44,010
en die toevoeging van 'n paar metadata
vir hulle te klassifiseer hulle

76
00:04:44,010 --> 00:04:49,200
en, in sommige gevalle, die verskaffing
klein miniatuur prente

77
00:04:49,200 --> 00:04:51,250
wat jy kan neem om 'n
kyk na as jy dit wil hê.

78
00:04:51,250 --> 00:04:54,240
>> So, dit is 'n voorbeeld van die
metadata wat jy vir 'n bord

79
00:04:54,240 --> 00:04:57,840
uit, vermoedelik, Alice in Wonderland.

80
00:04:57,840 --> 00:05:00,499
En jy kan sien daar is
minder metadata hier.

81
00:05:00,499 --> 00:05:02,040
Dit is net 'n ander soort voorwerp.

82
00:05:02,040 --> 00:05:03,425
En so is daar minder inligting.

83
00:05:03,425 --> 00:05:07,790
>> Jy het meestal die feit dat 'n oproep
nommer, wese wat dit geskep het, -

84
00:05:07,790 --> 00:05:10,410
>> Ons weet nie wanneer dit geskep is.

85
00:05:10,410 --> 00:05:13,320
>> --and 'n titel.

86
00:05:13,320 --> 00:05:14,300
>> Nog 'n voorbeeld.

87
00:05:14,300 --> 00:05:16,380
Dit is 'n bevinding hulp.

88
00:05:16,380 --> 00:05:19,030
So daar is 'n versameling van Lewis
Carroll se referate by Harvard.

89
00:05:19,030 --> 00:05:23,601
So beskryf dit wat
is in daardie versameling.

90
00:05:23,601 --> 00:05:26,100
So iemand het gegaan en
kyk deur al die bokse

91
00:05:26,100 --> 00:05:32,220
en gekatalogiseer dit, gegewe 'n agtergrond,
geskryf om 'n opsomming van wat hier is.

92
00:05:32,220 --> 00:05:35,290
En as jy was om te kyk
verder op hierdie, hierdie

93
00:05:35,290 --> 00:05:39,620
gaan vir bladsye en bladsye
en bladsye, maar dit sal jou vertel

94
00:05:39,620 --> 00:05:41,860
wat briewe en wat
datums van wat bokse

95
00:05:41,860 --> 00:05:44,289
dwarsdeur die versameling bestaan.

96
00:05:44,289 --> 00:05:46,330
Maar dit is iets
dat, as jy by Harvard,

97
00:05:46,330 --> 00:05:50,720
jy kan gaan en eintlik fisies kyk
en, vermoedelik, neem 'n blik op.

98
00:05:50,720 --> 00:05:53,440
>> So, dit is al groot.

99
00:05:53,440 --> 00:05:54,450
Dit metadata se nuttig.

100
00:05:54,450 --> 00:05:56,327
Dit is in die Harvard Biblioteek stelsel.

101
00:05:56,327 --> 00:05:58,910
Daar is gereedskap aanlyn waar jy
kan gaan en neem 'n blik op dit,

102
00:05:58,910 --> 00:05:59,993
en sien dit, en soek dit.

103
00:05:59,993 --> 00:06:02,810
En jy kan dit en dobbelstene sny
dit in baie verskillende maniere.

104
00:06:02,810 --> 00:06:06,920
>> Maar dit is regtig slegs beskikbaar indien
jy is 'n menslike wese sit

105
00:06:06,920 --> 00:06:12,600
op jou webblaaier of iets of
jou selfoon en opgevolg deur dit.

106
00:06:12,600 --> 00:06:16,730
Dit is nie regtig in
enige vorm van bruikbare mode

107
00:06:16,730 --> 00:06:19,520
vir ander stelsels of
ander rekenaars te gebruik,

108
00:06:19,520 --> 00:06:21,500
nie met stelsels binne
die Harvard Biblioteek,

109
00:06:21,500 --> 00:06:24,890
maar stelsels in die res van die wêreld,
net om ander mense in die algemeen.

110
00:06:24,890 --> 00:06:30,210
So die vraag is, hoe kan ons
maak dit beskikbaar vir rekenaars

111
00:06:30,210 --> 00:06:33,560
sodat ons meer interessant kan doen
dinge met dit as net

112
00:06:33,560 --> 00:06:36,550
browsing dit self?

113
00:06:36,550 --> 00:06:39,766
>> So hoekom sou jy wil om dit te doen?

114
00:06:39,766 --> 00:06:41,140
Daar is 'n baie moontlikhede.

115
00:06:41,140 --> 00:06:43,980
Een daarvan is jy kan heeltemal bou van 'n
ander manier van blare

116
00:06:43,980 --> 00:06:46,962
die inhoud wat beskikbaar is
deur die Harvard Biblioteke.

117
00:06:46,962 --> 00:06:48,670
Ek sal jou een wys
later genoem Stacklife,

118
00:06:48,670 --> 00:06:52,440
wat 'n heeltemal ander
neem op soek na die inhoud.

119
00:06:52,440 --> 00:06:54,560
>> Jy kan 'n aanbeveling enjin bou.

120
00:06:54,560 --> 00:06:57,955
So Harvard Biblioteek is nie in die
besigheid te sê, jy graag hierdie boek.

121
00:06:57,955 --> 00:07:01,080
Dan gaan neem 'n blik op hierdie 17 ander
boeke wat jy kan in belangstel

122
00:07:01,080 --> 00:07:03,200
of die 18 ander beelde.

123
00:07:03,200 --> 00:07:06,040
Maar dit kan beslis
'n waardevolle funksie.

124
00:07:06,040 --> 00:07:09,272
En gegewe die metadata, kan dit
moontlik wees dat om saam te stel.

125
00:07:09,272 --> 00:07:11,980
Jy kan verskillende behoeftes in
terme van die soek na die inhoud,

126
00:07:11,980 --> 00:07:16,200
soos miskien ten spyte van die gereedskap wat
is beskikbaar wat die biblioteek maak

127
00:07:16,200 --> 00:07:18,450
beskikbaar is, kan jy wil
om te soek in 'n ander manier

128
00:07:18,450 --> 00:07:21,847
of optimaliseer vir 'n spesifieke gebruik geval,
wat miskien is dit baie gespesialiseerde.

129
00:07:21,847 --> 00:07:23,930
Miskien is daar net 'n paar
mense in die wêreld wat

130
00:07:23,930 --> 00:07:25,846
wil die inhoud te soek
op hierdie manier, maar dit

131
00:07:25,846 --> 00:07:28,985
groot sou wees as ons
kon laat hulle dit doen.

132
00:07:28,985 --> 00:07:30,860
Daar is 'n baie analytics
in net hoe mense

133
00:07:30,860 --> 00:07:33,860
gebruik om die inhoud wat werklik sou wees
interessant om te weet oor, uit te vind

134
00:07:33,860 --> 00:07:37,280
watter boeke gebruik word,
wat is nie, en so meer.

135
00:07:37,280 --> 00:07:41,670
En dan is daar 'n baie
geleentheid te integreer

136
00:07:41,670 --> 00:07:45,210
met ander inligting
wat daar buite op die web.

137
00:07:45,210 --> 00:07:46,880
Sodat ons have--

138
00:07:46,880 --> 00:07:50,260
>> Byvoorbeeld, NPR het
'n boekresensie segment,

139
00:07:50,260 --> 00:07:53,090
waar hulle 'n onderhoud
skrywers oor boeke.

140
00:07:53,090 --> 00:07:56,837
En so sou dit wonderlik wees as jy was
soek na 'n boek in die Harvard

141
00:07:56,837 --> 00:07:59,670
Biblioteek, en jy sê, OK, daar is
was 'n onderhoud met die skrywer.

142
00:07:59,670 --> 00:08:00,878
Kom ons gaan neem 'n blik op dit.

143
00:08:00,878 --> 00:08:05,461
Of daar is 'n Wikipedia bladsy, as 'n
gesaghebbende, wetenskaplike verwysing

144
00:08:05,461 --> 00:08:07,710
oor hierdie boek wat u
dalk 'n blik op te neem.

145
00:08:07,710 --> 00:08:12,600
>> Daar is hierdie tipe van bronne
regdeur die web verstrooi.

146
00:08:12,600 --> 00:08:16,555
En bring hulle saam
kan 'n groot nut wees

147
00:08:16,555 --> 00:08:18,930
aan iemand te kyk na die
inhoud, soek vir iets.

148
00:08:18,930 --> 00:08:20,180
Maar dit is ook nie die
soort van ding wat jy wil

149
00:08:20,180 --> 00:08:23,205
wil die biblioteek om verantwoordelik te wees
om uit te gaan sit en die jag af

150
00:08:23,205 --> 00:08:25,455
al hierdie verskillende bronne
en steek hulle saam

151
00:08:25,455 --> 00:08:28,920
want hulle is voortdurend aan die verander.

152
00:08:28,920 --> 00:08:33,570
En wat hulle dink is belangrik Mei
nie wat jy dink belangrik is.

153
00:08:33,570 --> 00:08:36,929
>> En selfs meer so, basies is daar 'n
baie dinge wat ons nie gedink het nie nog.

154
00:08:36,929 --> 00:08:42,222
So as ons dit kan oopmaak, meer
mense behalwe 'n half dosyn of so,

155
00:08:42,222 --> 00:08:45,174
wat op soek is na hierdie op 'n
gereelde basis kan dink van idees

156
00:08:45,174 --> 00:08:47,340
en masseer die data, en
doen wat hulle wil met dit.

157
00:08:47,340 --> 00:08:49,920

158
00:08:49,920 --> 00:08:54,045
>> So ons wil om dit te maak
data beskikbaar is vir die wêreld.

159
00:08:54,045 --> 00:08:55,670
Wel, daar is 'n paar komplikasies.

160
00:08:55,670 --> 00:08:58,540
Een daarvan is dat hierdie metadata
is in die verskillende stelsels.

161
00:08:58,540 --> 00:09:01,110
Dit is in verskillende formate.

162
00:09:01,110 --> 00:09:04,719
So is daar 'n paar normalisering
wat moet gebeur,

163
00:09:04,719 --> 00:09:08,010
wat normalisering synde die proses van
bring dinge uit verskillende formate

164
00:09:08,010 --> 00:09:12,940
en kartering hulle na 'n enkele formaat
sodat die velde sal ooreenstem.

165
00:09:12,940 --> 00:09:15,160
>> Daar is 'n paar kopiereg beperkings.

166
00:09:15,160 --> 00:09:21,010
Vreemd genoeg, die katalogus inskrywing
oor 'n boek is aanspreeklik vir kopiereg.

167
00:09:21,010 --> 00:09:24,060
So selfs al is dit net
inligting verkry uit die boek,

168
00:09:24,060 --> 00:09:25,330
dit is kopiereg.

169
00:09:25,330 --> 00:09:28,400
En afhangende van wat eintlik
geskep dat metadata,

170
00:09:28,400 --> 00:09:32,175
daar beperkings op wat wees
kan dit versprei, soortgelyk aan-

171
00:09:32,175 --> 00:09:33,402
>> Ek weet nie.

172
00:09:33,402 --> 00:09:36,110
Dit mag of mag nie soortgelyk te wees
die situasie van die song lyrics,

173
00:09:36,110 --> 00:09:36,610
byvoorbeeld.

174
00:09:36,610 --> 00:09:38,560
So ons almal weet hoe dit panne uit.

175
00:09:38,560 --> 00:09:40,450
So jy moet kry om daardie probleem.

176
00:09:40,450 --> 00:09:44,910
>> En dan nog 'n stukkie is
dat daar is 'n baie van data.

177
00:09:44,910 --> 00:09:52,420
So as ek iemand wat wil om te werk
met die data of het 'n koel idee,

178
00:09:52,420 --> 00:09:55,350
die hantering van 14 miljoen
rekords op my laptop

179
00:09:55,350 --> 00:09:57,487
kan 'n probleem wees
en moeilik om te beheer.

180
00:09:57,487 --> 00:09:59,320
So ons wil verminder
die hindernisse vir mense

181
00:09:59,320 --> 00:10:02,130
in staat wees om te werk met die data.

182
00:10:02,130 --> 00:10:07,880
>> So het die benadering wat hopelik adresse
al hierdie bekommernisse is twee dele.

183
00:10:07,880 --> 00:10:11,770
Een is die bou van 'n platform wat neem
data van al hierdie uiteenlopende bronne

184
00:10:11,770 --> 00:10:14,350
en vererger dit normaliseer,
verryk, en fabrikate

185
00:10:14,350 --> 00:10:16,650
dit beskikbaar in 'n enkele plek.

186
00:10:16,650 --> 00:10:20,950
En dit maak dit beskikbaar is deur middel
'n openbare API wat mense kan bel.

187
00:10:20,950 --> 00:10:24,430
>> So 'n API is 'n Aansoek
Programming Interface.

188
00:10:24,430 --> 00:10:28,930
En dit basies verwys na 'n
eindpunt dat 'n stelsel of tegnologie

189
00:10:28,930 --> 00:10:31,720
kan noem en kry data terug in
'n gestruktureerde formaat op 'n manier

190
00:10:31,720 --> 00:10:32,900
dat dit gebruik kan word.

191
00:10:32,900 --> 00:10:36,060
So dit is nie afhanklik
aan die gang na 'n webwerf

192
00:10:36,060 --> 00:10:37,970
en skraap data af
dit, byvoorbeeld.

193
00:10:37,970 --> 00:10:40,690

194
00:10:40,690 --> 00:10:45,010
>> So, dit is die tuisblad van
die API Library Wolk punt,

195
00:10:45,010 --> 00:10:47,220
wat is in wese sy weergawe twee.

196
00:10:47,220 --> 00:10:50,130
So dit is die tweede iterasie van
probeer om al hierdie inligting te maak

197
00:10:50,130 --> 00:10:53,280
beskikbaar is vir die wêreld.

198
00:10:53,280 --> 00:10:59,560
So dit is
http://api.lib.harvard.edu/v2/items.

199
00:10:59,560 --> 00:11:03,830
En net om hierdie af te breek
'n bietjie, wat dit beteken

200
00:11:03,830 --> 00:11:06,115
is dat hierdie weergawe twee van die API.

201
00:11:06,115 --> 00:11:08,490
Daar is 'n weergawe een, wat
Ek is nie van plan om oor te praat.

202
00:11:08,490 --> 00:11:09,750
Maar daar is 'n weergawe een.

203
00:11:09,750 --> 00:11:14,740
>> En as jy noem hierdie
API, kry jy items.

204
00:11:14,740 --> 00:11:20,640
En 'n deel van die idee van 'n
API is 'n API is 'n kontrak.

205
00:11:20,640 --> 00:11:23,440
Dit is iets wat
gaan nie verander nie.

206
00:11:23,440 --> 00:11:24,850
So byvoorbeeld, -

207
00:11:24,850 --> 00:11:27,410
>> En die rede is dat as ek
bou 'n soort van die stelsel wat

208
00:11:27,410 --> 00:11:33,210
gaan 'n biblioteek wolk API te gebruik
boeke te vertoon of mense te help vind

209
00:11:33,210 --> 00:11:36,190
inligting in unieke maniere,
wat ons nie wil hê om te gebeur

210
00:11:36,190 --> 00:11:38,940
is vir ons om te gaan verander hoe
dat API werk, en skielik

211
00:11:38,940 --> 00:11:41,340
alles breek op die eindgebruiker kant.

212
00:11:41,340 --> 00:11:46,710
So deel van as jy API jy maak
beskikbaar is vir die wêreld, is dit

213
00:11:46,710 --> 00:11:49,396
goeie praktyk om 'n te sit
weergawe nommer in dit sodat mense

214
00:11:49,396 --> 00:11:51,020
weet watter weergawe hulle hanteer.

215
00:11:51,020 --> 00:11:54,300
>> So as ons besluit om ons 'n beter manier om
van die maak van hierdie inligting beskikbaar is,

216
00:11:54,300 --> 00:11:57,295
ons kan verander om dit te
noem dat die weergawe van drie.

217
00:11:57,295 --> 00:11:59,920
So almal wat nog steeds met behulp
weergawe twee, dit sal nog steeds werk.

218
00:11:59,920 --> 00:12:03,490
Maar weergawe drie sou
het al die nuwe dinge.

219
00:12:03,490 --> 00:12:06,680

220
00:12:06,680 --> 00:12:09,210
>> So, dit is 'n API, maar dit
regtig lyk soos 'n URL.

221
00:12:09,210 --> 00:12:11,680
En ja, wat dit 'n
voorbeeld van is wat is

222
00:12:11,680 --> 00:12:16,615
bekend as 'n res API, wat beskikbaar is
oor net 'n gereelde web verbinding.

223
00:12:16,615 --> 00:12:19,680
En jy kan eintlik
gaan dit in 'n leser.

224
00:12:19,680 --> 00:12:28,550
>> So hier is ek nou net oopgemaak Firefox en
gegaan om api.lib.harvard.edu/v2/items.

225
00:12:28,550 --> 00:12:31,560
En ja, wat ek hier is
basies die eerste bladsy

226
00:12:31,560 --> 00:12:34,740
van die resultate van die hele
stel van die items wat ons het.

227
00:12:34,740 --> 00:12:37,460
En dit is hier in XML-formaat.

228
00:12:37,460 --> 00:12:40,130

229
00:12:40,130 --> 00:12:42,210
En dit is ook
prettified deur Firefox.

230
00:12:42,210 --> 00:12:45,850
Dit maak nie eintlik al hierdie
bietjie uit te brei en kontraktering

231
00:12:45,850 --> 00:12:47,880
doohickeys hier.

232
00:12:47,880 --> 00:12:52,520
Dit is 'n soort van 'n mooier
weergawe manier om te kyk na dit.

233
00:12:52,520 --> 00:12:57,040
>> Maar wat is dit vir ons sê is
Ek het gevra al die items.

234
00:12:57,040 --> 00:13:03,120
So is daar 13.289.475 items.

235
00:13:03,120 --> 00:13:06,150
En ek is op soek na die eerste
10, begin by posisie nul

236
00:13:06,150 --> 00:13:09,760
want in rekenaarwetenskap
ons altyd begin by nul.

237
00:13:09,760 --> 00:13:15,150
En wat ek hier, as ek net in duie stort
hierdie, sal jy sien ek het 10 items.

238
00:13:15,150 --> 00:13:20,410

239
00:13:20,410 --> 00:13:25,210
>> En as ek 'n blik op 'n item, kan ek
sien dat Ek het inligting oor dit.

240
00:13:25,210 --> 00:13:27,400
En dit is in wat genoem MODS vorm.

241
00:13:27,400 --> 00:13:30,860
En so ek gaan om te skakel
terug hier vir 'n oomblik.

242
00:13:30,860 --> 00:13:33,750
OK.

243
00:13:33,750 --> 00:13:37,447
>> So laat ons soek vir iets in
spesifieke omdat die eerste item wat

244
00:13:37,447 --> 00:13:40,030
gebeur om te kom wanneer jy kyk
deur die hele versameling

245
00:13:40,030 --> 00:13:41,750
is, per definisie, lukraak.

246
00:13:41,750 --> 00:13:44,550
So kom ons kyk vir 'n paar donuts.

247
00:13:44,550 --> 00:13:46,830
Oh.

248
00:13:46,830 --> 00:13:49,190
>> OK.

249
00:13:49,190 --> 00:13:49,940
So donuts.

250
00:13:49,940 --> 00:13:55,360
So het ons gevind daar is 80 items in
die versameling wat verwys donuts.

251
00:13:55,360 --> 00:13:57,150
Ons is op soek na die eerste 10 van hulle.

252
00:13:57,150 --> 00:14:01,890
Nou, kan jy hier sien die manier waarop
Ek het gesê ek is op soek na oliebolle,

253
00:14:01,890 --> 00:14:04,400
Ek het net iets bygevoeg
die soektog string van die URL.

254
00:14:04,400 --> 00:14:09,680
So q gelyk oliebolle, wat jy kan
sien 'n bietjie meer maklik hier.

255
00:14:09,680 --> 00:14:12,131
>> En dit basies beteken daar is
'n spec vir die API, wat

256
00:14:12,131 --> 00:14:13,880
definieer wat al
hierdie parameters beteken.

257
00:14:13,880 --> 00:14:17,150
En dit beteken ons gaan
soek alles vir donuts.

258
00:14:17,150 --> 00:14:24,910
>> Dus is die eerste item hier het ons
jy kan sien die titel is Donuts,

259
00:14:24,910 --> 00:14:29,310
en daar is 'n subtitel genoem 'n
Amerikaanse Passie, wat is, dink ek,

260
00:14:29,310 --> 00:14:31,610
gepas.

261
00:14:31,610 --> 00:14:36,134
Daar is 'n baie different--

262
00:14:36,134 --> 00:14:38,050
Sodra jy op die punt
om die data,

263
00:14:38,050 --> 00:14:41,020
daar is 'n baie verskillende
formate wat jy dit kan kry in.

264
00:14:41,020 --> 00:14:44,050
En daar is verskillende sterkpunte
en swakhede vir almal van hulle.

265
00:14:44,050 --> 00:14:49,000
So hierdie een, kan jy sien
hier, hierdie vorm is baie ryk.

266
00:14:49,000 --> 00:14:51,946
En dit is gestandaardiseer.

267
00:14:51,946 --> 00:14:55,040
>> So is daar 'n spesifieke titel
gebied, 'n subtitel veld.

268
00:14:55,040 --> 00:14:58,950
Daar is 'n alternatiewe
titel, 'n Amerikaanse passie.

269
00:14:58,950 --> 00:15:01,650
Daar is die naam wat verband hou met dit.

270
00:15:01,650 --> 00:15:03,120
Tipe van die hulpbron is teks.

271
00:15:03,120 --> 00:15:06,070
Daar is 'n baie inligting
hier in hierdie formaat.

272
00:15:06,070 --> 00:15:09,480
>> Maar daar is 'n klomp
van verskillende formate.

273
00:15:09,480 --> 00:15:11,920
So, wat was ons net
op soek na 'n formaat

274
00:15:11,920 --> 00:15:17,700
genoem MODS, wat staan ​​vir
Metadata Object Beskrywing Service,

275
00:15:17,700 --> 00:15:18,250
potensieel.

276
00:15:18,250 --> 00:15:23,030
Ek is eintlik nie heeltemal seker oor die
S. Maar dit is 'n redelik komplekse formaat.

277
00:15:23,030 --> 00:15:24,240
Dit is die verstek formaat.

278
00:15:24,240 --> 00:15:30,260
>> Maar dit is die een wat hou
die rykdom van al die data

279
00:15:30,260 --> 00:15:33,820
dat die biblioteek omdat
dit is baie naby aan wat

280
00:15:33,820 --> 00:15:35,110
die biblioteek gebruik intern.

281
00:15:35,110 --> 00:15:39,030
Dit is 'n standaard wat
gebruik oor die hele land,

282
00:15:39,030 --> 00:15:40,944
regoor die wêreld in akademiese biblioteke.

283
00:15:40,944 --> 00:15:42,110
En dit is baie tusenwerkbaar.

284
00:15:42,110 --> 00:15:44,852
So as jy het 'n dokument
wat in MODS formaat,

285
00:15:44,852 --> 00:15:47,560
jy kan gee wat aan iemand anders
wie stelsels verstaan ​​MODS,

286
00:15:47,560 --> 00:15:48,518
en hulle kan dit invoer.

287
00:15:48,518 --> 00:15:50,840
So dit is 'n standaard.

288
00:15:50,840 --> 00:15:54,250
Dit is baie goed gedefinieer, baie spesifiek.

289
00:15:54,250 --> 00:15:58,980
En dit is wat maak dit
tusenwerkbaar want as iemand sê,

290
00:15:58,980 --> 00:16:04,930
dit is die alternatiewe titel van 'n
rekord, almal weet wat dit beteken.

291
00:16:04,930 --> 00:16:07,740
Aan die ander kant, dit is baie ingewikkeld.

292
00:16:07,740 --> 00:16:13,160
>> So as jy 'n blik
by hierdie rekord hier,

293
00:16:13,160 --> 00:16:15,320
as ek wil net die te kry
titel van hierdie dokument,

294
00:16:15,320 --> 00:16:21,150
van hierdie boek, wat waarskynlik Donuts,
'N Amerikaanse Passie, die ontleding van dit uit

295
00:16:21,150 --> 00:16:22,940
is 'n bietjie betrokke.

296
00:16:22,940 --> 00:16:27,380
AANGESIEN daar is 'n ander
formaat genoem Dublin Core,

297
00:16:27,380 --> 00:16:29,730
wat is 'n baie, baie eenvoudiger formaat.

298
00:16:29,730 --> 00:16:33,764
>> En so sien jy hier, is daar geen
titel, subtitel, alternatiewe titel.

299
00:16:33,764 --> 00:16:35,930
Daar is net die titel,
Donuts, 'n Amerikaanse Passie,

300
00:16:35,930 --> 00:16:38,780
en 'n ander titel, Amerikaanse passie.

301
00:16:38,780 --> 00:16:42,907
So wanneer jy op soek na wat vorm
jy wil die data te kry uit,

302
00:16:42,907 --> 00:16:44,740
'n Baie hang af van hoe
jy gaan om dit te gebruik.

303
00:16:44,740 --> 00:16:46,573
Gebruik jy vir
interoperabiliteit of wil jy

304
00:16:46,573 --> 00:16:49,970
iets eenvoudig wat wil
dalk makliker om mee te werk?

305
00:16:49,970 --> 00:16:56,002
>> Aan die ander kant, 'n groot deel van die
besonderhede kry soort van squished af.

306
00:16:56,002 --> 00:16:58,460
Jy kan die nuanses van verloor
wat 'n spesifieke veld middel

307
00:16:58,460 --> 00:17:02,960
As jy met Dublin Core,
wat jy nie sou kry met MODS.

308
00:17:02,960 --> 00:17:06,462
So dit is twee van die formate
wat jy kan kry uit die API.

309
00:17:06,462 --> 00:17:08,920
En basies, is ons hou
dit agter die skerms in MODS.

310
00:17:08,920 --> 00:17:14,179
Maar ons kan jy dit gee MODS en
Dublin Core en enigiets anders as well.

311
00:17:14,179 --> 00:17:16,470
Die ander oorweging wanneer
jy soek in die data

312
00:17:16,470 --> 00:17:21,210
is jy kan dit as óf into, wat
staan ​​vir JavaScript Object notasie,

313
00:17:21,210 --> 00:17:24,720
of XML, wat staan ​​vir
Extensible Markup Language.

314
00:17:24,720 --> 00:17:30,080
En hierdie data vertoë beide
presies dieselfde data, presies

315
00:17:30,080 --> 00:17:31,080
dieselfde velde.

316
00:17:31,080 --> 00:17:33,644
Maar hulle is net
sintakties verskillende.

317
00:17:33,644 --> 00:17:40,401
>> So, dit is a--

318
00:17:40,401 --> 00:17:41,400
Wel, laat ons net skakel.

319
00:17:41,400 --> 00:17:47,490
So dit is ons navraag vir
donuts in XML-formaat.

320
00:17:47,490 --> 00:17:53,470
As ek maar net skakel dit om into
Ek kan sien dat dit lyk anders.

321
00:17:53,470 --> 00:17:58,580
So nou is dit dieselfde inhoud,
maar 'n ander struktuur.

322
00:17:58,580 --> 00:18:00,080
Daar is minder hoek tussen hakies.

323
00:18:00,080 --> 00:18:02,530
Daar is minder verbose.

324
00:18:02,530 --> 00:18:06,440
>> En dit is 'n formaat wat, as jy
werk in die web-omgewing,

325
00:18:06,440 --> 00:18:09,680
jy is waarskynlik gaan
te wil, want een te gebruik

326
00:18:09,680 --> 00:18:12,630
van die mooi dinge oor into is
dit is verenigbaar met JavaScript.

327
00:18:12,630 --> 00:18:17,680
So as ek skryf web app, kan ek trek
in into en net werk met dit direk.

328
00:18:17,680 --> 00:18:20,187
Terwyl met XML, dit is 'n
bietjie meer ingewikkeld.

329
00:18:20,187 --> 00:18:21,520
So weer, dit is beide nuttig.

330
00:18:21,520 --> 00:18:26,387
Hulle het net verskillende gevalle gebruik
waar mense dalk wil om dit te gebruik.

331
00:18:26,387 --> 00:18:26,886
OK.

332
00:18:26,886 --> 00:18:29,810

333
00:18:29,810 --> 00:18:31,680
So terug na die API.

334
00:18:31,680 --> 00:18:32,900
Sodat ons kan soek for--

335
00:18:32,900 --> 00:18:36,220
>> Ek gee 'n voorbeeld van
soek vir donuts.

336
00:18:36,220 --> 00:18:39,330
Ons kan ook net soek in 'n
bepaalde gebied hier.

337
00:18:39,330 --> 00:18:41,310
So in plaas van soek
die hele rekord,

338
00:18:41,310 --> 00:18:43,870
Ek kan net soek die titel veld.

339
00:18:43,870 --> 00:18:48,810
En so nou is daar 25 dinge wat
het oliebolle in die titel, waarvan een

340
00:18:48,810 --> 00:18:52,430
is oor die herstel van
vleilande in die bestuur

341
00:18:52,430 --> 00:18:54,990
van die gat in die donut
program, wat waarskynlik

342
00:18:54,990 --> 00:18:58,970
nie noodwendig wat ons soek
vir wanneer ons soek na donuts.

343
00:18:58,970 --> 00:19:02,790

344
00:19:02,790 --> 00:19:05,490
>> Jy kan ook, wanneer jy
die hantering van 'n API--

345
00:19:05,490 --> 00:19:08,827
>> Deel van 'n API gee
mense toegang tot groot datastelle.

346
00:19:08,827 --> 00:19:11,410
En daar is 'n paar verskillende
gereedskap wat jy kan gebruik om dit te doen.

347
00:19:11,410 --> 00:19:14,170
Een daarvan is baie eenvoudig, jy
kan blaai deur die data.

348
00:19:14,170 --> 00:19:17,340
So asof jy 'n navraag
deur 'n web koppelvlak,

349
00:19:17,340 --> 00:19:19,470
jy kan kyk na bladsy een,
bladsy twee, bladsy drie.

350
00:19:19,470 --> 00:19:22,040
Jy kan dieselfde doen
ding deur die API.

351
00:19:22,040 --> 00:19:24,150
Jy hoef net te wees
eksplisiete in hoe jy dit doen.

352
00:19:24,150 --> 00:19:29,511
>> So byvoorbeeld, as ek sien
In my eerste navraag hier,

353
00:19:29,511 --> 00:19:32,510
waar ek doen 'n soektog na dinge
met oliebolle in die titel, kan ek sê,

354
00:19:32,510 --> 00:19:35,415
en beperk gelyk 20, wat beteken
gee my die eerste 20 rekords nie

355
00:19:35,415 --> 00:19:38,540
die eerste 10, wat is die standaard,
want ek wil om te kyk na 20 op 'n tyd.

356
00:19:38,540 --> 00:19:43,435
Of ek kan sê, stel die
begin gelyk aan 20 en beperk

357
00:19:43,435 --> 00:19:47,150
gelyk 20, wat sal gee
my rekords 21 deur 40.

358
00:19:47,150 --> 00:19:52,680
>> So ek dink die ding
hier weg te neem is

359
00:19:52,680 --> 00:19:57,290
dat ons met behulp van die navraag snare
parameters op die navraag te stel.

360
00:19:57,290 --> 00:20:02,760
En dit kan jy beheer
wat jy terug kry.

361
00:20:02,760 --> 00:20:05,980
>> Nog 'n instrument wat jy kan gebruik, -

362
00:20:05,980 --> 00:20:09,250
>> En dit is werklik nuttig in
terme van die ondersoek van die data.

363
00:20:09,250 --> 00:20:10,840
>> --is iets genoem faceting.

364
00:20:10,840 --> 00:20:15,530
So die term faceting is
nie noodwendig algemeen.

365
00:20:15,530 --> 00:20:16,880
Maar jy het dit al voorheen gesien.

366
00:20:16,880 --> 00:20:18,630
As jy 'n blik op
Amazon, byvoorbeeld,

367
00:20:18,630 --> 00:20:20,870
en jy doen 'n soektog vir
donuts in die boeke,

368
00:20:20,870 --> 00:20:27,080
hier is hulle het 'n reeks van boeke,
en hulle is gegroepeer volgens kategorie,

369
00:20:27,080 --> 00:20:30,470
en jy die verskillende kategorieë,
en hoe baie boeke in elke kategorie

370
00:20:30,470 --> 00:20:31,330
wys.

371
00:20:31,330 --> 00:20:33,420
>> So, dit is basies 'n faset.

372
00:20:33,420 --> 00:20:37,570
Jy neem al hulle boeke, die 1800
boeke wat ooreenstem donuts by Amazon.

373
00:20:37,570 --> 00:20:39,820
12 van hulle is in die
ontbyt kategorie.

374
00:20:39,820 --> 00:20:43,100
21 in die deeg en bak,
en so aan en so voort.

375
00:20:43,100 --> 00:20:47,670
>> So dit is regtig 'n nuttige
instrument vir die verkenning van die inhoud

376
00:20:47,670 --> 00:20:53,260
binne die biblioteek asook
want as jy kyk na 'n faset,

377
00:20:53,260 --> 00:20:56,520
dit gee jou 'n idee van watter vakke
bestaan, soos watter tipes vakke

378
00:20:56,520 --> 00:20:58,510
is die mees gewilde in jou navraag stel.

379
00:20:58,510 --> 00:21:00,950
En dit help jy ry af en verken.

380
00:21:00,950 --> 00:21:02,770
So kan ons die dieselfde ding doen.

381
00:21:02,770 --> 00:21:05,940
>> As ons wil hê dat die gebruik
API en kyk na fasette,

382
00:21:05,940 --> 00:21:08,950
ons nog 'n parameter te
ons vriend die navraag string.

383
00:21:08,950 --> 00:21:12,540
So fasette gelyk aan 'n komma geskei
n lys van wat ons wil faset op.

384
00:21:12,540 --> 00:21:14,790
So een van die fasette kan onderwerp.

385
00:21:14,790 --> 00:21:16,565
Nog dalk taal wees.

386
00:21:16,565 --> 00:21:19,665
En so as ons loop die soektog, ons get--

387
00:21:19,665 --> 00:21:23,372

388
00:21:23,372 --> 00:21:24,830
Dit lyk baie dieselfde hier.

389
00:21:24,830 --> 00:21:29,010
Maar ons aan die einde bygevoeg het
van die lys van 'n stel van fasette.

390
00:21:29,010 --> 00:21:34,060
So het ons 'n faset genoem onderwerp.

391
00:21:34,060 --> 00:21:40,250
So dit is om ons te vertel dat as ek kyk
op my 80 resultate van die donut navraag,

392
00:21:40,250 --> 00:21:42,100
13 van hulle het die
onderwerp Verenigde State van Amerika.

393
00:21:42,100 --> 00:21:43,684
Drie het die onderwerp donuts.

394
00:21:43,684 --> 00:21:45,600
Drie het die onderwerp
vleiland herstel,

395
00:21:45,600 --> 00:21:47,720
wat kan ons gat in die donut wees.

396
00:21:47,720 --> 00:21:51,780
Twee van hulle, die Simpsons,
en so aan en so voort.

397
00:21:51,780 --> 00:21:59,211
>> So kan dit nuttig as jy
wil jou soektog te verklein.

398
00:21:59,211 --> 00:22:00,210
Dit kan help jy dit doen.

399
00:22:00,210 --> 00:22:03,580
Veral as jy '
meer as, sê, 80 resultate.

400
00:22:03,580 --> 00:22:05,980
>> Net so, het ons ook gevra
vir fasette op taal.

401
00:22:05,980 --> 00:22:14,790
So as ons kyk na die resultate, sien ons 76
van hulle is in Engels, vier in Frans,

402
00:22:14,790 --> 00:22:19,620
twee in Spaans, twee, ek dink dit is
ongedefinieerde of onbekend is, Nederlandse en Latyn.

403
00:22:19,620 --> 00:22:22,830
So ek dink die Latynse
donut gevolg, weer,

404
00:22:22,830 --> 00:22:24,922
het niks te doen met gebak.

405
00:22:24,922 --> 00:22:25,630
Maar daar gaan jy.

406
00:22:25,630 --> 00:22:31,420

407
00:22:31,420 --> 00:22:38,630
>> So dit is soort van wat jy
hoe kan jy die inhoud terug te trek

408
00:22:38,630 --> 00:22:41,270
uit die API net deur
webblaaier, wat is groot.

409
00:22:41,270 --> 00:22:44,320
Maar dit is nie regtig wat jy wil
gewoonlik gebruik word om in API vir dit.

410
00:22:44,320 --> 00:22:48,710
So 'n voorbeeld van hoe jy
kan eintlik doen, is ek het

411
00:22:48,710 --> 00:22:54,720
geskryf om 'n super klein program,
wat, weer, het my donut soek

412
00:22:54,720 --> 00:22:59,010
en kies 'n paar velde
en gee dit in 'n tabel.

413
00:22:59,010 --> 00:23:01,610
So dit is baie die
dieselfde inhoud wat ons net

414
00:23:01,610 --> 00:23:04,830
saag met 'n paar velde getrek uit.

415
00:23:04,830 --> 00:23:12,090
So lys van titels, die
plek van wat die boek

416
00:23:12,090 --> 00:23:15,120
is oor die taal,
en so aan en so voort.

417
00:23:15,120 --> 00:23:20,480
>> So hoe dit gebeur het nie, aangesien
Ek dink ons ​​moet kyk na 'n paar kode,

418
00:23:20,480 --> 00:23:22,420
is--

419
00:23:22,420 --> 00:23:28,060
>> Wat ons hier het is 'n eenvoudige HTML
bladsy, wat die teks vertoon,

420
00:23:28,060 --> 00:23:32,900
welkom om die biblioteek wolk en
gee dan 'n tafel van die resultate.

421
00:23:32,900 --> 00:23:37,790
En daar is natuurlik geen resultate in
die tafel wanneer die bladsy kry gelaai.

422
00:23:37,790 --> 00:23:41,380
Maar wat ons doen
is die eerste van alles, ons

423
00:23:41,380 --> 00:23:46,290
is laai 'n biblioteek genoem
jQuery, wat is basies

424
00:23:46,290 --> 00:23:52,030
'n JavaScript-biblioteek, wat maak dit
baie maklik JavaScript te manipuleer

425
00:23:52,030 --> 00:23:58,780
native, HTML, en webblaaie te skep,
kliënt-kant logika en webblaaie.

426
00:23:58,780 --> 00:24:01,595
>> So wat ons hier het is jQuery
het 'n metode genoem kry

427
00:24:01,595 --> 00:24:05,270
wat in wese gaan om
'n URL, wat in hierdie geval,

428
00:24:05,270 --> 00:24:09,070
is hierdie bekende soek URL.

429
00:24:09,070 --> 00:24:14,440
En sal dan die inhoud van
dat URL en dan hardloop 'n funksie op dit.

430
00:24:14,440 --> 00:24:19,240
Daarom het ons gesê gaan na api.lib.harvard / edu.

431
00:24:19,240 --> 00:24:20,060
Soek vir donuts.

432
00:24:20,060 --> 00:24:21,300
Gee ons 20 rekords.

433
00:24:21,300 --> 00:24:28,590
En dan loop hierdie funksie, wat
Ek het gekies, om dit die data.

434
00:24:28,590 --> 00:24:34,430
En die data is die into dat
het uit die API teruggekeer.

435
00:24:34,430 --> 00:24:40,120
>> En dan sê ons, binne daardie
data daar is 'n veld met die naam item.

436
00:24:40,120 --> 00:24:48,117
En as ek gaan neem 'n blik op
een van hierdie resultate is dit hier,

437
00:24:48,117 --> 00:24:49,200
daar is iets called--

438
00:24:49,200 --> 00:24:50,220
>> Wel, dit is genoem item.

439
00:24:50,220 --> 00:24:53,520
So wat kan dit wees.

440
00:24:53,520 --> 00:25:01,840
En wat dit doen, is dit
gaan deur elke item

441
00:25:01,840 --> 00:25:05,300
en dan noem 'n ander
funksie op elke item.

442
00:25:05,300 --> 00:25:08,440
En daardie funksie basies
neem die waarde

443
00:25:08,440 --> 00:25:12,010
van die item, wat
wese die individuele rekord

444
00:25:12,010 --> 00:25:18,220
en ons toelaat om te trek uit die titel,
die dekking en die taal.

445
00:25:18,220 --> 00:25:21,640
>> So noem ons 'n funksie op elke
item wat ons terug van die API.

446
00:25:21,640 --> 00:25:25,397
En as jy net 'n blik
op hierdie stuk reg hier,

447
00:25:25,397 --> 00:25:27,230
wat ons doen is
ons skep 'n string,

448
00:25:27,230 --> 00:25:31,810
wat is in wese 'n HTML opmaak
om 'n tafel met value.title,

449
00:25:31,810 --> 00:25:35,790
wat is die titel van die
voorwerp, value.coverage,

450
00:25:35,790 --> 00:25:36,790
wat is die dekking, -

451
00:25:36,790 --> 00:25:38,225
>> En ons is besig met 'n tjek
hier om te sien wat is ongedefinieerd

452
00:25:38,225 --> 00:25:40,570
en wegkruip as dit sê ongedefinieerde,
want ons is nie regtig belangstel

453
00:25:40,570 --> 00:25:41,600
in daardie.

454
00:25:41,600 --> 00:25:42,939
>> --and dan die taal.

455
00:25:42,939 --> 00:25:44,730
En dan wat ons is
doen, is die aanbring van wat

456
00:25:44,730 --> 00:25:48,510
aan die tafel wat
geïdentifiseer deur die string hier.

457
00:25:48,510 --> 00:25:50,790
En hoe jQuery werk
is wat dit sê

458
00:25:50,790 --> 00:25:56,420
is op soek na die tafel met die idee van
resultate en voeg hierdie teks om dit te.

459
00:25:56,420 --> 00:25:59,380
En dit is die tafel met die idee van die resultate.

460
00:25:59,380 --> 00:26:04,998
So wat jy eindig
met is hierdie bladsy hier.

461
00:26:04,998 --> 00:26:06,206
En om te sien source--

462
00:26:06,206 --> 00:26:11,310

463
00:26:11,310 --> 00:26:13,810
Wel, die bron is nie eintlik
opgedateer wanneer dit gebeur.

464
00:26:13,810 --> 00:26:18,740
So kan jy die werklike sien
resultate van die tafel hier al is.

465
00:26:18,740 --> 00:26:24,770
>> So dit is net 'n eenvoudige voorbeeld van
doen 'n baie basiese navraag teen die API

466
00:26:24,770 --> 00:26:29,020
en die vertoon inligting in 'n ander
vorm, en nie om iets te doen te fancy.

467
00:26:29,020 --> 00:26:36,370
Nou, nog 'n voorbeeld is soos 'n
aansoek geskryf deur David Weinberger

468
00:26:36,370 --> 00:26:39,120
as 'n demo van hierdie, wat
wese wys jou

469
00:26:39,120 --> 00:26:44,620
hoe jy kan mash up die resultate wat jy is
kry uit die biblioteek wolk API

470
00:26:44,620 --> 00:26:46,250
met, sê, Google Books.

471
00:26:46,250 --> 00:26:52,225
>> En die denke hier is dat ek kan
hardloop 'n navraag teen Google Books,

472
00:26:52,225 --> 00:26:56,060
kry 'n volledige teks soek, kry 'n paar resultate
terug, vind uit watter een van dié items

473
00:26:56,060 --> 00:27:01,180
eintlik in Hollis bestaan ​​nie,
die biblioteek stelsel,

474
00:27:01,180 --> 00:27:03,200
en gee my dan skakels
terug na die items.

475
00:27:03,200 --> 00:27:12,730
So as ek soek vir, dit was
'n donker en stormagtige nag, ek

476
00:27:12,730 --> 00:27:16,210
terug te kry 'n klomp van die resultate
van Google, en dan 'n resultaat

477
00:27:16,210 --> 00:27:19,460
wat is 'n Wrinkle in Time.

478
00:27:19,460 --> 00:27:29,330
En dit is skakels na boeke wat bestaan
binne die Harvard Biblioteek stelsel.

479
00:27:29,330 --> 00:27:32,160
>> So ek dink die punt hier is nie
soveel dat dit kan of mag nie

480
00:27:32,160 --> 00:27:34,118
die manier wat jy wil
die biblioteek te soek,

481
00:27:34,118 --> 00:27:38,310
maar dit is 'n heeltemal ander
manier wat nie beskikbaar is vir jou

482
00:27:38,310 --> 00:27:42,884
voor, soos jy het geen manier om dit te doen
volledige teks soek op boeke dat selfs

483
00:27:42,884 --> 00:27:44,550
was deel van die Harvard Biblioteek stelsel.

484
00:27:44,550 --> 00:27:46,870
So nou is dit 'n manier om
wat jy kan doen.

485
00:27:46,870 --> 00:27:51,930
En jy kan hulle vertoon in
watter formaat jy wil.

486
00:27:51,930 --> 00:27:55,990
So die punt hier is, basies,
ons die opening van nuwe maniere om vir mense

487
00:27:55,990 --> 00:27:59,080
om te werk met die data.

488
00:27:59,080 --> 00:28:07,925
>> Nog 'n stukkie van die biblioteek wolk is dat
dit help blootstel sommige van die gebruik van data

489
00:28:07,925 --> 00:28:08,800
dat die biblioteek.

490
00:28:08,800 --> 00:28:12,630
So as jy gaan na die biblioteek,
en jy is op soek na boeke,

491
00:28:12,630 --> 00:28:15,770
jy nie noodwendig
eintlik 'n idee van,

492
00:28:15,770 --> 00:28:19,080
vir al die items in 'n
spesifieke onderwerp, wat

493
00:28:19,080 --> 00:28:21,200
is mense in die
gemeenskap, of dit nou

494
00:28:21,200 --> 00:28:24,890
gedefinieer as die Harvard of die
land of jou klas,

495
00:28:24,890 --> 00:28:26,421
Wat het hulle gevind dat die meeste nuttig?

496
00:28:26,421 --> 00:28:28,920
En die biblioteek het eintlik 'n
ton van inligting oor wat

497
00:28:28,920 --> 00:28:32,999
is baie handig, want as 'n baie
mense uitcheck 'n boek,

498
00:28:32,999 --> 00:28:34,040
wat vir jou vertel iets.

499
00:28:34,040 --> 00:28:36,498
Daar moet gewees het een of ander rede
hulle wil om dit te sien.

500
00:28:36,498 --> 00:28:38,270
Baie mense het dit op reserwe.

501
00:28:38,270 --> 00:28:42,520
>> As dit is op die reservaat lys vir 'n baie
van klasse, wat vir jou vertel iets.

502
00:28:42,520 --> 00:28:45,960
As lede van die fakulteit monitor dit
uit 'n baie en voorgraadse studente is nie,

503
00:28:45,960 --> 00:28:47,200
dit vertel vir my iets.

504
00:28:47,200 --> 00:28:49,280
Omgekeerd, dat ook
vertel jou iets.

505
00:28:49,280 --> 00:28:54,680
So dit is regtig interessant om te wees
sit die inligting daar buite en laat

506
00:28:54,680 --> 00:28:59,969
mense gebruik dit om hulle te help vind
werk binne die biblioteek stelsel.

507
00:28:59,969 --> 00:29:02,260
Die ander kant van hierdie is
daar is 'n paar ernstige privaatheid

508
00:29:02,260 --> 00:29:07,854
kommer, want een van die
kern beginsels van die biblioteek

509
00:29:07,854 --> 00:29:10,770
is ons gaan nie te word vertel
mense wat ander mense is die voorlees.

510
00:29:10,770 --> 00:29:17,360
En selfs as jy sê dit
boek is nagegaan vier keer

511
00:29:17,360 --> 00:29:20,070
in 'n spesifieke maand,
wat gebruik kan word

512
00:29:20,070 --> 00:29:25,252
terug te skakel na 'n spesifieke
persoon wat deur de-anonimisering data

513
00:29:25,252 --> 00:29:26,710
en om uit te vind wat dit bewys nie.

514
00:29:26,710 --> 00:29:30,792
So het die manier waarop ons kan avoid--

515
00:29:30,792 --> 00:29:33,750
Die manier waarop ons kan probeer om te onttrek
sommige sein van al die inligting

516
00:29:33,750 --> 00:29:36,740
sonder om inbreuk
iemand se privaatheid kommer

517
00:29:36,740 --> 00:29:42,150
is in wese ons kyk na
10 jaar van die gebruik van data, -

518
00:29:42,150 --> 00:29:43,930
>> So dit is oor 'n lang tydperk van die tyd.

519
00:29:43,930 --> 00:29:50,639
>> --and sê OK, kom ons kyk hoe
baie keer hierdie werk gebruik is,

520
00:29:50,639 --> 00:29:52,930
en deur wat oor hierdie tydperk
van die tyd, en dan basies

521
00:29:52,930 --> 00:29:56,300
gee terug 'n nommer, wat ons noem
'n stapel telling, wat basies

522
00:29:56,300 --> 00:29:59,910
verteenwoordig hoeveel dit gebruik is.

523
00:29:59,910 --> 00:30:01,084
En dat number--

524
00:30:01,084 --> 00:30:03,250
'N baie verskillende berekeninge
gaan in dat die getal.

525
00:30:03,250 --> 00:30:05,150
--but dit is 'n baie rowwe
metrieke dat jy gee

526
00:30:05,150 --> 00:30:11,300
'n idee van hoe die
gemeenskap kan daardie werk waardeer.

527
00:30:11,300 --> 00:30:16,772
>> En so 'n ander soort van selfs
meer vleis uit aansoek

528
00:30:16,772 --> 00:30:18,480
wat voordeel
van hierdie is iets

529
00:30:18,480 --> 00:30:24,000
genoem Stacklife, wat eintlik
wat beskikbaar is deur die hoof Harvard

530
00:30:24,000 --> 00:30:24,880
Biblioteek portaal.

531
00:30:24,880 --> 00:30:26,700
So jy gaan na library.harvard.edu.

532
00:30:26,700 --> 00:30:29,360
Jy sal 'n aantal van die verskillende sien
maniere van soek die biblioteek.

533
00:30:29,360 --> 00:30:32,300
En een van hulle is Stacklife genoem.

534
00:30:32,300 --> 00:30:38,980
>> En dit is 'n program wat
bladert die inhoud van die biblioteek,

535
00:30:38,980 --> 00:30:43,490
maar is heeltemal gebou
bo-op hierdie API.

536
00:30:43,490 --> 00:30:46,910
So daar is geen spesiale dinge
gaan agter die skerms.

537
00:30:46,910 --> 00:30:49,570
Daar is geen toegang tot
data wat jy nie het nie.

538
00:30:49,570 --> 00:30:54,090
Dit is die gebruik van die API's om jou te voorsien
met 'n heeltemal ander blaai

539
00:30:54,090 --> 00:30:55,480
ervaring.

540
00:30:55,480 --> 00:30:58,570
>> So as ek soek vir Alice
in Wonderland in hierdie geval,

541
00:30:58,570 --> 00:31:02,600
Ek kry 'n gevolg wat lyk soos
hierdie, wat is redelik much--

542
00:31:02,600 --> 00:31:05,430

543
00:31:05,430 --> 00:31:10,870
>> Dit is baie soortgelyk aan enige ander search
jy kan doen nie, behalwe in die geval

544
00:31:10,870 --> 00:31:15,730
ons die posisie van die items deur
stackscore, wat gee jou

545
00:31:15,730 --> 00:31:19,850
'n idee van hoe gewild hierdie
items was binne die gemeenskap.

546
00:31:19,850 --> 00:31:25,610
En so duidelik, Alice in Wonderland
deur Walt Disney is hoogs gewild.

547
00:31:25,610 --> 00:31:36,570
Maar jy kan ook sien die top vier
hier is wat jy dalk nie actually--

548
00:31:36,570 --> 00:31:39,220
>> Dinge wat hoogs gebruik,
maar jy kan nie dadelik

549
00:31:39,220 --> 00:31:41,240
verbind met Alice in Wonderland.

550
00:31:41,240 --> 00:31:44,650
So ons ou vriend Die
Annotated Alice is hier.

551
00:31:44,650 --> 00:31:46,350
So ek kan 'n blik op dit.

552
00:31:46,350 --> 00:31:52,010
En nou wat ek soek
by is basies 'n stel of--

553
00:31:52,010 --> 00:31:53,760
Ek kan die Annotated
Alice hier.

554
00:31:53,760 --> 00:31:56,700
Ek het inligting oor dit.

555
00:31:56,700 --> 00:32:00,230
En ek het ook 'n stackscore
van, in hierdie geval, 26.

556
00:32:00,230 --> 00:32:03,169
En dit sê vir my soort van rofweg
hoe ons hierdie stackscore,

557
00:32:03,169 --> 00:32:05,835
soos wat dit bewys nie, soos hoe
Baie keer is dit is nagegaan,

558
00:32:05,835 --> 00:32:08,440
soos fakulteit of voorgraadse studente is, hoe
baie kopieë van die biblioteek het,

559
00:32:08,440 --> 00:32:11,300
en so aan en so voort.

560
00:32:11,300 --> 00:32:16,460
>> En jy kan ook interessant genoeg
hier, blaai deur die stapels feitlik.

561
00:32:16,460 --> 00:32:19,550
So die data hier, hierdie
wys jou soort

562
00:32:19,550 --> 00:32:23,547
van 'n virtuele voorstelling
van wat die rak dalk

563
00:32:23,547 --> 00:32:25,880
lyk as jy was om te neem
al die biblioteek se besit

564
00:32:25,880 --> 00:32:28,940
en sit hulle saam
op een oneindige rak.

565
00:32:28,940 --> 00:32:30,990
En die lekker ding is dat ons can--

566
00:32:30,990 --> 00:32:33,380
>> Eerste van alles, die
metadata oor hierdie boeke

567
00:32:33,380 --> 00:32:35,627
dikwels vertel wanneer dit gepubliseer is.

568
00:32:35,627 --> 00:32:37,085
Dit vertel jou hoeveel bladsye wat dit het.

569
00:32:37,085 --> 00:32:38,459
Dit mag dalk vir jou sê die dimensies.

570
00:32:38,459 --> 00:32:42,930
Sodat jy kan sien wat hier weerspieël
in terme van die grootte van die boeke.

571
00:32:42,930 --> 00:32:46,740
>> En dan kan ons gebruik maak van die
stapel telling te lig

572
00:32:46,740 --> 00:32:49,170
die boeke wat 'n hoër stapel tellings.

573
00:32:49,170 --> 00:32:54,930
So as dit donkerder word, beteken dit dat,
vermoedelik, is dit meer dikwels gebruik.

574
00:32:54,930 --> 00:32:57,040
So in hierdie geval, ek is
gaan om te raai dat dit

575
00:32:57,040 --> 00:33:03,226
is die weergawe van Alice in Wonderland
wat baie algemeen gebruik word en die meeste

576
00:33:03,226 --> 00:33:05,100
verkry, die biblioteek
het die meeste afskrifte van.

577
00:33:05,100 --> 00:33:06,975
So as jy op soek is na
vir Alice in Wonderland,

578
00:33:06,975 --> 00:33:10,220
hierdie dalk 'n goeie plek om te begin.

579
00:33:10,220 --> 00:33:13,500
>> En dan is hier jy kan ook 'n skakel uit
te sê, Amazon die boek te koop,

580
00:33:13,500 --> 00:33:15,182
en so aan en so voort.

581
00:33:15,182 --> 00:33:17,140
Die punt hier, weer,
is nie soseer dat dit

582
00:33:17,140 --> 00:33:25,030
is die beste manier om die biblioteek te blaai
of die regte gereedskap vir elke geleentheid.

583
00:33:25,030 --> 00:33:28,400
Maar dit is 'n ander manier om dit te doen.

584
00:33:28,400 --> 00:33:31,359
En deur die maak van die data
wat beskikbaar is deur 'n API, wat

585
00:33:31,359 --> 00:33:34,650
gemaak van 'n baie eenvoudige boustene,
wat kan jy die inhoud te soek,

586
00:33:34,650 --> 00:33:39,420
jy iets kan bou
soos hierdie wat kan

587
00:33:39,420 --> 00:33:41,520
buitengewoon
waardevol vir sommige mense.

588
00:33:41,520 --> 00:33:46,640

589
00:33:46,640 --> 00:33:51,860
>> So dit is soort van, soveel as wat ek wil
om werklik sê oor wat die API is

590
00:33:51,860 --> 00:33:56,070
en wat dit blootstel, is daar 'n hele
n klomp van die dinge wat agter die skerms, wat

591
00:33:56,070 --> 00:33:59,480
Ek gaan net aan te raak vlugtig
net omdat dit kom soort op hierdie

592
00:33:59,480 --> 00:34:03,720
uit 'n totaal ander hoek in
terme van hoe iets soos hierdie

593
00:34:03,720 --> 00:34:04,580
kry in plek gestel?

594
00:34:04,580 --> 00:34:10,820
>> So 'n API is 'n standaard
koppelvlak aan al hierdie inhoud.

595
00:34:10,820 --> 00:34:13,820
Maar dit is daar, die te kry
eerste ding wat ons gehad het om te doen

596
00:34:13,820 --> 00:34:17,260
is trek inligting saam
van boeke en beelde

597
00:34:17,260 --> 00:34:21,580
en die vind van hulpmiddels, die versameling
dokument van verskeie Harvard stelsels.

598
00:34:21,580 --> 00:34:23,929
Aleph, VIA, en Oasis is
die name van die stelsels.

599
00:34:23,929 --> 00:34:28,820
En hulle gaan in wese 'n
pyplyn, 'n verwerking pyplyn.

600
00:34:28,820 --> 00:34:33,230
>> So die eerste van alles, kry ons die uitvoer
lêers van al hierdie stelsels.

601
00:34:33,230 --> 00:34:35,130
Ons verdeel hulle in individuele items.

602
00:34:35,130 --> 00:34:39,360
So het ons 'n lêer, wat is 'n GB,
wat 'n miljoen rekords in dit.

603
00:34:39,360 --> 00:34:42,290
So ons verdeel dit in individuele items.

604
00:34:42,290 --> 00:34:45,374
Dan, vir elke item, ons het dit omskep
in MODS, omdat sommige van hierdie

605
00:34:45,374 --> 00:34:47,040
is native MODS, sommige van hulle is nie.

606
00:34:47,040 --> 00:34:49,204
So kry ons hulle almal te
in dieselfde formaat.

607
00:34:49,204 --> 00:34:51,120
Dan is daar verskeie
verryking stappe, waar

608
00:34:51,120 --> 00:34:55,969
voeg ons meer inligting aan die data
as was in die biblioteek beskikbaar.

609
00:34:55,969 --> 00:34:59,750
Dus moet ons by te voeg, die eerste van alles
ons het wat biblioteke hou dit oop.

610
00:34:59,750 --> 00:35:02,250
Ons gaan deur 'n stap van
die berekening van die stackscore.

611
00:35:02,250 --> 00:35:07,112
Ons gaan deur 'n ander stap van
die toevoeging van meer metadata in terme

612
00:35:07,112 --> 00:35:10,730
van wat versamelings mense
kan bygevoeg het this--

613
00:35:10,730 --> 00:35:12,532
>> Mense skep
versamelings van items.

614
00:35:12,532 --> 00:35:13,990
Wat versamelings dit behoort?

615
00:35:13,990 --> 00:35:17,220
Hoe het mense tagged
hierdie inhoud in die verlede?

616
00:35:17,220 --> 00:35:20,750
Dan moet jy uit te filter, en jy beperk
die rekords, want soos ek genoem het,

617
00:35:20,750 --> 00:35:24,120
daar is 'n paar rekords wat, as gevolg van
kopiereg redes, kan ons nie vertoon.

618
00:35:24,120 --> 00:35:26,700
En dan het ons laai dit
in iets genoem

619
00:35:26,700 --> 00:35:31,680
Solr, wat nie 'n spelfout nie, maar
is die naam van 'n stuk sagteware

620
00:35:31,680 --> 00:35:35,710
wat nie soek kruip, wat
dryf al die search agter die API.

621
00:35:35,710 --> 00:35:40,110
En dan is dit beskikbaar raak te
die API, en mense kan dit gebruik.

622
00:35:40,110 --> 00:35:44,640
>> So, dit is soos 'n redelik
eenvoudige proses.

623
00:35:44,640 --> 00:35:47,230
Een van die interessante
dinge oor dit

624
00:35:47,230 --> 00:35:50,990
dat ons hier
met 13 miljoen rekords

625
00:35:50,990 --> 00:35:53,820
en ons gaan word wat of meer.

626
00:35:53,820 --> 00:36:01,260
En ons wil in staat wees om te hanteer
dit in 'n relatief vinnige mode.

627
00:36:01,260 --> 00:36:03,630
Dit neem 'n lang tyd om te
verwerk 13 miljoen rekords.

628
00:36:03,630 --> 00:36:09,529
>> So hoe hierdie pyplyn is
opgestel is dat jy can--

629
00:36:09,529 --> 00:36:12,070
Ek dink die voordeel van die
pyplyn, die probleem is dat ons

630
00:36:12,070 --> 00:36:15,580
probeer om hier te los, is dat
al die transformasies, al

631
00:36:15,580 --> 00:36:18,729
hierdie stappe in hierdie
pyplyn is skeibare.

632
00:36:18,729 --> 00:36:19,645
Daar is geen afhanklikheid.

633
00:36:19,645 --> 00:36:22,146
As jy die verwerking
'n rekord van 'n boek,

634
00:36:22,146 --> 00:36:24,270
daar is geen afhanklikheid in
wat tussen 'n ander boek.

635
00:36:24,270 --> 00:36:27,760
>> So, wat ons kan doen is basies,
by elke stap in die pyplyn,

636
00:36:27,760 --> 00:36:30,470
ons sit dit in 'n tou in die wolk.

637
00:36:30,470 --> 00:36:32,250
Ek het gebeur om te wees op Amazon Web Services.

638
00:36:32,250 --> 00:36:35,140
So daar is 'n lys van,
sê, 10,000 items wat

639
00:36:35,140 --> 00:36:38,100
moet genormaliseer wees en
omgeskakel na MODS formaat.

640
00:36:38,100 --> 00:36:41,620
En ons draai as baie bedieners
as ons wil, miskien 10 bedieners.

641
00:36:41,620 --> 00:36:44,860
En elkeen van daardie bedieners net
daar sit, lyk in daardie tou,

642
00:36:44,860 --> 00:36:46,730
sien dat daar een wat moet
word verwerk, trek dit af in die tou,

643
00:36:46,730 --> 00:36:48,740
verwerk dit, en stokke
dit op die volgende ry.

644
00:36:48,740 --> 00:36:54,200
>> En ja, wat ons toelaat om
te doen, is van toepassing, in wese,

645
00:36:54,200 --> 00:36:58,110
soveel hardeware soos ons wil hierdie
probleem vir 'n baie kort periode van tyd

646
00:36:58,110 --> 00:37:02,970
die data te so vinnig as verwerk
moontlik, dit is iets wat net,

647
00:37:02,970 --> 00:37:08,220
nou in die wêreld van die wolk rekenaar
ons kan voorsiening bedieners wese

648
00:37:08,220 --> 00:37:09,890
onmiddellik, is dat nuttig.

649
00:37:09,890 --> 00:37:12,260
So ons het nie 'n te hê
reuse bediener sit om

650
00:37:12,260 --> 00:37:16,700
al die tyd die verwerking te doen
wat dalk net een keer gebeur 'n week.

651
00:37:16,700 --> 00:37:21,440
>> So dit is dit meestal.

652
00:37:21,440 --> 00:37:27,590
Daar is dokumentasie beskikbaar
vir die API Library Wolk Item

653
00:37:27,590 --> 00:37:31,960
op hierdie URL, wat sal
beskikbaar wees later.

654
00:37:31,960 --> 00:37:36,730
En asseblief gaan neem 'n blik op
om dit te sien of daar enigiets,

655
00:37:36,730 --> 00:37:37,579
jy enige idees.

656
00:37:37,579 --> 00:37:38,120
Speel met dit.

657
00:37:38,120 --> 00:37:38,830
Fool rond.

658
00:37:38,830 --> 00:37:42,800
En hopelik jy kan kom
met iets groot.

659
00:37:42,800 --> 00:37:44,740
Dankie.

660
00:37:44,740 --> 00:37:45,899