1
00:00:00,000 --> 00:00:11,370

2
00:00:11,370 --> 00:00:12,370
JEFFREY LICHT: Ahoj.

3
00:00:12,370 --> 00:00:13,550
Jsem Jeffrey Licht.

4
00:00:13,550 --> 00:00:17,890
A já jsem tu s tebou mluvit o
Harvard Library a budování zítřejší

5
00:00:17,890 --> 00:00:20,870
dnes knihovna, myslím.

6
00:00:20,870 --> 00:00:23,040
Takže pozadí tady,
hřiště pro tuto relaci

7
00:00:23,040 --> 00:00:26,930
je v podstatě, že je
hodně bibliografických údajů

8
00:00:26,930 --> 00:00:28,400
k dispozici v knihovnách Harvard.

9
00:00:28,400 --> 00:00:33,434
A je tu příležitost,
přes některé z nástrojů

10
00:00:33,434 --> 00:00:36,350
a projekt, který je vyvíjen,
získat přístup k informacím

11
00:00:36,350 --> 00:00:42,430
a vzít ho do míst, která
Harvard knihovna není právě teď dělá,

12
00:00:42,430 --> 00:00:45,460
dělat nové věci s tím, experiment
a hrát si s ním.

13
00:00:45,460 --> 00:00:52,413
>> Takže vstupní bod do toho je API
volal Harvard Library Cloud, který

14
00:00:52,413 --> 00:00:57,650
je otevřený server, metadata,
který budu mluvit teď.

15
00:00:57,650 --> 00:01:02,595
Takže pozadí je, že je
Spousta věcí v knihovně Harvard.

16
00:01:02,595 --> 00:01:07,150
Máme více než 13 milionů bibliografických
evidence, miliony obrázků,

17
00:01:07,150 --> 00:01:11,090
a tisíce archivních pomůcek, které
jsou v podstatě dokumenty popisující

18
00:01:11,090 --> 00:01:15,500
sbírky, říkat, co
je v nich, krabice papírů

19
00:01:15,500 --> 00:01:21,080
a tak dále, které reprezentují více než
milion jednotlivé dokumenty.

20
00:01:21,080 --> 00:01:24,290
A je tu také hodně
informace, které má knihovna

21
00:01:24,290 --> 00:01:28,180
o tom, jak se používá, aby obsah
by mohlo být zajímavé pro lidi

22
00:01:28,180 --> 00:01:32,400
kdo by mohl chtít, aby s ním pracovat.

23
00:01:32,400 --> 00:01:36,150
>> Takže všechny informace
Knihovna má metadata.

24
00:01:36,150 --> 00:01:39,500
Takže metadata jsou data o datech.

25
00:01:39,500 --> 00:01:42,070
Takže když mluvíme o
informace, které je

26
00:01:42,070 --> 00:01:44,890
k dispozici přes knihovnu
mrak, který je k dispozici,

27
00:01:44,890 --> 00:01:47,760
to není nezbytně
skutečné dokumenty

28
00:01:47,760 --> 00:01:53,060
samy o sobě, nemusí být úplný
Text knihy nebo plné obrazů,

29
00:01:53,060 --> 00:01:54,890
i když ve skutečnosti, že může být v případě.

30
00:01:54,890 --> 00:01:57,550
Ale je to opravdu
informace o datech.

31
00:01:57,550 --> 00:02:00,909
>> Takže si můžete myslet katalogizace
informace, telefonní čísla, předměty,

32
00:02:00,909 --> 00:02:02,700
kolik kopií
kniha tam jsou, co

33
00:02:02,700 --> 00:02:06,380
jsou vydání, jaké jsou
formáty, autoři, a tak dále.

34
00:02:06,380 --> 00:02:12,250
Takže tam je spousta informací o
Informace v kolekci, která,

35
00:02:12,250 --> 00:02:14,400
samo o sobě, je ve své podstatě druh užitečné.

36
00:02:14,400 --> 00:02:19,230
A i když pokud jste
dělá in-podrobný výzkum,

37
00:02:19,230 --> 00:02:25,160
budete zřejmě chtít dostat do skutečné
spokojit a podívat se na údaje,

38
00:02:25,160 --> 00:02:30,140
metadat je užitečné, pokud jde o
obě analýzy korpusu jako celek,

39
00:02:30,140 --> 00:02:33,870
jako to, co věci jsou v kolekci.

40
00:02:33,870 --> 00:02:35,520
Jak se týkají?

41
00:02:35,520 --> 00:02:39,482
To vám pomůže opravdu najít jiné věci,
což je opravdu hlavním účelem toho.

42
00:02:39,482 --> 00:02:41,190
Bod
metadata a katalog

43
00:02:41,190 --> 00:02:43,230
je pomoci vám najít všechny
informace, které je

44
00:02:43,230 --> 00:02:46,590
k dispozici v rámci sbírek.

45
00:02:46,590 --> 00:02:53,690
>> Tak tohle je příklad metadat
pro knihu v knihovně Harvard.

46
00:02:53,690 --> 00:02:56,370
Takže je to tam.

47
00:02:56,370 --> 00:02:59,850
A můžete vidět, že je to
ve skutečnosti mírně komplex.

48
00:02:59,850 --> 00:03:04,610
A část hodnoty metadat
v rámci systému Harvard knihovny

49
00:03:04,610 --> 00:03:09,320
se, že to bylo nějak
zastavěné by katalogizátory

50
00:03:09,320 --> 00:03:12,720
a sestavila osob žádajících
spousta odborných znalostí a dovedností

51
00:03:12,720 --> 00:03:20,030
a myšlenka ní v průběhu času,
který má spoustu hodnoty.

52
00:03:20,030 --> 00:03:25,450
>> Takže pokud jste se podívat na tento záznam pro
Anotoval Alice, můžete zjistit,

53
00:03:25,450 --> 00:03:32,590
máte titul, který to napsal,
autor, a všechny různé předměty

54
00:03:32,590 --> 00:03:35,380
které lidé do katalogu do.

55
00:03:35,380 --> 00:03:40,110
A můžete vidět, že je také v
přídavek na hodně dobrých informací

56
00:03:40,110 --> 00:03:42,852
tady, tam je nějaký opakování.

57
00:03:42,852 --> 00:03:45,560
Je tu spousta složitosti, že je to
projevuje prostřednictvím metadat

58
00:03:45,560 --> 00:03:46,300
že máte.

59
00:03:46,300 --> 00:03:50,320
>> Takže jeden titul z této knihy je
Alenka v říši divů.

60
00:03:50,320 --> 00:03:53,880
Tak tohle je poznámkami
verze této knihy.

61
00:03:53,880 --> 00:03:56,380
Ale je to také volal komentovaný
Alice, Alenka

62
00:03:56,380 --> 00:03:58,570
v říši divů, protože
to je něco, co se

63
00:03:58,570 --> 00:04:00,430
Martin Gardner napsal
a komentovaný knihu.

64
00:04:00,430 --> 00:04:03,369
A je tu spousta skvělé informace
o logických hádanek a věci

65
00:04:03,369 --> 00:04:05,410
v Alici, že vás
asi nevěděl o.

66
00:04:05,410 --> 00:04:07,000
Takže byste měli jít přečíst.

67
00:04:07,000 --> 00:04:11,940
>> Ale můžete vidět, že je to
spousta detailů zde,

68
00:04:11,940 --> 00:04:15,340
včetně identifikátorů, když ji
byl vytvořen, odkud pochází,

69
00:04:15,340 --> 00:04:17,420
pokud jde o Harvard
systém, a tak dále.

70
00:04:17,420 --> 00:04:20,350
Tak to je ukázka
typ metadat

71
00:04:20,350 --> 00:04:24,340
které jste mohli vidět na knihu v
kolekce Harvard knihovny.

72
00:04:24,340 --> 00:04:26,680
>> To je něco úplně jiného.

73
00:04:26,680 --> 00:04:32,610
Takže tam je systém nazvaný
VIA Harvard, který v podstatě

74
00:04:32,610 --> 00:04:39,990
je katalogizace obrazů a uměleckých předmětů
a vizuální věci v celém Harvardu,

75
00:04:39,990 --> 00:04:44,010
a doplnění některých metadata
k nim, jejich třídění,

76
00:04:44,010 --> 00:04:49,200
a, v některých případech, poskytující
malé náhledy

77
00:04:49,200 --> 00:04:51,250
které si můžete vzít
podívejte se na pokud si to přejí.

78
00:04:51,250 --> 00:04:54,240
>> Tak tohle je příklad
metadata, že máte na talíři

79
00:04:54,240 --> 00:04:57,840
z, pravděpodobně, Alenka v říši divů.

80
00:04:57,840 --> 00:05:00,499
A můžete vidět, že je to
méně metadata zde.

81
00:05:00,499 --> 00:05:02,040
Je to jen jiný druh objektu.

82
00:05:02,040 --> 00:05:03,425
A tak je tu méně informací.

83
00:05:03,425 --> 00:05:07,790
>> Většinou musíte skutečnost, volání
číslo, v podstatě, kdo ji vytvořil, -

84
00:05:07,790 --> 00:05:10,410
>> Nevíme, kdy byl vytvořen.

85
00:05:10,410 --> 00:05:13,320
>> --and titulu.

86
00:05:13,320 --> 00:05:14,300
>> Dalším příkladem.

87
00:05:14,300 --> 00:05:16,380
To je pomůcka.

88
00:05:16,380 --> 00:05:19,030
Takže tam je sbírka Lewis
Papíry Carroll je na Harvardu.

89
00:05:19,030 --> 00:05:23,601
Tak to popisuje, co se
je v této kolekci.

90
00:05:23,601 --> 00:05:26,100
Takže někdo prošel a
Podíval se přes všechny boxy

91
00:05:26,100 --> 00:05:32,220
a katalogizovány to s ohledem na některé pozadí,
písemný přehled o tom, co je to tady.

92
00:05:32,220 --> 00:05:35,290
A pokud jste se podívat
dále na to, to

93
00:05:35,290 --> 00:05:39,620
jde na stránky a stránky
a strany, ale řekne vám

94
00:05:39,620 --> 00:05:41,860
co písmena a co
pochází z toho, co boxů

95
00:05:41,860 --> 00:05:44,289
existoval v celé sbírky.

96
00:05:44,289 --> 00:05:46,330
Ale tohle je něco, co
to, že pokud jste na Harvardu,

97
00:05:46,330 --> 00:05:50,720
můžete jít a skutečně fyzicky vypadat
up a, pravděpodobně, podívejte se na.

98
00:05:50,720 --> 00:05:53,440
>> Tak to je všechno skvělé.

99
00:05:53,440 --> 00:05:54,450
Tato metadata je užitečné.

100
00:05:54,450 --> 00:05:56,327
Je to v systému, Harvard knihovny.

101
00:05:56,327 --> 00:05:58,910
K dispozici jsou nástroje on-line, pokud vás
může jít a podívat se na to,

102
00:05:58,910 --> 00:05:59,993
a vidět to, a hledat to.

103
00:05:59,993 --> 00:06:02,810
A můžete plátek a kostky
se v mnoha různými způsoby.

104
00:06:02,810 --> 00:06:06,920
>> Ale je to opravdu k dispozici pouze v případě,
Jste člověk sedět

105
00:06:06,920 --> 00:06:12,600
ve Vašem webovém prohlížeči, nebo tak něco, nebo
telefon a navigaci přes to.

106
00:06:12,600 --> 00:06:16,730
Není to opravdu k dispozici v
jakékoliv využitelné módy

107
00:06:16,730 --> 00:06:19,520
pro jiné systémy nebo
ostatní počítače k ​​použití,

108
00:06:19,520 --> 00:06:21,500
Není se systémy v rámci
Harvard knihovny,

109
00:06:21,500 --> 00:06:24,890
ale systémy ve vnějším světě,
jen ostatní lidé obecně.

110
00:06:24,890 --> 00:06:30,210
Otázkou tedy je, jak můžeme
aby bylo k dispozici pro počítače

111
00:06:30,210 --> 00:06:33,560
takže můžeme udělat zajímavější
věci s ním, než jen

112
00:06:33,560 --> 00:06:36,550
Procházení to sami?

113
00:06:36,550 --> 00:06:39,766
>> Tak proč byste měli chtít, aby to udělat?

114
00:06:39,766 --> 00:06:41,140
Existuje mnoho možností.

115
00:06:41,140 --> 00:06:43,980
Jedním z nich je můžete vytvořit zcela
odlišný způsob prohlížení

116
00:06:43,980 --> 00:06:46,962
obsah, který je k dispozici
přes Harvard knihovny.

117
00:06:46,962 --> 00:06:48,670
Ukážu vám jednu
později volal Stacklife,

118
00:06:48,670 --> 00:06:52,440
který má zcela jiný
vzít na hledání obsahu.

119
00:06:52,440 --> 00:06:54,560
>> Dalo by se postavit doporučení motor.

120
00:06:54,560 --> 00:06:57,955
Takže Harvard knihovna není v
obchodní říct, líbí se vám tuto knihu.

121
00:06:57,955 --> 00:07:01,080
Pak jděte se podívat na těchto 17 další
knihy, které by vás mohly zajímat v

122
00:07:01,080 --> 00:07:03,200
nebo těchto 18 dalších snímků.

123
00:07:03,200 --> 00:07:06,040
Ale to jistě mohl
být cenná vlastnost.

124
00:07:06,040 --> 00:07:09,272
A vzhledem k tomu metadata, může to
možné uvést, že dohromady.

125
00:07:09,272 --> 00:07:11,980
Ty mohou mít různé potřeby v
Podmínky vyhledávání obsahu,

126
00:07:11,980 --> 00:07:16,200
Třeba i přes nástroje, které
jsou k dispozici, že knihovna je

127
00:07:16,200 --> 00:07:18,450
k dispozici, možná budete chtít
hledat jiným způsobem

128
00:07:18,450 --> 00:07:21,847
nebo optimalizovat pro konkrétní případ užití,
což možná je to velmi specializované.

129
00:07:21,847 --> 00:07:23,930
Možná, že existuje jen málo
lidí na světě, kteří

130
00:07:23,930 --> 00:07:25,846
chcete vyhledávat obsah
tímto způsobem, ale

131
00:07:25,846 --> 00:07:28,985
by bylo skvělé, kdybychom
mohl nechat udělat.

132
00:07:28,985 --> 00:07:30,860
Je tu spousta analytics
V tom, jak lidé

133
00:07:30,860 --> 00:07:33,860
použít obsah, který by bylo opravdu
zajímavé vědět, zjistěte

134
00:07:33,860 --> 00:07:37,280
jaké knihy se používají,
co nejsou, a tak dále.

135
00:07:37,280 --> 00:07:41,670
A pak je tu spousta
možnost integrovat

136
00:07:41,670 --> 00:07:45,210
s dalšími informacemi
že je tam na webu.

137
00:07:45,210 --> 00:07:46,880
Tak jsme have--

138
00:07:46,880 --> 00:07:50,260
>> Například, má NPR
Recenze knihy segmentu,

139
00:07:50,260 --> 00:07:53,090
kde se rozhovor
Autoři o knihách.

140
00:07:53,090 --> 00:07:56,837
A tak to by bylo skvělé, kdyby jste byli
vzhlédl knihu v Harvard

141
00:07:56,837 --> 00:07:59,670
Knihovna, a vy říkáte, OK, je tu
Byl rozhovor s autorem.

142
00:07:59,670 --> 00:08:00,878
Pojďme se podívat na to.

143
00:08:00,878 --> 00:08:05,461
Nebo je tu stránka Wikipedie, as
autoritativní, vědecké reference

144
00:08:05,461 --> 00:08:07,710
o této knize, která vás
chtít, aby se podívat na.

145
00:08:07,710 --> 00:08:12,600
>> K dispozici jsou tyto typy zdrojů
rozptýlené po celém webu.

146
00:08:12,600 --> 00:08:16,555
A je sbližovat
by mohl být skvělý použití

147
00:08:16,555 --> 00:08:18,930
na někoho při pohledu na
obsah, hledá něco.

148
00:08:18,930 --> 00:08:20,180
Ale to také není
druh věc, kterou byste

149
00:08:20,180 --> 00:08:23,205
Chcete-knihovna být zodpovědný
pro přechod dolů a honit

150
00:08:23,205 --> 00:08:25,455
Všechny tyto různé zdroje
a ucpávání je spolu

151
00:08:25,455 --> 00:08:28,920
protože se neustále mění.

152
00:08:28,920 --> 00:08:33,570
A to, co si myslí, že je důležité, květen
nebude to, co si myslíte, že je důležité.

153
00:08:33,570 --> 00:08:36,929
>> A ještě více, v podstatě je tu
Hodně věcí jsme se mysleli, přesto.

154
00:08:36,929 --> 00:08:42,222
Takže pokud můžeme otevřít toto nahoru víc,
Lidé kromě půl tuctu nebo tak,

155
00:08:42,222 --> 00:08:45,174
kteří se při pohledu na to na
pravidelně, může myslet nápadů

156
00:08:45,174 --> 00:08:47,340
a masáž dat, a
dělat, co chtějí s ním.

157
00:08:47,340 --> 00:08:49,920

158
00:08:49,920 --> 00:08:54,045
>> Proto chceme, aby to
k dispozici do světa dat.

159
00:08:54,045 --> 00:08:55,670
No, existuje pár komplikace.

160
00:08:55,670 --> 00:08:58,540
Jedním z nich je, že tato metadata
je v různých systémech.

161
00:08:58,540 --> 00:09:01,110
Je to v různých formátech.

162
00:09:01,110 --> 00:09:04,719
Takže tam je nějaký normalizace
který se má stát,

163
00:09:04,719 --> 00:09:08,010
který normalizace je proces
přinášet věci z různých formátů

164
00:09:08,010 --> 00:09:12,940
a jejich mapování na jednotném formátu
takže pole budou shodovat.

165
00:09:12,940 --> 00:09:15,160
>> Existují určitá omezení autorských práv.

166
00:09:15,160 --> 00:09:21,010
Kupodivu, vstup katalog
o kniha je odpovědný za autorská práva.

167
00:09:21,010 --> 00:09:24,060
Takže i když je to jen
informace získané z knihy,

168
00:09:24,060 --> 00:09:25,330
to je copyrightable.

169
00:09:25,330 --> 00:09:28,400
A podle toho, kdo vlastně
vytvořil metadat,

170
00:09:28,400 --> 00:09:32,175
může být omezení na to, kdo
Můžete jej distribuovat, podobný to--

171
00:09:32,175 --> 00:09:33,402
>> Nevím.

172
00:09:33,402 --> 00:09:36,110
To může, ale nemusí být podobné
situace písňových textů,

173
00:09:36,110 --> 00:09:36,610
například.

174
00:09:36,610 --> 00:09:38,560
Tak jsme se všichni víme, jak to pánve ven.

175
00:09:38,560 --> 00:09:40,450
Takže je potřeba se dostat kolem této otázky.

176
00:09:40,450 --> 00:09:44,910
>> A pak další kus
že je tu spousta dat.

177
00:09:44,910 --> 00:09:52,420
Takže pokud jsem někoho, kdo chce pracovat
s údaji, nebo má skvělý nápad,

178
00:09:52,420 --> 00:09:55,350
jednání s 14000000
záznamů na mém notebooku

179
00:09:55,350 --> 00:09:57,487
by mohlo být problematické
a obtížné.

180
00:09:57,487 --> 00:09:59,320
Takže chceme snížit
bariéry pro lidi

181
00:09:59,320 --> 00:10:02,130
aby bylo možné pracovat s daty.

182
00:10:02,130 --> 00:10:07,880
>> Takže přístup, který by snad adresy
všechny tyto obavy jsou dvě části.

183
00:10:07,880 --> 00:10:11,770
Jedním z nich je budování platformy, který trvá
Data ze všech těchto různých zdrojů

184
00:10:11,770 --> 00:10:14,350
a zhoršuje to, normalizuje,
obohacuje, a značky

185
00:10:14,350 --> 00:10:16,650
je k dispozici na jednom místě.

186
00:10:16,650 --> 00:10:20,950
A to je to k dispozici prostřednictvím
veřejné API, které mohou lidé volat.

187
00:10:20,950 --> 00:10:24,430
>> Takže API je Application
Programming Interface.

188
00:10:24,430 --> 00:10:28,930
A to v podstatě odkazuje na
Koncový bod, že systém nebo technologie

189
00:10:28,930 --> 00:10:31,720
zavolat a získat data zpět do
strukturovaný formát způsobem

190
00:10:31,720 --> 00:10:32,900
která může být použita.

191
00:10:32,900 --> 00:10:36,060
Takže to není závislý
dál na webové stránky

192
00:10:36,060 --> 00:10:37,970
a škrábání data z
ní, např.

193
00:10:37,970 --> 00:10:40,690

194
00:10:40,690 --> 00:10:45,010
>> Tak to je domovská stránka
Knihovna Cloud Item API,

195
00:10:45,010 --> 00:10:47,220
který je v podstatě jeho verze dvě.

196
00:10:47,220 --> 00:10:50,130
Takže je to druhá iterace
se snaží, aby všechny tyto údaje

197
00:10:50,130 --> 00:10:53,280
k dispozici na celém světě.

198
00:10:53,280 --> 00:10:59,560
Tak to je
http://api.lib.harvard.edu/v2/items.

199
00:10:59,560 --> 00:11:03,830
A právě rozčlenit tento systém
trochu, co to znamená

200
00:11:03,830 --> 00:11:06,115
je to, že je to verze dvě API.

201
00:11:06,115 --> 00:11:08,490
K dispozici je verze jedna, což
Nebudu mluvit.

202
00:11:08,490 --> 00:11:09,750
Ale je tu jedna verze.

203
00:11:09,750 --> 00:11:14,740
>> A pokud voláte to
API, jste získali položky.

204
00:11:14,740 --> 00:11:20,640
A část myšlenky
API je API je smlouva.

205
00:11:20,640 --> 00:11:23,440
Je to něco, co je
nebude měnit.

206
00:11:23,440 --> 00:11:24,850
Tak například, -

207
00:11:24,850 --> 00:11:27,410
>> A důvodem je, že když jsem
vytvořit nějaký systém, který

208
00:11:27,410 --> 00:11:33,210
bude používat knihovny cloud API
Pro zobrazení knihy nebo pomoci lidem najít

209
00:11:33,210 --> 00:11:36,190
Informace v jedinečným způsobem,
to, co nechceme, aby se stalo

210
00:11:36,190 --> 00:11:38,940
je pro nás jít změnit způsob, jakým
že API funguje, a najednou

211
00:11:38,940 --> 00:11:41,340
vše přestávky na koncové straně uživatele.

212
00:11:41,340 --> 00:11:46,710
Takže část, pokud děláš API
k dispozici na celém světě, je to

213
00:11:46,710 --> 00:11:49,396
dobrým zvykem dát
číslo verze v tom, aby lidé

214
00:11:49,396 --> 00:11:51,020
vědí, jakou verzi jsou co do činění s.

215
00:11:51,020 --> 00:11:54,300
>> Takže když jsme se rozhodli jsme najít lepší způsob,
tvorby tyto informace k dispozici,

216
00:11:54,300 --> 00:11:57,295
můžeme změnit na
volat, že verze tři.

217
00:11:57,295 --> 00:11:59,920
Takže každý, kdo je stále používá
verze dvě, že bude i nadále fungovat.

218
00:11:59,920 --> 00:12:03,490
Ale verze tři by
mít všechny nové věci.

219
00:12:03,490 --> 00:12:06,680

220
00:12:06,680 --> 00:12:09,210
>> Tak tohle je API, ale to
Opravdu vypadá jako URL.

221
00:12:09,210 --> 00:12:11,680
A tak to, co to je
Příkladem je to, co je

222
00:12:11,680 --> 00:12:16,615
volal odpočinek API, který je k dispozici
přes jen běžné webové připojení.

223
00:12:16,615 --> 00:12:19,680
A můžete skutečně
jít na to v prohlížeči.

224
00:12:19,680 --> 00:12:28,550
>> Tak tady jsem se právě otevřela Firefox a
šel do api.lib.harvard.edu/v2/items.

225
00:12:28,550 --> 00:12:31,560
A tak to, co jsem se sem dostal, je
v podstatě první stránka

226
00:12:31,560 --> 00:12:34,740
výsledků z celé
soubor předmětů, které jsme dostali.

227
00:12:34,740 --> 00:12:37,460
A je to tady ve formátu XML.

228
00:12:37,460 --> 00:12:40,130

229
00:12:40,130 --> 00:12:42,210
A je to také
přikrášlil Firefox.

230
00:12:42,210 --> 00:12:45,850
To není ve skutečnosti mají všechny tyto
málo rozšiřování a uzavírání smluv

231
00:12:45,850 --> 00:12:47,880
doohickeys zde.

232
00:12:47,880 --> 00:12:52,520
To je trochu hezčí
verze způsob, jak se na to podívat.

233
00:12:52,520 --> 00:12:57,040
>> Ale co je to nám říká, je
Já jsem požádal všechny položky.

234
00:12:57,040 --> 00:13:03,120
Takže tam jsou 13.289.475 položky.

235
00:13:03,120 --> 00:13:06,150
A já jsem při pohledu na první
10, začíná v poloze nulové

236
00:13:06,150 --> 00:13:09,760
protože v informatice
začínáme vždy od nuly.

237
00:13:09,760 --> 00:13:15,150
A to, co jsem tady, když jsem kolaps
to, uvidíte já mám 10 položek.

238
00:13:15,150 --> 00:13:20,410

239
00:13:20,410 --> 00:13:25,210
>> A když jsem se podívat na položky, mohu
vidět, že mám informace o něm.

240
00:13:25,210 --> 00:13:27,400
A to je to, co se nazývá MODS formulář.

241
00:13:27,400 --> 00:13:30,860
A tak budu přepínat
zpět sem na chvíli.

242
00:13:30,860 --> 00:13:33,750
OK.

243
00:13:33,750 --> 00:13:37,447
>> Takže pojďme hledat něco v
specifické tím, že jako první položku, která

244
00:13:37,447 --> 00:13:40,030
se stane přijít, když se podíváte
přes celou kolekci

245
00:13:40,030 --> 00:13:41,750
je, podle definice, náhodný.

246
00:13:41,750 --> 00:13:44,550
Tak se pojďme podívat na některé koblihy.

247
00:13:44,550 --> 00:13:46,830
Oh.

248
00:13:46,830 --> 00:13:49,190
>> OK.

249
00:13:49,190 --> 00:13:49,940
Takže koblihy.

250
00:13:49,940 --> 00:13:55,360
Tak jsme tam našli je 80 položky v
Kolekce, která odkazují koblihy.

251
00:13:55,360 --> 00:13:57,150
Díváme se na prvních 10 z nich.

252
00:13:57,150 --> 00:14:01,890
Nyní můžete vidět zde způsob, jakým
Řekl jsem, Hledám koblihy,

253
00:14:01,890 --> 00:14:04,400
Jen jsem přidal něco
řetězec dotazu URL.

254
00:14:04,400 --> 00:14:09,680
Takže q se rovná koblihy, které si můžete
viz trochu snadněji zde.

255
00:14:09,680 --> 00:14:12,131
>> A to v podstatě znamená, že je
spec pro API, které

256
00:14:12,131 --> 00:14:13,880
definuje, co všechno
Tyto parametry znamenají.

257
00:14:13,880 --> 00:14:17,150
A to znamená, že budeme
hledat vše, co pro koblihy.

258
00:14:17,150 --> 00:14:24,910
>> Takže na první položku zde máme
můžete vidět, titul je Donuts,

259
00:14:24,910 --> 00:14:29,310
a tam je podtitul s názvem
Americký Passion, což je, myslím,

260
00:14:29,310 --> 00:14:31,610
vhodné.

261
00:14:31,610 --> 00:14:36,134
Existuje mnoho different--

262
00:14:36,134 --> 00:14:38,050
Jakmile se dostanete do bodu,
o získání dat,

263
00:14:38,050 --> 00:14:41,020
existuje mnoho různých
formáty, které se můžete dostat do.

264
00:14:41,020 --> 00:14:44,050
A tam jsou různé síly
a slabé stránky pro všechny z nich.

265
00:14:44,050 --> 00:14:49,000
Tak tohle, můžete vidět
tady, tato forma je velmi bohatá.

266
00:14:49,000 --> 00:14:51,946
A to je standardizován.

267
00:14:51,946 --> 00:14:55,040
>> Takže je tu konkrétní titul
pole, pole titulků.

268
00:14:55,040 --> 00:14:58,950
K dispozici je alternativní
titul, American Passion.

269
00:14:58,950 --> 00:15:01,650
Tam je název s ním spojené.

270
00:15:01,650 --> 00:15:03,120
Typ zdroje je textu.

271
00:15:03,120 --> 00:15:06,070
Je tu spousta informací
tady v tomto formátu.

272
00:15:06,070 --> 00:15:09,480
>> Ale jsou tu parta
z různých formátech.

273
00:15:09,480 --> 00:15:11,920
Takže to, co jsme byli jen
je při pohledu na formát

274
00:15:11,920 --> 00:15:17,700
zvané MODS, což znamená
Metadata Object Popis Service,

275
00:15:17,700 --> 00:15:18,250
potenciálně.

276
00:15:18,250 --> 00:15:23,030
Ve skutečnosti jsem si zcela jist, o
S. Ale je to docela složitý formát.

277
00:15:23,030 --> 00:15:24,240
To je výchozí formát.

278
00:15:24,240 --> 00:15:30,260
>> Ale je to ten, který drží
bohatost všech údajů

279
00:15:30,260 --> 00:15:33,820
že knihovna má proto
je to velmi blízko k tomu, co

280
00:15:33,820 --> 00:15:35,110
Knihovna používá interně.

281
00:15:35,110 --> 00:15:39,030
Je to standard, který je
používá po celé zemi,

282
00:15:39,030 --> 00:15:40,944
po celém světě, v akademických knihovnách.

283
00:15:40,944 --> 00:15:42,110
A to je velmi interoperabilní.

284
00:15:42,110 --> 00:15:44,852
Takže pokud máte dokument
že je ve formátu MODS,

285
00:15:44,852 --> 00:15:47,560
si můžete dát, že pro někoho jiného
jejichž systémy pochopit mods,

286
00:15:47,560 --> 00:15:48,518
a mohou jej importovat.

287
00:15:48,518 --> 00:15:50,840
Takže je to standardní.

288
00:15:50,840 --> 00:15:54,250
Je to velmi dobře definované, velmi specifické.

289
00:15:54,250 --> 00:15:58,980
A to je to, co dělá to
spolupracovat, protože pokud někdo říká,

290
00:15:58,980 --> 00:16:04,930
To je alternativní název
rekord, každý ví, co to znamená.

291
00:16:04,930 --> 00:16:07,740
Na druhou stranu, je to velmi složité.

292
00:16:07,740 --> 00:16:13,160
>> Takže pokud jste se podívat
V tomto záznamu tady,

293
00:16:13,160 --> 00:16:15,320
pokud chci jen, aby si
název tohoto dokumentu,

294
00:16:15,320 --> 00:16:21,150
z této knihy, která je pravděpodobně Donuts,
Americký Passion, rozebrat ho

295
00:16:21,150 --> 00:16:22,940
je trochu zapojit.

296
00:16:22,940 --> 00:16:27,380
Vzhledem k tomu, že je jiný
formát nazvaný Dublin Core,

297
00:16:27,380 --> 00:16:29,730
což je mnohem, mnohem jednodušší formát.

298
00:16:29,730 --> 00:16:33,764
>> A tak zde vidíte, není
název, podtitul, alternativní název.

299
00:16:33,764 --> 00:16:35,930
Je tu jen titul,
Donuts, American Passion,

300
00:16:35,930 --> 00:16:38,780
a další titul, American Passion.

301
00:16:38,780 --> 00:16:42,907
Takže, když se díváte na to, jakou formu
Chcete-li získat data z,

302
00:16:42,907 --> 00:16:44,740
Hodně záleží na tom, jak
budete používat.

303
00:16:44,740 --> 00:16:46,573
Jste použitím
interoperability nebo si

304
00:16:46,573 --> 00:16:49,970
Chcete něco jednoduchého, že
by mohlo být jednodušší pracovat?

305
00:16:49,970 --> 00:16:56,002
>> Na druhou stranu, spousta
Podrobnosti si trochu naskládal dolů.

306
00:16:56,002 --> 00:16:58,460
Můžete přijít o nuance
co určité oblasti prostředek

307
00:16:58,460 --> 00:17:02,960
pokud máte co do činění s Dublin Core,
které byste si s MODS.

308
00:17:02,960 --> 00:17:06,462
To jsou dva formáty
se můžete dostat ven z API.

309
00:17:06,462 --> 00:17:08,920
A v podstatě, držíme
to v zákulisí v MODS.

310
00:17:08,920 --> 00:17:14,179
Ale můžeme dát ji do Mods a
Dublin Core a něco i jinde.

311
00:17:14,179 --> 00:17:16,470
Další plnění, pokud
hledáte v datech

312
00:17:16,470 --> 00:17:21,210
je můžete získat buď jako JSON, který
je zkratka pro JavaScript Object Notation,

313
00:17:21,210 --> 00:17:24,720
nebo XML, což je zkratka pro
Extensible Markup Language.

314
00:17:24,720 --> 00:17:30,080
A tyto datové reprezentace obou
mají stejné údaje, přesně

315
00:17:30,080 --> 00:17:31,080
stejných oblastech.

316
00:17:31,080 --> 00:17:33,644
Ale jsou to jen
syntakticky jinak.

317
00:17:33,644 --> 00:17:40,401
>> Tak tohle je je--

318
00:17:40,401 --> 00:17:41,400
No, tak to prostě přejít.

319
00:17:41,400 --> 00:17:47,490
Tak tohle je náš dotaz pro
koblihy ve formátu XML.

320
00:17:47,490 --> 00:17:53,470
Když jsem se přejít to, že JSON,
Vidím, že to vypadá jinak.

321
00:17:53,470 --> 00:17:58,580
Takže teď je to stejný obsah,
ale odlišná struktura.

322
00:17:58,580 --> 00:18:00,080
Tam je méně lomené závorky.

323
00:18:00,080 --> 00:18:02,530
Je tu méně upovídaný.

324
00:18:02,530 --> 00:18:06,440
>> A to je formát, který, pokud máte
pracují v prostředí webu,

325
00:18:06,440 --> 00:18:09,680
jste se s největší pravděpodobností bude
chtít použít, protože jeden

326
00:18:09,680 --> 00:18:12,630
z pěkných věcí o JSON je
je kompatibilní s JavaScriptem.

327
00:18:12,630 --> 00:18:17,680
Takže když píšu webové aplikace, můžu vytáhnout
JSON a právě s ním pracovat přímo.

328
00:18:17,680 --> 00:18:20,187
Vzhledem k tomu, s XML, je to
trochu složitější.

329
00:18:20,187 --> 00:18:21,520
Takže znovu, to jsou oba použitelné.

330
00:18:21,520 --> 00:18:26,387
Prostě jsou různé případy použití
kde se lidé mohou chtít použít.

331
00:18:26,387 --> 00:18:26,886
OK.

332
00:18:26,886 --> 00:18:29,810

333
00:18:29,810 --> 00:18:31,680
Takže zpět k API.

334
00:18:31,680 --> 00:18:32,900
Takže můžeme hledat for--

335
00:18:32,900 --> 00:18:36,220
>> Dám příklad
vyhledávání koblihy.

336
00:18:36,220 --> 00:18:39,330
Můžeme také hledat jen v
Zejména oblast v sem.

337
00:18:39,330 --> 00:18:41,310
Takže místo toho, hledání
celý záznam,

338
00:18:41,310 --> 00:18:43,870
Mohu jen hledat v názvu pole.

339
00:18:43,870 --> 00:18:48,810
A tak teď tam jsou věci, které 25
mají koblihy v názvu, z nichž jedna

340
00:18:48,810 --> 00:18:52,430
je o obnovení
mokřady v oblasti řízení

341
00:18:52,430 --> 00:18:54,990
z otvoru v koblihy
Program, který je pravděpodobně

342
00:18:54,990 --> 00:18:58,970
nemusí být nutně to, co hledáme
, když jsme hledali koblihy.

343
00:18:58,970 --> 00:19:02,790

344
00:19:02,790 --> 00:19:05,490
>> Můžete také, když jste
jednání s API--

345
00:19:05,490 --> 00:19:08,827
>> Část má API dává
lidé přístup k velkých datových souborů.

346
00:19:08,827 --> 00:19:11,410
A existuje několik různých
nástroje, které můžete použít k tomu, že.

347
00:19:11,410 --> 00:19:14,170
Jedním z nich je, velmi jednoduše, vy
lze procházet data.

348
00:19:14,170 --> 00:19:17,340
Takže stejně, jako byste udělat dotaz
přes webové rozhraní,

349
00:19:17,340 --> 00:19:19,470
se můžete podívat na první straně,
strana dva, strana tři.

350
00:19:19,470 --> 00:19:22,040
Můžete udělat totéž
to prostřednictvím rozhraní API.

351
00:19:22,040 --> 00:19:24,150
Je pouze potřeba být
Výslovně se v tom, jak to udělat.

352
00:19:24,150 --> 00:19:29,511
>> Tak například, pokud se dívám
na můj první dotaz zde,

353
00:19:29,511 --> 00:19:32,510
kde dělám hledání věcí
s koblihy v názvu, mohu říci,

354
00:19:32,510 --> 00:19:35,415
a hranice se rovná 20, což znamená,
dej mi prvních 20 záznamů, ne

355
00:19:35,415 --> 00:19:38,540
prvních 10, což je výchozí nastavení,
proto, že chci se podívat na 20 najednou.

356
00:19:38,540 --> 00:19:43,435
Nebo mohu říci, nastavte
začne ve výši 20 a limitu

357
00:19:43,435 --> 00:19:47,150
rovná 20, která bude obsahovat
me záznamy 21 až 40.

358
00:19:47,150 --> 00:19:52,680
>> Takže myslím, že věc
odnést zde

359
00:19:52,680 --> 00:19:57,290
že jsme pomocí řetězce dotazu
nastavit parametry na dotaz.

360
00:19:57,290 --> 00:20:02,760
A to vám umožní kontrolu
to, co dostanete zpátky.

361
00:20:02,760 --> 00:20:05,980
>> Dalším nástrojem, který můžete použít, -

362
00:20:05,980 --> 00:20:09,250
>> A to je opravdu užitečné
Podmínky zkoumání dat.

363
00:20:09,250 --> 00:20:10,840
>> --is něco jako faceting.

364
00:20:10,840 --> 00:20:15,530
Takže termín faceting je
ne nutně běžné.

365
00:20:15,530 --> 00:20:16,880
Ale vy jste všichni viděli předtím.

366
00:20:16,880 --> 00:20:18,630
Pokud jste se podívat na
Amazon, například,

367
00:20:18,630 --> 00:20:20,870
a vy hledání
koblihy v knihách,

368
00:20:20,870 --> 00:20:27,080
Tady mám sérii knih,
a oni jsou seskupeny podle kategorií,

369
00:20:27,080 --> 00:20:30,470
a dostanete různé kategorie,
a kolik knih v každé kategorii

370
00:20:30,470 --> 00:20:31,330
ukázat.

371
00:20:31,330 --> 00:20:33,420
>> Tak to je v podstatě aspekt.

372
00:20:33,420 --> 00:20:37,570
Budete mít všechny své knihy, 1800
knihy, které odpovídají koblihy na Amazon.

373
00:20:37,570 --> 00:20:39,820
12 z nich je v
snídaně kategorie.

374
00:20:39,820 --> 00:20:43,100
21 v pečivu a pečení,
a tak dále a tak dále.

375
00:20:43,100 --> 00:20:47,670
>> Tak tohle je opravdu užitečný
nástrojem pro zkoumání obsahu

376
00:20:47,670 --> 00:20:53,260
v knihovně, jakož
protože když se podíváte na fazety,

377
00:20:53,260 --> 00:20:56,520
To vám dává představu o tom, co předměty
existuje, jako to, co typy objektů

378
00:20:56,520 --> 00:20:58,510
jsou nejoblíbenější přímo ve Vašem sadě dotazu.

379
00:20:58,510 --> 00:21:00,950
A to vám pomůže odjet a prozkoumat.

380
00:21:00,950 --> 00:21:02,770
Takže můžeme udělat totéž.

381
00:21:02,770 --> 00:21:05,940
>> Pokud chceme použít
API a podívat se na aspekty,

382
00:21:05,940 --> 00:21:08,950
přidáme další parametr na
náš přítel řetězec dotazu.

383
00:21:08,950 --> 00:21:12,540
Takže aspektů rovná oddělených čárkou
Seznam toho, co chceme, aby aspekt dál.

384
00:21:12,540 --> 00:21:14,790
Takže jeden z aspektů by mohly být předmětem.

385
00:21:14,790 --> 00:21:16,565
Dalším může být řeč.

386
00:21:16,565 --> 00:21:19,665
A tak když narazíme tento dotaz, my get--

387
00:21:19,665 --> 00:21:23,372

388
00:21:23,372 --> 00:21:24,830
Vypadá to skoro tady stejný.

389
00:21:24,830 --> 00:21:29,010
Ale jsme přidali na konec
seznamu soubor aspekty.

390
00:21:29,010 --> 00:21:34,060
Takže máme aspekt s názvem předmět.

391
00:21:34,060 --> 00:21:40,250
Tak to nám říká, že když se podívám
v mých 80 vyplývá z dotazu koblihy,

392
00:21:40,250 --> 00:21:42,100
13 z nich
podrobit Spojené státy.

393
00:21:42,100 --> 00:21:43,684
Tři mají na něž koblihy.

394
00:21:43,684 --> 00:21:45,600
Tři mají předmět
mokřadních restaurování,

395
00:21:45,600 --> 00:21:47,720
které mohou být naše díra v koblihy.

396
00:21:47,720 --> 00:21:51,780
Dva z nich, Simpsons,
a tak dále a tak dále.

397
00:21:51,780 --> 00:21:59,211
>> Takže to může být užitečné, pokud
Chcete zúžit vyhledávání.

398
00:21:59,211 --> 00:22:00,210
To vám může pomoci udělat.

399
00:22:00,210 --> 00:22:03,580
Zvlášť pokud máte
více než, řekněme, 80 řádků.

400
00:22:03,580 --> 00:22:05,980
>> Stejně tak, jsme se ptali
pro aspekty na jazyk.

401
00:22:05,980 --> 00:22:14,790
Takže pokud se podíváme na naše výsledky, vidíme 76
z nich jsou v angličtině, čtyři ve francouzštině,

402
00:22:14,790 --> 00:22:19,620
dva ve španělštině, dva, myslím, že je to
nedefinovaný nebo neznámé, holandský a latina.

403
00:22:19,620 --> 00:22:22,830
Takže si myslím, latinu
kobliha výsledek, opět,

404
00:22:22,830 --> 00:22:24,922
nemá nic společného s pečiva.

405
00:22:24,922 --> 00:22:25,630
Ale tam jdete.

406
00:22:25,630 --> 00:22:31,420

407
00:22:31,420 --> 00:22:38,630
>> Tak tohle je trochu ukáže vám,
Jak si můžete stáhnout obsah zpět

408
00:22:38,630 --> 00:22:41,270
z API právě prostřednictvím
webový prohlížeč, což je skvělé.

409
00:22:41,270 --> 00:22:44,320
Ale to není to, co byste
za normálních okolností použití v API pro to.

410
00:22:44,320 --> 00:22:48,710
Takže jeden z příkladů, jak se
by se skutečně udělat, je jsem

411
00:22:48,710 --> 00:22:54,720
napsal super malý program,
který opět dělá můj koblihu vyhledávání

412
00:22:54,720 --> 00:22:59,010
a vybere pár polí
a zobrazí je v tabulce.

413
00:22:59,010 --> 00:23:01,610
Tak to je velmi
Stejný obsah, který jsme právě

414
00:23:01,610 --> 00:23:04,830
pila s několika poli vytáhl ven.

415
00:23:04,830 --> 00:23:12,090
Takže seznamu titulů, na
místo toho, co knihy

416
00:23:12,090 --> 00:23:15,120
je asi, jazyk,
a tak dále a tak dále.

417
00:23:15,120 --> 00:23:20,480
>> Tak, jak se to vlastně stalo, od té doby
Myslím, že bychom se podívat na nějaký kód,

418
00:23:20,480 --> 00:23:22,420
je--

419
00:23:22,420 --> 00:23:28,060
>> To, co zde máme, je jednoduchý HTML
strana, která zobrazuje text,

420
00:23:28,060 --> 00:23:32,900
vítejte na knihovny cloudu a
pak zobrazuje tabulku výsledků.

421
00:23:32,900 --> 00:23:37,790
A tam se v zřejmě žádné výsledky
stůl, když se stránka se nahraje.

422
00:23:37,790 --> 00:23:41,380
Ale co děláme
je v první řadě, jsme

423
00:23:41,380 --> 00:23:46,290
vkládáte knihovny s názvem
jQuery, což je v podstatě

424
00:23:46,290 --> 00:23:52,030
knihovna JavaScript, což z něj činí
velmi snadno manipulovat JavaScript

425
00:23:52,030 --> 00:23:58,780
nativně, HTML, a vytvořit webové stránky,
na straně klienta logika a webové stránky.

426
00:23:58,780 --> 00:24:01,595
>> Takže to, co tu máme, je jQuery
má metodu nazvanou Get,

427
00:24:01,595 --> 00:24:05,270
který v podstatě půjde do
URL, který v tomto případě,

428
00:24:05,270 --> 00:24:09,070
Je to známý vypadající URL.

429
00:24:09,070 --> 00:24:14,440
A pak si obsah z
že URL a spustit funkci na to.

430
00:24:14,440 --> 00:24:19,240
Tak jsme si řekli jít do api.lib.harvard / edu.

431
00:24:19,240 --> 00:24:20,060
Hledat koblihy.

432
00:24:20,060 --> 00:24:21,300
Dejte nám 20 záznamů.

433
00:24:21,300 --> 00:24:28,590
A pak spustit tuto funkci, která
Já jsem zvolen, předáte jí data.

434
00:24:28,590 --> 00:24:34,430
A data JSON, že
dostal se vrátil z API.

435
00:24:34,430 --> 00:24:40,120
>> A pak říkáme, že v rámci
Data tam je pole s názvem položky.

436
00:24:40,120 --> 00:24:48,117
A když jdu se podívat zpět na
jeden z těchto výsledků, které je tady,

437
00:24:48,117 --> 00:24:49,200
je tu něco called--

438
00:24:49,200 --> 00:24:50,220
>> No, je to jen bod.

439
00:24:50,220 --> 00:24:53,520
Tak, že může být, že.

440
00:24:53,520 --> 00:25:01,840
A to, co dělá, je to
prochází každou položku

441
00:25:01,840 --> 00:25:05,300
a pak volá další
funkce na každé položce.

442
00:25:05,300 --> 00:25:08,440
A že funkce v podstatě
bere hodnotu

443
00:25:08,440 --> 00:25:12,010
položky, která je
v podstatě individuální rekord

444
00:25:12,010 --> 00:25:18,220
a umožňuje nám vytáhnout titul,
pokrytí a jazyk.

445
00:25:18,220 --> 00:25:21,640
>> Tak jsme volání funkce na každý
položka, která jsme se vrátili z API.

446
00:25:21,640 --> 00:25:25,397
A pokud si stačí se podívat
V tomto kousku tady,

447
00:25:25,397 --> 00:25:27,230
to, co děláme, je
jsme vytvořit řetězec,

448
00:25:27,230 --> 00:25:31,810
což je v podstatě některé značky HTML
kolem stolu, s value.title,

449
00:25:31,810 --> 00:25:35,790
což je název
objekt, value.coverage,

450
00:25:35,790 --> 00:25:36,790
což je pokrytí, -

451
00:25:36,790 --> 00:25:38,225
>> A děláme kontrolu
zde vidět, kdo je definován

452
00:25:38,225 --> 00:25:40,570
a skrývání, pokud říká, že nedefinované,
proto, že jsme opravdu zájem

453
00:25:40,570 --> 00:25:41,600
se tím, že.

454
00:25:41,600 --> 00:25:42,939
>> --and pak jazyk.

455
00:25:42,939 --> 00:25:44,730
A pak to, co jsme
dělá, je, že připojením

456
00:25:44,730 --> 00:25:48,510
do tabulky, která je
identifikovat podle tohoto řetězce zde.

457
00:25:48,510 --> 00:25:50,790
A jak jQuery funguje
je to, co to říká

458
00:25:50,790 --> 00:25:56,420
se podívat na tabulku s myšlenkou
výsledky a přidejte tento text k tomu.

459
00:25:56,420 --> 00:25:59,380
A to je tabulka s výsledky nápad.

460
00:25:59,380 --> 00:26:04,998
Takže to, co jste skončili
s je na tuto stránku zde.

461
00:26:04,998 --> 00:26:06,206
A aby se mohli source--

462
00:26:06,206 --> 00:26:11,310

463
00:26:11,310 --> 00:26:13,810
No, zdroj není ve skutečnosti
aktualizovat, když se to stalo.

464
00:26:13,810 --> 00:26:18,740
Takže můžete vidět aktuální
Výsledky v tabulce zde ačkoli.

465
00:26:18,740 --> 00:26:24,770
>> Takže je to jen jednoduchý příklad
dělá velmi jednoduchý dotaz na rozhraní API

466
00:26:24,770 --> 00:26:29,020
a zobrazování informací v jiné
tvoří, a nic nedělá moc fantazie.

467
00:26:29,020 --> 00:26:36,370
A teď, další příklad je jako
Aplikace napsal David Weinberger

468
00:26:36,370 --> 00:26:39,120
jako demo tohoto, který
v podstatě ukazuje,

469
00:26:39,120 --> 00:26:44,620
jak si můžete zapařit na výsledky, kde jsi
dostat z knihovny cloud API

470
00:26:44,620 --> 00:26:46,250
s, řekněme, Knihy Google.

471
00:26:46,250 --> 00:26:52,225
>> A myšlení je, že můžu
Spuštění dotazu proti Google Books,

472
00:26:52,225 --> 00:26:56,060
získat fulltextové vyhledávání, získat nějaké výsledky
zpět, zjistit, který z těchto položek

473
00:26:56,060 --> 00:27:01,180
skutečně existují v Hollis,
knihovní systém,

474
00:27:01,180 --> 00:27:03,200
a pak mi odkazy
zpět do těchto položek.

475
00:27:03,200 --> 00:27:12,730
Takže když jsem se hledat, to bylo
temná a bouřlivá noc, já

476
00:27:12,730 --> 00:27:16,210
dostat zpět spoustu výsledků
od společnosti Google, a pak jeden výsledek

477
00:27:16,210 --> 00:27:19,460
což je vyhlazení vrásek v čase.

478
00:27:19,460 --> 00:27:29,330
A to jsou odkazy na knihy, které existují
v rámci systému Harvard knihovny.

479
00:27:29,330 --> 00:27:32,160
>> Takže myslím, že bod tady není
tak moc, že ​​to může nebo nemusí

480
00:27:32,160 --> 00:27:34,118
je způsob, jakým chcete
hledat knihovnu,

481
00:27:34,118 --> 00:27:38,310
ale to je úplně jiná
způsob, který nebyl k dispozici pro vás

482
00:27:38,310 --> 00:27:42,884
před, jako jste měli žádný způsob, jak dělat
Plné znění hledá na knihy, které i

483
00:27:42,884 --> 00:27:44,550
byly součástí systému Harvard knihovny.

484
00:27:44,550 --> 00:27:46,870
Takže teď je to cesta
které můžete udělat.

485
00:27:46,870 --> 00:27:51,930
A můžete zobrazit v
jakémkoli formátu, budete chtít.

486
00:27:51,930 --> 00:27:55,990
Takže bod tady je, v podstatě,
jsme otevírá nové možnosti pro lidi

487
00:27:55,990 --> 00:27:59,080
pro práci s daty.

488
00:27:59,080 --> 00:28:07,925
>> Další kus knihovny mraku je to, že
to pomáhá vystavit některé údaje o použití

489
00:28:07,925 --> 00:28:08,800
že knihovna má.

490
00:28:08,800 --> 00:28:12,630
Takže pokud jdete do knihovny,
a hledáte pro knihy,

491
00:28:12,630 --> 00:28:15,770
nemusíte nutně
ve skutečnosti mají představu,

492
00:28:15,770 --> 00:28:19,080
pro všechny položky v
zejména předmět, co

493
00:28:19,080 --> 00:28:21,200
jsou lidé v
komunity, ať už je to

494
00:28:21,200 --> 00:28:24,890
definována jako Harvard, nebo
země nebo vaše třída,

495
00:28:24,890 --> 00:28:26,421
to, co se našli nejvhodnější?

496
00:28:26,421 --> 00:28:28,920
A knihovna ve skutečnosti má
ton informací o tom, co

497
00:28:28,920 --> 00:28:32,999
je velmi užitečné, protože v případě, že mnoho
lidí, kteří jsou mimo kontrolu knihu,

498
00:28:32,999 --> 00:28:34,040
že vám řekne něco.

499
00:28:34,040 --> 00:28:36,498
Tam musí být nějaký důvod
chtějí podívat se na to.

500
00:28:36,498 --> 00:28:38,270
Hodně lidí ji na rezervy.

501
00:28:38,270 --> 00:28:42,520
>> Pokud je to na rezervní seznam pro mnoho
tříd, které vám řekne něco.

502
00:28:42,520 --> 00:28:45,960
Pokud se členové katedry jsou to kontroly
out hodně a vysokoškoláci nejsou,

503
00:28:45,960 --> 00:28:47,200
to mi říká něco.

504
00:28:47,200 --> 00:28:49,280
Vice versa, že také
říká vám něco.

505
00:28:49,280 --> 00:28:54,680
Tak to by bylo opravdu zajímavé
dal, že informace tam a nechat

506
00:28:54,680 --> 00:28:59,969
lidé používají, aby jim pomohla najít
práce v rámci knihovního systému.

507
00:28:59,969 --> 00:29:02,260
Odvrácenou stranou je
tam jsou některé vážné o ochraně osobních údajů

508
00:29:02,260 --> 00:29:07,854
obavy, protože jeden z
základní principy knihovny

509
00:29:07,854 --> 00:29:10,770
se my nebudeme říkat
Lidé, co ostatní lidé čtou.

510
00:29:10,770 --> 00:29:17,360
A i když se říká, to
Kniha byla odhlásil čtyřikrát

511
00:29:17,360 --> 00:29:20,070
v určitém měsíci,
který by mohl být použit

512
00:29:20,070 --> 00:29:25,252
odkazují na konkrétní
člověk by de-anonymizace údajů

513
00:29:25,252 --> 00:29:26,710
a zjistit, kdo ji odhlásila.

514
00:29:26,710 --> 00:29:30,792
Takže způsob, jak můžeme avoid--

515
00:29:30,792 --> 00:29:33,750
Způsob, jakým se můžeme pokusit extrahovat
nějaký signál od všech informací

516
00:29:33,750 --> 00:29:36,740
bez porušení
obavy někdo o ochraně osobních

517
00:29:36,740 --> 00:29:42,150
Je v podstatě se podíváme na
10 let údaje o používání, -

518
00:29:42,150 --> 00:29:43,930
>> Takže je to po dlouhou dobu.

519
00:29:43,930 --> 00:29:50,639
>> --and říct, OK, pojďme se podívat, jak
mnohokrát tato práce byla použita

520
00:29:50,639 --> 00:29:52,930
a kdo v tomto období
času, a pak se v podstatě

521
00:29:52,930 --> 00:29:56,300
vrátit číslo, které nazýváme
stack skóre, což v podstatě

522
00:29:56,300 --> 00:29:59,910
představuje, jak moc to bylo použito.

523
00:29:59,910 --> 00:30:01,084
A to number--

524
00:30:01,084 --> 00:30:03,250
Mnoho různých výpočtů
přejít na toto číslo.

525
00:30:03,250 --> 00:30:05,150
--but, že je to velmi hrubý
metrika, která vám dává

526
00:30:05,150 --> 00:30:11,300
určitou představu o tom, jak
obec může ocenit tuto práci.

527
00:30:11,300 --> 00:30:16,772
>> A tak jiný druh i
více konkretizovat přihlášku

528
00:30:16,772 --> 00:30:18,480
že využívá
to je něco

529
00:30:18,480 --> 00:30:24,000
nazvaný Stacklife, což je ve skutečnosti
k dispozici přes hlavní Harvard

530
00:30:24,000 --> 00:30:24,880
Knihovna portál.

531
00:30:24,880 --> 00:30:26,700
Takže jdete do library.harvard.edu.

532
00:30:26,700 --> 00:30:29,360
Uvidíte více různých
způsoby hledání knihovny.

533
00:30:29,360 --> 00:30:32,300
A jeden z nich se jmenuje Stacklife.

534
00:30:32,300 --> 00:30:38,980
>> A to je aplikace, která
prochází obsah knihovny,

535
00:30:38,980 --> 00:30:43,490
ale je zcela postaven
v horní části těchto API.

536
00:30:43,490 --> 00:30:46,910
Takže není žádný zvláštní věci
děje v zákulisí.

537
00:30:46,910 --> 00:30:49,570
Neexistuje žádný přístup k
Údaje, které nemáte.

538
00:30:49,570 --> 00:30:54,090
Je to pomocí rozhraní API poskytnout vám
s úplně jiným prohlížení

539
00:30:54,090 --> 00:30:55,480
zážitek.

540
00:30:55,480 --> 00:30:58,570
>> Takže když jsem se hledat Alice
v říši divů v tomto případě,

541
00:30:58,570 --> 00:31:02,600
Mám výsledek, který vypadá jako
to, což je docela much--

542
00:31:02,600 --> 00:31:05,430

543
00:31:05,430 --> 00:31:10,870
>> To je velmi podobné jiným vyhledávání
můžete dělat, s výjimkou v tomto případě

544
00:31:10,870 --> 00:31:15,730
jsme žebříčku položky by
stackscore, který vám poskytne

545
00:31:15,730 --> 00:31:19,850
nějakou představu o tom, jak populární těchto
položky byly v rámci komunity.

546
00:31:19,850 --> 00:31:25,610
A tak jasně, Alenka v říši divů
Walt Disney je velmi populární.

547
00:31:25,610 --> 00:31:36,570
Ale můžete také vidět horní čtyři
Zde jsou ty, které nemusí actually--

548
00:31:36,570 --> 00:31:39,220
>> Věci, které jsou vysoce použity,
ale nemusí hned

549
00:31:39,220 --> 00:31:41,240
spojte se s Alenka v říši divů.

550
00:31:41,240 --> 00:31:44,650
Takže náš starý přítel
Poznámkami Alice je tady.

551
00:31:44,650 --> 00:31:46,350
Tak jsem si vzít na to podívat.

552
00:31:46,350 --> 00:31:52,010
A teď to, co hledám
v je v podstatě nastavena of--

553
00:31:52,010 --> 00:31:53,760
Můžu mít komentovaný
Alice tady.

554
00:31:53,760 --> 00:31:56,700
Mám informace o tom.

555
00:31:56,700 --> 00:32:00,230
A mám také stackscore
o, v tomto případě 26.

556
00:32:00,230 --> 00:32:03,169
A to mi říká, trochu hrubě
Jak jsme se dostali k tomuto stackscore,

557
00:32:03,169 --> 00:32:05,835
jako kdo ho odhlásil, jako jak
mnohokrát bylo odhlášené,

558
00:32:05,835 --> 00:32:08,440
jako fakulty nebo undergrads, jak
mnoho kopií knihovna,

559
00:32:08,440 --> 00:32:11,300
a tak dále a tak dále.

560
00:32:11,300 --> 00:32:16,460
>> A můžete také dost zajímavý
tady, procházet stohy virtuálně.

561
00:32:16,460 --> 00:32:19,550
Tak tady jsou údaje, to
ukazuje seřadit

562
00:32:19,550 --> 00:32:23,547
virtuální reprezentace
toho, co si police síly

563
00:32:23,547 --> 00:32:25,880
vypadat, pokud jste byli, aby se
všechny zemědělské podniky knihovny

564
00:32:25,880 --> 00:32:28,940
a dát je dohromady
na jedné nekonečné polici.

565
00:32:28,940 --> 00:32:30,990
A pěkná věc je, že jsme can--

566
00:32:30,990 --> 00:32:33,380
>> Za prvé,
metadata o těchto knihách

567
00:32:33,380 --> 00:32:35,627
Často vám řekne, kdy byla publikována.

568
00:32:35,627 --> 00:32:37,085
To vám řekne, kolik stránek má.

569
00:32:37,085 --> 00:32:38,459
Mohlo by ti rozměry.

570
00:32:38,459 --> 00:32:42,930
Takže můžete vidět, že se tady projevuje
z hlediska velikosti knih.

571
00:32:42,930 --> 00:32:46,740
>> A pak můžeme použít
stack skóre zvýraznit

572
00:32:46,740 --> 00:32:49,170
knihy, které mají vyšší skóre zásobníku.

573
00:32:49,170 --> 00:32:54,930
Takže pokud je to tmavší, to znamená, že,
Lze předpokládat, že to je více často používané.

574
00:32:54,930 --> 00:32:57,040
Takže v tomto případě, já jsem
bude hádat, že tento

575
00:32:57,040 --> 00:33:03,226
je verze Alenky v říši divů
která je velmi běžně používaná a nejvíce

576
00:33:03,226 --> 00:33:05,100
přístupné, knihovna
má nejvíce kopie.

577
00:33:05,100 --> 00:33:06,975
Takže pokud hledáte
pro Alenka v říši divů,

578
00:33:06,975 --> 00:33:10,220
to může být dobrým místem pro začátek.

579
00:33:10,220 --> 00:33:13,500
>> A pak zde si můžete také spojit se
na, řekněme, Amazon koupit knihu,

580
00:33:13,500 --> 00:33:15,182
a tak dále a tak dále.

581
00:33:15,182 --> 00:33:17,140
Pointa, znovu,
není ani tak, že se

582
00:33:17,140 --> 00:33:25,030
je nejlepší způsob, jak procházet knihovnu
nebo správný nástroj pro každou příležitost.

583
00:33:25,030 --> 00:33:28,400
Ale je to jiný způsob, jak to udělat.

584
00:33:28,400 --> 00:33:31,359
A tím, že data
k dispozici přes API, což

585
00:33:31,359 --> 00:33:34,650
je vyrobena z velmi jednoduchých stavebních bloků,
který umožňuje vyhledávat v obsahu,

586
00:33:34,650 --> 00:33:39,420
můžete vytvořit něco
takhle, že může

587
00:33:39,420 --> 00:33:41,520
být mimořádně
cenný pro některé lidi.

588
00:33:41,520 --> 00:33:46,640

589
00:33:46,640 --> 00:33:51,860
>> Tak to je druh, stejně jako já chci
říci, opravdu o tom, co je API

590
00:33:51,860 --> 00:33:56,070
a to, co odhaluje, je tu celá
spoustu věcí, v zákulisí, což

591
00:33:56,070 --> 00:33:59,480
Já jsem prostě jít na dotek krátce
jen proto, že tak nějak přijde na to

592
00:33:59,480 --> 00:34:03,720
z úplně jiného úhlu
o tom, jak dělá něco takového

593
00:34:03,720 --> 00:34:04,580
si dát na své místo?

594
00:34:04,580 --> 00:34:10,820
>> Takže API je standardní
rozhraní pro všechny tohoto obsahu.

595
00:34:10,820 --> 00:34:13,820
Ale aby se to tam,
První věc, kterou jsme museli udělat

596
00:34:13,820 --> 00:34:17,260
se táhnout za jeden provaz informace
knih a obrazů

597
00:34:17,260 --> 00:34:21,580
a nález pomáhá, kolekce
Dokument z různých systémů Harvard.

598
00:34:21,580 --> 00:34:23,929
Aleph, VIA, a OASIS jsou
názvy systémů.

599
00:34:23,929 --> 00:34:28,820
A v podstatě jdou do
potrubí, zpracování potrubí.

600
00:34:28,820 --> 00:34:33,230
>> Takže v první řadě, dostaneme export
soubory ze všech těchto systémů.

601
00:34:33,230 --> 00:34:35,130
Rozdělili jsme je do jednotlivých položek.

602
00:34:35,130 --> 00:34:39,360
Takže máme soubor, který je gigabyte,
který má milion záznamů v něm.

603
00:34:39,360 --> 00:34:42,290
Tak došlo k rozdělení na jednotlivé položky.

604
00:34:42,290 --> 00:34:45,374
Poté, pro každou položku, jsme to konvertovat
do MODS, protože některé z nich

605
00:34:45,374 --> 00:34:47,040
nativně MODS, některé z nich nejsou.

606
00:34:47,040 --> 00:34:49,204
Tak jsme si je všechny
být ve stejném formátu.

607
00:34:49,204 --> 00:34:51,120
Pak jsou tu různé
obohacování kroky, kde

608
00:34:51,120 --> 00:34:55,969
přidáme další informace k údajům
než byl k dispozici v knihovně.

609
00:34:55,969 --> 00:34:59,750
Proto musíme přidat, nejprve
máme to, co knihovny držet.

610
00:34:59,750 --> 00:35:02,250
Jdeme přes krokem
výpočtu stackscore.

611
00:35:02,250 --> 00:35:07,112
Procházíme další krok
přidání dalších metadat, pokud jde

612
00:35:07,112 --> 00:35:10,730
O tom, co sbírek lidí
mohl přidal tohle--

613
00:35:10,730 --> 00:35:12,532
>> Lidé se vytváří
sbírky předmětů.

614
00:35:12,532 --> 00:35:13,990
Co sbírky to patří?

615
00:35:13,990 --> 00:35:17,220
Jak se lidé označili
tento obsah v minulosti?

616
00:35:17,220 --> 00:35:20,750
Pak jste odfiltrovat, a omezit
záznamy, protože, jak jsem již zmínil,

617
00:35:20,750 --> 00:35:24,120
tam je nějaké záznamy, že z důvodu
důvodu ochrany autorských práv, nemůžeme zobrazit.

618
00:35:24,120 --> 00:35:26,700
A pak jsme je nahrát
do něčeho zvaného

619
00:35:26,700 --> 00:35:31,680
Solr, což není chybně napsané, ale
je název kus softwaru

620
00:35:31,680 --> 00:35:35,710
že dělá vyhledávání indexování, což
řídí veškeré vyhledávání za API.

621
00:35:35,710 --> 00:35:40,110
A pak je k dispozici na
API, a lidé mohou používat.

622
00:35:40,110 --> 00:35:44,640
>> Takže to je jako docela
přímočarý proces.

623
00:35:44,640 --> 00:35:47,230
Jedním ze zajímavých
věci, o to je

624
00:35:47,230 --> 00:35:50,990
že máme co do činění
s 13 miliónů desek

625
00:35:50,990 --> 00:35:53,820
a my se bude jednání nebo více.

626
00:35:53,820 --> 00:36:01,260
A my chceme být schopni zvládnout
Tyto relativně rychlé způsobem.

627
00:36:01,260 --> 00:36:03,630
Trvá dlouho, než se
zpracovat 13 milionů záznamů.

628
00:36:03,630 --> 00:36:09,529
>> Tak, jak to potrubí je
nastavení je, že jste can--

629
00:36:09,529 --> 00:36:12,070
Myslím, že tu výhodu, že
potrubí, problém, že jsme

630
00:36:12,070 --> 00:36:15,580
se snaží řešit tady, je to, že
všechny transformace, vše

631
00:36:15,580 --> 00:36:18,729
těchto kroků
potrubí jsou oddělitelné.

632
00:36:18,729 --> 00:36:19,645
Není závislost.

633
00:36:19,645 --> 00:36:22,146
Pokud jste zpracování
záznam o jedné knize,

634
00:36:22,146 --> 00:36:24,270
není závislost na
že mezi další knihu.

635
00:36:24,270 --> 00:36:27,760
>> Takže to, co můžeme udělat, je v podstatě,
na každém kroku v potrubí,

636
00:36:27,760 --> 00:36:30,470
dáme do fronty v cloudu.

637
00:36:30,470 --> 00:36:32,250
Náhodou jsem se být na Amazon Web Services.

638
00:36:32,250 --> 00:36:35,140
Takže tam je seznam,
říkají, 10,000 položky, které

639
00:36:35,140 --> 00:36:38,100
musí být normalizované a
převedeny do formátu MODS.

640
00:36:38,100 --> 00:36:41,620
A my jsme točit jako mnoho serverů
jak jsme chtěli, možná 10 serverů.

641
00:36:41,620 --> 00:36:44,860
A každý z těchto serverů jen
sedí tam vypadá v této frontě,

642
00:36:44,860 --> 00:36:46,730
vidí, že je tu ještě jedna, která musí
zpracovány, táhne ji pryč z fronty,

643
00:36:46,730 --> 00:36:48,740
zpracuje ji a hole
se na další fronty.

644
00:36:48,740 --> 00:36:54,200
>> A tak, co to nám umožňuje
udělat, je použít, v podstatě,

645
00:36:54,200 --> 00:36:58,110
tolik hardware, jak bychom chtěli, aby to
problém po velmi krátkou dobu

646
00:36:58,110 --> 00:37:02,970
tak rychle, jak zpracovávat data
je to možné, což je něco, co pouze,

647
00:37:02,970 --> 00:37:08,220
nyní ve světě cloud computingu
Můžeme se poskytování servery v zásadě

648
00:37:08,220 --> 00:37:09,890
okamžitě, že je užitečný.

649
00:37:09,890 --> 00:37:12,260
Takže jsme nemuseli mít
Obří serveru sedět

650
00:37:12,260 --> 00:37:16,700
po celou dobu dělat zpracování
že by se mohlo stát jen jednou za týden.

651
00:37:16,700 --> 00:37:21,440
>> Takže to je většinou to.

652
00:37:21,440 --> 00:37:27,590
K dispozici je dokumentace k dispozici
Pro knihovny Cloud položky API

653
00:37:27,590 --> 00:37:31,960
na této adrese URL, bude což
bude k dispozici později.

654
00:37:31,960 --> 00:37:36,730
A prosím, jděte se podívat na
je vidět, jestli tam je něco,

655
00:37:36,730 --> 00:37:37,579
Máte nějaké nápady.

656
00:37:37,579 --> 00:37:38,120
Hrajte si s ním.

657
00:37:38,120 --> 00:37:38,830
Hlouposti.

658
00:37:38,830 --> 00:37:42,800
A doufejme, že můžete přijít
s něčím velkým.

659
00:37:42,800 --> 00:37:44,740
Děkuju.

660
00:37:44,740 --> 00:37:45,899