1
00:00:00,000 --> 00:00:11,370

2
00:00:11,370 --> 00:00:12,370
Jeffrey LICHT: Cześć.

3
00:00:12,370 --> 00:00:13,550
Jestem Jeffrey Licht.

4
00:00:13,550 --> 00:00:17,890
A ja jestem tutaj, aby porozmawiać o
Biblioteka i budynek Harvard jutro

5
00:00:17,890 --> 00:00:20,870
dziś biblioteka, myślę.

6
00:00:20,870 --> 00:00:23,040
Więc tła tutaj
Boisko w tej sesji

7
00:00:23,040 --> 00:00:26,930
w istocie, że nie jest
Wiele danych bibliograficznych

8
00:00:26,930 --> 00:00:28,400
dostępne w bibliotekach Uniwersytetu Harvarda.

9
00:00:28,400 --> 00:00:33,434
I jest szansa,
za pomocą niektórych narzędzi

10
00:00:33,434 --> 00:00:36,350
i projekt, który jest rozwijany,
aby uzyskać dostęp do informacji

11
00:00:36,350 --> 00:00:42,430
i zgłosić się do miejsc, które
Harvard Biblioteka nie robi w tej chwili,

12
00:00:42,430 --> 00:00:45,460
robić nowe rzeczy z nim, eksperyment
i bawić się z nim.

13
00:00:45,460 --> 00:00:52,413
>> Tak więc punkt wyjścia do tego jest API
nazywa Harvard Biblioteka Chmura, które

14
00:00:52,413 --> 00:00:57,650
jest otwarty serwer metadanych,
które będę mówić o teraz.

15
00:00:57,650 --> 00:01:02,595
Tle tak, że nie ma
Wiele rzeczy w bibliotece Harvard.

16
00:01:02,595 --> 00:01:07,150
Mamy ponad 13 mln bibliograficzne
Zapisy, miliony obrazów,

17
00:01:07,150 --> 00:01:11,090
i tysiące pomocy odkrycie, które
są zasadniczo dokumenty opisujące

18
00:01:11,090 --> 00:01:15,500
kolekcje, mówiąc to, co
jest w nich, pudła z papierami

19
00:01:15,500 --> 00:01:21,080
i tak dalej, które stanowią ponad
milion poszczególne dokumenty.

20
00:01:21,080 --> 00:01:24,290
I tam też dużo
informacje, że biblioteka ma

21
00:01:24,290 --> 00:01:28,180
o tym, jak zawartość jest używana, że
może być interesujące dla ludzi

22
00:01:28,180 --> 00:01:32,400
którzy chcą z nim pracować.

23
00:01:32,400 --> 00:01:36,150
>> Tak więc wszystkie informacje
Biblioteka posiada metadane.

24
00:01:36,150 --> 00:01:39,500
Więc metadane dane o danych.

25
00:01:39,500 --> 00:01:42,070
Więc, gdy mówimy o
informacje, że to

26
00:01:42,070 --> 00:01:44,890
dostępne w bibliotece
Chmura to jest dostępne,

27
00:01:44,890 --> 00:01:47,760
to nie koniecznie
aktualne dokumenty

28
00:01:47,760 --> 00:01:53,060
same niekoniecznie pełne
Tekst książki lub pełnych obrazów,

29
00:01:53,060 --> 00:01:54,890
jednak, że w rzeczywistości może być inaczej.

30
00:01:54,890 --> 00:01:57,550
Ale to naprawdę
informacje o danych.

31
00:01:57,550 --> 00:02:00,909
>> Więc można myśleć katalogowania
informacje, numery alarmowe, przedmioty,

32
00:02:00,909 --> 00:02:02,700
ile kopii
Książka jest, co

33
00:02:02,700 --> 00:02:06,380
są wersje, jakie są
Formaty, autorzy, i tak dalej.

34
00:02:06,380 --> 00:02:12,250
Więc nie ma wiele informacji na temat
informacje w kolekcji, które,

35
00:02:12,250 --> 00:02:14,400
sama w sobie, jest rodzaj natury przydatne.

36
00:02:14,400 --> 00:02:19,230
A jednak, jeśli jesteś
prowadzenia badań szczegółowych,

37
00:02:19,230 --> 00:02:25,160
Ci oczywiście chcą dostać się do faktycznej
zadowolić się i spojrzeć na dane,

38
00:02:25,160 --> 00:02:30,140
metadane są użyteczne w kontekście
zarówno analizuje korpus jako całość

39
00:02:30,140 --> 00:02:33,870
jak to, co rzeczy są w kolekcji.

40
00:02:33,870 --> 00:02:35,520
Jaki mają związek?

41
00:02:35,520 --> 00:02:39,482
To pomaga naprawdę znaleźć inne rzeczy,
co jest naprawdę głównym celem tego.

42
00:02:39,482 --> 00:02:41,190
Punkt
Katalog metadanych oraz

43
00:02:41,190 --> 00:02:43,230
ma pomóc znaleźć wszystko
informacje, że to

44
00:02:43,230 --> 00:02:46,590
dostępne w ramach kolekcji.

45
00:02:46,590 --> 00:02:53,690
>> Jest to więc przykład metadanych
na książki w Bibliotece Harvarda.

46
00:02:53,690 --> 00:02:56,370
Więc to nie.

47
00:02:56,370 --> 00:02:59,850
I widać, że to
faktycznie umiarkowanie złożone.

48
00:02:59,850 --> 00:03:04,610
I część wartości metadanych
w ramach systemu Harvard Library

49
00:03:04,610 --> 00:03:09,320
jest, że to był porządek
budowy przez catalogers

50
00:03:09,320 --> 00:03:12,720
w wykonaniu ludzi stosujących
dużo wiedzy i umiejętności

51
00:03:12,720 --> 00:03:20,030
i myśli do niego w czasie,
która posiada wiele wartości.

52
00:03:20,030 --> 00:03:25,450
>> Więc jeśli spojrzeć na tym rekordzie
Alice przypisami, można się dowiedzieć,

53
00:03:25,450 --> 00:03:32,590
masz tytuł, który to napisał,
autorem i wszystkie inne tematy

54
00:03:32,590 --> 00:03:35,380
które ludzie skatalogowane go do.

55
00:03:35,380 --> 00:03:40,110
I można zobaczyć tam również, w
dodatek do wielu dobrych informacji

56
00:03:40,110 --> 00:03:42,852
tu jest jakaś powielania.

57
00:03:42,852 --> 00:03:45,560
Jest wiele złożoności to
odzwierciedlone poprzez metadanych

58
00:03:45,560 --> 00:03:46,300
że masz.

59
00:03:46,300 --> 00:03:50,320
>> Więc jeden tytuł tej książki jest
Alicja w Krainie Czarów.

60
00:03:50,320 --> 00:03:53,880
Więc to jest adnotacjami
wersja tej książki.

61
00:03:53,880 --> 00:03:56,380
Ale jest również nazywany Opatrzony uwagami
Alicja, Przygody Alicji

62
00:03:56,380 --> 00:03:58,570
w Krainie Czarów, ponieważ
to jest coś, co

63
00:03:58,570 --> 00:04:00,430
Martin Gardner napisał
i opatrzone książkę.

64
00:04:00,430 --> 00:04:03,369
I jest wiele wspaniałych informacji
o zagadek logicznych i rzeczy

65
00:04:03,369 --> 00:04:05,410
Alicja, która Ciebie terminie
prawdopodobnie nie wiedzieć.

66
00:04:05,410 --> 00:04:07,000
Należy więc zrób to.

67
00:04:07,000 --> 00:04:11,940
>> Ale widać nie ma
wiele szczegółów tutaj

68
00:04:11,940 --> 00:04:15,340
w tym identyfikatorów, kiedy go
został stworzony, skąd pochodzi,

69
00:04:15,340 --> 00:04:17,420
w odniesieniu do Harvard
System i tak dalej.

70
00:04:17,420 --> 00:04:20,350
Więc to jest próbka
rodzaj metadanych

71
00:04:20,350 --> 00:04:24,340
które można zobaczyć na książki w
Kolekcja Harvard Library.

72
00:04:24,340 --> 00:04:26,680
>> To jest coś zupełnie innego.

73
00:04:26,680 --> 00:04:32,610
Więc nie jest to system o nazwie
VIA Harvard, które w zasadzie

74
00:04:32,610 --> 00:04:39,990
jest katalogowanie zdjęć i przedmioty sztuki
i rzeczy wizualne całej Harvardzie,

75
00:04:39,990 --> 00:04:44,010
i dodając trochę metadanych
do nich, ich klasyfikacji,

76
00:04:44,010 --> 00:04:49,200
i, w pewnych przypadkach, zapewniając ochronną
małe miniatury

77
00:04:49,200 --> 00:04:51,250
które można podjąć
patrzeć jeśli sobie tego życzą.

78
00:04:51,250 --> 00:04:54,240
>> Więc jest przykładem
metadane, że masz na talerzu

79
00:04:54,240 --> 00:04:57,840
z, prawdopodobnie, Alicja w Krainie Czarów.

80
00:04:57,840 --> 00:05:00,499
I widać tam
mniej metadane tutaj.

81
00:05:00,499 --> 00:05:02,040
To jest po prostu inny rodzaj obiektu.

82
00:05:02,040 --> 00:05:03,425
A więc jest mniej informacji.

83
00:05:03,425 --> 00:05:07,790
>> Trzeba przede wszystkim fakt, że połączenia
Numer, który go stworzył w zasadzie -

84
00:05:07,790 --> 00:05:10,410
>> Nie wiemy, kiedy to został stworzony.

85
00:05:10,410 --> 00:05:13,320
>> --and tytuł.

86
00:05:13,320 --> 00:05:14,300
>> Innym przykładem.

87
00:05:14,300 --> 00:05:16,380
Jest to pomoc stwierdzenie.

88
00:05:16,380 --> 00:05:19,030
Więc nie zbiór Lewis
Dokumenty Carrolla na Harvardzie.

89
00:05:19,030 --> 00:05:23,601
Tak to opisuje co
jest w tej kolekcji.

90
00:05:23,601 --> 00:05:26,100
Więc ktoś przeszedł i
spojrzał na wszystkich polach

91
00:05:26,100 --> 00:05:32,220
i skatalogowane go, ponieważ niektóre tła,
pisemne podsumowanie tego, co tu jest.

92
00:05:32,220 --> 00:05:35,290
A jeśli było patrzeć
ponadto na tym, ten

93
00:05:35,290 --> 00:05:39,620
idzie do stron i stron
i stron, ale powie

94
00:05:39,620 --> 00:05:41,860
jakie litery i jakie
pochodzi z jakich polach

95
00:05:41,860 --> 00:05:44,289
istniały w całej kolekcji.

96
00:05:44,289 --> 00:05:46,330
Ale to jest coś
że jeśli jesteś na Harvardzie,

97
00:05:46,330 --> 00:05:50,720
możesz iść i faktycznie fizycznie wyglądać
i, przypuszczalnie, przyjrzeć.

98
00:05:50,720 --> 00:05:53,440
>> Więc to wszystko jest świetnie.

99
00:05:53,440 --> 00:05:54,450
Te metadane na użyteczne.

100
00:05:54,450 --> 00:05:56,327
To w systemie Harvard Library.

101
00:05:56,327 --> 00:05:58,910
Istnieją narzędzia online, gdzie cię
może pójść i spojrzeć na to,

102
00:05:58,910 --> 00:05:59,993
i zobaczyć, i poszukać go.

103
00:05:59,993 --> 00:06:02,810
I można go pokroić i kości
to w wielu różnych sposobów.

104
00:06:02,810 --> 00:06:06,920
>> Ale to naprawdę dostępne tylko wtedy, gdy
jesteś człowiek siadając

105
00:06:06,920 --> 00:06:12,600
w przeglądarce internetowej lub coś lub
telefon i nawigacja po nim.

106
00:06:12,600 --> 00:06:16,730
To naprawdę nie jest dostępny w
wszelkiego rodzaju mody użytkowej

107
00:06:16,730 --> 00:06:19,520
dla innych systemów lub
inne komputery w użyciu,

108
00:06:19,520 --> 00:06:21,500
nie z systemów w
Biblioteka Harvard,

109
00:06:21,500 --> 00:06:24,890
ale systemy w świecie zewnętrznym,
tylko innych ludzi w ogóle.

110
00:06:24,890 --> 00:06:30,210
Więc pytanie brzmi, jak możemy
udostępnić ją do komputerów

111
00:06:30,210 --> 00:06:33,560
tak, że możemy zrobić bardziej interesujące
rzeczy z nim nie tylko

112
00:06:33,560 --> 00:06:36,550
przeglądanie to sami?

113
00:06:36,550 --> 00:06:39,766
>> Więc dlaczego chcesz to zrobić?

114
00:06:39,766 --> 00:06:41,140
Istnieje wiele możliwości.

115
00:06:41,140 --> 00:06:43,980
Jeden to można zbudować zupełnie
inny sposób przeglądania

116
00:06:43,980 --> 00:06:46,962
treści, które jest dostępne
przez Bibliotek Harvard.

117
00:06:46,962 --> 00:06:48,670
Pokażę ci jeden
później zwany Stacklife,

118
00:06:48,670 --> 00:06:52,440
który ma zupełnie inny
podjąć szuka treści.

119
00:06:52,440 --> 00:06:54,560
>> Można zbudować silnik rekomendacji.

120
00:06:54,560 --> 00:06:57,955
Więc Harvard biblioteka nie jest w
Działalność mówiąc, chcesz tę książkę.

121
00:06:57,955 --> 00:07:01,080
Następnie przejdź spojrzeć na te 17 innych
książki, które mogą być zainteresowane

122
00:07:01,080 --> 00:07:03,200
czy te 18 innych obrazów.

123
00:07:03,200 --> 00:07:06,040
Ale to na pewno mógł
być cennym elementem.

124
00:07:06,040 --> 00:07:09,272
A biorąc pod metadane, może
można umieścić, że razem.

125
00:07:09,272 --> 00:07:11,980
Można mieć różne potrzeby w
warunki przeszukiwania zawartości,

126
00:07:11,980 --> 00:07:16,200
jak być może mimo narzędzi
są dostępne, które sprawia, że ​​biblioteki

127
00:07:16,200 --> 00:07:18,450
dostępna, możesz
wyszukiwanie w inny sposób

128
00:07:18,450 --> 00:07:21,847
lub optymalizacji dla konkretnego przypadku użycia,
który być może jest to bardzo wyspecjalizowane.

129
00:07:21,847 --> 00:07:23,930
Może to tylko niektóre
ludzi na świecie, którzy

130
00:07:23,930 --> 00:07:25,846
Aby przeszukać zawartość
W ten sposób, ale

131
00:07:25,846 --> 00:07:28,985
Byłoby wspaniale, gdybyśmy
może pozwolić im zrobić.

132
00:07:28,985 --> 00:07:30,860
Jest wiele analiz
w zaledwie, jak ludzi

133
00:07:30,860 --> 00:07:33,860
korzystać z zawartości, która byłaby naprawdę
Ciekawe informacje, dowiedzieć się,

134
00:07:33,860 --> 00:07:37,280
co książki są stosowane
co nie, i tak dalej.

135
00:07:37,280 --> 00:07:41,670
I jest jeszcze wiele
okazją do integracji

136
00:07:41,670 --> 00:07:45,210
z innymi informacjami
że gdzieś tam w internecie.

137
00:07:45,210 --> 00:07:46,880
Więc have--

138
00:07:46,880 --> 00:07:50,260
>> Na przykład, ma NPR
Segment recenzja książki,

139
00:07:50,260 --> 00:07:53,090
gdzie wywiad
Autorzy o książkach.

140
00:07:53,090 --> 00:07:56,837
I tak byłoby wspaniale, gdybyś
patrząc na książkę w Harvardzie

141
00:07:56,837 --> 00:07:59,670
Biblioteka, a ty mówisz, OK, nie ma
był wywiad z autorem.

142
00:07:59,670 --> 00:08:00,878
Chodźmy spojrzeć na to.

143
00:08:00,878 --> 00:08:05,461
Albo istnieje strona Wikipedii, jak
wiarygodne, naukowe odniesienia

144
00:08:05,461 --> 00:08:07,710
o tej książce, że cię
może chcesz przyjrzeć.

145
00:08:07,710 --> 00:08:12,600
>> Są te typy źródeł
rozproszone w całej sieci.

146
00:08:12,600 --> 00:08:16,555
I łącząc je
może być bardzo przydatne

147
00:08:16,555 --> 00:08:18,930
do kogoś, patrząc na
Zawartość, szukając czegoś.

148
00:08:18,930 --> 00:08:20,180
Ale to nie jest również
Takie rzeczy TY

149
00:08:20,180 --> 00:08:23,205
chcą być odpowiedzialne biblioteki
na zejście i polowaniem na

150
00:08:23,205 --> 00:08:25,455
wszystkie te różne źródła
i podłączyć je razem

151
00:08:25,455 --> 00:08:28,920
ponieważ są one zmianie w sposób ciągły.

152
00:08:28,920 --> 00:08:33,570
A co jest dla nich ważne, może,
Nie jest to, co uważasz za ważne.

153
00:08:33,570 --> 00:08:36,929
>> A nawet więcej, w zasadzie nie ma
Wiele rzeczy nie pomyślał jeszcze.

154
00:08:36,929 --> 00:08:42,222
Tak więc, jeśli możemy to otworzyć się bardziej
osób oprócz pół kilkunastu,

155
00:08:42,222 --> 00:08:45,174
którzy patrzą na to w
regularny można myśleć o idei

156
00:08:45,174 --> 00:08:47,340
i masażu danych, a
robić, co chcą z nim.

157
00:08:47,340 --> 00:08:49,920

158
00:08:49,920 --> 00:08:54,045
>> Dlatego chcemy, aby ten
Dane dostępne dla świata.

159
00:08:54,045 --> 00:08:55,670
Cóż, jest kilka komplikacji.

160
00:08:55,670 --> 00:08:58,540
Jednym z nich jest, że tym metadanych
w różnych systemach.

161
00:08:58,540 --> 00:09:01,110
To w różnych formatach.

162
00:09:01,110 --> 00:09:04,719
Więc jest jakaś normalizacja
które musi się zdarzyć,

163
00:09:04,719 --> 00:09:08,010
której normalizacja jest procesem
przynosząc rzeczy z różnych formatach

164
00:09:08,010 --> 00:09:12,940
i określania na ich do jednego formatu
tak, że pola będą się zgadzać.

165
00:09:12,940 --> 00:09:15,160
>> Istnieją pewne ograniczenia dotyczące praw autorskich.

166
00:09:15,160 --> 00:09:21,010
Co dziwne, wpis do katalogu
o książki ponosi odpowiedzialności za prawa autorskie.

167
00:09:21,010 --> 00:09:24,060
Więc nawet jeśli jest to tylko
Informacje pochodzą z książki,

168
00:09:24,060 --> 00:09:25,330
to ochronie prawnoautorskiej.

169
00:09:25,330 --> 00:09:28,400
I w zależności od osoby, która je
stworzony, że metadane,

170
00:09:28,400 --> 00:09:32,175
nie może podlegać ograniczeniom kto
Można go rozpowszechniać, podobnie to--

171
00:09:32,175 --> 00:09:33,402
>> Nie wiem.

172
00:09:33,402 --> 00:09:36,110
Może lub nie może być podobna do
Sytuacja tekstów piosenek z,

173
00:09:36,110 --> 00:09:36,610
na przykład.

174
00:09:36,610 --> 00:09:38,560
Wszyscy wiemy, jak to przesuwa się.

175
00:09:38,560 --> 00:09:40,450
Więc trzeba się poruszać tej kwestii.

176
00:09:40,450 --> 00:09:44,910
>> A potem jeszcze kawałek jest
że istnieje wiele danych.

177
00:09:44,910 --> 00:09:52,420
Więc jeśli jestem kimś, kto chce pracować
z danymi lub ma fajny pomysł,

178
00:09:52,420 --> 00:09:55,350
do czynienia z 14 mln
Zapisy na moim laptopie

179
00:09:55,350 --> 00:09:57,487
może być problematyczne
i trudne do zarządzania.

180
00:09:57,487 --> 00:09:59,320
Dlatego chcemy, aby zmniejszyć
bariery dla ludzi

181
00:09:59,320 --> 00:10:02,130
aby móc pracować z danymi.

182
00:10:02,130 --> 00:10:07,880
>> Tak więc podejście, które miejmy nadzieję, adresy
wszystkie z tych problemów jest z dwóch części.

183
00:10:07,880 --> 00:10:11,770
Jednym z nich jest budowa platformy, która trwa
Dane ze wszystkich tych różnorodnych źródeł

184
00:10:11,770 --> 00:10:14,350
i pogłębia ją, normalizuje,
wzbogaca go i sprawia,

185
00:10:14,350 --> 00:10:16,650
jest dostępne w jednym miejscu.

186
00:10:16,650 --> 00:10:20,950
I to sprawia, że ​​jest dostępny przez
API publicznej, że ludzie mogą dzwonić.

187
00:10:20,950 --> 00:10:24,430
>> Więc API aplikacji
Programming Interface.

188
00:10:24,430 --> 00:10:28,930
I to w zasadzie odnosi się do
Punkt końcowy, że system lub technologii

189
00:10:28,930 --> 00:10:31,720
Można zadzwonić i uzyskać dane z powrotem w
Format zorganizowany w taki sposób,

190
00:10:31,720 --> 00:10:32,900
które mogą zostać użyte.

191
00:10:32,900 --> 00:10:36,060
Więc to nie jest zależne
się dzieje na stronie

192
00:10:36,060 --> 00:10:37,970
i skrobanie danych off
z tym, na przykład.

193
00:10:37,970 --> 00:10:40,690

194
00:10:40,690 --> 00:10:45,010
>> Więc to jest strona główna
Biblioteka Chmura Pozycja API,

195
00:10:45,010 --> 00:10:47,220
która jest w zasadzie jego wersję dwa.

196
00:10:47,220 --> 00:10:50,130
Więc to druga odsłona
starając się wszystkich tych danych

197
00:10:50,130 --> 00:10:53,280
dostępna na świecie.

198
00:10:53,280 --> 00:10:59,560
Więc to jest
http://api.lib.harvard.edu/v2/items.

199
00:10:59,560 --> 00:11:03,830
I po prostu podzielenie go
trochę, co to oznacza

200
00:11:03,830 --> 00:11:06,115
jest to, że jest to wersja dwóch API.

201
00:11:06,115 --> 00:11:08,490
Jest to wersja jednego, które
Nie będę mówić.

202
00:11:08,490 --> 00:11:09,750
Ale nie jest to wersja jednego.

203
00:11:09,750 --> 00:11:14,740
>> A jeśli dzwonisz to
API, dostajesz rzeczy.

204
00:11:14,740 --> 00:11:20,640
I część idei
API API jest umowa.

205
00:11:20,640 --> 00:11:23,440
To coś, co jest
nie zamierza zmieniać.

206
00:11:23,440 --> 00:11:24,850
Tak na przykład, -

207
00:11:24,850 --> 00:11:27,410
>> A powodem jest to, że jeśli
zbudować jakiś system, który

208
00:11:27,410 --> 00:11:33,210
będzie korzystać z chmury biblioteki API
do wyświetlania książek lub pomóc ludziom znaleźć

209
00:11:33,210 --> 00:11:36,190
Informacje w unikalny sposób,
to, czego nie chcą się zdarzyć

210
00:11:36,190 --> 00:11:38,940
jest dla nas, aby go zmienić sposób
że API działa i nagle

211
00:11:38,940 --> 00:11:41,340
wszystko łamie się na stronie użytkownika końcowego.

212
00:11:41,340 --> 00:11:46,710
Więc część jeśli robisz API
dostępne dla świata, to

213
00:11:46,710 --> 00:11:49,396
dobra praktyka, aby umieścić
Numer wersji, w tym tak ludzi

214
00:11:49,396 --> 00:11:51,020
znać wersję mają do czynienia.

215
00:11:51,020 --> 00:11:54,300
>> Jeśli więc zdecydujesz się znaleźć lepszy sposób
udostępnienia tych informacji,

216
00:11:54,300 --> 00:11:57,295
może to zmienić, aby
nazywają tę wersję trzy.

217
00:11:57,295 --> 00:11:59,920
Więc każdy, kto jest wciąż przy
Wersja dwa, że ​​będzie nadal działać.

218
00:11:59,920 --> 00:12:03,490
Ale wersja trzech będzie
mieć wszystkie nowe rzeczy.

219
00:12:03,490 --> 00:12:06,680

220
00:12:06,680 --> 00:12:09,210
>> Więc to jest API, ale to
naprawdę wygląda URL.

221
00:12:09,210 --> 00:12:11,680
I tak, co to jest
Przykładem jest to, co jest

222
00:12:11,680 --> 00:12:16,615
nazywa API odpoczynek, który jest dostępny
w ciągu zaledwie regularnego połączenia internetowego.

223
00:12:16,615 --> 00:12:19,680
I można naprawdę
przejdź do niej w przeglądarce.

224
00:12:19,680 --> 00:12:28,550
>> Więc ja właśnie otworzył Firefox i
poszedł do api.lib.harvard.edu/v2/items.

225
00:12:28,550 --> 00:12:31,560
A więc to, co mam tutaj jest
w zasadzie pierwsza strona

226
00:12:31,560 --> 00:12:34,740
wyników z całego
zestaw elementów, które mamy.

227
00:12:34,740 --> 00:12:37,460
I to jest tutaj w formacie XML.

228
00:12:37,460 --> 00:12:40,130

229
00:12:40,130 --> 00:12:42,210
I to również
prettified przez Firefoksa.

230
00:12:42,210 --> 00:12:45,850
To w rzeczywistości nie mają wszystkie te
Trochę rozszerzanie i kurczenie

231
00:12:45,850 --> 00:12:47,880
doohickeys tutaj.

232
00:12:47,880 --> 00:12:52,520
Jest to rodzaj ładniejszy
Wersja sposób na to patrzeć.

233
00:12:52,520 --> 00:12:57,040
>> Ale co to mówi nam jest
Ja o wszystkie elementy.

234
00:12:57,040 --> 00:13:03,120
Tak więc istnieją 13.289.475 szt.

235
00:13:03,120 --> 00:13:06,150
I czekam na pierwsze
10, począwszy od pozycji zerowej

236
00:13:06,150 --> 00:13:09,760
ponieważ w informatyce
zawsze zaczynają się od zera.

237
00:13:09,760 --> 00:13:15,150
I co mam tutaj, jeśli po prostu zwinąć
to zobaczysz Mam 10 pozycji.

238
00:13:15,150 --> 00:13:20,410

239
00:13:20,410 --> 00:13:25,210
>> A jeśli spojrzeć na pozycji, mogę
zobaczyć, że mam informacji na ten temat.

240
00:13:25,210 --> 00:13:27,400
I to jest to, co się nazywa forma MODS.

241
00:13:27,400 --> 00:13:30,860
I tak mam zamiar przełączyć
z powrotem tutaj na chwilę.

242
00:13:30,860 --> 00:13:33,750
OK.

243
00:13:33,750 --> 00:13:37,447
>> Warto więc szukać czegoś w
specyficzne, ponieważ pierwszy element, który

244
00:13:37,447 --> 00:13:40,030
dzieje się wymyślić, jeśli spojrzeć
przez całą kolekcję

245
00:13:40,030 --> 00:13:41,750
Jest z definicji losowy.

246
00:13:41,750 --> 00:13:44,550
Więc spójrzmy na kilka pączków.

247
00:13:44,550 --> 00:13:46,830
Och.

248
00:13:46,830 --> 00:13:49,190
>> OK.

249
00:13:49,190 --> 00:13:49,940
Więc pączki.

250
00:13:49,940 --> 00:13:55,360
Więc znaleźliśmy znajduje się 80 pozycje
zbiór wzorcowych pączki.

251
00:13:55,360 --> 00:13:57,150
Patrzymy na pierwsze 10 z nich.

252
00:13:57,150 --> 00:14:01,890
Teraz można zobaczyć tutaj sposób, że
Powiedziałem Szukam pączki,

253
00:14:01,890 --> 00:14:04,400
Właśnie dodałem coś do
łańcuch zapytania z adresu URL.

254
00:14:04,400 --> 00:14:09,680
Więc q jest równa pączki, które można
zobaczyć trochę łatwiej tutaj.

255
00:14:09,680 --> 00:14:12,131
>> I to w zasadzie oznacza, że ​​jest
spec dla API, które

256
00:14:12,131 --> 00:14:13,880
definiuje wszystkie
parametry te myśli.

257
00:14:13,880 --> 00:14:17,150
A to oznacza, że ​​będziemy
szukaj wszystko na pączki.

258
00:14:17,150 --> 00:14:24,910
>> Więc pierwszej pozycji mamy tutaj
widać tytuł jest Donuts,

259
00:14:24,910 --> 00:14:29,310
i nie ma napisów nazwie
Amerykańska Pasja, która jest, jak sądzę,

260
00:14:29,310 --> 00:14:31,610
właściwe.

261
00:14:31,610 --> 00:14:36,134
Istnieje wiele different--

262
00:14:36,134 --> 00:14:38,050
Gdy dojdziesz do punktu,
uzyskiwania danych,

263
00:14:38,050 --> 00:14:41,020
istnieje wiele różnych
Formaty, które można dostać go w.

264
00:14:41,020 --> 00:14:44,050
I istnieją różne atuty
i słabości na wszystkie z nich.

265
00:14:44,050 --> 00:14:49,000
Więc ten jeden, można zobaczyć
tutaj, ta forma jest bardzo bogata.

266
00:14:49,000 --> 00:14:51,946
I to jest znormalizowana.

267
00:14:51,946 --> 00:14:55,040
>> Więc nie ma specyficzny tytuł
pole, pole napisów.

268
00:14:55,040 --> 00:14:58,950
Istnieje alternatywna
Tytuł, amerykański Passion.

269
00:14:58,950 --> 00:15:01,650
Nie jest to nazwa związana z nim.

270
00:15:01,650 --> 00:15:03,120
Typ zasobu jest tekst.

271
00:15:03,120 --> 00:15:06,070
Istnieje wiele informacji
tu w tym formacie.

272
00:15:06,070 --> 00:15:09,480
>> Ale istnieje kilka
z różnych formatów.

273
00:15:09,480 --> 00:15:11,920
Więc co my właśnie
patrząc na to format

274
00:15:11,920 --> 00:15:17,700
zwane MODS, co oznacza
Metadane obiektu Opis usługi,

275
00:15:17,700 --> 00:15:18,250
potencjalnie.

276
00:15:18,250 --> 00:15:23,030
Jestem naprawdę nie do końca pewny
S. Ale to dość skomplikowany format.

277
00:15:23,030 --> 00:15:24,240
Jest to domyślny format.

278
00:15:24,240 --> 00:15:30,260
>> Ale jest jeden, który utrzymuje
Bogactwo wszystkich danych

279
00:15:30,260 --> 00:15:33,820
że biblioteka ma powodu
to jest bardzo blisko tego, co

280
00:15:33,820 --> 00:15:35,110
Biblioteka korzysta wewnętrznie.

281
00:15:35,110 --> 00:15:39,030
To standard, który jest
używane w całym kraju,

282
00:15:39,030 --> 00:15:40,944
na całym świecie w bibliotekach akademickich.

283
00:15:40,944 --> 00:15:42,110
I to jest bardzo interoperacyjne.

284
00:15:42,110 --> 00:15:44,852
Więc jeśli masz dokument
że jest w formacie MODS,

285
00:15:44,852 --> 00:15:47,560
można podać, że do kogoś innego
których systemy zrozumieć, MODS,

286
00:15:47,560 --> 00:15:48,518
i można je importować.

287
00:15:48,518 --> 00:15:50,840
Więc jest to standardem.

288
00:15:50,840 --> 00:15:54,250
Jest bardzo dobrze zdefiniowany, bardzo specyficzne.

289
00:15:54,250 --> 00:15:58,980
I to jest to, co sprawia, że
interoperacyjne, bo jeśli ktoś mówi,

290
00:15:58,980 --> 00:16:04,930
jest to alternatywny tytuł
Rekord, każdy wie, co to oznacza.

291
00:16:04,930 --> 00:16:07,740
Z drugiej strony, jest to bardzo skomplikowane.

292
00:16:07,740 --> 00:16:13,160
>> Więc jeśli spojrzeć
na tej płycie tutaj

293
00:16:13,160 --> 00:16:15,320
jeśli po prostu chcesz otrzymać
Tytuł tego dokumentu,

294
00:16:15,320 --> 00:16:21,150
tej książki, która jest prawdopodobnie Donuts,
Amerykańska Pasja, analizowania go

295
00:16:21,150 --> 00:16:22,940
jest trochę zaangażować.

296
00:16:22,940 --> 00:16:27,380
Zważywszy, że nie ma innego
Format nazywa Dublin Core,

297
00:16:27,380 --> 00:16:29,730
co jest o wiele, wiele prostsze Format.

298
00:16:29,730 --> 00:16:33,764
>> I tak tu widzisz, nie ma
tytuł, podtytuł, zastępca tytuł.

299
00:16:33,764 --> 00:16:35,930
Jest tylko tytuł,
Pączki, amerykański Pasja,

300
00:16:35,930 --> 00:16:38,780
i kolejny tytuł, amerykański Passion.

301
00:16:38,780 --> 00:16:42,907
Więc kiedy szukasz w jakiej formie
Aby uzyskać dane z,

302
00:16:42,907 --> 00:16:44,740
Wiele zależy od tego, jak
masz zamiar go używać.

303
00:16:44,740 --> 00:16:46,573
Czy używasz do
interoperacyjności czy też

304
00:16:46,573 --> 00:16:49,970
chcesz coś prostego, że
Może być łatwiej pracować?

305
00:16:49,970 --> 00:16:56,002
>> Z drugiej strony, wiele
szczegóły dostają jakby spłaszczony w dół.

306
00:16:56,002 --> 00:16:58,460
Możesz stracić niuanse
co za szczególne środki polowe

307
00:16:58,460 --> 00:17:02,960
jeśli masz do czynienia z Dublin Core,
których nie dałoby się z MODS.

308
00:17:02,960 --> 00:17:06,462
To są dwa formaty
można dostać się z API.

309
00:17:06,462 --> 00:17:08,920
A w zasadzie, trzymamy
że za kulisami w MODS.

310
00:17:08,920 --> 00:17:14,179
Ale możemy dać ci to w modach i
Dublin Core i coś jeszcze.

311
00:17:14,179 --> 00:17:16,470
Inne korzyści, gdy
szukasz w danych

312
00:17:16,470 --> 00:17:21,210
to można je dostać zarówno jako JSON, który
oznacza JavaScript Object Notation,

313
00:17:21,210 --> 00:17:24,720
lub XML, co oznacza
Extensible Markup Language.

314
00:17:24,720 --> 00:17:30,080
I oba te reprezentacje danych
mają dokładnie te same dane, dokładnie

315
00:17:30,080 --> 00:17:31,080
te same pola.

316
00:17:31,080 --> 00:17:33,644
Ale to po prostu
składniowo inaczej.

317
00:17:33,644 --> 00:17:40,401
>> Więc to jest A--

318
00:17:40,401 --> 00:17:41,400
No cóż, po prostu przełączyć.

319
00:17:41,400 --> 00:17:47,490
Więc to jest nasze zapytanie do
pączki w formacie XML.

320
00:17:47,490 --> 00:17:53,470
Jeśli po prostu przełączyć to za JSON,
Widzę, że wygląda inaczej.

321
00:17:53,470 --> 00:17:58,580
Więc teraz jest to ta sama treść,
ale inna konstrukcja.

322
00:17:58,580 --> 00:18:00,080
Jest mniej nawiasy.

323
00:18:00,080 --> 00:18:02,530
Jest mniej gadatliwe.

324
00:18:02,530 --> 00:18:06,440
>> I jest to format, który, jeśli Ciebie
pracy w środowisku sieciowym,

325
00:18:06,440 --> 00:18:09,680
jesteś najprawdopodobniej będzie
aby użyć, ponieważ jednym

326
00:18:09,680 --> 00:18:12,630
z miłych rzeczy o JSON jest
jest to zgodne z JavaScript.

327
00:18:12,630 --> 00:18:17,680
Więc jeśli piszę aplikację internetową, mogę wyciągnąć
JSON i po prostu pracować z nim bezpośrednio.

328
00:18:17,680 --> 00:18:20,187
Podczas gdy z XML, to
trochę bardziej skomplikowane.

329
00:18:20,187 --> 00:18:21,520
Ponownie więc, obie są użyteczne.

330
00:18:21,520 --> 00:18:26,387
Oni po prostu są różne przypadki użycia
gdzie ludzie mogą chcieć z nich skorzystać.

331
00:18:26,387 --> 00:18:26,886
OK.

332
00:18:26,886 --> 00:18:29,810

333
00:18:29,810 --> 00:18:31,680
Wracając do API.

334
00:18:31,680 --> 00:18:32,900
Więc możemy szukać for--

335
00:18:32,900 --> 00:18:36,220
>> I dać przykład
szukając pączków.

336
00:18:36,220 --> 00:18:39,330
Możemy również szukać tylko w
szczególności pola w tutaj.

337
00:18:39,330 --> 00:18:41,310
Więc zamiast szukać
Cała płyta,

338
00:18:41,310 --> 00:18:43,870
Mogę tylko szukaj w polu nazwy.

339
00:18:43,870 --> 00:18:48,810
A więc teraz jest 25 rzeczy, które
mają pączki w tytule, z których jeden

340
00:18:48,810 --> 00:18:52,430
jest o przywrócenie
mokradeł w zarządzaniu

341
00:18:52,430 --> 00:18:54,990
odwiertu w pączka
Program, który jest zapewne

342
00:18:54,990 --> 00:18:58,970
niekoniecznie to, czego szukamy
na kiedy szukasz pączki.

343
00:18:58,970 --> 00:19:02,790

344
00:19:02,790 --> 00:19:05,490
>> Można także, gdy jesteś
czynienia z API--

345
00:19:05,490 --> 00:19:08,827
>> Części posiadające API daje
ludziom dostęp do dużych zbiorów danych.

346
00:19:08,827 --> 00:19:11,410
I istnieje kilka różne
Narzędzia można użyć, aby to zrobić.

347
00:19:11,410 --> 00:19:14,170
Jednym z nich jest, w bardzo prosty sposób, można
można przewijać danych.

348
00:19:14,170 --> 00:19:17,340
Więc tak jakby zrobić kwerendę
przez interfejs WWW,

349
00:19:17,340 --> 00:19:19,470
można spojrzeć na pierwszej stronie,
Strona dwa, strona trzy.

350
00:19:19,470 --> 00:19:22,040
Możesz zrobić to samo
rzeczą poprzez API.

351
00:19:22,040 --> 00:19:24,150
Wystarczy być
wyraźnie, w jaki sposób to zrobić.

352
00:19:24,150 --> 00:19:29,511
>> Tak na przykład, jeśli szukam
co tu mojego pierwszego zapytania,

353
00:19:29,511 --> 00:19:32,510
gdzie robię poszukiwania rzeczy
z pączków w tytule, mogę powiedzieć,

354
00:19:32,510 --> 00:19:35,415
a graniczny wynosi 20, co oznacza,
daj mi pierwsze 20 rekordów, nie

355
00:19:35,415 --> 00:19:38,540
Pierwszy 10, który jest domyślny,
bo chcę patrzeć na 20 na raz.

356
00:19:38,540 --> 00:19:43,435
Albo można powiedzieć, ustawić
rozpocznie równa 20 i limitu

357
00:19:43,435 --> 00:19:47,150
równe 20, co da
mi 21 do 40 rejestruje.

358
00:19:47,150 --> 00:19:52,680
>> Sądzę więc, że rzeczy
zabrać tutaj jest

359
00:19:52,680 --> 00:19:57,290
że używamy ciągów zapytania
ustawić parametry na zapytanie.

360
00:19:57,290 --> 00:20:02,760
I to pozwala na kontrolę
czego wrócić.

361
00:20:02,760 --> 00:20:05,980
>> Innym narzędziem, które można wykorzystać, -

362
00:20:05,980 --> 00:20:09,250
>> I to jest bardzo pomocne w
Warunki odkrywania danych.

363
00:20:09,250 --> 00:20:10,840
>> --is coś o nazwie faceting.

364
00:20:10,840 --> 00:20:15,530
Więc faceting termin jest
niekoniecznie wspólnego.

365
00:20:15,530 --> 00:20:16,880
Ale już wszystko widziałem go wcześniej.

366
00:20:16,880 --> 00:20:18,630
Jeśli spojrzeć na
Amazon np

367
00:20:18,630 --> 00:20:20,870
i nie szukaj
pączki w księgach,

368
00:20:20,870 --> 00:20:27,080
tutaj, że mam serię książek,
i są one pogrupowane według kategorii,

369
00:20:27,080 --> 00:20:30,470
i dostać się na różne kategorie,
i jak wiele książek w każdej kategorii

370
00:20:30,470 --> 00:20:31,330
pokazać.

371
00:20:31,330 --> 00:20:33,420
>> Tak to jest w zasadzie facet.

372
00:20:33,420 --> 00:20:37,570
Weź wszystkie swoje książki, 1800
książki pasujących pączki w Amazon.

373
00:20:37,570 --> 00:20:39,820
12 z nich znajduje się w
Kategoria śniadanie.

374
00:20:39,820 --> 00:20:43,100
21 w cieście i pieczenia,
i tak dalej, i tak dalej.

375
00:20:43,100 --> 00:20:47,670
>> Więc to jest naprawdę przydatne
Narzędzie do odkrywania treści

376
00:20:47,670 --> 00:20:53,260
w bibliotece, a także
bo jeśli spojrzeć na aspekt,

377
00:20:53,260 --> 00:20:56,520
to daje wyobrażenie o tym, co poddaje
istnieje, jak to, co rodzajów przedmiotów

378
00:20:56,520 --> 00:20:58,510
są najbardziej popularne w swoim zestawie zapytania.

379
00:20:58,510 --> 00:21:00,950
A to pomaga odpędzić i zbadać.

380
00:21:00,950 --> 00:21:02,770
Tak więc możemy zrobić to samo.

381
00:21:02,770 --> 00:21:05,940
>> Jeśli chcemy użyć
API i spojrzeć na aspekty,

382
00:21:05,940 --> 00:21:08,950
możemy dodać kolejny parametr do
nasz przyjaciel znaków zapytania.

383
00:21:08,950 --> 00:21:12,540
Więc aspektów równa oddzielone przecinkami
lista tego, co chcemy Facet na.

384
00:21:12,540 --> 00:21:14,790
Tak więc jednym z aspektów, może podlegać.

385
00:21:14,790 --> 00:21:16,565
Innym może być język.

386
00:21:16,565 --> 00:21:19,665
I tak, jeśli prowadzimy tę kwerendę, że get--

387
00:21:19,665 --> 00:21:23,372

388
00:21:23,372 --> 00:21:24,830
Wygląda prawie tak samo tutaj.

389
00:21:24,830 --> 00:21:29,010
Ale dodaliśmy do końca
listy zestaw aspektów.

390
00:21:29,010 --> 00:21:34,060
Mamy więc aspekt nazwie tematu.

391
00:21:34,060 --> 00:21:40,250
Więc to mówi nam, że kiedy patrzę
na moje 80 wyników z zapytania pączka,

392
00:21:40,250 --> 00:21:42,100
13 z nich
narażać Stany Zjednoczone.

393
00:21:42,100 --> 00:21:43,684
Trzy mają podlegające pączki.

394
00:21:43,684 --> 00:21:45,600
Trzy ma tematu
rekultywacji terenów podmokłych,

395
00:21:45,600 --> 00:21:47,720
które mogą być naszym dziura w pączek.

396
00:21:47,720 --> 00:21:51,780
Dwa z nich, The Simpsons,
i tak dalej, i tak dalej.

397
00:21:51,780 --> 00:21:59,211
>> Więc może to być przydatne, jeśli Ciebie
Aby zawęzić wyszukiwanie.

398
00:21:59,211 --> 00:22:00,210
To może pomóc zrobić.

399
00:22:00,210 --> 00:22:03,580
Zwłaszcza jeśli masz
więcej niż, powiedzmy, 80 wyników.

400
00:22:03,580 --> 00:22:05,980
>> Podobnie, również poprosił
na aspektach na języku.

401
00:22:05,980 --> 00:22:14,790
Więc jeśli spojrzymy na nasze wyniki, widzimy 76
z nich są w języku angielskim, cztery w języku francuskim,

402
00:22:14,790 --> 00:22:19,620
dwa w języku hiszpańskim, dwa, myślę, że to
nieokreślone lub nieznane, holenderski i łacina.

403
00:22:19,620 --> 00:22:22,830
Więc myślę, że z łaciny
Wynik pączki, znowu,

404
00:22:22,830 --> 00:22:24,922
nie ma nic wspólnego z pieczywa.

405
00:22:24,922 --> 00:22:25,630
Ale tam.

406
00:22:25,630 --> 00:22:31,420

407
00:22:31,420 --> 00:22:38,630
>> Więc to jest jakby pokazując,
jak można wyciągnąć zawartość z powrotem

408
00:22:38,630 --> 00:22:41,270
z API tylko poprzez
przeglądarka internetowa, która jest świetna.

409
00:22:41,270 --> 00:22:44,320
Ale to naprawdę nie jest to, co będzie
zwykle przy użyciu API dla niego.

410
00:22:44,320 --> 00:22:48,710
Więc jeden z przykładów, w jaki sposób
może faktycznie to mam

411
00:22:48,710 --> 00:22:54,720
napisane bardzo mały program,
które znów moje wyszukiwanie pączka

412
00:22:54,720 --> 00:22:59,010
i wybiera pola kilka
i wyświetla je w tabeli.

413
00:22:59,010 --> 00:23:01,610
Więc to jest bardzo
sama treść, że po prostu

414
00:23:01,610 --> 00:23:04,830
Piła z kilkoma polami wyciągnął.

415
00:23:04,830 --> 00:23:12,090
Więc listy tytułów, na
lokalizacja jakiej książce

416
00:23:12,090 --> 00:23:15,120
jest o, język,
i tak dalej, i tak dalej.

417
00:23:15,120 --> 00:23:20,480
>> Więc jak to się właściwie stało, gdyż
Myślę, że musimy patrzeć na niektóre kodu,

418
00:23:20,480 --> 00:23:22,420
is--

419
00:23:22,420 --> 00:23:28,060
>> Mamy tu jest prosty HTML
strona, która wyświetla tekst,

420
00:23:28,060 --> 00:23:32,900
Zapraszamy do biblioteki i chmury
następnie wyświetla tabelę wyników.

421
00:23:32,900 --> 00:23:37,790
I są oczywiście nie ma żadnych wyników w
Stół, gdy strona jest ładowany.

422
00:23:37,790 --> 00:23:41,380
Ale co robimy
Jest to przede wszystkim,

423
00:23:41,380 --> 00:23:46,290
ładowania biblioteki o nazwie
jQuery, która jest w zasadzie

424
00:23:46,290 --> 00:23:52,030
biblioteka JavaScript, która sprawia, że
bardzo łatwe do manipulowania JavaScript

425
00:23:52,030 --> 00:23:58,780
natywnie, HTML i tworzenie stron internetowych,
logiki po stronie klienta i stron internetowych.

426
00:23:58,780 --> 00:24:01,595
>> Więc co tu mamy to jQuery
ma metodę o nazwie Wirtualny,

427
00:24:01,595 --> 00:24:05,270
które zasadniczo trafi do
URL, który w tym przypadku

428
00:24:05,270 --> 00:24:09,070
jest to znajomy szuka URL.

429
00:24:09,070 --> 00:24:14,440
A następnie uzyskać zawartość z
że adres URL, a następnie uruchom funkcję na nim.

430
00:24:14,440 --> 00:24:19,240
Więc powiedział przejść do api.lib.harvard / edu.

431
00:24:19,240 --> 00:24:20,060
Szukaj na pączki.

432
00:24:20,060 --> 00:24:21,300
Daj nam 20 rekordów.

433
00:24:21,300 --> 00:24:28,590
A następnie uruchomić tę funkcję, która
Wybrałem, przekazując jej dane.

434
00:24:28,590 --> 00:24:34,430
I danych JSON, że
ale wrócił z API.

435
00:24:34,430 --> 00:24:40,120
>> I wtedy mówimy, że w ciągu
Dane istnieje pole o nazwie poz.

436
00:24:40,120 --> 00:24:48,117
A jeśli pójdę spojrzeć wstecz na
jeden z tych wyników, że jest tutaj,

437
00:24:48,117 --> 00:24:49,200
jest coś called--

438
00:24:49,200 --> 00:24:50,220
>> Cóż, to się nazywa poz.

439
00:24:50,220 --> 00:24:53,520
Tak, że może być to.

440
00:24:53,520 --> 00:25:01,840
A co robi jest to
przechodzi każdej pozycji

441
00:25:01,840 --> 00:25:05,300
a następnie wywołuje kolejny
Funkcja na każdej pozycji.

442
00:25:05,300 --> 00:25:08,440
I to w zasadzie funkcję
bierze wartość

443
00:25:08,440 --> 00:25:12,010
elementu, który jest
zasadniczo indywidualny zapis

444
00:25:12,010 --> 00:25:18,220
i pozwala nam wyciągnąć tytuł,
zakres i język.

445
00:25:18,220 --> 00:25:21,640
>> Tak nazywamy funkcję dla każdego
poz, że wróciliśmy z API.

446
00:25:21,640 --> 00:25:25,397
I jeśli tylko spojrzeć
w tym kawałku tutaj,

447
00:25:25,397 --> 00:25:27,230
to, co robimy jest
tworzymy ciąg,

448
00:25:27,230 --> 00:25:31,810
która jest w zasadzie niektóre znaczniki HTML
przy stole, z value.title,

449
00:25:31,810 --> 00:25:35,790
który to tytuł
Obiekt, value.coverage,

450
00:25:35,790 --> 00:25:36,790
co jest zasięg, -

451
00:25:36,790 --> 00:25:38,225
>> I robimy test
tutaj, aby zobaczyć, kto jest niezdefiniowane

452
00:25:38,225 --> 00:25:40,570
i ukrywanie go, jeśli mówi undefined
dlatego, że nie jesteśmy zainteresowani

453
00:25:40,570 --> 00:25:41,600
w tym.

454
00:25:41,600 --> 00:25:42,939
>> --and to język.

455
00:25:42,939 --> 00:25:44,730
I co wtedy jesteśmy
robi jest dodanie, że

456
00:25:44,730 --> 00:25:48,510
w tabeli, który jest
zidentyfikowane przez ten ciąg tutaj.

457
00:25:48,510 --> 00:25:50,790
A jak działa jQuery
to co to mówi

458
00:25:50,790 --> 00:25:56,420
jest spojrzeć na tabelę z pomysłem
Wyniki i dodać ten tekst do niego.

459
00:25:56,420 --> 00:25:59,380
I to jest tabela z wynikami pomysł.

460
00:25:59,380 --> 00:26:04,998
Więc co w końcu
z tej strony jest tutaj.

461
00:26:04,998 --> 00:26:06,206
I aby zobaczyć source--

462
00:26:06,206 --> 00:26:11,310

463
00:26:11,310 --> 00:26:13,810
Cóż, nie jest w rzeczywistości źródłem
aktualizowany, gdy to się stało.

464
00:26:13,810 --> 00:26:18,740
Więc widać, rzeczywista
Wyniki tabeli tutaj mimo.

465
00:26:18,740 --> 00:26:24,770
>> Więc to tylko prosty przykład
robi bardzo podstawowe zapytanie do API

466
00:26:24,770 --> 00:26:29,020
oraz wyświetlanie innych informacji, w niektórych
tworzyć i nic nie robić zbyt fantazyjne.

467
00:26:29,020 --> 00:26:36,370
Teraz, kolejnym przykładem jest jak
Aplikacja napisana przez David Weinberger

468
00:26:36,370 --> 00:26:39,120
jako demo tego, co
zasadniczo pokazuje,

469
00:26:39,120 --> 00:26:44,620
jak można rozgnieść się wyniki, które Cię
się z biblioteki API cloud

470
00:26:44,620 --> 00:26:46,250
z, powiedzmy, Google Books.

471
00:26:46,250 --> 00:26:52,225
>> A myślenie o to, że mogę
uruchomić kwerendę przeciwko Google Books

472
00:26:52,225 --> 00:26:56,060
dostać wyszukiwanie pełnotekstowe, trochę wyników
powrotem, dowiedzieć się, które z tych elementów

473
00:26:56,060 --> 00:27:01,180
faktycznie istnieją w Hollis,
system biblioteczny,

474
00:27:01,180 --> 00:27:03,200
a następnie dać mi linki
z powrotem do tych pozycji.

475
00:27:03,200 --> 00:27:12,730
Więc jeśli mogę szukać, to było
ciemna i burzliwa noc, ja

476
00:27:12,730 --> 00:27:16,210
wrócić kilka wyników
od Google, a następnie jeden wynik

477
00:27:16,210 --> 00:27:19,460
co jest w Czasie zmarszczek.

478
00:27:19,460 --> 00:27:29,330
I to są linki do książek, które istnieją
w ramach systemu Harvard Library.

479
00:27:29,330 --> 00:27:32,160
>> Sądzę więc, że chodzi tu nie jest
tak bardzo, że to może być lub nie może

480
00:27:32,160 --> 00:27:34,118
za sposób, w jaki chcesz
do przeszukiwania biblioteki,

481
00:27:34,118 --> 00:27:38,310
ale to jest zupełnie inna
sposób, który nie był dostępny dla Ciebie

482
00:27:38,310 --> 00:27:42,884
przed, jak ty nie miał sposobu pracy
Pełny tekst wyszukiwania na książki, że nawet

483
00:27:42,884 --> 00:27:44,550
były częścią systemu Harvard Library.

484
00:27:44,550 --> 00:27:46,870
Więc teraz jest to sposób
że można to zrobić.

485
00:27:46,870 --> 00:27:51,930
I można je wyświetlić w
dowolnym formacie chcesz.

486
00:27:51,930 --> 00:27:55,990
Więc chodzi o to, w zasadzie,
otwieramy nowe drogi dla ludzi

487
00:27:55,990 --> 00:27:59,080
do pracy z danymi.

488
00:27:59,080 --> 00:28:07,925
>> Kolejna chmura jest to, że biblioteki
pomaga narazić niektóre dane użytkowania

489
00:28:07,925 --> 00:28:08,800
że biblioteka ma.

490
00:28:08,800 --> 00:28:12,630
Więc jeśli masz iść do biblioteki,
i szukasz książki,

491
00:28:12,630 --> 00:28:15,770
Nie koniecznie
faktycznie ma pomysł,

492
00:28:15,770 --> 00:28:19,080
dla wszystkich elementów
szczególności przedmiotem, co

493
00:28:19,080 --> 00:28:21,200
Są ludzie w
społeczność, czy to

494
00:28:21,200 --> 00:28:24,890
zdefiniowane jako Harvard lub
kraj lub klasa,

495
00:28:24,890 --> 00:28:26,421
jakie mają znaleźć najbardziej przydatne?

496
00:28:26,421 --> 00:28:28,920
I rzeczywiście ma biblioteki
mnóstwo informacji o tym, co

497
00:28:28,920 --> 00:28:32,999
jest najbardziej przydatna, ponieważ jeżeli partia
od osób sprawdzanie książkę,

498
00:28:32,999 --> 00:28:34,040
że mówi coś.

499
00:28:34,040 --> 00:28:36,498
Musiał być jakiś powód
chcą, aby to sprawdzić.

500
00:28:36,498 --> 00:28:38,270
Wielu ludzi umieścić go na rezerwie.

501
00:28:38,270 --> 00:28:42,520
>> Jeśli jest na liście rezerwowej dla wielu
zajęć, które mówi coś.

502
00:28:42,520 --> 00:28:45,960
Jeśli członkowie wydziału sprawdzamy go
się dużo i Studenci nie są,

503
00:28:45,960 --> 00:28:47,200
że mówi mi coś.

504
00:28:47,200 --> 00:28:49,280
Odwrotnie, że również
mówi coś.

505
00:28:49,280 --> 00:28:54,680
Więc byłoby naprawdę ciekawe
umieścić te informacje tam i niech

506
00:28:54,680 --> 00:28:59,969
osób używa go, aby pomóc im znaleźć
pracuje w systemie bibliotek.

507
00:28:59,969 --> 00:29:02,260
Druga strona tego jest
istnieją pewne poważne prywatności

508
00:29:02,260 --> 00:29:07,854
obawy, ponieważ jeden z
podstawowe założenia biblioteki

509
00:29:07,854 --> 00:29:10,770
to nie będziemy się mówić
osób, co inni ludzie czytają.

510
00:29:10,770 --> 00:29:17,360
I nawet jeśli mówią to
Książka została sprawdzona cztery razy

511
00:29:17,360 --> 00:29:20,070
w danym miesiącu
które mogą być stosowane

512
00:29:20,070 --> 00:29:25,252
odnośniki do szczególności
Osoba dane de anonimizerów

513
00:29:25,252 --> 00:29:26,710
i dowiedzieć się, kto sprawdził to.

514
00:29:26,710 --> 00:29:30,792
Tak więc sposób możemy avoid--

515
00:29:30,792 --> 00:29:33,750
Sposób, że możemy spróbować wyodrębnić
jakiś sygnał od wszystkich informacji

516
00:29:33,750 --> 00:29:36,740
bez naruszania
Obawy niczyjej prywatności

517
00:29:36,740 --> 00:29:42,150
jest zasadniczo patrzymy na
10 lat użytkowania danych, -

518
00:29:42,150 --> 00:29:43,930
>> Tak, że w dłuższym okresie czasu.

519
00:29:43,930 --> 00:29:50,639
>> --and powiedzieć, OK, zobaczmy jak
wiele razy ta praca została stosowane,

520
00:29:50,639 --> 00:29:52,930
i kto w tym okresie
czasu, a następnie w zasadzie

521
00:29:52,930 --> 00:29:56,300
oddać numer, który nazywamy
Wynik stosu, który w zasadzie

522
00:29:56,300 --> 00:29:59,910
pokazuje, jak bardzo to było używane.

523
00:29:59,910 --> 00:30:01,084
I że number--

524
00:30:01,084 --> 00:30:03,250
Wiele różnych obliczeń
przejść do tego numeru.

525
00:30:03,250 --> 00:30:05,150
--but to bardzo szorstki
metryki, które daje

526
00:30:05,150 --> 00:30:11,300
niektóre pomysł, jak
wspólnota może wartość tej pracy.

527
00:30:11,300 --> 00:30:16,772
>> I tak jeszcze inny rodzaj
więcej uregulowana aplikacji

528
00:30:16,772 --> 00:30:18,480
, który wykorzystuje
to jest coś,

529
00:30:18,480 --> 00:30:24,000
nazywany Stacklife, która jest faktycznie
dostępne przez główny Harvardzie

530
00:30:24,000 --> 00:30:24,880
Portal biblioteka.

531
00:30:24,880 --> 00:30:26,700
Więc idziesz do library.harvard.edu.

532
00:30:26,700 --> 00:30:29,360
Zobaczysz wiele różni
sposoby przeszukiwania biblioteki.

533
00:30:29,360 --> 00:30:32,300
I jeden z nich nazywa Stacklife.

534
00:30:32,300 --> 00:30:38,980
>> I jest to aplikacja, która
przeszukuje zawartość biblioteki

535
00:30:38,980 --> 00:30:43,490
ale jest całkowicie zbudowany
bazujące na tych interfejsów.

536
00:30:43,490 --> 00:30:46,910
Więc nie ma specjalnego rzeczy
dzieje się za kulisami.

537
00:30:46,910 --> 00:30:49,570
Nie ma dostępu do
Dane, które nie posiadają.

538
00:30:49,570 --> 00:30:54,090
To użyciu interfejsów API, aby zapewnić
z zupełnie innej przeglądanie

539
00:30:54,090 --> 00:30:55,480
doświadczenie.

540
00:30:55,480 --> 00:30:58,570
>> Więc jeśli mogę szukać Alice
w Krainie Czarów, w tym przypadku,

541
00:30:58,570 --> 00:31:02,600
Uzyskać wynik, który wygląda jak
tego, co jest dość much--

542
00:31:02,600 --> 00:31:05,430

543
00:31:05,430 --> 00:31:10,870
>> Jest bardzo podobny do innego wyszukiwania
Może to zrobić, z wyjątkiem w tym przypadku

544
00:31:10,870 --> 00:31:15,730
jesteśmy rankingu pozycji przez
stackscore, które daje

545
00:31:15,730 --> 00:31:19,850
jakiś pomysł, jak popularne są
pozycje były w społeczności.

546
00:31:19,850 --> 00:31:25,610
I tak wyraźnie, Alicja w Krainie Czarów
przez Walt Disney jest bardzo popularne.

547
00:31:25,610 --> 00:31:36,570
Ale można również zobaczyć cztery najlepsze
Oto te, które nie mogą actually--

548
00:31:36,570 --> 00:31:39,220
>> Rzeczy, które są bardzo wykorzystywane,
ale nie może bezpośrednio

549
00:31:39,220 --> 00:31:41,240
połączyć z Alicji w Krainie Czarów.

550
00:31:41,240 --> 00:31:44,650
Tak więc nasz stary przyjaciel
Annotated Alice jest tutaj.

551
00:31:44,650 --> 00:31:46,350
Więc mogę spojrzeć na niego.

552
00:31:46,350 --> 00:31:52,010
A teraz to, czego szukam
co jest w zasadzie ustawić of--

553
00:31:52,010 --> 00:31:53,760
Mogę mieć Opatrzony uwagami
Alice właśnie tutaj.

554
00:31:53,760 --> 00:31:56,700
Mam informacje o nim.

555
00:31:56,700 --> 00:32:00,230
I ja też mam stackscore
z, w tym przypadku, 26.

556
00:32:00,230 --> 00:32:03,169
I to mówi mi, jakby grubsza
jak doszliśmy do tego stackscore,

557
00:32:03,169 --> 00:32:05,835
jak kto sprawdził to, jak, jak
wiele razy został wyrejestrowany,

558
00:32:05,835 --> 00:32:08,440
jak wydziału lub undergrads, jak
wiele kopii biblioteki ma,

559
00:32:08,440 --> 00:32:11,300
i tak dalej, i tak dalej.

560
00:32:11,300 --> 00:32:16,460
>> I można również, na tyle ciekawe,
tutaj, przeglądać stosy praktycznie.

561
00:32:16,460 --> 00:32:19,550
Więc tutaj dane, w tym
pokazuje ci sortowania

562
00:32:19,550 --> 00:32:23,547
wirtualnego reprezentacji
z jakiej potędze półki

563
00:32:23,547 --> 00:32:25,880
wyglądać, jeśli chcesz robić
wszystkie zasoby biblioteki

564
00:32:25,880 --> 00:32:28,940
i umieścić je razem
na jednej nieskończonej półce.

565
00:32:28,940 --> 00:32:30,990
I miłą rzeczą jest to, że can--

566
00:32:30,990 --> 00:32:33,380
>> Przede wszystkim
metadane na temat tych książek

567
00:32:33,380 --> 00:32:35,627
Często mówi, kiedy został on opublikowany.

568
00:32:35,627 --> 00:32:37,085
Dowiesz się, ile stron ma.

569
00:32:37,085 --> 00:32:38,459
To może powiedzieć wymiary.

570
00:32:38,459 --> 00:32:42,930
Tak więc widać, że to odzwierciedlenie tutaj
w odniesieniu do rozmiaru książki.

571
00:32:42,930 --> 00:32:46,740
>> A potem możemy użyć
stosu wynik, aby podświetlić

572
00:32:46,740 --> 00:32:49,170
książki, które mają wyższe wyniki stosu.

573
00:32:49,170 --> 00:32:54,930
Więc jeśli jest ciemniejszy, oznacza to, że,
Można przypuszczać, że stosuje się go częściej.

574
00:32:54,930 --> 00:32:57,040
Więc w tym przypadku, jestem
Chyba, że ​​będzie to

575
00:32:57,040 --> 00:33:03,226
jest wersja Alicji w Krainie Czarów
który jest bardzo często stosowany, a najbardziej

576
00:33:03,226 --> 00:33:05,100
dostępne, biblioteka
ma najwięcej egzemplarzy.

577
00:33:05,100 --> 00:33:06,975
Więc jeśli szukasz
dla Alicji w Krainie Czarów,

578
00:33:06,975 --> 00:33:10,220
może to być dobre miejsce, aby rozpocząć.

579
00:33:10,220 --> 00:33:13,500
>> I to tutaj można także łączyć się
do, powiedzmy, Amazon zakupić książkę,

580
00:33:13,500 --> 00:33:15,182
i tak dalej, i tak dalej.

581
00:33:15,182 --> 00:33:17,140
Chodzi o, znowu,
Nie jest tak, że

582
00:33:17,140 --> 00:33:25,030
jest najlepszym sposobem, aby przeglądać bibliotekę
lub odpowiednim narzędziem dla każdej okazji.

583
00:33:25,030 --> 00:33:28,400
Ale jest inny sposób to zrobić.

584
00:33:28,400 --> 00:33:31,359
I udostępnienie informacji
dostępne poprzez API, które

585
00:33:31,359 --> 00:33:34,650
jest wykonana z bardzo prostych bloków budowlanych
która pozwala na wyszukiwanie treści,

586
00:33:34,650 --> 00:33:39,420
można zbudować coś
tak, że można

587
00:33:39,420 --> 00:33:41,520
nadzwyczajnie
cenne dla niektórych ludzi.

588
00:33:41,520 --> 00:33:46,640

589
00:33:46,640 --> 00:33:51,860
>> Więc to jest coś w rodzaju, jak chcę
powiedzieć o tym, co naprawdę jest API

590
00:33:51,860 --> 00:33:56,070
i co naraża, istnieje cały
kilka rzeczy za kulisami, które

591
00:33:56,070 --> 00:33:59,480
Idę tylko na krótko dotknąć
tylko dlatego, że jakby co to jest

592
00:33:59,480 --> 00:34:03,720
z zupełnie innej perspektywy, w
Warunki w jaki sposób coś takiego

593
00:34:03,720 --> 00:34:04,580
się umieścić w miejscu?

594
00:34:04,580 --> 00:34:10,820
>> Więc to standard interfejsu API
interfejs do wszystkich tych treści.

595
00:34:10,820 --> 00:34:13,820
Ale aby go tam,
Pierwszą rzeczą, jaką musiałem zrobić

596
00:34:13,820 --> 00:34:17,260
został współdziałać informacji
książek i obrazów

597
00:34:17,260 --> 00:34:21,580
i pomocy archiwalnych, kolekcja
Dokument z różnych systemów Harvard.

598
00:34:21,580 --> 00:34:23,929
Aleph, VIA i OASIS są
nazwy systemów.

599
00:34:23,929 --> 00:34:28,820
I w zasadzie przejść do
Rurociąg, rurociąg przetwarzania.

600
00:34:28,820 --> 00:34:33,230
>> Więc przede wszystkim, mamy eksport
pliki z wszystkich tych systemów.

601
00:34:33,230 --> 00:34:35,130
Podzieliliśmy je na poszczególne pozycje.

602
00:34:35,130 --> 00:34:39,360
Więc mamy plik, który jest gigabajt
która ma milion rekordów w nim.

603
00:34:39,360 --> 00:34:42,290
Więc podzielić go na poszczególne pozycje.

604
00:34:42,290 --> 00:34:45,374
Następnie, dla każdego elementu, możemy przekształcić go
w MODS, ponieważ niektóre z nich

605
00:34:45,374 --> 00:34:47,040
są natywnie MODS, niektóre z nich nie są.

606
00:34:47,040 --> 00:34:49,204
Tak więc mamy je wszystkie
być w tym samym formacie.

607
00:34:49,204 --> 00:34:51,120
Potem są różne
wzbogacania etapy, w których

608
00:34:51,120 --> 00:34:55,969
możemy dodać więcej informacji do danych
nie było dostępne w bibliotece.

609
00:34:55,969 --> 00:34:59,750
Tak więc musimy dodać, przede wszystkim
mamy to, co biblioteki trzymać.

610
00:34:59,750 --> 00:35:02,250
Idziemy przez etap
obliczaniu stackscore.

611
00:35:02,250 --> 00:35:07,112
Idziemy przez innego kroku
dodając więcej metadanych w zakresie

612
00:35:07,112 --> 00:35:10,730
co zbiory ludzi
Może dodali this--

613
00:35:10,730 --> 00:35:12,532
>> Ludzie tworzą
zbiory przedmiotów.

614
00:35:12,532 --> 00:35:13,990
Co kolekcje to należy?

615
00:35:13,990 --> 00:35:17,220
W jaki sposób ludzie określili
zawartość ta w przeszłości?

616
00:35:17,220 --> 00:35:20,750
Potem odfiltrować i ograniczyć
zapisy, ponieważ, jak już wspomniałem,

617
00:35:20,750 --> 00:35:24,120
istnieje pewne zapisy, które, ze względu na
względu na prawa autorskie nie możemy wyświetlić.

618
00:35:24,120 --> 00:35:26,700
A następnie je załadować
w coś o nazwie

619
00:35:26,700 --> 00:35:31,680
SOLR, co nie jest misspelling, ale
to nazwa części oprogramowania

620
00:35:31,680 --> 00:35:35,710
że robi indeksowania wyszukiwania, które
napędza cały wyszukiwanie za API.

621
00:35:35,710 --> 00:35:40,110
I wtedy staje się ona dostępna dla
API, i ludzie mogą go używać.

622
00:35:40,110 --> 00:35:44,640
>> Tak to jest jak dość
Proces proste.

623
00:35:44,640 --> 00:35:47,230
Jeden z ciekawe
rzeczy jest to,

624
00:35:47,230 --> 00:35:50,990
że mamy do czynienia
z 13 milionów rekordów

625
00:35:50,990 --> 00:35:53,820
i będziemy mieć do czynienia lub więcej.

626
00:35:53,820 --> 00:36:01,260
I chcemy, aby być w stanie obsłużyć
je w stosunkowo szybki sposób.

627
00:36:01,260 --> 00:36:03,630
To zajmuje dużo czasu do
przetwarzać 13 milionów rekordów.

628
00:36:03,630 --> 00:36:09,529
>> Więc jak to jest gazociąg
skonfigurowana jest to, że can--

629
00:36:09,529 --> 00:36:12,070
Chyba przewagę
Rurociąg, problem, że jesteśmy

630
00:36:12,070 --> 00:36:15,580
próbuje rozwiązać, to aby
wszystkie przemiany, wszystkie

631
00:36:15,580 --> 00:36:18,729
te kroki w tym
Rurociąg są rozłączne.

632
00:36:18,729 --> 00:36:19,645
Nie ma zależności.

633
00:36:19,645 --> 00:36:22,146
Jeśli jesteś przetwarzania
zapis jednej książce,

634
00:36:22,146 --> 00:36:24,270
nie ma zależności w
że między innymi książki.

635
00:36:24,270 --> 00:36:27,760
>> Więc co możemy zrobić, to w zasadzie,
na każdym kroku w rurociągu,

636
00:36:27,760 --> 00:36:30,470
umieścić go w kolejce w chmurze.

637
00:36:30,470 --> 00:36:32,250
Zdarzyło mi się być na Amazon Web Services.

638
00:36:32,250 --> 00:36:35,140
Więc jest lista,
powiedzieć, 10000 elementów, które

639
00:36:35,140 --> 00:36:38,100
muszą być normalizowane i
przekonwertowane na format MODS.

640
00:36:38,100 --> 00:36:41,620
A my rozpędzają tyle serwerów
jak chcesz, może 10 serwerów.

641
00:36:41,620 --> 00:36:44,860
I każdy z tych serwerów tylko
siedzi, patrzy w tej kolejki,

642
00:36:44,860 --> 00:36:46,730
widzi, że jedna z nich musi
przetwarzane, wyciąga je z kolejki,

643
00:36:46,730 --> 00:36:48,740
przetwarza je i kije
że w następnej kolejce.

644
00:36:48,740 --> 00:36:54,200
>> I co z tego, że pozwala nam
zrobić, to stosuje się, w zasadzie,

645
00:36:54,200 --> 00:36:58,110
tyle sprzętu, jak chcemy to
Problem w bardzo krótkim okresie czasu

646
00:36:58,110 --> 00:37:02,970
tak szybko, jak przetwarzać dane
możliwe, co jest czymś, tylko

647
00:37:02,970 --> 00:37:08,220
teraz w świecie cloud computing
Możemy serwery Przepis ten zasadniczo

648
00:37:08,220 --> 00:37:09,890
natychmiast, że użyteczne.

649
00:37:09,890 --> 00:37:12,260
Tak więc nie trzeba mieć
gigant serwer siedzieć

650
00:37:12,260 --> 00:37:16,700
cały czas zrobić przetwarzania
że może się zdarzyć tylko raz w tygodniu.

651
00:37:16,700 --> 00:37:21,440
>> Tak to jest w większości to.

652
00:37:21,440 --> 00:37:27,590
Jest dokumentacja,
Biblioteka dla Item API Chmura

653
00:37:27,590 --> 00:37:31,960
pod tym adresem URL, który będzie
być dostępne później.

654
00:37:31,960 --> 00:37:36,730
I przejdź spojrzeć na
to, aby zobaczyć, czy jest coś,

655
00:37:36,730 --> 00:37:37,579
macie jakieś pomysły.

656
00:37:37,579 --> 00:37:38,120
Zagraj z nim.

657
00:37:38,120 --> 00:37:38,830
Wygłupiać.

658
00:37:38,830 --> 00:37:42,800
I mam nadzieję, że można przyjść
z czymś wielkim.

659
00:37:42,800 --> 00:37:44,740
Dziękuję.

660
00:37:44,740 --> 00:37:45,899