1
00:00:00,000 --> 00:00:11,370

2
00:00:11,370 --> 00:00:12,370
JEFFREY Licht: Salut là.

3
00:00:12,370 --> 00:00:13,550
Je suis Jeffrey Licht.

4
00:00:13,550 --> 00:00:17,890
Et je suis ici pour vous parler de la
Harvard édifice de Bibliothèque et demain

5
00:00:17,890 --> 00:00:20,870
bibliothèque aujourd'hui, je suppose.

6
00:00:20,870 --> 00:00:23,040
Ainsi, le fond ici,
le terrain pour cette session

7
00:00:23,040 --> 00:00:26,930
est essentiellement qu'il ne existe
beaucoup de données bibliographiques

8
00:00:26,930 --> 00:00:28,400
disponible dans les bibliothèques de Harvard.

9
00:00:28,400 --> 00:00:33,434
Et il ya une possibilité,
par certains des outils

10
00:00:33,434 --> 00:00:36,350
et un projet qui est en cours d'élaboration,
pour avoir accès à l'information

11
00:00:36,350 --> 00:00:42,430
et le prendre à des endroits que le
Harvard Library ne est pas en train de faire en ce moment,

12
00:00:42,430 --> 00:00:45,460
faire des choses nouvelles avec elle, l'expérience
et jouer avec elle.

13
00:00:45,460 --> 00:00:52,413
>> Ainsi, le point d'entrée dans ce est une API
appelé le Harvard Bibliothèque Cloud,

14
00:00:52,413 --> 00:00:57,650
est un serveur de métadonnées ouverte,
dont je vais parler maintenant.

15
00:00:57,650 --> 00:01:02,595
Donc, le fond est qu'il existe un
beaucoup de choses dans la bibliothèque de Harvard.

16
00:01:02,595 --> 00:01:07,150
Nous avons plus de 13 millions bibliographique
dossiers, des millions d'images,

17
00:01:07,150 --> 00:01:11,090
et des milliers de instruments de recherche, qui
sont essentiellement des documents décrivant

18
00:01:11,090 --> 00:01:15,500
collections, en disant ce que
qui est en eux, boîtes de documents

19
00:01:15,500 --> 00:01:21,080
etc., qui représentent plus de
un million de documents individuels.

20
00:01:21,080 --> 00:01:24,290
Et il ya aussi beaucoup de
informations que la bibliothèque a

21
00:01:24,290 --> 00:01:28,180
sur la façon dont le contenu est utilisé que
pourrait être d'intérêt pour les gens

22
00:01:28,180 --> 00:01:32,400
qui pourrait vouloir travailler avec elle.

23
00:01:32,400 --> 00:01:36,150
>> Ainsi, toutes les informations
la bibliothèque possède des métadonnées.

24
00:01:36,150 --> 00:01:39,500
Donc métadonnées sont des données sur les données.

25
00:01:39,500 --> 00:01:42,070
Alors, quand on parle de
l'information qui est

26
00:01:42,070 --> 00:01:44,890
disponibles à la bibliothèque
nuage qui est disponible,

27
00:01:44,890 --> 00:01:47,760
ce ne est pas nécessairement
les documents réels

28
00:01:47,760 --> 00:01:53,060
eux-mêmes, pas nécessairement la pleine
texte de livres ou les images complètes,

29
00:01:53,060 --> 00:01:54,890
si ce fait peut être le cas.

30
00:01:54,890 --> 00:01:57,550
Mais ce est vraiment
informations sur les données.

31
00:01:57,550 --> 00:02:00,909
>> Alors vous pouvez penser catalogage
informations, numéros d'appel, les sujets,

32
00:02:00,909 --> 00:02:02,700
le nombre de copies de la
livre il ya, ce

33
00:02:02,700 --> 00:02:06,380
sont les éditions, ce sont les
formats, les auteurs, et ainsi de suite.

34
00:02:06,380 --> 00:02:12,250
Donc, il ya beaucoup d'informations sur
les informations contenues dans la collection,

35
00:02:12,250 --> 00:02:14,400
en soi, est une sorte de nature utile.

36
00:02:14,400 --> 00:02:19,230
Et bien si vous êtes
faire de la recherche en profondeur,

37
00:02:19,230 --> 00:02:25,160
vous voulez évidemment se rendre à la réelle
contenu lui-même et de regarder les données,

38
00:02:25,160 --> 00:02:30,140
les métadonnées est utile en termes de
à la fois l'analyse du corpus dans son ensemble,

39
00:02:30,140 --> 00:02:33,870
comme ce que les choses sont dans la collection.

40
00:02:33,870 --> 00:02:35,520
Comment se rapportent-ils?

41
00:02:35,520 --> 00:02:39,482
Il vous aide à trouver vraiment d'autres choses,
qui est vraiment l'objectif principal de celui-ci.

42
00:02:39,482 --> 00:02:41,190
Le point de la
métadonnées et le catalogue

43
00:02:41,190 --> 00:02:43,230
est de vous aider à trouver tout
l'information qui est

44
00:02:43,230 --> 00:02:46,590
disponibles dans les collections.

45
00:02:46,590 --> 00:02:53,690
>> Donc, ce est un exemple de métadonnées
pour un livre dans la bibliothèque de Harvard.

46
00:02:53,690 --> 00:02:56,370
Donc, ce est là.

47
00:02:56,370 --> 00:02:59,850
Et vous pouvez voir que ce est
effectivement modérément complexe.

48
00:02:59,850 --> 00:03:04,610
Et une partie de la valeur de métadonnées
dans le système Harvard Bibliothèque

49
00:03:04,610 --> 00:03:09,320
est qu'il a été tri
de construction par les catalogueurs

50
00:03:09,320 --> 00:03:12,720
et assemblés par les personnes qui demandent
beaucoup d'expertise et de compétence

51
00:03:12,720 --> 00:03:20,030
et je ai pensé à elle au fil du temps,
qui a beaucoup de valeur.

52
00:03:20,030 --> 00:03:25,450
>> Donc, si vous jetez un oeil à cet enregistrement pour
The Annotated Alice, vous pouvez savoir

53
00:03:25,450 --> 00:03:32,590
vous avez le titre, qui l'a écrit, le
auteur, et tous les différents sujets

54
00:03:32,590 --> 00:03:35,380
laquelle les gens ont catalogué dans.

55
00:03:35,380 --> 00:03:40,110
Et vous pouvez le voir il ya aussi, dans
plus de beaucoup de bonnes informations

56
00:03:40,110 --> 00:03:42,852
ici, il ya un certain chevauchement.

57
00:03:42,852 --> 00:03:45,560
Il ya beaucoup de complexité qui est
réfléchie par les métadonnées

58
00:03:45,560 --> 00:03:46,300
que vous avez.

59
00:03:46,300 --> 00:03:50,320
>> Donc, un titre de ce livre est
Alice au pays des merveilles.

60
00:03:50,320 --> 00:03:53,880
Ce est donc une annoté
version de ce livre.

61
00:03:53,880 --> 00:03:56,380
Mais il est aussi appelé The Annotated
Alice, Alice

62
00:03:56,380 --> 00:03:58,570
au pays des merveilles, car
ce est quelque chose qui

63
00:03:58,570 --> 00:04:00,430
Martin Gardner a écrit
et annoté le livre.

64
00:04:00,430 --> 00:04:03,369
Et il ya un grand nombre d'informations
de puzzles logiques et les choses

65
00:04:03,369 --> 00:04:05,410
Alice sein que vous
n'a probablement pas connaître.

66
00:04:05,410 --> 00:04:07,000
Donc, vous devriez aller lire.

67
00:04:07,000 --> 00:04:11,940
>> Mais vous pouvez le voir il ya
beaucoup de détails ici,

68
00:04:11,940 --> 00:04:15,340
y compris des identificateurs, lorsqu'elle
a été créé, d'où il vient,

69
00:04:15,340 --> 00:04:17,420
en termes de Harvard
système, et ainsi de suite.

70
00:04:17,420 --> 00:04:20,350
Donc, ce est un échantillon de
le type de métadonnées

71
00:04:20,350 --> 00:04:24,340
que vous pourriez voir pour un livre dans
la collection Bibliothèque Harvard.

72
00:04:24,340 --> 00:04:26,680
>> Ce est quelque chose de complètement différent.

73
00:04:26,680 --> 00:04:32,610
Donc, il ya un système appelé
VIA Harvard, qui essentiellement

74
00:04:32,610 --> 00:04:39,990
est catalogage des images et des objets d'art
et les choses visuel tout au long de Harvard,

75
00:04:39,990 --> 00:04:44,010
et en ajoutant des métadonnées
pour eux, de les classer,

76
00:04:44,010 --> 00:04:49,200
et, dans certains cas, fournir
petites vignettes

77
00:04:49,200 --> 00:04:51,250
que vous pouvez prendre un
regardez si vous le souhaitez.

78
00:04:51,250 --> 00:04:54,240
>> Donc, ce est un exemple de la
métadonnées que vous avez pour une plaque

79
00:04:54,240 --> 00:04:57,840
à partir, sans doute, Alice au pays des merveilles.

80
00:04:57,840 --> 00:05:00,499
Et vous pouvez le voir il ya
moins métadonnées ici.

81
00:05:00,499 --> 00:05:02,040
Ce est juste un autre type d'objet.

82
00:05:02,040 --> 00:05:03,425
Et donc il ya moins d'informations.

83
00:05:03,425 --> 00:05:07,790
>> Vous avez principalement le fait que, d'un appel
nombre, essentiellement qui l'a créé, -

84
00:05:07,790 --> 00:05:10,410
>> Nous ne savons pas quand il a été créé.

85
00:05:10,410 --> 00:05:13,320
>> -et un titre.

86
00:05:13,320 --> 00:05:14,300
>> Un autre exemple.

87
00:05:14,300 --> 00:05:16,380
Ce est un instrument de recherche.

88
00:05:16,380 --> 00:05:19,030
Donc, il ya une collection de Lewis
Les papiers de Carroll à Harvard.

89
00:05:19,030 --> 00:05:23,601
Donc cela décrit ce
est dans cette collection.

90
00:05:23,601 --> 00:05:26,100
Donc, quelqu'un a vécu et
regardé à travers toutes les cases

91
00:05:26,100 --> 00:05:32,220
et catalogué, étant donné une certaine expérience,
écrit un résumé de ce qui est ici.

92
00:05:32,220 --> 00:05:35,290
Et si vous étiez à regarder
plus loin à ce, cette

93
00:05:35,290 --> 00:05:39,620
va sur des pages et des pages
et les pages, mais vous diront

94
00:05:39,620 --> 00:05:41,860
et ce quelles lettres
dates de ce que les boîtes

95
00:05:41,860 --> 00:05:44,289
existé dans toute la collection.

96
00:05:44,289 --> 00:05:46,330
Mais ce est quelque chose
que, si vous êtes à Harvard,

97
00:05:46,330 --> 00:05:50,720
vous pouvez aller et effectivement regarder physiquement
et, sans doute, jetez un oeil à.

98
00:05:50,720 --> 00:05:53,440
>> Donc, ce est génial.

99
00:05:53,440 --> 00:05:54,450
Ce est utile métadonnées.

100
00:05:54,450 --> 00:05:56,327
Ce est dans le système de Harvard Library.

101
00:05:56,327 --> 00:05:58,910
Il existe des outils en ligne où vous
peut aller prendre un coup d'oeil,

102
00:05:58,910 --> 00:05:59,993
et voir, et le fouiller.

103
00:05:59,993 --> 00:06:02,810
Et vous pouvez le couper en tranches et les dés
dans beaucoup de façons différentes.

104
00:06:02,810 --> 00:06:06,920
>> Mais ce est vraiment disponible uniquement si
vous êtes un être humain assis

105
00:06:06,920 --> 00:06:12,600
à votre navigateur Web ou quelque chose ou
votre téléphone et naviguer à travers.

106
00:06:12,600 --> 00:06:16,730
Il ne est pas vraiment disponible en
toute sorte de mode utilisable

107
00:06:16,730 --> 00:06:19,520
ou d'autres systèmes
d'autres ordinateurs à utiliser,

108
00:06:19,520 --> 00:06:21,500
pas de systèmes au sein de
la bibliothèque de Harvard,

109
00:06:21,500 --> 00:06:24,890
mais les systèmes du monde extérieur,
seulement d'autres personnes en général.

110
00:06:24,890 --> 00:06:30,210
Donc la question est, comment pouvons-nous
rendre disponible pour les ordinateurs

111
00:06:30,210 --> 00:06:33,560
de sorte que nous pouvons faire plus intéressant
des trucs avec lui que juste

112
00:06:33,560 --> 00:06:36,550
navigation nous-il?

113
00:06:36,550 --> 00:06:39,766
>> Alors, pourquoi voudriez-vous faire cela?

114
00:06:39,766 --> 00:06:41,140
Il ya beaucoup de possibilités.

115
00:06:41,140 --> 00:06:43,980
On est vous pourriez construire un tout
façon différente de navigation

116
00:06:43,980 --> 00:06:46,962
le contenu qui est disponible
à travers les bibliothèques de Harvard.

117
00:06:46,962 --> 00:06:48,670
Je vais vous montrer une
plus tard appelé Stacklife,

118
00:06:48,670 --> 00:06:52,440
qui a un complètement différent
prendre sur la recherche de contenu.

119
00:06:52,440 --> 00:06:54,560
>> Vous pourriez construire un moteur de recommandation.

120
00:06:54,560 --> 00:06:57,955
Donc Harvard bibliothèque ne est pas dans la
entreprise de dire, vous aimez ce livre.

121
00:06:57,955 --> 00:07:01,080
Ensuite, allez jeter un oeil à ces 17 autres
livres que vous pourriez être intéressé par

122
00:07:01,080 --> 00:07:03,200
ou ces 18 autres images.

123
00:07:03,200 --> 00:07:06,040
Mais cela pourrait certainement
être un élément précieux.

124
00:07:06,040 --> 00:07:09,272
Et étant donné les métadonnées, il peut
possible de mettre cela ensemble.

125
00:07:09,272 --> 00:07:11,980
Vous pourriez avoir des besoins différents en
termes de recherche sur le contenu,

126
00:07:11,980 --> 00:07:16,200
comme peut-être malgré les outils
sont disponibles que la bibliothèque fait

127
00:07:16,200 --> 00:07:18,450
disponible, vous voudrez peut-
à la recherche d'une manière différente

128
00:07:18,450 --> 00:07:21,847
ou optimiser pour un cas d'utilisation particulier,
qui peut-être qu'il est très spécialisée.

129
00:07:21,847 --> 00:07:23,930
Peut-être il ya seulement quelques-uns
les gens dans le monde qui

130
00:07:23,930 --> 00:07:25,846
vouloir rechercher le contenu
de cette manière, mais il

131
00:07:25,846 --> 00:07:28,985
serait formidable si nous
pourrait laisser faire.

132
00:07:28,985 --> 00:07:30,860
Il ya beaucoup de l'analyse
en seulement comment les gens

133
00:07:30,860 --> 00:07:33,860
utiliser le contenu qui serait vraiment
intéressant de connaître, savoir

134
00:07:33,860 --> 00:07:37,280
quels livres sont utilisés,
ce ne sont pas, et ainsi de suite.

135
00:07:37,280 --> 00:07:41,670
Et puis il ya beaucoup de
possibilité d'intégrer

136
00:07:41,670 --> 00:07:45,210
d'autres informations
ce est là-bas sur le web.

137
00:07:45,210 --> 00:07:46,880
Donc, nous have--

138
00:07:46,880 --> 00:07:50,260
>> Par exemple, NPR a
une critique de livre segment,

139
00:07:50,260 --> 00:07:53,090
où ils interviewent
auteurs sur les livres.

140
00:07:53,090 --> 00:07:56,837
Et ce serait super si vous étiez
regardant un livre dans la Harvard

141
00:07:56,837 --> 00:07:59,670
Bibliothèque, et vous dites, OK, il ya
eu une entrevue avec l'auteur.

142
00:07:59,670 --> 00:08:00,878
Allons jeter un coup d'oeil.

143
00:08:00,878 --> 00:08:05,461
Ou il ya une page Wikipedia, comme un
autorité, référence savante

144
00:08:05,461 --> 00:08:07,710
à propos de ce livre que vous
pourrait vouloir jeter un oeil à.

145
00:08:07,710 --> 00:08:12,600
>> Il existe de ces types de sources
dispersés à travers le web.

146
00:08:12,600 --> 00:08:16,555
Et les réunir
pourrait être un grand usage

147
00:08:16,555 --> 00:08:18,930
pour quelqu'un qui cherche à la
contenu, la recherche de quelque chose.

148
00:08:18,930 --> 00:08:20,180
Mais ce ne est pas non plus la
genre de chose que vous feriez

149
00:08:20,180 --> 00:08:23,205
veulent la bibliothèque d'être responsable
pour aller vers le bas et la traque

150
00:08:23,205 --> 00:08:25,455
toutes ces différentes sources
et les brancher ensemble

151
00:08:25,455 --> 00:08:28,920
parce qu'ils sont en constante évolution.

152
00:08:28,920 --> 00:08:33,570
Et ce qu'ils pensent est important de mai
ne pas être ce que vous pensez est important.

153
00:08:33,570 --> 00:08:36,929
>> Et plus encore, fondamentalement, il ya un
beaucoup de choses que nous ne avons pas encore pensé.

154
00:08:36,929 --> 00:08:42,222
Donc, si nous pouvons ouvrir cette place, plus
personnes en plus une demi-douzaine,

155
00:08:42,222 --> 00:08:45,174
qui cherchent à ce sur un
base régulière peut penser à des idées

156
00:08:45,174 --> 00:08:47,340
et masser les données, et
faire ce qu'ils veulent avec elle.

157
00:08:47,340 --> 00:08:49,920

158
00:08:49,920 --> 00:08:54,045
>> Donc, nous voulons faire de cette
les données disponibles pour le monde.

159
00:08:54,045 --> 00:08:55,670
Eh bien, il ya quelques complications.

160
00:08:55,670 --> 00:08:58,540
La première est que ces métadonnées
est dans différents systèmes.

161
00:08:58,540 --> 00:09:01,110
Ce est dans différents formats.

162
00:09:01,110 --> 00:09:04,719
Il ya donc une certaine normalisation
qui doit arriver,

163
00:09:04,719 --> 00:09:08,010
qui, étant le processus de normalisation
apporter des choses à partir de différents formats

164
00:09:08,010 --> 00:09:12,940
et de les faire correspondre à un format unique
de sorte que les champs se affronteront.

165
00:09:12,940 --> 00:09:15,160
>> Il ya quelques restrictions de droits d'auteur.

166
00:09:15,160 --> 00:09:21,010
Curieusement, l'entrée de catalogue
d'un livre est responsable des droits d'auteur.

167
00:09:21,010 --> 00:09:24,060
Ainsi, même si ce est juste
l'information provenant du livre,

168
00:09:24,060 --> 00:09:25,330
ce est un droit d'auteur.

169
00:09:25,330 --> 00:09:28,400
Et en fonction de qui fait
créé que les métadonnées,

170
00:09:28,400 --> 00:09:32,175
il peut y avoir des restrictions sur qui
peuvent distribuer, to-- similaires

171
00:09:32,175 --> 00:09:33,402
>> Je ne sais pas.

172
00:09:33,402 --> 00:09:36,110
Il peut ou peut ne pas être similaire à
la situation des paroles de chansons,

173
00:09:36,110 --> 00:09:36,610
par exemple.

174
00:09:36,610 --> 00:09:38,560
Donc, nous savons tous comment cela casseroles.

175
00:09:38,560 --> 00:09:40,450
Vous avez donc besoin de se déplacer cette question.

176
00:09:40,450 --> 00:09:44,910
>> Et puis une autre pièce est
qu'il ya un grand nombre de données.

177
00:09:44,910 --> 00:09:52,420
Donc, si je suis quelqu'un qui veut travailler
avec les données ou a une bonne idée,

178
00:09:52,420 --> 00:09:55,350
traiter 14000000
dossiers sur mon ordinateur portable

179
00:09:55,350 --> 00:09:57,487
pourrait être problématique
et difficile à gérer.

180
00:09:57,487 --> 00:09:59,320
Donc, nous voulons réduire
les obstacles pour les personnes

181
00:09:59,320 --> 00:10:02,130
pour être en mesure de travailler avec les données.

182
00:10:02,130 --> 00:10:07,880
>> Donc, l'approche qui nous l'espérons adresses
toutes ces préoccupations est deux parties.

183
00:10:07,880 --> 00:10:11,770
Un est la construction d'une plate-forme qui prend
les données de toutes ces sources disparates

184
00:10:11,770 --> 00:10:14,350
et aggrave il, normalise,
enrichit et marques

185
00:10:14,350 --> 00:10:16,650
disponible en un seul endroit.

186
00:10:16,650 --> 00:10:20,950
Et elle rend disponible via
une API publique que les gens peuvent appeler.

187
00:10:20,950 --> 00:10:24,430
>> Donc, une API est une application
Programming Interface.

188
00:10:24,430 --> 00:10:28,930
Et il se réfère essentiellement à un
point final qu'un système ou de la technologie

189
00:10:28,930 --> 00:10:31,720
peut appeler et récupérer des données dans
un format structuré d'une manière

190
00:10:31,720 --> 00:10:32,900
qu'il peut être utilisé.

191
00:10:32,900 --> 00:10:36,060
Donc ce ne est pas dépendante
d'aller à un site Web

192
00:10:36,060 --> 00:10:37,970
et le grattage données hors
de celui-ci, par exemple.

193
00:10:37,970 --> 00:10:40,690

194
00:10:40,690 --> 00:10:45,010
>> Donc, ce est la page d'accueil de
l'API Point Bibliothèque Cloud,

195
00:10:45,010 --> 00:10:47,220
qui est essentiellement sa version deux.

196
00:10:47,220 --> 00:10:50,130
Ce est donc la deuxième itération de
essayer de faire toutes ces données

197
00:10:50,130 --> 00:10:53,280
la disposition du monde.

198
00:10:53,280 --> 00:10:59,560
Ce est donc
http://api.lib.harvard.edu/v2/items.

199
00:10:59,560 --> 00:11:03,830
Et juste pour le décomposer
un peu, ce que cela signifie

200
00:11:03,830 --> 00:11:06,115
est que ce est une version deux de l'API.

201
00:11:06,115 --> 00:11:08,490
Il ya une version une, qui
Je ne vais pas en parler.

202
00:11:08,490 --> 00:11:09,750
Mais il existe une version une.

203
00:11:09,750 --> 00:11:14,740
>> Et si vous appelez cette
API, vous obtenez les articles.

204
00:11:14,740 --> 00:11:20,640
Et une partie de l'idée d'une
API est une API est un contrat.

205
00:11:20,640 --> 00:11:23,440
Ce est quelque chose qui est
ne va pas changer.

206
00:11:23,440 --> 00:11:24,850
Ainsi, par exemple, -

207
00:11:24,850 --> 00:11:27,410
>> Et la raison en est que si je
construire une sorte de système

208
00:11:27,410 --> 00:11:33,210
va utiliser une API bibliothèque de cloud
pour afficher livres ou aider les gens à trouver

209
00:11:33,210 --> 00:11:36,190
informations de façon unique,
ce que nous ne voulons pas de se produire

210
00:11:36,190 --> 00:11:38,940
est pour nous d'aller changer la façon dont
cette API fonctionne, et tout à coup

211
00:11:38,940 --> 00:11:41,340
tout brise sur le côté de l'utilisateur final.

212
00:11:41,340 --> 00:11:46,710
Donc, une partie de si vous faites API
à la disposition du monde, ce est

213
00:11:46,710 --> 00:11:49,396
bonnes pratiques pour mettre un
numéro de version dans ce que les gens

214
00:11:49,396 --> 00:11:51,020
savoir quelle version ils ont affaire.

215
00:11:51,020 --> 00:11:54,300
>> Donc, si nous décidons que nous trouvons une meilleure façon
de rendre cette information disponible,

216
00:11:54,300 --> 00:11:57,295
nous pourrions changer cela en
appeler cette version trois.

217
00:11:57,295 --> 00:11:59,920
Donc tout le monde qui est toujours à l'aide
version à deux, ça va encore du travail.

218
00:11:59,920 --> 00:12:03,490
Mais la troisième version serait
avoir tous les nouveaux trucs.

219
00:12:03,490 --> 00:12:06,680

220
00:12:06,680 --> 00:12:09,210
>> Donc, ce est une API, mais cette
ressemble vraiment à une URL.

221
00:12:09,210 --> 00:12:11,680
Et donc ce que ce est un
exemple de est ce qui est

222
00:12:11,680 --> 00:12:16,615
une API appelée repos, qui est disponible
plus simplement une connexion Internet régulière.

223
00:12:16,615 --> 00:12:19,680
Et vous pouvez réellement
aller dans un navigateur.

224
00:12:19,680 --> 00:12:28,550
>> Donc ici, je viens d'ouvrir Firefox et
allé à api.lib.harvard.edu/v2/items.

225
00:12:28,550 --> 00:12:31,560
Et donc ce que je ai ici est
essentiellement la première page

226
00:12:31,560 --> 00:12:34,740
des résultats de l'ensemble
un ensemble d'éléments que nous avons.

227
00:12:34,740 --> 00:12:37,460
Et ce est ici au format XML.

228
00:12:37,460 --> 00:12:40,130

229
00:12:40,130 --> 00:12:42,210
Et il a aussi été
embellie par Firefox.

230
00:12:42,210 --> 00:12:45,850
Il n'a effectivement pas tous ces
peu dilatant et se contractant

231
00:12:45,850 --> 00:12:47,880
doohickeys ici.

232
00:12:47,880 --> 00:12:52,520
Ce est une sorte de plus agréable
Version façon de regarder.

233
00:12:52,520 --> 00:12:57,040
>> Mais ce que cela nous dit est
Je ai demandé à tous les articles.

234
00:12:57,040 --> 00:13:03,120
Donc, il ya 13.289.475 articles.

235
00:13:03,120 --> 00:13:06,150
Et je suis à la recherche à la première
10, à partir de la position zéro

236
00:13:06,150 --> 00:13:09,760
parce que dans l'informatique
nous commençons toujours à zéro.

237
00:13:09,760 --> 00:13:15,150
Et ce que je ai ici, si je viens de se effondrer
cela, vous verrez que je ai 10 articles.

238
00:13:15,150 --> 00:13:20,410

239
00:13:20,410 --> 00:13:25,210
>> Et si je prends un oeil à un article, je ne peux
vois que je ai des informations à ce sujet.

240
00:13:25,210 --> 00:13:27,400
Et ce est dans ce qu'on appelle la forme MODS.

241
00:13:27,400 --> 00:13:30,860
Et donc je vais passer
revenir ici pour un moment.

242
00:13:30,860 --> 00:13:33,750
D'ACCORD.

243
00:13:33,750 --> 00:13:37,447
>> Donc, nous allons chercher quelque chose dans
spécifique, car le premier élément qui

244
00:13:37,447 --> 00:13:40,030
arrive à trouver quand vous regardez
à travers toute la collection

245
00:13:40,030 --> 00:13:41,750
est, par définition, aléatoire.

246
00:13:41,750 --> 00:13:44,550
Alors regardons quelques beignets.

247
00:13:44,550 --> 00:13:46,830
Oh.

248
00:13:46,830 --> 00:13:49,190
>> D'ACCORD.

249
00:13:49,190 --> 00:13:49,940
Donc beignets.

250
00:13:49,940 --> 00:13:55,360
Donc, nous avons trouvé il ya 80 pièces
la collection de référence beignets.

251
00:13:55,360 --> 00:13:57,150
Nous nous penchons sur le premier 10 d'entre eux.

252
00:13:57,150 --> 00:14:01,890
Maintenant, vous pouvez voir ici la façon dont
Je ai dit que je suis à la recherche des beignets,

253
00:14:01,890 --> 00:14:04,400
Je viens d'ajouter quelque chose à
la chaîne de requête de l'URL.

254
00:14:04,400 --> 00:14:09,680
Alors q est égal à beignets, que vous pouvez
voir un peu plus facilement ici.

255
00:14:09,680 --> 00:14:12,131
>> Et cela signifie, fondamentalement, il est
une spécification pour l'API, qui

256
00:14:12,131 --> 00:14:13,880
définit ce que l'ensemble de
signifient ces paramètres.

257
00:14:13,880 --> 00:14:17,150
Et cela signifie que nous allons
tout pour chercher des beignets.

258
00:14:17,150 --> 00:14:24,910
>> Donc, le premier point nous avons ici
vous pouvez voir le titre est Donuts,

259
00:14:24,910 --> 00:14:29,310
et il existe un sous-titre appelée
Passion américain, qui est, je suppose,

260
00:14:29,310 --> 00:14:31,610
appropriée.

261
00:14:31,610 --> 00:14:36,134
Il ya beaucoup de different--

262
00:14:36,134 --> 00:14:38,050
Une fois que vous arrivez au point
d'obtenir les données,

263
00:14:38,050 --> 00:14:41,020
il ya beaucoup de différents
formats que vous pouvez obtenir en.

264
00:14:41,020 --> 00:14:44,050
Et il ya différentes forces
et faiblesses de chacun d'eux.

265
00:14:44,050 --> 00:14:49,000
Alors celui-ci, vous pouvez voir
ici, cette forme est très riche.

266
00:14:49,000 --> 00:14:51,946
Et il est standardisé.

267
00:14:51,946 --> 00:14:55,040
>> Donc, il ya un titre spécifique
champ, un champ de sous-titres.

268
00:14:55,040 --> 00:14:58,950
Il ya un autre
titre, une passion américaine.

269
00:14:58,950 --> 00:15:01,650
Il est le nom qui lui est associé.

270
00:15:01,650 --> 00:15:03,120
Type de la ressource est du texte.

271
00:15:03,120 --> 00:15:06,070
Il ya beaucoup d'informations
ici dans ce format.

272
00:15:06,070 --> 00:15:09,480
>> Mais il ya un tas
de différents formats.

273
00:15:09,480 --> 00:15:11,920
Donc, ce que nous étions juste
regarder est un format

274
00:15:11,920 --> 00:15:17,700
dites mods, qui signifie
Metadata Object Description du service,

275
00:15:17,700 --> 00:15:18,250
potentiellement.

276
00:15:18,250 --> 00:15:23,030
Je suis en fait pas tout à fait sûr de la
S. Mais ce est un format assez complexe.

277
00:15:23,030 --> 00:15:24,240
Ce est le format par défaut.

278
00:15:24,240 --> 00:15:30,260
>> Mais ce est l'un qui garde
la richesse de l'ensemble des données

279
00:15:30,260 --> 00:15:33,820
que la bibliothèque a raison
il est très proche de ce que

280
00:15:33,820 --> 00:15:35,110
la bibliothèque utilise en interne.

281
00:15:35,110 --> 00:15:39,030
Ce est une norme qui est
utilisé à travers le pays,

282
00:15:39,030 --> 00:15:40,944
à travers le monde dans les bibliothèques universitaires.

283
00:15:40,944 --> 00:15:42,110
Et ce est très interopérable.

284
00:15:42,110 --> 00:15:44,852
Donc, si vous avez un document
ce est en format MODS,

285
00:15:44,852 --> 00:15:47,560
vous pouvez donner à quelqu'un d'autre que
dont les systèmes comprennent MODS,

286
00:15:47,560 --> 00:15:48,518
et ils peuvent importer.

287
00:15:48,518 --> 00:15:50,840
Donc, ce est une norme.

288
00:15:50,840 --> 00:15:54,250
Ce est très bien défini, très spécifique.

289
00:15:54,250 --> 00:15:58,980
Et ce est ce qui le rend
interopérable parce que si quelqu'un dit,

290
00:15:58,980 --> 00:16:04,930
ce est le titre d'un autre
enregistrement, tout le monde sait ce que cela signifie.

291
00:16:04,930 --> 00:16:07,740
D'un autre côté, ce est très compliqué.

292
00:16:07,740 --> 00:16:13,160
>> Donc, si vous jetez un oeil
à ce dossier en l'espèce,

293
00:16:13,160 --> 00:16:15,320
si je veux juste pour obtenir le
titre de ce document,

294
00:16:15,320 --> 00:16:21,150
de ce livre, qui est probablement Donuts,
Une Passion américain, l'analyser sur

295
00:16:21,150 --> 00:16:22,940
est un peu impliqué.

296
00:16:22,940 --> 00:16:27,380
Considérant qu'il ya un autre
format appelé Dublin Core,

297
00:16:27,380 --> 00:16:29,730
qui est un format beaucoup plus simple.

298
00:16:29,730 --> 00:16:33,764
>> Et si vous voyez ici, il n'y a pas
titre, sous-titre, titre alternatif.

299
00:16:33,764 --> 00:16:35,930
Il ya juste le titre,
Donuts, une passion américaine,

300
00:16:35,930 --> 00:16:38,780
et un autre titre, Passion américain.

301
00:16:38,780 --> 00:16:42,907
Alors, quand vous cherchez à quelle forme
vous voulez obtenir des données sur,

302
00:16:42,907 --> 00:16:44,740
beaucoup dépend de la façon dont
vous allez l'utiliser.

303
00:16:44,740 --> 00:16:46,573
Utilisez-vous pour
interopérabilité ou vous ne avez

304
00:16:46,573 --> 00:16:49,970
vouloir quelque chose de simple qui
pourrait être plus facile de travailler avec?

305
00:16:49,970 --> 00:16:56,002
>> D'un autre côté, beaucoup de
détails se sorte de écrasés vers le bas.

306
00:16:56,002 --> 00:16:58,460
Vous risquez de perdre les nuances de
ce un moyen de terrain particulières

307
00:16:58,460 --> 00:17:02,960
si vous avez affaire à Dublin Core,
que vous ne seriez pas obtenir avec MODS.

308
00:17:02,960 --> 00:17:06,462
Donc, ce sont deux des formats
vous pouvez sortir de l'API.

309
00:17:06,462 --> 00:17:08,920
Et dans le fond, nous gardons
derrière les scènes dans MODS.

310
00:17:08,920 --> 00:17:14,179
Mais nous pouvons vous donner dans MODS et
Dublin Core et rien d'autre aussi.

311
00:17:14,179 --> 00:17:16,470
L'autre considération lors de
vous êtes à la recherche dans les données

312
00:17:16,470 --> 00:17:21,210
ce est que vous pouvez l'obtenir que soit JSON, qui
signifie JavaScript Object Notation,

313
00:17:21,210 --> 00:17:24,720
ou XML, ce qui signifie
Extensible Markup Language.

314
00:17:24,720 --> 00:17:30,080
Et ces représentations de données à la fois
avoir exactement les mêmes données, exactement

315
00:17:30,080 --> 00:17:31,080
les mêmes champs.

316
00:17:31,080 --> 00:17:33,644
Mais ils sont juste
syntaxiquement différente.

317
00:17:33,644 --> 00:17:40,401
>> Donc, ce est a--

318
00:17:40,401 --> 00:17:41,400
Eh bien, il suffit de passer.

319
00:17:41,400 --> 00:17:47,490
Donc, ce est notre requête pour
beignets au format XML.

320
00:17:47,490 --> 00:17:53,470
Si je passe simplement que cela soit JSON,
Je peux voir il semble différent.

321
00:17:53,470 --> 00:17:58,580
Alors maintenant, ce est le même contenu,
mais une structure différente.

322
00:17:58,580 --> 00:18:00,080
Il ya moins de crochets.

323
00:18:00,080 --> 00:18:02,530
Il ya moins verbeux.

324
00:18:02,530 --> 00:18:06,440
>> Et ce est un format qui, si vous
travaillent dans un environnement Web,

325
00:18:06,440 --> 00:18:09,680
vous êtes plus susceptible
à vouloir utiliser car une

326
00:18:09,680 --> 00:18:12,630
des belles choses sur JSON est
il est compatible avec JavaScript.

327
00:18:12,630 --> 00:18:17,680
Donc, si je écris application web, je peux tirer
JSON et juste travailler directement avec.

328
00:18:17,680 --> 00:18:20,187
Alors qu'avec XML, ce est un
peu plus compliqué.

329
00:18:20,187 --> 00:18:21,520
Encore une fois, ceux-ci sont à la fois utiles.

330
00:18:21,520 --> 00:18:26,387
Ils sont juste différents cas d'utilisation
où les gens pourraient vouloir les utiliser.

331
00:18:26,387 --> 00:18:26,886
D'ACCORD.

332
00:18:26,886 --> 00:18:29,810

333
00:18:29,810 --> 00:18:31,680
Donc, retour à l'API.

334
00:18:31,680 --> 00:18:32,900
Donc, nous pouvons rechercher en vue de:

335
00:18:32,900 --> 00:18:36,220
>> Je donne un exemple de
la recherche de beignets.

336
00:18:36,220 --> 00:18:39,330
Nous pouvons aussi chercher seulement dans une
domaine particulier au sein ici.

337
00:18:39,330 --> 00:18:41,310
Donc, au lieu de chercher
l'ensemble du dossier,

338
00:18:41,310 --> 00:18:43,870
Je peux juste chercher le champ titre.

339
00:18:43,870 --> 00:18:48,810
Et maintenant il ya 25 choses qui
avoir des beignets dans le titre, dont

340
00:18:48,810 --> 00:18:52,430
est sur la restauration
zones humides dans la gestion

341
00:18:52,430 --> 00:18:54,990
du trou dans le beignet
programme, qui est probablement

342
00:18:54,990 --> 00:18:58,970
pas nécessairement ce que nous recherchons
lorsque nous recherchons des beignets.

343
00:18:58,970 --> 00:19:02,790

344
00:19:02,790 --> 00:19:05,490
>> Vous pouvez aussi, si vous êtes
face à une API--

345
00:19:05,490 --> 00:19:08,827
>> Partie d'avoir une API donne
personnes l'accès à de grands ensembles de données.

346
00:19:08,827 --> 00:19:11,410
Et il ya un autre couple
outils que vous pouvez utiliser pour le faire.

347
00:19:11,410 --> 00:19:14,170
On est, très simplement, vous
pouvez parcourir les données.

348
00:19:14,170 --> 00:19:17,340
Ainsi, tout comme si vous faites une requête
via une interface web,

349
00:19:17,340 --> 00:19:19,470
vous pouvez regarder la première page,
page deux, la page trois.

350
00:19:19,470 --> 00:19:22,040
Vous pouvez faire la même chose
chose via l'API.

351
00:19:22,040 --> 00:19:24,150
Vous avez juste besoin d'être
explicite dans la façon dont vous le faites.

352
00:19:24,150 --> 00:19:29,511
>> Ainsi, par exemple, si je suis à la recherche
lors de ma première requête ici,

353
00:19:29,511 --> 00:19:32,510
où je fais une recherche pour des choses
avec des beignets dans le titre, je peux dire,

354
00:19:32,510 --> 00:19:35,415
et la limite est égale à 20, ce qui signifie
me donner les 20 premiers enregistrements, pas

355
00:19:35,415 --> 00:19:38,540
le premier 10, qui est la valeur par défaut,
parce que je veux regarder à 20 à la fois.

356
00:19:38,540 --> 00:19:43,435
Ou je peux dire, réglez le
commencer égale à 20 et la limite

357
00:19:43,435 --> 00:19:47,150
égale à 20, ce qui donnera
me enregistre 21 à 40.

358
00:19:47,150 --> 00:19:52,680
>> Donc je suppose que la chose
à emporter ici est

359
00:19:52,680 --> 00:19:57,290
que nous utilisons les chaînes de requête
pour définir les paramètres sur la requête.

360
00:19:57,290 --> 00:20:02,760
Et il vous permet de commande
ce que vous obtenez en retour.

361
00:20:02,760 --> 00:20:05,980
>> Un autre outil que vous pouvez utiliser, -

362
00:20:05,980 --> 00:20:09,250
>> Et ce est vraiment utile pour
Conditions d'explorer les données.

363
00:20:09,250 --> 00:20:10,840
>> --s'agit quelque chose appelé facettes.

364
00:20:10,840 --> 00:20:15,530
Ainsi, le terme est facettage
pas nécessairement commun.

365
00:20:15,530 --> 00:20:16,880
Mais vous avez tous vu avant.

366
00:20:16,880 --> 00:20:18,630
Si vous jetez un oeil à
Amazon, par exemple,

367
00:20:18,630 --> 00:20:20,870
et vous effectuez une recherche pour
beignets dans les livres,

368
00:20:20,870 --> 00:20:27,080
ici ils ont une série de livres,
et ils sont regroupés par catégorie,

369
00:20:27,080 --> 00:20:30,470
et vous obtenez les différentes catégories,
et combien de livres dans chaque catégorie

370
00:20:30,470 --> 00:20:31,330
montrer.

371
00:20:31,330 --> 00:20:33,420
>> Donc, ce est essentiellement une facette.

372
00:20:33,420 --> 00:20:37,570
Vous prenez tous leurs livres, le 1800
livres qui correspondent à beignets sur Amazon.

373
00:20:37,570 --> 00:20:39,820
12 d'entre eux sont en
petit catégorie.

374
00:20:39,820 --> 00:20:43,100
21 en pâtisserie et boulangerie,
et ainsi de suite et ainsi de suite.

375
00:20:43,100 --> 00:20:47,670
>> Donc, ce est vraiment un utile
outil pour explorer le contenu

376
00:20:47,670 --> 00:20:53,260
au sein de la bibliothèque ainsi
parce que quand vous regardez une facette,

377
00:20:53,260 --> 00:20:56,520
il vous donne une idée de quels sujets
existe, comme quels types de sujets

378
00:20:56,520 --> 00:20:58,510
sont les plus populaires au sein de votre groupe de recherche.

379
00:20:58,510 --> 00:21:00,950
Et il vous permet de conduire et hors explorer.

380
00:21:00,950 --> 00:21:02,770
Donc, nous pouvons faire la même chose.

381
00:21:02,770 --> 00:21:05,940
>> Si nous voulons utiliser la
API et de regarder facettes,

382
00:21:05,940 --> 00:21:08,950
nous ajoutons un autre paramètre à
notre ami la chaîne de requête.

383
00:21:08,950 --> 00:21:12,540
Donc facettes égale séparées par une virgule
liste de ce que nous voulons sur facette.

384
00:21:12,540 --> 00:21:14,790
Donc l'une des facettes pourrait faire l'objet.

385
00:21:14,790 --> 00:21:16,565
Un autre pourrait être la langue.

386
00:21:16,565 --> 00:21:19,665
Et si nous courons cette requête, nous get--

387
00:21:19,665 --> 00:21:23,372

388
00:21:23,372 --> 00:21:24,830
Il semble à peu près la même chose ici.

389
00:21:24,830 --> 00:21:29,010
Mais nous avons ajouté à la fin
de la liste un ensemble de facettes.

390
00:21:29,010 --> 00:21:34,060
Nous avons donc une facette appelée sujet.

391
00:21:34,060 --> 00:21:40,250
Donc, ce est de nous dire que si je regarde
mes 80 résultats de la requête de beignet,

392
00:21:40,250 --> 00:21:42,100
13 d'entre eux ont le
soumettre États-Unis.

393
00:21:42,100 --> 00:21:43,684
Trois ont soumis les beignets.

394
00:21:43,684 --> 00:21:45,600
Trois ont fait l'objet
de restauration des zones humides,

395
00:21:45,600 --> 00:21:47,720
qui peut être notre trou dans le beignet.

396
00:21:47,720 --> 00:21:51,780
Deux d'entre eux, les Simpsons,
et ainsi de suite et ainsi de suite.

397
00:21:51,780 --> 00:21:59,211
>> Donc cela peut être utile si vous
vouloir affiner votre recherche.

398
00:21:59,211 --> 00:22:00,210
Il peut vous aider à le faire.

399
00:22:00,210 --> 00:22:03,580
Surtout si vous avez
plus de, disons, 80 résultats.

400
00:22:03,580 --> 00:22:05,980
>> De même, nous avons également demandé
pour facettes sur la langue.

401
00:22:05,980 --> 00:22:14,790
Donc, si nous regardons nos résultats, nous voyons 76
d'entre eux sont en anglais, quatre en français,

402
00:22:14,790 --> 00:22:19,620
deux en espagnol, deux, je pense que ce est
undefined ou inconnu, néerlandais et latine.

403
00:22:19,620 --> 00:22:22,830
Donc, je pense que la latine
résultat beignet, à nouveau,

404
00:22:22,830 --> 00:22:24,922
n'a rien à voir avec les produits de boulangerie.

405
00:22:24,922 --> 00:22:25,630
Mais là vous allez.

406
00:22:25,630 --> 00:22:31,420

407
00:22:31,420 --> 00:22:38,630
>> Donc, ce est une sorte de vous montrer
comment vous pouvez récupérer le contenu

408
00:22:38,630 --> 00:22:41,270
de l'API seulement par
navigateur web, ce qui est excellent.

409
00:22:41,270 --> 00:22:44,320
Mais ce ne est pas vraiment ce que vous feriez
être normalement à l'aide de l'API pour elle.

410
00:22:44,320 --> 00:22:48,710
Donc, un exemple de la façon dont vous
pourrait effectivement faire ce est que je ai

411
00:22:48,710 --> 00:22:54,720
écrit d'un super petit programme,
qui, là encore, ma recherche de beigne

412
00:22:54,720 --> 00:22:59,010
et sélectionne un champs couple
et les affiche dans un tableau.

413
00:22:59,010 --> 00:23:01,610
Donc, ce est bien le
même contenu que nous venons

414
00:23:01,610 --> 00:23:04,830
scie avec quelques champs sorti.

415
00:23:04,830 --> 00:23:12,090
Donc liste des titres, les
emplacement de ce que le livre

416
00:23:12,090 --> 00:23:15,120
est sur le point, la langue,
et ainsi de suite et ainsi de suite.

417
00:23:15,120 --> 00:23:20,480
>> Alors, comment cela se est réellement passé, depuis
Je suppose que nous devons regarder un peu de code,

418
00:23:20,480 --> 00:23:22,420
est--

419
00:23:22,420 --> 00:23:28,060
>> Ce que nous avons ici est un code HTML simple
Cette page, qui affiche du texte,

420
00:23:28,060 --> 00:23:32,900
accueillir au cloud et bibliothèque
puis affiche un tableau de résultats.

421
00:23:32,900 --> 00:23:37,790
Et il ya évidemment aucun résultat en
la table lorsque la page est chargée.

422
00:23:37,790 --> 00:23:41,380
Mais ce que nous faisons
est, tout d'abord, nous

423
00:23:41,380 --> 00:23:46,290
sont le chargement d'une bibliothèque appelée
jQuery, qui est essentiellement

424
00:23:46,290 --> 00:23:52,030
une bibliothèque JavaScript qui rend
très facile de manipuler JavaScript

425
00:23:52,030 --> 00:23:58,780
nativement, HTML, et créer des pages web,
logique côté client et des pages Web.

426
00:23:58,780 --> 00:24:01,595
>> Donc ce que nous avons ici est jQuery
a une méthode appelée Get,

427
00:24:01,595 --> 00:24:05,270
qui, essentiellement, ira à
une URL, ce qui, dans ce cas,

428
00:24:05,270 --> 00:24:09,070
est cette URL regardant familier.

429
00:24:09,070 --> 00:24:14,440
Et ensuite obtenir le contenu de
cette URL, puis exécuter une fonction sur elle.

430
00:24:14,440 --> 00:24:19,240
Alors nous avons dit aller à api.lib.harvard / edu.

431
00:24:19,240 --> 00:24:20,060
Rechercher des beignets.

432
00:24:20,060 --> 00:24:21,300
Donnez-nous 20 dossiers.

433
00:24:21,300 --> 00:24:28,590
Et puis exécutez cette fonction, qui
Je ai choisi, en lui passant les données.

434
00:24:28,590 --> 00:24:34,430
Et les données qui est le JSON
fit rentrer de l'API.

435
00:24:34,430 --> 00:24:40,120
>> Et puis nous disons, dans ce
données il ya un champ appelé élément.

436
00:24:40,120 --> 00:24:48,117
Et si je vais prendre un regard rétrospectif sur
une de ces résultats qui est ici,

437
00:24:48,117 --> 00:24:49,200
il ya quelque chose called--

438
00:24:49,200 --> 00:24:50,220
>> Eh bien, ce est ce qu'on appelle l'article.

439
00:24:50,220 --> 00:24:53,520
Ce est peut être cela.

440
00:24:53,520 --> 00:25:01,840
Et ce qu'il fait est-il
passe à travers chaque élément

441
00:25:01,840 --> 00:25:05,300
puis appelle une autre
fonction sur chaque élément.

442
00:25:05,300 --> 00:25:08,440
Et cette fonction essentiellement
prend la valeur

443
00:25:08,440 --> 00:25:12,010
de ce point, qui est
essentiellement dans le dossier individuel

444
00:25:12,010 --> 00:25:18,220
et nous permet de sortir le titre,
la couverture et la langue.

445
00:25:18,220 --> 00:25:21,640
>> Nous appelons donc une fonction sur tous les
élément que nous sommes rentrés de l'API.

446
00:25:21,640 --> 00:25:25,397
Et si vous venez de prendre un coup d'oeil
ce morceau ici,

447
00:25:25,397 --> 00:25:27,230
ce que nous faisons est
nous créons une chaîne,

448
00:25:27,230 --> 00:25:31,810
qui est essentiellement certaines balises HTML
autour d'une table, avec value.title,

449
00:25:31,810 --> 00:25:35,790
qui est le titre de la
objet, value.coverage,

450
00:25:35,790 --> 00:25:36,790
qui est la couverture, -

451
00:25:36,790 --> 00:25:38,225
>> Et nous faisons un chèque
ici pour voir qui est undefined

452
00:25:38,225 --> 00:25:40,570
et cacher si elle dit non définie,
parce que nous ne sommes pas vraiment intéressés

453
00:25:40,570 --> 00:25:41,600
en ce que.

454
00:25:41,600 --> 00:25:42,939
>> --et puis la langue.

455
00:25:42,939 --> 00:25:44,730
Et puis ce que nous sommes
faire est ajoutant que

456
00:25:44,730 --> 00:25:48,510
à la table qui est
identifié par cette chaîne ici.

457
00:25:48,510 --> 00:25:50,790
Et comment fonctionne jQuery
est ce que cela veut dire,

458
00:25:50,790 --> 00:25:56,420
est de regarder pour la table avec l'idée
résultats et ajouter ce texte à elle.

459
00:25:56,420 --> 00:25:59,380
Et ce est la table avec des résultats idée.

460
00:25:59,380 --> 00:26:04,998
Donc ce que vous finissez par
avec cette page est ici.

461
00:26:04,998 --> 00:26:06,206
Et pour voir source--

462
00:26:06,206 --> 00:26:11,310

463
00:26:11,310 --> 00:26:13,810
Eh bien, la source ne est pas fait
mise à jour quand ce est arrivé.

464
00:26:13,810 --> 00:26:18,740
Donc vous pouvez voir le réel
résultats de la table ici cependant.

465
00:26:18,740 --> 00:26:24,770
>> Donc, ce est juste un exemple simple de
faire une requête très basique contre l'API

466
00:26:24,770 --> 00:26:29,020
et l'affichage d'informations dans une autre
former, et ne pas faire quelque chose de trop de fantaisie.

467
00:26:29,020 --> 00:26:36,370
Maintenant, un autre exemple est comme un
demande écrite par David Weinberger

468
00:26:36,370 --> 00:26:39,120
comme une démonstration de ce qui
vous montre essentiellement

469
00:26:39,120 --> 00:26:44,620
comment vous pouvez écraser les résultats que vous recherchez
obtenir de l'API bibliothèque de cloud

470
00:26:44,620 --> 00:26:46,250
avec, par exemple, de Google Livres.

471
00:26:46,250 --> 00:26:52,225
>> Et la pensée, ce est que je peux
exécuter une requête contre Google Livres,

472
00:26:52,225 --> 00:26:56,060
obtenir une recherche en texte intégral, obtenir des résultats
dos, savoir lequel de ces éléments

473
00:26:56,060 --> 00:27:01,180
exister réellement dans Hollis,
le système de bibliothèque,

474
00:27:01,180 --> 00:27:03,200
puis donnez-moi liens
retour à ces éléments.

475
00:27:03,200 --> 00:27:12,730
Donc, si je cherche, ce était
une nuit sombre et orageuse, je

476
00:27:12,730 --> 00:27:16,210
récupérer un tas de résultats
Google, puis une suite

477
00:27:16,210 --> 00:27:19,460
qui est A Wrinkle in Time.

478
00:27:19,460 --> 00:27:29,330
Et ce sont des liens vers des livres qui existent
dans le système de Harvard Library.

479
00:27:29,330 --> 00:27:32,160
>> Donc je suppose que le point ici ne est pas
tant que ce peut ou non

480
00:27:32,160 --> 00:27:34,118
être la manière que vous voulez
pour rechercher la bibliothèque,

481
00:27:34,118 --> 00:27:38,310
mais il est tout à fait différent d'un
manière qui ne était pas disponible pour vous

482
00:27:38,310 --> 00:27:42,884
avant, comme vous ne avait aucun moyen de faire
texte intégral recherches sur les livres que même

483
00:27:42,884 --> 00:27:44,550
faisaient partie du système Harvard Library.

484
00:27:44,550 --> 00:27:46,870
Alors maintenant, ce est une façon
que vous pouvez faire.

485
00:27:46,870 --> 00:27:51,930
Et vous pouvez les afficher dans
le format que vous voulez.

486
00:27:51,930 --> 00:27:55,990
Ainsi, le point ici est, essentiellement,
nous ouvrons de nouvelles façons pour les gens

487
00:27:55,990 --> 00:27:59,080
de travailler avec les données.

488
00:27:59,080 --> 00:28:07,925
>> Un autre morceau de nuage bibliothèque est que
il permet d'exposer une partie des données d'utilisation

489
00:28:07,925 --> 00:28:08,800
que la bibliothèque possède.

490
00:28:08,800 --> 00:28:12,630
Donc, si vous allez à la bibliothèque,
et vous êtes à la recherche pour les livres,

491
00:28:12,630 --> 00:28:15,770
vous ne avez pas nécessairement
ont fait une idée de,

492
00:28:15,770 --> 00:28:19,080
pour tous les éléments d'une
sujet particulier, ce

493
00:28:19,080 --> 00:28:21,200
ya des gens dans le
la communauté, que ce soit

494
00:28:21,200 --> 00:28:24,890
défini comme la Harvard ou
pays ou votre classe,

495
00:28:24,890 --> 00:28:26,421
Qu'ont-ils trouvé le plus utile?

496
00:28:26,421 --> 00:28:28,920
Et la bibliothèque a fait un
tonne d'informations sur ce

497
00:28:28,920 --> 00:28:32,999
est plus utile parce que si beaucoup
de personnes vérifient un livre,

498
00:28:32,999 --> 00:28:34,040
cela vous dit quelque chose.

499
00:28:34,040 --> 00:28:36,498
Il doit y avoir une raison
ils veulent vérifier.

500
00:28:36,498 --> 00:28:38,270
Beaucoup de gens mettre sur réserve.

501
00:28:38,270 --> 00:28:42,520
>> Si ce est sur la liste de réserve pour beaucoup
des classes, cela vous dit quelque chose.

502
00:28:42,520 --> 00:28:45,960
Si les membres du corps professoral sont vérifiant
un lot et étudiants ne sont pas,

503
00:28:45,960 --> 00:28:47,200
qui me dit quelque chose.

504
00:28:47,200 --> 00:28:49,280
Vice versa, qui a également
vous dit quelque chose.

505
00:28:49,280 --> 00:28:54,680
Donc, il serait vraiment intéressant de
mettre ces informations là-bas et laisser

506
00:28:54,680 --> 00:28:59,969
les gens l'utilisent pour les aider à trouver
travaille au sein du système de bibliothèque.

507
00:28:59,969 --> 00:29:02,260
Le revers de la médaille est
il ya un peu d'intimité sérieuse

508
00:29:02,260 --> 00:29:07,854
préoccupations, car l'un des
principes fondamentaux de la bibliothèque

509
00:29:07,854 --> 00:29:10,770
ce est que nous ne allons pas être dire
aux gens ce que d'autres personnes sont la lecture.

510
00:29:10,770 --> 00:29:17,360
Et même si vous dites cela
livre a été vérifié quatre fois

511
00:29:17,360 --> 00:29:20,070
dans un mois donné,
qui pourraient être utilisés

512
00:29:20,070 --> 00:29:25,252
faire un lien vers un particulier
personne par des données anonymes de-

513
00:29:25,252 --> 00:29:26,710
et savoir qui a extrait.

514
00:29:26,710 --> 00:29:30,792
Donc, la façon dont nous pouvons avoid--

515
00:29:30,792 --> 00:29:33,750
La façon dont nous pouvons essayer d'en extraire
quelque signal de toutes les informations

516
00:29:33,750 --> 00:29:36,740
sans porter atteinte
la vie privée des préoccupations de personne

517
00:29:36,740 --> 00:29:42,150
est essentiellement nous regardons
10 années de données sur l'utilisation, -

518
00:29:42,150 --> 00:29:43,930
>> Ce est donc sur une longue période de temps.

519
00:29:43,930 --> 00:29:50,639
>> --et dire, OK, nous allons voir comment
de nombreuses fois ce travail a été utilisé,

520
00:29:50,639 --> 00:29:52,930
et par qui, au cours de cette période
de temps, et ensuite essentiellement

521
00:29:52,930 --> 00:29:56,300
redonner un certain nombre, que nous appelons
un score de pile, qui essentiellement

522
00:29:56,300 --> 00:29:59,910
représente combien il a été utilisé.

523
00:29:59,910 --> 00:30:01,084
Et ce number--

524
00:30:01,084 --> 00:30:03,250
Beaucoup de différents calculs
aller dans ce nombre.

525
00:30:03,250 --> 00:30:05,150
--mais ce est un très rugueux
métrique qui vous donne

526
00:30:05,150 --> 00:30:11,300
une certaine idée de la façon dont le
communauté peut évaluer ce travail.

527
00:30:11,300 --> 00:30:16,772
>> Et donc une autre sorte de même
plus étoffé demande

528
00:30:16,772 --> 00:30:18,480
qui prend l'avantage
Ce est quelque chose de

529
00:30:18,480 --> 00:30:24,000
Stacklife appelé, qui est en fait
disponible par l'intermédiaire du principal Harvard

530
00:30:24,000 --> 00:30:24,880
Portail Bibliothèque.

531
00:30:24,880 --> 00:30:26,700
Alors vous allez à library.harvard.edu.

532
00:30:26,700 --> 00:30:29,360
Vous verrez un certain nombre de différents
façons de rechercher la bibliothèque.

533
00:30:29,360 --> 00:30:32,300
Et l'un d'eux est appelé Stacklife.

534
00:30:32,300 --> 00:30:38,980
>> Et ce est une application qui
navigue le contenu de la bibliothèque,

535
00:30:38,980 --> 00:30:43,490
mais il est entièrement construit
sur le dessus de ces API.

536
00:30:43,490 --> 00:30:46,910
Il n'y a donc pas de choses spéciale
passe dans les coulisses.

537
00:30:46,910 --> 00:30:49,570
Il n'y a pas accès à
données que vous ne avez pas.

538
00:30:49,570 --> 00:30:54,090
Ce est en utilisant les API de vous fournir
avec un parcours complètement différent

539
00:30:54,090 --> 00:30:55,480
expérience.

540
00:30:55,480 --> 00:30:58,570
>> Donc, si je cherche pour Alice
au pays des merveilles dans ce cas,

541
00:30:58,570 --> 00:31:02,600
Je obtiens un résultat qui ressemble à
ce qui est assez much--

542
00:31:02,600 --> 00:31:05,430

543
00:31:05,430 --> 00:31:10,870
>> Il est très similaire à une autre recherche
vous pourriez faire, sauf dans ce cas

544
00:31:10,870 --> 00:31:15,730
nous classer les articles par
stackscore, qui vous donne

545
00:31:15,730 --> 00:31:19,850
une idée de la popularité de ces
articles étaient sein de la communauté.

546
00:31:19,850 --> 00:31:25,610
Et si clairement, Alice au pays des merveilles
par Walt Disney est très populaire.

547
00:31:25,610 --> 00:31:36,570
Mais vous pouvez aussi voir les quatre premiers
voici ceux que vous pourriez ne pas actually--

548
00:31:36,570 --> 00:31:39,220
>> Les choses qui sont très utilisés,
mais vous ne pouvez pas immédiatement

549
00:31:39,220 --> 00:31:41,240
connecter avec Alice in Wonderland.

550
00:31:41,240 --> 00:31:44,650
Donc, notre vieil ami Le
Annoté Alice est ici.

551
00:31:44,650 --> 00:31:46,350
Donc, je peux prendre un coup d'oeil.

552
00:31:46,350 --> 00:31:52,010
Et maintenant que je suis à la recherche
AT est essentiellement un ensemble de--

553
00:31:52,010 --> 00:31:53,760
Je peux avoir The Annotated
Alice ici.

554
00:31:53,760 --> 00:31:56,700
Je ai des informations à ce sujet.

555
00:31:56,700 --> 00:32:00,230
Et je ai aussi un stackscore
de, dans ce cas, 26.

556
00:32:00,230 --> 00:32:03,169
Et cela me dit sorte d'environ
comment nous sommes arrivés à cette stackscore,

557
00:32:03,169 --> 00:32:05,835
comme qui a extrait, comme la façon dont
Plusieurs fois, il a été vérifié,

558
00:32:05,835 --> 00:32:08,440
comme faculté ou étudiants de premier cycle, comment
de nombreuses copies de la bibliothèque, a

559
00:32:08,440 --> 00:32:11,300
et ainsi de suite et ainsi de suite.

560
00:32:11,300 --> 00:32:16,460
>> Et vous pouvez aussi, assez intéressant
ici, parcourir les piles virtuellement.

561
00:32:16,460 --> 00:32:19,550
Ainsi, les données présentées ici, ce
est vous montrant tri

562
00:32:19,550 --> 00:32:23,547
d'une représentation virtuelle
de ce que l'étagère puissance

563
00:32:23,547 --> 00:32:25,880
ressembler si vous deviez prendre
toutes les exploitations de la bibliothèque

564
00:32:25,880 --> 00:32:28,940
et les mettre ensemble
sur une durée infinie.

565
00:32:28,940 --> 00:32:30,990
Et la bonne chose est que nous can--

566
00:32:30,990 --> 00:32:33,380
>> Tout d'abord, la
métadonnées sur ces livres

567
00:32:33,380 --> 00:32:35,627
vous dit souvent, quand il a été publié.

568
00:32:35,627 --> 00:32:37,085
Il vous indique le nombre de pages dont il dispose.

569
00:32:37,085 --> 00:32:38,459
Il pourrait vous dire les dimensions.

570
00:32:38,459 --> 00:32:42,930
Donc vous pouvez voir cela se reflète ici
en termes de la taille des livres.

571
00:32:42,930 --> 00:32:46,740
>> Et puis nous pouvons utiliser la
empiler pointage de mettre en évidence

572
00:32:46,740 --> 00:32:49,170
les livres qui ont des scores plus élevés de la pile.

573
00:32:49,170 --> 00:32:54,930
Donc, si ce est plus sombre, cela signifie que,
sans doute, il est utilisé plus fréquemment.

574
00:32:54,930 --> 00:32:57,040
Donc dans ce cas, je suis
vais deviner que cette

575
00:32:57,040 --> 00:33:03,226
est la version d'Alice au pays des merveilles
qui est très couramment utilisé et le plus

576
00:33:03,226 --> 00:33:05,100
consultée, la bibliothèque
a le plus de copies de.

577
00:33:05,100 --> 00:33:06,975
Donc, si vous êtes à la recherche
pour Alice au pays des merveilles,

578
00:33:06,975 --> 00:33:10,220
cela pourrait être un bon endroit pour commencer.

579
00:33:10,220 --> 00:33:13,500
>> Et puis là, vous pouvez également lier à
à, disons, Amazon pour acheter le livre,

580
00:33:13,500 --> 00:33:15,182
et ainsi de suite et ainsi de suite.

581
00:33:15,182 --> 00:33:17,140
Le point ici, encore une fois,
ne est pas tant que ce

582
00:33:17,140 --> 00:33:25,030
est le meilleur moyen de parcourir la bibliothèque
ou le bon outil pour chaque occasion.

583
00:33:25,030 --> 00:33:28,400
Mais ce est une autre façon de le faire.

584
00:33:28,400 --> 00:33:31,359
Et en faisant les données
disponible via une API, ce qui

585
00:33:31,359 --> 00:33:34,650
est constitué de blocs de construction très simples,
qui vous permet de rechercher le contenu,

586
00:33:34,650 --> 00:33:39,420
vous pouvez construire quelque chose
ce genre qui peut

587
00:33:39,420 --> 00:33:41,520
être extraordinairement
précieux pour certaines personnes.

588
00:33:41,520 --> 00:33:46,640

589
00:33:46,640 --> 00:33:51,860
>> Donc, ce est en quelque sorte, autant que je veux
à-dire vraiment à ce que l'API est

590
00:33:51,860 --> 00:33:56,070
et ce qu'il expose, il ya un ensemble de
tas de choses dans les coulisses, qui

591
00:33:56,070 --> 00:33:59,480
Je vais aborder brièvement
juste parce que ce genre de est à ce

592
00:33:59,480 --> 00:34:03,720
sous un angle complètement différent dans
termes de comment fonctionne quelque chose comme ça

593
00:34:03,720 --> 00:34:04,580
se mettre en place?

594
00:34:04,580 --> 00:34:10,820
>> Donc, une API est une norme
interfacer avec tout ce contenu.

595
00:34:10,820 --> 00:34:13,820
Mais pour en arriver là, le
première chose que nous avions à faire

596
00:34:13,820 --> 00:34:17,260
a été de rassembler des informations
des livres et des images

597
00:34:17,260 --> 00:34:21,580
et les aides à la recherche, la collecte
document à partir de différents systèmes de Harvard.

598
00:34:21,580 --> 00:34:23,929
Aleph, VIA et OASIS sont
les noms des systèmes.

599
00:34:23,929 --> 00:34:28,820
Et ils vont essentiellement dans un
pipeline, un pipeline de traitement.

600
00:34:28,820 --> 00:34:33,230
>> Alors tout d'abord, nous obtenons l'exportation
fichiers de tous ces systèmes.

601
00:34:33,230 --> 00:34:35,130
Nous les avons divisés en éléments individuels.

602
00:34:35,130 --> 00:34:39,360
Donc, nous avons un fichier, qui est un gigaoctet,
qui a un million de disques en elle.

603
00:34:39,360 --> 00:34:42,290
Donc, nous scinder en éléments individuels.

604
00:34:42,290 --> 00:34:45,374
Ensuite, pour chaque article, nous convertissons
dans MODS, parce que certains d'entre eux

605
00:34:45,374 --> 00:34:47,040
MODS sont nativement, certains d'entre eux ne sont pas.

606
00:34:47,040 --> 00:34:49,204
Donc nous les recevons tous à
être dans le même format.

607
00:34:49,204 --> 00:34:51,120
Ensuite, il ya diverses
où les étapes d'enrichissement,

608
00:34:51,120 --> 00:34:55,969
nous ajoutons plus d'informations aux données
celui qui était disponible dans la bibliothèque.

609
00:34:55,969 --> 00:34:59,750
Nous avons donc besoin d'ajouter, d'abord
nous avons ce bibliothèques tenir.

610
00:34:59,750 --> 00:35:02,250
Nous passons par une étape de
le calcul de la stackscore.

611
00:35:02,250 --> 00:35:07,112
Nous passons par une autre étape de
ajoutant plus de métadonnées en termes

612
00:35:07,112 --> 00:35:10,730
de ce que les gens collections
aurait pu ajouter this--

613
00:35:10,730 --> 00:35:12,532
>> Les gens créent
collections d'objets.

614
00:35:12,532 --> 00:35:13,990
Quelles collections appartient-il?

615
00:35:13,990 --> 00:35:17,220
Comment les gens ont marqués
ce contenu dans le passé?

616
00:35:17,220 --> 00:35:20,750
Puis vous filtrez, et vous limitez
les dossiers parce que, comme je l'ai mentionné,

617
00:35:20,750 --> 00:35:24,120
il ya certains documents qui, en raison de
des raisons de copyright, nous ne pouvons pas afficher.

618
00:35:24,120 --> 00:35:26,700
Et puis nous chargeons de les
en quelque chose appelé

619
00:35:26,700 --> 00:35:31,680
Solr, qui ne est pas une faute d'orthographe, mais
est le nom d'un morceau de logiciel

620
00:35:31,680 --> 00:35:35,710
cela ne l'indexation de recherche, qui
entraîne toute la recherche derrière l'API.

621
00:35:35,710 --> 00:35:40,110
Et il devient alors disponible pour
les API, et les gens peuvent l'utiliser.

622
00:35:40,110 --> 00:35:44,640
>> Donc, ce est comme un assez
processus simple.

623
00:35:44,640 --> 00:35:47,230
L'un des intéressant
choses à ce sujet est

624
00:35:47,230 --> 00:35:50,990
que nous traitons
avec 13 millions de disques

625
00:35:50,990 --> 00:35:53,820
et nous allons traiter ou plus.

626
00:35:53,820 --> 00:36:01,260
Et nous voulons être en mesure de gérer
ceux-ci d'une manière relativement rapide.

627
00:36:01,260 --> 00:36:03,630
Il faut beaucoup de temps pour
traiter 13 millions de dossiers.

628
00:36:03,630 --> 00:36:09,529
>> Alors, comment ce pipeline est
mis en place est que vous can--

629
00:36:09,529 --> 00:36:12,070
Je suppose que l'avantage de la
pipeline, le problème que nous sommes

630
00:36:12,070 --> 00:36:15,580
essayer de résoudre ici, ce est que
toutes les transformations, toutes

631
00:36:15,580 --> 00:36:18,729
ces étapes de cette
pipeline sont séparables.

632
00:36:18,729 --> 00:36:19,645
Il n'y a pas de dépendance.

633
00:36:19,645 --> 00:36:22,146
Si vous traitez
un record d'un livre,

634
00:36:22,146 --> 00:36:24,270
il n'y a aucune dépendance
qu'entre un autre livre.

635
00:36:24,270 --> 00:36:27,760
>> Donc, ce que nous pouvons faire, ce est essentiellement,
à chaque étape du pipeline,

636
00:36:27,760 --> 00:36:30,470
nous l'avons mis dans une file d'attente dans le nuage.

637
00:36:30,470 --> 00:36:32,250
Il me est arrivé d'être sur Amazon Web Services.

638
00:36:32,250 --> 00:36:35,140
Donc, il ya une liste de,
dire, 10 000 articles qui

639
00:36:35,140 --> 00:36:38,100
doivent être normalisées et
convertis au format MODS.

640
00:36:38,100 --> 00:36:41,620
Et nous filons autant de serveurs
que nous voulons, peut-être 10 serveurs.

641
00:36:41,620 --> 00:36:44,860
Et chacun de ces serveurs juste
il se assied, regarde dans cette file d'attente,

642
00:36:44,860 --> 00:36:46,730
voit qu'il ya une qui doit
traiter, en tire la file d'attente,

643
00:36:46,730 --> 00:36:48,740
traite et bâtons
sur la file d'attente suivant.

644
00:36:48,740 --> 00:36:54,200
>> Et qu'est-ce qui nous permet
à faire est d'appliquer, pour l'essentiel,

645
00:36:54,200 --> 00:36:58,110
autant le matériel que nous voulons à ce
problème pendant une très courte période de temps

646
00:36:58,110 --> 00:37:02,970
à traiter les données aussi rapidement que
possible, ce qui est quelque chose que seul,

647
00:37:02,970 --> 00:37:08,220
maintenant dans le monde du cloud computing
Nous pouvons serveurs de mise à disposition essentiellement

648
00:37:08,220 --> 00:37:09,890
instantanément, est très utile.

649
00:37:09,890 --> 00:37:12,260
Donc, nous ne avons pas à avoir une
serveur géant assis autour

650
00:37:12,260 --> 00:37:16,700
tout le temps de faire le traitement
cela pourrait se produire qu'une fois par semaine.

651
00:37:16,700 --> 00:37:21,440
>> Donc, ce est cela la plupart du temps.

652
00:37:21,440 --> 00:37:27,590
Il ya documentation disponible
pour l'API Point Bibliothèque Couverture

653
00:37:27,590 --> 00:37:31,960
à cette adresse URL, qui sera
sera disponible plus tard.

654
00:37:31,960 --> 00:37:36,730
Et se il vous plaît aller jeter un oeil à
pour voir si il ya quelque chose,

655
00:37:36,730 --> 00:37:37,579
vous avez des idées.

656
00:37:37,579 --> 00:37:38,120
Jouez avec lui.

657
00:37:38,120 --> 00:37:38,830
Batifoler.

658
00:37:38,830 --> 00:37:42,800
Et je espère que vous pouvez venir
avec quelque chose de grand.

659
00:37:42,800 --> 00:37:44,740
Merci.

660
00:37:44,740 --> 00:37:45,899