1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY Licht: Salut là. 3 00:00:12,370 --> 00:00:13,550 Je suis Jeffrey Licht. 4 00:00:13,550 --> 00:00:17,890 Et je suis ici pour vous parler de la Harvard édifice de Bibliothèque et demain 5 00:00:17,890 --> 00:00:20,870 bibliothèque aujourd'hui, je suppose. 6 00:00:20,870 --> 00:00:23,040 Ainsi, le fond ici, le terrain pour cette session 7 00:00:23,040 --> 00:00:26,930 est essentiellement qu'il ne existe beaucoup de données bibliographiques 8 00:00:26,930 --> 00:00:28,400 disponible dans les bibliothèques de Harvard. 9 00:00:28,400 --> 00:00:33,434 Et il ya une possibilité, par certains des outils 10 00:00:33,434 --> 00:00:36,350 et un projet qui est en cours d'élaboration, pour avoir accès à l'information 11 00:00:36,350 --> 00:00:42,430 et le prendre à des endroits que le Harvard Library ne est pas en train de faire en ce moment, 12 00:00:42,430 --> 00:00:45,460 faire des choses nouvelles avec elle, l'expérience et jouer avec elle. 13 00:00:45,460 --> 00:00:52,413 >> Ainsi, le point d'entrée dans ce est une API appelé le Harvard Bibliothèque Cloud, 14 00:00:52,413 --> 00:00:57,650 est un serveur de métadonnées ouverte, dont je vais parler maintenant. 15 00:00:57,650 --> 00:01:02,595 Donc, le fond est qu'il existe un beaucoup de choses dans la bibliothèque de Harvard. 16 00:01:02,595 --> 00:01:07,150 Nous avons plus de 13 millions bibliographique dossiers, des millions d'images, 17 00:01:07,150 --> 00:01:11,090 et des milliers de instruments de recherche, qui sont essentiellement des documents décrivant 18 00:01:11,090 --> 00:01:15,500 collections, en disant ce que qui est en eux, boîtes de documents 19 00:01:15,500 --> 00:01:21,080 etc., qui représentent plus de un million de documents individuels. 20 00:01:21,080 --> 00:01:24,290 Et il ya aussi beaucoup de informations que la bibliothèque a 21 00:01:24,290 --> 00:01:28,180 sur la façon dont le contenu est utilisé que pourrait être d'intérêt pour les gens 22 00:01:28,180 --> 00:01:32,400 qui pourrait vouloir travailler avec elle. 23 00:01:32,400 --> 00:01:36,150 >> Ainsi, toutes les informations la bibliothèque possède des métadonnées. 24 00:01:36,150 --> 00:01:39,500 Donc métadonnées sont des données sur les données. 25 00:01:39,500 --> 00:01:42,070 Alors, quand on parle de l'information qui est 26 00:01:42,070 --> 00:01:44,890 disponibles à la bibliothèque nuage qui est disponible, 27 00:01:44,890 --> 00:01:47,760 ce ne est pas nécessairement les documents réels 28 00:01:47,760 --> 00:01:53,060 eux-mêmes, pas nécessairement la pleine texte de livres ou les images complètes, 29 00:01:53,060 --> 00:01:54,890 si ce fait peut être le cas. 30 00:01:54,890 --> 00:01:57,550 Mais ce est vraiment informations sur les données. 31 00:01:57,550 --> 00:02:00,909 >> Alors vous pouvez penser catalogage informations, numéros d'appel, les sujets, 32 00:02:00,909 --> 00:02:02,700 le nombre de copies de la livre il ya, ce 33 00:02:02,700 --> 00:02:06,380 sont les éditions, ce sont les formats, les auteurs, et ainsi de suite. 34 00:02:06,380 --> 00:02:12,250 Donc, il ya beaucoup d'informations sur les informations contenues dans la collection, 35 00:02:12,250 --> 00:02:14,400 en soi, est une sorte de nature utile. 36 00:02:14,400 --> 00:02:19,230 Et bien si vous êtes faire de la recherche en profondeur, 37 00:02:19,230 --> 00:02:25,160 vous voulez évidemment se rendre à la réelle contenu lui-même et de regarder les données, 38 00:02:25,160 --> 00:02:30,140 les métadonnées est utile en termes de à la fois l'analyse du corpus dans son ensemble, 39 00:02:30,140 --> 00:02:33,870 comme ce que les choses sont dans la collection. 40 00:02:33,870 --> 00:02:35,520 Comment se rapportent-ils? 41 00:02:35,520 --> 00:02:39,482 Il vous aide à trouver vraiment d'autres choses, qui est vraiment l'objectif principal de celui-ci. 42 00:02:39,482 --> 00:02:41,190 Le point de la métadonnées et le catalogue 43 00:02:41,190 --> 00:02:43,230 est de vous aider à trouver tout l'information qui est 44 00:02:43,230 --> 00:02:46,590 disponibles dans les collections. 45 00:02:46,590 --> 00:02:53,690 >> Donc, ce est un exemple de métadonnées pour un livre dans la bibliothèque de Harvard. 46 00:02:53,690 --> 00:02:56,370 Donc, ce est là. 47 00:02:56,370 --> 00:02:59,850 Et vous pouvez voir que ce est effectivement modérément complexe. 48 00:02:59,850 --> 00:03:04,610 Et une partie de la valeur de métadonnées dans le système Harvard Bibliothèque 49 00:03:04,610 --> 00:03:09,320 est qu'il a été tri de construction par les catalogueurs 50 00:03:09,320 --> 00:03:12,720 et assemblés par les personnes qui demandent beaucoup d'expertise et de compétence 51 00:03:12,720 --> 00:03:20,030 et je ai pensé à elle au fil du temps, qui a beaucoup de valeur. 52 00:03:20,030 --> 00:03:25,450 >> Donc, si vous jetez un oeil à cet enregistrement pour The Annotated Alice, vous pouvez savoir 53 00:03:25,450 --> 00:03:32,590 vous avez le titre, qui l'a écrit, le auteur, et tous les différents sujets 54 00:03:32,590 --> 00:03:35,380 laquelle les gens ont catalogué dans. 55 00:03:35,380 --> 00:03:40,110 Et vous pouvez le voir il ya aussi, dans plus de beaucoup de bonnes informations 56 00:03:40,110 --> 00:03:42,852 ici, il ya un certain chevauchement. 57 00:03:42,852 --> 00:03:45,560 Il ya beaucoup de complexité qui est réfléchie par les métadonnées 58 00:03:45,560 --> 00:03:46,300 que vous avez. 59 00:03:46,300 --> 00:03:50,320 >> Donc, un titre de ce livre est Alice au pays des merveilles. 60 00:03:50,320 --> 00:03:53,880 Ce est donc une annoté version de ce livre. 61 00:03:53,880 --> 00:03:56,380 Mais il est aussi appelé The Annotated Alice, Alice 62 00:03:56,380 --> 00:03:58,570 au pays des merveilles, car ce est quelque chose qui 63 00:03:58,570 --> 00:04:00,430 Martin Gardner a écrit et annoté le livre. 64 00:04:00,430 --> 00:04:03,369 Et il ya un grand nombre d'informations de puzzles logiques et les choses 65 00:04:03,369 --> 00:04:05,410 Alice sein que vous n'a probablement pas connaître. 66 00:04:05,410 --> 00:04:07,000 Donc, vous devriez aller lire. 67 00:04:07,000 --> 00:04:11,940 >> Mais vous pouvez le voir il ya beaucoup de détails ici, 68 00:04:11,940 --> 00:04:15,340 y compris des identificateurs, lorsqu'elle a été créé, d'où il vient, 69 00:04:15,340 --> 00:04:17,420 en termes de Harvard système, et ainsi de suite. 70 00:04:17,420 --> 00:04:20,350 Donc, ce est un échantillon de le type de métadonnées 71 00:04:20,350 --> 00:04:24,340 que vous pourriez voir pour un livre dans la collection Bibliothèque Harvard. 72 00:04:24,340 --> 00:04:26,680 >> Ce est quelque chose de complètement différent. 73 00:04:26,680 --> 00:04:32,610 Donc, il ya un système appelé VIA Harvard, qui essentiellement 74 00:04:32,610 --> 00:04:39,990 est catalogage des images et des objets d'art et les choses visuel tout au long de Harvard, 75 00:04:39,990 --> 00:04:44,010 et en ajoutant des métadonnées pour eux, de les classer, 76 00:04:44,010 --> 00:04:49,200 et, dans certains cas, fournir petites vignettes 77 00:04:49,200 --> 00:04:51,250 que vous pouvez prendre un regardez si vous le souhaitez. 78 00:04:51,250 --> 00:04:54,240 >> Donc, ce est un exemple de la métadonnées que vous avez pour une plaque 79 00:04:54,240 --> 00:04:57,840 à partir, sans doute, Alice au pays des merveilles. 80 00:04:57,840 --> 00:05:00,499 Et vous pouvez le voir il ya moins métadonnées ici. 81 00:05:00,499 --> 00:05:02,040 Ce est juste un autre type d'objet. 82 00:05:02,040 --> 00:05:03,425 Et donc il ya moins d'informations. 83 00:05:03,425 --> 00:05:07,790 >> Vous avez principalement le fait que, d'un appel nombre, essentiellement qui l'a créé, - 84 00:05:07,790 --> 00:05:10,410 >> Nous ne savons pas quand il a été créé. 85 00:05:10,410 --> 00:05:13,320 >> -et un titre. 86 00:05:13,320 --> 00:05:14,300 >> Un autre exemple. 87 00:05:14,300 --> 00:05:16,380 Ce est un instrument de recherche. 88 00:05:16,380 --> 00:05:19,030 Donc, il ya une collection de Lewis Les papiers de Carroll à Harvard. 89 00:05:19,030 --> 00:05:23,601 Donc cela décrit ce est dans cette collection. 90 00:05:23,601 --> 00:05:26,100 Donc, quelqu'un a vécu et regardé à travers toutes les cases 91 00:05:26,100 --> 00:05:32,220 et catalogué, étant donné une certaine expérience, écrit un résumé de ce qui est ici. 92 00:05:32,220 --> 00:05:35,290 Et si vous étiez à regarder plus loin à ce, cette 93 00:05:35,290 --> 00:05:39,620 va sur des pages et des pages et les pages, mais vous diront 94 00:05:39,620 --> 00:05:41,860 et ce quelles lettres dates de ce que les boîtes 95 00:05:41,860 --> 00:05:44,289 existé dans toute la collection. 96 00:05:44,289 --> 00:05:46,330 Mais ce est quelque chose que, si vous êtes à Harvard, 97 00:05:46,330 --> 00:05:50,720 vous pouvez aller et effectivement regarder physiquement et, sans doute, jetez un oeil à. 98 00:05:50,720 --> 00:05:53,440 >> Donc, ce est génial. 99 00:05:53,440 --> 00:05:54,450 Ce est utile métadonnées. 100 00:05:54,450 --> 00:05:56,327 Ce est dans le système de Harvard Library. 101 00:05:56,327 --> 00:05:58,910 Il existe des outils en ligne où vous peut aller prendre un coup d'oeil, 102 00:05:58,910 --> 00:05:59,993 et voir, et le fouiller. 103 00:05:59,993 --> 00:06:02,810 Et vous pouvez le couper en tranches et les dés dans beaucoup de façons différentes. 104 00:06:02,810 --> 00:06:06,920 >> Mais ce est vraiment disponible uniquement si vous êtes un être humain assis 105 00:06:06,920 --> 00:06:12,600 à votre navigateur Web ou quelque chose ou votre téléphone et naviguer à travers. 106 00:06:12,600 --> 00:06:16,730 Il ne est pas vraiment disponible en toute sorte de mode utilisable 107 00:06:16,730 --> 00:06:19,520 ou d'autres systèmes d'autres ordinateurs à utiliser, 108 00:06:19,520 --> 00:06:21,500 pas de systèmes au sein de la bibliothèque de Harvard, 109 00:06:21,500 --> 00:06:24,890 mais les systèmes du monde extérieur, seulement d'autres personnes en général. 110 00:06:24,890 --> 00:06:30,210 Donc la question est, comment pouvons-nous rendre disponible pour les ordinateurs 111 00:06:30,210 --> 00:06:33,560 de sorte que nous pouvons faire plus intéressant des trucs avec lui que juste 112 00:06:33,560 --> 00:06:36,550 navigation nous-il? 113 00:06:36,550 --> 00:06:39,766 >> Alors, pourquoi voudriez-vous faire cela? 114 00:06:39,766 --> 00:06:41,140 Il ya beaucoup de possibilités. 115 00:06:41,140 --> 00:06:43,980 On est vous pourriez construire un tout façon différente de navigation 116 00:06:43,980 --> 00:06:46,962 le contenu qui est disponible à travers les bibliothèques de Harvard. 117 00:06:46,962 --> 00:06:48,670 Je vais vous montrer une plus tard appelé Stacklife, 118 00:06:48,670 --> 00:06:52,440 qui a un complètement différent prendre sur la recherche de contenu. 119 00:06:52,440 --> 00:06:54,560 >> Vous pourriez construire un moteur de recommandation. 120 00:06:54,560 --> 00:06:57,955 Donc Harvard bibliothèque ne est pas dans la entreprise de dire, vous aimez ce livre. 121 00:06:57,955 --> 00:07:01,080 Ensuite, allez jeter un oeil à ces 17 autres livres que vous pourriez être intéressé par 122 00:07:01,080 --> 00:07:03,200 ou ces 18 autres images. 123 00:07:03,200 --> 00:07:06,040 Mais cela pourrait certainement être un élément précieux. 124 00:07:06,040 --> 00:07:09,272 Et étant donné les métadonnées, il peut possible de mettre cela ensemble. 125 00:07:09,272 --> 00:07:11,980 Vous pourriez avoir des besoins différents en termes de recherche sur le contenu, 126 00:07:11,980 --> 00:07:16,200 comme peut-être malgré les outils sont disponibles que la bibliothèque fait 127 00:07:16,200 --> 00:07:18,450 disponible, vous voudrez peut- à la recherche d'une manière différente 128 00:07:18,450 --> 00:07:21,847 ou optimiser pour un cas d'utilisation particulier, qui peut-être qu'il est très spécialisée. 129 00:07:21,847 --> 00:07:23,930 Peut-être il ya seulement quelques-uns les gens dans le monde qui 130 00:07:23,930 --> 00:07:25,846 vouloir rechercher le contenu de cette manière, mais il 131 00:07:25,846 --> 00:07:28,985 serait formidable si nous pourrait laisser faire. 132 00:07:28,985 --> 00:07:30,860 Il ya beaucoup de l'analyse en seulement comment les gens 133 00:07:30,860 --> 00:07:33,860 utiliser le contenu qui serait vraiment intéressant de connaître, savoir 134 00:07:33,860 --> 00:07:37,280 quels livres sont utilisés, ce ne sont pas, et ainsi de suite. 135 00:07:37,280 --> 00:07:41,670 Et puis il ya beaucoup de possibilité d'intégrer 136 00:07:41,670 --> 00:07:45,210 d'autres informations ce est là-bas sur le web. 137 00:07:45,210 --> 00:07:46,880 Donc, nous have-- 138 00:07:46,880 --> 00:07:50,260 >> Par exemple, NPR a une critique de livre segment, 139 00:07:50,260 --> 00:07:53,090 où ils interviewent auteurs sur les livres. 140 00:07:53,090 --> 00:07:56,837 Et ce serait super si vous étiez regardant un livre dans la Harvard 141 00:07:56,837 --> 00:07:59,670 Bibliothèque, et vous dites, OK, il ya eu une entrevue avec l'auteur. 142 00:07:59,670 --> 00:08:00,878 Allons jeter un coup d'oeil. 143 00:08:00,878 --> 00:08:05,461 Ou il ya une page Wikipedia, comme un autorité, référence savante 144 00:08:05,461 --> 00:08:07,710 à propos de ce livre que vous pourrait vouloir jeter un oeil à. 145 00:08:07,710 --> 00:08:12,600 >> Il existe de ces types de sources dispersés à travers le web. 146 00:08:12,600 --> 00:08:16,555 Et les réunir pourrait être un grand usage 147 00:08:16,555 --> 00:08:18,930 pour quelqu'un qui cherche à la contenu, la recherche de quelque chose. 148 00:08:18,930 --> 00:08:20,180 Mais ce ne est pas non plus la genre de chose que vous feriez 149 00:08:20,180 --> 00:08:23,205 veulent la bibliothèque d'être responsable pour aller vers le bas et la traque 150 00:08:23,205 --> 00:08:25,455 toutes ces différentes sources et les brancher ensemble 151 00:08:25,455 --> 00:08:28,920 parce qu'ils sont en constante évolution. 152 00:08:28,920 --> 00:08:33,570 Et ce qu'ils pensent est important de mai ne pas être ce que vous pensez est important. 153 00:08:33,570 --> 00:08:36,929 >> Et plus encore, fondamentalement, il ya un beaucoup de choses que nous ne avons pas encore pensé. 154 00:08:36,929 --> 00:08:42,222 Donc, si nous pouvons ouvrir cette place, plus personnes en plus une demi-douzaine, 155 00:08:42,222 --> 00:08:45,174 qui cherchent à ce sur un base régulière peut penser à des idées 156 00:08:45,174 --> 00:08:47,340 et masser les données, et faire ce qu'ils veulent avec elle. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Donc, nous voulons faire de cette les données disponibles pour le monde. 159 00:08:54,045 --> 00:08:55,670 Eh bien, il ya quelques complications. 160 00:08:55,670 --> 00:08:58,540 La première est que ces métadonnées est dans différents systèmes. 161 00:08:58,540 --> 00:09:01,110 Ce est dans différents formats. 162 00:09:01,110 --> 00:09:04,719 Il ya donc une certaine normalisation qui doit arriver, 163 00:09:04,719 --> 00:09:08,010 qui, étant le processus de normalisation apporter des choses à partir de différents formats 164 00:09:08,010 --> 00:09:12,940 et de les faire correspondre à un format unique de sorte que les champs se affronteront. 165 00:09:12,940 --> 00:09:15,160 >> Il ya quelques restrictions de droits d'auteur. 166 00:09:15,160 --> 00:09:21,010 Curieusement, l'entrée de catalogue d'un livre est responsable des droits d'auteur. 167 00:09:21,010 --> 00:09:24,060 Ainsi, même si ce est juste l'information provenant du livre, 168 00:09:24,060 --> 00:09:25,330 ce est un droit d'auteur. 169 00:09:25,330 --> 00:09:28,400 Et en fonction de qui fait créé que les métadonnées, 170 00:09:28,400 --> 00:09:32,175 il peut y avoir des restrictions sur qui peuvent distribuer, to-- similaires 171 00:09:32,175 --> 00:09:33,402 >> Je ne sais pas. 172 00:09:33,402 --> 00:09:36,110 Il peut ou peut ne pas être similaire à la situation des paroles de chansons, 173 00:09:36,110 --> 00:09:36,610 par exemple. 174 00:09:36,610 --> 00:09:38,560 Donc, nous savons tous comment cela casseroles. 175 00:09:38,560 --> 00:09:40,450 Vous avez donc besoin de se déplacer cette question. 176 00:09:40,450 --> 00:09:44,910 >> Et puis une autre pièce est qu'il ya un grand nombre de données. 177 00:09:44,910 --> 00:09:52,420 Donc, si je suis quelqu'un qui veut travailler avec les données ou a une bonne idée, 178 00:09:52,420 --> 00:09:55,350 traiter 14000000 dossiers sur mon ordinateur portable 179 00:09:55,350 --> 00:09:57,487 pourrait être problématique et difficile à gérer. 180 00:09:57,487 --> 00:09:59,320 Donc, nous voulons réduire les obstacles pour les personnes 181 00:09:59,320 --> 00:10:02,130 pour être en mesure de travailler avec les données. 182 00:10:02,130 --> 00:10:07,880 >> Donc, l'approche qui nous l'espérons adresses toutes ces préoccupations est deux parties. 183 00:10:07,880 --> 00:10:11,770 Un est la construction d'une plate-forme qui prend les données de toutes ces sources disparates 184 00:10:11,770 --> 00:10:14,350 et aggrave il, normalise, enrichit et marques 185 00:10:14,350 --> 00:10:16,650 disponible en un seul endroit. 186 00:10:16,650 --> 00:10:20,950 Et elle rend disponible via une API publique que les gens peuvent appeler. 187 00:10:20,950 --> 00:10:24,430 >> Donc, une API est une application Programming Interface. 188 00:10:24,430 --> 00:10:28,930 Et il se réfère essentiellement à un point final qu'un système ou de la technologie 189 00:10:28,930 --> 00:10:31,720 peut appeler et récupérer des données dans un format structuré d'une manière 190 00:10:31,720 --> 00:10:32,900 qu'il peut être utilisé. 191 00:10:32,900 --> 00:10:36,060 Donc ce ne est pas dépendante d'aller à un site Web 192 00:10:36,060 --> 00:10:37,970 et le grattage données hors de celui-ci, par exemple. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Donc, ce est la page d'accueil de l'API Point Bibliothèque Cloud, 195 00:10:45,010 --> 00:10:47,220 qui est essentiellement sa version deux. 196 00:10:47,220 --> 00:10:50,130 Ce est donc la deuxième itération de essayer de faire toutes ces données 197 00:10:50,130 --> 00:10:53,280 la disposition du monde. 198 00:10:53,280 --> 00:10:59,560 Ce est donc http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 Et juste pour le décomposer un peu, ce que cela signifie 200 00:11:03,830 --> 00:11:06,115 est que ce est une version deux de l'API. 201 00:11:06,115 --> 00:11:08,490 Il ya une version une, qui Je ne vais pas en parler. 202 00:11:08,490 --> 00:11:09,750 Mais il existe une version une. 203 00:11:09,750 --> 00:11:14,740 >> Et si vous appelez cette API, vous obtenez les articles. 204 00:11:14,740 --> 00:11:20,640 Et une partie de l'idée d'une API est une API est un contrat. 205 00:11:20,640 --> 00:11:23,440 Ce est quelque chose qui est ne va pas changer. 206 00:11:23,440 --> 00:11:24,850 Ainsi, par exemple, - 207 00:11:24,850 --> 00:11:27,410 >> Et la raison en est que si je construire une sorte de système 208 00:11:27,410 --> 00:11:33,210 va utiliser une API bibliothèque de cloud pour afficher livres ou aider les gens à trouver 209 00:11:33,210 --> 00:11:36,190 informations de façon unique, ce que nous ne voulons pas de se produire 210 00:11:36,190 --> 00:11:38,940 est pour nous d'aller changer la façon dont cette API fonctionne, et tout à coup 211 00:11:38,940 --> 00:11:41,340 tout brise sur le côté de l'utilisateur final. 212 00:11:41,340 --> 00:11:46,710 Donc, une partie de si vous faites API à la disposition du monde, ce est 213 00:11:46,710 --> 00:11:49,396 bonnes pratiques pour mettre un numéro de version dans ce que les gens 214 00:11:49,396 --> 00:11:51,020 savoir quelle version ils ont affaire. 215 00:11:51,020 --> 00:11:54,300 >> Donc, si nous décidons que nous trouvons une meilleure façon de rendre cette information disponible, 216 00:11:54,300 --> 00:11:57,295 nous pourrions changer cela en appeler cette version trois. 217 00:11:57,295 --> 00:11:59,920 Donc tout le monde qui est toujours à l'aide version à deux, ça va encore du travail. 218 00:11:59,920 --> 00:12:03,490 Mais la troisième version serait avoir tous les nouveaux trucs. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Donc, ce est une API, mais cette ressemble vraiment à une URL. 221 00:12:09,210 --> 00:12:11,680 Et donc ce que ce est un exemple de est ce qui est 222 00:12:11,680 --> 00:12:16,615 une API appelée repos, qui est disponible plus simplement une connexion Internet régulière. 223 00:12:16,615 --> 00:12:19,680 Et vous pouvez réellement aller dans un navigateur. 224 00:12:19,680 --> 00:12:28,550 >> Donc ici, je viens d'ouvrir Firefox et allé à api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 Et donc ce que je ai ici est essentiellement la première page 226 00:12:31,560 --> 00:12:34,740 des résultats de l'ensemble un ensemble d'éléments que nous avons. 227 00:12:34,740 --> 00:12:37,460 Et ce est ici au format XML. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 Et il a aussi été embellie par Firefox. 230 00:12:42,210 --> 00:12:45,850 Il n'a effectivement pas tous ces peu dilatant et se contractant 231 00:12:45,850 --> 00:12:47,880 doohickeys ici. 232 00:12:47,880 --> 00:12:52,520 Ce est une sorte de plus agréable Version façon de regarder. 233 00:12:52,520 --> 00:12:57,040 >> Mais ce que cela nous dit est Je ai demandé à tous les articles. 234 00:12:57,040 --> 00:13:03,120 Donc, il ya 13.289.475 articles. 235 00:13:03,120 --> 00:13:06,150 Et je suis à la recherche à la première 10, à partir de la position zéro 236 00:13:06,150 --> 00:13:09,760 parce que dans l'informatique nous commençons toujours à zéro. 237 00:13:09,760 --> 00:13:15,150 Et ce que je ai ici, si je viens de se effondrer cela, vous verrez que je ai 10 articles. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> Et si je prends un oeil à un article, je ne peux vois que je ai des informations à ce sujet. 240 00:13:25,210 --> 00:13:27,400 Et ce est dans ce qu'on appelle la forme MODS. 241 00:13:27,400 --> 00:13:30,860 Et donc je vais passer revenir ici pour un moment. 242 00:13:30,860 --> 00:13:33,750 D'ACCORD. 243 00:13:33,750 --> 00:13:37,447 >> Donc, nous allons chercher quelque chose dans spécifique, car le premier élément qui 244 00:13:37,447 --> 00:13:40,030 arrive à trouver quand vous regardez à travers toute la collection 245 00:13:40,030 --> 00:13:41,750 est, par définition, aléatoire. 246 00:13:41,750 --> 00:13:44,550 Alors regardons quelques beignets. 247 00:13:44,550 --> 00:13:46,830 Oh. 248 00:13:46,830 --> 00:13:49,190 >> D'ACCORD. 249 00:13:49,190 --> 00:13:49,940 Donc beignets. 250 00:13:49,940 --> 00:13:55,360 Donc, nous avons trouvé il ya 80 pièces la collection de référence beignets. 251 00:13:55,360 --> 00:13:57,150 Nous nous penchons sur le premier 10 d'entre eux. 252 00:13:57,150 --> 00:14:01,890 Maintenant, vous pouvez voir ici la façon dont Je ai dit que je suis à la recherche des beignets, 253 00:14:01,890 --> 00:14:04,400 Je viens d'ajouter quelque chose à la chaîne de requête de l'URL. 254 00:14:04,400 --> 00:14:09,680 Alors q est égal à beignets, que vous pouvez voir un peu plus facilement ici. 255 00:14:09,680 --> 00:14:12,131 >> Et cela signifie, fondamentalement, il est une spécification pour l'API, qui 256 00:14:12,131 --> 00:14:13,880 définit ce que l'ensemble de signifient ces paramètres. 257 00:14:13,880 --> 00:14:17,150 Et cela signifie que nous allons tout pour chercher des beignets. 258 00:14:17,150 --> 00:14:24,910 >> Donc, le premier point nous avons ici vous pouvez voir le titre est Donuts, 259 00:14:24,910 --> 00:14:29,310 et il existe un sous-titre appelée Passion américain, qui est, je suppose, 260 00:14:29,310 --> 00:14:31,610 appropriée. 261 00:14:31,610 --> 00:14:36,134 Il ya beaucoup de different-- 262 00:14:36,134 --> 00:14:38,050 Une fois que vous arrivez au point d'obtenir les données, 263 00:14:38,050 --> 00:14:41,020 il ya beaucoup de différents formats que vous pouvez obtenir en. 264 00:14:41,020 --> 00:14:44,050 Et il ya différentes forces et faiblesses de chacun d'eux. 265 00:14:44,050 --> 00:14:49,000 Alors celui-ci, vous pouvez voir ici, cette forme est très riche. 266 00:14:49,000 --> 00:14:51,946 Et il est standardisé. 267 00:14:51,946 --> 00:14:55,040 >> Donc, il ya un titre spécifique champ, un champ de sous-titres. 268 00:14:55,040 --> 00:14:58,950 Il ya un autre titre, une passion américaine. 269 00:14:58,950 --> 00:15:01,650 Il est le nom qui lui est associé. 270 00:15:01,650 --> 00:15:03,120 Type de la ressource est du texte. 271 00:15:03,120 --> 00:15:06,070 Il ya beaucoup d'informations ici dans ce format. 272 00:15:06,070 --> 00:15:09,480 >> Mais il ya un tas de différents formats. 273 00:15:09,480 --> 00:15:11,920 Donc, ce que nous étions juste regarder est un format 274 00:15:11,920 --> 00:15:17,700 dites mods, qui signifie Metadata Object Description du service, 275 00:15:17,700 --> 00:15:18,250 potentiellement. 276 00:15:18,250 --> 00:15:23,030 Je suis en fait pas tout à fait sûr de la S. Mais ce est un format assez complexe. 277 00:15:23,030 --> 00:15:24,240 Ce est le format par défaut. 278 00:15:24,240 --> 00:15:30,260 >> Mais ce est l'un qui garde la richesse de l'ensemble des données 279 00:15:30,260 --> 00:15:33,820 que la bibliothèque a raison il est très proche de ce que 280 00:15:33,820 --> 00:15:35,110 la bibliothèque utilise en interne. 281 00:15:35,110 --> 00:15:39,030 Ce est une norme qui est utilisé à travers le pays, 282 00:15:39,030 --> 00:15:40,944 à travers le monde dans les bibliothèques universitaires. 283 00:15:40,944 --> 00:15:42,110 Et ce est très interopérable. 284 00:15:42,110 --> 00:15:44,852 Donc, si vous avez un document ce est en format MODS, 285 00:15:44,852 --> 00:15:47,560 vous pouvez donner à quelqu'un d'autre que dont les systèmes comprennent MODS, 286 00:15:47,560 --> 00:15:48,518 et ils peuvent importer. 287 00:15:48,518 --> 00:15:50,840 Donc, ce est une norme. 288 00:15:50,840 --> 00:15:54,250 Ce est très bien défini, très spécifique. 289 00:15:54,250 --> 00:15:58,980 Et ce est ce qui le rend interopérable parce que si quelqu'un dit, 290 00:15:58,980 --> 00:16:04,930 ce est le titre d'un autre enregistrement, tout le monde sait ce que cela signifie. 291 00:16:04,930 --> 00:16:07,740 D'un autre côté, ce est très compliqué. 292 00:16:07,740 --> 00:16:13,160 >> Donc, si vous jetez un oeil à ce dossier en l'espèce, 293 00:16:13,160 --> 00:16:15,320 si je veux juste pour obtenir le titre de ce document, 294 00:16:15,320 --> 00:16:21,150 de ce livre, qui est probablement Donuts, Une Passion américain, l'analyser sur 295 00:16:21,150 --> 00:16:22,940 est un peu impliqué. 296 00:16:22,940 --> 00:16:27,380 Considérant qu'il ya un autre format appelé Dublin Core, 297 00:16:27,380 --> 00:16:29,730 qui est un format beaucoup plus simple. 298 00:16:29,730 --> 00:16:33,764 >> Et si vous voyez ici, il n'y a pas titre, sous-titre, titre alternatif. 299 00:16:33,764 --> 00:16:35,930 Il ya juste le titre, Donuts, une passion américaine, 300 00:16:35,930 --> 00:16:38,780 et un autre titre, Passion américain. 301 00:16:38,780 --> 00:16:42,907 Alors, quand vous cherchez à quelle forme vous voulez obtenir des données sur, 302 00:16:42,907 --> 00:16:44,740 beaucoup dépend de la façon dont vous allez l'utiliser. 303 00:16:44,740 --> 00:16:46,573 Utilisez-vous pour interopérabilité ou vous ne avez 304 00:16:46,573 --> 00:16:49,970 vouloir quelque chose de simple qui pourrait être plus facile de travailler avec? 305 00:16:49,970 --> 00:16:56,002 >> D'un autre côté, beaucoup de détails se sorte de écrasés vers le bas. 306 00:16:56,002 --> 00:16:58,460 Vous risquez de perdre les nuances de ce un moyen de terrain particulières 307 00:16:58,460 --> 00:17:02,960 si vous avez affaire à Dublin Core, que vous ne seriez pas obtenir avec MODS. 308 00:17:02,960 --> 00:17:06,462 Donc, ce sont deux des formats vous pouvez sortir de l'API. 309 00:17:06,462 --> 00:17:08,920 Et dans le fond, nous gardons derrière les scènes dans MODS. 310 00:17:08,920 --> 00:17:14,179 Mais nous pouvons vous donner dans MODS et Dublin Core et rien d'autre aussi. 311 00:17:14,179 --> 00:17:16,470 L'autre considération lors de vous êtes à la recherche dans les données 312 00:17:16,470 --> 00:17:21,210 ce est que vous pouvez l'obtenir que soit JSON, qui signifie JavaScript Object Notation, 313 00:17:21,210 --> 00:17:24,720 ou XML, ce qui signifie Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 Et ces représentations de données à la fois avoir exactement les mêmes données, exactement 315 00:17:30,080 --> 00:17:31,080 les mêmes champs. 316 00:17:31,080 --> 00:17:33,644 Mais ils sont juste syntaxiquement différente. 317 00:17:33,644 --> 00:17:40,401 >> Donc, ce est a-- 318 00:17:40,401 --> 00:17:41,400 Eh bien, il suffit de passer. 319 00:17:41,400 --> 00:17:47,490 Donc, ce est notre requête pour beignets au format XML. 320 00:17:47,490 --> 00:17:53,470 Si je passe simplement que cela soit JSON, Je peux voir il semble différent. 321 00:17:53,470 --> 00:17:58,580 Alors maintenant, ce est le même contenu, mais une structure différente. 322 00:17:58,580 --> 00:18:00,080 Il ya moins de crochets. 323 00:18:00,080 --> 00:18:02,530 Il ya moins verbeux. 324 00:18:02,530 --> 00:18:06,440 >> Et ce est un format qui, si vous travaillent dans un environnement Web, 325 00:18:06,440 --> 00:18:09,680 vous êtes plus susceptible à vouloir utiliser car une 326 00:18:09,680 --> 00:18:12,630 des belles choses sur JSON est il est compatible avec JavaScript. 327 00:18:12,630 --> 00:18:17,680 Donc, si je écris application web, je peux tirer JSON et juste travailler directement avec. 328 00:18:17,680 --> 00:18:20,187 Alors qu'avec XML, ce est un peu plus compliqué. 329 00:18:20,187 --> 00:18:21,520 Encore une fois, ceux-ci sont à la fois utiles. 330 00:18:21,520 --> 00:18:26,387 Ils sont juste différents cas d'utilisation où les gens pourraient vouloir les utiliser. 331 00:18:26,387 --> 00:18:26,886 D'ACCORD. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Donc, retour à l'API. 334 00:18:31,680 --> 00:18:32,900 Donc, nous pouvons rechercher en vue de: 335 00:18:32,900 --> 00:18:36,220 >> Je donne un exemple de la recherche de beignets. 336 00:18:36,220 --> 00:18:39,330 Nous pouvons aussi chercher seulement dans une domaine particulier au sein ici. 337 00:18:39,330 --> 00:18:41,310 Donc, au lieu de chercher l'ensemble du dossier, 338 00:18:41,310 --> 00:18:43,870 Je peux juste chercher le champ titre. 339 00:18:43,870 --> 00:18:48,810 Et maintenant il ya 25 choses qui avoir des beignets dans le titre, dont 340 00:18:48,810 --> 00:18:52,430 est sur la restauration zones humides dans la gestion 341 00:18:52,430 --> 00:18:54,990 du trou dans le beignet programme, qui est probablement 342 00:18:54,990 --> 00:18:58,970 pas nécessairement ce que nous recherchons lorsque nous recherchons des beignets. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> Vous pouvez aussi, si vous êtes face à une API-- 345 00:19:05,490 --> 00:19:08,827 >> Partie d'avoir une API donne personnes l'accès à de grands ensembles de données. 346 00:19:08,827 --> 00:19:11,410 Et il ya un autre couple outils que vous pouvez utiliser pour le faire. 347 00:19:11,410 --> 00:19:14,170 On est, très simplement, vous pouvez parcourir les données. 348 00:19:14,170 --> 00:19:17,340 Ainsi, tout comme si vous faites une requête via une interface web, 349 00:19:17,340 --> 00:19:19,470 vous pouvez regarder la première page, page deux, la page trois. 350 00:19:19,470 --> 00:19:22,040 Vous pouvez faire la même chose chose via l'API. 351 00:19:22,040 --> 00:19:24,150 Vous avez juste besoin d'être explicite dans la façon dont vous le faites. 352 00:19:24,150 --> 00:19:29,511 >> Ainsi, par exemple, si je suis à la recherche lors de ma première requête ici, 353 00:19:29,511 --> 00:19:32,510 où je fais une recherche pour des choses avec des beignets dans le titre, je peux dire, 354 00:19:32,510 --> 00:19:35,415 et la limite est égale à 20, ce qui signifie me donner les 20 premiers enregistrements, pas 355 00:19:35,415 --> 00:19:38,540 le premier 10, qui est la valeur par défaut, parce que je veux regarder à 20 à la fois. 356 00:19:38,540 --> 00:19:43,435 Ou je peux dire, réglez le commencer égale à 20 et la limite 357 00:19:43,435 --> 00:19:47,150 égale à 20, ce qui donnera me enregistre 21 à 40. 358 00:19:47,150 --> 00:19:52,680 >> Donc je suppose que la chose à emporter ici est 359 00:19:52,680 --> 00:19:57,290 que nous utilisons les chaînes de requête pour définir les paramètres sur la requête. 360 00:19:57,290 --> 00:20:02,760 Et il vous permet de commande ce que vous obtenez en retour. 361 00:20:02,760 --> 00:20:05,980 >> Un autre outil que vous pouvez utiliser, - 362 00:20:05,980 --> 00:20:09,250 >> Et ce est vraiment utile pour Conditions d'explorer les données. 363 00:20:09,250 --> 00:20:10,840 >> --s'agit quelque chose appelé facettes. 364 00:20:10,840 --> 00:20:15,530 Ainsi, le terme est facettage pas nécessairement commun. 365 00:20:15,530 --> 00:20:16,880 Mais vous avez tous vu avant. 366 00:20:16,880 --> 00:20:18,630 Si vous jetez un oeil à Amazon, par exemple, 367 00:20:18,630 --> 00:20:20,870 et vous effectuez une recherche pour beignets dans les livres, 368 00:20:20,870 --> 00:20:27,080 ici ils ont une série de livres, et ils sont regroupés par catégorie, 369 00:20:27,080 --> 00:20:30,470 et vous obtenez les différentes catégories, et combien de livres dans chaque catégorie 370 00:20:30,470 --> 00:20:31,330 montrer. 371 00:20:31,330 --> 00:20:33,420 >> Donc, ce est essentiellement une facette. 372 00:20:33,420 --> 00:20:37,570 Vous prenez tous leurs livres, le 1800 livres qui correspondent à beignets sur Amazon. 373 00:20:37,570 --> 00:20:39,820 12 d'entre eux sont en petit catégorie. 374 00:20:39,820 --> 00:20:43,100 21 en pâtisserie et boulangerie, et ainsi de suite et ainsi de suite. 375 00:20:43,100 --> 00:20:47,670 >> Donc, ce est vraiment un utile outil pour explorer le contenu 376 00:20:47,670 --> 00:20:53,260 au sein de la bibliothèque ainsi parce que quand vous regardez une facette, 377 00:20:53,260 --> 00:20:56,520 il vous donne une idée de quels sujets existe, comme quels types de sujets 378 00:20:56,520 --> 00:20:58,510 sont les plus populaires au sein de votre groupe de recherche. 379 00:20:58,510 --> 00:21:00,950 Et il vous permet de conduire et hors explorer. 380 00:21:00,950 --> 00:21:02,770 Donc, nous pouvons faire la même chose. 381 00:21:02,770 --> 00:21:05,940 >> Si nous voulons utiliser la API et de regarder facettes, 382 00:21:05,940 --> 00:21:08,950 nous ajoutons un autre paramètre à notre ami la chaîne de requête. 383 00:21:08,950 --> 00:21:12,540 Donc facettes égale séparées par une virgule liste de ce que nous voulons sur facette. 384 00:21:12,540 --> 00:21:14,790 Donc l'une des facettes pourrait faire l'objet. 385 00:21:14,790 --> 00:21:16,565 Un autre pourrait être la langue. 386 00:21:16,565 --> 00:21:19,665 Et si nous courons cette requête, nous get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Il semble à peu près la même chose ici. 389 00:21:24,830 --> 00:21:29,010 Mais nous avons ajouté à la fin de la liste un ensemble de facettes. 390 00:21:29,010 --> 00:21:34,060 Nous avons donc une facette appelée sujet. 391 00:21:34,060 --> 00:21:40,250 Donc, ce est de nous dire que si je regarde mes 80 résultats de la requête de beignet, 392 00:21:40,250 --> 00:21:42,100 13 d'entre eux ont le soumettre États-Unis. 393 00:21:42,100 --> 00:21:43,684 Trois ont soumis les beignets. 394 00:21:43,684 --> 00:21:45,600 Trois ont fait l'objet de restauration des zones humides, 395 00:21:45,600 --> 00:21:47,720 qui peut être notre trou dans le beignet. 396 00:21:47,720 --> 00:21:51,780 Deux d'entre eux, les Simpsons, et ainsi de suite et ainsi de suite. 397 00:21:51,780 --> 00:21:59,211 >> Donc cela peut être utile si vous vouloir affiner votre recherche. 398 00:21:59,211 --> 00:22:00,210 Il peut vous aider à le faire. 399 00:22:00,210 --> 00:22:03,580 Surtout si vous avez plus de, disons, 80 résultats. 400 00:22:03,580 --> 00:22:05,980 >> De même, nous avons également demandé pour facettes sur la langue. 401 00:22:05,980 --> 00:22:14,790 Donc, si nous regardons nos résultats, nous voyons 76 d'entre eux sont en anglais, quatre en français, 402 00:22:14,790 --> 00:22:19,620 deux en espagnol, deux, je pense que ce est undefined ou inconnu, néerlandais et latine. 403 00:22:19,620 --> 00:22:22,830 Donc, je pense que la latine résultat beignet, à nouveau, 404 00:22:22,830 --> 00:22:24,922 n'a rien à voir avec les produits de boulangerie. 405 00:22:24,922 --> 00:22:25,630 Mais là vous allez. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Donc, ce est une sorte de vous montrer comment vous pouvez récupérer le contenu 408 00:22:38,630 --> 00:22:41,270 de l'API seulement par navigateur web, ce qui est excellent. 409 00:22:41,270 --> 00:22:44,320 Mais ce ne est pas vraiment ce que vous feriez être normalement à l'aide de l'API pour elle. 410 00:22:44,320 --> 00:22:48,710 Donc, un exemple de la façon dont vous pourrait effectivement faire ce est que je ai 411 00:22:48,710 --> 00:22:54,720 écrit d'un super petit programme, qui, là encore, ma recherche de beigne 412 00:22:54,720 --> 00:22:59,010 et sélectionne un champs couple et les affiche dans un tableau. 413 00:22:59,010 --> 00:23:01,610 Donc, ce est bien le même contenu que nous venons 414 00:23:01,610 --> 00:23:04,830 scie avec quelques champs sorti. 415 00:23:04,830 --> 00:23:12,090 Donc liste des titres, les emplacement de ce que le livre 416 00:23:12,090 --> 00:23:15,120 est sur le point, la langue, et ainsi de suite et ainsi de suite. 417 00:23:15,120 --> 00:23:20,480 >> Alors, comment cela se est réellement passé, depuis Je suppose que nous devons regarder un peu de code, 418 00:23:20,480 --> 00:23:22,420 est-- 419 00:23:22,420 --> 00:23:28,060 >> Ce que nous avons ici est un code HTML simple Cette page, qui affiche du texte, 420 00:23:28,060 --> 00:23:32,900 accueillir au cloud et bibliothèque puis affiche un tableau de résultats. 421 00:23:32,900 --> 00:23:37,790 Et il ya évidemment aucun résultat en la table lorsque la page est chargée. 422 00:23:37,790 --> 00:23:41,380 Mais ce que nous faisons est, tout d'abord, nous 423 00:23:41,380 --> 00:23:46,290 sont le chargement d'une bibliothèque appelée jQuery, qui est essentiellement 424 00:23:46,290 --> 00:23:52,030 une bibliothèque JavaScript qui rend très facile de manipuler JavaScript 425 00:23:52,030 --> 00:23:58,780 nativement, HTML, et créer des pages web, logique côté client et des pages Web. 426 00:23:58,780 --> 00:24:01,595 >> Donc ce que nous avons ici est jQuery a une méthode appelée Get, 427 00:24:01,595 --> 00:24:05,270 qui, essentiellement, ira à une URL, ce qui, dans ce cas, 428 00:24:05,270 --> 00:24:09,070 est cette URL regardant familier. 429 00:24:09,070 --> 00:24:14,440 Et ensuite obtenir le contenu de cette URL, puis exécuter une fonction sur elle. 430 00:24:14,440 --> 00:24:19,240 Alors nous avons dit aller à api.lib.harvard / edu. 431 00:24:19,240 --> 00:24:20,060 Rechercher des beignets. 432 00:24:20,060 --> 00:24:21,300 Donnez-nous 20 dossiers. 433 00:24:21,300 --> 00:24:28,590 Et puis exécutez cette fonction, qui Je ai choisi, en lui passant les données. 434 00:24:28,590 --> 00:24:34,430 Et les données qui est le JSON fit rentrer de l'API. 435 00:24:34,430 --> 00:24:40,120 >> Et puis nous disons, dans ce données il ya un champ appelé élément. 436 00:24:40,120 --> 00:24:48,117 Et si je vais prendre un regard rétrospectif sur une de ces résultats qui est ici, 437 00:24:48,117 --> 00:24:49,200 il ya quelque chose called-- 438 00:24:49,200 --> 00:24:50,220 >> Eh bien, ce est ce qu'on appelle l'article. 439 00:24:50,220 --> 00:24:53,520 Ce est peut être cela. 440 00:24:53,520 --> 00:25:01,840 Et ce qu'il fait est-il passe à travers chaque élément 441 00:25:01,840 --> 00:25:05,300 puis appelle une autre fonction sur chaque élément. 442 00:25:05,300 --> 00:25:08,440 Et cette fonction essentiellement prend la valeur 443 00:25:08,440 --> 00:25:12,010 de ce point, qui est essentiellement dans le dossier individuel 444 00:25:12,010 --> 00:25:18,220 et nous permet de sortir le titre, la couverture et la langue. 445 00:25:18,220 --> 00:25:21,640 >> Nous appelons donc une fonction sur tous les élément que nous sommes rentrés de l'API. 446 00:25:21,640 --> 00:25:25,397 Et si vous venez de prendre un coup d'oeil ce morceau ici, 447 00:25:25,397 --> 00:25:27,230 ce que nous faisons est nous créons une chaîne, 448 00:25:27,230 --> 00:25:31,810 qui est essentiellement certaines balises HTML autour d'une table, avec value.title, 449 00:25:31,810 --> 00:25:35,790 qui est le titre de la objet, value.coverage, 450 00:25:35,790 --> 00:25:36,790 qui est la couverture, - 451 00:25:36,790 --> 00:25:38,225 >> Et nous faisons un chèque ici pour voir qui est undefined 452 00:25:38,225 --> 00:25:40,570 et cacher si elle dit non définie, parce que nous ne sommes pas vraiment intéressés 453 00:25:40,570 --> 00:25:41,600 en ce que. 454 00:25:41,600 --> 00:25:42,939 >> --et puis la langue. 455 00:25:42,939 --> 00:25:44,730 Et puis ce que nous sommes faire est ajoutant que 456 00:25:44,730 --> 00:25:48,510 à la table qui est identifié par cette chaîne ici. 457 00:25:48,510 --> 00:25:50,790 Et comment fonctionne jQuery est ce que cela veut dire, 458 00:25:50,790 --> 00:25:56,420 est de regarder pour la table avec l'idée résultats et ajouter ce texte à elle. 459 00:25:56,420 --> 00:25:59,380 Et ce est la table avec des résultats idée. 460 00:25:59,380 --> 00:26:04,998 Donc ce que vous finissez par avec cette page est ici. 461 00:26:04,998 --> 00:26:06,206 Et pour voir source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Eh bien, la source ne est pas fait mise à jour quand ce est arrivé. 464 00:26:13,810 --> 00:26:18,740 Donc vous pouvez voir le réel résultats de la table ici cependant. 465 00:26:18,740 --> 00:26:24,770 >> Donc, ce est juste un exemple simple de faire une requête très basique contre l'API 466 00:26:24,770 --> 00:26:29,020 et l'affichage d'informations dans une autre former, et ne pas faire quelque chose de trop de fantaisie. 467 00:26:29,020 --> 00:26:36,370 Maintenant, un autre exemple est comme un demande écrite par David Weinberger 468 00:26:36,370 --> 00:26:39,120 comme une démonstration de ce qui vous montre essentiellement 469 00:26:39,120 --> 00:26:44,620 comment vous pouvez écraser les résultats que vous recherchez obtenir de l'API bibliothèque de cloud 470 00:26:44,620 --> 00:26:46,250 avec, par exemple, de Google Livres. 471 00:26:46,250 --> 00:26:52,225 >> Et la pensée, ce est que je peux exécuter une requête contre Google Livres, 472 00:26:52,225 --> 00:26:56,060 obtenir une recherche en texte intégral, obtenir des résultats dos, savoir lequel de ces éléments 473 00:26:56,060 --> 00:27:01,180 exister réellement dans Hollis, le système de bibliothèque, 474 00:27:01,180 --> 00:27:03,200 puis donnez-moi liens retour à ces éléments. 475 00:27:03,200 --> 00:27:12,730 Donc, si je cherche, ce était une nuit sombre et orageuse, je 476 00:27:12,730 --> 00:27:16,210 récupérer un tas de résultats Google, puis une suite 477 00:27:16,210 --> 00:27:19,460 qui est A Wrinkle in Time. 478 00:27:19,460 --> 00:27:29,330 Et ce sont des liens vers des livres qui existent dans le système de Harvard Library. 479 00:27:29,330 --> 00:27:32,160 >> Donc je suppose que le point ici ne est pas tant que ce peut ou non 480 00:27:32,160 --> 00:27:34,118 être la manière que vous voulez pour rechercher la bibliothèque, 481 00:27:34,118 --> 00:27:38,310 mais il est tout à fait différent d'un manière qui ne était pas disponible pour vous 482 00:27:38,310 --> 00:27:42,884 avant, comme vous ne avait aucun moyen de faire texte intégral recherches sur les livres que même 483 00:27:42,884 --> 00:27:44,550 faisaient partie du système Harvard Library. 484 00:27:44,550 --> 00:27:46,870 Alors maintenant, ce est une façon que vous pouvez faire. 485 00:27:46,870 --> 00:27:51,930 Et vous pouvez les afficher dans le format que vous voulez. 486 00:27:51,930 --> 00:27:55,990 Ainsi, le point ici est, essentiellement, nous ouvrons de nouvelles façons pour les gens 487 00:27:55,990 --> 00:27:59,080 de travailler avec les données. 488 00:27:59,080 --> 00:28:07,925 >> Un autre morceau de nuage bibliothèque est que il permet d'exposer une partie des données d'utilisation 489 00:28:07,925 --> 00:28:08,800 que la bibliothèque possède. 490 00:28:08,800 --> 00:28:12,630 Donc, si vous allez à la bibliothèque, et vous êtes à la recherche pour les livres, 491 00:28:12,630 --> 00:28:15,770 vous ne avez pas nécessairement ont fait une idée de, 492 00:28:15,770 --> 00:28:19,080 pour tous les éléments d'une sujet particulier, ce 493 00:28:19,080 --> 00:28:21,200 ya des gens dans le la communauté, que ce soit 494 00:28:21,200 --> 00:28:24,890 défini comme la Harvard ou pays ou votre classe, 495 00:28:24,890 --> 00:28:26,421 Qu'ont-ils trouvé le plus utile? 496 00:28:26,421 --> 00:28:28,920 Et la bibliothèque a fait un tonne d'informations sur ce 497 00:28:28,920 --> 00:28:32,999 est plus utile parce que si beaucoup de personnes vérifient un livre, 498 00:28:32,999 --> 00:28:34,040 cela vous dit quelque chose. 499 00:28:34,040 --> 00:28:36,498 Il doit y avoir une raison ils veulent vérifier. 500 00:28:36,498 --> 00:28:38,270 Beaucoup de gens mettre sur réserve. 501 00:28:38,270 --> 00:28:42,520 >> Si ce est sur la liste de réserve pour beaucoup des classes, cela vous dit quelque chose. 502 00:28:42,520 --> 00:28:45,960 Si les membres du corps professoral sont vérifiant un lot et étudiants ne sont pas, 503 00:28:45,960 --> 00:28:47,200 qui me dit quelque chose. 504 00:28:47,200 --> 00:28:49,280 Vice versa, qui a également vous dit quelque chose. 505 00:28:49,280 --> 00:28:54,680 Donc, il serait vraiment intéressant de mettre ces informations là-bas et laisser 506 00:28:54,680 --> 00:28:59,969 les gens l'utilisent pour les aider à trouver travaille au sein du système de bibliothèque. 507 00:28:59,969 --> 00:29:02,260 Le revers de la médaille est il ya un peu d'intimité sérieuse 508 00:29:02,260 --> 00:29:07,854 préoccupations, car l'un des principes fondamentaux de la bibliothèque 509 00:29:07,854 --> 00:29:10,770 ce est que nous ne allons pas être dire aux gens ce que d'autres personnes sont la lecture. 510 00:29:10,770 --> 00:29:17,360 Et même si vous dites cela livre a été vérifié quatre fois 511 00:29:17,360 --> 00:29:20,070 dans un mois donné, qui pourraient être utilisés 512 00:29:20,070 --> 00:29:25,252 faire un lien vers un particulier personne par des données anonymes de- 513 00:29:25,252 --> 00:29:26,710 et savoir qui a extrait. 514 00:29:26,710 --> 00:29:30,792 Donc, la façon dont nous pouvons avoid-- 515 00:29:30,792 --> 00:29:33,750 La façon dont nous pouvons essayer d'en extraire quelque signal de toutes les informations 516 00:29:33,750 --> 00:29:36,740 sans porter atteinte la vie privée des préoccupations de personne 517 00:29:36,740 --> 00:29:42,150 est essentiellement nous regardons 10 années de données sur l'utilisation, - 518 00:29:42,150 --> 00:29:43,930 >> Ce est donc sur une longue période de temps. 519 00:29:43,930 --> 00:29:50,639 >> --et dire, OK, nous allons voir comment de nombreuses fois ce travail a été utilisé, 520 00:29:50,639 --> 00:29:52,930 et par qui, au cours de cette période de temps, et ensuite essentiellement 521 00:29:52,930 --> 00:29:56,300 redonner un certain nombre, que nous appelons un score de pile, qui essentiellement 522 00:29:56,300 --> 00:29:59,910 représente combien il a été utilisé. 523 00:29:59,910 --> 00:30:01,084 Et ce number-- 524 00:30:01,084 --> 00:30:03,250 Beaucoup de différents calculs aller dans ce nombre. 525 00:30:03,250 --> 00:30:05,150 --mais ce est un très rugueux métrique qui vous donne 526 00:30:05,150 --> 00:30:11,300 une certaine idée de la façon dont le communauté peut évaluer ce travail. 527 00:30:11,300 --> 00:30:16,772 >> Et donc une autre sorte de même plus étoffé demande 528 00:30:16,772 --> 00:30:18,480 qui prend l'avantage Ce est quelque chose de 529 00:30:18,480 --> 00:30:24,000 Stacklife appelé, qui est en fait disponible par l'intermédiaire du principal Harvard 530 00:30:24,000 --> 00:30:24,880 Portail Bibliothèque. 531 00:30:24,880 --> 00:30:26,700 Alors vous allez à library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Vous verrez un certain nombre de différents façons de rechercher la bibliothèque. 533 00:30:29,360 --> 00:30:32,300 Et l'un d'eux est appelé Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> Et ce est une application qui navigue le contenu de la bibliothèque, 535 00:30:38,980 --> 00:30:43,490 mais il est entièrement construit sur le dessus de ces API. 536 00:30:43,490 --> 00:30:46,910 Il n'y a donc pas de choses spéciale passe dans les coulisses. 537 00:30:46,910 --> 00:30:49,570 Il n'y a pas accès à données que vous ne avez pas. 538 00:30:49,570 --> 00:30:54,090 Ce est en utilisant les API de vous fournir avec un parcours complètement différent 539 00:30:54,090 --> 00:30:55,480 expérience. 540 00:30:55,480 --> 00:30:58,570 >> Donc, si je cherche pour Alice au pays des merveilles dans ce cas, 541 00:30:58,570 --> 00:31:02,600 Je obtiens un résultat qui ressemble à ce qui est assez much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> Il est très similaire à une autre recherche vous pourriez faire, sauf dans ce cas 544 00:31:10,870 --> 00:31:15,730 nous classer les articles par stackscore, qui vous donne 545 00:31:15,730 --> 00:31:19,850 une idée de la popularité de ces articles étaient sein de la communauté. 546 00:31:19,850 --> 00:31:25,610 Et si clairement, Alice au pays des merveilles par Walt Disney est très populaire. 547 00:31:25,610 --> 00:31:36,570 Mais vous pouvez aussi voir les quatre premiers voici ceux que vous pourriez ne pas actually-- 548 00:31:36,570 --> 00:31:39,220 >> Les choses qui sont très utilisés, mais vous ne pouvez pas immédiatement 549 00:31:39,220 --> 00:31:41,240 connecter avec Alice in Wonderland. 550 00:31:41,240 --> 00:31:44,650 Donc, notre vieil ami Le Annoté Alice est ici. 551 00:31:44,650 --> 00:31:46,350 Donc, je peux prendre un coup d'oeil. 552 00:31:46,350 --> 00:31:52,010 Et maintenant que je suis à la recherche AT est essentiellement un ensemble de-- 553 00:31:52,010 --> 00:31:53,760 Je peux avoir The Annotated Alice ici. 554 00:31:53,760 --> 00:31:56,700 Je ai des informations à ce sujet. 555 00:31:56,700 --> 00:32:00,230 Et je ai aussi un stackscore de, dans ce cas, 26. 556 00:32:00,230 --> 00:32:03,169 Et cela me dit sorte d'environ comment nous sommes arrivés à cette stackscore, 557 00:32:03,169 --> 00:32:05,835 comme qui a extrait, comme la façon dont Plusieurs fois, il a été vérifié, 558 00:32:05,835 --> 00:32:08,440 comme faculté ou étudiants de premier cycle, comment de nombreuses copies de la bibliothèque, a 559 00:32:08,440 --> 00:32:11,300 et ainsi de suite et ainsi de suite. 560 00:32:11,300 --> 00:32:16,460 >> Et vous pouvez aussi, assez intéressant ici, parcourir les piles virtuellement. 561 00:32:16,460 --> 00:32:19,550 Ainsi, les données présentées ici, ce est vous montrant tri 562 00:32:19,550 --> 00:32:23,547 d'une représentation virtuelle de ce que l'étagère puissance 563 00:32:23,547 --> 00:32:25,880 ressembler si vous deviez prendre toutes les exploitations de la bibliothèque 564 00:32:25,880 --> 00:32:28,940 et les mettre ensemble sur une durée infinie. 565 00:32:28,940 --> 00:32:30,990 Et la bonne chose est que nous can-- 566 00:32:30,990 --> 00:32:33,380 >> Tout d'abord, la métadonnées sur ces livres 567 00:32:33,380 --> 00:32:35,627 vous dit souvent, quand il a été publié. 568 00:32:35,627 --> 00:32:37,085 Il vous indique le nombre de pages dont il dispose. 569 00:32:37,085 --> 00:32:38,459 Il pourrait vous dire les dimensions. 570 00:32:38,459 --> 00:32:42,930 Donc vous pouvez voir cela se reflète ici en termes de la taille des livres. 571 00:32:42,930 --> 00:32:46,740 >> Et puis nous pouvons utiliser la empiler pointage de mettre en évidence 572 00:32:46,740 --> 00:32:49,170 les livres qui ont des scores plus élevés de la pile. 573 00:32:49,170 --> 00:32:54,930 Donc, si ce est plus sombre, cela signifie que, sans doute, il est utilisé plus fréquemment. 574 00:32:54,930 --> 00:32:57,040 Donc dans ce cas, je suis vais deviner que cette 575 00:32:57,040 --> 00:33:03,226 est la version d'Alice au pays des merveilles qui est très couramment utilisé et le plus 576 00:33:03,226 --> 00:33:05,100 consultée, la bibliothèque a le plus de copies de. 577 00:33:05,100 --> 00:33:06,975 Donc, si vous êtes à la recherche pour Alice au pays des merveilles, 578 00:33:06,975 --> 00:33:10,220 cela pourrait être un bon endroit pour commencer. 579 00:33:10,220 --> 00:33:13,500 >> Et puis là, vous pouvez également lier à à, disons, Amazon pour acheter le livre, 580 00:33:13,500 --> 00:33:15,182 et ainsi de suite et ainsi de suite. 581 00:33:15,182 --> 00:33:17,140 Le point ici, encore une fois, ne est pas tant que ce 582 00:33:17,140 --> 00:33:25,030 est le meilleur moyen de parcourir la bibliothèque ou le bon outil pour chaque occasion. 583 00:33:25,030 --> 00:33:28,400 Mais ce est une autre façon de le faire. 584 00:33:28,400 --> 00:33:31,359 Et en faisant les données disponible via une API, ce qui 585 00:33:31,359 --> 00:33:34,650 est constitué de blocs de construction très simples, qui vous permet de rechercher le contenu, 586 00:33:34,650 --> 00:33:39,420 vous pouvez construire quelque chose ce genre qui peut 587 00:33:39,420 --> 00:33:41,520 être extraordinairement précieux pour certaines personnes. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Donc, ce est en quelque sorte, autant que je veux à-dire vraiment à ce que l'API est 590 00:33:51,860 --> 00:33:56,070 et ce qu'il expose, il ya un ensemble de tas de choses dans les coulisses, qui 591 00:33:56,070 --> 00:33:59,480 Je vais aborder brièvement juste parce que ce genre de est à ce 592 00:33:59,480 --> 00:34:03,720 sous un angle complètement différent dans termes de comment fonctionne quelque chose comme ça 593 00:34:03,720 --> 00:34:04,580 se mettre en place? 594 00:34:04,580 --> 00:34:10,820 >> Donc, une API est une norme interfacer avec tout ce contenu. 595 00:34:10,820 --> 00:34:13,820 Mais pour en arriver là, le première chose que nous avions à faire 596 00:34:13,820 --> 00:34:17,260 a été de rassembler des informations des livres et des images 597 00:34:17,260 --> 00:34:21,580 et les aides à la recherche, la collecte document à partir de différents systèmes de Harvard. 598 00:34:21,580 --> 00:34:23,929 Aleph, VIA et OASIS sont les noms des systèmes. 599 00:34:23,929 --> 00:34:28,820 Et ils vont essentiellement dans un pipeline, un pipeline de traitement. 600 00:34:28,820 --> 00:34:33,230 >> Alors tout d'abord, nous obtenons l'exportation fichiers de tous ces systèmes. 601 00:34:33,230 --> 00:34:35,130 Nous les avons divisés en éléments individuels. 602 00:34:35,130 --> 00:34:39,360 Donc, nous avons un fichier, qui est un gigaoctet, qui a un million de disques en elle. 603 00:34:39,360 --> 00:34:42,290 Donc, nous scinder en éléments individuels. 604 00:34:42,290 --> 00:34:45,374 Ensuite, pour chaque article, nous convertissons dans MODS, parce que certains d'entre eux 605 00:34:45,374 --> 00:34:47,040 MODS sont nativement, certains d'entre eux ne sont pas. 606 00:34:47,040 --> 00:34:49,204 Donc nous les recevons tous à être dans le même format. 607 00:34:49,204 --> 00:34:51,120 Ensuite, il ya diverses où les étapes d'enrichissement, 608 00:34:51,120 --> 00:34:55,969 nous ajoutons plus d'informations aux données celui qui était disponible dans la bibliothèque. 609 00:34:55,969 --> 00:34:59,750 Nous avons donc besoin d'ajouter, d'abord nous avons ce bibliothèques tenir. 610 00:34:59,750 --> 00:35:02,250 Nous passons par une étape de le calcul de la stackscore. 611 00:35:02,250 --> 00:35:07,112 Nous passons par une autre étape de ajoutant plus de métadonnées en termes 612 00:35:07,112 --> 00:35:10,730 de ce que les gens collections aurait pu ajouter this-- 613 00:35:10,730 --> 00:35:12,532 >> Les gens créent collections d'objets. 614 00:35:12,532 --> 00:35:13,990 Quelles collections appartient-il? 615 00:35:13,990 --> 00:35:17,220 Comment les gens ont marqués ce contenu dans le passé? 616 00:35:17,220 --> 00:35:20,750 Puis vous filtrez, et vous limitez les dossiers parce que, comme je l'ai mentionné, 617 00:35:20,750 --> 00:35:24,120 il ya certains documents qui, en raison de des raisons de copyright, nous ne pouvons pas afficher. 618 00:35:24,120 --> 00:35:26,700 Et puis nous chargeons de les en quelque chose appelé 619 00:35:26,700 --> 00:35:31,680 Solr, qui ne est pas une faute d'orthographe, mais est le nom d'un morceau de logiciel 620 00:35:31,680 --> 00:35:35,710 cela ne l'indexation de recherche, qui entraîne toute la recherche derrière l'API. 621 00:35:35,710 --> 00:35:40,110 Et il devient alors disponible pour les API, et les gens peuvent l'utiliser. 622 00:35:40,110 --> 00:35:44,640 >> Donc, ce est comme un assez processus simple. 623 00:35:44,640 --> 00:35:47,230 L'un des intéressant choses à ce sujet est 624 00:35:47,230 --> 00:35:50,990 que nous traitons avec 13 millions de disques 625 00:35:50,990 --> 00:35:53,820 et nous allons traiter ou plus. 626 00:35:53,820 --> 00:36:01,260 Et nous voulons être en mesure de gérer ceux-ci d'une manière relativement rapide. 627 00:36:01,260 --> 00:36:03,630 Il faut beaucoup de temps pour traiter 13 millions de dossiers. 628 00:36:03,630 --> 00:36:09,529 >> Alors, comment ce pipeline est mis en place est que vous can-- 629 00:36:09,529 --> 00:36:12,070 Je suppose que l'avantage de la pipeline, le problème que nous sommes 630 00:36:12,070 --> 00:36:15,580 essayer de résoudre ici, ce est que toutes les transformations, toutes 631 00:36:15,580 --> 00:36:18,729 ces étapes de cette pipeline sont séparables. 632 00:36:18,729 --> 00:36:19,645 Il n'y a pas de dépendance. 633 00:36:19,645 --> 00:36:22,146 Si vous traitez un record d'un livre, 634 00:36:22,146 --> 00:36:24,270 il n'y a aucune dépendance qu'entre un autre livre. 635 00:36:24,270 --> 00:36:27,760 >> Donc, ce que nous pouvons faire, ce est essentiellement, à chaque étape du pipeline, 636 00:36:27,760 --> 00:36:30,470 nous l'avons mis dans une file d'attente dans le nuage. 637 00:36:30,470 --> 00:36:32,250 Il me est arrivé d'être sur Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Donc, il ya une liste de, dire, 10 000 articles qui 639 00:36:35,140 --> 00:36:38,100 doivent être normalisées et convertis au format MODS. 640 00:36:38,100 --> 00:36:41,620 Et nous filons autant de serveurs que nous voulons, peut-être 10 serveurs. 641 00:36:41,620 --> 00:36:44,860 Et chacun de ces serveurs juste il se assied, regarde dans cette file d'attente, 642 00:36:44,860 --> 00:36:46,730 voit qu'il ya une qui doit traiter, en tire la file d'attente, 643 00:36:46,730 --> 00:36:48,740 traite et bâtons sur la file d'attente suivant. 644 00:36:48,740 --> 00:36:54,200 >> Et qu'est-ce qui nous permet à faire est d'appliquer, pour l'essentiel, 645 00:36:54,200 --> 00:36:58,110 autant le matériel que nous voulons à ce problème pendant une très courte période de temps 646 00:36:58,110 --> 00:37:02,970 à traiter les données aussi rapidement que possible, ce qui est quelque chose que seul, 647 00:37:02,970 --> 00:37:08,220 maintenant dans le monde du cloud computing Nous pouvons serveurs de mise à disposition essentiellement 648 00:37:08,220 --> 00:37:09,890 instantanément, est très utile. 649 00:37:09,890 --> 00:37:12,260 Donc, nous ne avons pas à avoir une serveur géant assis autour 650 00:37:12,260 --> 00:37:16,700 tout le temps de faire le traitement cela pourrait se produire qu'une fois par semaine. 651 00:37:16,700 --> 00:37:21,440 >> Donc, ce est cela la plupart du temps. 652 00:37:21,440 --> 00:37:27,590 Il ya documentation disponible pour l'API Point Bibliothèque Couverture 653 00:37:27,590 --> 00:37:31,960 à cette adresse URL, qui sera sera disponible plus tard. 654 00:37:31,960 --> 00:37:36,730 Et se il vous plaît aller jeter un oeil à pour voir si il ya quelque chose, 655 00:37:36,730 --> 00:37:37,579 vous avez des idées. 656 00:37:37,579 --> 00:37:38,120 Jouez avec lui. 657 00:37:38,120 --> 00:37:38,830 Batifoler. 658 00:37:38,830 --> 00:37:42,800 Et je espère que vous pouvez venir avec quelque chose de grand. 659 00:37:42,800 --> 00:37:44,740 Merci. 660 00:37:44,740 --> 00:37:45,899