JEFFREY Licht: Salut lÃ . Je suis Jeffrey Licht. Et je suis ici pour vous parler de la Harvard Ã©difice de BibliothÃ¨que et demain bibliothÃ¨que aujourd'hui, je suppose. Ainsi, le fond ici, le terrain pour cette session est essentiellement qu'il ne existe beaucoup de donnÃ©es bibliographiques disponible dans les bibliothÃ¨ques de Harvard. Et il ya une possibilitÃ©, par certains des outils et un projet qui est en cours d'Ã©laboration, pour avoir accÃ¨s Ã  l'information et le prendre Ã  des endroits que le Harvard Library ne est pas en train de faire en ce moment, faire des choses nouvelles avec elle, l'expÃ©rience et jouer avec elle. Ainsi, le point d'entrÃ©e dans ce est une API appelÃ© le Harvard BibliothÃ¨que Cloud, est un serveur de mÃ©tadonnÃ©es ouverte, dont je vais parler maintenant. Donc, le fond est qu'il existe un beaucoup de choses dans la bibliothÃ¨que de Harvard. Nous avons plus de 13 millions bibliographique dossiers, des millions d'images, et des milliers de instruments de recherche, qui sont essentiellement des documents dÃ©crivant collections, en disant ce que qui est en eux, boÃ®tes de documents etc., qui reprÃ©sentent plus de un million de documents individuels. Et il ya aussi beaucoup de informations que la bibliothÃ¨que a sur la faÃ§on dont le contenu est utilisÃ© que pourrait Ãªtre d'intÃ©rÃªt pour les gens qui pourrait vouloir travailler avec elle. 

Ainsi, toutes les informations la bibliothÃ¨que possÃ¨de des mÃ©tadonnÃ©es. Donc mÃ©tadonnÃ©es sont des donnÃ©es sur les donnÃ©es. Alors, quand on parle de l'information qui est disponibles Ã  la bibliothÃ¨que nuage qui est disponible, ce ne est pas nÃ©cessairement les documents rÃ©els eux-mÃªmes, pas nÃ©cessairement la pleine texte de livres ou les images complÃ¨tes, si ce fait peut Ãªtre le cas. Mais ce est vraiment informations sur les donnÃ©es. 

Alors vous pouvez penser catalogage informations, numÃ©ros d'appel, les sujets, le nombre de copies de la livre il ya, ce sont les Ã©ditions, ce sont les formats, les auteurs, et ainsi de suite. Donc, il ya beaucoup d'informations sur les informations contenues dans la collection, en soi, est une sorte de nature utile. Et bien si vous Ãªtes faire de la recherche en profondeur, vous voulez Ã©videmment se rendre Ã  la rÃ©elle contenu lui-mÃªme et de regarder les donnÃ©es, les mÃ©tadonnÃ©es est utile en termes de Ã  la fois l'analyse du corpus dans son ensemble, comme ce que les choses sont dans la collection. Comment se rapportent-ils? Il vous aide Ã  trouver vraiment d'autres choses, qui est vraiment l'objectif principal de celui-ci. Le point de la mÃ©tadonnÃ©es et le catalogue est de vous aider Ã  trouver tout l'information qui est disponibles dans les collections. 

Donc, ce est un exemple de mÃ©tadonnÃ©es pour un livre dans la bibliothÃ¨que de Harvard. Donc, ce est lÃ . Et vous pouvez voir que ce est effectivement modÃ©rÃ©ment complexe. Et une partie de la valeur de mÃ©tadonnÃ©es dans le systÃ¨me Harvard BibliothÃ¨que est qu'il a Ã©tÃ© tri de construction par les catalogueurs et assemblÃ©s par les personnes qui demandent beaucoup d'expertise et de compÃ©tence et je ai pensÃ© Ã  elle au fil du temps, qui a beaucoup de valeur. 

Donc, si vous jetez un oeil Ã  cet enregistrement pour The Annotated Alice, vous pouvez savoir vous avez le titre, qui l'a Ã©crit, le auteur, et tous les diffÃ©rents sujets laquelle les gens ont cataloguÃ© dans. Et vous pouvez le voir il ya aussi, dans plus de beaucoup de bonnes informations ici, il ya un certain chevauchement. Il ya beaucoup de complexitÃ© qui est rÃ©flÃ©chie par les mÃ©tadonnÃ©es que vous avez. 

Donc, un titre de ce livre est Alice au pays des merveilles. Ce est donc une annotÃ© version de ce livre. Mais il est aussi appelÃ© The Annotated Alice, Alice au pays des merveilles, car ce est quelque chose qui Martin Gardner a Ã©crit et annotÃ© le livre. Et il ya un grand nombre d'informations de puzzles logiques et les choses Alice sein que vous n'a probablement pas connaÃ®tre. Donc, vous devriez aller lire. 

Mais vous pouvez le voir il ya beaucoup de dÃ©tails ici, y compris des identificateurs, lorsqu'elle a Ã©tÃ© crÃ©Ã©, d'oÃ¹ il vient, en termes de Harvard systÃ¨me, et ainsi de suite. Donc, ce est un Ã©chantillon de le type de mÃ©tadonnÃ©es que vous pourriez voir pour un livre dans la collection BibliothÃ¨que Harvard. 

Ce est quelque chose de complÃ¨tement diffÃ©rent. Donc, il ya un systÃ¨me appelÃ© VIA Harvard, qui essentiellement est catalogage des images et des objets d'art et les choses visuel tout au long de Harvard, et en ajoutant des mÃ©tadonnÃ©es pour eux, de les classer, et, dans certains cas, fournir petites vignettes que vous pouvez prendre un regardez si vous le souhaitez. 

Donc, ce est un exemple de la mÃ©tadonnÃ©es que vous avez pour une plaque Ã  partir, sans doute, Alice au pays des merveilles. Et vous pouvez le voir il ya moins mÃ©tadonnÃ©es ici. Ce est juste un autre type d'objet. Et donc il ya moins d'informations. 

Vous avez principalement le fait que, d'un appel nombre, essentiellement qui l'a crÃ©Ã©, - 

Nous ne savons pas quand il a Ã©tÃ© crÃ©Ã©. 

-et un titre. 

Un autre exemple. Ce est un instrument de recherche. Donc, il ya une collection de Lewis Les papiers de Carroll Ã  Harvard. Donc cela dÃ©crit ce est dans cette collection. Donc, quelqu'un a vÃ©cu et regardÃ© Ã  travers toutes les cases et cataloguÃ©, Ã©tant donnÃ© une certaine expÃ©rience, Ã©crit un rÃ©sumÃ© de ce qui est ici. Et si vous Ã©tiez Ã  regarder plus loin Ã  ce, cette va sur des pages et des pages et les pages, mais vous diront et ce quelles lettres dates de ce que les boÃ®tes existÃ© dans toute la collection. Mais ce est quelque chose que, si vous Ãªtes Ã  Harvard, vous pouvez aller et effectivement regarder physiquement et, sans doute, jetez un oeil Ã . 

Donc, ce est gÃ©nial. Ce est utile mÃ©tadonnÃ©es. Ce est dans le systÃ¨me de Harvard Library. Il existe des outils en ligne oÃ¹ vous peut aller prendre un coup d'oeil, et voir, et le fouiller. Et vous pouvez le couper en tranches et les dÃ©s dans beaucoup de faÃ§ons diffÃ©rentes. 

Mais ce est vraiment disponible uniquement si vous Ãªtes un Ãªtre humain assis Ã  votre navigateur Web ou quelque chose ou votre tÃ©lÃ©phone et naviguer Ã  travers. Il ne est pas vraiment disponible en toute sorte de mode utilisable ou d'autres systÃ¨mes d'autres ordinateurs Ã  utiliser, pas de systÃ¨mes au sein de la bibliothÃ¨que de Harvard, mais les systÃ¨mes du monde extÃ©rieur, seulement d'autres personnes en gÃ©nÃ©ral. Donc la question est, comment pouvons-nous rendre disponible pour les ordinateurs de sorte que nous pouvons faire plus intÃ©ressant des trucs avec lui que juste navigation nous-il? 

Alors, pourquoi voudriez-vous faire cela? Il ya beaucoup de possibilitÃ©s. On est vous pourriez construire un tout faÃ§on diffÃ©rente de navigation le contenu qui est disponible Ã  travers les bibliothÃ¨ques de Harvard. Je vais vous montrer une plus tard appelÃ© Stacklife, qui a un complÃ¨tement diffÃ©rent prendre sur la recherche de contenu. 

Vous pourriez construire un moteur de recommandation. Donc Harvard bibliothÃ¨que ne est pas dans la entreprise de dire, vous aimez ce livre. Ensuite, allez jeter un oeil Ã  ces 17 autres livres que vous pourriez Ãªtre intÃ©ressÃ© par ou ces 18 autres images. Mais cela pourrait certainement Ãªtre un Ã©lÃ©ment prÃ©cieux. Et Ã©tant donnÃ© les mÃ©tadonnÃ©es, il peut possible de mettre cela ensemble. Vous pourriez avoir des besoins diffÃ©rents en termes de recherche sur le contenu, comme peut-Ãªtre malgrÃ© les outils sont disponibles que la bibliothÃ¨que fait disponible, vous voudrez peut- Ã  la recherche d'une maniÃ¨re diffÃ©rente ou optimiser pour un cas d'utilisation particulier, qui peut-Ãªtre qu'il est trÃ¨s spÃ©cialisÃ©e. Peut-Ãªtre il ya seulement quelques-uns les gens dans le monde qui vouloir rechercher le contenu de cette maniÃ¨re, mais il serait formidable si nous pourrait laisser faire. Il ya beaucoup de l'analyse en seulement comment les gens utiliser le contenu qui serait vraiment intÃ©ressant de connaÃ®tre, savoir quels livres sont utilisÃ©s, ce ne sont pas, et ainsi de suite. Et puis il ya beaucoup de possibilitÃ© d'intÃ©grer d'autres informations ce est lÃ -bas sur le web. Donc, nous have-- 

Par exemple, NPR a une critique de livre segment, oÃ¹ ils interviewent auteurs sur les livres. Et ce serait super si vous Ã©tiez regardant un livre dans la Harvard BibliothÃ¨que, et vous dites, OK, il ya eu une entrevue avec l'auteur. Allons jeter un coup d'oeil. Ou il ya une page Wikipedia, comme un autoritÃ©, rÃ©fÃ©rence savante Ã  propos de ce livre que vous pourrait vouloir jeter un oeil Ã . 

Il existe de ces types de sources dispersÃ©s Ã  travers le web. Et les rÃ©unir pourrait Ãªtre un grand usage pour quelqu'un qui cherche Ã  la contenu, la recherche de quelque chose. Mais ce ne est pas non plus la genre de chose que vous feriez veulent la bibliothÃ¨que d'Ãªtre responsable pour aller vers le bas et la traque toutes ces diffÃ©rentes sources et les brancher ensemble parce qu'ils sont en constante Ã©volution. Et ce qu'ils pensent est important de mai ne pas Ãªtre ce que vous pensez est important. 

Et plus encore, fondamentalement, il ya un beaucoup de choses que nous ne avons pas encore pensÃ©. Donc, si nous pouvons ouvrir cette place, plus personnes en plus une demi-douzaine, qui cherchent Ã  ce sur un base rÃ©guliÃ¨re peut penser Ã  des idÃ©es et masser les donnÃ©es, et faire ce qu'ils veulent avec elle. 

Donc, nous voulons faire de cette les donnÃ©es disponibles pour le monde. Eh bien, il ya quelques complications. La premiÃ¨re est que ces mÃ©tadonnÃ©es est dans diffÃ©rents systÃ¨mes. Ce est dans diffÃ©rents formats. Il ya donc une certaine normalisation qui doit arriver, qui, Ã©tant le processus de normalisation apporter des choses Ã  partir de diffÃ©rents formats et de les faire correspondre Ã  un format unique de sorte que les champs se affronteront. 

Il ya quelques restrictions de droits d'auteur. Curieusement, l'entrÃ©e de catalogue d'un livre est responsable des droits d'auteur. Ainsi, mÃªme si ce est juste l'information provenant du livre, ce est un droit d'auteur. Et en fonction de qui fait crÃ©Ã© que les mÃ©tadonnÃ©es, il peut y avoir des restrictions sur qui peuvent distribuer, to-- similaires 

Je ne sais pas. Il peut ou peut ne pas Ãªtre similaire Ã  la situation des paroles de chansons, par exemple. Donc, nous savons tous comment cela casseroles. Vous avez donc besoin de se dÃ©placer cette question. 

Et puis une autre piÃ¨ce est qu'il ya un grand nombre de donnÃ©es. Donc, si je suis quelqu'un qui veut travailler avec les donnÃ©es ou a une bonne idÃ©e, traiter 14000000 dossiers sur mon ordinateur portable pourrait Ãªtre problÃ©matique et difficile Ã  gÃ©rer. Donc, nous voulons rÃ©duire les obstacles pour les personnes pour Ãªtre en mesure de travailler avec les donnÃ©es. 

Donc, l'approche qui nous l'espÃ©rons adresses toutes ces prÃ©occupations est deux parties. Un est la construction d'une plate-forme qui prend les donnÃ©es de toutes ces sources disparates et aggrave il, normalise, enrichit et marques disponible en un seul endroit. Et elle rend disponible via une API publique que les gens peuvent appeler. 

Donc, une API est une application Programming Interface. Et il se rÃ©fÃ¨re essentiellement Ã  un point final qu'un systÃ¨me ou de la technologie peut appeler et rÃ©cupÃ©rer des donnÃ©es dans un format structurÃ© d'une maniÃ¨re qu'il peut Ãªtre utilisÃ©. Donc ce ne est pas dÃ©pendante d'aller Ã  un site Web et le grattage donnÃ©es hors de celui-ci, par exemple. 

Donc, ce est la page d'accueil de l'API Point BibliothÃ¨que Cloud, qui est essentiellement sa version deux. Ce est donc la deuxiÃ¨me itÃ©ration de essayer de faire toutes ces donnÃ©es la disposition du monde. Ce est donc http://api.lib.harvard.edu/v2/items. Et juste pour le dÃ©composer un peu, ce que cela signifie est que ce est une version deux de l'API. Il ya une version une, qui Je ne vais pas en parler. Mais il existe une version une. 

Et si vous appelez cette API, vous obtenez les articles. Et une partie de l'idÃ©e d'une API est une API est un contrat. Ce est quelque chose qui est ne va pas changer. Ainsi, par exemple, - 

Et la raison en est que si je construire une sorte de systÃ¨me va utiliser une API bibliothÃ¨que de cloud pour afficher livres ou aider les gens Ã  trouver informations de faÃ§on unique, ce que nous ne voulons pas de se produire est pour nous d'aller changer la faÃ§on dont cette API fonctionne, et tout Ã  coup tout brise sur le cÃ´tÃ© de l'utilisateur final. Donc, une partie de si vous faites API Ã  la disposition du monde, ce est bonnes pratiques pour mettre un numÃ©ro de version dans ce que les gens savoir quelle version ils ont affaire. 

Donc, si nous dÃ©cidons que nous trouvons une meilleure faÃ§on de rendre cette information disponible, nous pourrions changer cela en appeler cette version trois. Donc tout le monde qui est toujours Ã  l'aide version Ã  deux, Ã§a va encore du travail. Mais la troisiÃ¨me version serait avoir tous les nouveaux trucs. 

Donc, ce est une API, mais cette ressemble vraiment Ã  une URL. Et donc ce que ce est un exemple de est ce qui est une API appelÃ©e repos, qui est disponible plus simplement une connexion Internet rÃ©guliÃ¨re. Et vous pouvez rÃ©ellement aller dans un navigateur. 

Donc ici, je viens d'ouvrir Firefox et allÃ© Ã  api.lib.harvard.edu/v2/items. Et donc ce que je ai ici est essentiellement la premiÃ¨re page des rÃ©sultats de l'ensemble un ensemble d'Ã©lÃ©ments que nous avons. Et ce est ici au format XML. Et il a aussi Ã©tÃ© embellie par Firefox. Il n'a effectivement pas tous ces peu dilatant et se contractant doohickeys ici. Ce est une sorte de plus agrÃ©able Version faÃ§on de regarder. 

Mais ce que cela nous dit est Je ai demandÃ© Ã  tous les articles. Donc, il ya 13.289.475 articles. Et je suis Ã  la recherche Ã  la premiÃ¨re 10, Ã  partir de la position zÃ©ro parce que dans l'informatique nous commenÃ§ons toujours Ã  zÃ©ro. Et ce que je ai ici, si je viens de se effondrer cela, vous verrez que je ai 10 articles. 

Et si je prends un oeil Ã  un article, je ne peux vois que je ai des informations Ã  ce sujet. Et ce est dans ce qu'on appelle la forme MODS. Et donc je vais passer revenir ici pour un moment. D'ACCORD. 

Donc, nous allons chercher quelque chose dans spÃ©cifique, car le premier Ã©lÃ©ment qui arrive Ã  trouver quand vous regardez Ã  travers toute la collection est, par dÃ©finition, alÃ©atoire. Alors regardons quelques beignets. Oh. 

D'ACCORD. Donc beignets. Donc, nous avons trouvÃ© il ya 80 piÃ¨ces la collection de rÃ©fÃ©rence beignets. Nous nous penchons sur le premier 10 d'entre eux. Maintenant, vous pouvez voir ici la faÃ§on dont Je ai dit que je suis Ã  la recherche des beignets, Je viens d'ajouter quelque chose Ã  la chaÃ®ne de requÃªte de l'URL. Alors q est Ã©gal Ã  beignets, que vous pouvez voir un peu plus facilement ici. 

Et cela signifie, fondamentalement, il est une spÃ©cification pour l'API, qui dÃ©finit ce que l'ensemble de signifient ces paramÃ¨tres. Et cela signifie que nous allons tout pour chercher des beignets. 

Donc, le premier point nous avons ici vous pouvez voir le titre est Donuts, et il existe un sous-titre appelÃ©e Passion amÃ©ricain, qui est, je suppose, appropriÃ©e. Il ya beaucoup de different-- Une fois que vous arrivez au point d'obtenir les donnÃ©es, il ya beaucoup de diffÃ©rents formats que vous pouvez obtenir en. Et il ya diffÃ©rentes forces et faiblesses de chacun d'eux. Alors celui-ci, vous pouvez voir ici, cette forme est trÃ¨s riche. Et il est standardisÃ©. 

Donc, il ya un titre spÃ©cifique champ, un champ de sous-titres. Il ya un autre titre, une passion amÃ©ricaine. Il est le nom qui lui est associÃ©. Type de la ressource est du texte. Il ya beaucoup d'informations ici dans ce format. 

Mais il ya un tas de diffÃ©rents formats. Donc, ce que nous Ã©tions juste regarder est un format dites mods, qui signifie Metadata Object Description du service, potentiellement. Je suis en fait pas tout Ã  fait sÃ»r de la S. Mais ce est un format assez complexe. Ce est le format par dÃ©faut. 

Mais ce est l'un qui garde la richesse de l'ensemble des donnÃ©es que la bibliothÃ¨que a raison il est trÃ¨s proche de ce que la bibliothÃ¨que utilise en interne. Ce est une norme qui est utilisÃ© Ã  travers le pays, Ã  travers le monde dans les bibliothÃ¨ques universitaires. Et ce est trÃ¨s interopÃ©rable. Donc, si vous avez un document ce est en format MODS, vous pouvez donner Ã  quelqu'un d'autre que dont les systÃ¨mes comprennent MODS, et ils peuvent importer. Donc, ce est une norme. Ce est trÃ¨s bien dÃ©fini, trÃ¨s spÃ©cifique. Et ce est ce qui le rend interopÃ©rable parce que si quelqu'un dit, ce est le titre d'un autre enregistrement, tout le monde sait ce que cela signifie. D'un autre cÃ´tÃ©, ce est trÃ¨s compliquÃ©. 

Donc, si vous jetez un oeil Ã  ce dossier en l'espÃ¨ce, si je veux juste pour obtenir le titre de ce document, de ce livre, qui est probablement Donuts, Une Passion amÃ©ricain, l'analyser sur est un peu impliquÃ©. ConsidÃ©rant qu'il ya un autre format appelÃ© Dublin Core, qui est un format beaucoup plus simple. 

Et si vous voyez ici, il n'y a pas titre, sous-titre, titre alternatif. Il ya juste le titre, Donuts, une passion amÃ©ricaine, et un autre titre, Passion amÃ©ricain. Alors, quand vous cherchez Ã  quelle forme vous voulez obtenir des donnÃ©es sur, beaucoup dÃ©pend de la faÃ§on dont vous allez l'utiliser. Utilisez-vous pour interopÃ©rabilitÃ© ou vous ne avez vouloir quelque chose de simple qui pourrait Ãªtre plus facile de travailler avec? 

D'un autre cÃ´tÃ©, beaucoup de dÃ©tails se sorte de Ã©crasÃ©s vers le bas. Vous risquez de perdre les nuances de ce un moyen de terrain particuliÃ¨res si vous avez affaire Ã  Dublin Core, que vous ne seriez pas obtenir avec MODS. Donc, ce sont deux des formats vous pouvez sortir de l'API. Et dans le fond, nous gardons derriÃ¨re les scÃ¨nes dans MODS. Mais nous pouvons vous donner dans MODS et Dublin Core et rien d'autre aussi. L'autre considÃ©ration lors de vous Ãªtes Ã  la recherche dans les donnÃ©es ce est que vous pouvez l'obtenir que soit JSON, qui signifie JavaScript Object Notation, ou XML, ce qui signifie Extensible Markup Language. Et ces reprÃ©sentations de donnÃ©es Ã  la fois avoir exactement les mÃªmes donnÃ©es, exactement les mÃªmes champs. Mais ils sont juste syntaxiquement diffÃ©rente. 

Donc, ce est a-- Eh bien, il suffit de passer. Donc, ce est notre requÃªte pour beignets au format XML. Si je passe simplement que cela soit JSON, Je peux voir il semble diffÃ©rent. Alors maintenant, ce est le mÃªme contenu, mais une structure diffÃ©rente. Il ya moins de crochets. Il ya moins verbeux. 

Et ce est un format qui, si vous travaillent dans un environnement Web, vous Ãªtes plus susceptible Ã  vouloir utiliser car une des belles choses sur JSON est il est compatible avec JavaScript. Donc, si je Ã©cris application web, je peux tirer JSON et juste travailler directement avec. Alors qu'avec XML, ce est un peu plus compliquÃ©. Encore une fois, ceux-ci sont Ã  la fois utiles. Ils sont juste diffÃ©rents cas d'utilisation oÃ¹ les gens pourraient vouloir les utiliser. D'ACCORD. Donc, retour Ã  l'API. Donc, nous pouvons rechercher en vue de: 

Je donne un exemple de la recherche de beignets. Nous pouvons aussi chercher seulement dans une domaine particulier au sein ici. Donc, au lieu de chercher l'ensemble du dossier, Je peux juste chercher le champ titre. Et maintenant il ya 25 choses qui avoir des beignets dans le titre, dont est sur la restauration zones humides dans la gestion du trou dans le beignet programme, qui est probablement pas nÃ©cessairement ce que nous recherchons lorsque nous recherchons des beignets. 

Vous pouvez aussi, si vous Ãªtes face Ã  une API-- 

Partie d'avoir une API donne personnes l'accÃ¨s Ã  de grands ensembles de donnÃ©es. Et il ya un autre couple outils que vous pouvez utiliser pour le faire. On est, trÃ¨s simplement, vous pouvez parcourir les donnÃ©es. Ainsi, tout comme si vous faites une requÃªte via une interface web, vous pouvez regarder la premiÃ¨re page, page deux, la page trois. Vous pouvez faire la mÃªme chose chose via l'API. Vous avez juste besoin d'Ãªtre explicite dans la faÃ§on dont vous le faites. 

Ainsi, par exemple, si je suis Ã  la recherche lors de ma premiÃ¨re requÃªte ici, oÃ¹ je fais une recherche pour des choses avec des beignets dans le titre, je peux dire, et la limite est Ã©gale Ã  20, ce qui signifie me donner les 20 premiers enregistrements, pas le premier 10, qui est la valeur par dÃ©faut, parce que je veux regarder Ã  20 Ã  la fois. Ou je peux dire, rÃ©glez le commencer Ã©gale Ã  20 et la limite Ã©gale Ã  20, ce qui donnera me enregistre 21 Ã  40. 

Donc je suppose que la chose Ã  emporter ici est que nous utilisons les chaÃ®nes de requÃªte pour dÃ©finir les paramÃ¨tres sur la requÃªte. Et il vous permet de commande ce que vous obtenez en retour. 

Un autre outil que vous pouvez utiliser, - 

Et ce est vraiment utile pour Conditions d'explorer les donnÃ©es. 

--s'agit quelque chose appelÃ© facettes. Ainsi, le terme est facettage pas nÃ©cessairement commun. Mais vous avez tous vu avant. Si vous jetez un oeil Ã  Amazon, par exemple, et vous effectuez une recherche pour beignets dans les livres, ici ils ont une sÃ©rie de livres, et ils sont regroupÃ©s par catÃ©gorie, et vous obtenez les diffÃ©rentes catÃ©gories, et combien de livres dans chaque catÃ©gorie montrer. 

Donc, ce est essentiellement une facette. Vous prenez tous leurs livres, le 1800 livres qui correspondent Ã  beignets sur Amazon. 12 d'entre eux sont en petit catÃ©gorie. 21 en pÃ¢tisserie et boulangerie, et ainsi de suite et ainsi de suite. 

Donc, ce est vraiment un utile outil pour explorer le contenu au sein de la bibliothÃ¨que ainsi parce que quand vous regardez une facette, il vous donne une idÃ©e de quels sujets existe, comme quels types de sujets sont les plus populaires au sein de votre groupe de recherche. Et il vous permet de conduire et hors explorer. Donc, nous pouvons faire la mÃªme chose. 

Si nous voulons utiliser la API et de regarder facettes, nous ajoutons un autre paramÃ¨tre Ã  notre ami la chaÃ®ne de requÃªte. Donc facettes Ã©gale sÃ©parÃ©es par une virgule liste de ce que nous voulons sur facette. Donc l'une des facettes pourrait faire l'objet. Un autre pourrait Ãªtre la langue. Et si nous courons cette requÃªte, nous get-- Il semble Ã  peu prÃ¨s la mÃªme chose ici. Mais nous avons ajoutÃ© Ã  la fin de la liste un ensemble de facettes. Nous avons donc une facette appelÃ©e sujet. Donc, ce est de nous dire que si je regarde mes 80 rÃ©sultats de la requÃªte de beignet, 13 d'entre eux ont le soumettre Ãtats-Unis. Trois ont soumis les beignets. Trois ont fait l'objet de restauration des zones humides, qui peut Ãªtre notre trou dans le beignet. Deux d'entre eux, les Simpsons, et ainsi de suite et ainsi de suite. 

Donc cela peut Ãªtre utile si vous vouloir affiner votre recherche. Il peut vous aider Ã  le faire. Surtout si vous avez plus de, disons, 80 rÃ©sultats. 

De mÃªme, nous avons Ã©galement demandÃ© pour facettes sur la langue. Donc, si nous regardons nos rÃ©sultats, nous voyons 76 d'entre eux sont en anglais, quatre en franÃ§ais, deux en espagnol, deux, je pense que ce est undefined ou inconnu, nÃ©erlandais et latine. Donc, je pense que la latine rÃ©sultat beignet, Ã  nouveau, n'a rien Ã  voir avec les produits de boulangerie. Mais lÃ  vous allez. 

Donc, ce est une sorte de vous montrer comment vous pouvez rÃ©cupÃ©rer le contenu de l'API seulement par navigateur web, ce qui est excellent. Mais ce ne est pas vraiment ce que vous feriez Ãªtre normalement Ã  l'aide de l'API pour elle. Donc, un exemple de la faÃ§on dont vous pourrait effectivement faire ce est que je ai Ã©crit d'un super petit programme, qui, lÃ  encore, ma recherche de beigne et sÃ©lectionne un champs couple et les affiche dans un tableau. Donc, ce est bien le mÃªme contenu que nous venons scie avec quelques champs sorti. Donc liste des titres, les emplacement de ce que le livre est sur le point, la langue, et ainsi de suite et ainsi de suite. 

Alors, comment cela se est rÃ©ellement passÃ©, depuis Je suppose que nous devons regarder un peu de code, est-- 

Ce que nous avons ici est un code HTML simple Cette page, qui affiche du texte, accueillir au cloud et bibliothÃ¨que puis affiche un tableau de rÃ©sultats. Et il ya Ã©videmment aucun rÃ©sultat en la table lorsque la page est chargÃ©e. Mais ce que nous faisons est, tout d'abord, nous sont le chargement d'une bibliothÃ¨que appelÃ©e jQuery, qui est essentiellement une bibliothÃ¨que JavaScript qui rend trÃ¨s facile de manipuler JavaScript nativement, HTML, et crÃ©er des pages web, logique cÃ´tÃ© client et des pages Web. 

Donc ce que nous avons ici est jQuery a une mÃ©thode appelÃ©e Get, qui, essentiellement, ira Ã  une URL, ce qui, dans ce cas, est cette URL regardant familier. Et ensuite obtenir le contenu de cette URL, puis exÃ©cuter une fonction sur elle. Alors nous avons dit aller Ã  api.lib.harvard / edu. Rechercher des beignets. Donnez-nous 20 dossiers. Et puis exÃ©cutez cette fonction, qui Je ai choisi, en lui passant les donnÃ©es. Et les donnÃ©es qui est le JSON fit rentrer de l'API. 

Et puis nous disons, dans ce donnÃ©es il ya un champ appelÃ© Ã©lÃ©ment. Et si je vais prendre un regard rÃ©trospectif sur une de ces rÃ©sultats qui est ici, il ya quelque chose called-- 

Eh bien, ce est ce qu'on appelle l'article. Ce est peut Ãªtre cela. Et ce qu'il fait est-il passe Ã  travers chaque Ã©lÃ©ment puis appelle une autre fonction sur chaque Ã©lÃ©ment. Et cette fonction essentiellement prend la valeur de ce point, qui est essentiellement dans le dossier individuel et nous permet de sortir le titre, la couverture et la langue. 

Nous appelons donc une fonction sur tous les Ã©lÃ©ment que nous sommes rentrÃ©s de l'API. Et si vous venez de prendre un coup d'oeil ce morceau ici, ce que nous faisons est nous crÃ©ons une chaÃ®ne, qui est essentiellement certaines balises HTML autour d'une table, avec value.title, qui est le titre de la objet, value.coverage, qui est la couverture, - 

Et nous faisons un chÃ¨que ici pour voir qui est undefined et cacher si elle dit non dÃ©finie, parce que nous ne sommes pas vraiment intÃ©ressÃ©s en ce que. 

--et puis la langue. Et puis ce que nous sommes faire est ajoutant que Ã  la table qui est identifiÃ© par cette chaÃ®ne ici. Et comment fonctionne jQuery est ce que cela veut dire, est de regarder pour la table avec l'idÃ©e rÃ©sultats et ajouter ce texte Ã  elle. Et ce est la table avec des rÃ©sultats idÃ©e. Donc ce que vous finissez par avec cette page est ici. Et pour voir source-- Eh bien, la source ne est pas fait mise Ã  jour quand ce est arrivÃ©. Donc vous pouvez voir le rÃ©el rÃ©sultats de la table ici cependant. 

Donc, ce est juste un exemple simple de faire une requÃªte trÃ¨s basique contre l'API et l'affichage d'informations dans une autre former, et ne pas faire quelque chose de trop de fantaisie. Maintenant, un autre exemple est comme un demande Ã©crite par David Weinberger comme une dÃ©monstration de ce qui vous montre essentiellement comment vous pouvez Ã©craser les rÃ©sultats que vous recherchez obtenir de l'API bibliothÃ¨que de cloud avec, par exemple, de Google Livres. 

Et la pensÃ©e, ce est que je peux exÃ©cuter une requÃªte contre Google Livres, obtenir une recherche en texte intÃ©gral, obtenir des rÃ©sultats dos, savoir lequel de ces Ã©lÃ©ments exister rÃ©ellement dans Hollis, le systÃ¨me de bibliothÃ¨que, puis donnez-moi liens retour Ã  ces Ã©lÃ©ments. Donc, si je cherche, ce Ã©tait une nuit sombre et orageuse, je rÃ©cupÃ©rer un tas de rÃ©sultats Google, puis une suite qui est A Wrinkle in Time. Et ce sont des liens vers des livres qui existent dans le systÃ¨me de Harvard Library. 

Donc je suppose que le point ici ne est pas tant que ce peut ou non Ãªtre la maniÃ¨re que vous voulez pour rechercher la bibliothÃ¨que, mais il est tout Ã  fait diffÃ©rent d'un maniÃ¨re qui ne Ã©tait pas disponible pour vous avant, comme vous ne avait aucun moyen de faire texte intÃ©gral recherches sur les livres que mÃªme faisaient partie du systÃ¨me Harvard Library. Alors maintenant, ce est une faÃ§on que vous pouvez faire. Et vous pouvez les afficher dans le format que vous voulez. Ainsi, le point ici est, essentiellement, nous ouvrons de nouvelles faÃ§ons pour les gens de travailler avec les donnÃ©es. 

Un autre morceau de nuage bibliothÃ¨que est que il permet d'exposer une partie des donnÃ©es d'utilisation que la bibliothÃ¨que possÃ¨de. Donc, si vous allez Ã  la bibliothÃ¨que, et vous Ãªtes Ã  la recherche pour les livres, vous ne avez pas nÃ©cessairement ont fait une idÃ©e de, pour tous les Ã©lÃ©ments d'une sujet particulier, ce ya des gens dans le la communautÃ©, que ce soit dÃ©fini comme la Harvard ou pays ou votre classe, Qu'ont-ils trouvÃ© le plus utile? Et la bibliothÃ¨que a fait un tonne d'informations sur ce est plus utile parce que si beaucoup de personnes vÃ©rifient un livre, cela vous dit quelque chose. Il doit y avoir une raison ils veulent vÃ©rifier. Beaucoup de gens mettre sur rÃ©serve. 

Si ce est sur la liste de rÃ©serve pour beaucoup des classes, cela vous dit quelque chose. Si les membres du corps professoral sont vÃ©rifiant un lot et Ã©tudiants ne sont pas, qui me dit quelque chose. Vice versa, qui a Ã©galement vous dit quelque chose. Donc, il serait vraiment intÃ©ressant de mettre ces informations lÃ -bas et laisser les gens l'utilisent pour les aider Ã  trouver travaille au sein du systÃ¨me de bibliothÃ¨que. Le revers de la mÃ©daille est il ya un peu d'intimitÃ© sÃ©rieuse prÃ©occupations, car l'un des principes fondamentaux de la bibliothÃ¨que ce est que nous ne allons pas Ãªtre dire aux gens ce que d'autres personnes sont la lecture. Et mÃªme si vous dites cela livre a Ã©tÃ© vÃ©rifiÃ© quatre fois dans un mois donnÃ©, qui pourraient Ãªtre utilisÃ©s faire un lien vers un particulier personne par des donnÃ©es anonymes de- et savoir qui a extrait. Donc, la faÃ§on dont nous pouvons avoid-- La faÃ§on dont nous pouvons essayer d'en extraire quelque signal de toutes les informations sans porter atteinte la vie privÃ©e des prÃ©occupations de personne est essentiellement nous regardons 10 annÃ©es de donnÃ©es sur l'utilisation, - 

Ce est donc sur une longue pÃ©riode de temps. 

--et dire, OK, nous allons voir comment de nombreuses fois ce travail a Ã©tÃ© utilisÃ©, et par qui, au cours de cette pÃ©riode de temps, et ensuite essentiellement redonner un certain nombre, que nous appelons un score de pile, qui essentiellement reprÃ©sente combien il a Ã©tÃ© utilisÃ©. Et ce number-- Beaucoup de diffÃ©rents calculs aller dans ce nombre. --mais ce est un trÃ¨s rugueux mÃ©trique qui vous donne une certaine idÃ©e de la faÃ§on dont le communautÃ© peut Ã©valuer ce travail. 

Et donc une autre sorte de mÃªme plus Ã©toffÃ© demande qui prend l'avantage Ce est quelque chose de Stacklife appelÃ©, qui est en fait disponible par l'intermÃ©diaire du principal Harvard Portail BibliothÃ¨que. Alors vous allez Ã  library.harvard.edu. Vous verrez un certain nombre de diffÃ©rents faÃ§ons de rechercher la bibliothÃ¨que. Et l'un d'eux est appelÃ© Stacklife. 

Et ce est une application qui navigue le contenu de la bibliothÃ¨que, mais il est entiÃ¨rement construit sur le dessus de ces API. Il n'y a donc pas de choses spÃ©ciale passe dans les coulisses. Il n'y a pas accÃ¨s Ã  donnÃ©es que vous ne avez pas. Ce est en utilisant les API de vous fournir avec un parcours complÃ¨tement diffÃ©rent expÃ©rience. 

Donc, si je cherche pour Alice au pays des merveilles dans ce cas, Je obtiens un rÃ©sultat qui ressemble Ã  ce qui est assez much-- 

Il est trÃ¨s similaire Ã  une autre recherche vous pourriez faire, sauf dans ce cas nous classer les articles par stackscore, qui vous donne une idÃ©e de la popularitÃ© de ces articles Ã©taient sein de la communautÃ©. Et si clairement, Alice au pays des merveilles par Walt Disney est trÃ¨s populaire. Mais vous pouvez aussi voir les quatre premiers voici ceux que vous pourriez ne pas actually-- 

Les choses qui sont trÃ¨s utilisÃ©s, mais vous ne pouvez pas immÃ©diatement connecter avec Alice in Wonderland. Donc, notre vieil ami Le AnnotÃ© Alice est ici. Donc, je peux prendre un coup d'oeil. Et maintenant que je suis Ã  la recherche AT est essentiellement un ensemble de-- Je peux avoir The Annotated Alice ici. Je ai des informations Ã  ce sujet. Et je ai aussi un stackscore de, dans ce cas, 26. Et cela me dit sorte d'environ comment nous sommes arrivÃ©s Ã  cette stackscore, comme qui a extrait, comme la faÃ§on dont Plusieurs fois, il a Ã©tÃ© vÃ©rifiÃ©, comme facultÃ© ou Ã©tudiants de premier cycle, comment de nombreuses copies de la bibliothÃ¨que, a et ainsi de suite et ainsi de suite. 

Et vous pouvez aussi, assez intÃ©ressant ici, parcourir les piles virtuellement. Ainsi, les donnÃ©es prÃ©sentÃ©es ici, ce est vous montrant tri d'une reprÃ©sentation virtuelle de ce que l'Ã©tagÃ¨re puissance ressembler si vous deviez prendre toutes les exploitations de la bibliothÃ¨que et les mettre ensemble sur une durÃ©e infinie. Et la bonne chose est que nous can-- 

Tout d'abord, la mÃ©tadonnÃ©es sur ces livres vous dit souvent, quand il a Ã©tÃ© publiÃ©. Il vous indique le nombre de pages dont il dispose. Il pourrait vous dire les dimensions. Donc vous pouvez voir cela se reflÃ¨te ici en termes de la taille des livres. 

Et puis nous pouvons utiliser la empiler pointage de mettre en Ã©vidence les livres qui ont des scores plus Ã©levÃ©s de la pile. Donc, si ce est plus sombre, cela signifie que, sans doute, il est utilisÃ© plus frÃ©quemment. Donc dans ce cas, je suis vais deviner que cette est la version d'Alice au pays des merveilles qui est trÃ¨s couramment utilisÃ© et le plus consultÃ©e, la bibliothÃ¨que a le plus de copies de. Donc, si vous Ãªtes Ã  la recherche pour Alice au pays des merveilles, cela pourrait Ãªtre un bon endroit pour commencer. 

Et puis lÃ , vous pouvez Ã©galement lier Ã  Ã , disons, Amazon pour acheter le livre, et ainsi de suite et ainsi de suite. Le point ici, encore une fois, ne est pas tant que ce est le meilleur moyen de parcourir la bibliothÃ¨que ou le bon outil pour chaque occasion. Mais ce est une autre faÃ§on de le faire. Et en faisant les donnÃ©es disponible via une API, ce qui est constituÃ© de blocs de construction trÃ¨s simples, qui vous permet de rechercher le contenu, vous pouvez construire quelque chose ce genre qui peut Ãªtre extraordinairement prÃ©cieux pour certaines personnes. 

Donc, ce est en quelque sorte, autant que je veux Ã -dire vraiment Ã  ce que l'API est et ce qu'il expose, il ya un ensemble de tas de choses dans les coulisses, qui Je vais aborder briÃ¨vement juste parce que ce genre de est Ã  ce sous un angle complÃ¨tement diffÃ©rent dans termes de comment fonctionne quelque chose comme Ã§a se mettre en place? 

Donc, une API est une norme interfacer avec tout ce contenu. Mais pour en arriver lÃ , le premiÃ¨re chose que nous avions Ã  faire a Ã©tÃ© de rassembler des informations des livres et des images et les aides Ã  la recherche, la collecte document Ã  partir de diffÃ©rents systÃ¨mes de Harvard. Aleph, VIA et OASIS sont les noms des systÃ¨mes. Et ils vont essentiellement dans un pipeline, un pipeline de traitement. 

Alors tout d'abord, nous obtenons l'exportation fichiers de tous ces systÃ¨mes. Nous les avons divisÃ©s en Ã©lÃ©ments individuels. Donc, nous avons un fichier, qui est un gigaoctet, qui a un million de disques en elle. Donc, nous scinder en Ã©lÃ©ments individuels. Ensuite, pour chaque article, nous convertissons dans MODS, parce que certains d'entre eux MODS sont nativement, certains d'entre eux ne sont pas. Donc nous les recevons tous Ã  Ãªtre dans le mÃªme format. Ensuite, il ya diverses oÃ¹ les Ã©tapes d'enrichissement, nous ajoutons plus d'informations aux donnÃ©es celui qui Ã©tait disponible dans la bibliothÃ¨que. Nous avons donc besoin d'ajouter, d'abord nous avons ce bibliothÃ¨ques tenir. Nous passons par une Ã©tape de le calcul de la stackscore. Nous passons par une autre Ã©tape de ajoutant plus de mÃ©tadonnÃ©es en termes de ce que les gens collections aurait pu ajouter this-- 

Les gens crÃ©ent collections d'objets. Quelles collections appartient-il? Comment les gens ont marquÃ©s ce contenu dans le passÃ©? Puis vous filtrez, et vous limitez les dossiers parce que, comme je l'ai mentionnÃ©, il ya certains documents qui, en raison de des raisons de copyright, nous ne pouvons pas afficher. Et puis nous chargeons de les en quelque chose appelÃ© Solr, qui ne est pas une faute d'orthographe, mais est le nom d'un morceau de logiciel cela ne l'indexation de recherche, qui entraÃ®ne toute la recherche derriÃ¨re l'API. Et il devient alors disponible pour les API, et les gens peuvent l'utiliser. 

Donc, ce est comme un assez processus simple. L'un des intÃ©ressant choses Ã  ce sujet est que nous traitons avec 13 millions de disques et nous allons traiter ou plus. Et nous voulons Ãªtre en mesure de gÃ©rer ceux-ci d'une maniÃ¨re relativement rapide. Il faut beaucoup de temps pour traiter 13 millions de dossiers. 

Alors, comment ce pipeline est mis en place est que vous can-- Je suppose que l'avantage de la pipeline, le problÃ¨me que nous sommes essayer de rÃ©soudre ici, ce est que toutes les transformations, toutes ces Ã©tapes de cette pipeline sont sÃ©parables. Il n'y a pas de dÃ©pendance. Si vous traitez un record d'un livre, il n'y a aucune dÃ©pendance qu'entre un autre livre. 

Donc, ce que nous pouvons faire, ce est essentiellement, Ã  chaque Ã©tape du pipeline, nous l'avons mis dans une file d'attente dans le nuage. Il me est arrivÃ© d'Ãªtre sur Amazon Web Services. Donc, il ya une liste de, dire, 10 000 articles qui doivent Ãªtre normalisÃ©es et convertis au format MODS. Et nous filons autant de serveurs que nous voulons, peut-Ãªtre 10 serveurs. Et chacun de ces serveurs juste il se assied, regarde dans cette file d'attente, voit qu'il ya une qui doit traiter, en tire la file d'attente, traite et bÃ¢tons sur la file d'attente suivant. 

Et qu'est-ce qui nous permet Ã  faire est d'appliquer, pour l'essentiel, autant le matÃ©riel que nous voulons Ã  ce problÃ¨me pendant une trÃ¨s courte pÃ©riode de temps Ã  traiter les donnÃ©es aussi rapidement que possible, ce qui est quelque chose que seul, maintenant dans le monde du cloud computing Nous pouvons serveurs de mise Ã  disposition essentiellement instantanÃ©ment, est trÃ¨s utile. Donc, nous ne avons pas Ã  avoir une serveur gÃ©ant assis autour tout le temps de faire le traitement cela pourrait se produire qu'une fois par semaine. 

Donc, ce est cela la plupart du temps. Il ya documentation disponible pour l'API Point BibliothÃ¨que Couverture Ã  cette adresse URL, qui sera sera disponible plus tard. Et se il vous plaÃ®t aller jeter un oeil Ã  pour voir si il ya quelque chose, vous avez des idÃ©es. Jouez avec lui. Batifoler. Et je espÃ¨re que vous pouvez venir avec quelque chose de grand. Merci.