JEFFREY Licht: Salut là. Je suis Jeffrey Licht. Et je suis ici pour vous parler de la Harvard édifice de Bibliothèque et demain bibliothèque aujourd'hui, je suppose. Ainsi, le fond ici, le terrain pour cette session est essentiellement qu'il ne existe beaucoup de données bibliographiques disponible dans les bibliothèques de Harvard. Et il ya une possibilité, par certains des outils et un projet qui est en cours d'élaboration, pour avoir accès à l'information et le prendre à des endroits que le Harvard Library ne est pas en train de faire en ce moment, faire des choses nouvelles avec elle, l'expérience et jouer avec elle. Ainsi, le point d'entrée dans ce est une API appelé le Harvard Bibliothèque Cloud, est un serveur de métadonnées ouverte, dont je vais parler maintenant. Donc, le fond est qu'il existe un beaucoup de choses dans la bibliothèque de Harvard. Nous avons plus de 13 millions bibliographique dossiers, des millions d'images, et des milliers de instruments de recherche, qui sont essentiellement des documents décrivant collections, en disant ce que qui est en eux, boîtes de documents etc., qui représentent plus de un million de documents individuels. Et il ya aussi beaucoup de informations que la bibliothèque a sur la façon dont le contenu est utilisé que pourrait être d'intérêt pour les gens qui pourrait vouloir travailler avec elle. Ainsi, toutes les informations la bibliothèque possède des métadonnées. Donc métadonnées sont des données sur les données. Alors, quand on parle de l'information qui est disponibles à la bibliothèque nuage qui est disponible, ce ne est pas nécessairement les documents réels eux-mêmes, pas nécessairement la pleine texte de livres ou les images complètes, si ce fait peut être le cas. Mais ce est vraiment informations sur les données. Alors vous pouvez penser catalogage informations, numéros d'appel, les sujets, le nombre de copies de la livre il ya, ce sont les éditions, ce sont les formats, les auteurs, et ainsi de suite. Donc, il ya beaucoup d'informations sur les informations contenues dans la collection, en soi, est une sorte de nature utile. Et bien si vous êtes faire de la recherche en profondeur, vous voulez évidemment se rendre à la réelle contenu lui-même et de regarder les données, les métadonnées est utile en termes de à la fois l'analyse du corpus dans son ensemble, comme ce que les choses sont dans la collection. Comment se rapportent-ils? Il vous aide à trouver vraiment d'autres choses, qui est vraiment l'objectif principal de celui-ci. Le point de la métadonnées et le catalogue est de vous aider à trouver tout l'information qui est disponibles dans les collections. Donc, ce est un exemple de métadonnées pour un livre dans la bibliothèque de Harvard. Donc, ce est là. Et vous pouvez voir que ce est effectivement modérément complexe. Et une partie de la valeur de métadonnées dans le système Harvard Bibliothèque est qu'il a été tri de construction par les catalogueurs et assemblés par les personnes qui demandent beaucoup d'expertise et de compétence et je ai pensé à elle au fil du temps, qui a beaucoup de valeur. Donc, si vous jetez un oeil à cet enregistrement pour The Annotated Alice, vous pouvez savoir vous avez le titre, qui l'a écrit, le auteur, et tous les différents sujets laquelle les gens ont catalogué dans. Et vous pouvez le voir il ya aussi, dans plus de beaucoup de bonnes informations ici, il ya un certain chevauchement. Il ya beaucoup de complexité qui est réfléchie par les métadonnées que vous avez. Donc, un titre de ce livre est Alice au pays des merveilles. Ce est donc une annoté version de ce livre. Mais il est aussi appelé The Annotated Alice, Alice au pays des merveilles, car ce est quelque chose qui Martin Gardner a écrit et annoté le livre. Et il ya un grand nombre d'informations de puzzles logiques et les choses Alice sein que vous n'a probablement pas connaître. Donc, vous devriez aller lire. Mais vous pouvez le voir il ya beaucoup de détails ici, y compris des identificateurs, lorsqu'elle a été créé, d'où il vient, en termes de Harvard système, et ainsi de suite. Donc, ce est un échantillon de le type de métadonnées que vous pourriez voir pour un livre dans la collection Bibliothèque Harvard. Ce est quelque chose de complètement différent. Donc, il ya un système appelé VIA Harvard, qui essentiellement est catalogage des images et des objets d'art et les choses visuel tout au long de Harvard, et en ajoutant des métadonnées pour eux, de les classer, et, dans certains cas, fournir petites vignettes que vous pouvez prendre un regardez si vous le souhaitez. Donc, ce est un exemple de la métadonnées que vous avez pour une plaque à partir, sans doute, Alice au pays des merveilles. Et vous pouvez le voir il ya moins métadonnées ici. Ce est juste un autre type d'objet. Et donc il ya moins d'informations. Vous avez principalement le fait que, d'un appel nombre, essentiellement qui l'a créé, - Nous ne savons pas quand il a été créé. -et un titre. Un autre exemple. Ce est un instrument de recherche. Donc, il ya une collection de Lewis Les papiers de Carroll à Harvard. Donc cela décrit ce est dans cette collection. Donc, quelqu'un a vécu et regardé à travers toutes les cases et catalogué, étant donné une certaine expérience, écrit un résumé de ce qui est ici. Et si vous étiez à regarder plus loin à ce, cette va sur des pages et des pages et les pages, mais vous diront et ce quelles lettres dates de ce que les boîtes existé dans toute la collection. Mais ce est quelque chose que, si vous êtes à Harvard, vous pouvez aller et effectivement regarder physiquement et, sans doute, jetez un oeil à. Donc, ce est génial. Ce est utile métadonnées. Ce est dans le système de Harvard Library. Il existe des outils en ligne où vous peut aller prendre un coup d'oeil, et voir, et le fouiller. Et vous pouvez le couper en tranches et les dés dans beaucoup de façons différentes. Mais ce est vraiment disponible uniquement si vous êtes un être humain assis à votre navigateur Web ou quelque chose ou votre téléphone et naviguer à travers. Il ne est pas vraiment disponible en toute sorte de mode utilisable ou d'autres systèmes d'autres ordinateurs à utiliser, pas de systèmes au sein de la bibliothèque de Harvard, mais les systèmes du monde extérieur, seulement d'autres personnes en général. Donc la question est, comment pouvons-nous rendre disponible pour les ordinateurs de sorte que nous pouvons faire plus intéressant des trucs avec lui que juste navigation nous-il? Alors, pourquoi voudriez-vous faire cela? Il ya beaucoup de possibilités. On est vous pourriez construire un tout façon différente de navigation le contenu qui est disponible à travers les bibliothèques de Harvard. Je vais vous montrer une plus tard appelé Stacklife, qui a un complètement différent prendre sur la recherche de contenu. Vous pourriez construire un moteur de recommandation. Donc Harvard bibliothèque ne est pas dans la entreprise de dire, vous aimez ce livre. Ensuite, allez jeter un oeil à ces 17 autres livres que vous pourriez être intéressé par ou ces 18 autres images. Mais cela pourrait certainement être un élément précieux. Et étant donné les métadonnées, il peut possible de mettre cela ensemble. Vous pourriez avoir des besoins différents en termes de recherche sur le contenu, comme peut-être malgré les outils sont disponibles que la bibliothèque fait disponible, vous voudrez peut- à la recherche d'une manière différente ou optimiser pour un cas d'utilisation particulier, qui peut-être qu'il est très spécialisée. Peut-être il ya seulement quelques-uns les gens dans le monde qui vouloir rechercher le contenu de cette manière, mais il serait formidable si nous pourrait laisser faire. Il ya beaucoup de l'analyse en seulement comment les gens utiliser le contenu qui serait vraiment intéressant de connaître, savoir quels livres sont utilisés, ce ne sont pas, et ainsi de suite. Et puis il ya beaucoup de possibilité d'intégrer d'autres informations ce est là-bas sur le web. Donc, nous have-- Par exemple, NPR a une critique de livre segment, où ils interviewent auteurs sur les livres. Et ce serait super si vous étiez regardant un livre dans la Harvard Bibliothèque, et vous dites, OK, il ya eu une entrevue avec l'auteur. Allons jeter un coup d'oeil. Ou il ya une page Wikipedia, comme un autorité, référence savante à propos de ce livre que vous pourrait vouloir jeter un oeil à. Il existe de ces types de sources dispersés à travers le web. Et les réunir pourrait être un grand usage pour quelqu'un qui cherche à la contenu, la recherche de quelque chose. Mais ce ne est pas non plus la genre de chose que vous feriez veulent la bibliothèque d'être responsable pour aller vers le bas et la traque toutes ces différentes sources et les brancher ensemble parce qu'ils sont en constante évolution. Et ce qu'ils pensent est important de mai ne pas être ce que vous pensez est important. Et plus encore, fondamentalement, il ya un beaucoup de choses que nous ne avons pas encore pensé. Donc, si nous pouvons ouvrir cette place, plus personnes en plus une demi-douzaine, qui cherchent à ce sur un base régulière peut penser à des idées et masser les données, et faire ce qu'ils veulent avec elle. Donc, nous voulons faire de cette les données disponibles pour le monde. Eh bien, il ya quelques complications. La première est que ces métadonnées est dans différents systèmes. Ce est dans différents formats. Il ya donc une certaine normalisation qui doit arriver, qui, étant le processus de normalisation apporter des choses à partir de différents formats et de les faire correspondre à un format unique de sorte que les champs se affronteront. Il ya quelques restrictions de droits d'auteur. Curieusement, l'entrée de catalogue d'un livre est responsable des droits d'auteur. Ainsi, même si ce est juste l'information provenant du livre, ce est un droit d'auteur. Et en fonction de qui fait créé que les métadonnées, il peut y avoir des restrictions sur qui peuvent distribuer, to-- similaires Je ne sais pas. Il peut ou peut ne pas être similaire à la situation des paroles de chansons, par exemple. Donc, nous savons tous comment cela casseroles. Vous avez donc besoin de se déplacer cette question. Et puis une autre pièce est qu'il ya un grand nombre de données. Donc, si je suis quelqu'un qui veut travailler avec les données ou a une bonne idée, traiter 14000000 dossiers sur mon ordinateur portable pourrait être problématique et difficile à gérer. Donc, nous voulons réduire les obstacles pour les personnes pour être en mesure de travailler avec les données. Donc, l'approche qui nous l'espérons adresses toutes ces préoccupations est deux parties. Un est la construction d'une plate-forme qui prend les données de toutes ces sources disparates et aggrave il, normalise, enrichit et marques disponible en un seul endroit. Et elle rend disponible via une API publique que les gens peuvent appeler. Donc, une API est une application Programming Interface. Et il se réfère essentiellement à un point final qu'un système ou de la technologie peut appeler et récupérer des données dans un format structuré d'une manière qu'il peut être utilisé. Donc ce ne est pas dépendante d'aller à un site Web et le grattage données hors de celui-ci, par exemple. Donc, ce est la page d'accueil de l'API Point Bibliothèque Cloud, qui est essentiellement sa version deux. Ce est donc la deuxième itération de essayer de faire toutes ces données la disposition du monde. Ce est donc http://api.lib.harvard.edu/v2/items. Et juste pour le décomposer un peu, ce que cela signifie est que ce est une version deux de l'API. Il ya une version une, qui Je ne vais pas en parler. Mais il existe une version une. Et si vous appelez cette API, vous obtenez les articles. Et une partie de l'idée d'une API est une API est un contrat. Ce est quelque chose qui est ne va pas changer. Ainsi, par exemple, - Et la raison en est que si je construire une sorte de système va utiliser une API bibliothèque de cloud pour afficher livres ou aider les gens à trouver informations de façon unique, ce que nous ne voulons pas de se produire est pour nous d'aller changer la façon dont cette API fonctionne, et tout à coup tout brise sur le côté de l'utilisateur final. Donc, une partie de si vous faites API à la disposition du monde, ce est bonnes pratiques pour mettre un numéro de version dans ce que les gens savoir quelle version ils ont affaire. Donc, si nous décidons que nous trouvons une meilleure façon de rendre cette information disponible, nous pourrions changer cela en appeler cette version trois. Donc tout le monde qui est toujours à l'aide version à deux, ça va encore du travail. Mais la troisième version serait avoir tous les nouveaux trucs. Donc, ce est une API, mais cette ressemble vraiment à une URL. Et donc ce que ce est un exemple de est ce qui est une API appelée repos, qui est disponible plus simplement une connexion Internet régulière. Et vous pouvez réellement aller dans un navigateur. Donc ici, je viens d'ouvrir Firefox et allé à api.lib.harvard.edu/v2/items. Et donc ce que je ai ici est essentiellement la première page des résultats de l'ensemble un ensemble d'éléments que nous avons. Et ce est ici au format XML. Et il a aussi été embellie par Firefox. Il n'a effectivement pas tous ces peu dilatant et se contractant doohickeys ici. Ce est une sorte de plus agréable Version façon de regarder. Mais ce que cela nous dit est Je ai demandé à tous les articles. Donc, il ya 13.289.475 articles. Et je suis à la recherche à la première 10, à partir de la position zéro parce que dans l'informatique nous commençons toujours à zéro. Et ce que je ai ici, si je viens de se effondrer cela, vous verrez que je ai 10 articles. Et si je prends un oeil à un article, je ne peux vois que je ai des informations à ce sujet. Et ce est dans ce qu'on appelle la forme MODS. Et donc je vais passer revenir ici pour un moment. D'ACCORD. Donc, nous allons chercher quelque chose dans spécifique, car le premier élément qui arrive à trouver quand vous regardez à travers toute la collection est, par définition, aléatoire. Alors regardons quelques beignets. Oh. D'ACCORD. Donc beignets. Donc, nous avons trouvé il ya 80 pièces la collection de référence beignets. Nous nous penchons sur le premier 10 d'entre eux. Maintenant, vous pouvez voir ici la façon dont Je ai dit que je suis à la recherche des beignets, Je viens d'ajouter quelque chose à la chaîne de requête de l'URL. Alors q est égal à beignets, que vous pouvez voir un peu plus facilement ici. Et cela signifie, fondamentalement, il est une spécification pour l'API, qui définit ce que l'ensemble de signifient ces paramètres. Et cela signifie que nous allons tout pour chercher des beignets. Donc, le premier point nous avons ici vous pouvez voir le titre est Donuts, et il existe un sous-titre appelée Passion américain, qui est, je suppose, appropriée. Il ya beaucoup de different-- Une fois que vous arrivez au point d'obtenir les données, il ya beaucoup de différents formats que vous pouvez obtenir en. Et il ya différentes forces et faiblesses de chacun d'eux. Alors celui-ci, vous pouvez voir ici, cette forme est très riche. Et il est standardisé. Donc, il ya un titre spécifique champ, un champ de sous-titres. Il ya un autre titre, une passion américaine. Il est le nom qui lui est associé. Type de la ressource est du texte. Il ya beaucoup d'informations ici dans ce format. Mais il ya un tas de différents formats. Donc, ce que nous étions juste regarder est un format dites mods, qui signifie Metadata Object Description du service, potentiellement. Je suis en fait pas tout à fait sûr de la S. Mais ce est un format assez complexe. Ce est le format par défaut. Mais ce est l'un qui garde la richesse de l'ensemble des données que la bibliothèque a raison il est très proche de ce que la bibliothèque utilise en interne. Ce est une norme qui est utilisé à travers le pays, à travers le monde dans les bibliothèques universitaires. Et ce est très interopérable. Donc, si vous avez un document ce est en format MODS, vous pouvez donner à quelqu'un d'autre que dont les systèmes comprennent MODS, et ils peuvent importer. Donc, ce est une norme. Ce est très bien défini, très spécifique. Et ce est ce qui le rend interopérable parce que si quelqu'un dit, ce est le titre d'un autre enregistrement, tout le monde sait ce que cela signifie. D'un autre côté, ce est très compliqué. Donc, si vous jetez un oeil à ce dossier en l'espèce, si je veux juste pour obtenir le titre de ce document, de ce livre, qui est probablement Donuts, Une Passion américain, l'analyser sur est un peu impliqué. Considérant qu'il ya un autre format appelé Dublin Core, qui est un format beaucoup plus simple. Et si vous voyez ici, il n'y a pas titre, sous-titre, titre alternatif. Il ya juste le titre, Donuts, une passion américaine, et un autre titre, Passion américain. Alors, quand vous cherchez à quelle forme vous voulez obtenir des données sur, beaucoup dépend de la façon dont vous allez l'utiliser. Utilisez-vous pour interopérabilité ou vous ne avez vouloir quelque chose de simple qui pourrait être plus facile de travailler avec? D'un autre côté, beaucoup de détails se sorte de écrasés vers le bas. Vous risquez de perdre les nuances de ce un moyen de terrain particulières si vous avez affaire à Dublin Core, que vous ne seriez pas obtenir avec MODS. Donc, ce sont deux des formats vous pouvez sortir de l'API. Et dans le fond, nous gardons derrière les scènes dans MODS. Mais nous pouvons vous donner dans MODS et Dublin Core et rien d'autre aussi. L'autre considération lors de vous êtes à la recherche dans les données ce est que vous pouvez l'obtenir que soit JSON, qui signifie JavaScript Object Notation, ou XML, ce qui signifie Extensible Markup Language. Et ces représentations de données à la fois avoir exactement les mêmes données, exactement les mêmes champs. Mais ils sont juste syntaxiquement différente. Donc, ce est a-- Eh bien, il suffit de passer. Donc, ce est notre requête pour beignets au format XML. Si je passe simplement que cela soit JSON, Je peux voir il semble différent. Alors maintenant, ce est le même contenu, mais une structure différente. Il ya moins de crochets. Il ya moins verbeux. Et ce est un format qui, si vous travaillent dans un environnement Web, vous êtes plus susceptible à vouloir utiliser car une des belles choses sur JSON est il est compatible avec JavaScript. Donc, si je écris application web, je peux tirer JSON et juste travailler directement avec. Alors qu'avec XML, ce est un peu plus compliqué. Encore une fois, ceux-ci sont à la fois utiles. Ils sont juste différents cas d'utilisation où les gens pourraient vouloir les utiliser. D'ACCORD. Donc, retour à l'API. Donc, nous pouvons rechercher en vue de: Je donne un exemple de la recherche de beignets. Nous pouvons aussi chercher seulement dans une domaine particulier au sein ici. Donc, au lieu de chercher l'ensemble du dossier, Je peux juste chercher le champ titre. Et maintenant il ya 25 choses qui avoir des beignets dans le titre, dont est sur la restauration zones humides dans la gestion du trou dans le beignet programme, qui est probablement pas nécessairement ce que nous recherchons lorsque nous recherchons des beignets. Vous pouvez aussi, si vous êtes face à une API-- Partie d'avoir une API donne personnes l'accès à de grands ensembles de données. Et il ya un autre couple outils que vous pouvez utiliser pour le faire. On est, très simplement, vous pouvez parcourir les données. Ainsi, tout comme si vous faites une requête via une interface web, vous pouvez regarder la première page, page deux, la page trois. Vous pouvez faire la même chose chose via l'API. Vous avez juste besoin d'être explicite dans la façon dont vous le faites. Ainsi, par exemple, si je suis à la recherche lors de ma première requête ici, où je fais une recherche pour des choses avec des beignets dans le titre, je peux dire, et la limite est égale à 20, ce qui signifie me donner les 20 premiers enregistrements, pas le premier 10, qui est la valeur par défaut, parce que je veux regarder à 20 à la fois. Ou je peux dire, réglez le commencer égale à 20 et la limite égale à 20, ce qui donnera me enregistre 21 à 40. Donc je suppose que la chose à emporter ici est que nous utilisons les chaînes de requête pour définir les paramètres sur la requête. Et il vous permet de commande ce que vous obtenez en retour. Un autre outil que vous pouvez utiliser, - Et ce est vraiment utile pour Conditions d'explorer les données. --s'agit quelque chose appelé facettes. Ainsi, le terme est facettage pas nécessairement commun. Mais vous avez tous vu avant. Si vous jetez un oeil à Amazon, par exemple, et vous effectuez une recherche pour beignets dans les livres, ici ils ont une série de livres, et ils sont regroupés par catégorie, et vous obtenez les différentes catégories, et combien de livres dans chaque catégorie montrer. Donc, ce est essentiellement une facette. Vous prenez tous leurs livres, le 1800 livres qui correspondent à beignets sur Amazon. 12 d'entre eux sont en petit catégorie. 21 en pâtisserie et boulangerie, et ainsi de suite et ainsi de suite. Donc, ce est vraiment un utile outil pour explorer le contenu au sein de la bibliothèque ainsi parce que quand vous regardez une facette, il vous donne une idée de quels sujets existe, comme quels types de sujets sont les plus populaires au sein de votre groupe de recherche. Et il vous permet de conduire et hors explorer. Donc, nous pouvons faire la même chose. Si nous voulons utiliser la API et de regarder facettes, nous ajoutons un autre paramètre à notre ami la chaîne de requête. Donc facettes égale séparées par une virgule liste de ce que nous voulons sur facette. Donc l'une des facettes pourrait faire l'objet. Un autre pourrait être la langue. Et si nous courons cette requête, nous get-- Il semble à peu près la même chose ici. Mais nous avons ajouté à la fin de la liste un ensemble de facettes. Nous avons donc une facette appelée sujet. Donc, ce est de nous dire que si je regarde mes 80 résultats de la requête de beignet, 13 d'entre eux ont le soumettre États-Unis. Trois ont soumis les beignets. Trois ont fait l'objet de restauration des zones humides, qui peut être notre trou dans le beignet. Deux d'entre eux, les Simpsons, et ainsi de suite et ainsi de suite. Donc cela peut être utile si vous vouloir affiner votre recherche. Il peut vous aider à le faire. Surtout si vous avez plus de, disons, 80 résultats. De même, nous avons également demandé pour facettes sur la langue. Donc, si nous regardons nos résultats, nous voyons 76 d'entre eux sont en anglais, quatre en français, deux en espagnol, deux, je pense que ce est undefined ou inconnu, néerlandais et latine. Donc, je pense que la latine résultat beignet, à nouveau, n'a rien à voir avec les produits de boulangerie. Mais là vous allez. Donc, ce est une sorte de vous montrer comment vous pouvez récupérer le contenu de l'API seulement par navigateur web, ce qui est excellent. Mais ce ne est pas vraiment ce que vous feriez être normalement à l'aide de l'API pour elle. Donc, un exemple de la façon dont vous pourrait effectivement faire ce est que je ai écrit d'un super petit programme, qui, là encore, ma recherche de beigne et sélectionne un champs couple et les affiche dans un tableau. Donc, ce est bien le même contenu que nous venons scie avec quelques champs sorti. Donc liste des titres, les emplacement de ce que le livre est sur le point, la langue, et ainsi de suite et ainsi de suite. Alors, comment cela se est réellement passé, depuis Je suppose que nous devons regarder un peu de code, est-- Ce que nous avons ici est un code HTML simple Cette page, qui affiche du texte, accueillir au cloud et bibliothèque puis affiche un tableau de résultats. Et il ya évidemment aucun résultat en la table lorsque la page est chargée. Mais ce que nous faisons est, tout d'abord, nous sont le chargement d'une bibliothèque appelée jQuery, qui est essentiellement une bibliothèque JavaScript qui rend très facile de manipuler JavaScript nativement, HTML, et créer des pages web, logique côté client et des pages Web. Donc ce que nous avons ici est jQuery a une méthode appelée Get, qui, essentiellement, ira à une URL, ce qui, dans ce cas, est cette URL regardant familier. Et ensuite obtenir le contenu de cette URL, puis exécuter une fonction sur elle. Alors nous avons dit aller à api.lib.harvard / edu. Rechercher des beignets. Donnez-nous 20 dossiers. Et puis exécutez cette fonction, qui Je ai choisi, en lui passant les données. Et les données qui est le JSON fit rentrer de l'API. Et puis nous disons, dans ce données il ya un champ appelé élément. Et si je vais prendre un regard rétrospectif sur une de ces résultats qui est ici, il ya quelque chose called-- Eh bien, ce est ce qu'on appelle l'article. Ce est peut être cela. Et ce qu'il fait est-il passe à travers chaque élément puis appelle une autre fonction sur chaque élément. Et cette fonction essentiellement prend la valeur de ce point, qui est essentiellement dans le dossier individuel et nous permet de sortir le titre, la couverture et la langue. Nous appelons donc une fonction sur tous les élément que nous sommes rentrés de l'API. Et si vous venez de prendre un coup d'oeil ce morceau ici, ce que nous faisons est nous créons une chaîne, qui est essentiellement certaines balises HTML autour d'une table, avec value.title, qui est le titre de la objet, value.coverage, qui est la couverture, - Et nous faisons un chèque ici pour voir qui est undefined et cacher si elle dit non définie, parce que nous ne sommes pas vraiment intéressés en ce que. --et puis la langue. Et puis ce que nous sommes faire est ajoutant que à la table qui est identifié par cette chaîne ici. Et comment fonctionne jQuery est ce que cela veut dire, est de regarder pour la table avec l'idée résultats et ajouter ce texte à elle. Et ce est la table avec des résultats idée. Donc ce que vous finissez par avec cette page est ici. Et pour voir source-- Eh bien, la source ne est pas fait mise à jour quand ce est arrivé. Donc vous pouvez voir le réel résultats de la table ici cependant. Donc, ce est juste un exemple simple de faire une requête très basique contre l'API et l'affichage d'informations dans une autre former, et ne pas faire quelque chose de trop de fantaisie. Maintenant, un autre exemple est comme un demande écrite par David Weinberger comme une démonstration de ce qui vous montre essentiellement comment vous pouvez écraser les résultats que vous recherchez obtenir de l'API bibliothèque de cloud avec, par exemple, de Google Livres. Et la pensée, ce est que je peux exécuter une requête contre Google Livres, obtenir une recherche en texte intégral, obtenir des résultats dos, savoir lequel de ces éléments exister réellement dans Hollis, le système de bibliothèque, puis donnez-moi liens retour à ces éléments. Donc, si je cherche, ce était une nuit sombre et orageuse, je récupérer un tas de résultats Google, puis une suite qui est A Wrinkle in Time. Et ce sont des liens vers des livres qui existent dans le système de Harvard Library. Donc je suppose que le point ici ne est pas tant que ce peut ou non être la manière que vous voulez pour rechercher la bibliothèque, mais il est tout à fait différent d'un manière qui ne était pas disponible pour vous avant, comme vous ne avait aucun moyen de faire texte intégral recherches sur les livres que même faisaient partie du système Harvard Library. Alors maintenant, ce est une façon que vous pouvez faire. Et vous pouvez les afficher dans le format que vous voulez. Ainsi, le point ici est, essentiellement, nous ouvrons de nouvelles façons pour les gens de travailler avec les données. Un autre morceau de nuage bibliothèque est que il permet d'exposer une partie des données d'utilisation que la bibliothèque possède. Donc, si vous allez à la bibliothèque, et vous êtes à la recherche pour les livres, vous ne avez pas nécessairement ont fait une idée de, pour tous les éléments d'une sujet particulier, ce ya des gens dans le la communauté, que ce soit défini comme la Harvard ou pays ou votre classe, Qu'ont-ils trouvé le plus utile? Et la bibliothèque a fait un tonne d'informations sur ce est plus utile parce que si beaucoup de personnes vérifient un livre, cela vous dit quelque chose. Il doit y avoir une raison ils veulent vérifier. Beaucoup de gens mettre sur réserve. Si ce est sur la liste de réserve pour beaucoup des classes, cela vous dit quelque chose. Si les membres du corps professoral sont vérifiant un lot et étudiants ne sont pas, qui me dit quelque chose. Vice versa, qui a également vous dit quelque chose. Donc, il serait vraiment intéressant de mettre ces informations là-bas et laisser les gens l'utilisent pour les aider à trouver travaille au sein du système de bibliothèque. Le revers de la médaille est il ya un peu d'intimité sérieuse préoccupations, car l'un des principes fondamentaux de la bibliothèque ce est que nous ne allons pas être dire aux gens ce que d'autres personnes sont la lecture. Et même si vous dites cela livre a été vérifié quatre fois dans un mois donné, qui pourraient être utilisés faire un lien vers un particulier personne par des données anonymes de- et savoir qui a extrait. Donc, la façon dont nous pouvons avoid-- La façon dont nous pouvons essayer d'en extraire quelque signal de toutes les informations sans porter atteinte la vie privée des préoccupations de personne est essentiellement nous regardons 10 années de données sur l'utilisation, - Ce est donc sur une longue période de temps. --et dire, OK, nous allons voir comment de nombreuses fois ce travail a été utilisé, et par qui, au cours de cette période de temps, et ensuite essentiellement redonner un certain nombre, que nous appelons un score de pile, qui essentiellement représente combien il a été utilisé. Et ce number-- Beaucoup de différents calculs aller dans ce nombre. --mais ce est un très rugueux métrique qui vous donne une certaine idée de la façon dont le communauté peut évaluer ce travail. Et donc une autre sorte de même plus étoffé demande qui prend l'avantage Ce est quelque chose de Stacklife appelé, qui est en fait disponible par l'intermédiaire du principal Harvard Portail Bibliothèque. Alors vous allez à library.harvard.edu. Vous verrez un certain nombre de différents façons de rechercher la bibliothèque. Et l'un d'eux est appelé Stacklife. Et ce est une application qui navigue le contenu de la bibliothèque, mais il est entièrement construit sur le dessus de ces API. Il n'y a donc pas de choses spéciale passe dans les coulisses. Il n'y a pas accès à données que vous ne avez pas. Ce est en utilisant les API de vous fournir avec un parcours complètement différent expérience. Donc, si je cherche pour Alice au pays des merveilles dans ce cas, Je obtiens un résultat qui ressemble à ce qui est assez much-- Il est très similaire à une autre recherche vous pourriez faire, sauf dans ce cas nous classer les articles par stackscore, qui vous donne une idée de la popularité de ces articles étaient sein de la communauté. Et si clairement, Alice au pays des merveilles par Walt Disney est très populaire. Mais vous pouvez aussi voir les quatre premiers voici ceux que vous pourriez ne pas actually-- Les choses qui sont très utilisés, mais vous ne pouvez pas immédiatement connecter avec Alice in Wonderland. Donc, notre vieil ami Le Annoté Alice est ici. Donc, je peux prendre un coup d'oeil. Et maintenant que je suis à la recherche AT est essentiellement un ensemble de-- Je peux avoir The Annotated Alice ici. Je ai des informations à ce sujet. Et je ai aussi un stackscore de, dans ce cas, 26. Et cela me dit sorte d'environ comment nous sommes arrivés à cette stackscore, comme qui a extrait, comme la façon dont Plusieurs fois, il a été vérifié, comme faculté ou étudiants de premier cycle, comment de nombreuses copies de la bibliothèque, a et ainsi de suite et ainsi de suite. Et vous pouvez aussi, assez intéressant ici, parcourir les piles virtuellement. Ainsi, les données présentées ici, ce est vous montrant tri d'une représentation virtuelle de ce que l'étagère puissance ressembler si vous deviez prendre toutes les exploitations de la bibliothèque et les mettre ensemble sur une durée infinie. Et la bonne chose est que nous can-- Tout d'abord, la métadonnées sur ces livres vous dit souvent, quand il a été publié. Il vous indique le nombre de pages dont il dispose. Il pourrait vous dire les dimensions. Donc vous pouvez voir cela se reflète ici en termes de la taille des livres. Et puis nous pouvons utiliser la empiler pointage de mettre en évidence les livres qui ont des scores plus élevés de la pile. Donc, si ce est plus sombre, cela signifie que, sans doute, il est utilisé plus fréquemment. Donc dans ce cas, je suis vais deviner que cette est la version d'Alice au pays des merveilles qui est très couramment utilisé et le plus consultée, la bibliothèque a le plus de copies de. Donc, si vous êtes à la recherche pour Alice au pays des merveilles, cela pourrait être un bon endroit pour commencer. Et puis là, vous pouvez également lier à à, disons, Amazon pour acheter le livre, et ainsi de suite et ainsi de suite. Le point ici, encore une fois, ne est pas tant que ce est le meilleur moyen de parcourir la bibliothèque ou le bon outil pour chaque occasion. Mais ce est une autre façon de le faire. Et en faisant les données disponible via une API, ce qui est constitué de blocs de construction très simples, qui vous permet de rechercher le contenu, vous pouvez construire quelque chose ce genre qui peut être extraordinairement précieux pour certaines personnes. Donc, ce est en quelque sorte, autant que je veux à-dire vraiment à ce que l'API est et ce qu'il expose, il ya un ensemble de tas de choses dans les coulisses, qui Je vais aborder brièvement juste parce que ce genre de est à ce sous un angle complètement différent dans termes de comment fonctionne quelque chose comme ça se mettre en place? Donc, une API est une norme interfacer avec tout ce contenu. Mais pour en arriver là, le première chose que nous avions à faire a été de rassembler des informations des livres et des images et les aides à la recherche, la collecte document à partir de différents systèmes de Harvard. Aleph, VIA et OASIS sont les noms des systèmes. Et ils vont essentiellement dans un pipeline, un pipeline de traitement. Alors tout d'abord, nous obtenons l'exportation fichiers de tous ces systèmes. Nous les avons divisés en éléments individuels. Donc, nous avons un fichier, qui est un gigaoctet, qui a un million de disques en elle. Donc, nous scinder en éléments individuels. Ensuite, pour chaque article, nous convertissons dans MODS, parce que certains d'entre eux MODS sont nativement, certains d'entre eux ne sont pas. Donc nous les recevons tous à être dans le même format. Ensuite, il ya diverses où les étapes d'enrichissement, nous ajoutons plus d'informations aux données celui qui était disponible dans la bibliothèque. Nous avons donc besoin d'ajouter, d'abord nous avons ce bibliothèques tenir. Nous passons par une étape de le calcul de la stackscore. Nous passons par une autre étape de ajoutant plus de métadonnées en termes de ce que les gens collections aurait pu ajouter this-- Les gens créent collections d'objets. Quelles collections appartient-il? Comment les gens ont marqués ce contenu dans le passé? Puis vous filtrez, et vous limitez les dossiers parce que, comme je l'ai mentionné, il ya certains documents qui, en raison de des raisons de copyright, nous ne pouvons pas afficher. Et puis nous chargeons de les en quelque chose appelé Solr, qui ne est pas une faute d'orthographe, mais est le nom d'un morceau de logiciel cela ne l'indexation de recherche, qui entraîne toute la recherche derrière l'API. Et il devient alors disponible pour les API, et les gens peuvent l'utiliser. Donc, ce est comme un assez processus simple. L'un des intéressant choses à ce sujet est que nous traitons avec 13 millions de disques et nous allons traiter ou plus. Et nous voulons être en mesure de gérer ceux-ci d'une manière relativement rapide. Il faut beaucoup de temps pour traiter 13 millions de dossiers. Alors, comment ce pipeline est mis en place est que vous can-- Je suppose que l'avantage de la pipeline, le problème que nous sommes essayer de résoudre ici, ce est que toutes les transformations, toutes ces étapes de cette pipeline sont séparables. Il n'y a pas de dépendance. Si vous traitez un record d'un livre, il n'y a aucune dépendance qu'entre un autre livre. Donc, ce que nous pouvons faire, ce est essentiellement, à chaque étape du pipeline, nous l'avons mis dans une file d'attente dans le nuage. Il me est arrivé d'être sur Amazon Web Services. Donc, il ya une liste de, dire, 10 000 articles qui doivent être normalisées et convertis au format MODS. Et nous filons autant de serveurs que nous voulons, peut-être 10 serveurs. Et chacun de ces serveurs juste il se assied, regarde dans cette file d'attente, voit qu'il ya une qui doit traiter, en tire la file d'attente, traite et bâtons sur la file d'attente suivant. Et qu'est-ce qui nous permet à faire est d'appliquer, pour l'essentiel, autant le matériel que nous voulons à ce problème pendant une très courte période de temps à traiter les données aussi rapidement que possible, ce qui est quelque chose que seul, maintenant dans le monde du cloud computing Nous pouvons serveurs de mise à disposition essentiellement instantanément, est très utile. Donc, nous ne avons pas à avoir une serveur géant assis autour tout le temps de faire le traitement cela pourrait se produire qu'une fois par semaine. Donc, ce est cela la plupart du temps. Il ya documentation disponible pour l'API Point Bibliothèque Couverture à cette adresse URL, qui sera sera disponible plus tard. Et se il vous plaît aller jeter un oeil à pour voir si il ya quelque chose, vous avez des idées. Jouez avec lui. Batifoler. Et je espère que vous pouvez venir avec quelque chose de grand. Merci.