JEFFREY LICHT: Hallo zusammen. Ich bin Jeffrey Licht. Und ich bin hier, um Sie über das sprechen Harvard-Bibliothek und Gebäude von morgen heute Bibliothek, denke ich. Also der Hintergrund hier, die Tonhöhe für diese Sitzung ist im wesentlichen, dass es eine Menge der bibliographischen Daten in den Harvard-Bibliotheken. Und es gibt eine Möglichkeit, durch einige der Werkzeuge und ein Projekt, das in der Entwicklung befinden, den Zugang zu den Informationen zu erhalten und nehmen Sie an Orte, die die Harvard-Bibliothek wird nicht jetzt tun, machen neue Slideshows mit ihr experimentieren und damit experimentieren. So der Eintrittspunkt in das ist eine API genannt Harvard Bibliothek Wolke, die ist eine offene Metadaten-Server, was ich jetzt sprechen. So dass der Hintergrund ist, dass es ein Menge Sachen in der Harvard-Bibliothek. Wir haben mehr als 13 Millionen bibliographische Aufzeichnungen, Millionen von Bildern, und Tausende von Findmittel, die sind im wesentlichen Dokumente, welche Sammlungen, zu sagen, was in ihnen ist, Schachteln von Papieren und so weiter, die über darstellen eine Million einzelne Dokumente. Und es gibt auch eine Menge von Informationen, die der Bibliothek darüber, wie der Inhalt, dass verwendete könnte von Interesse zu Leuten sein die wollen, um mit ihm zu arbeiten. Also alle Informationen, die Bibliothek Metadaten. So Metadaten sind Daten über Daten. Also, wenn wir sprechen die Informationen, die es durch die Bibliothek zur Verfügung Wolke, die verfügbar ist, es ist nicht unbedingt die tatsächlichen Dokumente selbst, nicht notwendigerweise den vollen Text der Bücher oder der Vollbilder, obwohl das tatsächlich der Fall sein. Aber es ist wirklich Informationen über die Daten. So können Sie der Katalogisierung denken Informationen, Rufnummern, Themen, wie viele Kopien der Buch gibt es, was sind die Ausgaben, was sind die Formate, die Autoren, und so weiter. So gibt es eine Vielzahl von Informationen über die Informationen in der Sammlung, die, in sich selbst, ist eine Art von Natur nützlich. Und obwohl, wenn Sie Dabei gründliche Forschung, Sie wollen offensichtlich die tatsächliche erhalten Inhalt selbst und schauen Sie sich die Daten, die Metadaten sinnvoll im Hinblick auf die sowohl die Analyse der Korpus als Ganzes, wie das, was die Dinge sind in der Sammlung. Wie sie sich beziehen? Es hilft Ihnen, wirklich andere Sachen finden, das ist wirklich der Hauptzweck ist. Der Punkt, der die Metadaten und der Katalog ist es, Ihnen bei der Suche alle die Informationen, die es innerhalb der Kollektionen. So ist dies ein Beispiel für die Metadaten für ein Buch in der Bibliothek der Harvard. Also, es ist da. Und Sie sehen, es ist tatsächlich mäßig komplex. Und ein Teil des Wertes der Metadaten in der Harvard-Bibliothek Systems ist, dass es Art gewesen der durch Katalogisierer gebaut und von Menschen die Anwendung montiert eine Menge Know-how und Fähigkeiten und angenommen, dass es im Laufe der Zeit, die einen großen Wert. Also, wenn Sie einen Blick auf diesen Rekord für nehmen Das Kommentierte Alice, können Sie herausfinden Sie den Titel, der es geschrieben hat, das haben Autor, und all die verschiedenen Themen welche Personen haben sie in katalogisiert. Und Sie sehen, gibt es auch in Neben einer Menge guter Informationen Hier gibt es einige Überschneidungen. Es gibt eine Menge von Komplexität, die es durch die Metadaten wider dass Sie haben. So einen Titel dieses Buches ist Alice im Wunderland. Das ist also eine kommentierte Version dieses Buches. Aber es ist auch genannt The Annotated Alice, Alice im Wunderland, weil es ist etwas, was Martin Gardner schrieb und kommentierte das Buch. Und es gibt eine Menge Information zu Logik-Puzzles und Dinge innerhalb von Alice, dass Sie wahrscheinlich nicht wissen, über. Deshalb sollte man gehen, lesen Sie es. Aber sehen Sie, es gibt viel näher, einschließlich Kennungen, wenn es erstellt wurde, woher es kam, im Hinblick auf die Harvard System, und so weiter. Das ist also eine Probe die Art von Metadaten dass Sie für ein Buch in sehen können die Sammlung der Harvard-Bibliothek. Das ist etwas ganz anderes. So gibt es ein System mit dem Namen VIA Harvard, die im Grunde katalogisiert Bilder und Kunstgegenstände und visuelle Dinge ganz Harvard, und das Hinzufügen einiger Metadaten zu ihnen klassifiziert sie, und in einigen Fällen Bereitstellung kleine Vorschaubilder dass Sie ein zu nehmen sehen, wenn Sie so wollen. So ist dies ein Beispiel für das Metadaten, die Sie für eine Platte haben, aus, vermutlich, Alice im Wunderland. Und Sie sehen, es gibt weniger Metadaten hier. Es ist nur eine andere Art von Objekt. Und so gibt es weniger Informationen. Sie haben vor allem die Tatsache, dass ein Anruf Anzahl, im wesentlichen, die es geschaffen, - Wir wissen nicht, wann es erstellt wurde. --Und einen Titel. Ein weiteres Beispiel. Dies ist ein Findbuch. Es gibt also eine Sammlung von Lewis Carrolls Arbeiten an der Harvard. Also das beschreibt, was ist in dieser Kollektion. So hat jemand durchgegangen und durch alle Boxen sah und katalogisiert sie, da einige Hintergrundinformationen, geschrieben eine Zusammenfassung dessen, was da ist. Und wenn Sie waren zu sehen weiter auf diese, diese geht für Seiten und Seiten und Seiten, aber wird Ihnen sagen, welche Buchstaben und was stammt aus welchen Boxen durch die gesamte Kollektion bestand. Aber das ist etwas, dass, wenn Sie an der Harvard sind, Sie gehen und tatsächlich physisch sehen und, vermutlich, einen Blick auf. Also das ist großartig. Diese Metadaten nützlich. Es ist in der Harvard-Bibliothek Systems. Es gibt Tools online, wo Sie kann gehen und einen Blick auf sie, und sehen es, und suchen sie. Und man kann es und Würfel schneiden es in viele verschiedene Möglichkeiten. Aber es ist wirklich nur verfügbar, wenn Sie ein Mensch im Sitzen sind an Ihren Web-Browser oder etwas oder Telefon und Navigation durch sie. Es ist nicht in wirklich verfügbar jede Art von einsetzbar Mode für andere Systeme oder andere Computer zu bedienen, nicht mit Systemen innerhalb der Harvard Library, jedoch Systeme in der Außenwelt, nur andere Menschen im Allgemeinen. Die Frage ist, wie können wir zur Verfügung stellen, um Computer so dass wir interessanter machen kann Sachen mit sich als nur Surfen sie uns? Also warum sollten Sie das tun? Es gibt eine Vielzahl von Möglichkeiten. Einer ist, dass Sie völlig bauen könnte ein andere Art der Browser- der Inhalt, der verfügbar ist durch die Harvard-Bibliotheken. Ich werde Ihnen zeigen, eine später genannt Stacklife, was eine ganz andere hat nehmen auf der Suche nach Inhalten. Sie könnten eine Empfehlungsmaschine zu bauen. So Harvard-Bibliothek nicht in der Business zu sagen, wie Sie dieses Buch. Dann gehen Sie einen Blick auf diese 17 anderen Bücher, die Sie in interessiert sein könnten oder diese 18 andere Bilder. Aber sicher konnte ein wertvolles Feature sein. Und angesichts der Metadaten, kann es möglich, daß zusammen. Sie können unterschiedliche Bedürfnisse haben in Hinblick auf die Suche im Inhalt, wie vielleicht trotz der Werkzeuge, zur Verfügung stehen, dass die Bibliothek macht zur Verfügung, sollten Sie in einer anderen Art und Weise zu suchen oder Optimierung für einen bestimmten Anwendungsfall, was vielleicht ist es sehr spezialisiert. Vielleicht gibt es nur wenige Menschen in der Welt, wollen, um den Inhalt zu suchen auf diese Weise, aber es wäre toll, wenn wir könnte lassen Sie sie tun. Es gibt eine Menge von Analytik in wie Menschen Nutzung der Inhalte, die wirklich sein würde Interessant zu wissen, um herauszufinden, Welche Bücher, die verwendet werden, was nicht, und so weiter. Und dann gibt es eine Menge von Möglichkeit zur Integration mit anderen Informationen, dass da draußen auf dem Netz. Also haben wir have-- Zum Beispiel hat NPR eine Buchbesprechung Segment wo sie zu interviewen Autoren über Bücher. Und so wäre es toll, wenn du Suche nach einem Buch in der Harvard- Bibliothek, und Sie sagen, OK, es gibt war ein Interview mit dem Autor. Gehen wir einen Blick auf, dass. Oder gibt es eine Wikipedia-Seite, wie ein autoritär, wissenschaftliche Referenz über dieses Buch, dass Sie Vielleicht möchten Sie einen Blick auf zu nehmen. Es sind diese Arten von Quellen im ganzen Web verstreut. Und ihnen die Zusammenführung könnte ein großer Nutzen sein um jemanden, der an der Inhalt, der Suche nach etwas. Aber es ist auch nicht der Art der Sache, du würdest möchte die Bibliothek verantwortlich zu sein für den Gang nach unten und die Jagd nach Alle diese unterschiedlichen Quellen und Zusammenstecken weil sie sich ständig verändernden sind. Und was sie denken, ist wichtig mai nicht das, was Sie denken, ist wichtig. Und mehr noch, im Grunde gibt es eine Menge Sachen haben wir noch nicht gedacht. Wenn wir dies eröffnen, mehr Menschen neben einem halben Dutzend oder so, die an diese Suche auf eine regelmäßigen Basis kann von Ideen denken und massieren Sie die Daten, und zu tun, was sie wollen mit ihm. Also, dies zu machen, wollen wir Daten für die Welt. Nun, es gibt ein paar Komplikationen. Einer ist, dass diese Metadaten ist in verschiedenen Systemen. Es ist in verschiedenen Formaten. Es gibt also einige Normalisierung was geschehen muss, die Normalisierungs wobei der Prozess der bringen die Dinge aus verschiedenen Formaten und Abbildung auf einem einzigen Format so dass die Felder übereinstimmen. Es gibt einige urheberrechtlichen Beschränkungen. Seltsamerweise der Katalogeintrag über ein Buch, haftet für Urheberrecht. Also auch wenn es nur Informationen aus dem Buch stammen, es ist urheberrechtlich. Und je nachdem, wer tatsächlich erstellt, dass Metadaten, kann begrenzt sein, die können sie zu verteilen, wie zu-- Ich weiß nicht. Es kann oder kann nicht ähnlich zu sein die Situation der Liedtexte, beispielsweise. So dass wir alle wissen, wie die Pfannen aus. Sie müssen also um diese Problem zu erhalten. Und dann noch ein Stück ist, , dass es eine Menge von Daten. Also, wenn ich bin jemand, der arbeiten will mit den Daten oder hat eine coole Idee, die sich mit 14 Millionen Aufzeichnungen auf meinem Laptop problematisch sein könnte und schwierig zu verwalten. So verkleinern möchten wir die Barrieren für Menschen in der Lage sein, mit den Daten zu arbeiten. So ist die Vorgehensweise, die hoffentlich Adressen all dieser Bedenken ist aus zwei Teilen. One ist eine Plattform, die statt Daten aus all diesen unterschiedlichen Quellen und verschärft es, normalisiert, bereichert und Marken es ist in einer einzigen Lage. Und es macht es verfügbar durch eine öffentliche API, die Menschen nennen kann. So ein API ist ein Application Programming Interface. Und es im Grunde bezieht sich auf ein Endpunkt, die ein System oder eine Technologie können anrufen und erhalten Daten zurück in ein strukturiertes Format, in einer Weise, dass es verwendet werden kann. Es ist also nicht angewiesen los auf eine Website und Kratzen Daten aus davon, zum Beispiel. Das ist also die Startseite die Bibliothek Wolke Artikel API, die im Wesentlichen der Fassung zwei. So ist es die zweite Iteration versuchen, alle diese Daten zu machen verfügbar in der Welt. So ist es http://api.lib.harvard.edu/v2/items. Und nur um diese abzubauen etwas, was das bedeutet ist, dass diese Version zwei des API. Es gibt eine Version ein, die Ich werde nicht darüber zu sprechen. Aber es gibt eine Version ein. Und wenn Sie anrufen dies API, sind Sie immer Einzelteile. Und ein Teil der Idee, ein API ist eine API ist ein Vertrag. Es ist etwas, das ist nicht ändern. So zum Beispiel, - Und der Grund dafür ist, dass, wenn ich bauen eine Art von System, wird sich eine Bibliothek Cloud API Bücher zu zeigen oder den Menschen helfen, zu finden Informationen auf einzigartige Weise, was wir nicht wollen, zu geschehen ist für uns zu gehen, ändern, wie dass API funktioniert, und auf einmal Alles bricht auf den Endverbraucher Seite. So Teil, wenn Sie machen API sind erhältlich auf die Welt, ist es gute Praxis, ein setzen Versionsnummer es so Menschen wissen, welche Version sie es zu tun. Also, wenn wir entscheiden, finden wir einen besseren Weg, der Bereitstellung dieser Informationen, wir könnten das ändern nennen diese Version drei. So dass jeder, der noch mit Version zwei, das wird immer noch funktionieren. Aber Version drei würde haben alle die neue Slideshows erstellt. Also das ist eine API, aber das sieht wirklich wie ein URL. Und was ist dies ein Beispiel ist das, was genannt Rest-API, die zur Verfügung steht über nur eine gewöhnliche Web-Verbindung. Und Sie können sogar gehen, um es in einem Browser. Also hier habe ich gerade Firefox geöffnet und um api.lib.harvard.edu/v2/items gegangen. Und was ich hier im Grunde die erste Seite der Ergebnisse des gesamten Set von Elementen, die wir haben. Und es ist hier, im XML-Format. Und es ist auch von Firefox verschönert. Es muss nicht wirklich alle diese wenig ausdehnen und zusammenziehen doohickeys hier. Dies ist eine Art von einem schöneren Version Weg um es zu betrachten. Aber was diese sagt uns ist Ich habe Sie alle Einzelteile angefordert. So gibt es 13.289.475 Artikel. Und ich freue mich auf den ersten 10, beginnend an Position Null weil in der Informatik wir beginnen immer bei Null. Und was ich hier habe, wenn ich nur zusammenbrechen Diese werden Sie sehen, habe ich 10 Stück bekommen. Und wenn ich in einem Artikel einen Blick, ich kann zu sehen, dass ich über es. Und das ist in so genannte MODS Form. Und so werde ich wechseln wieder hier für einen Moment. OK. Lassen Sie uns also die Suche nach etwas spezifische, weil das erste Element, passiert zu kommen, wenn man sich durch die gesamte Kollektion ist per definitionem, zufällig. Also schauen wir uns für einige Donuts. Oh. OK. So Donuts. So fanden wir es 80 Objekte in die Sammlung, die Donuts zu verweisen. Wir sind auf den ersten 10 von ihnen suchen. Nun, sehen Sie hier die Art und Weise, dass Ich sagte, ich interessiere mich für Donuts, Ich habe gerade etwas hinzugefügt, um die Abfragezeichenfolge der URL. So q gleich Donuts, die Sie sehen ein wenig mehr einfach hier. Und das bedeutet im Grunde gibt es eine Spezifikation für die API, die definiert, was alle Diese Parameter bedeuten. Und das bedeutet, dass wir zu gehen Suche alles für Donuts. Also den ersten Punkt haben wir hier Sie sehen, der Titel ist Donuts, und es gibt ein Untertitel genannte Ein Amerikanische Leidenschaft, das ist, denke ich, angemessen. Es gibt eine Menge von different-- Sobald Sie auf den Punkt des Erhaltens der Daten, Es gibt viele verschiedene Formate, können Sie es in zu erhalten. Und es gibt verschiedene Stärken und Schwächen für sie alle. Also in diesem Fall, können Sie sehen, Hier ist diese Form sehr reich. Und es ist standardisiert. Es gibt also eine bestimmte Titel Feld, ein Untertitel-Feld. Es gibt eine alternative Titel, Eine amerikanische Leidenschaft. Es ist der Name zugeordnet. Art der Ressource ist Text. Es gibt eine Menge von Informationen hier in diesem Format. Aber es gibt eine Reihe von verschiedenen Formaten. Also, was wir gerade waren Blick auf ein Format genannt MODS ist die Abkürzung Metadaten Objekt Beschreibung Service, möglicherweise. Eigentlich bin ich nicht ganz sicher über die S. Aber es ist eine ziemlich komplexe Format. Es ist das Standardformat. Aber es ist die eine, die hält der Reichtum aller Daten dass die Bibliothek durch es ist ganz in der Nähe, was die Bibliothek intern verwendet. Es ist ein Standard, der ist im ganzen Land verwendet wird, auf der ganzen Welt in wissenschaftlichen Bibliotheken. Und es ist sehr kompatibel. Also, wenn Sie ein Dokument haben dh in MODS Format, Sie können das an jemand weitergeben deren Systeme zu verstehen, MODS, und sie können es zu importieren. So ist es ein Standard. Es ist sehr gut definiert, sehr spezifisch. Und das ist, was es ermöglicht interoperabel, weil, wenn jemand sagt: dies ist die alternative Bezeichnung a Rekord, jeder weiß, was das bedeutet. Auf der anderen Seite ist es sehr kompliziert. Also, wenn Sie einen Blick zu nehmen bei hier dieser Platte Wenn ich will nur das bekommen Titel des Dokumentes, dieses Buches, das ist wahrscheinlich Donuts, Eine amerikanische Leidenschaft, Parsen es heraus ist ein wenig beteiligt. Während es gibt eine andere Format namens Dublin Core, was eine viel, viel einfacheres Format. Und so sehen Sie hier, gibt es keinen Titel, Untertitel, alternative Titel. Es ist nur der Titel, Donuts, An American Leidenschaft, und ein weiterer Titel, American Leidenschaft. Also, wenn Sie in welcher Form suchen Sie wollen, um die Daten aus der bekommen, viel hängt davon ab, wie du gehst, es zu benutzen. Verwenden Sie für Interoperabilität oder haben Sie wollen etwas einfach, dass vielleicht leichter zu handhaben sein? Auf der anderen Seite, eine Menge von der Details erhalten irgendwie gequetscht unten. Sie können die Nuancen zu verlieren was ein bestimmtes Feld Mittel wenn Sie mit Dublin Core zu tun haben, die Sie nicht mit MODS bekommen. Das sind also zwei der Formate Sie aus dem API bekommen können. Und im Grunde halten wir es hinter den Kulissen in MODS. Aber wir können Sie es in MODS geben kann und Dublin Core und alles andere als gut. Die andere Überlegung bei der Sie in der Daten suchen ist, können Sie es entweder als JSON, erhalten die steht für JavaScript Object Notation, oder XML ist die Abkürzung Extensible Markup Language. Und diese Datendarstellungen sowohl genau die gleichen Daten, genau die gleichen Felder. Aber sie sind nur syntaktisch anders. Das ist also a-- Nun, lassen Sie uns einfach wechseln. Das ist also unsere Anfrage nach Donuts im XML-Format. Wenn ich nur wechseln diese zu JSON zu sein, Ich sehe es anders aus. So, jetzt ist der gleiche Inhalt, aber eine andere Struktur. Es gibt weniger spitzen Klammern. Es gibt weniger ausführlich. Und dies ist ein Format, das, wenn Sie werden in der Web-Umgebung arbeiten, Sie sind am ehesten an, weil man verwenden möchten der nette Dinge über JSON es ist mit JavaScript kompatibel. Also, wenn ich schreibe Web-App, ziehe ich kann in JSON und nur mit ihm zu arbeiten direkt. Während bei XML, ist es eine etwas mehr kompliziert. Also noch einmal, das sind sowohl nützlich. Sie sind nur verschiedene Anwendungsfälle wo die Menschen wünschen konnte, sie zu benutzen. OK. Also zurück zum API. So können wir for-- suchen Ich gebe ein Beispiel Suche nach Donuts. Wir können auch nur in einer Suche bestimmten Bereich innerhalb hier. Also statt suchen der gesamte Datensatz, Ich kann nur die Suche der Titelfeld. Und jetzt gibt es 25 Dinge, haben Donuts in den Titel, von denen einer geht es um die Wiederherstellung Feuchtgebiete in Management des Loches in der Donut Programm, das ist wahrscheinlich nicht unbedingt das, was wir suchen für, wenn wir für Donuts suchen. Sie können auch, wenn Sie unterwegs sind Umgang mit einem API-- Ein Teil der mit einer API geben Menschen Zugang zu großen Datenmengen. Und es gibt ein anderes Paar Werkzeuge, die Sie verwenden können, um das zu tun. Einer ist, sehr einfach, Sie blättern durch die Daten. So, als ob Sie eine Abfrage zu tun über ein Webinterface, Sie sind auf Seite aussehen, Seite zwei, Seite drei. Sie können das gleiche tun, was über die API. Sie brauchen nur zu sein explizit wie Sie es tun. So zum Beispiel, wenn ich bin auf der Suche bei hier meine erste Abfrage, wo ich eine Suche nach Dingen mit Donuts in den Titel, kann ich sagen, und Grenze beträgt 20, was bedeutet, gib mir die ersten 20 Datensätze nicht der erste 10, der Standardwert ist, denn ich will bei 20 zu einer Zeit zu suchen. Oder ich kann sagen, stellen die beginnen gleich 20 und Grenze gleich 20, die geben mich zeichnet 21 bis 40. Also ich denke, das Ding hier nehmen ist dass wir mit den Abfrage-Strings die Parameter für die Abfrage festlegen. Und es können Sie die Kontrolle was man bekommt zurück. Ein weiteres Werkzeug, das Sie verwenden können, - Und das ist sehr hilfreich bei der Bezug auf die Erkundung der Daten. --is so genannte Facettenschliff. So ist der Begriff Facettierung nicht unbedingt üblich. Aber Sie haben alle zuvor gesehen. Wenn Sie ein Blick in Amazon zum Beispiel und Sie eine Suche nach tun Donuts in die Bücher, hier haben sie eine Reihe von Bücher bekam, und sie sind nach Kategorien gruppiert, und Sie erhalten die verschiedenen Kategorien, und wie viele Bücher in jeder Kategorie angezeigt. Das ist also im Grunde eine Facette. Sie nehmen alle ihre Bücher, die 1800 Bücher, die Donuts Auf Amazon entsprechen. 12 von ihnen sind in der Frühstück Kategorie. 21 in Gebäck und Backen, und so weiter und so fort. Also das ist wirklich eine nützliche Werkzeug für die Erkundung der Inhalte innerhalb der Bibliothek als auch denn wenn man an einer Facette aussehen, es gibt Ihnen eine Vorstellung davon, welche Themen vorhanden ist, wie das, was Arten von Motiven am beliebtesten sind in Ihrer Anfrage-Set. Und es hilft beim Anfahren und beim erkunden. So können wir das Gleiche zu tun. Wenn wir das nutzen wollen API und Blick auf Facetten, wir einen weiteren Parameter hinzufügen unser Freund, der Query-String. So Facetten entspricht einem Komma getrennt Liste dessen, was wir zu Facette möchten. So eine der Facetten könnte Thema sein. Eine andere Sprache sein kann. Und so, wenn wir führen Sie diese Abfrage, get-- wir Es sieht ziemlich gleich hier. Aber wir haben bis zum Ende aufgenommen der Liste eine Reihe von Facetten. So haben wir eine Facette namens Thema. Also das sagt uns, dass, wenn ich sehen auf meine 80 ergibt sich aus der Donut-Abfrage, 13 von ihnen haben die werfen USA. Drei haben die Gegenstand Donuts. Drei haben das Thema der Renaturierung von Feuchtgebieten, die unser Loch im Donut sein können. Zwei von ihnen, die Simpsons, und so weiter und so fort. So kann dies sinnvoll, wenn Sie wollen Ihre Suche einzugrenzen. Es kann Ihnen helfen, das zu tun. Besonders, wenn Sie mehr als, sagen wir, 80 Ergebnisse. Ebenso wir auch gefragt, für Facetten auf Sprache. Also, wenn wir auf unsere Ergebnisse sehen wir, 76 von ihnen sind in Englisch, vier in Französisch, zwei in Spanien, zwei, ich denke, das ist undefiniert oder unbekannt, Niederländisch und Latein. Also ich denke, das lateinische Donut Ergebnis wieder hat nichts mit Backwaren zu tun. Aber Sie gehen. Also das ist eine Art, die Sie wie Sie die Inhalte zurückziehen von der API nur durch Web-Browser, was ausgezeichnet ist. Aber es ist nicht wirklich das, was würden Sie, Verwendung in API für es normalerweise sein. So ein Beispiel, wie Sie könnte tatsächlich tun ist Ich habe geschrieben ein super kleines Programm, die, einmal hat mein Krapfen Suche und wählt ein paar Felder und zeigt sie in einer Tabelle. Also das ist sehr, die elben Inhalte, die wir gerade Säge mit ein paar Feldern herausgezogen. So Liste der Titel, die Lage von dem, was das Buch geht es um die Sprache, und so weiter und so fort. So, wie diese tatsächlich passiert ist, da Ich denke, wir müssen zu einem bestimmten Code aussehen, ist-- Was wir hier haben ist eine einfache HTML Seite, der den Text anzeigt, willkommen in Bibliothek Wolke und dann wird eine Tabelle der Ergebnisse. Und es gibt offensichtlich keine Ergebnisse für die Tabelle, wenn die Seite geladen wird. Aber was wir tun ist, vor allem, wir Laden einer Bibliothek mit dem Namen jQuery, das ist im Grunde eine JavaScript-Bibliothek, die es macht sehr leicht zu manipulieren JavaScript nativ, HTML und Webseiten erstellen, Client-seitige Logik und Webseiten. Also, was wir hier haben, ist jQuery hat eine Methode namens Get, die im Wesentlichen wird zu gehen eine URL, die, in diesem Fall ist dieses bekannte suchen URL. Und erhalten dann die Inhalte aus dass URL und führen Sie dann eine Funktion auf sie. Also sagten wir zu api.lib.harvard / edu. Suche nach Donuts. Geben Sie uns 20 Datensätzen. Und führen Sie dann diese Funktion, die Ich habe gewählt und übergibt die Daten. Und die Daten der JSON, dass wurde von der API zurückgegeben. Und dann werden wir sagen, dass in Daten gibt es ein Feld mit dem Namen Element. Und wenn ich hing werfen Sie einen Blick zurück auf eines dieser Ergebnisse, die hier ist, es gibt etwas called-- Nun, es ist Punkt genannt. So daß sein, dass. Und was sie tut, ist es durchläuft jedes Element und ruft dann eine andere -Funktion für jedes Element. Und diese Funktion im Grunde nimmt den Wert der Artikel, die ist im Wesentlichen die einzelnen Datensatz und ermöglicht es uns, den Titel herausziehen, die Berichterstattung und die Sprache. Also haben wir eine Funktion auf jeden Anruf Artikel, die wir von der API zurückkamen. Und wenn Sie nur einen Blick bei gleich hier dieses Stück, was wir tun ist schaffen wir einen String, die im Wesentlichen einige HTML-Markup an einem Tisch, mit value.title, das ist der Titel der Objekt, value.coverage, welche die Abdeckung ist, - Und wir tun, einen Scheck hier, um zu sehen, wer ist undefined und es zu verbergen, wenn er sagt, nicht definiert ist, weil wir nicht wirklich daran interessiert, dass. --und dann ist die Sprache. Und dann, was wir sind Dabei wird angehängt, dass auf die Tabelle, die ist durch diese Zeichenfolge hier identifiziert. Und wie jQuery funktioniert ist, was dieser sagt, wird für die Tabelle mit Idee aussehen Ergebnisse und fügen Sie diesen Text, um ihn. Und dies ist die Tabelle mit Idee Ergebnisse. Also, was Sie am Ende mit ist diese Seite hier. Und um zu sehen source-- Nun, das ist nicht die Quelle tatsächlich aktualisiert, wenn das passiert. So können Sie die tatsächliche sehen Ergebnisse der Tabelle hier aber. Also das ist nur ein einfaches Beispiel macht einen sehr einfachen Abfrage für die API und Anzeigen von Information in anderer zu bilden, und nichts zu extravagant nicht zu tun. Nun ist ein weiteres Beispiel dafür, wie ein Anwendung von David Weinberger geschrieben als Demo davon, welche Wesentlichen zeigt Ihnen wie Sie mash up die Ergebnisse Sie immer aus der Bibliothek Cloud API mit, sagen wir, Google Books. Und der Gedanke dabei ist, dass ich kann, eine Abfrage gegen Google Books, erhalten eine Volltextsuche, bekommen einige Ergebnisse zurück, um herauszufinden, welche dieser Elemente tatsächlich in Hollis gibt, das Bibliothekssystem, und dann geben Sie mir Links zurück auf die Güter. Also, wenn ich nach, war es eine dunkle und stürmische Nacht, ich wieder ein paar Ergebnisse von Google, und dann ein Ergebnis was Gefangene der Zeit. Und das sind Links, Bücher, die es gibt in der Harvard-Bibliothek Systems. Also ich denke, der Punkt ist hier nicht so dass diese möglicherweise nicht ist die Art und Weise, die Sie wollen um die Bibliothek zu suchen, es ist aber ein völlig anderer Weise, die nicht für Sie war, vor, wie Sie hatte keine Möglichkeit, dies zu tun Volltextsuche für Bücher, die auch waren Teil der Harvard-Bibliothek Systems. So, jetzt ist dies ein Weg, dass Sie das tun. Und Sie können sie in Anzeigen welchem ​​Format auch immer Sie wollen. Der Punkt hier ist, im Grunde, wir eröffnen neue Möglichkeiten für die Menschen mit den Daten arbeiten. Ein weiteres Stück der Bibliothek ist, dass Cloud- es hilft aussetzen einige der Nutzungsdaten dass die Bibliothek. Also, wenn Sie in die Bibliothek gehen, und Sie für Bücher suchen, Sie nicht unbedingt tun, eigentlich eine Vorstellung davon haben, für alle Gegenstände in einem bestimmten Thema, was sind die Menschen in der Gemeinschaft, sei es definiert als Harvard oder Land oder Ihre Klasse, was haben sie am nützlichsten? Und die Bibliothek hat eigentlich ein Unmenge an Informationen über das, was ist besonders nützlich, da, wenn viele Menschen erkundest gerade ein Buch, Sie erzählt etwas. Es muss einen Grund haben, sie wollen, check it out. Eine Menge Leute es auf Reserve. Wenn es auf der Reserveliste für viele von Klassen, die Sie erzählt etwas. Wenn Mitglieder der Fakultät sind es überprüfen aus viel und Studenten sind nicht, das sagt mir etwas. Umgekehrt, die auch sagt etwas. So wäre es wirklich interessant zu sein bringe diese Informationen da draußen und lassen Leute benutzen es, um sie zu finden arbeitet innerhalb des Bibliothekssystems. Die Kehrseite davon ist, gibt es einige ernsthafte Privatsphäre Bedenken, weil eine der Kernaspekte der Bibliothek wird wir werden nicht zu erzählen Menschen, was andere Leute lesen. Und selbst wenn Sie sagen, diese Buch wurde viermal geprüft in einem bestimmten Monat, angewandt werden könnten bis zu einem bestimmten Link zurück Person, die von De-Anonymisierungs Daten und herauszufinden, wer es ausgecheckt. So ist die Art, wie wir können avoid-- Die Art und Weise, dass wir versuchen, zu extrahieren einige Signal von allen Informationen, ohne Verletzung Bedenken hinsichtlich der Privatsphäre jedermanns ist im Wesentlichen betrachten wir 10 Jahre Nutzungsdaten - So ist es über einen langen Zeitraum. --und sagen, OK, mal sehen, wie oft diese Arbeit verwendet wurde, und durch die in diesem Zeitraum der Zeit, und dann im Grunde zurück zu geben eine Reihe, die wir als ein Stapel der Gäste, die im Wesentlichen steht, wie viel es verwendet. Und das number-- Viele verschiedene Berechnungen gehen Sie in dieser Zahl. --Aber es ist eine sehr grobe Metrik, die Ihnen eine Vorstellung davon, wie die Community kann diese Arbeit zu schätzen wissen. Und so eine andere Art von selbst Weitere Anwendungs ​​konkretisiert dass nutzt Dies ist etwas, genannt Stacklife, die eigentlich durch den Haupt Harvard verfügbar Bibliotheksportal. Sie gehen also zu library.harvard.edu. Sie werden eine Reihe von verschiedenen sehen Arten der Suche des Bibliothek. Und einer von ihnen heißt Stacklife. Und dies ist eine Anwendung, durchsucht den Inhalt der Bibliothek, aber komplett gebaut wird An der Spitze dieser APIs. Also gibt es keine spezielle Sachen hinter den Kulissen. Es gibt keinen Zugang zu Daten, die Sie nicht haben. Es ist mit den APIs, um Ihnen mit einem völlig anderen Browsing Erfahrung. Also, wenn ich nach Alice im Wunderland in diesem Fall, Ich bekomme ein Ergebnis, das wie folgt aussieht Dieses, das ist ziemlich much-- ist Es ist sehr ähnlich zu einem anderen Such Sie tun könnte, außer in diesem Fall wir Ranking die Einzelteile durch stackscore, die Ihnen eine Vorstellung davon, wie beliebt diese Artikel waren in der Gemeinschaft. Und so klar, Alice im Wunderland von Walt Disney ist sehr beliebt. Aber Sie können auch die ersten vier Hier sind diejenigen, die Sie nicht actually-- könnten Dinge, die stark verwendet werden, aber Sie können nicht sofort Verbindung mit Alice im Wunderland. Also unser alter Freund der Kommentierte Alice ist hier. So kann ich einen Blick auf sie zu nehmen. Und nun, was ich suche in ist im Grunde ein Set von-- Ich kann die kommentierte haben Alice hier richtig. Ich habe Informationen über sie. Und ich habe auch eine stackscore von in diesem Fall 26. Und das sagt mir irgendwie grob wie wir auf diese stackscore bekam, wie, die es ausgecheckt, wie, wie oft ist es ausgecheckt wurde, wie Fakultät oder under, wie viele Kopien der Bibliothek, und so weiter und so fort. Und Sie können auch, interessant genug, hier praktisch einige der Stacks. So werden die Daten hier, diese zeigt Ihnen sort einer virtuellen Darstellung von dem, was im Regal Macht aussehen, wenn Sie zu treffen waren alle Bestand der Bibliothek und sie zusammen auf einer unendlichen Regal. Und das Schöne daran ist, dass wir can-- Zunächst wird die Metadaten über diese Bücher oft zeigt an, wann es veröffentlicht wurde. Hier erfahren Sie, wie viele Seiten es hat. Es könnte die Abmessungen sagen. So können Sie sehen, das ist hier reflektiert in Bezug auf die Größe der Bücher. Und dann können wir das nutzen stapeln Partitur zu markieren die Bücher, die höhere Stapel Partituren haben. So dass, wenn es dunkler ist, bedeutet dies, dass, sie vermutlich häufiger verwendet wird. Also in diesem Fall, ich bin werde zu erraten, dass diese ist die Version von Alice im Wunderland Das ist sehr häufig verwendet und die meisten zugegriffen wird, die Bibliothek hat die meisten Kopien. Also, wenn Sie suchen, für Alice im Wunderland, dies könnte ein guter Anfang sein. Und hier können Sie auch eine Verbindung aus zu sagen, Amazon, das Buch zu kaufen, und so weiter und so fort. Der Punkt hier wieder ist nicht so sehr, dass diese ist der beste Weg, um die Bibliothek zu durchsuchen oder das richtige Werkzeug für jede Gelegenheit. Aber es ist eine andere Art, es zu tun. Und indem der Daten durch eine API zur Verfügung, ist von sehr einfachen Bausteinen, der Sie den Inhalt durchsuchen können, Sie können etwas zu bauen so dass außerordentlich wertvoll für einige Menschen. Also das ist eine Art, so viel wie ich will um wirklich über das, was die neue API geradezu sagen und was es macht, es gibt eine ganze Haufen Zeug hinter den Kulissen, die Ich werde einfach zu kurz berühren nur weil es eine Art kommt in diesen aus einem ganz anderen Blickwinkel in Bedingungen Wie funktioniert so etwas wie dieses in Platz gesetzt werden? So eine API ist eine Standard- Schnittstelle, um alle diese Inhalte. Aber um es dort, die erhalten erste, was wir tun mussten, Informationen wurde an einem Strang ziehen Bücher und Bilder und die Findmittel, die Sammlung Dokument aus verschiedenen Harvard-Systeme. Aleph, VIA und OASIS sind die Namen der Systeme. Und sie im wesentlichen in eine gehen Pipeline, eine Verarbeitungspipeline. Also zunächst einmal, den Export erhalten wir Dateien von allen diesen Systemen. Wir teilen sie in einzelne Elemente. Wir haben also eine Datei, die ein Gigabyte ist, die hat eine Million Datensätze in es. So teilen wir es in einzelne Elemente. Dann wird für jeden Artikel, konvertieren wir in MODS, weil einige von ihnen sind nativ MODS, sind einige von ihnen nicht. Sie alle, so kommen wir zu werden in dem gleichen Format. Dann gibt es verschiedene Anreicherungsschritten, wobei wir weitere Informationen zu der Daten hinzufügen als verfügbar war in der Bibliothek. Also müssen wir in erster Linie hinzuzufügen, wir haben, was Bibliotheken halten. Wir gehen durch einen Schritt des Berechnung der stackscore. Wir gehen durch einen anderen Schritt des Hinzufügen weiterer Metadaten in Bezug auf von dem, was Menschen Kollektionen könnte this-- hinzugefügt haben Menschen schaffen Sammlungen von Gegenständen. Was bedeutet es für Sammlungen gehören? Wie haben die Menschen getaggt dieser Inhalt in der Vergangenheit? Dann können Sie herausfiltern, und Sie zu beschränken die Aufzeichnungen, denn, wie ich bereits erwähnt, es gibt einige Datensätze, die aufgrund Copyright-Gründen können wir nicht an. Und dann haben wir sie zu laden in so genannten Solr, das ist nicht ein Rechtschreibfehler, aber ist der Name einer Software das tut Suchindizierung, die fährt alle Such hinter der API. Und dann wird es zur Verfügung die API, und die Leute können es verwenden. Also das ist wie eine ziemlich einfacher Prozess. Eine der interessant Dinge über sie ist dass wir es zu tun mit 13 Millionen Datensätzen und wir werden zu tun haben oder mehr. Und wir in der Lage zu handhaben sein wollen dies in einem relativ schnellen Weise. Es dauert eine lange Zeit, verarbeiten 13 Millionen Datensätzen. So, wie diese Pipeline eingerichtet ist, dass Sie can-- Ich denke, der Vorteil der Pipeline, das Problem, daß wir versuchen, hier zu lösen, besteht darin, dass alle Transformationen, all diese Schritte in diese Pipeline trennbar sind. Es gibt keine Abhängigkeit. Wenn Sie die Bearbeitung sind eine Aufzeichnung von einem Buch, es gibt keine Abhängigkeit in dass zwischen einem anderen Buch. Also, was wir tun können, ist im Grunde, bei jeder Stufe in der Pipeline, wir setzen es in eine Warteschlange in der Cloud. Ich war gerade auf Amazon Web Services sein. Es gibt also eine Liste von, sagen, dass 10.000 Artikel müssen normalisiert werden sollen, und um MODS-Format konvertiert. Und wir spin up so viele Server wie wir wollen, vielleicht 10 Servern. Und jedem dieser Server nur dasitzt, sieht in der Warteschlange, sieht, dass es eine, die benötigt verarbeitet werden, zieht es aus der Warteschlange, verarbeitet sie und Stöcke es auf die nächste Warteschlange. Und so was, dass uns erlaubt zu tun ist, gelten im Wesentlichen wissen, so viel Hardware wie wir wollen, dies Problem für eine sehr kurze Zeitdauer um die Daten so schnell wie verarbeiten möglich, das etwas ist, dass nur, jetzt in der Welt des Cloud Computing wir können Bereitstellung Server wesentlichen sofort, also sinnvoll. So haben wir nicht ein Baby haben Riesen-Server sitzen die ganze Zeit die verarbeitete dass vielleicht nur einmal pro Woche geschehen. Das ist also meistens ist es. Es gibt Unterlagen verfügbar für die Bibliothek Wolke Artikel API unter dieser URL, die wird werden später zur Verfügung. Und besuchen Sie bitte einen Blick auf um zu sehen, ob es etwas gibt, Sie haben alle mögliche Ideen. Spielen Sie mit ihm. Herumtollen. Und hoffentlich kommen kann mit etwas groß. Danke.