JEFFREY LICHT: Hi there. Ik ben Jeffrey Licht. En ik ben hier om u te praten over de Harvard Library en de bouw van morgen vandaag bibliotheek, denk ik. Dus de achtergrond hier, de standplaats voor deze sessie wezen dat er veel bibliografische gegevens in de Harvard bibliotheken. En er is een kans, door enkele van de instrumenten en een project dat wordt ontwikkeld, de toegang tot de informatie en neem het mee naar plaatsen die de Harvard Library is niet nu doet, doe nieuwe dingen mee, experiment en spelen rond met het. Dus de toegangspoort tot dit is een API riep de Harvard Library Cloud, die is een open metadata-server, die ik zal spreken over nu. Dus de achtergrond is dat er een veel dingen in de Harvard bibliotheek. We hebben meer dan 13 miljoen bibliografische records, miljoenen afbeeldingen, en duizenden van het vinden van hulpmiddelen, die hoofdzakelijk documenten beschrijven collecties, zeggen wat is in hen, dozen van papers enzovoort, dat meer dan vertegenwoordigen een miljoen afzonderlijke documenten. En er is ook een heleboel informatie die de bibliotheek over hoe de inhoud wordt gebruikt dat van belang mensen konden die zou willen werken. Dus alle informatie de bibliotheek metadata. Dus metadata is data over data. Dus als we praten over de informatie die beschikbaar via de bibliotheek wolk die beschikbaar is, het is niet per se de eigenlijke documenten zelf geen volledig tekst van boeken of de volledige afbeeldingen, hoewel die daadwerkelijk het geval kan zijn. Maar het is echt informatie over de gegevens. Zo kunt u denken aan het catalogiseren informatie, telefoonnummers, onderwerpen, hoeveel exemplaren van de boek zijn er, wat zijn de uitgaven, wat zijn de formaten, de auteurs, enzovoort. Dus er is een heleboel informatie over de gegevens in de collectie, op zich, is een soort van inherent nuttig. En hoewel als je het doen van diepgaand onderzoek, wilt u natuurlijk de werkelijke te krijgen inhoud zelf en kijken naar de gegevens, de metadata is nuttig in termen van zowel analyseren corpus als geheel, zoals wat dingen zijn in de collectie. Hoe verhouden ze zich? Het helpt je echt andere dingen te vinden, dat is echt het belangrijkste doel van het. Het punt van de metadata en de catalogus is om u te helpen alle de informatie die beschikbaar zijn binnen de collecties. Dit is dus een voorbeeld van metadata voor een boek in de Harvard Library. Dus het is er. En je kunt zien dat het eigenlijk matig complex. En een deel van de waarde van metadata binnen de Harvard Library systeem is dat het soort geweest van opgebouwd door postorderbedrijven en gemonteerd door mensen toe te passen veel expertise en vaardigheden en dacht om het na verloop van tijd, die heeft veel waarde. Dus als je een kijkje nemen op deze record voor nemen De Geannoteerde Alice, kun je erachter komen u de titel, die het geschreven, het hebt auteur, en al de verschillende onderwerpen die mensen hebben het gecatalogiseerd in. En je kunt zien is er ook, in Naast een heleboel goede informatie hier, is er een aantal doublures. Er is een hoop complexiteit dat is weerspiegeld door de metadata die je hebt. Dus een titel van dit boek is De avonturen van Alice in Wonderland. Dus dit is een geannoteerde versie van dat boek. Maar het is ook wel Geannoteerde Alice, Alice's Adventures in Wonderland omdat het is iets wat Martin Gardner schreef en geannoteerde het boek. En er is een groot aantal mooie informatie over logische puzzels en dingen binnen Alice dat u waarschijnlijk nog niet wist over. Dus je moet gaan lezen. Maar je kunt zien dat er veel detail hier, met inbegrip van identificatiemiddelen, als het werd opgericht, waar het vandaan kwam, in termen van de Harvard systeem, enzovoort. Dit is dus een voorbeeld van het type metadata dat je zou kunnen zien voor een boek in de collectie Harvard Library. Dat is iets heel anders. Dus er is een systeem genaamd VIA Harvard, die fundamenteel wordt catalogiseren beelden en voorwerpen van kunst en visuele dingen overal in Harvard, en het toevoegen van enkele metadata om hen classificeren, en, in sommige gevallen, het verstrekken kleine miniatuurafbeeldingen dat u een kunt nemen kijken als u dat wenst. Dit is dus een voorbeeld van de metadata die je hebt voor een bord uit, vermoedelijk, Alice in Wonderland. En je kunt zien dat er minder metadata hier. Het is gewoon een ander soort object. En dus is er minder informatie. Heb je meestal het feit dat een gesprek nummer, wezen wie het heeft gemaakt, - We weten niet wanneer het is gemaakt. --en een titel. Een ander voorbeeld. Dit is een bevinding hulp. Dus er is een verzameling van Lewis Papers Carroll op Harvard. Dus dit wordt beschreven wat is in die verzameling. Dus iemand heeft doorgemaakt en keek door alle vakken en gecatalogiseerd het, gegeven wat achtergrond, schriftelijk een samenvatting van wat er is. En als je zou kijken verder bij deze, deze gaat voor pagina's en pagina en pagina's, maar zal u vertellen wat brieven en wat dateert van wat dozen bestond de hele collectie. Maar dit is iets dat, als je op Harvard, je kunt gaan en daadwerkelijk fysiek kijken en, vermoedelijk, een kijkje nemen op. Dus dit is allemaal geweldig. Deze metadata is nuttig. Het is in de Harvard Library systeem. Er zijn gereedschappen waar je online kan gaan en een kijkje nemen op het, en zie het, en zoek het. En je kunt het en dobbelstenen snijden het op veel verschillende manieren. Maar het is echt alleen beschikbaar als je bent een mens zitten op uw web browser of iets of uw telefoon en het navigeren doorheen. Het is niet echt beschikbaar in elke vorm van bruikbare mode andere systemen of andere computers te gebruiken, niet met systemen binnen de Harvard Library, maar systemen de buitenwereld, gewoon andere mensen in het algemeen. Dus de vraag is, hoe kunnen we beschikbaar te maken voor computers zodat wij interessanter kunnen doen spullen mee dan alleen surfen op het zelf? Dus waarom zou je dit willen doen? Er zijn veel mogelijkheden. Een daarvan is kon je helemaal het bouwen van een andere manier van browsen de inhoud die beschikbaar is door de Harvard bibliotheken. Ik zal je één laten zien later belde Stacklife, die een heel ander heeft nemen op zoek naar content. Je kon een aanbeveling motor te bouwen. Dus Harvard Library is niet in de bedrijf van te zeggen, je wilt dit boek. Ga dan een kijkje nemen op deze 17 andere boeken die u misschien geïnteresseerd in of deze 18 andere afbeeldingen. Maar dat kon zeker zijn een waardevolle eigenschap. En gezien de metadata, het kan mogelijk zijn om samen te stellen dat. Je zou kunnen hebben verschillende behoeften in termen van het doorzoeken van de inhoud, zoals misschien ondanks de hulpmiddelen die beschikbaar die de bibliotheek maakt beschikbaar, wilt u misschien om te zoeken op een andere manier of optimaliseren voor bepaalde use case, die misschien is het zeer gespecialiseerd. Misschien zijn er slechts een paar mensen in de wereld die de inhoud wilt zoeken op deze manier, maar zou geweldig zijn als we kon laten dat ze dat doen. Er is veel van analytics in hoe mensen gebruik maken van de inhoud die echt zou zijn interessant om te weten, te weten welke boeken worden gebruikt, wat niet, enzovoort. En dan is er nog een heleboel gelegenheid te integreren met andere informatie dat is die er op het web. Dus we have-- Bijvoorbeeld, NPR heeft een boekbespreking segment, waar ze interviewen auteurs over boeken. En zo zou het geweldig zijn als je opzoeken van een boek in de Harvard Bibliotheek, en je zegt, OK, er is geweest een interview met de auteur. Laten we een kijkje nemen op die. Of er is een Wikipedia-pagina, zoals een gezaghebbende, wetenschappelijke verwijzing over dit boek dat u Misschien wil je een kijkje op te nemen. Er zijn deze types van bronnen verspreid over het web. En ze samenbrengen een groot nut zou kunnen zijn iemand kijken naar de inhoud, op zoek naar iets. Maar het is ook niet de soort dingen je zou wil de bibliotheek verantwoordelijk te zijn voor te gaan zitten en de jacht op al deze verschillende bronnen en aan elkaar steken ze omdat ze voortdurend veranderen. En wat zij belangrijk vinden mei niet wat je denkt dat belangrijk is. En meer nog, eigenlijk is er een veel dingen die we nog niet aan gedacht. Dus als we dit kunnen openstellen, meer mensen naast een half dozijn of zo, die op zoek zijn naar deze op een regelmatige basis kan bedenken ideeën en masseer de gegevens, en doen wat ze willen met het. Dus we willen dit doen gegevens beschikbaar zijn voor de wereld. Nou, er zijn een paar complicaties. Een daarvan is dat deze metadata in verschillende systemen. Het is in verschillende formaten. Dus er is wat normalisering dat moet gebeuren, waarin normalisatie wordt de werkwijze dingen brengen van verschillende formaten en in kaart te brengen om één format zodat de velden zullen overeenkomen. Er zijn een aantal beperkingen van het auteursrecht. Vreemd genoeg, de titelbeschrijving over een boek is aansprakelijk voor het auteursrecht. Dus ook al is het gewoon informatie afkomstig uit het boek, het auteursrecht. En afhankelijk van wie daadwerkelijk geschapen dat metadata, Er kunnen beperkingen op die zijn mag het verspreiden, vergelijkbaar to-- Ik weet het niet. Het kan al dan niet vergelijkbaar zijn de situatie van de songteksten, bijvoorbeeld. Dus we weten allemaal hoe dat uitpakt. Dus je moet rond dat probleem te krijgen. En dan nog een stuk is dat er een grote hoeveelheid gegevens. Dus als ik ben iemand die wil werken met de gegevens of heeft een cool idee, omgaan met 14 miljoen platen op mijn laptop problematisch kan zijn en moeilijk te beheren. Dus we willen verminderen de barrières voor mensen om te kunnen werken met de data. Dus de aanpak die hopelijk adressen al deze zorgen twee delen. Een daarvan is het bouwen van een platform dat neemt van alle in verschillende bronnen en verergert het, normaliseert, verrijkt, en merken het beschikbaar stellen in een enkele locatie. En het is beschikbaar via maakt een publieke API dat mensen kunnen bellen. Dus een API is een Application Programming Interface. En principe verwijst naar een eindpunt dat een systeem of technologie kan bellen en data terug in een gestructureerd op een manier dat kan worden gebruikt. Dus het is niet afhankelijk bij het gaan naar een website en schrapen gegevens uit ervan, bijvoorbeeld. Dus dit is de homepage van de Bibliotheek Cloud Item API, die in wezen is de versie twee. Dus het is de tweede iteratie van proberen om al deze gegevens te maken naar de wereld. Dus het is http://api.lib.harvard.edu/v2/items. En alleen maar om deze af te breken een beetje, wat dit betekent is dat dit tweede versie van de API. Er is een versie van één, die Ik ben niet van plan om over te praten. Er is een versie one. En als je deze belt API, krijg je punten. En deel van het idee van een API is een API is een contract. Het is iets dat is niet gaat veranderen. Dus bijvoorbeeld, - De reden is dat als ik bouwen van een soort systeem dat gaat om een ​​bibliotheek cloud-API gebruiken om boeken te geven of mensen te helpen vinden informatie op een unieke manier, wat we niet willen dat er gebeurt is voor ons om te gaan veranderen hoe dat API werkt, en plotseling alles breekt op de eindgebruiker kant. Dus een deel van als je het maken API ter beschikking van de wereld, het is goede gewoonte om een ​​zet versienummer in het dus mensen weten welke versie ze te maken hebben. Dus als we besluiten we een betere manier van het maken van deze informatie beschikbaar is, we kunnen veranderen dat aan noemen die versie drie. Dus iedereen die nog steeds met behulp van versie twee, dat zal nog steeds werken. Maar de derde versie zou hebben alle nieuwe dingen. Dus dit is een API voor dit echt ziet eruit als een URL. En ja, wat is dit een voorbeeld van is wat is genoemd rust API beschikbare meer dan gewoon een normale web-verbinding. En je kan eigenlijk gaan in een browser. Dus hier heb ik net geopend Firefox en gegaan naar api.lib.harvard.edu/v2/items. En dus wat ik krijg hier is in feite de eerste pagina van de resultaten van de gehele set van items die we hebben. En het is hier in XML-formaat. En het is ook geweest prettified door Firefox. Het is eigenlijk al deze hebben weinig uitzetten en samentrekken puntenslijpertjes hier. Dit is een soort van een mooiere versie manier om ernaar te kijken. Maar wat dit is ons te vertellen is Ik heb gevraagd alle items. Dus er zijn 13.289.475 items. En ik ben op zoek naar de eerste 10, beginnend op positie nul omdat in de informatica We beginnen altijd op nul. En wat ik hier heb, als ik gewoon instorten dit, zie je ik heb 10 items. En als ik een kijkje nemen op een item, kan ik zien dat ik informatie over het hebt. En dit is in wat heet MODS vorm. En dus ik ga om te schakelen hier terug voor een moment. OK. Dus laten we zoeken naar iets in specifieke omdat het eerste item dat gebeurt op de proppen komen als je kijkt door de gehele collectie is, per definitie, willekeurig. Dus laten we eens kijken naar een aantal donuts. Oh. OK. Zo donuts. Dus vonden we zijn er 80 items in de collectie die donuts verwijzen. We kijken naar de eerste 10 van hen. Nu, kunt u hier zien de manier waarop Ik zei dat ik ben op zoek naar donuts, Ik gewoon iets om toegevoegd de query string van de URL. Dus q gelijk aan donuts, die u kunt zien een beetje meer hier. En dit betekent in feite dat er een specificatie voor de API, die bepaalt wat al deze parameters betekenen. En dit betekent dat we gaan zoeken alles voor donuts. Dus het eerste item hier hebben we je kunt zien dat de titel is Donuts, Er is een ondertitel genoemd Amerikaanse passie, dat is, denk ik, geschikt. Er zijn een heleboel different-- Als je eenmaal op het punt het krijgen van de gegevens, er zijn een heleboel verschillende formats dat je het kunt krijgen in. En er zijn verschillende sterktes en zwakke punten voor hen allen. Dus dit kunt u zien Hier, deze vorm is zeer rijk. En het is gestandaardiseerd. Dus er is een specifieke titel veld, een veld ondertitel. Er is een alternatieve titel, Een Amerikaanse Passion. Er is de naam die ermee verbonden zijn. Het type van de bron is tekst. Er is een heleboel informatie hier in dit formaat. Maar er zijn een heleboel van verschillende formaten. Dus wat we waren gewoon kijken naar een format genaamd MODS, wat staat voor Metadata Object Beschrijving Dienst, potentieel. Ik ben eigenlijk niet helemaal zeker over de S. Maar het is een vrij complexe opmaak. Het is het standaard formaat. Maar het is degene die houdt de rijkdom van alle gegevens dat de bibliotheek heeft, omdat het is heel dicht bij wat de bibliotheek intern gebruikt. Het is een standaard die is gebruikt in het hele land, over de hele wereld in wetenschappelijke bibliotheken. En het is heel interoperabel. Dus als je een document hebt die in MODS formaat, je kunt geven dat aan iemand anders waarvan de systemen te begrijpen MODS, en ze kunnen importeren. Dus het is een standaard. Het is zeer goed gedefinieerd, zeer specifiek. En dat is wat maakt het interoperabele want als iemand zegt, Dit is de alternatieve titel van een record, iedereen weet wat dat betekent. Aan de andere kant, het is erg ingewikkeld. Dus als je een kijkje nemen op hier dit record, als ik wil gewoon het krijgen titel van dit document, van dit boek, dat is waarschijnlijk Donuts, Een Amerikaanse Passion, het ontleden van het uit is een beetje betrokken. Overwegende dat er een andere formaat genaamd Dublin Core, wat een veel, veel eenvoudiger formaat. En zo zie je hier, er is geen titel, ondertitel, alternatieve titel. Er is gewoon de titel, Donuts, An American Passion, en een andere titel, American Passion. Dus als u op zoek bent naar wat vorm u wilt de gegevens uit, veel hangt af van hoe je gaat om het te gebruiken. Gebruikt u voor interoperabiliteit of heb je willen iets eenvoudig dat misschien makkelijker om mee te werken? Aan de andere kant, een groot deel van de details te krijgen soort gepropt zitten. Je zou de nuances van verliezen wat een bepaald gebied middel als je te maken hebt met Dublin Core, die je niet zou krijgen met MODS. Dus dat zijn twee van de formaten je kunt krijgen van de API. En eigenlijk, we houden het achter de schermen in MODS. Maar we kunnen je het in MODS en Dublin Core en iets anders ook. De andere overweging bij u op zoek bent in de data is dat je kunt krijgen als ofwel JSON, die staat voor JavaScript Object Notation, of XML, wat staat voor Extensible Markup Language. En deze data representaties zowel precies dezelfde gegevens precies dezelfde velden. Maar ze zijn gewoon syntactisch verschillend. Dus dit is a-- Nou, laten we gewoon schakelen. Dus dit is onze vraag voor donuts in XML-formaat. Als ik gewoon overschakelen dit om JSON te zijn, Ik kan zien ziet het er anders uit. Nu is dezelfde inhoud, maar een andere structuur. Er zijn minder punthaken. Er is minder breedsprakig. En dit is een formaat dat, als je werkzaam zijn in de web-omgeving, je bent het meest waarschijnlijk zal willen gebruiken omdat een van de leuke dingen over JSON is het is compatibel met JavaScript. Dus als ik aan het schrijven ben web app, kan ik trek in JSON en gewoon werken met het direct. Overwegende dat met XML, het is een beetje meer ingewikkeld. Dus nogmaals, deze zijn beide nuttig. Ze zijn gewoon verschillende use cases waar mensen zou willen om ze te gebruiken. OK. Dus terug naar de API. Dus we kunnen zoeken voor-- Ik geef een voorbeeld van op zoek naar donuts. We kunnen ook zoeken alleen in een specifieke gebied binnen hier. Dus in plaats van het zoeken het hele record, Ik kan gewoon zoeken op het veld titel. En nu zijn er 25 dingen die hebben donuts in de titel, waarvan één is over het herstellen wetlands in het management van het gat in de donut programma, dat is waarschijnlijk niet per se wat we zoeken voor als we op zoek naar donuts. U kunt ook, als je te maken met een API-- Een deel van het hebben een API geeft mensen toegang tot grote datasets. En er zijn een paar verschillende tools die u kunt gebruiken om dat te doen. Een daarvan is, heel eenvoudig, u kunt door de gegevens. Dus net alsof je een query doen via een webinterface, U kunt kijken naar de eerste pagina, pagina twee, pagina drie. U kunt hetzelfde doen ding via de API. Je hoeft alleen maar te zijn expliciet in hoe je het doet. Dus bijvoorbeeld, als ik ben op zoek op hier mijn eerste vraag, waar ik ben bezig met een zoektocht naar de dingen met donuts in de titel, kan ik zeggen, en beperken gelijk 20, waardoor geef mij de eerste 20 records, niet de eerste 10, de standaard, omdat ik wil kijken naar 20 per keer. Of ik kan zeggen, zet de beginnen gelijk aan 20 en beperken gelijk 20, die geeft mij registreert 21 tot en met 40. Dus ik denk dat het ding om hier weg te nemen is dat we met behulp van de query strings parameters op de vraag stellen. En het laat je de controle wat je krijgt terug. Een andere tool die je kunt gebruiken, - En dit is echt nuttig in termen van het verkennen van de gegevens. --is iets genaamd facetten. Dus de term faceting is niet noodzakelijkerwijs algemeen. Maar je hebt al eerder gezien. Als u een kijkje nemen op Amazon bijvoorbeeld en je een zoektocht naar doen donuts in de boeken, hier ze hebben een reeks van boeken, en ze zijn gegroepeerd per categorie, en krijg je de verschillende categorieën, en hoeveel boeken in elke categorie opdagen. Dus dit is eigenlijk een facet. Je neemt al hun boeken, de 1800 boeken die overeenkomen donuts bij Amazon. 12 van hen zijn in de ontbijt categorie. 21 in gebak en bakken, en zo verder en zo voort. Dus dit is echt een nuttig hulpmiddel voor het verkennen van de inhoud binnen de bibliotheek ook want als je kijkt naar een facet, het geeft je een idee van welke onderwerpen bestaat, zoals wat typen onderwerpen zijn het meest populair binnen uw vraag te stellen. En het helpt je wegrijden en te verkennen. Dus we kunnen hetzelfde doen. Als we willen het gebruiken API en kijk naar facetten, voegen we een andere parameter aan onze vriend de query string. Dus facetten komt overeen met een door komma's gescheiden lijst van wat we willen facet op. Dus een van de facetten kunnen worden onderworpen. Een ander zou kunnen zijn taal. En dus als we lopen dat query, we get-- Het ziet er vrijwel hetzelfde hier. Maar we hebben toegevoegd aan het einde van de lijst een reeks facetten. Dus we hebben een facet genoemd onderwerp. Dus dit is ons te vertellen dat als ik kijk bij mijn 80 resultaten van de donut query, 13 van hen hebben de onderwerpen Verenigde Staten. Drie hebben het onderwerp donuts. Drie hebben het onderwerp van herstel van wetlands, die onze gat in de donut kunnen zijn. Twee van hen, de Simpsons, en zo verder en zo voort. Dus dit kan handig zijn als u zijn wilt uw zoekopdracht. Het kan u helpen dat te doen. Vooral als je meer dan, zeg, 80 resultaten. Op dezelfde wij ook gevraagd voor facetten van de taal. Dus als we kijken naar onze resultaten zien we 76 van hen zijn in het Engels, vier in het Frans, twee in het Spaans, twee, ik denk dat dat undefined of onbekende, het Nederlands en het Latijn. Dus ik denk dat de Latijnse donut resultaat weer, heeft niets te maken met gebakken goederen. Maar daar ga je. Dus dit is een soort van het tonen van je hoe je kunt de inhoud terug te trekken van de API alleen via webbrowser, wat geweldig is. Maar het is niet echt wat je zou doen normaal gebruik API voor. Dus een voorbeeld van hoe u kon eigenlijk doen is ik heb schriftelijk een super klein programma, die, nogmaals, doet mijn donut zoekopdracht en selecteert een paar velden en geeft deze weer in een tabel. Dus dit is zeer de dezelfde inhoud dat we net zaag met een paar velden uitgetrokken. Dus lijst met titels, de plaats van wat het boek is over, de taal, en zo verder en zo voort. Dus hoe dit ook daadwerkelijk gebeurd is, omdat Ik denk dat we moeten kijken naar wat code, is-- Wat we hier hebben is een eenvoudige HTML pagina, die de tekst weergeeft, van harte welkom in de bibliotheek cloud en toont dan een tabel van de resultaten. Er zijn natuurlijk geen resultaten de tafel wanneer de pagina wordt geladen. Maar wat we doen is allereerst, we het laden van een bibliotheek genaamd jQuery, die in feite een JavaScript-bibliotheek, die het maakt zeer gemakkelijk te manipuleren JavaScript native, HTML, en het creëren van webpagina's, client-side logica en webpagina's. Dus wat we hier hebben is jQuery heeft een methode genaamd Get, die in wezen gaat naar een URL, die in dit geval, is dit bekend op zoek URL. En krijgt dan de inhoud van dat URL en voer vervolgens een functie op. Dus zeiden we gaan naar api.lib.harvard / edu. Zoeken naar donuts. Geef ons 20 platen. En dan is deze functie, lopen die Ik heb gekozen, het doorgeven van de gegevens. En de gegevens is de JSON dat kreeg terug van de API. En dan zijn we zeggen, binnen die data is er een veld genaamd punt. En als ik ga een kijkje nemen terug op één van deze resultaten die hier, er is iets called-- Nou ja, het heet voorwerp. Opdat kan zijn dat. En wat het doet is het gaat door elk item en roept dan nog functie op elk item. En die functie in principe neemt de waarde van het item, dat is wezen in het persoonlijk dossier en laat ons toe te trekken uit de titel, de dekking en de taal. Dus een functie op elke noemen we item dat wij terug van de API kreeg. En als je gewoon een kijkje nemen op dit stuk hier, wat we doen is we zijn het creëren van een string, die in wezen is wat HTML-opmaak rond een tafel, met value.title, dat is de titel van het voorwerp, value.coverage, dat de dekking, - En we doen een cheque hier om te zien wie undefined en het verbergen van het als het undefined zegt, omdat we niet echt geïnteresseerd in dat. --en dan is de taal. En wat zijn we doen is het toevoegen van dat om de tafel, die die door deze string in. En hoe jQuery werkt is wat dit zegt is op zoek naar de tafel met idee resultaten en voeg deze tekst aan het. En dit is de tafel met idee resultaten. Dus wat je uiteindelijk met is deze pagina hier. En om source-- bekijken Nou, de bron is niet echt bijgewerkt wanneer dat gebeurde. Zodat u kunt zien de werkelijke resultaten van de tabel hier wel. Dus dat is gewoon een simpel voorbeeld van het doen van een zeer fundamentele vraag tegen de API en weergeven van informatie op een andere vormen, en niets te fancy doen. Nu, een ander voorbeeld is als een applicatie geschreven door David Weinberger als een demo van deze, die laat je in wezen hoe je kunt mash up van de resultaten die je bent krijgen uit de bibliotheek cloud API met, zeg, Google Books. En het denken hier is dat ik kan een query tegen Google Books, krijgt een full text search, nog wat resultaten terug, erachter te komen welke van deze items werkelijk bestaan ​​in Hollis, het bibliotheeksysteem, en dan geef me koppelingen terug naar die artikelen. Dus als ik zoek naar, het was een donkere en stormachtige nacht, ik terug te krijgen een heleboel resultaten van Google, en dan is een resultaat dat is een rimpel in de tijd. En dit zijn links naar boeken die er bestaan binnen de Harvard Library systeem. Dus ik denk dat het punt is hier niet zo veel dat dit kan wel of niet zijn de manier waarop u wilt naar de bibliotheek te zoeken, maar het is een geheel andere manier die niet beschikbaar was voor u voor, zoals je had geen manier van doen volledige tekst zoekt op boeken die zelfs maakten deel uit van de Harvard Library systeem. Dus nu is dit een manier dat je dat kunt doen. En je kunt ze weer te geven in welk formaat je wilt. Dus het punt hier is, in principe, we nieuwe mogelijkheden te creëren voor mensen om te werken met de gegevens. Een ander stuk van de bibliotheek cloud is dat helpt bloot sommige gebruiksgegevens dat de bibliotheek heeft. Dus als je naar de bibliotheek, en je bent op zoek naar boeken, je per se niet eigenlijk een idee van, voor alle items in een specifiek, wat zijn mensen in de gemeenschap, of het nu gedefinieerd als Harvard of land of je klas, wat hebben ze gevonden meest nuttig? En de bibliotheek heeft eigenlijk een ton van informatie over wat is vooral handig omdat als veel mensen zijn het controleren van een boek, dat je iets vertelt. Er moet een reden zijn geweest ze willen om het te controleren. Veel mensen zetten het op reserve. Als het op de reservelijst voor een heleboel van de klassen, die je iets vertelt. Als docenten zijn het controleren van het veel en studenten zijn het niet, dat zegt me iets. Vice versa, dat ook vertelt u iets. Dus het zou echt interessant te zijn zet dat informatie die er zijn en laat mensen gebruiken het om hen te helpen vinden werkt binnen het bibliotheeksysteem. De keerzijde hiervan is er zijn een aantal ernstige privacy zorgen omdat een van de basisprincipes van de bibliotheek is dat we niet van plan om te vertellen mensen wat andere mensen aan het lezen bent. En zelfs als je dit zegt boek werd vier keer uitgecheckt in een bepaalde maand, dat kan worden gebruikt om terug te koppelen aan een bepaalde persoon door de-anonimiseren gegevens en uit te vinden wie uitgecheckt. Dus de manier waarop we kunnen avoid-- De manier waarop we kunnen proberen te halen sommige signaal van alle informatie zonder inbreuk te maken persoonlijke levenssfeer ieders is in wezen we kijken naar 10 jaar van datagebruik, - Dus het is over een lange tijdsperiode. --en zeggen, OK, laten we eens kijken hoe vele malen dit werk werd gebruikt, en door die over deze periode van de tijd, en dan in principe terug te geven een aantal, dat noemen we een stapel score, die in feite vertegenwoordigt hoeveel het is al gebruikt. En dat number-- Een heleboel verschillende berekeningen ga in dat nummer. --maar het is een zeer ruwe metric die u een idee van hoe de gemeenschap kan dat werk waarderen. En dus een ander soort zelfs meer uitgewerkt applicatie dat gebruik maakt dit is iets genaamd Stacklife, dat is eigenlijk beschikbaar via de belangrijkste Harvard Bibliotheek portal. Dus ga je naar library.harvard.edu. Je zult een aantal verschillende zien zoekmethoden de bibliotheek. En een van hen wordt genoemd Stacklife. En dit is een applicatie die doorzoekt de inhoud van de bibliotheek, maar is volledig gebouwd bovenop deze API. Dus er is geen speciale spullen er achter de schermen. Er is geen toegang tot gegevens die u niet hebt. Het is met behulp van de API's om u te voorzien met een compleet andere browsen ervaring. Dus als ik zoek naar Alice in Wonderland in dit geval, Ik krijg een resultaat dat lijkt op dit, dat is vrij much-- Het is zeer vergelijkbaar met een andere zoekopdracht je zou kunnen doen, behalve in dit geval we de rangschikking van de items door stackscore, die u geeft een idee van hoe populair deze items waren binnen de gemeenschap. En zo duidelijk, Alice in Wonderland door Walt Disney is zeer populair. Maar je kunt ook de top vier hier zijn degenen die je misschien niet actually-- Dingen die in hoge mate worden gebruikt, maar je mag niet onmiddellijk verbinden met Alice in Wonderland. Dus onze oude vriend The Geannoteerde Alice is hier. Dus ik kan een kijkje nemen op het. En nu wat ik zoek in feite een ingesteld van-- Ik kan Geannoteerde hebben Alice hier. Ik heb informatie over. En ik heb ook een stackscore van, in dit geval, 26. En dit zegt me soort van ruwweg hoe we dit stackscore, zoals wie uitgecheckt, zoals hoe vele malen werd uitgecheckt, zoals faculteit of undergrads, hoe veel exemplaren van de bibliotheek, en zo verder en zo voort. En je kunt ook, interessant genoeg hier, browse door de stapels virtueel. Zodat de gegevens hier, dit toont u sorteren van een virtuele representatie van wat de plank macht uitzien als je te nemen alle bedrijven van de bibliotheek en zet ze samen één oneindige plank. En het leuke is dat we can-- Allereerst, de metadata over deze boeken vaak vertelt u wanneer het werd gepubliceerd. Het vertelt je hoeveel pagina's het heeft. Het zou u vertellen de afmetingen. Zodat u kunt zien dat is hier terug te vinden in termen van de omvang van de boeken. En dan kunnen we gebruik maken van de stapelen score te markeren de boeken die hogere stapel scores hebben. Dus als het donkerder, betekent dat, Vermoedelijk wordt vaker gebruikt. Dus in dit geval, ik ben gaan om te raden dat deze is de versie van Alice in Wonderland die zeer vaak gebruikte en geopend, de bibliotheek heeft de meeste exemplaren van. Dus als u op zoek bent voor Alice in Wonderland, dit is misschien een goede plek om te beginnen. En dan hier kunt u ook een koppeling uit naar, zeg, Amazon om het boek te kopen, en zo verder en zo voort. Het punt hier, nogmaals, is niet zozeer dat deze is de beste manier om de bibliotheek te bladeren of het juiste gereedschap voor elke gelegenheid. Maar het is een andere manier van doen. En door de gegevens verkrijgbaar via een API, die is gemaakt van zeer eenvoudige bouwstenen, waarmee u de inhoud doorzoeken, kun je iets op te bouwen als dit, dat kan zijn buitengewoon waardevol voor sommige mensen. Dus dat is een soort van, zoveel als ik wil om echt te zeggen over wat de API is en wat het bloot, er is een hele heleboel dingen achter de schermen, die Ik ga gewoon aan te raken op het kort gewoon omdat het soort komt op deze vanuit een andere hoek termen van hoe werkt zoiets als dit krijgen op zijn plaats te zetten? Dus een API is een standaard interface naar alle van deze inhoud. Maar om het daar, het krijgen eerste wat we moesten doen werd samen te trekken informatie van boeken en beelden en het vinden van hulpmiddelen, de collectie document uit verschillende Harvard systemen. Aleph, VIA, en OASIS zijn de namen van de systemen. En ze wezen gaan in een pijpleiding, een verwerking pijplijn. Dus in de eerste plaats, krijgen we export bestanden van al deze systemen. We splitsen in afzonderlijke artikelen. Dus we hebben een bestand, dat is een gigabyte, die een miljoen records in het. Dus we splitsen in afzonderlijke artikelen. Dan, voor elk item, zetten we het in MODS, omdat sommige van deze zijn native MODS, sommige van hen zijn niet. Dus krijgen we ze allemaal in hetzelfde formaat. Dan zijn er verschillende verrijking stappen, waarbij we meer informatie toevoegen aan de gegevens dan is in de bibliotheek. Dus we moeten eerst toevoegen, van alle wij hebben wat bibliotheken vasthouden. We gaan door een stap van berekenen van de stackscore. We gaan door een andere stap van toevoegen van meer metadata in termen van wat collecties mensen zou hebben toegevoegd dit-- Mensen zijn het creëren van verzamelingen van artikelen. Wat collecties behoort het tot? Hoe hebben de mensen getagd deze inhoud in het verleden? Dan filteren je uit, en je beperken de administratie, omdat, zoals ik al zei, er is een aantal records dat, als gevolg van auteursrechtelijke redenen, kunnen we niet geven. En ze vervolgens te laden we in iets riep SOLR, die geen verkeerde spelling, maar is de naam van een stuk software dat doet zoeken indexeren, hetgeen rijdt al het zoeken achter de API. En dan is het beschikbaar voor wordt de API, en mensen kunnen het gebruiken. Dus dit is als een vrij eenvoudig proces. Eén van de interessante dingen over het is dat we te maken hebben met 13 miljoen platen en we gaan te maken te hebben of meer. En we willen kunnen verwerken deze in een relatief snelle manier. Het duurt een lange tijd om verwerken 13 miljoen platen. Dus hoe deze pijpleiding is set-up is dat je can-- Ik denk dat het voordeel van de pijpleiding, het probleem is dat we probeer te lossen, is dat alle transformaties, alle deze stappen in deze pijplijn te scheiden zijn. Er is geen afhankelijkheid. Als je het verwerken een record van een boek, er is geen afhankelijkheid in dat tussen een ander boek. Dus wat we kunnen doen is in principe, bij elke stap in de pijplijn, we zetten het in een wachtrij in de cloud. Ik was toevallig op Amazon Web Services. Dus er is een lijst van, zeggen, 10.000 items die moeten genormaliseerd worden en geconverteerd naar MODS formaat. En we draaien als veel servers als we willen, misschien 10 servers. En elk van deze servers alleen zit daar, kijkt in die wachtrij, ziet dat er een die moet worden verwerkt, trekt het uit de wachtrij, verwerkt deze en stokken het op de volgende rij. En dus wat dat ons in staat stelt te doen is toe te passen, in wezen, zoveel hardware als we dit willen probleem voor een zeer korte periode zo snel als de gegevens verwerken mogelijk, dat is iets dat alleen, nu in de wereld van cloud computing kunnen we bepaling servers wezen ogenblikkelijk, dat nuttig. Dus we hoeven niet een hebben gigantische server zitten rond de hele tijd om de verwerking te doen dat zou kunnen maar een keer per week gebeuren. Dus dat is meestal het. Er is documentatie beschikbaar voor de Bibliotheek Cloud Item API op deze URL, die zal zijn later beschikbaar. En ga dan een kijkje nemen op om te zien of er iets is, u ideeën. Ermee spelen. Gek rond. En hopelijk u kunt komen omhoog met iets groots. Dankjewel.