JEFFREY LICHT: Hej där. Jag är Jeffrey Licht. Och jag är här för att prata med dig om det Harvard Library och bygga morgondagens biblioteks idag, antar jag. Så bakgrunden här, planen för den här sessionen är i huvudsak att det finns en massa bibliografiska tillgängligt i Harvard biblioteken. Och det finns en möjlighet, genom några av verktygen och ett projekt som är under utveckling, att få tillgång till den information och ta den till platser som den Harvard Library inte gör just nu, gör nya saker med det, experiment och leka med den. Så inkörsport till detta är ett API kallas Harvard Library Cloud, vilket är en öppen metadata server, som jag kommer att prata om nu. Så Bakgrunden är att det finns en massa saker i Harvard-biblioteket. Vi har över 13 miljoner bibliografiska register, miljontals bilder, och tusentals sökhjälpmedel, vilket är i huvudsak dokument som beskriver samlingar, säger vad är i dem, lådor av papper och så vidare som representerar över en miljon enskilda dokument. Och det finns också en hel del information som biblioteket har om hur innehållet används att kunde vara av intresse för människor som kanske vill arbeta med den. 

Så all information biblioteket har metadata. Så metadata är data om data. Så när vi talar om den information som är tillgängliga genom biblioteket moln som är tillgängliga, det är inte nödvändigtvis de faktiska handlingar själva, inte nödvändigtvis den fullständiga texten i böcker eller de fullständiga bilder, även om det faktiskt kan vara fallet. Men det är verkligen information om data. 

Så du kan tänka katalogisering information anropsnummer, ämnen, hur många kopior av Boken finns, vad är de upplagor, vilka är de format, författarna, och så vidare. Så det finns en hel del information om informationen i den samling som, i sig, är typ av inneboende nytta. Och även om du är gör fördjupad forskning, du uppenbarligen vill komma till själva nöja sig och titta på data, metadata är användbar när det gäller både analysera corpus som helhet, gillar vad saker är i samlingen. Hur förhåller de sig? Det hjälper dig verkligen att hitta andra saker, som egentligen är det huvudsakliga syftet med den. Poängen med metadata och katalogen är att hjälpa dig att hitta alla den information som är tillgängliga inom samlingarna. 

Så detta är ett exempel på metadata för en bok i Harvard Library. Så det är där. Och du kan se att det är faktiskt måttligt komplicerad. Och en del av värdet av metadata inom Harvard Library systemet är att det har varit sorts av byggts upp av catalogers och monteras av personer som ansöker en hel del kompetens och skicklighet och tänkte att det över tid, som har mycket av värde. 

Så om du tar en titt på denna post för Den kommenterade Alice, kan du ta reda på du har fått titeln, som skrev det, författare och alla de olika ämnena vilka människor har katalogis den in. Och ni ser finns det också, i Förutom en hel del bra information Här finns det en del dubbelarbete. Det finns en hel del komplexitet som är reflekteras genom metadata att du har. 

Så en titel denna bok är Alice i Underlandet. Så detta är en kommenterad version av den boken. Men det är också kallas den kommenterade Alice, Alice i Underlandet eftersom det är något som Martin Gardner skrev och kommenterad boken. Och det finns en hel del bra information om logiska pussel och saker inom Alice att du förmodligen inte visste om. Så du bör gå läsa den. 

Men du kan se att det finns en massa detaljer här, inklusive identifierare, när det skapades, var den kom ifrån, i termer av Harvard systemet, och så vidare. Så detta är ett urval av vilken typ av metadata som du kan se en bok i Harvard Library samlingen. 

Detta är något helt annat. Så det finns ett system som kallas VIA Harvard, som i princip är katalogisering bilder och konstföremål och visuella saker hela Harvard, och lägga till några metadata till dem, klassificera dem, och, i vissa fall, vilket ger små miniatyrbilder att du kan ta en titta på om du så önskar. 

Så detta är ett exempel på den metadata som du har till en platta från, förmodligen, Alice i Underlandet. Och du kan se att det finns färre metadata här. Det är bara en annan typ av objekt. Och så det finns mindre information. 

Du har oftast det faktum att ett samtal nummer, i huvudsak som skapade den, - 

Vi vet inte när den skapades. 

--and en titel. 

Ett annat exempel. Detta är ett konstaterande stöd. Så det finns en samling av Lewis Carrolls papper vid Harvard. Så detta beskriver vad är i den samlingen. Så någon har gått igenom och tittade igenom alla lådor och katalogis det, med tanke på vissa bakgrund, skrivit en sammanfattning av vad som finns här. Och om du skulle titta vidare på detta, det här pågår för sidor och sidor och sidor, men kommer att berätta vilka bokstäver och vad datum från vilka lådor existerade i hela samlingen. Men detta är något att, om du är på Harvard, du kan gå och faktiskt fysiskt ser upp och, förmodligen, ta en titt på. 

Så detta är allt bra. Dessa metadata nyttjande. Det är i Harvard Library systemet. Det finns verktyg på nätet där du kan gå och ta en titt på det, och se det, och söka den. Och du kan skära den och tärningar det i massor av olika sätt. 

Men det är egentligen bara om du är en människa som sitter ner på din webbläsare eller något eller telefonen och navigera genom den. Det är inte riktigt finns i någon form av användbar mode för andra system eller andra datorer att använda, inte med system inom Harvard Library, men system i omvärlden, bara andra människor i allmänhet. Så frågan är, hur kan vi göra den tillgänglig för datorer så att vi kan göra mer intressant grejer med den än bara surfning det själva? 

Så varför skulle du vilja göra detta? Det finns många möjligheter. En är att du kan bygga en helt annorlunda sätt att surfa det innehåll som finns tillgängligt genom Harvard Bibliotek. Jag ska visa dig en senare kallad Stacklife, som har en helt annan ta på efter innehåll. 

Du kan bygga en rekommendation motor. Så Harvard Library är inte i verksamhet för att säga, gillar du den här boken. Gå sedan ta en titt på dessa 17 andra böcker som du kan vara intresserad av eller dessa 18 andra bilder. Men som säkert kunde vara ett värdefullt inslag. Och med tanke på metadata, kan det vara möjligt att sätta det tillsammans. Du kanske har olika behov i gäller att söka på innehåll, som kanske trots de verktyg som finns att biblioteket gör tillgängliga, kanske du vill att söka på ett annat sätt eller optimera för en viss användning fall vilket kanske är det mycket specialiserad. Kanske finns det bara ett fåtal människor i världen som vill söka innehållet på detta sätt, men det skulle vara bra om vi kunde låta dem göra det. Det finns en hel del analytics på bara hur människor använda innehållet som skulle vara riktigt intressant att veta om, ta reda på vilka böcker som används, vilka är inte, och så vidare. Och så finns det en hel del möjlighet att integrera med annan information det är där ute på webben. Så vi have-- 

Till exempel har NPR en bokrecension segment, där de intervjuar författare om böcker. Och så skulle det vara bra om du var söker upp en bok i Harvard Bibliotek, och du säger, OK, det finns varit en intervju med författaren. Låt oss gå ta en titt på det. Eller finns det en Wikipedia sida, som en auktoritativ, vetenskaplig referens om denna bok som du kanske vill ta en titt på. 

Det finns dessa typer av källor utspridda webben. Och föra dem samman skulle kunna vara en stor nytta till någon som tittar på den innehåll, letar efter något. Men det är inte heller den sånt du skulle vill att biblioteket ska vara ansvarig för att gå ner och jaga alla dessa olika källor och plugg dem tillsammans eftersom de är ständigt förändras. Och vad de tycker är viktigt maj inte vad du tycker är viktigt. 

Och ännu mer så, i princip finns det en massa saker som vi inte har tänkt på ännu. Så om vi kan öppna upp detta, mer människor förutom ett halvt dussin eller så, som tittar på detta på ett regelbundet kan tänka idéer och massera data, och göra vad de vill med den. 

Så vi vill göra det här data tillgängliga för världen. Tja, det finns ett par komplikationer. En är att denna metadata är i olika system. Det är i olika format. Så det finns en viss normalisering vilket måste ske, vilket normalisering är processen för föra saker från olika format och mappning av dessa till ett enda format så att fälten att matcha upp. 

Det finns vissa begränsningar om upphovsrätt. Märkligt nog katalogen posten om en bok är ansvarig för upphovsrätt. Så även om det är bara information från boken, det är upphovsrättsligt. Och beroende på vem som egentligen skapade att metadata, det kan finnas begränsningar för vem kan distribuera den, liknande att-- 

JAG VET INTE. Det kan eller inte kan vara liknande situationen för låttexter, till exempel. Så vi vet alla hur det panorerar ut. Så du behöver för att komma runt det problemet. 

Och sedan en annan bit är att det finns en hel del data. Så om jag är någon som vill arbeta med data eller har en cool idé, hantera 14 miljoner skivor på min laptop kan vara problematiskt och svårt att hantera. Så vi vill minska hindren för människor för att kunna arbeta med data. 

Så det förhållningssätt som förhoppningsvis adresser alla dessa farhågor är två delar. Man bygger en plattform som tar data från alla dessa olika källor och förvärrar det, normaliserar, berikar den och fabrikat den tillgänglig på en enda plats. Och det gör den tillgänglig via en offentlig API som folk kan ringa. 

Så ett API är ett program Programming Interface. Och det i princip hänför sig till en endpoint att ett system eller teknik kan ringa och få data tillbaka i ett strukturerat format på ett sätt att den kan användas. Så det är inte beroende på att gå till en webbplats och skrapa data från av den, till exempel. 

Så detta är hemsidan för biblioteket Cloud Post API, som i huvudsak sin version två. Så det är den andra iteration av försöker göra alla dessa data tillgängliga för världen. Så det är http://api.lib.harvard.edu/v2/items. Och bara för att bryta ner det lite, vad detta betyder är att detta är version två av API. Det finns en version ett, vilket Jag tänker inte prata om. Men det finns en version ett. 

Och om du ringer det här API, du får objekt. Och en del av idén om en API är ett API är ett kontrakt. Det är något som är inte kommer att förändras. Så till exempel, - 

Och anledningen är att om jag bygga någon form av system som kommer att använda ett bibliotek moln API att visa böcker eller hjälpa människor att hitta information på unika sätt, vad vi inte vill ska hända är för oss att gå ändra hur att API fungerar, och plötsligt allt bryter på slutanvändarsidan. Så en del av om du gör API tillgängliga för världen, är det god praxis att sätta en versionsnummer i det så att folk vet vilken version de har att göra med. 

Så om vi beslutar vi hitta ett bättre sätt att göra denna information tillgänglig, vi kanske ändra det till kallar den versionen tre. Så alla som fortfarande använder version två, kommer det fortfarande att fungera. Men version tre skulle har alla nya saker. 

Så detta är ett API, men detta verkligen ser ut som en webbadress. Och så vad det här är en exempel på är vad som är kallas en vila API, som är tillgänglig över bara en vanlig webb-anslutning. Och du kan faktiskt gå till den i webbläsaren. 

Så här har jag precis öppnat upp Firefox och gått till api.lib.harvard.edu/v2/items. Och så vad jag får här är i grund och botten på den första sidan av resultat från hela uppsättning objekt som vi har fått. Och det är här i XML-format. Och det har också varit prettified av Firefox. Det behöver faktiskt inte ha alla dessa lite expanderande och upphandlande doohickeys här. Detta är en slags trevligare versionen sätt att se på det. 

Men vad detta säger oss är Jag har begärt alla objekt. Så det finns 13289475 objekt. Och jag tittar på den första 10, med början i position noll eftersom i datavetenskap Vi börjar alltid på noll. Och vad jag har här, om jag bara kollapsa detta, ser du jag har 10 objekt. 

Och om jag tar en titt på ett objekt, jag kan ser att jag har fått information om det. Och detta är i vad som kallas MODS formuläret. Och så ska jag byta tillbaka hit för ett ögonblick. OK. 

Så låt oss söka efter något i specifikt eftersom det första objektet som råkar komma upp när du ser genom hela samlingen är, per definition, slumpmässig. Så låt oss titta efter några munkar. Oh. 

OK. So munkar. Så fann vi att det finns 80 poster i samlingen som referens munkar. Vi tittar på den första 10 av dem. Nu kan du se här det sätt som Jag sa jag letar efter munkar, Jag har precis lagt något att frågesträngen av URL. Så q lika munkar, vilket du kan se lite lättare här. 

Och detta innebär i grunden finns det en spec för API, vilket definierar vad alla dessa parametrar betyder. Och det innebär att vi kommer att Sök allt för munkar. 

Så det första objektet här har vi Du kan se titeln är Donuts, och det finns en undertext som kallas en American Passion, vilket är, antar jag, lämpligt. Det finns en hel del different-- När du kommer till den punkt av att få uppgifter, det finns en massa olika format som du kan få det till. Och det finns olika styrkor och svagheter för dem alla. Så här kan du se Här är denna form mycket rik. Och det är standardiserade. 

Så det finns en viss titel fält, en undertext fält. Det finns en alternativ titel, An American Passion. Det är namnet förknippas med det. Typ av resursen är text. Det finns en hel del information Här i detta format. 

Men det finns ett gäng av olika format. Så vad vi var bara tittar på är ett format kallade MODS, vilket står för Metadata Object Beskrivning Service, potentiellt. Jag är faktiskt inte riktigt säker om S. Men det är en ganska komplex format. Det är standardformatet. 

Men det är det som håller rikedomen i alla uppgifter att biblioteket har därför det är mycket nära vad biblioteket använder internt. Det är en standard som är används över hela landet, över hela världen i akademiska bibliotek. Och det är mycket kompatibla. Så om du har ett dokument som är i MODS-format, du kan ge det till någon annan vars system förstår MODS, och de kan importera den. Så det är en standard. Det är mycket väl definierade, mycket specifika. Och det är det som gör det driftskompatibla för om någon säger, detta är den alternativa titeln på en rekord, alla vet vad det betyder. På baksidan, det är mycket komplicerat. 

Så om du tar en titt vid denna post här, Om jag bara vill få titeln på detta dokument, i denna bok, vilket troligen Donuts, En amerikansk Passion, pars ut är lite inblandade. Medan det finns en annan format som kallas Dublin Core, vilket är en mycket, mycket enklare format. 

Och så du ser här, det finns ingen titel, undertitel, suppleant titel. Det finns bara titeln, Munkar, An American Passion, och en annan titel, amerikansk Passion. Så när du tittar på vilken form du vill få data ur, mycket beror på hur du kommer att använda den. Använder du för interoperabilitet eller vill du vill ha något enkelt att kan vara lättare att jobba med? 

På baksidan, en hel del av detaljer blir sorts kortas ned. Du kan förlora nyanserna i vad ett visst fält medel Om du arbetar med Dublin Core, som du inte skulle få med MODS. Så de är två av de format du kan få ut av API. Och i grunden håller vi det bakom kulisserna i MODS. Men vi kan ge dig den i MODS och Dublin Core och allt annat också. Den andra beräkningen när du letar i data är att du kan få det som antingen JSON, vilket står för JavaScript Object Notation, eller XML, vilket står för Extensible Markup Language. Och dessa datarepresentationer både har exakt samma data, exakt samma områden. Men de är bara syntaktiskt annorlunda. 

Så detta är en-- Nåväl, låt oss bara byta. Så detta är vår fråga för munkar i XML-format. Om jag byter just detta att vara JSON, Jag kan se det ser annorlunda ut. Så nu är samma innehåll, men en annan struktur. Det finns färre vinkelfästen. Det finns mindre utförlig. 

Och det här är ett format som, om du arbetar i webbmiljön, du är mest sannolikt att gå att vilja använda eftersom en av de trevliga saker om JSON är det är kompatibelt med JavaScript. Så om jag skriver web app, kan jag dra i JSON och bara arbeta med det direkt. Medan med XML, det är en lite mer komplicerat. Så återigen, dessa är båda användbara. De är bara olika användningsfall där folk kanske vill använda dem. OK. Så tillbaka till API. Så vi kan söka for-- 

Jag ger ett exempel på söka efter munkar. Vi kan även söka bara i en särskilt område inom här. Så istället för att söka hela skivan, Jag kan bara söka titelfältet. Och så nu finns det 25 saker som har munkar i titeln, varav handlar om att återupprätta våtmarker i förvaltningen av hålet i doughnut programmet, vilket förmodligen inte nödvändigtvis vad vi söker för när vi söker efter munkar. 

Du kan också, när du är behandlar en API-- 

Del av att ha ett API ger människor tillgång till stora datamängder. Och det finns ett par olika verktyg som du kan använda för att göra det. En är, mycket enkelt, du kan bläddra igenom uppgifterna. Så precis som om du gör en förfrågan via ett webbgränssnitt, Du kan titta på sidan ett, sidan två, sidan tre. Du kan göra samma sak sak via API. Du behöver bara vara explicit i hur du gör det. 

Så till exempel om jag söker vid min första fråga här, där jag gör en sökning på saker med munkar i titeln, kan jag säga, och gränsen är lika 20, vilket innebär ge mig de första 20 poster, inte den första 10, vilket är standard, eftersom jag vill titta på 20 åt gången. Eller jag kan säga, ställa in börja lika med 20 och begränsa motsvarar 20, vilket kommer att ge mig spelar 21 till 40. 

Så jag antar att saken att ta bort här är att vi med hjälp av frågesträngarna att ställa in parametrar på frågan. Och det kan du kontroll vad du får tillbaka. 

Ett annat verktyg som du kan använda, - 

Och det här är verkligen användbart i gäller att utforska data. 

--is något som kallas faceting. Så termen fasettering är inte nödvändigtvis vanligt. Men du har alla sett det förut. Om du tar en titt på Amazon, till exempel, och du gör en sökning efter munkar i böckerna, Här har de fått en rad böcker, och de är grupperade efter kategori, och du får de olika kategorierna, och hur många böcker i varje kategori dyker upp. 

Så detta är i grunden en fasett. Du tar alla sina böcker, de 1.800 böcker som matchar munkar på Amazon. 12 av dem är i frukostkategori. 21 i bakverk och bakning, och så vidare och så vidare. 

Så det här är verkligen en användbar verktyg för att utforska innehållet inom biblioteket samt eftersom när du tittar på en fasett, det ger dig en uppfattning om vilka ämnen existerar, liksom vilka typer av motiv är mest populära inom din fråga set. Och det hjälper dig att köra iväg och utforska. Så vi kan göra samma sak. 

Om vi ​​vill använda API och titta på fasetter, vi lägga till ytterligare parameter till vår vän frågesträngen. Så fasetter motsvarar en kommaseparerad Listan över vad vi vill Facet på. Så en av de aspekter kan vara föremål. En annan kan vara språket. Och så om vi kör den frågan, vi get-- Det ser ganska mycket samma här. Men vi har lagt till slutet av listan en uppsättning fasetter. Så vi har en fasett kallas ämne. Så detta säger oss att om jag ser på mina 80 resultat från donut frågan, 13 av dem har utsätta USA. Tre har ämnes munkar. Tre har ämnet av våtmark restaurering, vilket kan vara vår hål i munk. Två av dem, Simpsons, och så vidare och så vidare. 

Så detta kan vara användbart om du vill begränsa sökningen. Det kan hjälpa dig att göra det. Speciellt om du har mer än, säg, 80 resultat. 

Likaså vi frågade också för fasetter på språket. Så om vi tittar på våra resultat, ser vi 76 av dem är på engelska, fyra på franska, två i spanska, två, jag tror det är odefinierat eller okända, holländska och latin. Så jag tror det latinska munk resultat, återigen, har ingenting att göra med bakade varor. Men där du går. 

Så detta är typ av visa dig hur du kan dra innehållet tillbaka från API bara genom webbläsare, vilket är bra. Men det är inte riktigt vad du skulle normalt använder i API för det. Så ett exempel på hur man kunde faktiskt göra detta är har jag skrivit ett super litet program, som, återigen, gör min donut ökning och väljer ett par fält och visar dem i en tabell. Så detta är väldigt mycket Samma innehåll som vi bara såg med några fält dras ut. Så listan över titlar, de placering av vad boken handlar om, språket, och så vidare och så vidare. 

Så hur det faktiskt hände, eftersom Jag antar att vi måste titta på lite kod, är-- 

Vad vi har här är en enkel HTML sida, som visar texten, Välkommen till biblioteket moln och visar sedan en tabell över resultaten. Och det finns uppenbarligen inga resultat i bordet när sidan blir laddad. Men vad vi gör är först och främst, vi fyller ett bibliotek som heter jQuery, vilket egentligen en JavaScript-bibliotek, vilket gör det mycket lätt att manipulera JavaScript native, HTML och skapa webbsidor, klientsidan logik och webbsidor. 

Så vad vi har här är jQuery har en metod som kallas Get, som i huvudsak kommer att gå till en URL, vilken, i det här fallet, är detta familjära ser webbadress. Och får då innehållet från som URL och sedan köra en funktion på den. Så vi sa gå till api.lib.harvard / edu. Sök efter munkar. Ge oss 20 poster. Och sedan köra den här funktionen, vilket Jag har valt, att föra den informationen. Och data är JSON som fick tillbaka från API. 

Och sedan är vi säger inom denna uppgifter finns det ett fält som heter objekt. Och om jag gå ta en titt tillbaka på en av dessa resultat som finns här, det finns något called-- 

Tja, det kallas objekt. Så det kan vara så. Och vad den gör är det går igenom varje objekt och uppmanar sedan en annan funktion för varje objekt. Och det fungerar i grunden tar värdet av objektet, vilket är huvudsak den enskilda posten och tillåter oss att dra ut titeln, täckning och språket. 

Så vi kallar en funktion på varje objekt som vi kommit tillbaka från API. Och om du bara ta en titt på denna pjäs här, vad vi gör är vi skapar en sträng, som i huvudsak är en del HTML-kod runt ett bord, med value.title, vilket är titeln på objekt, value.coverage, vilket är täckningen, - 

Och vi gör en kontroll här för att se vem som är odefinierad och gömma den om det står odefinierad, eftersom vi inte är riktigt intresserad i det. 

--and sedan språket. Och sedan vad vi är gör är att lägga till att till bordet som är identifierats av den här strängen här. Och hur jQuery fungerar är vad detta säger är leta efter tabellen med idén resultat och lägga till denna text till den. Och det här är bordet med idén resultat. Så vad du hamnar med är denna sida här. Och för att visa source-- Tja, är källan faktiskt inte uppdateras när det hände. Så du kan se den faktiska Resultaten i tabellen här men. 

Så det är bara ett enkelt exempel på gör en mycket grundläggande fråga mot API och visning av information i vissa andra bilda, och inte gör något alltför fint. Nu, är som ett annat exempel skriven av David Weinberger ansökan som en demo av detta, vilket väsentligen visar hur du kan mosa upp resultaten du är komma från biblioteket molnet API med, säger, Google Books. 

Och det tänkande här är att jag kan köra en fråga mot Google Books, få en fritextsökning, få några resultat tillbaka, ta reda på vilka av dessa objekt faktiskt existerar i Hollis, bibliotekssystemet, och sedan ge mig länkar tillbaka till dessa poster. Så om jag söker efter, var det en mörk och stormig natt, jag få tillbaka ett gäng resultat från Google, och sedan ett resultat vilket är en rynka i Tid. Och dessa är länkar till böcker som finns inom Harvard bibliotekssystem. 

Så jag antar att poängen här är inte så mycket att det kanske eller kanske inte vara det sätt som du vill att söka i biblioteket, men det är en helt annan sätt som inte var tillgängliga för dig innan, som om du hade inget sätt att göra fulltext söker på böcker att även var en del av den Harvard bibliotekssystem. Så nu är detta ett sätt att du kan göra det. Och du kan visa dem i det format du vill. Så poängen här är, i princip, vi öppnar upp nya vägar för människor att arbeta med data. 

En annan bit av biblioteks molnet är att det hjälper avslöja några av dataanvändning att biblioteket har. Så om du går till biblioteket, och du letar efter böcker, Du behöver inte nödvändigtvis faktiskt har en idé om, för alla poster i en visst ämne, vad är människor i gemenskap, oavsett om det är definierad som Harvard eller land eller din klass, vad har de hittat mest användbara? Och biblioteket faktiskt har en massor av information om vad är mest användbar för om en hel del människor bläddrar i en bok, som berättar något. Det måste ha varit någon anledning de vill kolla upp det. Många satte den på reserven. 

Om det är på reservlistan för mycket klasser, berättar att något. Om lärarna kontrollerar det mycket och studenter är inte, som säger mig något. Vice versa, som också berättar något. Så det skulle vara riktigt intressant att sätta den information där ute och låt människor använder den för att hjälpa dem att hitta arbetar inom bibliotekssystemet. Baksidan av detta är det finns några allvarliga sekretess oro eftersom en av de grundsatserna i biblioteket är att vi inte kommer att berätta folk vad andra människor läser. Och även om du säger detta Boken checkat ut fyra gånger i en viss månad, som skulle kunna användas att länka tillbaka till en viss personen genom de-anonyma uppgifter och ta reda på vem checkade ut. Så det sätt som vi kan avoid-- Det sätt som vi kan försöka utvinna vissa signal från all den information utan att göra intrång någons integritetsfrågor är i huvudsak vi tittar på 10 år av användningsdata, - 

Så det är under en lång tidsperiod. 

--and säga, OK, låt oss se hur många gånger detta arbete användes, och av vem under denna period tid, och sedan i princip ge tillbaka ett antal, som vi kallar en stapel poäng, som i princip representerar hur mycket det har använts. Och det number-- En mängd olika beräkningar gå in i det numret. --but det är en mycket grov mått som ger dig en uppfattning om hur gemenskap kan värdera det arbetet. 

Och så en annan sorts ens mer konkretiseras ansökan som drar nytta av detta är något kallas Stacklife, som egentligen tillgängliga genom huvud Harvard Bibliotek portal. Så du går till library.harvard.edu. Du kommer att se ett antal olika sätt att söka i biblioteket. Och en av dem kallas Stacklife. 

Och detta är ett program som surfar på innehållet i biblioteket, men är helt byggd ovanpå dessa API: er. Så det finns ingen särskild grejer pågår bakom kulisserna. Det finns ingen tillgång till data som du inte har. Det använder API för att ge dig med en helt annan bläddring erfarenhet. 

Så om jag söker efter Alice i Underlandet i detta fall, Jag får ett resultat som ser ut som detta, vilket är ganska much-- 

Det är mycket lik någon annan sökning du kanske göra, utom i det här fallet vi ranking objekten genom stackscore, vilket ger dig en uppfattning om hur populära dessa objekt var i samhället. Och så klart, Alice i Underlandet av Walt Disney är mycket populära. Men du kan också se topp fyra Här är de du kanske inte actually-- 

Saker som är mycket används, men du kanske inte omedelbart ansluta med Alice i Underlandet. Så vår gamla kompis Annotated Alice är här. Så jag kan ta en titt på det. Och nu vad jag letar på är i grunden en inställd of-- Jag kan ha den kommenterade Alice här. Jag har information om det. Och jag har också en stackscore av, i detta fall, 26. Och detta säger mig typ av grovt hur vi kom till denna stackscore, som vem checkade ut, liksom hur många gånger var det checkat ut, som lärare eller undergrads, hur många exemplar biblioteket har, och så vidare och så vidare. 

Och du kan också, intressant nog Här, bläddra stackarna så gott. Så datan här, det här visar att du sorterar av en virtuell representation av vad hyllan kanske se ut om du skulle ta alla bibliotekets innehav och sätta ihop dem på en oändlig hyllan. Och det fina är att vi can-- 

Först av allt, den metadata om dessa böcker ofta talar om när den publicerades. Den talar om hur många sidor det har. Det kan berätta dimensioner. Så du kan se att reflekteras här i termer av storlek av böckerna. 

Och då kan vi använda stapla poäng för att markera de böcker som har högre stack poäng. Så om det är mörkare, betyder det att, förmodligen är det används oftare. Så i det här fallet, är jag kommer att gissa att detta är den version av Alice i Underlandet som mycket vanligt och de flesta nås, biblioteket har flest kopior av. Så om du letar efter för Alice i Underlandet, Detta kan vara ett bra ställe att börja. 

Och så här kan du också länka ut till, säger, Amazon för att köpa boken, och så vidare och så vidare. Poängen här, återigen, är inte så mycket att detta är det bästa sättet att surfa på biblioteket eller rätt verktyg för varje tillfälle. Men det är ett annat sätt att göra det. Och genom att göra uppgifter tillgängliga via ett API, som är tillverkad av mycket enkla byggstenar, vilket gör att du kan söka på innehåll, du kan bygga något såhär som kan vara utomordentligt värdefullt för vissa människor. 

Så det blir liksom så mycket som jag vill att säga egentligen om vad API är och vad den exponerar, det finns en hel massa saker bakom kulisserna, som Jag kommer bara att beröra kort bara för att det slags kommer vid detta från en helt annan vinkel i termer av hur fungerar ungefär så här få sätta på plats? 

Så ett API är en standard gränssnitt till allt detta innehåll. Men för att få det där, det första vi fick göra ades dra ihop informationen av böcker och bilder och sökhjälpmedel, insamling dokument från olika Harvard system. Aleph, VIA och OASIS är namnen på de systemen. Och de i huvudsak går in i en pipeline, en bearbetnings pipeline. 

Så först av allt, vi får export filer från alla dessa system. Vi delade upp dem i enskilda objekt. Så vi har en fil, vilket är en gigabyte, som har en miljon skivor i den. Så vi dela upp den i enskilda objekt. Då, för varje objekt, vi omvandla den i MODS, eftersom en del av dessa är native MODS, några av dem är inte. Så vi får dem alla att vara i samma format. Sedan finns det olika anrikningssteg, där Vi lägger till mer information till den registrerade än vad som var tillgängliga i biblioteket. Så vi behöver lägga, först av allt Vi har vad biblioteken hålla den. Vi går igenom ett steg med beräkning av stackscore. Vi går igenom ytterligare ett steg på lägga till fler metadata i termer av vad samlingar människor kanske har lagt this-- 

Människor skapar samlingar av föremål. Vilka samlingar tar det tillhör? Hur har folk taggade detta innehåll i det förflutna? Då är du filtrera bort, och du begränsa posterna eftersom, som jag nämnde, det finns vissa poster som, på grund av upphovsrättsliga skäl kan vi inte visa. Och sedan ladda vi dem in i något som kallas Solr, vilket inte är felstavat, men är namnet på en programvara som gör sökandet indexering, vilket driver alla sökandet bakom API. Och då blir det tillgängligt för API, och folk kan använda den. 

Så det här är som en ganska okomplicerad process. En av de intressanta saker om det är att vi har att göra med 13 miljoner skivor och vi kommer att ha att göra eller mer. Och vi vill kunna hantera dessa i en relativt snabb mode. Det tar lång tid att bearbeta 13 miljoner skivor. 

Så hur denna rörledning är ställa in är att du can-- Jag antar att fördelen med pipeline, problemet att vi är försöker lösa här, är att alla transformationer, alla dessa steg i denna pipeline är separerbara. Det finns ingen beroende. Om du bearbetar ett rekord av en bok, det finns ingen beroende att mellan en annan bok. 

Så vad vi kan göra är i grunden, vid varje steg på gång, vi sätta den i en kö i molnet. Jag råkade vara på Amazon Web Services. Så det finns en lista över, säga, 10000 objekt som måste vara normaliseras och konverteras till MODS-format. Och vi snurra upp så många servrar som vi vill, kanske 10 servrar. Och var och en av dessa servrar bara sitter där, tittar i den kön, ser att det finns en som behöver bearbetas, drar den bort kön, bearbetar den och pinnar den på nästa kö. 

Och så vad som gör att vi göra är tillämplig, i huvudsak, så mycket hårdvara som vi vill här problem för en mycket kort tidsperiod att så snabbt som bearbeta data möjligt, vilket är något som bara, nu i en värld av cloud computing Vi kan tillhandahållande servrar huvudsak momentant, är det användbart. Så vi behöver inte ha en jätte server sitter runt hela tiden att göra behandlingen det kan hända bara en gång i veckan. 

Så det är oftast det. Det finns dokumentation tillgänglig för biblioteks Cloud Post API vid denna URL, vilket kommer att finnas tillgänglig senare. Och gå ta en titt på den för att se om det finns något, du har några idéer. Spela med det. Lura runt. Och förhoppningsvis kan du komma upp med något stort. Tack.