JEFFREY LICHT: Hei der. Jeg er Jeffrey Licht. Og jeg er her for Ã¥ snakke med deg om Harvard Library og bygge morgendagens bibliotek i dag, tror jeg. SÃ¥ bakgrunnen her, banen for denne Ã¸kten er i det vesentlige at det er mye av bibliografisk data tilgjengelig i Harvard bibliotekene. Og det er en mulighet, gjennom noen av verktÃ¸yene og et prosjekt som er under utvikling, for Ã¥ fÃ¥ tilgang til informasjonen og ta det med til steder som det Harvard Library er ikke Ã¥ gjÃ¸re akkurat nÃ¥, gjÃ¸re nye ting med det, eksperiment og leke seg med det. SÃ¥ poenget inntreden i dette er en API kalt Harvard Library Cloud, som er en Ã¥pen metadata-server, som jeg vil snakke om nÃ¥. Slik at bakgrunnen er at det er en masse ting i Harvard biblioteket. Vi har over 13 millioner bibliografisk poster, millioner av bilder, og tusenvis av Ã¥ finne hjelpemidler som er i hovedsak dokumenter som beskriver samlinger, si hva er i dem, esker med papirer og sÃ¥ videre som representerer over en million enkeltdokumenter. Og det er ogsÃ¥ en rekke informasjon som biblioteket har om hvordan innholdet blir brukt som kan vÃ¦re av interesse for folk som kanskje har lyst til Ã¥ jobbe med det. 

SÃ¥ all informasjon Biblioteket har metadata. SÃ¥ metadata er data om data. SÃ¥ nÃ¥r vi snakker om den informasjonen som er tilgjengelig gjennom biblioteket sky som er tilgjengelig, det er ikke nÃ¸dvendigvis selve dokumentene seg selv, ikke nÃ¸dvendigvis den fulle tekst av bÃ¸ker eller hele bilder, men som faktisk kan vÃ¦re tilfelle. Men det er egentlig informasjon om dataene. 

SÃ¥ du kan tenke pÃ¥ katalogisering informasjon, telefonnumre, fag, hvor mange kopier av bok det er, hva er de utgavene, hva er det formater, forfatterne, og sÃ¥ videre. SÃ¥ det er mye informasjon om informasjonen i samlingen som, i seg selv, er slags iboende nyttig. Og selv om du er gjÃ¸re grundige undersÃ¸kelser, du Ã¥penbart Ã¸nsker Ã¥ komme til den faktiske innhold i seg selv og se pÃ¥ dataene, metadataene er nyttig nÃ¥r det gjelder bÃ¥de analysere corpus som en helhet, som hva ting er i samlingen. Hvordan forholder de? Det hjelper du virkelig finne andre ting, som er egentlig det viktigste formÃ¥let med det. Poenget med metadata og katalog er Ã¥ hjelpe deg Ã¥ finne alle den informasjonen som er tilgjengelig innen samlingene. 

SÃ¥ dette er et eksempel pÃ¥ metadata for en bok i Harvard Library. SÃ¥ det er der. Og du kan se det er faktisk moderat kompleks. Og en del av verdien av metadata innenfor Harvard Library system er at det har vÃ¦rt sort av bygget opp av catalogers og settes sammen av personer som sÃ¸ker mye kompetanse og ferdighet og tenkte Ã¥ det over tid, som har mye av verdi. 

SÃ¥ hvis du tar en titt pÃ¥ denne posten for The Annotated Alice, kan du finne ut du har fÃ¥tt tittelen, som skrev den, forfatter, og alle de forskjellige fagene som folk har katalogisert den inn. Og du kan se det er ogsÃ¥, i tillegg til mye god informasjon her er det noen duplisering. Det er mye av kompleksiteten som er reflekteres gjennom metadata som du har. 

SÃ¥ man tittelen pÃ¥ denne boken er Alice i Eventyrland. SÃ¥ dette er en annotert versjon av den boken. Men det er ogsÃ¥ kalt The Annotated Alice, Alice i Eventyr in Wonderland fordi det er noe som Martin Gardner skrev og kommentert boken. Og det er mye god informasjon om logiske oppgaver og ting innenfor Alice at du sannsynligvis ikke visste om. SÃ¥ du bÃ¸r gÃ¥ lese det. 

Men du kan se det er en masse detaljer her, inkludert identifikatorer, nÃ¥r det ble opprettet, hvor det kom fra, i form av Harvard systemet, og sÃ¥ videre. SÃ¥ dette er et eksempel pÃ¥ typen av metadata som du kan se etter en bok i Harvard Bibliotekets samling. 

Dette er noe helt annet. SÃ¥ det er et system som heter VIA Harvard, som i utgangspunktet katalogiserer bilder og kunstgjenstander og visuelle ting hele Harvard, og legge noen metadata til dem, klassifisere dem, og, i noen tilfeller, Ã¥ gi smÃ¥ miniatyrbilder at du kan ta en se pÃ¥ hvis du Ã¸nsker det. 

Slik at dette er et eksempel pÃ¥ den metadata som du har for en plate fra, formodentlig, Alice in Wonderland. Og du kan se det er mindre metadata her. Det er bare en annen type objekt. Og sÃ¥ det er mindre informasjon. 

Du har stort sett det faktum at en samtale nummer, i hovedsak som skapte den, - 

Vi vet ikke nÃ¥r det ble opprettet. 

--og en tittel. 

Et annet eksempel. Dette er en oppdagelse hjelpemiddel. SÃ¥ det er en samling av Lewis Carroll papirer ved Harvard. SÃ¥ dette beskriver hva er i denne samling. SÃ¥ noen har gÃ¥tt gjennom og kikket gjennom alle boksene og katalogisert det, gitt noen bakgrunn, skrevet en oppsummering av hva som er her. Og hvis du skulle se videre pÃ¥ dette, dette gÃ¥r for sider og sider og sider, men vil fortelle deg hva bokstaver og hva datoer fra hvilke bokser eksistert hele samlingen. Men dette er noe at hvis du er pÃ¥ Harvard, du kan gÃ¥ og faktisk fysisk se opp og, formodentlig, ta en titt pÃ¥. 

SÃ¥ dette er alt flott. Dette metadata utnytt. Det stÃ¥r i Harvard Library system. Det finnes verktÃ¸y pÃ¥ nettet hvor du kan gÃ¥ og ta en titt pÃ¥ det, og se det, og sÃ¸ke i den. Og du kan skjÃ¦re den og terninger det i mange forskjellige mÃ¥ter. 

Men det er egentlig bare tilgjengelig hvis du er et menneske sitte ned pÃ¥ din nettleser eller noe eller telefonen og navigerer gjennom det. Det er egentlig ikke tilgjengelig i noen form for bruk mote for andre systemer eller andre datamaskiner til Ã¥ bruke, ikke med systemer innen Harvard Library, men systemer i verden utenfor, bare andre mennesker generelt. SÃ¥ spÃ¸rsmÃ¥let er, hvordan kan vi gjÃ¸re det tilgjengelig for datamaskiner slik at vi kan gjÃ¸re mer interessant ting med det enn bare surfing det selv? 

SÃ¥ hvorfor skulle du Ã¸nske Ã¥ gjÃ¸re dette? Det er mange muligheter. Det ene er at du kan bygge en helt annen mÃ¥te surfing innholdet som er tilgjengelig gjennom Harvard Libraries. Jeg skal vise deg en senere kalt Stacklife, som har en helt annen ta pÃ¥ utkikk etter innhold. 

Du kan bygge en anbefaling motor. SÃ¥ Harvard Library er ikke i virksomhet for Ã¥ si, du liker denne boken. Deretter gÃ¥r du ta en titt pÃ¥ disse 17 andre bÃ¸ker som du kan vÃ¦re interessert i eller disse 18 andre bilder. Men som sikkert kunne vÃ¦re en verdifull funksjon. Og gitt metadata, kan det vÃ¦re mulig Ã¥ sette det sammen. Du har kanskje ulike behov i vilkÃ¥rene for Ã¥ sÃ¸ke pÃ¥ innhold, som kanskje tross verktÃ¸yene som er tilgjengelig som biblioteket gjÃ¸r tilgjengelig, vil du kanskje for Ã¥ sÃ¸ke pÃ¥ en annen mÃ¥te eller optimalisere for en bestemt bruk tilfellet, som kanskje det er svÃ¦rt spesialiserte. Kanskje er det bare et fÃ¥tall mennesker i verden som Ã¸nsker Ã¥ sÃ¸ke pÃ¥ innhold pÃ¥ denne mÃ¥ten, men det ville vÃ¦re flott om vi kunne la dem gjÃ¸re det. Det er mye av analytics pÃ¥ bare hvordan folk bruke innholdet som ville vÃ¦re veldig interessant Ã¥ vite om, finne ut hvilke bÃ¸ker som blir brukt, det ikke er det, og sÃ¥ videre. Og sÃ¥ er det mye mulighet til Ã¥ integrere med andre opplysninger som er der ute pÃ¥ nettet. SÃ¥ vi have-- 

For eksempel har NPR en bokan segment, hvor de intervjuer forfattere om bÃ¸ker. Og sÃ¥ det ville vÃ¦re flott om du var leter opp en bok i Harvard Bibliotek, og du sier, OK, det er vÃ¦rt et intervju med forfatteren. La oss ta en titt pÃ¥ det. Eller det er en Wikipedia-side, som en autoritativ, vitenskapelig referanse om denne boken som du kan det vÃ¦re lurt Ã¥ ta en titt pÃ¥. 

Det er disse typer av kilder spredt over hele nettet. Og bringe dem sammen kan vÃ¦re en stor bruk til noen som ser pÃ¥ den innhold, pÃ¥ jakt etter noe. Men det er heller ikke den type ting du hadde Ã¸nsker biblioteket Ã¥ vÃ¦re ansvarlig for Ã¥ gÃ¥ ned og jakte ned alle disse forskjellige kilder og koble dem sammen fordi de er i kontinuerlig endring. Og hva de synes er viktig mai ikke vÃ¦re hva du synes er viktig. 

Og enda mer sÃ¥, i utgangspunktet er det en masse ting vi ikke har tenkt pÃ¥ ennÃ¥. SÃ¥ hvis vi kan Ã¥pne dette opp, mer mennesker foruten et halvt dusin eller sÃ¥, som ser pÃ¥ dette pÃ¥ en regelmessig basis kan tenke pÃ¥ ideer og massere dataene, og gjÃ¸re hva de vil med det. 

SÃ¥ vi Ã¸nsker Ã¥ gjÃ¸re dette data tilgjengelig for hele verden. Vel, det er et par komplikasjoner. Det ene er at dette metadata er i forskjellige systemer. Det er i forskjellige formater. SÃ¥ det er noen normalisering som mÃ¥ skje, som normalisering blir fremgangs bringe ting fra forskjellige formater og kartlegge dem til et enkelt format slik at feltene vil matche opp. 

Det er noen restriksjoner om opphavsrett. Merkelig nok, katalogoppfÃ¸ring om en bok er ansvarlig for opphavsrett. SÃ¥ selv om det er bare informasjon hentet fra boken, det er opphavsrettsbeskyttet. Og avhengig av hvem som faktisk opprettet som metadata, Det kan vÃ¦re restriksjoner for hvem kan distribuere det, ligner to-- 

Jeg vet ikke. Det kan eller kan ikke vÃ¦re lik situasjonen for de sangtekster, f.eks. SÃ¥ vi vet alle hvordan det kokekar ut. SÃ¥ du trenger for Ã¥ komme rundt dette problemet. 

Og deretter en annen brikke er at det er mye data. SÃ¥ hvis jeg er noen som Ã¸nsker Ã¥ jobbe med dataene eller har en kul idÃ©, hÃ¥ndtere 14 millioner poster pÃ¥ min laptop kan vÃ¦re problematisk og vanskelig Ã¥ administrere. SÃ¥ vi Ã¸nsker Ã¥ redusere barrierene for folk Ã¥ vÃ¦re i stand til Ã¥ arbeide med dataene. 

SÃ¥ den tilnÃ¦rmingen som forhÃ¥pentligvis adresser alle disse bekymringene er to deler. Den ene er Ã¥ bygge en plattform som tar data fra alle disse ulike kilder og forverrer det, normaliserer, beriker det, og gjÃ¸r det tilgjengelig pÃ¥ ett sted. Og det gjÃ¸r den tilgjengelig gjennom en offentlig API som folk kan ringe. 

SÃ¥ en API er et program Programming Interface. Og det i utgangspunktet refererer til en endepunkt som et system eller teknologi kan ringe og fÃ¥ data tilbake i et strukturert format pÃ¥ en mÃ¥te at den kan brukes. SÃ¥ det er ikke avhengig pÃ¥ Ã¥ gÃ¥ til et nettsted og skraping data off av det, f.eks. 

SÃ¥ dette er hjemmesiden til Biblioteket Cloud Element API, som i hovedsak sin versjon to. SÃ¥ det er den andre iterasjon av prÃ¸ver Ã¥ gjÃ¸re alt dette data tilgjengelig for hele verden. SÃ¥ det er http://api.lib.harvard.edu/v2/items. Og bare for Ã¥ bryte dette ned litt, hva dette betyr er at dette er versjon to av API. Det er en versjon en, som Jeg kommer ikke til Ã¥ snakke om. Men det er en versjon en. 

Og hvis du ringer dette API, du fÃ¥r elementer. Og en del av ideen om en API er et API er en kontrakt. Det er noe som er ikke kommer til Ã¥ endre seg. SÃ¥ for eksempel, - 

Og grunnen er at hvis jeg bygge noen form for system som kommer til Ã¥ bruke et bibliotek sky API Ã¥ vise bÃ¸ker eller hjelpe folk med Ã¥ finne informasjon pÃ¥ unike mÃ¥ter, hva vi ikke vil skal skje er for oss Ã¥ gÃ¥ endre hvordan at API fungerer, og plutselig alt bryter pÃ¥ brukersiden. SÃ¥ en del av hvis du gjÃ¸r API tilgjengelig for hele verden, er det god praksis for Ã¥ sette en versjonsnummeret i den slik at folk vet hvilken versjon de arbeider med. 

SÃ¥ hvis vi bestemmer oss for vi finne en bedre mÃ¥te for Ã¥ gjÃ¸re denne informasjonen tilgjengelig, vi kan endre det til kalle det versjon tre. SÃ¥ alle som er fremdeles bruker versjon to, vil det fortsatt arbeid. Men versjon tre ville har alle de nye ting. 

SÃ¥ dette er en API, men dette virkelig ser ut som en URL. Og sÃ¥ hva dette er en eksempel pÃ¥ er hva som er kalt en hvile API, som er tilgjengelig over bare en vanlig web-tilkobling. Og kan du faktisk gÃ¥ til det i en nettleser. 

SÃ¥ her har jeg nettopp Ã¥pnet opp Firefox og gÃ¥tt til api.lib.harvard.edu/v2/items. Og sÃ¥ hva jeg fÃ¥r her er utgangspunktet den fÃ¸rste siden av resultater fra hele satt av elementer som vi har fÃ¥tt. Og det er her i XML-format. Og det har ogsÃ¥ vÃ¦rt prettified av Firefox. Det trenger faktisk ikke ha alle disse lite utvide og entreprenÃ¸r doohickeys her. Dette er liksom en bedre versjon mÃ¥te Ã¥ se pÃ¥ det. 

Men hva dette forteller oss er Jeg har bedt om at alle elementene. SÃ¥ det er 13289475 elementer. Og jeg ser pÃ¥ det fÃ¸rste 10, som starter ved posisjon null fordi i informatikk Vi starter alltid pÃ¥ null. Og hva jeg har her, hvis jeg bare kollapse dette, vil du se jeg har 10 elementer. 

Og hvis jeg tar en titt pÃ¥ et element, kan jeg se at jeg har fÃ¥tt informasjon om det. Og dette er i det som kalles MODS skjema. Og sÃ¥ kommer jeg til Ã¥ bytte tilbake hit for et Ã¸yeblikk. OK. 

SÃ¥ la oss sÃ¸ke etter noe i spesifikk fordi det fÃ¸rste elementet som skjer for Ã¥ komme opp nÃ¥r du ser gjennom hele samlingen er, per definisjon, tilfeldig. SÃ¥ la oss se pÃ¥ noen donuts. Oh. 

OK. SÃ¥ donuts. SÃ¥ fant vi det er 80 elementer i samlingen som referanse donuts. Vi ser pÃ¥ de fÃ¸rste 10 av dem. NÃ¥ kan du se her mÃ¥ten Jeg sa jeg leter etter donuts, Jeg har nettopp lagt noe til sÃ¸kestrengen av nettadressen. SÃ¥ q lik donuts, som du kan se litt lettere her. 

Og dette betyr i utgangspunktet det er en spec for API, som definerer hva alle disse parametrene mener. Og dette betyr at vi kommer til Ã¥ sÃ¸ke alt for donuts. 

SÃ¥ det fÃ¸rste elementet her vi har du kan se tittelen er Donuts, og det er en undertittel som heter An American Passion, som er, tror jeg, hensiktsmessig. Det finnes en rekke different-- NÃ¥r du kommer til det punktet for Ã¥ fÃ¥ data, det er mange forskjellige formater som du kan fÃ¥ det til. Og det finnes forskjellige styrker og svakheter for dem alle. SÃ¥ denne, kan du se her, er denne formen veldig rik. Og det er standardisert. 

SÃ¥ det er en bestemt tittel felt, en undertittel felt. Det er en alternativ tittel, An American Passion. Det er navnet knyttet til den. Type ressursen er tekst. Det er mye informasjon her i dette formatet. 

Men det er en gjeng av forskjellige formater. SÃ¥ det vi var bare ser pÃ¥ er et format kalt MODS, som stÃ¥r for Metadata Object Beskrivelse Service, potensielt. Jeg er faktisk ikke helt sikker pÃ¥ om S. Men det er en ganske kompleks format. Det er standardformatet. 

Men det er den som holder rikdom av alle data at biblioteket har fordi det er svÃ¦rt nÃ¦r til hva Biblioteket bruker internt. Det er en standard som er brukes over hele landet, over hele verden i fagbibliotek. Og det er veldig interoperable. SÃ¥ hvis du har et dokument som er i MODS format, du kan gi den til noen andre som har systemer som forstÃ¥r MODS, og de kan importere den. SÃ¥ det er en standard. Det er veldig godt definert, svÃ¦rt spesifikke. Og det er det som gjÃ¸r det interoperable fordi hvis noen sier, dette er den alternative tittelen pÃ¥ en posten, alle vet hva det betyr. PÃ¥ baksiden, er det svÃ¦rt komplisert. 

SÃ¥ hvis du tar en titt pÃ¥ denne posten her, hvis jeg bare Ã¸nsker Ã¥ fÃ¥ Tittelen pÃ¥ dette dokumentet, av denne boken, som sannsynligvis Donuts, En amerikansk Passion, parsing det ut er et lite involvert. Mens det er en annen format kalt Dublin Core, som er en mye enklere format. 

Og sÃ¥ du ser her, er det ingen tittel, undertittel, alternative tittelen. Det er bare tittelen, Donuts, An American Passion, og en annen tittel, amerikansk Passion. SÃ¥ nÃ¥r du ser pÃ¥ hvilken form Ãnsker du Ã¥ fÃ¥ dataene ut av, mye avhenger av hvordan du kommer til Ã¥ bruke den. Bruker du for interoperabilitet eller har du vil ha noe enkelt som kan vÃ¦re lettere Ã¥ jobbe med? 

PÃ¥ baksiden, mye av detaljer blir liksom klemt ned. Du kan miste nyansene av hva et bestemt felt middel hvis du arbeider med Dublin Core, som du ikke ville fÃ¥ med MODS. SÃ¥ de er to av formatene du kan fÃ¥ ut av API. Og i utgangspunktet holder vi det bak kulissene i MODS. Men vi kan gi deg den i MODS og Dublin Core og noe annet ogsÃ¥. Det andre hensynet nÃ¥r du ser i data er du kan fÃ¥ det som enten JSON, som stÃ¥r for Javascript Object Notation, eller XML, som stÃ¥r for Extensible Markup Language. Og disse data representasjoner bÃ¥de har nÃ¸yaktig de samme dataene, nÃ¸yaktig de samme feltene. Men de er bare syntaktisk forskjellig. 

SÃ¥ dette er a-- Vel, la oss bare slÃ¥. SÃ¥ dette er vÃ¥r spÃ¸rring for donuts i XML-format. Hvis jeg bare slÃ¥ dette Ã¥ vÃ¦re JSON, Jeg kan se det ser annerledes ut. SÃ¥ nÃ¥ er dette det samme innholdet, men en annen struktur. Det er fÃ¦rre vinkelparenteser. Det er mindre ordrik. 

Og dette er et format som, hvis du arbeider i nettmiljÃ¸et, du er mest sannsynlig kommer Ã¥ Ã¸nske Ã¥ bruke fordi man av de fine tingene om JSON er den er kompatibel med Javascript. SÃ¥ hvis jeg skriver web app, kan jeg trekke i JSON og bare jobbe med det direkte. Mens med XML, er det en litt mer komplisert. SÃ¥ igjen, disse er bÃ¥de nyttig. De bare er ulike brukstilfeller hvor folk kanskje Ã¸nsker Ã¥ bruke dem. OK. SÃ¥ tilbake til API. Slik at vi kan sÃ¸ke for-- 

Jeg gir et eksempel pÃ¥ sÃ¸ker etter donuts. Vi kan ogsÃ¥ sÃ¸ke bare i en bestemt felt innenfor her. SÃ¥ i stedet for Ã¥ lete hele posten, Jeg kan bare sÃ¸ke pÃ¥ tittel-feltet. Og sÃ¥ nÃ¥ er det 25 ting som har donuts i tittelen, hvorav den ene handler om Ã¥ gjenopprette vÃ¥tmarker i ledelse av hullet i smultring program, som sannsynligvis er ikke nÃ¸dvendigvis det vi leter for nÃ¥r vi sÃ¸ker etter donuts. 

Du kan ogsÃ¥, nÃ¥r du er arbeider med en API-- 

Del av Ã¥ ha en API er Ã¥ gi mennesker tilgang til store datasett. Og det er et par forskjellige verktÃ¸y du kan bruke til Ã¥ gjÃ¸re det. Det ene er, veldig enkelt, du kan bla gjennom dataene. SÃ¥ akkurat som om du gjÃ¸r en spÃ¸rring gjennom et webgrensesnitt, du kan se pÃ¥ side en, side to, side tre. Du kan gjÃ¸re det samme ting gjennom API. Du trenger bare Ã¥ vÃ¦re eksplisitt i hvordan du gjÃ¸r det. 

SÃ¥ for eksempel, hvis jeg ser pÃ¥ min fÃ¸rste spÃ¸rring her, hvor jeg gjÃ¸r et sÃ¸k etter ting med donuts i tittelen, kan jeg si, og grense lik 20, noe som innebÃ¦rer gi meg de fÃ¸rste 20 postene, ikke de fÃ¸rste 10, som er standard, fordi jeg Ã¸nsker Ã¥ se pÃ¥ 20 om gangen. Eller jeg kan si, sett starte lik 20 og begrense lik 20, noe som vil gi Me Records 21 gjennom 40. 

SÃ¥ jeg antar det Ã¥ ta bort her er at vi bruker de sÃ¸kestrenger Ã¥ sette parametre pÃ¥ spÃ¸rringen. Og det lar deg kontroll hva du fÃ¥r tilbake. 

Et annet verktÃ¸y som du kan bruke, - 

Og dette er virkelig nyttig i vilkÃ¥rene for Ã¥ utforske dataene. 

--is noe som heter face. SÃ¥ begrepet face er ikke nÃ¸dvendigvis vanlig. Men du har alle sett det fÃ¸r. Hvis du tar en titt pÃ¥ Amazon, for eksempel, og du gjÃ¸r et sÃ¸k etter donuts i bÃ¸kene, her de har fÃ¥tt en rekke bÃ¸ker, og de er gruppert etter kategori, og du fÃ¥r de forskjellige kategoriene, og hvor mange bÃ¸ker i hver kategori dukke opp. 

SÃ¥ dette er i utgangspunktet en fasett. Du tar alle sine bÃ¸ker, den 1800 bÃ¸ker som passer donuts pÃ¥ Amazon. 12 av dem er i frokost kategori. 21 i bakverk og baking, og sÃ¥ videre og sÃ¥ videre. 

SÃ¥ dette er virkelig en nyttig verktÃ¸y for Ã¥ utforske innhold i biblioteket i tillegg fordi nÃ¥r du ser pÃ¥ en fasett, det gir deg en idÃ© om hvilke fag eksisterer, som hva slags fag er mest populÃ¦re i sÃ¸ket sett. Og det hjelper deg kjÃ¸re av og utforske. Slik at vi kan gjÃ¸re det samme. 

Hvis vi Ã¸nsker Ã¥ bruke API og se pÃ¥ fasetter, legger vi til en parameter til vÃ¥r venn sÃ¸kestrengen. SÃ¥ fasetter tilsvarer en kommaseparert liste over hva vi Ã¸nsker Ã¥ fasett pÃ¥. SÃ¥ en av de fasetter kan vÃ¦re gjenstand. En annen kan vÃ¦re sprÃ¥k. Og sÃ¥ hvis vi kjÃ¸re denne spÃ¸rringen, vi get-- Det ser ganske mye det samme her. Men vi har lagt til pÃ¥ slutten av listen et sett med fasetter. SÃ¥ vi har en fasett kalt emne. SÃ¥ dette er Ã¥ fortelle oss at hvis jeg ser pÃ¥ min 80 resultater fra smultring spÃ¸rring, 13 av dem har utsette USA. Tre har faget donuts. Tre har faget av vÃ¥tmarks restaurering, som kan vÃ¦re vÃ¥r hull i smultring. To av dem, The Simpsons, og sÃ¥ videre og sÃ¥ videre. 

SÃ¥ dette kan vÃ¦re nyttig hvis du Ã¸nsker Ã¥ begrense sÃ¸ket ditt. Det kan hjelpe deg Ã¥ gjÃ¸re det. Spesielt hvis du har mer enn, si, 80 resultater. 

Tilsvarende har vi ogsÃ¥ bedt om for fasetter pÃ¥ sprÃ¥ket. SÃ¥ hvis vi ser pÃ¥ vÃ¥re resultater, ser vi 76 av dem er pÃ¥ engelsk, fire i fransk, to i spansk, to, jeg tror det er udefinert eller ukjent, nederlandsk og latin. SÃ¥ jeg tror det latinske smultring resultat igjen har ingenting Ã¥ gjÃ¸re med bakevarer. Men det du gÃ¥r. 

SÃ¥ dette er liksom viser deg hvordan du kan trekke innholdet tilbake fra API bare gjennom nettleser, som er flott. Men det er egentlig ikke hva du ville normalt vÃ¦re Ã¥ bruke i API for det. SÃ¥ ett eksempel pÃ¥ hvordan du faktisk kunne gjÃ¸re dette er jeg har skrevet en super lite program, som igjen gjÃ¸r min donut sÃ¸k og velger et par felt og viser dem i en tabell. SÃ¥ dette er veldig mye samme innhold som vi bare sag med noen fÃ¥ felt trukket ut. Slik liste med titler, de Plasseringen av det boken handler om, sprÃ¥ket, og sÃ¥ videre og sÃ¥ videre. 

SÃ¥ hvordan dette faktisk skjedde, siden Jeg tror vi mÃ¥ se pÃ¥ noen kode, er-- 

Hva vi har her er en enkel HTML side, som viser teksten, Velkommen til biblioteket sky og deretter viser en tabell over resultatene. Og det er Ã¥penbart ingen resultater i bordet nÃ¥r siden blir lastet. Men hva vi gjÃ¸r er fÃ¸rst av alt, vi legger et bibliotek kalt jQuery, som er utgangspunktet en Javascript-bibliotek, som gjÃ¸r det meget lett Ã¥ manipulere Java problemfritt, HTML, og lage websider, klientsiden logikk og websider. 

SÃ¥ det vi har her er jQuery har en metode som kalles Get, som i alt vesentlig vil gÃ¥ til en URL-adresse, som i dette tilfellet er dette kjent ute URL. Og vil da fÃ¥ innholdet fra at URL og deretter kjÃ¸re en funksjon pÃ¥ den. SÃ¥ vi sa gÃ¥ til api.lib.harvard / edu. SÃ¸k etter donuts. Gi oss 20 poster. Og deretter kjÃ¸re denne funksjonen, som Jeg har valgt, passerer det dataene. Og dataene er JSON som fikk returnert fra API. 

Og sÃ¥ skal vi si, innenfor det data er det et felt som heter element. Og hvis jeg gÃ¥r ta en titt tilbake pÃ¥ en av disse resultatene som er her, det er noe called-- 

Vel, det heter element. Slik at det kan vÃ¦re at. Og hva det gjÃ¸r er det gÃ¥r gjennom hvert element og deretter kaller en annen funksjon pÃ¥ hvert element. Og at funksjonen i utgangspunktet tar verdien av elementet, som er hovedsak den enkelte posten og tillater oss Ã¥ trekke ut tittelen, dekningen og sprÃ¥ket. 

SÃ¥ vi kaller en funksjon pÃ¥ hver element som vi kom tilbake fra API. Og hvis du bare ta en titt pÃ¥ dette stykket akkurat her, hva vi gjÃ¸r er vi skaper en streng, som er egentlig litt HTML markup rundt et bord, med value.title, som er tittelen pÃ¥ objekt, value.coverage, som er dekningen, - 

Og vi gjÃ¸r en sjekk her for Ã¥ se hvem som er udefinert og skjule det hvis det stÃ¥r udefinert, fordi vi er egentlig ikke interessert i det. 

--og deretter sprÃ¥ket. Og sÃ¥ hva vi er gjÃ¸r er Ã¥ legge det til bordet som er identifisert av denne strengen her. Og hvordan jQuery fungerer er hva dette sier er Ã¥ se etter tabellen med ideen resultater og legge til denne teksten til det. Og dette er bordet med ideen resultater. SÃ¥ hva du ender opp med er denne siden her. Og for Ã¥ vise source-- Vel, er kilden faktisk ikke oppdatert nÃ¥r det skjedde. SÃ¥ du kan se den faktiske Resultatene av tabellen her skjÃ¸nt. 

SÃ¥ det er bare et enkelt eksempel pÃ¥ gjÃ¸r en svÃ¦rt grunnleggende spÃ¸rring mot API og fremvisning av informasjon pÃ¥ annen form, og ikke gjÃ¸r noe for fancy. NÃ¥ er et annet eksempel som en applikasjon skrevet av David Weinberger som en demo av dette, noe som hovedsak viser deg hvordan du kan mash opp resultatene du er komme fra biblioteket sky API med, sier Google Books. 

Og tenker her er at jeg kan kjÃ¸re en spÃ¸rring mot Google Books, fÃ¥ et fulltekstsÃ¸k, fÃ¥ noen resultater tilbake, finne ut hvilke av disse elementene faktisk eksisterer i Hollis, biblioteksystemet, og deretter gi meg linker tilbake til disse elementene. SÃ¥ hvis jeg sÃ¸ker etter, det var en mÃ¸rk og stormfull natt, jeg fÃ¥ tilbake en haug med resultater fra Google, og deretter ett resultat som er A Wrinkle in Time. Og disse er linker til bÃ¸ker som eksisterer innenfor Harvard Library system. 

SÃ¥ jeg antar poenget her er ikke sÃ¥ mye at dette kanskje eller kanskje ikke vÃ¦re slik at du vil ha Ã¥ sÃ¸ke biblioteket, men det er en helt annen mÃ¥te som ikke var tilgjengelig for deg fÃ¸r, som om du hadde ingen mÃ¥te Ã¥ gjÃ¸re fulltekst sÃ¸ker pÃ¥ bÃ¸ker som selv var en del av Harvard Library system. SÃ¥ nÃ¥ er dette en mÃ¥te at du kan gjÃ¸re det. Og du kan vise dem i det formatet du Ã¸nsker. SÃ¥ poenget her er, i utgangspunktet, vi Ã¥pner opp for nye mÃ¥ter for folk Ã¥ arbeide med dataene. 

En annen del av bibliotek sky er at det hjelper utsette noen av de databruk at biblioteket har. SÃ¥ hvis du gÃ¥r til biblioteket, og du er pÃ¥ jakt etter bÃ¸ker, Du trenger ikke nÃ¸dvendigvis faktisk har en idÃ© om, for alle elementene i en bestemt emne, hva er folk i samfunnet, enten det er definert som Harvard eller land eller klassen din, hva har de fant mest nyttig? Og biblioteket har faktisk en massevis av informasjon om hva er de nyttige fordi dersom en masse av folk sjekker ut en bok, som forteller deg noe. Det mÃ¥ ha vÃ¦rt en eller annen grunn de Ã¸nsker Ã¥ sjekke det ut. Mange satte den pÃ¥ reserve. 

Hvis den er pÃ¥ reservelisten for mye av klasser, som forteller deg noe. Hvis fakultetet medlemmer skal sjekke det ut mye og studenter ikke er det, som forteller meg noe. Vice versa, som ogsÃ¥ forteller deg noe. SÃ¥ det ville vÃ¦re veldig interessant Ã¥ sette det informasjon der ute og la folk bruker den til Ã¥ hjelpe dem med Ã¥ finne arbeider innenfor biblioteksystemet. Baksiden av dette er det er noen alvorlige personvernet bekymring fordi en av sentrale grunnprinsippene i biblioteket er vi ikke kommer til Ã¥ fortelle folk hva andre folk leser. Og selv om du sier dette Boken ble sjekket ut fire ganger i en bestemt mÃ¥ned som kan benyttes Ã¥ lenke tilbake til en bestemt person ved de-anonymiserer data og finne ut hvem som sjekket det ut. SÃ¥ den mÃ¥ten at vi kan avoid-- Den mÃ¥ten at vi kan prÃ¸ve Ã¥ trekke ut noen signaler fra all informasjon uten Ã¥ krenke alles personvern er egentlig vi ser pÃ¥ 10 Ã¥rs bruksdata, - 

Derfor er det over en lang tidsperiode. 

--og si, OK, la oss se hvordan mange ganger dette arbeidet ble brukt, og av hvem i denne perioden tid, og deretter i utgangspunktet gi tilbake et tall, som vi kaller en stabel score, som i utgangspunktet representerer hvor mye det er blitt brukt. Og at number-- En rekke ulike beregninger gÃ¥ inn i dette nummeret. --men det er en veldig grov beregning som gir deg noen ide om hvordan samfunnet kan verdi som fungerer. 

Og sÃ¥ en annen form for selv mer fleshed ut sÃ¸knad som utnytter av dette er noe kalt Stacklife, som faktisk er tilgjengelig gjennom hoved Harvard Bibliotekportalen. SÃ¥ du gÃ¥r til library.harvard.edu. Du vil se en rekke ulike mÃ¥ter Ã¥ sÃ¸ke biblioteket. Og en av dem heter Stacklife. 

Og dette er et program som blar innholdet av biblioteket, men er fullstendig bygget pÃ¥ toppen av disse API-er. SÃ¥ det er ingen spesiell ting skjer bak kulissene. Det er ingen tilgang til data som du ikke har. Det er ved hjelp av APIer for Ã¥ gi deg med en helt annen surfing erfaring. 

SÃ¥ hvis jeg sÃ¸ker etter Alice in Wonderland i dette tilfellet, Jeg fÃ¥r et resultat som ser ut som dette, noe som er ganske much-- 

Det er veldig likt andre sÃ¸k du kan gjÃ¸re, bortsett fra i dette tilfellet vi kÃ¥rer de elementene ved stackscore, som gir deg noen ide om hvor populÃ¦re disse elementer var innenfor fellesskapet. Og sÃ¥ klart, Alice in Wonderland av Walt Disney er svÃ¦rt populÃ¦re. Men du kan ogsÃ¥ se de fire beste her er de du kanskje ikke actually-- 

Ting som er sterkt brukt, men du kan ikke umiddelbart fÃ¥ kontakt med Alice in Wonderland. SÃ¥ vÃ¥r gamle venn The Annotated Alice er her. SÃ¥ jeg kan ta en titt pÃ¥ den. Og nÃ¥ det jeg leter pÃ¥ er egentlig et sett of-- Jeg kan ha The Annotated Alice akkurat her. Jeg har informasjon om det. Og jeg har ogsÃ¥ en stackscore av, i dette tilfelle 26. Og dette forteller meg liksom omtrent hvordan vi kom til denne stackscore, lignende som sjekket det ut, som hvordan mange ganger det ble sjekket ut, som fakultetet eller grads, hvordan mange kopier biblioteket har, og sÃ¥ videre og sÃ¥ videre. 

Og du kan ogsÃ¥, interessant nok her, bla gjennom stabler nesten. SÃ¥ dataene her, denne viser du liksom av en virtuell representasjon av hva sokkelen makt se ut som om du skulle ta alle bibliotekets beholdning og sette dem sammen pÃ¥ en uendelig sokkel. Og det fine er at vi can-- 

FÃ¸rst av alt, metadata om disse bÃ¸kene ofte forteller deg nÃ¥r den ble publisert. Den forteller deg hvor mange sider det har. Det kan fortelle deg dimensjonene. SÃ¥ du kan se som gjenspeiles her nÃ¥r det gjelder stÃ¸rrelsen pÃ¥ bÃ¸kene. 

Og sÃ¥ kan vi bruke stable score for Ã¥ markere bÃ¸kene som har hÃ¸yere stack score. SÃ¥ hvis det er mÃ¸rkere, betyr det at antagelig er det brukt oftere. SÃ¥ i dette tilfellet, er jeg kommer til Ã¥ gjette at dette er versjonen av Alice in Wonderland som er svÃ¦rt vanlig, og de fleste nÃ¥s, biblioteket har flest eksemplarer av. SÃ¥ hvis du leter for Alice in Wonderland, dette kan vÃ¦re et godt sted Ã¥ begynne. 

Og sÃ¥ her kan du ogsÃ¥ koble ut til, sier Amazon Ã¥ kjÃ¸pe boken, og sÃ¥ videre og sÃ¥ videre. Poenget her, igjen, er ikke sÃ¥ mye at denne er den beste mÃ¥ten Ã¥ bla i biblioteket eller det riktige verktÃ¸yet for enhver anledning. Men det er en annen mÃ¥te Ã¥ gjÃ¸re det. Og ved Ã¥ gjÃ¸re data tilgjengelig gjennom et API, som er laget av meget enkle byggestenene, som lar deg sÃ¸ke i innholdet, du kan bygge noe som dette som kan vÃ¦re used verdifull for noen mennesker. 

SÃ¥ det er liksom sÃ¥ mye som jeg Ã¸nsker Ã¥ si egentlig om hva API er og hva det utsetter, det er en hel haug med ting bak kulissene, som Jeg kommer bare til Ã¥ rÃ¸re pÃ¥ kort bare fordi det liksom kommer pÃ¥ dette fra en helt annen vinkel gjelder hvordan gjÃ¸r noe som dette fÃ¥ satt pÃ¥ plass? 

SÃ¥ en API er et standard grensesnitt til alt dette innholdet. Men for Ã¥ fÃ¥ det der, fÃ¸rste vi mÃ¥tte gjÃ¸re ble trekke sammen informasjon av bÃ¸ker og bilder og finne hjelpemidler, samlingen dokument fra ulike Harvard-systemer. Aleph, VIA, og OASIS er navnene pÃ¥ de systemer. Og de i hovedsak gÃ¥r inn i en rÃ¸rledningen, en behandling rÃ¸rledning. 

SÃ¥ fÃ¸rst av alt, vi fÃ¥r eksport filer fra alle disse systemer. Vi dele dem opp i enkeltelementer. SÃ¥ vi har en fil, som er en gigabyte, som har en million poster i den. SÃ¥ vi dele den opp i enkeltelementer. SÃ¥, for hvert element, vi konvertere den i MODS, fordi noen av disse er problemfritt MODS, noen av dem er det ikke. SÃ¥ vi fÃ¥r dem alle til vÃ¦re i samme format. SÃ¥ er det ulike berikelse trinn, hvor vi legge til mer informasjon til data enn det som var tilgjengelig i biblioteket. SÃ¥ vi mÃ¥ legge til, fÃ¸rst av alt vi har det biblioteker holder det. Vi gÃ¥r gjennom et trinn av beregne stackscore. Vi gÃ¥r gjennom et nytt skritt av legge til flere metadata i form av hva samlinger folk kanskje har lagt dette-- 

Mennesker skaper samlinger av elementer. Hva samlinger hÃ¸rer det til? Hvordan har folk merket dette innholdet i det siste? SÃ¥ du filtrere ut, og du begrense postene fordi, som jeg nevnte, det er noen poster som, pÃ¥ grunn av opphavsrettslige grunner, kan vi ikke vise. Og da vi laster dem inn i noe som kalles Solr, som ikke er en stavefeil, men er navnet pÃ¥ et stykke programvare som gjÃ¸r sÃ¸k indeksering, som driver alle sÃ¸ke bak API. Og sÃ¥ blir det tilgjengelig for API, og folk kan bruke den. 

SÃ¥ dette er som en ganske grei prosess. En av de interessante ting om det er at vi har Ã¥ gjÃ¸re med 13 millioner plater og vi kommer til Ã¥ vÃ¦re hÃ¥ndtere eller mer. Og vi Ã¸nsker Ã¥ vÃ¦re i stand til Ã¥ hÃ¥ndtere disse i en relativt rask mÃ¥te. Det tar lang tid Ã¥ behandle 13 millioner plater. 

SÃ¥ hvordan denne rÃ¸rledningen er satt opp er at du can-- Jeg antar nytte av rÃ¸rledningen, problemet at vi er prÃ¸ver Ã¥ lÃ¸se her, er at alle transformasjoner, alle disse trinnene i denne rÃ¸rledning kan skilles. Det er ingen avhengighet. Hvis du behandler en registrering av en bok, det er ingen avhengighet i at mellom en annen bok. 

SÃ¥ det vi kan gjÃ¸re er utgangspunktet, ved hvert trinn i rÃ¸rledningen, vi sette det inn i en kÃ¸ i skyen. Jeg var tilfeldigvis pÃ¥ Amazon Web Services. SÃ¥ det er en liste over, si, 10.000 elementer som trenger Ã¥ vÃ¦re normalisert og konvertert til MODS format. Og vi spinner opp sÃ¥ mange servere som vi Ã¸nsker, kanskje 10 servere. Og hver av disse serverne bare sitter der, ser i denne kÃ¸en, ser at det er en som trenger Ã¥ bearbeides, trekker den av kÃ¸en, behandler den, og pinner den pÃ¥ den neste kÃ¸en. 

Og sÃ¥ hva som gjÃ¸r oss Ã¥ gjÃ¸re er Ã¥ sÃ¸ke, i hovedsak, sÃ¥ mye maskinvare som vi Ã¸nsker Ã¥ dette Problemet for en meget kort periode Ã¥ behandle dataene sÃ¥ raskt som mulig, hvilket er noe som bare nÃ¥ i verden av cloud computing Vi kan bestemmelsen servere hovedsak umiddelbart, er det nyttig. SÃ¥ vi ikke trenger Ã¥ ha en giganten serveren sitter rundt hele tiden for Ã¥ gjÃ¸re behandlingen som kan skje bare en gang i uken. 

SÃ¥ det er stort sett det. Det finnes dokumentasjon tilgjengelig for bibliotek Cloud Element API pÃ¥ denne nettadressen, som vil vÃ¦re tilgjengelig senere. Og vÃ¦r sÃ¥ snill gÃ¥ ta en titt pÃ¥ det Ã¥ se om det er noe, du har noen ideer. Leke med den. TÃ¸yse rundt. Og forhÃ¥pentligvis kan du komme opp med noe stort. Takk.