JEFFREY lig: Hi daar. Ek is Jeffrey lig. En ek is hier om te praat oor die Harvard Biblioteek en die bou van môre se vandag biblioteek, dink ek. So die agtergrond hier, die plek vir hierdie sessie is in wese dat daar 'n baie van bibliografiese data beskikbaar in die Harvard biblioteke. En daar is 'n geleentheid, deur 'n paar van die gereedskap en 'n projek wat is ontwikkel, toegang tot die inligting te kry en neem dit na plekke wat die Harvard Biblioteek is nie nou doen, doen nuwe dinge met dit, eksperiment en speel rond met dit. So die inskrywing punt in hierdie is 'n API genoem die Harvard Biblioteek wolk is 'n oop metadata bediener, wat ek sal praat oor die nou. So het die agtergrond is dat daar 'n baie dinge in die Harvard biblioteek. Ons het meer as 13 miljoen bibliografiese rekords, miljoene van beelde, en duisende van die vind van hulpmiddels, wat is in wese dokumente beskryf versamelings, sê wat is in hulle bokse papiere en so meer wat oor verteenwoordig 'n miljoen individuele dokumente. En daar is ook 'n baie inligting wat die biblioteek het oor hoe die inhoud gebruik wat van belang kan wees vir mense wat dalk wil om te werk met dit. So al die inligting die biblioteek het metadata. So metadata is data oor die data. So wanneer ons praat oor die inligting wat wat beskikbaar is deur die biblioteek wolk wat beskikbaar is, dit is nie noodwendig die werklike dokumente hulself, nie noodwendig die volle teks van boeke of die volle beelde, al wat werklik die geval is. Maar dit is regtig inligting oor die data. So jy kan dink katalogisering inligting, skakel getalle, vakke, hoeveel eksemplare van die boek is daar, wat is die uitgawes, wat die formate, die skrywers, en so meer. So is daar 'n baie inligting oor die inligting in die versameling wat, op sigself, is 'n soort van inherent nuttig. En al is jy doen in-diepte navorsing, jy natuurlik wil te kry om die werklike inhoud self en kyk na die data, die metadata is nuttig in terme van beide die ontleding van die corpus as 'n geheel, soos wat dinge in die versameling. Hoe verband hulle? Dit help jou om werklik te vind ander dinge, Dit is regtig die hoofdoel van dit. Die punt van die metadata en die katalogus is om te help om al vind die inligting wat beskikbaar is binne die versamelings. So, dit is 'n voorbeeld van metadata vir 'n boek in die Harvard Biblioteek. So dit is daar. En jy kan sien dit is eintlik matig komplekse. En 'n deel van die waarde van metadata binne die Harvard Biblioteek stelsel is dat dit soort gewees van opgebou deur catalogers en saamgestel deur mense wat aansoek doen 'n baie kundigheid en vaardigheid en het gedink om dit met verloop van tyd, wat 'n baie waarde. So as jy 'n blik op hierdie rekord vir Die Annotated Alice, kan jy uitvind jy het die titel, wat dit geskryf het, die skrywer, en al die verskillende vakke wat mense het gekatalogiseer dit in. En jy kan sien daar is ook, in Benewens 'n baie goeie inligting hier, daar is 'n paar duplisering. Daar is 'n baie van kompleksiteit wat weerspieël deur die metadata wat jy het. So een titel van hierdie boek is Alice se avonture in Wonderland. So, dit is 'n geannoteerde weergawe van die boek. Maar dit is ook 'n beroep Die Annotated Alice, Alice se avonture in Wonderland omdat dit is iets wat Martin Gardner geskryf en geannoteerde die boek. En daar is 'n baie goeie inligting oor logiese raaisels en dinge binne Alice dat jy waarskynlik nie geweet het nie oor. So jy moet gaan lees dit. Maar jy kan sien daar is 'n baie detail hier, insluitend identifiseerders, wanneer dit geskep, waar dit vandaan kom, in terme van die Harvard stelsel, en so meer. So, dit is 'n voorbeeld van die tipe metadata dat jy kan sien 'n boek in die Harvard Biblioteek versameling. Dit is iets heeltemal anders. So is daar 'n stelsel genoem VIA Harvard, wat basies is katalogisering beelde en voorwerpe van kuns en visuele dinge regdeur Harvard, en die toevoeging van 'n paar metadata vir hulle te klassifiseer hulle en, in sommige gevalle, die verskaffing klein miniatuur prente wat jy kan neem om 'n kyk na as jy dit wil hê. So, dit is 'n voorbeeld van die metadata wat jy vir 'n bord uit, vermoedelik, Alice in Wonderland. En jy kan sien daar is minder metadata hier. Dit is net 'n ander soort voorwerp. En so is daar minder inligting. Jy het meestal die feit dat 'n oproep nommer, wese wat dit geskep het, - Ons weet nie wanneer dit geskep is. --and 'n titel. Nog 'n voorbeeld. Dit is 'n bevinding hulp. So daar is 'n versameling van Lewis Carroll se referate by Harvard. So beskryf dit wat is in daardie versameling. So iemand het gegaan en kyk deur al die bokse en gekatalogiseer dit, gegewe 'n agtergrond, geskryf om 'n opsomming van wat hier is. En as jy was om te kyk verder op hierdie, hierdie gaan vir bladsye en bladsye en bladsye, maar dit sal jou vertel wat briewe en wat datums van wat bokse dwarsdeur die versameling bestaan. Maar dit is iets dat, as jy by Harvard, jy kan gaan en eintlik fisies kyk en, vermoedelik, neem 'n blik op. So, dit is al groot. Dit metadata se nuttig. Dit is in die Harvard Biblioteek stelsel. Daar is gereedskap aanlyn waar jy kan gaan en neem 'n blik op dit, en sien dit, en soek dit. En jy kan dit en dobbelstene sny dit in baie verskillende maniere. Maar dit is regtig slegs beskikbaar indien jy is 'n menslike wese sit op jou webblaaier of iets of jou selfoon en opgevolg deur dit. Dit is nie regtig in enige vorm van bruikbare mode vir ander stelsels of ander rekenaars te gebruik, nie met stelsels binne die Harvard Biblioteek, maar stelsels in die res van die wêreld, net om ander mense in die algemeen. So die vraag is, hoe kan ons maak dit beskikbaar vir rekenaars sodat ons meer interessant kan doen dinge met dit as net browsing dit self? So hoekom sou jy wil om dit te doen? Daar is 'n baie moontlikhede. Een daarvan is jy kan heeltemal bou van 'n ander manier van blare die inhoud wat beskikbaar is deur die Harvard Biblioteke. Ek sal jou een wys later genoem Stacklife, wat 'n heeltemal ander neem op soek na die inhoud. Jy kan 'n aanbeveling enjin bou. So Harvard Biblioteek is nie in die besigheid te sê, jy graag hierdie boek. Dan gaan neem 'n blik op hierdie 17 ander boeke wat jy kan in belangstel of die 18 ander beelde. Maar dit kan beslis 'n waardevolle funksie. En gegewe die metadata, kan dit moontlik wees dat om saam te stel. Jy kan verskillende behoeftes in terme van die soek na die inhoud, soos miskien ten spyte van die gereedskap wat is beskikbaar wat die biblioteek maak beskikbaar is, kan jy wil om te soek in 'n ander manier of optimaliseer vir 'n spesifieke gebruik geval, wat miskien is dit baie gespesialiseerde. Miskien is daar net 'n paar mense in die wêreld wat wil die inhoud te soek op hierdie manier, maar dit groot sou wees as ons kon laat hulle dit doen. Daar is 'n baie analytics in net hoe mense gebruik om die inhoud wat werklik sou wees interessant om te weet oor, uit te vind watter boeke gebruik word, wat is nie, en so meer. En dan is daar 'n baie geleentheid te integreer met ander inligting wat daar buite op die web. Sodat ons have-- Byvoorbeeld, NPR het 'n boekresensie segment, waar hulle 'n onderhoud skrywers oor boeke. En so sou dit wonderlik wees as jy was soek na 'n boek in die Harvard Biblioteek, en jy sê, OK, daar is was 'n onderhoud met die skrywer. Kom ons gaan neem 'n blik op dit. Of daar is 'n Wikipedia bladsy, as 'n gesaghebbende, wetenskaplike verwysing oor hierdie boek wat u dalk 'n blik op te neem. Daar is hierdie tipe van bronne regdeur die web verstrooi. En bring hulle saam kan 'n groot nut wees aan iemand te kyk na die inhoud, soek vir iets. Maar dit is ook nie die soort van ding wat jy wil wil die biblioteek om verantwoordelik te wees om uit te gaan sit en die jag af al hierdie verskillende bronne en steek hulle saam want hulle is voortdurend aan die verander. En wat hulle dink is belangrik Mei nie wat jy dink belangrik is. En selfs meer so, basies is daar 'n baie dinge wat ons nie gedink het nie nog. So as ons dit kan oopmaak, meer mense behalwe 'n half dosyn of so, wat op soek is na hierdie op 'n gereelde basis kan dink van idees en masseer die data, en doen wat hulle wil met dit. So ons wil om dit te maak data beskikbaar is vir die wêreld. Wel, daar is 'n paar komplikasies. Een daarvan is dat hierdie metadata is in die verskillende stelsels. Dit is in verskillende formate. So is daar 'n paar normalisering wat moet gebeur, wat normalisering synde die proses van bring dinge uit verskillende formate en kartering hulle na 'n enkele formaat sodat die velde sal ooreenstem. Daar is 'n paar kopiereg beperkings. Vreemd genoeg, die katalogus inskrywing oor 'n boek is aanspreeklik vir kopiereg. So selfs al is dit net inligting verkry uit die boek, dit is kopiereg. En afhangende van wat eintlik geskep dat metadata, daar beperkings op wat wees kan dit versprei, soortgelyk aan- Ek weet nie. Dit mag of mag nie soortgelyk te wees die situasie van die song lyrics, byvoorbeeld. So ons almal weet hoe dit panne uit. So jy moet kry om daardie probleem. En dan nog 'n stukkie is dat daar is 'n baie van data. So as ek iemand wat wil om te werk met die data of het 'n koel idee, die hantering van 14 miljoen rekords op my laptop kan 'n probleem wees en moeilik om te beheer. So ons wil verminder die hindernisse vir mense in staat wees om te werk met die data. So het die benadering wat hopelik adresse al hierdie bekommernisse is twee dele. Een is die bou van 'n platform wat neem data van al hierdie uiteenlopende bronne en vererger dit normaliseer, verryk, en fabrikate dit beskikbaar in 'n enkele plek. En dit maak dit beskikbaar is deur middel 'n openbare API wat mense kan bel. So 'n API is 'n Aansoek Programming Interface. En dit basies verwys na 'n eindpunt dat 'n stelsel of tegnologie kan noem en kry data terug in 'n gestruktureerde formaat op 'n manier dat dit gebruik kan word. So dit is nie afhanklik aan die gang na 'n webwerf en skraap data af dit, byvoorbeeld. So, dit is die tuisblad van die API Library Wolk punt, wat is in wese sy weergawe twee. So dit is die tweede iterasie van probeer om al hierdie inligting te maak beskikbaar is vir die wêreld. So dit is http://api.lib.harvard.edu/v2/items. En net om hierdie af te breek 'n bietjie, wat dit beteken is dat hierdie weergawe twee van die API. Daar is 'n weergawe een, wat Ek is nie van plan om oor te praat. Maar daar is 'n weergawe een. En as jy noem hierdie API, kry jy items. En 'n deel van die idee van 'n API is 'n API is 'n kontrak. Dit is iets wat gaan nie verander nie. So byvoorbeeld, - En die rede is dat as ek bou 'n soort van die stelsel wat gaan 'n biblioteek wolk API te gebruik boeke te vertoon of mense te help vind inligting in unieke maniere, wat ons nie wil hê om te gebeur is vir ons om te gaan verander hoe dat API werk, en skielik alles breek op die eindgebruiker kant. So deel van as jy API jy maak beskikbaar is vir die wêreld, is dit goeie praktyk om 'n te sit weergawe nommer in dit sodat mense weet watter weergawe hulle hanteer. So as ons besluit om ons 'n beter manier om van die maak van hierdie inligting beskikbaar is, ons kan verander om dit te noem dat die weergawe van drie. So almal wat nog steeds met behulp weergawe twee, dit sal nog steeds werk. Maar weergawe drie sou het al die nuwe dinge. So, dit is 'n API, maar dit regtig lyk soos 'n URL. En ja, wat dit 'n voorbeeld van is wat is bekend as 'n res API, wat beskikbaar is oor net 'n gereelde web verbinding. En jy kan eintlik gaan dit in 'n leser. So hier is ek nou net oopgemaak Firefox en gegaan om api.lib.harvard.edu/v2/items. En ja, wat ek hier is basies die eerste bladsy van die resultate van die hele stel van die items wat ons het. En dit is hier in XML-formaat. En dit is ook prettified deur Firefox. Dit maak nie eintlik al hierdie bietjie uit te brei en kontraktering doohickeys hier. Dit is 'n soort van 'n mooier weergawe manier om te kyk na dit. Maar wat is dit vir ons sê is Ek het gevra al die items. So is daar 13.289.475 items. En ek is op soek na die eerste 10, begin by posisie nul want in rekenaarwetenskap ons altyd begin by nul. En wat ek hier, as ek net in duie stort hierdie, sal jy sien ek het 10 items. En as ek 'n blik op 'n item, kan ek sien dat Ek het inligting oor dit. En dit is in wat genoem MODS vorm. En so ek gaan om te skakel terug hier vir 'n oomblik. OK. So laat ons soek vir iets in spesifieke omdat die eerste item wat gebeur om te kom wanneer jy kyk deur die hele versameling is, per definisie, lukraak. So kom ons kyk vir 'n paar donuts. Oh. OK. So donuts. So het ons gevind daar is 80 items in die versameling wat verwys donuts. Ons is op soek na die eerste 10 van hulle. Nou, kan jy hier sien die manier waarop Ek het gesê ek is op soek na oliebolle, Ek het net iets bygevoeg die soektog string van die URL. So q gelyk oliebolle, wat jy kan sien 'n bietjie meer maklik hier. En dit basies beteken daar is 'n spec vir die API, wat definieer wat al hierdie parameters beteken. En dit beteken ons gaan soek alles vir donuts. Dus is die eerste item hier het ons jy kan sien die titel is Donuts, en daar is 'n subtitel genoem 'n Amerikaanse Passie, wat is, dink ek, gepas. Daar is 'n baie different-- Sodra jy op die punt om die data, daar is 'n baie verskillende formate wat jy dit kan kry in. En daar is verskillende sterkpunte en swakhede vir almal van hulle. So hierdie een, kan jy sien hier, hierdie vorm is baie ryk. En dit is gestandaardiseer. So is daar 'n spesifieke titel gebied, 'n subtitel veld. Daar is 'n alternatiewe titel, 'n Amerikaanse passie. Daar is die naam wat verband hou met dit. Tipe van die hulpbron is teks. Daar is 'n baie inligting hier in hierdie formaat. Maar daar is 'n klomp van verskillende formate. So, wat was ons net op soek na 'n formaat genoem MODS, wat staan ​​vir Metadata Object Beskrywing Service, potensieel. Ek is eintlik nie heeltemal seker oor die S. Maar dit is 'n redelik komplekse formaat. Dit is die verstek formaat. Maar dit is die een wat hou die rykdom van al die data dat die biblioteek omdat dit is baie naby aan wat die biblioteek gebruik intern. Dit is 'n standaard wat gebruik oor die hele land, regoor die wêreld in akademiese biblioteke. En dit is baie tusenwerkbaar. So as jy het 'n dokument wat in MODS formaat, jy kan gee wat aan iemand anders wie stelsels verstaan ​​MODS, en hulle kan dit invoer. So dit is 'n standaard. Dit is baie goed gedefinieer, baie spesifiek. En dit is wat maak dit tusenwerkbaar want as iemand sê, dit is die alternatiewe titel van 'n rekord, almal weet wat dit beteken. Aan die ander kant, dit is baie ingewikkeld. So as jy 'n blik by hierdie rekord hier, as ek wil net die te kry titel van hierdie dokument, van hierdie boek, wat waarskynlik Donuts, 'N Amerikaanse Passie, die ontleding van dit uit is 'n bietjie betrokke. AANGESIEN daar is 'n ander formaat genoem Dublin Core, wat is 'n baie, baie eenvoudiger formaat. En so sien jy hier, is daar geen titel, subtitel, alternatiewe titel. Daar is net die titel, Donuts, 'n Amerikaanse Passie, en 'n ander titel, Amerikaanse passie. So wanneer jy op soek na wat vorm jy wil die data te kry uit, 'n Baie hang af van hoe jy gaan om dit te gebruik. Gebruik jy vir interoperabiliteit of wil jy iets eenvoudig wat wil dalk makliker om mee te werk? Aan die ander kant, 'n groot deel van die besonderhede kry soort van squished af. Jy kan die nuanses van verloor wat 'n spesifieke veld middel As jy met Dublin Core, wat jy nie sou kry met MODS. So dit is twee van die formate wat jy kan kry uit die API. En basies, is ons hou dit agter die skerms in MODS. Maar ons kan jy dit gee MODS en Dublin Core en enigiets anders as well. Die ander oorweging wanneer jy soek in die data is jy kan dit as óf into, wat staan ​​vir JavaScript Object notasie, of XML, wat staan ​​vir Extensible Markup Language. En hierdie data vertoë beide presies dieselfde data, presies dieselfde velde. Maar hulle is net sintakties verskillende. So, dit is a-- Wel, laat ons net skakel. So dit is ons navraag vir donuts in XML-formaat. As ek maar net skakel dit om into Ek kan sien dat dit lyk anders. So nou is dit dieselfde inhoud, maar 'n ander struktuur. Daar is minder hoek tussen hakies. Daar is minder verbose. En dit is 'n formaat wat, as jy werk in die web-omgewing, jy is waarskynlik gaan te wil, want een te gebruik van die mooi dinge oor into is dit is verenigbaar met JavaScript. So as ek skryf web app, kan ek trek in into en net werk met dit direk. Terwyl met XML, dit is 'n bietjie meer ingewikkeld. So weer, dit is beide nuttig. Hulle het net verskillende gevalle gebruik waar mense dalk wil om dit te gebruik. OK. So terug na die API. Sodat ons kan soek for-- Ek gee 'n voorbeeld van soek vir donuts. Ons kan ook net soek in 'n bepaalde gebied hier. So in plaas van soek die hele rekord, Ek kan net soek die titel veld. En so nou is daar 25 dinge wat het oliebolle in die titel, waarvan een is oor die herstel van vleilande in die bestuur van die gat in die donut program, wat waarskynlik nie noodwendig wat ons soek vir wanneer ons soek na donuts. Jy kan ook, wanneer jy die hantering van 'n API-- Deel van 'n API gee mense toegang tot groot datastelle. En daar is 'n paar verskillende gereedskap wat jy kan gebruik om dit te doen. Een daarvan is baie eenvoudig, jy kan blaai deur die data. So asof jy 'n navraag deur 'n web koppelvlak, jy kan kyk na bladsy een, bladsy twee, bladsy drie. Jy kan dieselfde doen ding deur die API. Jy hoef net te wees eksplisiete in hoe jy dit doen. So byvoorbeeld, as ek sien In my eerste navraag hier, waar ek doen 'n soektog na dinge met oliebolle in die titel, kan ek sê, en beperk gelyk 20, wat beteken gee my die eerste 20 rekords nie die eerste 10, wat is die standaard, want ek wil om te kyk na 20 op 'n tyd. Of ek kan sê, stel die begin gelyk aan 20 en beperk gelyk 20, wat sal gee my rekords 21 deur 40. So ek dink die ding hier weg te neem is dat ons met behulp van die navraag snare parameters op die navraag te stel. En dit kan jy beheer wat jy terug kry. Nog 'n instrument wat jy kan gebruik, - En dit is werklik nuttig in terme van die ondersoek van die data. --is iets genoem faceting. So die term faceting is nie noodwendig algemeen. Maar jy het dit al voorheen gesien. As jy 'n blik op Amazon, byvoorbeeld, en jy doen 'n soektog vir donuts in die boeke, hier is hulle het 'n reeks van boeke, en hulle is gegroepeer volgens kategorie, en jy die verskillende kategorieë, en hoe baie boeke in elke kategorie wys. So, dit is basies 'n faset. Jy neem al hulle boeke, die 1800 boeke wat ooreenstem donuts by Amazon. 12 van hulle is in die ontbyt kategorie. 21 in die deeg en bak, en so aan en so voort. So dit is regtig 'n nuttige instrument vir die verkenning van die inhoud binne die biblioteek asook want as jy kyk na 'n faset, dit gee jou 'n idee van watter vakke bestaan, soos watter tipes vakke is die mees gewilde in jou navraag stel. En dit help jy ry af en verken. So kan ons die dieselfde ding doen. As ons wil hê dat die gebruik API en kyk na fasette, ons nog 'n parameter te ons vriend die navraag string. So fasette gelyk aan 'n komma geskei n lys van wat ons wil faset op. So een van die fasette kan onderwerp. Nog dalk taal wees. En so as ons loop die soektog, ons get-- Dit lyk baie dieselfde hier. Maar ons aan die einde bygevoeg het van die lys van 'n stel van fasette. So het ons 'n faset genoem onderwerp. So dit is om ons te vertel dat as ek kyk op my 80 resultate van die donut navraag, 13 van hulle het die onderwerp Verenigde State van Amerika. Drie het die onderwerp donuts. Drie het die onderwerp vleiland herstel, wat kan ons gat in die donut wees. Twee van hulle, die Simpsons, en so aan en so voort. So kan dit nuttig as jy wil jou soektog te verklein. Dit kan help jy dit doen. Veral as jy ' meer as, sê, 80 resultate. Net so, het ons ook gevra vir fasette op taal. So as ons kyk na die resultate, sien ons 76 van hulle is in Engels, vier in Frans, twee in Spaans, twee, ek dink dit is ongedefinieerde of onbekend is, Nederlandse en Latyn. So ek dink die Latynse donut gevolg, weer, het niks te doen met gebak. Maar daar gaan jy. So dit is soort van wat jy hoe kan jy die inhoud terug te trek uit die API net deur webblaaier, wat is groot. Maar dit is nie regtig wat jy wil gewoonlik gebruik word om in API vir dit. So 'n voorbeeld van hoe jy kan eintlik doen, is ek het geskryf om 'n super klein program, wat, weer, het my donut soek en kies 'n paar velde en gee dit in 'n tabel. So dit is baie die dieselfde inhoud wat ons net saag met 'n paar velde getrek uit. So lys van titels, die plek van wat die boek is oor die taal, en so aan en so voort. So hoe dit gebeur het nie, aangesien Ek dink ons ​​moet kyk na 'n paar kode, is-- Wat ons hier het is 'n eenvoudige HTML bladsy, wat die teks vertoon, welkom om die biblioteek wolk en gee dan 'n tafel van die resultate. En daar is natuurlik geen resultate in die tafel wanneer die bladsy kry gelaai. Maar wat ons doen is die eerste van alles, ons is laai 'n biblioteek genoem jQuery, wat is basies 'n JavaScript-biblioteek, wat maak dit baie maklik JavaScript te manipuleer native, HTML, en webblaaie te skep, kliënt-kant logika en webblaaie. So wat ons hier het is jQuery het 'n metode genoem kry wat in wese gaan om 'n URL, wat in hierdie geval, is hierdie bekende soek URL. En sal dan die inhoud van dat URL en dan hardloop 'n funksie op dit. Daarom het ons gesê gaan na api.lib.harvard / edu. Soek vir donuts. Gee ons 20 rekords. En dan loop hierdie funksie, wat Ek het gekies, om dit die data. En die data is die into dat het uit die API teruggekeer. En dan sê ons, binne daardie data daar is 'n veld met die naam item. En as ek gaan neem 'n blik op een van hierdie resultate is dit hier, daar is iets called-- Wel, dit is genoem item. So wat kan dit wees. En wat dit doen, is dit gaan deur elke item en dan noem 'n ander funksie op elke item. En daardie funksie basies neem die waarde van die item, wat wese die individuele rekord en ons toelaat om te trek uit die titel, die dekking en die taal. So noem ons 'n funksie op elke item wat ons terug van die API. En as jy net 'n blik op hierdie stuk reg hier, wat ons doen is ons skep 'n string, wat is in wese 'n HTML opmaak om 'n tafel met value.title, wat is die titel van die voorwerp, value.coverage, wat is die dekking, - En ons is besig met 'n tjek hier om te sien wat is ongedefinieerd en wegkruip as dit sê ongedefinieerde, want ons is nie regtig belangstel in daardie. --and dan die taal. En dan wat ons is doen, is die aanbring van wat aan die tafel wat geïdentifiseer deur die string hier. En hoe jQuery werk is wat dit sê is op soek na die tafel met die idee van resultate en voeg hierdie teks om dit te. En dit is die tafel met die idee van die resultate. So wat jy eindig met is hierdie bladsy hier. En om te sien source-- Wel, die bron is nie eintlik opgedateer wanneer dit gebeur. So kan jy die werklike sien resultate van die tafel hier al is. So dit is net 'n eenvoudige voorbeeld van doen 'n baie basiese navraag teen die API en die vertoon inligting in 'n ander vorm, en nie om iets te doen te fancy. Nou, nog 'n voorbeeld is soos 'n aansoek geskryf deur David Weinberger as 'n demo van hierdie, wat wese wys jou hoe jy kan mash up die resultate wat jy is kry uit die biblioteek wolk API met, sê, Google Books. En die denke hier is dat ek kan hardloop 'n navraag teen Google Books, kry 'n volledige teks soek, kry 'n paar resultate terug, vind uit watter een van dié items eintlik in Hollis bestaan ​​nie, die biblioteek stelsel, en gee my dan skakels terug na die items. So as ek soek vir, dit was 'n donker en stormagtige nag, ek terug te kry 'n klomp van die resultate van Google, en dan 'n resultaat wat is 'n Wrinkle in Time. En dit is skakels na boeke wat bestaan binne die Harvard Biblioteek stelsel. So ek dink die punt hier is nie soveel dat dit kan of mag nie die manier wat jy wil die biblioteek te soek, maar dit is 'n heeltemal ander manier wat nie beskikbaar is vir jou voor, soos jy het geen manier om dit te doen volledige teks soek op boeke dat selfs was deel van die Harvard Biblioteek stelsel. So nou is dit 'n manier om wat jy kan doen. En jy kan hulle vertoon in watter formaat jy wil. So die punt hier is, basies, ons die opening van nuwe maniere om vir mense om te werk met die data. Nog 'n stukkie van die biblioteek wolk is dat dit help blootstel sommige van die gebruik van data dat die biblioteek. So as jy gaan na die biblioteek, en jy is op soek na boeke, jy nie noodwendig eintlik 'n idee van, vir al die items in 'n spesifieke onderwerp, wat is mense in die gemeenskap, of dit nou gedefinieer as die Harvard of die land of jou klas, Wat het hulle gevind dat die meeste nuttig? En die biblioteek het eintlik 'n ton van inligting oor wat is baie handig, want as 'n baie mense uitcheck 'n boek, wat vir jou vertel iets. Daar moet gewees het een of ander rede hulle wil om dit te sien. Baie mense het dit op reserwe. As dit is op die reservaat lys vir 'n baie van klasse, wat vir jou vertel iets. As lede van die fakulteit monitor dit uit 'n baie en voorgraadse studente is nie, dit vertel vir my iets. Omgekeerd, dat ook vertel jou iets. So dit is regtig interessant om te wees sit die inligting daar buite en laat mense gebruik dit om hulle te help vind werk binne die biblioteek stelsel. Die ander kant van hierdie is daar is 'n paar ernstige privaatheid kommer, want een van die kern beginsels van die biblioteek is ons gaan nie te word vertel mense wat ander mense is die voorlees. En selfs as jy sê dit boek is nagegaan vier keer in 'n spesifieke maand, wat gebruik kan word terug te skakel na 'n spesifieke persoon wat deur de-anonimisering data en om uit te vind wat dit bewys nie. So het die manier waarop ons kan avoid-- Die manier waarop ons kan probeer om te onttrek sommige sein van al die inligting sonder om inbreuk iemand se privaatheid kommer is in wese ons kyk na 10 jaar van die gebruik van data, - So dit is oor 'n lang tydperk van die tyd. --and sê OK, kom ons kyk hoe baie keer hierdie werk gebruik is, en deur wat oor hierdie tydperk van die tyd, en dan basies gee terug 'n nommer, wat ons noem 'n stapel telling, wat basies verteenwoordig hoeveel dit gebruik is. En dat number-- 'N baie verskillende berekeninge gaan in dat die getal. --but dit is 'n baie rowwe metrieke dat jy gee 'n idee van hoe die gemeenskap kan daardie werk waardeer. En so 'n ander soort van selfs meer vleis uit aansoek wat voordeel van hierdie is iets genoem Stacklife, wat eintlik wat beskikbaar is deur die hoof Harvard Biblioteek portaal. So jy gaan na library.harvard.edu. Jy sal 'n aantal van die verskillende sien maniere van soek die biblioteek. En een van hulle is Stacklife genoem. En dit is 'n program wat bladert die inhoud van die biblioteek, maar is heeltemal gebou bo-op hierdie API. So daar is geen spesiale dinge gaan agter die skerms. Daar is geen toegang tot data wat jy nie het nie. Dit is die gebruik van die API's om jou te voorsien met 'n heeltemal ander blaai ervaring. So as ek soek vir Alice in Wonderland in hierdie geval, Ek kry 'n gevolg wat lyk soos hierdie, wat is redelik much-- Dit is baie soortgelyk aan enige ander search jy kan doen nie, behalwe in die geval ons die posisie van die items deur stackscore, wat gee jou 'n idee van hoe gewild hierdie items was binne die gemeenskap. En so duidelik, Alice in Wonderland deur Walt Disney is hoogs gewild. Maar jy kan ook sien die top vier hier is wat jy dalk nie actually-- Dinge wat hoogs gebruik, maar jy kan nie dadelik verbind met Alice in Wonderland. So ons ou vriend Die Annotated Alice is hier. So ek kan 'n blik op dit. En nou wat ek soek by is basies 'n stel of-- Ek kan die Annotated Alice hier. Ek het inligting oor dit. En ek het ook 'n stackscore van, in hierdie geval, 26. En dit sê vir my soort van rofweg hoe ons hierdie stackscore, soos wat dit bewys nie, soos hoe Baie keer is dit is nagegaan, soos fakulteit of voorgraadse studente is, hoe baie kopieë van die biblioteek het, en so aan en so voort. En jy kan ook interessant genoeg hier, blaai deur die stapels feitlik. So die data hier, hierdie wys jou soort van 'n virtuele voorstelling van wat die rak dalk lyk as jy was om te neem al die biblioteek se besit en sit hulle saam op een oneindige rak. En die lekker ding is dat ons can-- Eerste van alles, die metadata oor hierdie boeke dikwels vertel wanneer dit gepubliseer is. Dit vertel jou hoeveel bladsye wat dit het. Dit mag dalk vir jou sê die dimensies. Sodat jy kan sien wat hier weerspieël in terme van die grootte van die boeke. En dan kan ons gebruik maak van die stapel telling te lig die boeke wat 'n hoër stapel tellings. So as dit donkerder word, beteken dit dat, vermoedelik, is dit meer dikwels gebruik. So in hierdie geval, ek is gaan om te raai dat dit is die weergawe van Alice in Wonderland wat baie algemeen gebruik word en die meeste verkry, die biblioteek het die meeste afskrifte van. So as jy op soek is na vir Alice in Wonderland, hierdie dalk 'n goeie plek om te begin. En dan is hier jy kan ook 'n skakel uit te sê, Amazon die boek te koop, en so aan en so voort. Die punt hier, weer, is nie soseer dat dit is die beste manier om die biblioteek te blaai of die regte gereedskap vir elke geleentheid. Maar dit is 'n ander manier om dit te doen. En deur die maak van die data wat beskikbaar is deur 'n API, wat gemaak van 'n baie eenvoudige boustene, wat kan jy die inhoud te soek, jy iets kan bou soos hierdie wat kan buitengewoon waardevol vir sommige mense. So dit is soort van, soveel as wat ek wil om werklik sê oor wat die API is en wat dit blootstel, is daar 'n hele n klomp van die dinge wat agter die skerms, wat Ek gaan net aan te raak vlugtig net omdat dit kom soort op hierdie uit 'n totaal ander hoek in terme van hoe iets soos hierdie kry in plek gestel? So 'n API is 'n standaard koppelvlak aan al hierdie inhoud. Maar dit is daar, die te kry eerste ding wat ons gehad het om te doen is trek inligting saam van boeke en beelde en die vind van hulpmiddels, die versameling dokument van verskeie Harvard stelsels. Aleph, VIA, en Oasis is die name van die stelsels. En hulle gaan in wese 'n pyplyn, 'n verwerking pyplyn. So die eerste van alles, kry ons die uitvoer lêers van al hierdie stelsels. Ons verdeel hulle in individuele items. So het ons 'n lêer, wat is 'n GB, wat 'n miljoen rekords in dit. So ons verdeel dit in individuele items. Dan, vir elke item, ons het dit omskep in MODS, omdat sommige van hierdie is native MODS, sommige van hulle is nie. So kry ons hulle almal te in dieselfde formaat. Dan is daar verskeie verryking stappe, waar voeg ons meer inligting aan die data as was in die biblioteek beskikbaar. Dus moet ons by te voeg, die eerste van alles ons het wat biblioteke hou dit oop. Ons gaan deur 'n stap van die berekening van die stackscore. Ons gaan deur 'n ander stap van die toevoeging van meer metadata in terme van wat versamelings mense kan bygevoeg het this-- Mense skep versamelings van items. Wat versamelings dit behoort? Hoe het mense tagged hierdie inhoud in die verlede? Dan moet jy uit te filter, en jy beperk die rekords, want soos ek genoem het, daar is 'n paar rekords wat, as gevolg van kopiereg redes, kan ons nie vertoon. En dan het ons laai dit in iets genoem Solr, wat nie 'n spelfout nie, maar is die naam van 'n stuk sagteware wat nie soek kruip, wat dryf al die search agter die API. En dan is dit beskikbaar raak te die API, en mense kan dit gebruik. So, dit is soos 'n redelik eenvoudige proses. Een van die interessante dinge oor dit dat ons hier met 13 miljoen rekords en ons gaan word wat of meer. En ons wil in staat wees om te hanteer dit in 'n relatief vinnige mode. Dit neem 'n lang tyd om te verwerk 13 miljoen rekords. So hoe hierdie pyplyn is opgestel is dat jy can-- Ek dink die voordeel van die pyplyn, die probleem is dat ons probeer om hier te los, is dat al die transformasies, al hierdie stappe in hierdie pyplyn is skeibare. Daar is geen afhanklikheid. As jy die verwerking 'n rekord van 'n boek, daar is geen afhanklikheid in wat tussen 'n ander boek. So, wat ons kan doen is basies, by elke stap in die pyplyn, ons sit dit in 'n tou in die wolk. Ek het gebeur om te wees op Amazon Web Services. So daar is 'n lys van, sê, 10,000 items wat moet genormaliseer wees en omgeskakel na MODS formaat. En ons draai as baie bedieners as ons wil, miskien 10 bedieners. En elkeen van daardie bedieners net daar sit, lyk in daardie tou, sien dat daar een wat moet word verwerk, trek dit af in die tou, verwerk dit, en stokke dit op die volgende ry. En ja, wat ons toelaat om te doen, is van toepassing, in wese, soveel hardeware soos ons wil hierdie probleem vir 'n baie kort periode van tyd die data te so vinnig as verwerk moontlik, dit is iets wat net, nou in die wêreld van die wolk rekenaar ons kan voorsiening bedieners wese onmiddellik, is dat nuttig. So ons het nie 'n te hê reuse bediener sit om al die tyd die verwerking te doen wat dalk net een keer gebeur 'n week. So dit is dit meestal. Daar is dokumentasie beskikbaar vir die API Library Wolk Item op hierdie URL, wat sal beskikbaar wees later. En asseblief gaan neem 'n blik op om dit te sien of daar enigiets, jy enige idees. Speel met dit. Fool rond. En hopelik jy kan kom met iets groot. Dankie.