JEFFREY LICHT: Hi there. Ja sam Jeffrey Licht. I ja sam ovdje s vama razgovarati o tome Harvard knjižnica i izgradnja sutra Danas knjižnica, valjda. Dakle, pozadina ovdje, Parcela za ovu sjednicu je u biti kako je dosta bibliografskih podataka dostupna u knjižnicama Harvarda. A tu je i prilika, kroz neke od alata i projekt koji se razvija, dobiti pristup informacijama i to na mjestima koja Harvard knjižnica ne radi upravo sada, napraviti nove stvari s njim, eksperiment i poigrati s njom. Dakle, polazna točka u ovo API zove Harvard knjižnica Cloud, koji je otvorena meta poslužitelja, što ću govoriti o tome sada. Dakle, pozadina je da postoji Puno stvari u Harvard knjižnici. Imamo više od 13 milijuna bibliografskih zapisi, milijuni slika, i tisuće obavijesnih pomagala, koja u biti su dokumenti koji opisuju zbirke, govoreći ono što je u njima, kutije radova i tako dalje da predstavljaju više milijun pojedinačnih dokumenata. A tu je i mnogo Informacije koje knjižnica ima o tome kako se koristi sadržaj koji može biti od interesa za ljude tko bi htio raditi s njim. Dakle, sve informacije Knjižnica ima metapodataka. Dakle metapodataka je podatke o podacima. Dakle, kada govorimo o Informacije koje je dostupni putem knjižnica oblak koji je na raspolaganju, to nije nužno stvarni dokumenti sami, a ne nužno i puna Tekst knjige ili slike u punoj, iako to zapravo može biti slučaj. No, to je stvarno informacija o podacima. Dakle, možete misliti katalogizaciju Informacije, pozivni brojevi, predmeti, koliko kopije Knjiga ima, ono su izdanja, što su formata, autori, i tako dalje. Dakle, postoji mnogo informacija o Informacije u zbirci koja, samo po sebi, je vrsta inherentno korisna. A ipak, ako ste rade u dubini istraživanja, ti očito žele doći do stvarne samom sadržaju i pogledate podatke, metapodataka je korisna u smislu i analizira korpus u cjelini, kao što su stvari u kolekciji. Kako se oni odnose? Pomaže li doista pronaći druge stvari, što je zapravo glavna svrha toga. Točka metapodataka i kataloga je da vam pomoći pronaći sve Informacije koje je dostupan u zbirkama. Dakle, ovo je primjer metapodataka za knjige u knjižnici Harvard. Tako da je tamo. A možete vidjeti da je zapravo umjereno složena. I dio vrijednosti metapodataka u Harvard knjižnični sustav je da je to bila neka vrsta izgrađen od strane catalogers i sastavljen od ljudi koji se prijavljuju puno znanja i vještine i mislio na nju s vremenom, koja ima mnogo vrijednosti. Dakle, ako ste uzeti pogledati ovaj rekord za Označeni Alice, možete saznati imaš titulu, tko ga je napisao, autora, a svi su različiti predmeti kojoj ljudi su ga katalogizirana u. A što možete vidjeti postoji također, u dodatak puno dobrih informacija Ovdje, postoji neki dupliciranje. Postoji mnogo složenosti koje je ogleda kroz metapodataka da imate. Dakle, jedan naslov ove knjige Alisa u zemlji čudesa. Dakle, to je označeni verzija toj knjizi. No, to je također pozvao Točku Alice, Alice je Avanture u zemlji čudesa, jer to je nešto što Martin Gardner je napisao i označeni knjigu. A tu je dosta velika informacija O logičkih zagonetki i stvari u Alice koja vas Vjerojatno nije znao. Tako da bi trebao ići pročitati ga. No, što se može vidjeti postoji puno detalja ovdje, uključujući identifikatore, kada je to stvorena, gdje je došao iz, U odnosu na Harvardu Sustav, i tako dalje. Dakle, ovo je uzorak vrsta metapodataka koje možete vidjeti za knjigu u Harvard Knjižnica skup. To je nešto sasvim drugo. Dakle, ne postoji sustav pod nazivom VIA Harvard, koji je u osnovi je katalogiziranje slike i objekte umjetnosti i vizualne stvari tijekom Harvardu, i dodao neke metapodatke za njih, klasificiranje ih, i, u nekim slučajevima, osigurava Minijatura slike koji možete poduzeti pogledati ako to žele. Dakle, ovo je primjer metapodataka koje imate na tanjuru od, vjerojatno, Alisa u zemlji čudesa. A što možete vidjeti postoji manje metapodataka ovdje. To je samo druga vrsta objekta. I tako ima manje informacija. Vi uglavnom imaju činjenicu da, poziv broj, bitno tko ga je stvorio, - Ne znamo kada je nastao. --and naslov. Drugi primjer. To je otkriće pomoći. Dakle, postoji zbirka Lewis Carroll je radovi na Harvardu. Dakle, ovo što opisuje je u toj zbirci. Dakle, netko je prošla i pogledao kroz sve kutije i katalogizirao, dati neki background, pisani sažetak onoga što je ovdje. A ako ste bili na pogledati dodatno na to, ovaj ide na stranicama i stranicama i stranice, ali će vam reći ono slova i ono datira iz onoga kutije postojala u cijeloj kolekciji. No, to je nešto da, ako ste na Harvardu, možete ići i zapravo fizički izgledaju i, vjerojatno, pogledajte. Dakle, ovo je sve super. To metapodataka je korisno. To je u Harvard knjižnični sustav. Postoje alati online, gdje vas Možete otići i pogledati u njega, i vidjeti, a to traži. A možete ga i kockice narezati to je u mnogo različitih načina. No, to je stvarno dostupna samo ako ti si čovjek sjedi u vašem web pregledniku ili nešto ili telefon i prolazite kroz nju. To zapravo nije dostupan u bilo kakav koristan način za druge sustave ili druga računala za korištenje, Ne sa sustavima unutar Knjižnica Harvard, ali sustavi u vanjskom svijetu, samo drugim ljudima. Dakle, pitanje je, kako možemo učiniti dostupnim računalima tako da možemo učiniti još zanimljivijim stvari s njim nego samo pregledavanje sami ga? Pa zašto bi želite učiniti? Postoji mnogo mogućnosti. Jedan od njih je što bi mogao izgraditi potpuno drugačiji način pregledavanja sadržaj koji je dostupan kroz Harvard knjižnica. Ja ću vam pokazati jedan kasnije nazvao Stacklife, koji ima potpuno drugačije preuzeti u potrazi za sadržaj. Ti bi mogao izgraditi preporuka motor. Dakle Harvard Knjižnica nije u Posao govoreći, volite ovu knjigu. Zatim idite pogledati na njih još 17 Knjige koje bi mogle biti zainteresirane za ili ti 18 ostalih slika. No, to sigurno mogao biti vrijedna značajka. A s obzirom metapodataka, to može moguće staviti zajedno. Možda ćete imati različite potrebe u Uvjeti traži sadržaj, kao što možda unatoč alata koji su na raspolaganju da knjižnica čini dostupni, možda želite tražiti na drugačiji način ili optimizirati za određenu uporabu slučaj, što možda je vrlo specijalizirani. Možda postoji samo nekoliko ljudi u svijetu koji su želite pretraživati ​​sadržaj na taj način, ali bilo bi sjajno kada bismo može neka to. Postoji puno analitike u koliko ljudi koristiti sadržaje koji bi stvarno zanimljivo znati, saznajte što se knjige koriste, što nisu, i tako dalje. A tu je i mnogo prilika za integraciju s druge informacije to je vani na webu. Tako smo have-- Na primjer, NPR ima Book Review segment, gdje su intervju Autori o knjigama. I tako to bi bilo sjajno, ako ste bili podigavši ​​knjigu u Harvardu Knjižnica, a ti kažeš, u redu, tu je bio razgovor s autorom. Idemo pogledati to. Ili postoji stranica Wikipedia, kao vjerodostojna, znanstveni reference O ovoj knjizi koja vas možda želite pogledati. Postoje ove vrste izvora razasuti po webu. I da ih stavi zajedno mogla biti velika uporabu nekome gleda sadržaj, u potrazi za nečim. No, to je također nije vrsta stvar koju bih Želite knjižnica biti odgovoran za idući prema dolje i lov dolje Svi ovi različiti izvori i uključiti ih zajedno jer oni mijenjaju kontinuirano. I ono što mislim da je važno svibnja ne biti ono što mislite da je važno. I još više, zapravo postoji Puno stvari nismo mislili od još. Dakle, ako možemo otvoriti ovo gore, više ljudi pored pola tuceta ili tako, koji se gleda na to na redovito se sjetiti ideje i masaža podataka, i učiniti ono što oni žele s njim. Dakle, želimo napraviti ovo dostupni na svijetu podataka. Pa, postoji nekoliko komplikacija. Jedan od njih je da je ovaj metapodataka u različitim sustavima. To je u različitim formatima. Dakle, postoji neki normalizacija što treba da se desi, što normalizacija se proces donosi stvari iz različitih formata te ih mapiranje na jednom formatu tako da su polja poklapati. Postoje neka ograničenja autorskih prava. Čudnovato dovoljno, unos u katalog O knjizi je odgovoran za autorska prava. Dakle, iako je to samo Informacije dobivene iz knjige, to je copyrightable. I ovisno o tome tko je zapravo stvorena da metapodataka, postoji svibanj biti ograničenja na koga Možete ga distribuirati, slično to-- Ne znam. To može, ali ne mora biti sličan Situacija tekstovima pjesama, npr. Dakle, svi znamo kako je to tave out. Tako vam je potrebno da biste dobili okolo tom pitanju. A onda još jedan je da postoji mnogo podataka. Dakle, ako sam nekoga tko želi raditi s podacima ili ima super ideja, bavi 14 milijuna kuna zapisi na moj laptop moglo biti problematično i teško upravljati. Dakle, želimo smanjiti barijere za osobe da bi mogli raditi s podacima. Tako pristup nadamo adrese svih tih problema je dva dijela. Jedan gradi platformu koja traje Podaci iz svih tih različitih izvora a otežava ga, normalizira, ga obogaćuje, i čini to dostupno na jednom mjestu. I to ga čini dostupan putem javni API da ljudi mogu nazvati. Dakle API je aplikacija Programiranje sučelja. I to u osnovi se odnosi na Krajnja točka koja sustava ili tehnologije možete nazvati i dobiti podatke natrag strukturirani format na način da se može koristiti. Dakle, to ne ovisi na ide na web stranicu i struganje podatke off to je, na primjer. Dakle, to je početna stranica Knjižnica Cloud točka API, koji je u suštini njegova verzija dva. Dakle, to je druga iteracija pokušava učiniti sve ove podatke dostupni na svijetu. Tako je http://api.lib.harvard.edu/v2/items. I samo razbiti ovaj dolje malo, što to znači je da je ova verzija dva API. Postoji inačica jedan, koji Neću govoriti o tome. No, tu je verzija jedan. I ako zovete ovo API, što su sve stavke. I dio idejom API je API je ugovor. To je nešto što je neće promijeniti. Tako, na primjer, - A razlog je da ako ja izgraditi nekakav sustav koji će se koristiti knjižnica oblak API za prikaz knjige ili pomoći ljudima da pronađu Informacije na jedinstven način, ono što ne želimo da se dogodi je za nas da ide promijeniti način kako API radi, i odjednom sve lomi na krajnjeg korisnika strani. Dakle, dio, ako radite API dostupan na svijetu, to je Dobra je praksa da se stavi Broj verzije u njemu, tako ljudi Znaš ono inačica oni bave. Dakle, ako smo odlučili smo pronaći bolji način stavljanja na raspolaganje ove informacije, bismo mogli promijeniti da bi nazvati tu verziju tri. Dakle, svatko tko je još uvijek koriste Verzija dva, da će i dalje raditi. Ali inačica tri bi imaju sve nove stvari. Dakle, to je API, ali ovo stvarno izgleda kao URL. I što je to primjer je ono što je pozvao API ostatak, koji je dostupan tijekom samo redovito web veze. A možete zapravo ići na nju u pregledniku. Dakle, ovdje sam upravo otvorio Firefox i otišao api.lib.harvard.edu/v2/items. I tako ono što mogu dobiti ovdje zapravo prva stranica rezultata iz cijele skup stavki koje imamo. I to je ovdje u XML formatu. I to je također bio prettified Firefox. To zapravo ne moraju svi ovi malo širi i ugovaranje doohickeys ovdje. To je vrsta ljepše Verzija način gledanja na nju. No, što to govori nam se Ja sam tražio sve stavke. Dakle, postoje 13289475 stavke. I ja gledam prvi 10, s početkom u poziciji nula jer u računalnoj znanosti uvijek početi od nule. A ono što sam ovdje, ako sam samo kolaps to, vidjet ćete da sam dobio 10 predmeta. A ako pogledamo na stavku, mogu vidim da sam dobio informaciju o tome. I to je ono što se zove MODS oblik. I tako ću se prebaciti ovamo na trenutak. OK. Tako ćemo tražiti nešto u posebna jer prvi predmet koji se događa da se, kada pogledate kroz cijelu kolekciju je, po definiciji, slučajni. Tako ćemo tražiti neke krafne. Oh. OK. Tako krafne. Tako smo našli tu su 80 predmeta u Zbirka koja referenca krafne. Tražimo u prvom njih 10. Sada, možete vidjeti ovdje način na koji I rekao sam u potrazi za krafne, Upravo sam dodao nešto niza upita URL. Dakle, q jednak krafne, koje možete pogledajte malo lakše ovdje. A to zapravo znači da je spec za API, koji je definira što sve Ovi parametri znače. A to znači da ćemo se Pretražite sve za krafne. Dakle, na prvom stavku ovdje imamo možete vidjeti naslov Donuts, a tu je titl naziva Američki strast, što je, pretpostavljam, potrebi. Postoji mnogo different-- Kada dođete do točke dobivanja podataka, Postoji mnogo različitih formati da možete ući. A tu su i različite jačine i slabosti za sve njih. Dakle ovo, možete vidjeti Ovdje, ovaj oblik je vrlo bogata. I to je standardizirana. Dakle, postoji određeni naslov polje, titl polje. Postoji alternativni Naslov, American strast. Tu je ime povezano s njom. Tip je izvor teksta. Tu je puno informacija ovdje u ovom formatu. No, tu su i hrpa različitih formata. Dakle, ono što smo bili samo gledajući je format nazivaju MODS, koja se zalaže za Metadata Objekt Opis usluga, potencijalno. Ja sam zapravo sasvim sigurni S. Ali, to je prilično složena format. To je zadani format. No, to je onaj koji čuva bogatstvo svih podataka da knjižnica ima, jer to je vrlo blizu onome što Knjižnica koristi interno. To je standard koji je koristi u cijeloj zemlji, diljem svijeta u akademskim knjižnicama. I to je vrlo udjelovanje. Dakle, ako ste je dobio dokument koji je u Mods formatu, možete dati da se netko drugi čiji sustavi razumiju Modovi, i oni mogu uvesti. Dakle, to je standard. To je vrlo dobro definirana, vrlo specifičan. I to je ono što ga čini udjelovanje jer ako netko kaže, ovo je alternativni naslov snimanje, svi znaju što to znači. S druge strane, to je vrlo komplicirano. Dakle, ako ste se pogledati U ovom rekord ovdje, ako ja samo želim da se Naslov ovog dokumenta, ove knjige, koja je vjerojatno Donuts, Američki Passion, parsiranje ga je malo koji su uključeni. Dok postoji još jedan Format naziva Dublin Core, što je mnogo, mnogo jednostavniji oblik. I tako vidite ovdje, ne postoji naslov, podnaslov, alternativni naslov. Postoji samo naslov, Donuts, American strast, i još jedan naslov, American strast. Dakle, kada ste u potrazi na kojoj formi želite dobiti podatke iz, Puno ovisi o tome kako ti si idući u ga koristiti. Koristite li za interoperabilnost ili radite Želite nešto jednostavno da možda biti lakše raditi? S druge strane, puno Pojedinosti se vrsta squished dolje. Možda ćete izgubiti nijanse ono što posebno znači polja Ako ste se bave Dublin Core, koji ne bi dobili s Mods. Dakle, to su dva formata možete dobiti iz API. A u biti, mi smo imajući je iza kulisa u Mods. No, možemo vam dati ga u Mods a Dublin Core i sve ostalo što je dobro. Drugi obzir prilikom ste u potrazi za podacima je li ga dobiti ili kao JSON, koji znači JavaScript Object notacija, ili XML, koja se zalaže za Extensible Markup Language. I ovi podaci prikazi i ima točno iste podatke, točno istom području. Ali oni su samo sintaktički razlikuju. Dakle, to je A- Pa, neka je samo prebaciti. Dakle, ovo je naš upit za krafne u XML formatu. Ako sam samo prebaciti to biti JSON, Vidim da izgleda drugačije. Dakle, sada je to isti sadržaj, ali različite strukture. Postoje manje uglate zagrade. Tu je manje preopširan. A to je format koji, ako vas rade u web okruženju, što se najvjerojatnije događa da želite koristiti, jer jednom od lijepih stvari o JSON je je kompatibilan s JavaScript. Dakle, ako ja pišem web aplikaciju, mogu povući u JSON i jednostavno raditi s njim izravno. Dok s XML, to je malo više komplicirano. Pa opet, to su i korisni. Samo su različiti slučajevi korištenje gdje se ljudi možda žele da ih koriste. OK. Dakle, natrag na API. Dakle, možemo tražiti for-- Dajem primjer u potrazi za krafne. Također možete tražiti samo u Posebno polje roku ovdje. Dakle, umjesto da traži Cijeli rekord, Mogu samo traži polje naslov. I tako sada ima 25 stvari koje ima krafne u naslovu, od kojih je jedan o vraćanju močvare u upravljanju rupe u krafna Program, koji je vjerojatno nije nužno ono što tražimo kad smo u potrazi za krafne. Također možete, ako ste bave API-- Dio ima API daje Ljudi pristup do velikih skupova podataka. A tu su i par drugačiji Alati možete koristiti za to. Jedan od njih je, vrlo jednostavno, što Možete stranica putem podataka. Dakle, baš kao da ste učinili upit putem web sučelja, možete pogledati na stranici jedne, Stranica dvije, tri stranice. Možete napraviti isto stvar kroz API. Vi samo trebate biti izričit u tome što to učinite. Tako na primjer, ako tražim na moj prvi upit ovdje, gdje radim potragu za stvarima s krafnama u naslovu, ja mogu reći, a ograničenje iznosi 20, što znači daj mi prvih 20 zapisa, a ne prvih 10, što je zadana, jer želim gledati na 20 u isto vrijeme. Ili ja mogu reći, postaviti početi jednak 20 i granice jednaka 20, koji će dati ja bilježi 21 do 40. Pa valjda je stvar oduzeti ovdje da smo pomoću žice upita postaviti parametre na upit. I to vam omogućuje kontrolu ono što ste dobili natrag. Još jedan alat koji možete koristiti, - I to je zapravo korisna u Uvjeti istražujući podatke. --is nešto što se zove faceting. Dakle, termin je faceting Ne nužno zajedničko. No, svi smo ga vidjeli prije. Ako pogledamo Amazon, na primjer, i obaviti pretrage za krafne u knjigama, Ovdje oni 'je dobio niz knjiga, i oni su grupirani po kategorijama, i dobiti različite kategorije, i koliko knjiga u svakoj kategoriji pojaviti. Dakle, to je u osnovi aspekt. Možete uzeti sve njihove knjige, 1800 Knjige koje odgovaraju krafne na Amazonu. 12 od njih su u Kategorija doručak. 21 u tijesto i pečenje, i tako dalje i tako dalje. Dakle, ovo je stvarno korisno alat za istraživanje sadržaj u knjižnici te jer kada pogledate na aspekt, To vam daje ideju o tome koje su teme postoji, kao što vrste predmeta su najpopularniji u vašem upita set. I to vam pomaže da otjerati i istraživanje. Dakle, što možemo učiniti istu stvar. Ako želite koristiti API i pogledati aspektima, možemo dodati još jedan parametar naš prijatelj niza upita. Dakle aspektima jednako zarez odvojen popis onoga što želimo aspekt dalje. Tako je jedan od aspekata može biti predmetom. Drugi bi mogao biti jezik. I tako, ako smo pokrenuti taj upit, mi get-- Izgleda prilično mnogo isto ovdje. No, dodali smo do kraja popisa skup aspekata. Dakle, imamo aspekt zove predmet. Dakle, to nam govori da ako gledam na moje 80 rezultata krafna upit, 13 od njih su podvrgnuti Sjedinjene Države. Tri su predmetnih krafne. Tri su predmet močvarnih obnove, koja može biti naš rupa u krafne. Dvije od njih, Simpsoni, i tako dalje i tako dalje. Dakle, to može biti korisno ako želite suziti svoju pretragu. To vam može pomoći da to učiniti. Pogotovo ako imate više od, recimo, 80 rezultati. Isto tako, zamolili smo za aspekata na jeziku. Dakle, ako gledamo na naše rezultate, vidjet ćemo 76 od njih su na engleskom jeziku, četiri na francuskom, dva na španjolskom, dva, mislim da je to nedefiniran ili nepoznato, nizozemski i latinski. Zato mislim da je latinski krafna rezultat, opet, nema nikakve veze s pečenim proizvodima. Ali tamo ići. Dakle, to je vrsta te prikazuje Kako možete povući sadržaj natrag iz API samo kroz web preglednik, što je super. No, to zapravo nije ono što bi obično se koriste u API za njega. Tako je jedan primjer kako vas moze napraviti to imam napisano super mali program, koji je, opet, ne moja krafna pretraživanje i odabire par polja i prikazuje ih u tablici. Dakle, to je vrlo Isti sadržaj koji smo upravo pila s nekoliko polja izvukao. Dakle, popis naslova, u Položaj što knjiga je oko, jezik, i tako dalje i tako dalje. Pa kako se to zapravo dogodilo, jer Mislim da moramo gledati u nekom kodu, is-- Ono što imamo ovdje je jednostavan HTML stranica, koji prikazuje tekst, Dobrodošli u knjižnici oblaka i zatim prikazuje tablicu rezultata. A tu su očito nema rezultata u stol, kada Stranica se učitava. No, ono što smo radili je, prije svega, što se učitava knjižnicu pod nazivom jQuery, što je u osnovi JavaScript knjižnica, što ga čini vrlo lako manipulirati JavaScript nativno, HTML i izradu web stranica, klijent-side logike i web stranice. Pa što imamo ovdje je jQuery ima metodu pod nazivom Get, koji se u bitnome će ići URL, koji je, u ovom slučaju, ovo poznato izgleda URL. A onda će doći na sadržaj da URL, a zatim pokrenuti funkciju na njemu. Tako smo, rekao je otići api.lib.harvard / edu. Traži krafne. Dajte nam 20 zapisa. A onda pokrenuti ovu funkciju, što Ja sam odabrana, prolazi mu podatke. A podatak da je JSON dobio vratio iz API. I onda mi kaže, da u roku Podaci postoji polje naziva stavke. I ako odem pogledati unatrag na jedan od ovih rezultata koje je ovdje, postoji nešto called-- Pa, to se zove opcija. Tako da može biti da. A što je to ipak ga prolazi kroz svaku stavku i onda zove još Funkcija na svaku stavku. A da je funkcija osnovi uzima vrijednost stavke koje se biti osobni rekord i omogućuje nam da izvući naslov, Pokrivenost i jezik. Tako mi nazivamo funkcionira na svim predmet koji smo se vratili iz API. A ako samo pogledamo U ovom komadu upravo ovdje, ono što mi radimo je mi stvaramo niz, što je u biti neki HTML markup oko stola, s value.title, što je titula objekt, value.coverage, što je pokrivenost, - I mi smo radili ček Ovdje se vidi tko je nedefiniran i to skriva li ona kaže nedefinirana, jer nismo stvarno zanima u tome. --and zatim jezik. I onda ono što smo radi se dodavanjem da na stolu koji je prepoznaje se po tom nizu ovdje. A kako se radi jQuery je ono što se to govori je u potrazi za stolom s idejom Rezultati i dodati ovaj tekst na njega. I ovo je tablica s rezultatima ideju. Dakle, ono što ste završili s je stranicu ovdje. A kako bi vidjeli source-- Pa, izvor zapravo nije ažurira kada se to dogodilo. Tako možete vidjeti stvarna Rezultati tablice ovdje ipak. Dakle, to je samo jednostavan primjer radi vrlo osnovni upit protiv API i prikazivanje podataka na neki drugi čine, a ne radi ništa previše fancy. Sada, još jedan primjer je kao Zahtjev je napisao David Weinberger kao demo toga što u biti pokazuje Kako možete zgnječiti do rezultata da ste uzimajući iz knjižnice oblaka API s, recimo, Google Books. I razmišljanje je da ja mogu pokrenuti upit protiv Google Books, dobiti cjelovito tekstualno pretraživanje, dobiti neke rezultate natrag, saznati koji od tih predmeta Zapravo postoje u Hollis, knjižnični sustav, i onda mi daju linkove natrag na tim stavkama. Dakle, ako sam tražiti, bilo je mračna i olujna noć, ja vratiti hrpu rezultata iz Googlea, a zatim je jedan rezultat što je bora u vremenu. A to su linkovi na knjige koje postoje u Harvard knjižnice sustava. Dakle, mislim da ovdje se ne toliko da to može ili ne biti onako kako želite tražiti u knjižnicu, ali to je potpuno drugačiji Način na koji nije bio dostupan za vas prije, kao da nikako nije mogla raditi Puni tekst pretraživanja na knjige koje još bili su dio Harvard knjižnice sustava. Dakle, sada je to način koje možete učiniti. A možete ih prikazati u bilo kojem formatu želite. Dakle, ovdje se, zapravo, mi smo otvaranje nove načine za ljude za rad s podacima. Drugi dio knjižnice oblaka je da pomaže izložiti neke podatke u korištenja da knjižnica ima. Dakle, ako idete u knjižnicu, a vi ste u potrazi za knjige, što ne mora nužno zapravo imaju ideju, za sve stavke u Konkretno predmet, što ljudi u zajednice, bilo da je definira kao Harvardu ili zemlja ili vaš razred, Što su otkrili najkorisnije? A knjižnica zapravo ima tona informacija o tome što je vrlo korisno, jer ako se puno ljudi su checking out knjigu, koji vam govori nešto. Tu mora biti neki razlog oni žele da se to provjeriti. Puno ljudi ga staviti na rezervi. Ako je na rezervni popis za puno nastave, koji vam govori nešto. Ako nastavnici su provjere iz puno i studenti nisu, da mi kaže nešto. Vice versa, koji je također govori vam nešto. Dakle, to bi bilo jako zanimljivo stavio tu informaciju vani i neka ljudi ga koristiti da im pomogne pronaći djeluje u okviru knjižničnog sustava. Druga strana je to postoje neke ozbiljne privatnosti zabrinutost zbog jednog od temeljne odrednice o knjižnici se nećemo biti priča ljudi što drugi ljudi čitaju. Pa čak i ako ovo govorim Knjiga je provjerio četiri puta u određenom mjesecu, kako bi se mogla koristiti link na određeni Osoba koju de-anonimnim podataka i saznati tko je to provjerio. Dakle, način na koji možemo avoid-- Način na koji možemo pokušati izvući Neki signal iz svih informacija bez povrede ičije privatnost je u biti gledamo 10 godina podataka o korištenju, - Tako da je tijekom dugog vremenskog razdoblja. --and reći, OK, neka je vidjeti kako mnogo puta to je rad koji se koriste, i koji su tijekom tog razdoblja vremena, a zatim se u osnovi vratiti broj koji zovemo stog rezultat, koji je u osnovi predstavlja koliko je bio korišten. I to number-- Mnogo različitih kalkulacija ići u taj broj. --but je vrlo grubo podatak koji vam pruža neke ideje o tome kako Zajednica može cijeniti taj posao. I tako jedna vrsta čak više konkretizira primjenu koji iskorištava to je nešto zove Stacklife, koji je zapravo dostupne putem glavnog Harvardu Knjižnica portal. Dakle, ići na library.harvard.edu. Vidjet ćete veliki broj različitih načini traženja knjižnici. A jedan od njih se zove Stacklife. A to je aplikacija koja pregleda sadržaja knjižnice, ali potpuno je izgrađen na vrhu tih API. Dakle, ne postoji posebna stvar događa iza kulisa. Nema pristupa Podaci koje nemate. To je pomoću API-ja koji će vam dati s potpuno različitim pregledavanja iskustva. Dakle, ako sam tražiti Alice u zemlji čudesa u ovom slučaju, I dobiti rezultat koji izgleda kao to, što je prilično much-- To je vrlo slično na bilo koji drugi pretraživanja što bi mogli učiniti, osim u ovom slučaju mi smo rangiranje stavke stackscore, koji vam pruža neke ideje o tome kako popularni ovi predmeti bili u zajednici. I tako jasno, Alice in Wonderland Walt Disney je vrlo popularan. No, što se također može vidjeti četiri najbolje Ovdje su one koje se ne bi moglo actually-- Stvari koje su vrlo koriste, ali ne smijete odmah povezivanje s Alice u zemlji čudesa. Dakle, naš stari prijatelj Točku Alice je ovdje. Dakle, ja mogu pogledati njega. A sada ono što tražim u osnovi je postavljen of-- Mogu imati Točku Alice ovdje. Imam informacije o tome. I ja također imaju stackscore od, u ovom slučaju, 26. A to mi govori vrsta grubo Kako smo došli do ovoga stackscore, kao i tko je to provjerio, kao i kako mnogo puta to je odjavljena, kao i fakulteta ili undergrads, kako mnoge kopije knjižnica, i tako dalje i tako dalje. A također možete, dovoljno zanimljiva Ovdje, pregledati snopove gotovo. Tako su podaci ovdje, to vas pokazuje svojevrsno virtualnog predstavljanja od onoga što je polica moći izgledati, ako ste bili da se Svi knjižnici građa i staviti ih zajedno na jednoj beskrajnoj polici. I lijepo je što smo can-- Prije svega, metapodataka o tim knjigama često govori kada je objavljena. To vam govori koliko stranica ima. To bi moglo reći dimenzije. Dakle, možete vidjeti da se ogleda ovdje u smislu veličine knjige. A onda možemo koristiti stog rezultat za isticanje knjige koje su veće stog rezultate. Dakle, ako je tamnija, to znači da je, vjerojatno, da se upotrebljava češće. Dakle, u ovom slučaju, ja sam će pogoditi da je ovaj je verzija Alise u zemlji čudesa koji se vrlo često koristi i većina pristupiti, knjižnica ima najviše kopije. Dakle, ako ste u potrazi za Alisa u zemlji čudesa, to bi moglo biti dobro mjesto za početak. I onda ovdje možete povezati se da, recimo, Amazon kupiti knjigu, i tako dalje i tako dalje. Točka ovdje, opet, Nije toliko da je ovaj je najbolji način za pregledavanje knjižnicu ili pravi alat za svaku prigodu. No, to je još jedan način to radi. I čineći podatke dostupan putem API-ja, koji je izrađen je od vrlo jednostavnih građevnih blokova, koja vam omogućuje pretraživanje sadržaja, možete izgraditi nešto kao što je to da je moguće biti izuzetno vrijedna nekim ljudima. Dakle, to je vrsta, koliko god želim reći zaista o tome što je API a ono što izlaže, postoji cijeli gomila stvari iza kulisa, što Samo ću se osvrnuti na kratko Samo zato što na neki način dolazi na ovaj iz sasvim drugog kuta u Uvjeti kako se nešto ovako se staviti na svoje mjesto? Dakle API je standardni sučelje za sve ove sadržaje. No, da bi ga tamo, Prva stvar koju smo morali napraviti je pribrati podatke knjiga i slika i obavijesnih pomagala skup Dokument iz različitih Harvarda sustava. Aleph, VIA, a OAZA su imena sustava. A oni u biti idu u Plinovod, obradu cjevovod. Dakle, prije svega, dobili smo izvoz datoteke iz svih tih sustava. Mi ih podijeliti u pojedinim stavkama. Dakle, imamo datoteku, što je gigabajt, koji ima milijun zapisa u njemu. Tako smo ga podijeljen na posebne stavke. Zatim, za svaku stavku, možemo ga pretvoriti u mods, jer su neki od njih su nativno MODS, neki od njih nisu. Tako ćemo ih sve do biti u istom formatu. Zatim tu su i razne obogaćivanje koraka, gdje ćemo dodati više informacija o podacima nego je dostupna u knjižnici. Dakle, moramo dodati, prije svega imamo ono knjižnice ga držite. Idemo kroz koraku izračuna stackscore. Idemo kroz drugi korak dodavanjem više metapodataka u smislu o onome što zbirki ljudi možda je dodao this-- Ljudi stvaraju zbirke predmeta. Što zbirki to pripada? Kako su se ljudi tagged Ovaj sadržaj je u prošlosti? Tada ćete filtrirati, a ograničiti zapisi, jer, kao što sam spomenuo, postoji neki zapisi koji, zbog autorskih prava, ne možemo prikazati. I onda smo ih učitati u nešto što se zove Solr, što nije pogrešno napisana, ali je naziv komad softvera koji radi za pretraživanje indeksiranje, što vozi sve pretrage iza API. I onda to postaje dostupna API-ja, i ljudi mogu ga koristiti. Dakle, to je kao prilično jednostavan proces. Jedan od zanimljivih stvari o tome je da se radi o s 13 milijuna albuma a mi ćemo se bave ili više. A mi želimo biti u mogućnosti da obrađuju to u relativno brz način. Potrebno je dugo vremena da obraditi 13 milijuna ploča. Pa kako to da je cjevovod postaviti je da li can-- Mislim da je prednost plinovod, problem koji smo pokušavaju riješiti ovdje, da sve transformacije, sve ovi koraci u tom Plinovod se odvojiti. Nema ovisnosti. Ako ste obradu zapis o jednoj knjizi, nema ovisnosti u da je između drugu knjigu. Dakle, ono što možemo učiniti je zapravo, na svakom koraku u cjevovod, smo ga stavili u red u oblaku. Slučajno sam se na Amazon Web Services. Dakle, postoji popis, kažu, 10.000 stavke koje trebaju biti normaliziran i pretvoriti u Mods formatu. A mi zavrti onoliko poslužiteljima kao što smo željeli, možda 10 poslužitelja. I svaki od tih poslužitelja jednostavno sjedi, gleda u tom redu, vidi da je onaj koji treba se obrađuju, vuče off redu, ga obrađuje i palicama to na sljedeći red. I tako ono što nas omogućuje učiniti je prijaviti, u biti, koliko hardver kao i mi želimo da se to Problem u vrlo kratkom vremenskom razdoblju obraditi podatke što je brže moguće, što je nešto što se samo, Sada u svijetu cloud computing mi može odredbom poslužitelji u osnovi trenutno je to korisno. Dakle, ne moramo imati div poslužitelja sjede Sve vrijeme za napraviti obradu da bi se moglo dogoditi samo jednom tjedno. Dakle, to je uglavnom to. Postoji dokumentacija dostupni za knjižnice Cloud točka API na ovom URL-u, koji će se biti dostupna kasnije. I molimo vas pogledajte da li postoji nešto, Imate li ideje. Igrajte se s njim. Šaliti. I nadam se da možete doći s nešto veliko. Hvala Vam.