JEFFREY LICHT: Ahoj. Som Jeffrey Licht. A ja som tu s tebou hovoriť o Harvard Library a budovanie zajtrajšie dnes knižnica, myslím. Takže pozadia tu, ihrisko pre túto reláciu je v podstate, že je veľa bibliografických údajov k dispozícii v knižniciach Harvard. A je tu príležitosť, cez niektoré z nástrojov a projekt, ktorý je vyvíjaný, získať prístup k informáciám a vziať ho do miest, ktorá Harvard knižnica nie je práve teraz robí, robiť nové veci s tým, experiment a hrať sa s ním. Takže vstupný bod do toho je API volal Harvard Library Cloud, ktorý je otvorený server, metadáta, ktorý budem hovoriť teraz. Takže pozadie je, že je Veľa vecí v knižnici Harvard. Máme viac ako 13 miliónov bibliografických evidencia, milióny obrázkov, a tisíce archívnych pomôcok, ktoré sú v podstate dokumenty opisujúce zbierky, hovoriť, čo je v nich, krabice papierov a tak ďalej, ktoré reprezentujú viac ako milión jednotlivé dokumenty. A je tu tiež veľa informácie, ktoré má knižnica o tom, ako sa používa, aby obsah by mohlo byť zaujímavé pre ľudí kto by mohol chcieť, aby s ním pracovať. Takže všetky informácie Knižnica má metadáta. Takže metadáta sú dáta o dátach. Takže keď hovoríme o informácie, ktoré je k dispozícii cez knižnicu mrak, ktorý je k dispozícii, to nie je nevyhnutne skutočné dokumenty samy o sebe, nemusí byť úplný Text knihy alebo plné obrazov, aj keď v skutočnosti, že môže byť v prípade. Ale je to naozaj informácie o dátach. Takže si môžete myslieť katalogizácia informácie, telefónne čísla, predmety, koľko kópií kniha tam sú, čo sú vydanie, aké sú formáty, autori, a tak ďalej. Takže tam je veľa informácií o Informácie v kolekcii, ktorá, samo o sebe, je vo svojej podstate druh užitočné. A aj keď ak ste robí in-podrobný výskum, budete zrejme chcieť dostať do skutočnej uspokojiť a pozrieť sa na údaje, metadát je užitočné, pokiaľ ide o obe analýzy korpusu ako celok, ako to, čo veci sú v kolekcii. Ako sa týkajú? To vám pomôže naozaj nájsť iné veci, čo je naozaj hlavným účelom toho. Bod metadáta a katalóg je pomôcť vám nájsť všetky informácie, ktoré je k dispozícii v rámci zbierok. Tak toto je príklad metadát pre knihu v knižnici Harvard. Takže je to tam. A môžete vidieť, že je to v skutočnosti mierne komplex. A časť hodnoty metadát v rámci systému Harvard knižnice sa, že to bolo nejako zastavané by Katalogizátor a zostavila osôb žiadajúcich veľa odborných znalostí a zručností a myšlienka nej v priebehu času, ktorý má veľa hodnoty. Takže ak ste sa pozrieť na tento záznam pre Anotovali Alice, môžete zistiť, máte titul, ktorý to napísal, autor, a všetky rôzne predmety ktoré ľudia do katalógu do. A môžete vidieť, že je tiež v prídavok na veľa dobrých informácií tu, tam je nejaký opakovanie. Je tu veľa zložitosti, že je to prejavuje prostredníctvom metadát že máte. Takže jeden titul z tejto knihy je Alenka v ríši divov. Tak toto je poznámkami verzia tejto knihy. Ale je to tiež volal komentovaný Alice, Alenka v ríši divov, pretože to je niečo, čo sa Martin Gardner napísal a komentovaný knihu. A je tu veľa skvelé informácie o logických hádaniek a veci v Alici, že vás asi nevedel o. Takže by ste mali ísť prečítať. Ale môžete vidieť, že je to veľa detailov tu, vrátane identifikátorov, keď ju bol vytvorený, odkiaľ pochádza, pokiaľ ide o Harvard systém, a tak ďalej. Tak to je ukážka typ metadát ktoré ste mohli vidieť na knihu v kolekcia Harvard knižnice. To je niečo úplne iné. Takže tam je systém nazvaný VIA Harvard, ktorý v podstate je katalogizácia obrazov a umeleckých predmetov a vizuálne veci v celom Harvarde, a doplnení niektorých metadáta k nim, ich triedenie, a, v niektorých prípadoch, poskytujúce malé náhľady ktoré si môžete vziať pozrite sa na ak si to želajú. Tak toto je príklad metadáta, že máte na tanieri z, pravdepodobne, Alenka v ríši divov. A môžete vidieť, že je to menej metadáta tu. Je to len iný druh objektu. A tak je tu menej informácií. Väčšinou musíte skutočnosť, volanie číslo, v podstate, kto ju vytvoril, - Nevieme, kedy bol vytvorený. --and titulu. Ďalším príkladom. To je pomôcka. Takže tam je zbierka Lewis Papiere Carroll je na Harvarde. Tak to opisuje, čo sa je v tejto kolekcii. Takže niekto prešiel a Pozrel sa cez všetky boxy a katalogizované to s ohľadom na niektoré pozadí, písomný prehľad o tom, čo je to tu. A ak ste sa pozrieť ďalej na to, to ide na stránky a stránky a strany, ale povie vám čo písmená a čo pochádza z toho, čo boxov existoval v celej zbierky. Ale toto je niečo, čo to, že ak ste na Harvarde, môžete ísť a skutočne fyzicky vyzerať up a, pravdepodobne, pozrite sa na. Tak to je všetko skvelé. Táto metadáta je užitočné. Je to v systéme, Harvard knižnice. K dispozícii sú nástroje on-line, ak vás môže ísť a pozrieť sa na to, a vidieť to, a hľadať to. A môžete plátok a kocky sa v mnohých rôznymi spôsobmi. Ale je to naozaj k dispozícii iba v prípade, Ste človek sedieť vo Vašom webovom prehliadači, alebo tak niečo, alebo telefón a navigáciu cez to. Nie je to naozaj k dispozícii v akékoľvek využiteľné módy pre iné systémy alebo ostatné počítače na použitie, Niet sa systémy v rámci Harvard knižnice, ale systémy vo vonkajšom svete, len ostatní ľudia všeobecne. Otázkou teda je, ako môžeme aby bolo k dispozícii pre počítače takže môžeme urobiť zaujímavejšie veci s ním, než len Prechádzanie to sami? Tak prečo by ste mali chcieť, aby to urobiť? Existuje veľa možností. Jedným z nich je môžete vytvoriť úplne odlišný spôsob prezerania obsah, ktorý je k dispozícii cez Harvard knižnice. Ukážem vám jednu neskôr volal Stacklife, ktorý má úplne iný vziať na hľadanie obsahu. Dalo by sa postaviť odporúčania motor. Takže Harvard knižnica nie je v obchodné povedať, páči sa vám túto knihu. Potom choďte sa pozrieť na týchto 17 ďalší knihy, ktoré by vás mohli zaujímať v alebo týchto 18 ďalších záberov. Ale to iste mohol byť cenná vlastnosť. A vzhľadom k tomu metadáta, môže to možné uviesť, že dohromady. Tie môžu mať rôzne potreby v Podmienky vyhľadávania obsahu, Trebárs aj cez nástroje, ktoré sú k dispozícii, že knižnica je k dispozícii, možno budete chcieť hľadať iným spôsobom alebo optimalizovať pre konkrétny prípad použitia, čo možno je to veľmi špecializované. Možno, že existuje len málo ľudí na svete, ktorí chcete vyhľadávať obsah týmto spôsobom, ale by bolo skvelé, keby sme mohol nechať urobiť. Je tu veľa analytics V tom, ako ľudia použiť obsah, ktorý by bolo naozaj zaujímavé vedieť, zistite aké knihy sa používajú, čo nie sú, a tak ďalej. A potom je tu veľa možnosť integrovať s ďalšími informáciami že je tam na webe. Tak sme have-- Napríklad, má NPR Recenzia knihy segmentu, kde sa rozhovor Autori o knihách. A tak to by bolo skvelé, keby ste boli vzhliadol knihu v Harvard Knižnica, a vy hovoríte, OK, je tu Bol rozhovor s autorom. Poďme sa pozrieť na to. Alebo je tu stránka Wikipédie, as autoritatívne, vedecké referencie o tejto knihe, ktorá vás chcieť, aby sa pozrieť na. K dispozícii sú tieto typy zdrojov rozptýlené po celom webe. A je zbližovať by mohol byť skvelý použitie na niekoho pri pohľade na obsah, hľadá niečo. Ale to tiež nie je druh vec, ktorú by ste Ak knižnica byť zodpovedný pre prechod dole a naháňať Všetky tieto rôzne zdroje a upchávanie je spolu pretože sa neustále mení. A to, čo si myslia, že je dôležité, máj nebude to, čo si myslíte, že je dôležité. A ešte viac, v podstate je tu Veľa vecí sme sa mysleli, napriek tomu. Takže ak môžeme otvoriť toto hore viac, Ľudia okrem pol tucta alebo tak, ktorí sa pri pohľade na to na pravidelne, môže myslieť nápadov a masáž dát, a robiť, čo chcú s ním. Preto chceme, aby to k dispozícii do sveta dát. No, existuje pár komplikácie. Jedným z nich je, že táto metadáta je v rôznych systémoch. Je to v rôznych formátoch. Takže tam je nejaký normalizácia ktorý sa má stať, ktorý normalizácia je proces prinášať veci z rôznych formátov a ich mapovanie na jednotnom formáte takže polia budú zhodovať. Existujú určité obmedzenia autorských práv. Napodiv, vstup katalóg o kniha je zodpovedný za autorské práva. Takže aj keď je to len informácie získané z knihy, to je copyrightable. A podľa toho, kto vlastne vytvoril metadát, môže byť obmedzenie na to, kto Môžete ho distribuovať, podobný to-- Neviem. To môže, ale nemusí byť podobné situácia piesňových textov, napríklad. Tak sme sa všetci vieme, ako to panvy von. Takže je potrebné sa dostať okolo tejto otázky. A potom ďalší kus že je tu veľa dát. Takže ak som niekoho, kto chce pracovať s údajmi, alebo má skvelý nápad, rokovania s 14000000 záznamov na mojom notebooku by mohlo byť problematické a ťažké. Takže chceme znížiť bariéry pre ľudí aby bolo možné pracovať s dátami. Takže prístup, ktorý by snáď adresy všetky tieto obavy sú dve časti. Jedným z nich je budovanie platformy, ktorý trvá Dáta zo všetkých týchto rôznych zdrojov a zhoršuje to, normalizuje, obohacuje, a značky je k dispozícii na jednom mieste. A to je to k dispozícii prostredníctvom verejné API, ktoré môžu ľudia volať. Takže API je Application Programming Interface. A to v podstate odkazuje na Koncový bod, že systém alebo technológie zavolať a získať dáta späť do štruktúrovaný formát spôsobom ktorá môže byť použitá. Takže to nie je závislý ďalej na webové stránky a škrabanie dáta z nej, napr. Tak to je domovská stránka Knižnica Cloud Item API, ktorý je v podstate jeho verzia dve. Takže je to druhá iterácia sa snaží, aby všetky tieto údaje k dispozícii na celom svete. Tak to je http://api.lib.harvard.edu/v2/items. A práve rozčleniť tento systém trochu, čo to znamená je to, že je to verzia dve API. K dispozícii je verzia jedna, čo Nebudem hovoriť. Ale je tu jedna verzia. A ak voláte to API, ste získali položky. A časť myšlienky API je API je zmluva. Je to niečo, čo je nebude meniť. Tak napríklad, - A dôvodom je, že keď som vytvoriť nejaký systém, ktorý bude používať knižnice cloud API Pre zobrazenie knihy alebo pomôcť ľuďom nájsť Informácie v jedinečným spôsobom, to, čo nechceme, aby sa stalo je pre nás ísť zmeniť spôsob, akým že API funguje, a zrazu všetko prestávky na koncových strane užívateľa. Takže časť, ak robíš API k dispozícii na celom svete, je to dobrým zvykom dať číslo verzie v tom, aby ľudia vedia, akú verziu sú čo do činenia s. Takže keď sme sa rozhodli sme nájsť lepší spôsob, tvorby tieto informácie k dispozícii, môžeme zmeniť na volať, že verzia tri. Takže každý, kto je stále používa verzia dve, že bude aj naďalej fungovať. Ale verzia tri by mať všetky nové veci. Tak toto je API, ale to Naozaj vyzerá ako URL. A tak to, čo to je Príkladom je to, čo je volal odpočinok API, ktorý je k dispozícii cez len bežné webové pripojenie. A môžete skutočne ísť na to v prehliadači. Tak tu som sa práve otvorila Firefox a šiel do api.lib.harvard.edu/v2/items. A tak to, čo som sa sem dostal, je v podstate prvá stránka výsledkov z celej súbor predmetov, ktoré sme dostali. A je to tu vo formáte XML. A je to tiež prikrášlili Firefox. To nie je v skutočnosti majú všetky tieto málo rozširovanie a uzatváranie zmlúv doohickeys tu. To je trochu krajšie verzia spôsob, ako sa na to pozrieť. Ale čo je to nám hovorí, je Ja som požiadal všetky položky. Takže tam sú 13.289.475 položky. A ja som pri pohľade na prvý 10, začína v polohe nulovej pretože v informatike začíname vždy od nuly. A to, čo som tu, keď som kolaps to, uvidíte ja mám 10 položiek. A keď som sa pozrieť na položky, môžem vidieť, že mám informácie o ňom. A to je to, čo sa nazýva MODS formulár. A tak budem prepínať späť sem na chvíľu. OK. Takže poďme hľadať niečo v špecifické tým, že ako prvú položku, ktorá sa stane prísť, keď sa pozriete cez celú kolekciu je, podľa definície, náhodný. Tak sa poďme pozrieť na niektoré šišky. Oh. OK. Takže šišky. Tak sme tam našli je 80 položky v Kolekcia, ktorá odkazujú šišky. Pozeráme sa na prvých 10 z nich. Teraz môžete vidieť tu spôsob, akým Povedal som, Hľadám šišky, Len som pridal niečo reťazec dotazu URL. Takže q sa rovná šišky, ktoré si môžete pozri trochu ľahšie tu. A to v podstate znamená, že je spec pre API, ktoré definuje, čo všetko Tieto parametre znamenajú. A to znamená, že budeme hľadať všetko, čo pre šišky. Takže na prvú položku tu máme môžete vidieť, titul je Donuts, a tam je podtitul s názvom Americký Passion, čo je, myslím, vhodné. Existuje mnoho different-- Akonáhle sa dostanete do bodu, o získanie dát, existuje veľa rôznych formáty, ktoré sa môžete dostať do. A tam sú rôzne sily a slabé stránky pre všetky z nich. Tak toto, môžete vidieť tu, táto forma je veľmi bohatá. A to je štandardizovaný. Takže je tu konkrétny titul pole, pole titulkov. K dispozícii je alternatívna titul, American Passion. Tam je názov s ním spojené. Typ zdroja je textu. Je tu veľa informácií tu v tomto formáte. Ale sú tu partia z rôznych formátoch. Takže to, čo sme boli len je pri pohľade na formát zvanej MODS, čo znamená Metadáta Object Popis Service, potenciálne. V skutočnosti som si celkom istý, o S. Ale je to celkom zložitý formát. To je predvolený formát. Ale je to ten, ktorý drží bohatosť všetkých údajov že knižnica má preto je to veľmi blízko k tomu, čo Knižnica používa interne. Je to štandard, ktorý je používa po celej krajine, po celom svete, v akademických knižniciach. A to je veľmi interoperabilné. Takže ak máte dokument že je vo formáte MODS, si môžete dať, že pre niekoho iného ktorých systémy pochopiť mods, a môžu ho importovať. Takže je to štandardné. Je to veľmi dobre definované, veľmi špecifické. A to je to, čo robí to spolupracovať, pretože ak niekto hovorí, To je alternatívny názov rekord, každý vie, čo to znamená. Na druhú stranu, je to veľmi zložité. Takže ak ste sa pozrieť V tomto zázname tu, ak chcem len, aby si názov tohto dokumentu, z tejto knihy, ktorá je pravdepodobne Donuts, Americký Passion, rozobrať ho je trochu zapojiť. Vzhľadom k tomu, že je iný formát nazvaný Dublin Core, čo je oveľa, oveľa jednoduchšie formát. A tak tu vidíte, nie je názov, podtitul, alternatívny názov. Je tu len titul, Donuts, American Passion, a ďalší titul, American Passion. Takže, keď sa pozeráte na to, akú formu Ak chcete získať dáta z, Veľa záleží na tom, ako budete používať. Ste použitím interoperability alebo si Chcete niečo jednoduchého, že by mohlo byť jednoduchšie pracovať? Na druhú stranu, veľa Podrobnosti si trochu naskladali dole. Môžete prísť o nuansy čo určitej oblasti prostriedok ak máte čo do činenia s Dublin Core, ktoré by ste si s MODS. To sú dva formáty sa môžete dostať von z API. A v podstate, držíme to v zákulisí v MODS. Ale môžeme dať ju do Mods a Dublin Core a niečo aj inde. Ďalšie plnenie, ak hľadáte v dátach ich môžete získať buď ako JSON, ktorý je skratka pre JavaScript Object Notation, alebo XML, čo je skratka pre Extensible Markup Language. A tieto dátové reprezentácie oboch majú rovnaké údaje, presne rovnakých oblastiach. Ale sú to len syntakticky inak. Tak toto je je-- No, tak to proste prejsť. Tak toto je náš dotaz pre šišky vo formáte XML. Keď som sa prejsť to, že JSON, Vidím, že to vyzerá inak. Takže teraz je to rovnaký obsah, ale odlišná štruktúra. Tam je menej lomené zátvorky. Je tu menej ukecaný. A to je formát, ktorý, ak máte pracujú v prostredí webu, ste sa s najväčšou pravdepodobnosťou bude chcieť použiť, pretože jeden z pekných vecí o JSON je je kompatibilný s JavaScriptom. Takže keď píšem webové aplikácie, môžem vytiahnuť JSON a práve s ním pracovať priamo. Vzhľadom k tomu, s XML, je to trochu zložitejšie. Takže znovu, to sú obaja použiteľné. Proste sú rôzne prípady použitia kde sa ľudia môžu chcieť použiť. OK. Takže späť k API. Takže môžeme hľadať for-- Dám príklad vyhľadávanie šišky. Môžeme tiež hľadať len v Najmä oblasť v sem. Takže namiesto toho, hľadanie celý záznam, Môžem len hľadať v názve poľa. A tak teraz tam sú veci, ktoré 25 majú šišky v názve, z ktorých jedna je o obnovenie mokrade v oblasti riadenia z otvoru v šišky Program, ktorý je pravdepodobne nemusí byť nutne to, čo hľadáme , Keď sme hľadali šišky. Môžete tiež, keď ste rokovania s API-- Časť má API dáva ľudia prístup k veľkých dátových súborov. A existuje niekoľko rôznych nástroje, ktoré môžete použiť k tomu, že. Jedným z nich je, veľmi jednoducho, vy možno prechádzať dáta. Takže rovnako, ako by ste urobiť dotaz cez webové rozhranie, sa môžete pozrieť na prvej strane, strana dva, strana tri. Môžete urobiť to isté to prostredníctvom rozhrania API. Je len potrebné byť Výslovne sa v tom, ako to urobiť. Tak napríklad, ak sa pozerám na môj prvý dotaz tu, kde robím hľadanie vecí s šišky v názve, môžem povedať, a hranice sa rovná 20, čo znamená, daj mi prvých 20 záznamov, nie prvých 10, čo je predvolené nastavenie, preto, že chcem sa pozrieť na 20 naraz. Alebo môžem povedať, nastavte začne vo výške 20 a limitu rovná 20, ktorá bude obsahovať me záznamy 21 až 40. Takže myslím, že vec odniesť tu že sme pomocou reťazca dotazu nastaviť parametre na dotaz. A to vám umožní kontrolu to, čo dostanete späť. Ďalším nástrojom, ktorý môžete použiť, - A to je naozaj užitočné Podmienky skúmanie dát. --is niečo ako faceting. Takže termín faceting je nie nevyhnutne bežné. Ale vy ste všetci videli predtým. Ak ste sa pozrieť na Amazon, napríklad, a vy hľadanie šišky v knihách, Tu mám sériu kníh, a oni sú zoskupené podľa kategórií, a dostanete rôzne kategórie, a koľko kníh v každej kategórii ukázať. Tak to je v podstate aspekt. Budete mať všetky svoje knihy, 1800 knihy, ktoré zodpovedajú šišky na Amazon. 12 z nich je v raňajky kategórie. 21 v pečive a pečenie, a tak ďalej a tak ďalej. Tak toto je naozaj užitočný nástrojom pre skúmanie obsahu v knižnici, ako pretože keď sa pozriete na fazety, To vám dáva predstavu o tom, čo predmety existuje, ako to, čo typy objektov sú najobľúbenejšie priamo vo Vašom sade dotazu. A to vám pomôže odísť a preskúmať. Takže môžeme urobiť to isté. Ak chceme použiť API a pozrieť sa na aspekty, pridáme ďalší parameter na náš priateľ reťazec dotazu. Takže aspektov rovná oddelených čiarkou Zoznam toho, čo chceme, aby aspekt ďalej. Takže jeden z aspektov by mohli byť predmetom. Ďalším môže byť reč. A tak keď narazíme tento dotaz, my get-- Vyzerá to skoro tu rovnaký. Ale sme pridali na koniec zoznamu súbor aspekty. Takže máme aspekt s názvom predmet. Tak to nám hovorí, že keď sa pozriem v mojich 80 vyplýva z dotazu šišky, 13 z nich podrobiť Spojené štáty. Traja majú na ktoré šišky. Tri majú predmet mokraďových reštaurovanie, ktoré môžu byť naše diera v šišky. Dvaja z nich, Simpsons, a tak ďalej a tak ďalej. Takže to môže byť užitočné, ak Chcete zúžiť vyhľadávanie. To vám môže pomôcť urobiť. Zvlášť ak máte viac než, povedzme, 80 riadkov. Rovnako tak, sme sa pýtali pre aspekty na jazyk. Takže ak sa pozrieme na naše výsledky, vidíme 76 z nich sú v angličtine, štyri vo francúzštine, dva v španielčine, dva, myslím, že je to nedefinovaný alebo neznáme, holandský a latinčina. Takže si myslím, latinčinu šiška výsledok, opäť, nemá nič spoločného s pečiva. Ale tam idete. Tak toto je trochu ukáže vám, Ako si môžete stiahnuť obsah späť z API práve prostredníctvom webový prehliadač, čo je skvelé. Ale to nie je to, čo by ste za normálnych okolností použitie v API pre to. Takže jeden z príkladov, ako sa by sa skutočne urobiť, je som napísal super malý program, ktorý opäť robí môj šišku vyhľadávania a vyberie pár polí a zobrazí ich v tabuľke. Tak to je veľmi Rovnaký obsah, ktorý sme práve píla s niekoľkými poli vytiahol von. Takže zoznamu titulov, na namiesto toho, čo knihy je asi, jazyk, a tak ďalej a tak ďalej. Tak, ako sa to vlastne stalo, od tej doby Myslím, že by sme sa pozrieť na nejaký kód, je-- To, čo tu máme, je jednoduchý HTML strana, ktorá zobrazuje text, vitajte na knižnice cloudu a potom zobrazuje tabuľku výsledkov. A tam sa v zrejme žiadne výsledky stôl, keď sa stránka sa nahrá. Ale čo robíme je v prvom rade, sme vkladáte knižnice s názvom jQuery, čo je v podstate knižnica JavaScript, čo z neho robí veľmi ľahko manipulovať JavaScript natívne, HTML, a vytvoriť webové stránky, na strane klienta logika a webové stránky. Takže to, čo tu máme, je jQuery má metódu nazvanú Get, ktorý v podstate pôjde do URL, ktorý v tomto prípade, Je to známy vyzerajúce URL. A potom si obsah z že URL a spustiť funkciu na to. Tak sme si povedali ísť do api.lib.harvard / edu. Hľadať šišky. Dajte nám 20 záznamov. A potom spustiť túto funkciu, ktorá Ja som zvolený, odovzdáte jej dáta. A dáta JSON, že dostal sa vrátil z API. A potom hovoríme, že v rámci Dáta tam je pole s názvom položky. A keď idem sa pozrieť späť na jeden z týchto výsledkov, ktoré je tu, je tu niečo called-- No, je to len bod. Tak, že môže byť, že. A to, čo robí, je to prechádza každú položku a potom volá ďalšie funkcie na každej položke. A že funkcia v podstate berie hodnotu položky, ktorá je v podstate individuálny rekord a umožňuje nám vytiahnuť titul, pokrytie a jazyk. Tak sme volanie funkcie na každý položka, ktorá sme sa vrátili z API. A ak si stačí sa pozrieť V tomto kúsku tu, to, čo robíme, je sme vytvoriť reťazec, čo je v podstate niektoré značky HTML okolo stola, s value.title, čo je názov objekt, value.coverage, čo je pokrytie, - A robíme kontrolu tu vidieť, kto je definovaný a skrývanie, ak hovorí, že nedefinované, preto, že sme naozaj záujem sa tým, že. --and potom jazyk. A potom to, čo sme robí, je, že pripojením do tabuľky, ktorá je identifikovať podľa tohto reťazca tu. A ako jQuery funguje je to, čo to hovorí sa pozrieť na tabuľku s myšlienkou výsledky a pridajte tento text k tomu. A to je tabuľka s výsledkami nápad. Takže to, čo ste skončili s je na túto stránku tu. A aby sa mohli source-- No, zdroj nie je v skutočnosti aktualizovať, keď sa to stalo. Takže môžete vidieť aktuálne Výsledky v tabuľke tu hoci. Takže je to len jednoduchý príklad robí veľmi jednoduchý dotaz na rozhraní API a zobrazovanie informácií v inej tvorí, a nič nerobí moc fantázie. A teraz, ďalší príklad je ako Aplikácia napísal David Weinberger ako demo tohto, ktorý v podstate ukazuje, ako si môžete zapariť na výsledky, kde si dostať z knižnice cloud API s, povedzme, Knihy Google. A myslenie je, že môžem Spustení dotazu proti Google Books, získať fulltextové vyhľadávanie, získať nejaké výsledky späť, zistiť, ktorý z týchto položiek skutočne existujú v Hollis, knižničný systém, a potom mi odkazy späť do týchto položiek. Takže keď som sa hľadať, to bolo temná a búrlivá noc, ja dostať späť veľa výsledkov od spoločnosti Google, a potom jeden výsledok čo je vyhladenie vrások v čase. A to sú odkazy na knihy, ktoré existujú v rámci systému Harvard knižnice. Takže myslím, že bod tu nie je tak veľmi, že to môže alebo nemusí je spôsob, akým chcete hľadať knižnicu, ale to je úplne iná spôsob, ktorý nebol k dispozícii pre vás pred, ako ste mali žiadny spôsob, ako robiť Plné znenie hľadá na knihy, ktoré aj boli súčasťou systému Harvard knižnice. Takže teraz je to cesta ktoré môžete urobiť. A môžete zobraziť v akomkoľvek formáte, budete chcieť. Takže bod tu je, v podstate, sme otvára nové možnosti pre ľudí pre prácu s dátami. Ďalší kus knižnice mraku je to, že to pomáha vystaviť niektoré údaje o použití že knižnica má. Takže ak idete do knižnice, a hľadáte pre knihy, nemusíte nutne v skutočnosti majú predstavu, pre všetky položky v najmä predmet, čo sú ľudia v komunity, či už je to definovaná ako Harvard, alebo krajiny alebo vaša trieda, to, čo sa našli najvhodnejšie? A knižnica v skutočnosti má ton informácií o tom, čo je veľmi užitočné, pretože v prípade, že mnoho ľudí, ktorí sú mimo kontrolu knihu, že vám povie niečo. Tam musí byť nejaký dôvod chcú pozrieť sa na to. Veľa ľudí ju na rezervy. Ak je to na rezervný zoznam pre mnoho tried, ktoré vám povie niečo. Ak sa členovia katedry sú to kontroly out veľa a vysokoškoláci nie sú, to mi hovorí niečo. Vice versa, že tiež hovorí vám niečo. Tak to by bolo naozaj zaujímavé dal, že informácie tam a nechať ľudia používajú, aby im pomohla nájsť práce v rámci knižničného systému. Odvrátenou stranou je tam sú niektoré vážne o ochrane osobných údajov obavy, pretože jeden z základné princípy knižnice sa my nebudeme hovoriť Ľudia, čo ostatní ľudia čítajú. A aj keď sa hovorí, to Kniha bola odhlásil štyrikrát v určitom mesiaci, ktorý by mohol byť použitý odkazujú na konkrétne človek by de-anonymizácie údajov a zistiť, kto ju odhlásil. Takže spôsob, ako môžeme avoid-- Spôsob, akým sa môžeme pokúsiť extrahovať nejaký signál od všetkých informácií bez porušenia obavy niekto o ochrane osobných Je v podstate sa pozrieme na 10 rokov údaje o používaní, - Takže je to po dlhú dobu. --and povedať, OK, poďme sa pozrieť, ako mnohokrát táto práca bola použitá a kto v tomto období času, a potom sa v podstate vrátiť číslo, ktoré nazývame stack skóre, čo v podstate predstavuje, ako moc to bolo použité. A to number-- Mnoho rôznych výpočtov prejsť na toto číslo. --but, že je to veľmi hrubý metrika, ktorá vám dáva určitú predstavu o tom, ako obec môže oceniť túto prácu. A tak iný druh aj viac konkretizovať prihlášku že využíva to je niečo nazvaný Stacklife, čo je v skutočnosti k dispozícii cez hlavnú Harvard Knižnica portál. Takže idete do library.harvard.edu. Uvidíte viac rôznych spôsoby hľadania knižnice. A jeden z nich sa volá Stacklife. A to je aplikácia, ktorá prechádza obsah knižnice, ale je úplne postavený v hornej časti týchto API. Takže nie je žiadny zvláštne veci deje v zákulisí. Neexistuje žiadny prístup k Údaje, ktoré nemáte. Je to pomocou rozhrania API poskytnúť vám s úplne iným prehliadanie zážitok. Takže keď som sa hľadať Alice v ríši divov v tomto prípade, Mám výsledok, ktorý vyzerá ako to, čo je celkom much-- To je veľmi podobné iným vyhľadávania môžete robiť, s výnimkou v tomto prípade sme rebríčku položky by stackscore, ktorý vám poskytne nejakú predstavu o tom, ako populárne týchto položky boli v rámci komunity. A tak jasne, Alenka v ríši divov Walt Disney je veľmi populárny. Ale môžete tiež vidieť horné štyri Tu sú tie, ktoré nemusia actually-- Veci, ktoré sú vysoko použité, ale nemusí hneď spojte sa s Alenka v ríši divov. Takže náš starý priateľ Poznámkami Alice je tu. Tak som si vziať na to pozrieť. A teraz to, čo hľadám v je v podstate nastavená of-- Môžem mať komentovaný Alice tu. Mám informácie o tom. A mám tiež stackscore o, v tomto prípade 26. A to mi hovorí, trochu hrubo Ako sme sa dostali k tomuto stackscore, ako kto ho odhlásil, ako ako mnohokrát bolo odhlásené, ako fakulty alebo undergrads, ako veľa kópií knižnica, a tak ďalej a tak ďalej. A môžete tiež dosť zaujímavý tu, prechádzať stohy virtuálne. Tak tu sú údaje, to ukazuje zoradiť virtuálne reprezentácie toho, čo si police sily vyzerať, ak ste boli, aby sa všetky poľnohospodárske podniky knižnice a dať ich dohromady na jednej nekonečné polici. A pekná vec je, že sme can-- Po prvé, metadáta o týchto knihách Často vám povie, kedy bola publikovaná. To vám povie, koľko stránok má. Mohlo by ti rozmery. Takže môžete vidieť, že sa tu prejavuje z hľadiska veľkosti kníh. A potom môžeme použiť stack skóre zvýrazniť knihy, ktoré majú vyššie skóre zásobníka. Takže ak je to tmavšia, to znamená, že, Možno predpokladať, že to je viac často používané. Takže v tomto prípade, ja som bude hádať, že tento je verzia Alenky v ríši divov ktorá je veľmi bežne používaná a najviac prístupné, knižnica má najviac kópie. Takže ak hľadáte pre Alenka v ríši divov, to môže byť dobrým miestom pre začiatok. A potom tu si môžete tiež spojiť so na, povedzme, Amazon kúpiť knihu, a tak ďalej a tak ďalej. Pointa, znova, nie je ani tak, že sa je najlepší spôsob, ako prechádzať knižnicu alebo správny nástroj pre každú príležitosť. Ale je to iný spôsob, ako to urobiť. A tým, že dáta k dispozícii cez API, čo je vyrobená z veľmi jednoduchých stavebných blokov, ktorý umožňuje vyhľadávať v obsahu, môžete vytvoriť niečo takto, že môže byť mimoriadne cenný pre niektorých ľudí. Tak to je druh, rovnako ako ja chcem povedať, naozaj o tom, čo je API a to, čo odhaľuje, je tu celá veľa vecí, v zákulisí, čo Ja som jednoducho ísť na dotyk krátko len preto, že tak nejako príde na to z úplne iného uhla o tom, ako robí niečo také si dať na svoje miesto? Takže API je štandardný rozhranie pre všetky tohto obsahu. Ale aby sa to tam, Prvá vec, ktorú sme museli urobiť sa ťahať za jeden povraz informácie kníh a obrazov a nález pomáha, kolekcia Dokument z rôznych systémov Harvard. Aleph, VIA, a OASIS sú názvy systémov. A v podstate idú do potrubia, spracovanie potrubia. Takže v prvom rade, dostaneme export súbory zo všetkých týchto systémov. Rozdelili sme ich do jednotlivých položiek. Takže máme súbor, ktorý je gigabyte, ktorý má milión záznamov v ňom. Tak došlo k rozdeleniu na jednotlivé položky. Potom, pre každú položku, sme to konvertovať do MODS, pretože niektoré z nich natívne MODS, niektoré z nich nie sú. Tak sme si ich všetky byť v rovnakom formáte. Potom sú tu rôzne obohacovanie kroky, kde pridáme ďalšie informácie k údajom než bol k dispozícii v knižnici. Preto musíme pridať, najprv máme to, čo knižnice držať. Ideme cez krokom výpočtu stackscore. Prechádzame ďalší krok pridanie ďalších metadát, pokiaľ ide O tom, čo zbierok ľudí mohol pridal tohle-- Ľudia sa vytvára zbierky predmetov. Čo zbierky to patrí? Ako sa ľudia označili tento obsah v minulosti? Potom ste odfiltrovať, a obmedziť záznamy, pretože, ako som už spomenul, tam je nejaké záznamy, že z dôvodu dôvodu ochrany autorských práv, nemôžeme zobraziť. A potom sme ich nahrať do niečoho zvaného Solr, čo nie je chybne napísané, ale je názov kus softvéru že robí vyhľadávanie indexovanie, čo riadi všetky vyhľadávania za API. A potom je k dispozícii na API, a ľudia môžu používať. Takže to je ako celkom priamočiary proces. Jedným zo zaujímavých veci, o to je že máme čo do činenia s 13 miliónov platní a my sa bude rokovania alebo viac. A my chceme byť schopní zvládnuť Tieto relatívne rýchle spôsobom. Trvá dlho, než sa spracovať 13 miliónov záznamov. Tak, ako to potrubie je nastavenie je, že ste can-- Myslím, že tú výhodu, že potrubia, problém, že sme sa snaží riešiť tu, je to, že všetky transformácie, všetko týchto krokov potrubia sú oddeliteľné. Nie je závislosť. Ak ste spracovanie záznam o jednej knihe, nie je závislosť na že medzi ďalšie knihu. Takže to, čo môžeme urobiť, je v podstate, na každom kroku v potrubí, dáme do fronty v cloude. Náhodou som sa byť na Amazon Web Services. Takže tam je zoznam, hovoria, 10,000 položky, ktoré musí byť normalizované a prevedené do formátu MODS. A my sme točiť ako mnoho serverov ako sme chceli, možno 10 serverov. A každý z týchto serverov len sedí tam vyzerá v tejto fronte, vidí, že je tu ešte jedna, ktorá musí spracované, ťahá ju preč z frontu, spracuje ju a palice sa na ďalšie fronty. A tak, čo to nám umožňuje urobiť, je použiť, v podstate, toľko hardware, ako by sme chceli, aby to problém po veľmi krátku dobu tak rýchlo, ako spracovávať dáta je to možné, čo je niečo, čo len, teraz vo svete cloud computingu Môžeme sa poskytovanie servery v zásade okamžite, že je užitočný. Takže sme nemuseli mať Obrie servera sedieť po celú dobu robiť spracovania že by sa mohlo stať len raz za týždeň. Takže to je väčšinou to. K dispozícii je dokumentácia k dispozícii Pre knižnice Cloud položky API na tejto adrese URL, bude čo bude k dispozícii neskôr. A prosím, choďte sa pozrieť na je vidieť, či tam je niečo, Máte nejaké nápady. Hrajte sa s ním. Hlúposti. A dúfajme, že môžete prísť s niečím veľkým. Děkuju.