1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY LICHT: Ahoj. 3 00:00:12,370 --> 00:00:13,550 Som Jeffrey Licht. 4 00:00:13,550 --> 00:00:17,890 A ja som tu s tebou hovoriť o Harvard Library a budovanie zajtrajšie 5 00:00:17,890 --> 00:00:20,870 dnes knižnica, myslím. 6 00:00:20,870 --> 00:00:23,040 Takže pozadia tu, ihrisko pre túto reláciu 7 00:00:23,040 --> 00:00:26,930 je v podstate, že je veľa bibliografických údajov 8 00:00:26,930 --> 00:00:28,400 k dispozícii v knižniciach Harvard. 9 00:00:28,400 --> 00:00:33,434 A je tu príležitosť, cez niektoré z nástrojov 10 00:00:33,434 --> 00:00:36,350 a projekt, ktorý je vyvíjaný, získať prístup k informáciám 11 00:00:36,350 --> 00:00:42,430 a vziať ho do miest, ktorá Harvard knižnica nie je práve teraz robí, 12 00:00:42,430 --> 00:00:45,460 robiť nové veci s tým, experiment a hrať sa s ním. 13 00:00:45,460 --> 00:00:52,413 >> Takže vstupný bod do toho je API volal Harvard Library Cloud, ktorý 14 00:00:52,413 --> 00:00:57,650 je otvorený server, metadáta, ktorý budem hovoriť teraz. 15 00:00:57,650 --> 00:01:02,595 Takže pozadie je, že je Veľa vecí v knižnici Harvard. 16 00:01:02,595 --> 00:01:07,150 Máme viac ako 13 miliónov bibliografických evidencia, milióny obrázkov, 17 00:01:07,150 --> 00:01:11,090 a tisíce archívnych pomôcok, ktoré sú v podstate dokumenty opisujúce 18 00:01:11,090 --> 00:01:15,500 zbierky, hovoriť, čo je v nich, krabice papierov 19 00:01:15,500 --> 00:01:21,080 a tak ďalej, ktoré reprezentujú viac ako milión jednotlivé dokumenty. 20 00:01:21,080 --> 00:01:24,290 A je tu tiež veľa informácie, ktoré má knižnica 21 00:01:24,290 --> 00:01:28,180 o tom, ako sa používa, aby obsah by mohlo byť zaujímavé pre ľudí 22 00:01:28,180 --> 00:01:32,400 kto by mohol chcieť, aby s ním pracovať. 23 00:01:32,400 --> 00:01:36,150 >> Takže všetky informácie Knižnica má metadáta. 24 00:01:36,150 --> 00:01:39,500 Takže metadáta sú dáta o dátach. 25 00:01:39,500 --> 00:01:42,070 Takže keď hovoríme o informácie, ktoré je 26 00:01:42,070 --> 00:01:44,890 k dispozícii cez knižnicu mrak, ktorý je k dispozícii, 27 00:01:44,890 --> 00:01:47,760 to nie je nevyhnutne skutočné dokumenty 28 00:01:47,760 --> 00:01:53,060 samy o sebe, nemusí byť úplný Text knihy alebo plné obrazov, 29 00:01:53,060 --> 00:01:54,890 aj keď v skutočnosti, že môže byť v prípade. 30 00:01:54,890 --> 00:01:57,550 Ale je to naozaj informácie o dátach. 31 00:01:57,550 --> 00:02:00,909 >> Takže si môžete myslieť katalogizácia informácie, telefónne čísla, predmety, 32 00:02:00,909 --> 00:02:02,700 koľko kópií kniha tam sú, čo 33 00:02:02,700 --> 00:02:06,380 sú vydanie, aké sú formáty, autori, a tak ďalej. 34 00:02:06,380 --> 00:02:12,250 Takže tam je veľa informácií o Informácie v kolekcii, ktorá, 35 00:02:12,250 --> 00:02:14,400 samo o sebe, je vo svojej podstate druh užitočné. 36 00:02:14,400 --> 00:02:19,230 A aj keď ak ste robí in-podrobný výskum, 37 00:02:19,230 --> 00:02:25,160 budete zrejme chcieť dostať do skutočnej uspokojiť a pozrieť sa na údaje, 38 00:02:25,160 --> 00:02:30,140 metadát je užitočné, pokiaľ ide o obe analýzy korpusu ako celok, 39 00:02:30,140 --> 00:02:33,870 ako to, čo veci sú v kolekcii. 40 00:02:33,870 --> 00:02:35,520 Ako sa týkajú? 41 00:02:35,520 --> 00:02:39,482 To vám pomôže naozaj nájsť iné veci, čo je naozaj hlavným účelom toho. 42 00:02:39,482 --> 00:02:41,190 Bod metadáta a katalóg 43 00:02:41,190 --> 00:02:43,230 je pomôcť vám nájsť všetky informácie, ktoré je 44 00:02:43,230 --> 00:02:46,590 k dispozícii v rámci zbierok. 45 00:02:46,590 --> 00:02:53,690 >> Tak toto je príklad metadát pre knihu v knižnici Harvard. 46 00:02:53,690 --> 00:02:56,370 Takže je to tam. 47 00:02:56,370 --> 00:02:59,850 A môžete vidieť, že je to v skutočnosti mierne komplex. 48 00:02:59,850 --> 00:03:04,610 A časť hodnoty metadát v rámci systému Harvard knižnice 49 00:03:04,610 --> 00:03:09,320 sa, že to bolo nejako zastavané by Katalogizátor 50 00:03:09,320 --> 00:03:12,720 a zostavila osôb žiadajúcich veľa odborných znalostí a zručností 51 00:03:12,720 --> 00:03:20,030 a myšlienka nej v priebehu času, ktorý má veľa hodnoty. 52 00:03:20,030 --> 00:03:25,450 >> Takže ak ste sa pozrieť na tento záznam pre Anotovali Alice, môžete zistiť, 53 00:03:25,450 --> 00:03:32,590 máte titul, ktorý to napísal, autor, a všetky rôzne predmety 54 00:03:32,590 --> 00:03:35,380 ktoré ľudia do katalógu do. 55 00:03:35,380 --> 00:03:40,110 A môžete vidieť, že je tiež v prídavok na veľa dobrých informácií 56 00:03:40,110 --> 00:03:42,852 tu, tam je nejaký opakovanie. 57 00:03:42,852 --> 00:03:45,560 Je tu veľa zložitosti, že je to prejavuje prostredníctvom metadát 58 00:03:45,560 --> 00:03:46,300 že máte. 59 00:03:46,300 --> 00:03:50,320 >> Takže jeden titul z tejto knihy je Alenka v ríši divov. 60 00:03:50,320 --> 00:03:53,880 Tak toto je poznámkami verzia tejto knihy. 61 00:03:53,880 --> 00:03:56,380 Ale je to tiež volal komentovaný Alice, Alenka 62 00:03:56,380 --> 00:03:58,570 v ríši divov, pretože to je niečo, čo sa 63 00:03:58,570 --> 00:04:00,430 Martin Gardner napísal a komentovaný knihu. 64 00:04:00,430 --> 00:04:03,369 A je tu veľa skvelé informácie o logických hádaniek a veci 65 00:04:03,369 --> 00:04:05,410 v Alici, že vás asi nevedel o. 66 00:04:05,410 --> 00:04:07,000 Takže by ste mali ísť prečítať. 67 00:04:07,000 --> 00:04:11,940 >> Ale môžete vidieť, že je to veľa detailov tu, 68 00:04:11,940 --> 00:04:15,340 vrátane identifikátorov, keď ju bol vytvorený, odkiaľ pochádza, 69 00:04:15,340 --> 00:04:17,420 pokiaľ ide o Harvard systém, a tak ďalej. 70 00:04:17,420 --> 00:04:20,350 Tak to je ukážka typ metadát 71 00:04:20,350 --> 00:04:24,340 ktoré ste mohli vidieť na knihu v kolekcia Harvard knižnice. 72 00:04:24,340 --> 00:04:26,680 >> To je niečo úplne iné. 73 00:04:26,680 --> 00:04:32,610 Takže tam je systém nazvaný VIA Harvard, ktorý v podstate 74 00:04:32,610 --> 00:04:39,990 je katalogizácia obrazov a umeleckých predmetov a vizuálne veci v celom Harvarde, 75 00:04:39,990 --> 00:04:44,010 a doplnení niektorých metadáta k nim, ich triedenie, 76 00:04:44,010 --> 00:04:49,200 a, v niektorých prípadoch, poskytujúce malé náhľady 77 00:04:49,200 --> 00:04:51,250 ktoré si môžete vziať pozrite sa na ak si to želajú. 78 00:04:51,250 --> 00:04:54,240 >> Tak toto je príklad metadáta, že máte na tanieri 79 00:04:54,240 --> 00:04:57,840 z, pravdepodobne, Alenka v ríši divov. 80 00:04:57,840 --> 00:05:00,499 A môžete vidieť, že je to menej metadáta tu. 81 00:05:00,499 --> 00:05:02,040 Je to len iný druh objektu. 82 00:05:02,040 --> 00:05:03,425 A tak je tu menej informácií. 83 00:05:03,425 --> 00:05:07,790 >> Väčšinou musíte skutočnosť, volanie číslo, v podstate, kto ju vytvoril, - 84 00:05:07,790 --> 00:05:10,410 >> Nevieme, kedy bol vytvorený. 85 00:05:10,410 --> 00:05:13,320 >> --and titulu. 86 00:05:13,320 --> 00:05:14,300 >> Ďalším príkladom. 87 00:05:14,300 --> 00:05:16,380 To je pomôcka. 88 00:05:16,380 --> 00:05:19,030 Takže tam je zbierka Lewis Papiere Carroll je na Harvarde. 89 00:05:19,030 --> 00:05:23,601 Tak to opisuje, čo sa je v tejto kolekcii. 90 00:05:23,601 --> 00:05:26,100 Takže niekto prešiel a Pozrel sa cez všetky boxy 91 00:05:26,100 --> 00:05:32,220 a katalogizované to s ohľadom na niektoré pozadí, písomný prehľad o tom, čo je to tu. 92 00:05:32,220 --> 00:05:35,290 A ak ste sa pozrieť ďalej na to, to 93 00:05:35,290 --> 00:05:39,620 ide na stránky a stránky a strany, ale povie vám 94 00:05:39,620 --> 00:05:41,860 čo písmená a čo pochádza z toho, čo boxov 95 00:05:41,860 --> 00:05:44,289 existoval v celej zbierky. 96 00:05:44,289 --> 00:05:46,330 Ale toto je niečo, čo to, že ak ste na Harvarde, 97 00:05:46,330 --> 00:05:50,720 môžete ísť a skutočne fyzicky vyzerať up a, pravdepodobne, pozrite sa na. 98 00:05:50,720 --> 00:05:53,440 >> Tak to je všetko skvelé. 99 00:05:53,440 --> 00:05:54,450 Táto metadáta je užitočné. 100 00:05:54,450 --> 00:05:56,327 Je to v systéme, Harvard knižnice. 101 00:05:56,327 --> 00:05:58,910 K dispozícii sú nástroje on-line, ak vás môže ísť a pozrieť sa na to, 102 00:05:58,910 --> 00:05:59,993 a vidieť to, a hľadať to. 103 00:05:59,993 --> 00:06:02,810 A môžete plátok a kocky sa v mnohých rôznymi spôsobmi. 104 00:06:02,810 --> 00:06:06,920 >> Ale je to naozaj k dispozícii iba v prípade, Ste človek sedieť 105 00:06:06,920 --> 00:06:12,600 vo Vašom webovom prehliadači, alebo tak niečo, alebo telefón a navigáciu cez to. 106 00:06:12,600 --> 00:06:16,730 Nie je to naozaj k dispozícii v akékoľvek využiteľné módy 107 00:06:16,730 --> 00:06:19,520 pre iné systémy alebo ostatné počítače na použitie, 108 00:06:19,520 --> 00:06:21,500 Niet sa systémy v rámci Harvard knižnice, 109 00:06:21,500 --> 00:06:24,890 ale systémy vo vonkajšom svete, len ostatní ľudia všeobecne. 110 00:06:24,890 --> 00:06:30,210 Otázkou teda je, ako môžeme aby bolo k dispozícii pre počítače 111 00:06:30,210 --> 00:06:33,560 takže môžeme urobiť zaujímavejšie veci s ním, než len 112 00:06:33,560 --> 00:06:36,550 Prechádzanie to sami? 113 00:06:36,550 --> 00:06:39,766 >> Tak prečo by ste mali chcieť, aby to urobiť? 114 00:06:39,766 --> 00:06:41,140 Existuje veľa možností. 115 00:06:41,140 --> 00:06:43,980 Jedným z nich je môžete vytvoriť úplne odlišný spôsob prezerania 116 00:06:43,980 --> 00:06:46,962 obsah, ktorý je k dispozícii cez Harvard knižnice. 117 00:06:46,962 --> 00:06:48,670 Ukážem vám jednu neskôr volal Stacklife, 118 00:06:48,670 --> 00:06:52,440 ktorý má úplne iný vziať na hľadanie obsahu. 119 00:06:52,440 --> 00:06:54,560 >> Dalo by sa postaviť odporúčania motor. 120 00:06:54,560 --> 00:06:57,955 Takže Harvard knižnica nie je v obchodné povedať, páči sa vám túto knihu. 121 00:06:57,955 --> 00:07:01,080 Potom choďte sa pozrieť na týchto 17 ďalší knihy, ktoré by vás mohli zaujímať v 122 00:07:01,080 --> 00:07:03,200 alebo týchto 18 ďalších záberov. 123 00:07:03,200 --> 00:07:06,040 Ale to iste mohol byť cenná vlastnosť. 124 00:07:06,040 --> 00:07:09,272 A vzhľadom k tomu metadáta, môže to možné uviesť, že dohromady. 125 00:07:09,272 --> 00:07:11,980 Tie môžu mať rôzne potreby v Podmienky vyhľadávania obsahu, 126 00:07:11,980 --> 00:07:16,200 Trebárs aj cez nástroje, ktoré sú k dispozícii, že knižnica je 127 00:07:16,200 --> 00:07:18,450 k dispozícii, možno budete chcieť hľadať iným spôsobom 128 00:07:18,450 --> 00:07:21,847 alebo optimalizovať pre konkrétny prípad použitia, čo možno je to veľmi špecializované. 129 00:07:21,847 --> 00:07:23,930 Možno, že existuje len málo ľudí na svete, ktorí 130 00:07:23,930 --> 00:07:25,846 chcete vyhľadávať obsah týmto spôsobom, ale 131 00:07:25,846 --> 00:07:28,985 by bolo skvelé, keby sme mohol nechať urobiť. 132 00:07:28,985 --> 00:07:30,860 Je tu veľa analytics V tom, ako ľudia 133 00:07:30,860 --> 00:07:33,860 použiť obsah, ktorý by bolo naozaj zaujímavé vedieť, zistite 134 00:07:33,860 --> 00:07:37,280 aké knihy sa používajú, čo nie sú, a tak ďalej. 135 00:07:37,280 --> 00:07:41,670 A potom je tu veľa možnosť integrovať 136 00:07:41,670 --> 00:07:45,210 s ďalšími informáciami že je tam na webe. 137 00:07:45,210 --> 00:07:46,880 Tak sme have-- 138 00:07:46,880 --> 00:07:50,260 >> Napríklad, má NPR Recenzia knihy segmentu, 139 00:07:50,260 --> 00:07:53,090 kde sa rozhovor Autori o knihách. 140 00:07:53,090 --> 00:07:56,837 A tak to by bolo skvelé, keby ste boli vzhliadol knihu v Harvard 141 00:07:56,837 --> 00:07:59,670 Knižnica, a vy hovoríte, OK, je tu Bol rozhovor s autorom. 142 00:07:59,670 --> 00:08:00,878 Poďme sa pozrieť na to. 143 00:08:00,878 --> 00:08:05,461 Alebo je tu stránka Wikipédie, as autoritatívne, vedecké referencie 144 00:08:05,461 --> 00:08:07,710 o tejto knihe, ktorá vás chcieť, aby sa pozrieť na. 145 00:08:07,710 --> 00:08:12,600 >> K dispozícii sú tieto typy zdrojov rozptýlené po celom webe. 146 00:08:12,600 --> 00:08:16,555 A je zbližovať by mohol byť skvelý použitie 147 00:08:16,555 --> 00:08:18,930 na niekoho pri pohľade na obsah, hľadá niečo. 148 00:08:18,930 --> 00:08:20,180 Ale to tiež nie je druh vec, ktorú by ste 149 00:08:20,180 --> 00:08:23,205 Ak knižnica byť zodpovedný pre prechod dole a naháňať 150 00:08:23,205 --> 00:08:25,455 Všetky tieto rôzne zdroje a upchávanie je spolu 151 00:08:25,455 --> 00:08:28,920 pretože sa neustále mení. 152 00:08:28,920 --> 00:08:33,570 A to, čo si myslia, že je dôležité, máj nebude to, čo si myslíte, že je dôležité. 153 00:08:33,570 --> 00:08:36,929 >> A ešte viac, v podstate je tu Veľa vecí sme sa mysleli, napriek tomu. 154 00:08:36,929 --> 00:08:42,222 Takže ak môžeme otvoriť toto hore viac, Ľudia okrem pol tucta alebo tak, 155 00:08:42,222 --> 00:08:45,174 ktorí sa pri pohľade na to na pravidelne, môže myslieť nápadov 156 00:08:45,174 --> 00:08:47,340 a masáž dát, a robiť, čo chcú s ním. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Preto chceme, aby to k dispozícii do sveta dát. 159 00:08:54,045 --> 00:08:55,670 No, existuje pár komplikácie. 160 00:08:55,670 --> 00:08:58,540 Jedným z nich je, že táto metadáta je v rôznych systémoch. 161 00:08:58,540 --> 00:09:01,110 Je to v rôznych formátoch. 162 00:09:01,110 --> 00:09:04,719 Takže tam je nejaký normalizácia ktorý sa má stať, 163 00:09:04,719 --> 00:09:08,010 ktorý normalizácia je proces prinášať veci z rôznych formátov 164 00:09:08,010 --> 00:09:12,940 a ich mapovanie na jednotnom formáte takže polia budú zhodovať. 165 00:09:12,940 --> 00:09:15,160 >> Existujú určité obmedzenia autorských práv. 166 00:09:15,160 --> 00:09:21,010 Napodiv, vstup katalóg o kniha je zodpovedný za autorské práva. 167 00:09:21,010 --> 00:09:24,060 Takže aj keď je to len informácie získané z knihy, 168 00:09:24,060 --> 00:09:25,330 to je copyrightable. 169 00:09:25,330 --> 00:09:28,400 A podľa toho, kto vlastne vytvoril metadát, 170 00:09:28,400 --> 00:09:32,175 môže byť obmedzenie na to, kto Môžete ho distribuovať, podobný to-- 171 00:09:32,175 --> 00:09:33,402 >> Neviem. 172 00:09:33,402 --> 00:09:36,110 To môže, ale nemusí byť podobné situácia piesňových textov, 173 00:09:36,110 --> 00:09:36,610 napríklad. 174 00:09:36,610 --> 00:09:38,560 Tak sme sa všetci vieme, ako to panvy von. 175 00:09:38,560 --> 00:09:40,450 Takže je potrebné sa dostať okolo tejto otázky. 176 00:09:40,450 --> 00:09:44,910 >> A potom ďalší kus že je tu veľa dát. 177 00:09:44,910 --> 00:09:52,420 Takže ak som niekoho, kto chce pracovať s údajmi, alebo má skvelý nápad, 178 00:09:52,420 --> 00:09:55,350 rokovania s 14000000 záznamov na mojom notebooku 179 00:09:55,350 --> 00:09:57,487 by mohlo byť problematické a ťažké. 180 00:09:57,487 --> 00:09:59,320 Takže chceme znížiť bariéry pre ľudí 181 00:09:59,320 --> 00:10:02,130 aby bolo možné pracovať s dátami. 182 00:10:02,130 --> 00:10:07,880 >> Takže prístup, ktorý by snáď adresy všetky tieto obavy sú dve časti. 183 00:10:07,880 --> 00:10:11,770 Jedným z nich je budovanie platformy, ktorý trvá Dáta zo všetkých týchto rôznych zdrojov 184 00:10:11,770 --> 00:10:14,350 a zhoršuje to, normalizuje, obohacuje, a značky 185 00:10:14,350 --> 00:10:16,650 je k dispozícii na jednom mieste. 186 00:10:16,650 --> 00:10:20,950 A to je to k dispozícii prostredníctvom verejné API, ktoré môžu ľudia volať. 187 00:10:20,950 --> 00:10:24,430 >> Takže API je Application Programming Interface. 188 00:10:24,430 --> 00:10:28,930 A to v podstate odkazuje na Koncový bod, že systém alebo technológie 189 00:10:28,930 --> 00:10:31,720 zavolať a získať dáta späť do štruktúrovaný formát spôsobom 190 00:10:31,720 --> 00:10:32,900 ktorá môže byť použitá. 191 00:10:32,900 --> 00:10:36,060 Takže to nie je závislý ďalej na webové stránky 192 00:10:36,060 --> 00:10:37,970 a škrabanie dáta z nej, napr. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Tak to je domovská stránka Knižnica Cloud Item API, 195 00:10:45,010 --> 00:10:47,220 ktorý je v podstate jeho verzia dve. 196 00:10:47,220 --> 00:10:50,130 Takže je to druhá iterácia sa snaží, aby všetky tieto údaje 197 00:10:50,130 --> 00:10:53,280 k dispozícii na celom svete. 198 00:10:53,280 --> 00:10:59,560 Tak to je http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 A práve rozčleniť tento systém trochu, čo to znamená 200 00:11:03,830 --> 00:11:06,115 je to, že je to verzia dve API. 201 00:11:06,115 --> 00:11:08,490 K dispozícii je verzia jedna, čo Nebudem hovoriť. 202 00:11:08,490 --> 00:11:09,750 Ale je tu jedna verzia. 203 00:11:09,750 --> 00:11:14,740 >> A ak voláte to API, ste získali položky. 204 00:11:14,740 --> 00:11:20,640 A časť myšlienky API je API je zmluva. 205 00:11:20,640 --> 00:11:23,440 Je to niečo, čo je nebude meniť. 206 00:11:23,440 --> 00:11:24,850 Tak napríklad, - 207 00:11:24,850 --> 00:11:27,410 >> A dôvodom je, že keď som vytvoriť nejaký systém, ktorý 208 00:11:27,410 --> 00:11:33,210 bude používať knižnice cloud API Pre zobrazenie knihy alebo pomôcť ľuďom nájsť 209 00:11:33,210 --> 00:11:36,190 Informácie v jedinečným spôsobom, to, čo nechceme, aby sa stalo 210 00:11:36,190 --> 00:11:38,940 je pre nás ísť zmeniť spôsob, akým že API funguje, a zrazu 211 00:11:38,940 --> 00:11:41,340 všetko prestávky na koncových strane užívateľa. 212 00:11:41,340 --> 00:11:46,710 Takže časť, ak robíš API k dispozícii na celom svete, je to 213 00:11:46,710 --> 00:11:49,396 dobrým zvykom dať číslo verzie v tom, aby ľudia 214 00:11:49,396 --> 00:11:51,020 vedia, akú verziu sú čo do činenia s. 215 00:11:51,020 --> 00:11:54,300 >> Takže keď sme sa rozhodli sme nájsť lepší spôsob, tvorby tieto informácie k dispozícii, 216 00:11:54,300 --> 00:11:57,295 môžeme zmeniť na volať, že verzia tri. 217 00:11:57,295 --> 00:11:59,920 Takže každý, kto je stále používa verzia dve, že bude aj naďalej fungovať. 218 00:11:59,920 --> 00:12:03,490 Ale verzia tri by mať všetky nové veci. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Tak toto je API, ale to Naozaj vyzerá ako URL. 221 00:12:09,210 --> 00:12:11,680 A tak to, čo to je Príkladom je to, čo je 222 00:12:11,680 --> 00:12:16,615 volal odpočinok API, ktorý je k dispozícii cez len bežné webové pripojenie. 223 00:12:16,615 --> 00:12:19,680 A môžete skutočne ísť na to v prehliadači. 224 00:12:19,680 --> 00:12:28,550 >> Tak tu som sa práve otvorila Firefox a šiel do api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 A tak to, čo som sa sem dostal, je v podstate prvá stránka 226 00:12:31,560 --> 00:12:34,740 výsledkov z celej súbor predmetov, ktoré sme dostali. 227 00:12:34,740 --> 00:12:37,460 A je to tu vo formáte XML. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 A je to tiež prikrášlili Firefox. 230 00:12:42,210 --> 00:12:45,850 To nie je v skutočnosti majú všetky tieto málo rozširovanie a uzatváranie zmlúv 231 00:12:45,850 --> 00:12:47,880 doohickeys tu. 232 00:12:47,880 --> 00:12:52,520 To je trochu krajšie verzia spôsob, ako sa na to pozrieť. 233 00:12:52,520 --> 00:12:57,040 >> Ale čo je to nám hovorí, je Ja som požiadal všetky položky. 234 00:12:57,040 --> 00:13:03,120 Takže tam sú 13.289.475 položky. 235 00:13:03,120 --> 00:13:06,150 A ja som pri pohľade na prvý 10, začína v polohe nulovej 236 00:13:06,150 --> 00:13:09,760 pretože v informatike začíname vždy od nuly. 237 00:13:09,760 --> 00:13:15,150 A to, čo som tu, keď som kolaps to, uvidíte ja mám 10 položiek. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> A keď som sa pozrieť na položky, môžem vidieť, že mám informácie o ňom. 240 00:13:25,210 --> 00:13:27,400 A to je to, čo sa nazýva MODS formulár. 241 00:13:27,400 --> 00:13:30,860 A tak budem prepínať späť sem na chvíľu. 242 00:13:30,860 --> 00:13:33,750 OK. 243 00:13:33,750 --> 00:13:37,447 >> Takže poďme hľadať niečo v špecifické tým, že ako prvú položku, ktorá 244 00:13:37,447 --> 00:13:40,030 sa stane prísť, keď sa pozriete cez celú kolekciu 245 00:13:40,030 --> 00:13:41,750 je, podľa definície, náhodný. 246 00:13:41,750 --> 00:13:44,550 Tak sa poďme pozrieť na niektoré šišky. 247 00:13:44,550 --> 00:13:46,830 Oh. 248 00:13:46,830 --> 00:13:49,190 >> OK. 249 00:13:49,190 --> 00:13:49,940 Takže šišky. 250 00:13:49,940 --> 00:13:55,360 Tak sme tam našli je 80 položky v Kolekcia, ktorá odkazujú šišky. 251 00:13:55,360 --> 00:13:57,150 Pozeráme sa na prvých 10 z nich. 252 00:13:57,150 --> 00:14:01,890 Teraz môžete vidieť tu spôsob, akým Povedal som, Hľadám šišky, 253 00:14:01,890 --> 00:14:04,400 Len som pridal niečo reťazec dotazu URL. 254 00:14:04,400 --> 00:14:09,680 Takže q sa rovná šišky, ktoré si môžete pozri trochu ľahšie tu. 255 00:14:09,680 --> 00:14:12,131 >> A to v podstate znamená, že je spec pre API, ktoré 256 00:14:12,131 --> 00:14:13,880 definuje, čo všetko Tieto parametre znamenajú. 257 00:14:13,880 --> 00:14:17,150 A to znamená, že budeme hľadať všetko, čo pre šišky. 258 00:14:17,150 --> 00:14:24,910 >> Takže na prvú položku tu máme môžete vidieť, titul je Donuts, 259 00:14:24,910 --> 00:14:29,310 a tam je podtitul s názvom Americký Passion, čo je, myslím, 260 00:14:29,310 --> 00:14:31,610 vhodné. 261 00:14:31,610 --> 00:14:36,134 Existuje mnoho different-- 262 00:14:36,134 --> 00:14:38,050 Akonáhle sa dostanete do bodu, o získanie dát, 263 00:14:38,050 --> 00:14:41,020 existuje veľa rôznych formáty, ktoré sa môžete dostať do. 264 00:14:41,020 --> 00:14:44,050 A tam sú rôzne sily a slabé stránky pre všetky z nich. 265 00:14:44,050 --> 00:14:49,000 Tak toto, môžete vidieť tu, táto forma je veľmi bohatá. 266 00:14:49,000 --> 00:14:51,946 A to je štandardizovaný. 267 00:14:51,946 --> 00:14:55,040 >> Takže je tu konkrétny titul pole, pole titulkov. 268 00:14:55,040 --> 00:14:58,950 K dispozícii je alternatívna titul, American Passion. 269 00:14:58,950 --> 00:15:01,650 Tam je názov s ním spojené. 270 00:15:01,650 --> 00:15:03,120 Typ zdroja je textu. 271 00:15:03,120 --> 00:15:06,070 Je tu veľa informácií tu v tomto formáte. 272 00:15:06,070 --> 00:15:09,480 >> Ale sú tu partia z rôznych formátoch. 273 00:15:09,480 --> 00:15:11,920 Takže to, čo sme boli len je pri pohľade na formát 274 00:15:11,920 --> 00:15:17,700 zvanej MODS, čo znamená Metadáta Object Popis Service, 275 00:15:17,700 --> 00:15:18,250 potenciálne. 276 00:15:18,250 --> 00:15:23,030 V skutočnosti som si celkom istý, o S. Ale je to celkom zložitý formát. 277 00:15:23,030 --> 00:15:24,240 To je predvolený formát. 278 00:15:24,240 --> 00:15:30,260 >> Ale je to ten, ktorý drží bohatosť všetkých údajov 279 00:15:30,260 --> 00:15:33,820 že knižnica má preto je to veľmi blízko k tomu, čo 280 00:15:33,820 --> 00:15:35,110 Knižnica používa interne. 281 00:15:35,110 --> 00:15:39,030 Je to štandard, ktorý je používa po celej krajine, 282 00:15:39,030 --> 00:15:40,944 po celom svete, v akademických knižniciach. 283 00:15:40,944 --> 00:15:42,110 A to je veľmi interoperabilné. 284 00:15:42,110 --> 00:15:44,852 Takže ak máte dokument že je vo formáte MODS, 285 00:15:44,852 --> 00:15:47,560 si môžete dať, že pre niekoho iného ktorých systémy pochopiť mods, 286 00:15:47,560 --> 00:15:48,518 a môžu ho importovať. 287 00:15:48,518 --> 00:15:50,840 Takže je to štandardné. 288 00:15:50,840 --> 00:15:54,250 Je to veľmi dobre definované, veľmi špecifické. 289 00:15:54,250 --> 00:15:58,980 A to je to, čo robí to spolupracovať, pretože ak niekto hovorí, 290 00:15:58,980 --> 00:16:04,930 To je alternatívny názov rekord, každý vie, čo to znamená. 291 00:16:04,930 --> 00:16:07,740 Na druhú stranu, je to veľmi zložité. 292 00:16:07,740 --> 00:16:13,160 >> Takže ak ste sa pozrieť V tomto zázname tu, 293 00:16:13,160 --> 00:16:15,320 ak chcem len, aby si názov tohto dokumentu, 294 00:16:15,320 --> 00:16:21,150 z tejto knihy, ktorá je pravdepodobne Donuts, Americký Passion, rozobrať ho 295 00:16:21,150 --> 00:16:22,940 je trochu zapojiť. 296 00:16:22,940 --> 00:16:27,380 Vzhľadom k tomu, že je iný formát nazvaný Dublin Core, 297 00:16:27,380 --> 00:16:29,730 čo je oveľa, oveľa jednoduchšie formát. 298 00:16:29,730 --> 00:16:33,764 >> A tak tu vidíte, nie je názov, podtitul, alternatívny názov. 299 00:16:33,764 --> 00:16:35,930 Je tu len titul, Donuts, American Passion, 300 00:16:35,930 --> 00:16:38,780 a ďalší titul, American Passion. 301 00:16:38,780 --> 00:16:42,907 Takže, keď sa pozeráte na to, akú formu Ak chcete získať dáta z, 302 00:16:42,907 --> 00:16:44,740 Veľa záleží na tom, ako budete používať. 303 00:16:44,740 --> 00:16:46,573 Ste použitím interoperability alebo si 304 00:16:46,573 --> 00:16:49,970 Chcete niečo jednoduchého, že by mohlo byť jednoduchšie pracovať? 305 00:16:49,970 --> 00:16:56,002 >> Na druhú stranu, veľa Podrobnosti si trochu naskladali dole. 306 00:16:56,002 --> 00:16:58,460 Môžete prísť o nuansy čo určitej oblasti prostriedok 307 00:16:58,460 --> 00:17:02,960 ak máte čo do činenia s Dublin Core, ktoré by ste si s MODS. 308 00:17:02,960 --> 00:17:06,462 To sú dva formáty sa môžete dostať von z API. 309 00:17:06,462 --> 00:17:08,920 A v podstate, držíme to v zákulisí v MODS. 310 00:17:08,920 --> 00:17:14,179 Ale môžeme dať ju do Mods a Dublin Core a niečo aj inde. 311 00:17:14,179 --> 00:17:16,470 Ďalšie plnenie, ak hľadáte v dátach 312 00:17:16,470 --> 00:17:21,210 ich môžete získať buď ako JSON, ktorý je skratka pre JavaScript Object Notation, 313 00:17:21,210 --> 00:17:24,720 alebo XML, čo je skratka pre Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 A tieto dátové reprezentácie oboch majú rovnaké údaje, presne 315 00:17:30,080 --> 00:17:31,080 rovnakých oblastiach. 316 00:17:31,080 --> 00:17:33,644 Ale sú to len syntakticky inak. 317 00:17:33,644 --> 00:17:40,401 >> Tak toto je je-- 318 00:17:40,401 --> 00:17:41,400 No, tak to proste prejsť. 319 00:17:41,400 --> 00:17:47,490 Tak toto je náš dotaz pre šišky vo formáte XML. 320 00:17:47,490 --> 00:17:53,470 Keď som sa prejsť to, že JSON, Vidím, že to vyzerá inak. 321 00:17:53,470 --> 00:17:58,580 Takže teraz je to rovnaký obsah, ale odlišná štruktúra. 322 00:17:58,580 --> 00:18:00,080 Tam je menej lomené zátvorky. 323 00:18:00,080 --> 00:18:02,530 Je tu menej ukecaný. 324 00:18:02,530 --> 00:18:06,440 >> A to je formát, ktorý, ak máte pracujú v prostredí webu, 325 00:18:06,440 --> 00:18:09,680 ste sa s najväčšou pravdepodobnosťou bude chcieť použiť, pretože jeden 326 00:18:09,680 --> 00:18:12,630 z pekných vecí o JSON je je kompatibilný s JavaScriptom. 327 00:18:12,630 --> 00:18:17,680 Takže keď píšem webové aplikácie, môžem vytiahnuť JSON a práve s ním pracovať priamo. 328 00:18:17,680 --> 00:18:20,187 Vzhľadom k tomu, s XML, je to trochu zložitejšie. 329 00:18:20,187 --> 00:18:21,520 Takže znovu, to sú obaja použiteľné. 330 00:18:21,520 --> 00:18:26,387 Proste sú rôzne prípady použitia kde sa ľudia môžu chcieť použiť. 331 00:18:26,387 --> 00:18:26,886 OK. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Takže späť k API. 334 00:18:31,680 --> 00:18:32,900 Takže môžeme hľadať for-- 335 00:18:32,900 --> 00:18:36,220 >> Dám príklad vyhľadávanie šišky. 336 00:18:36,220 --> 00:18:39,330 Môžeme tiež hľadať len v Najmä oblasť v sem. 337 00:18:39,330 --> 00:18:41,310 Takže namiesto toho, hľadanie celý záznam, 338 00:18:41,310 --> 00:18:43,870 Môžem len hľadať v názve poľa. 339 00:18:43,870 --> 00:18:48,810 A tak teraz tam sú veci, ktoré 25 majú šišky v názve, z ktorých jedna 340 00:18:48,810 --> 00:18:52,430 je o obnovenie mokrade v oblasti riadenia 341 00:18:52,430 --> 00:18:54,990 z otvoru v šišky Program, ktorý je pravdepodobne 342 00:18:54,990 --> 00:18:58,970 nemusí byť nutne to, čo hľadáme , Keď sme hľadali šišky. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> Môžete tiež, keď ste rokovania s API-- 345 00:19:05,490 --> 00:19:08,827 >> Časť má API dáva ľudia prístup k veľkých dátových súborov. 346 00:19:08,827 --> 00:19:11,410 A existuje niekoľko rôznych nástroje, ktoré môžete použiť k tomu, že. 347 00:19:11,410 --> 00:19:14,170 Jedným z nich je, veľmi jednoducho, vy možno prechádzať dáta. 348 00:19:14,170 --> 00:19:17,340 Takže rovnako, ako by ste urobiť dotaz cez webové rozhranie, 349 00:19:17,340 --> 00:19:19,470 sa môžete pozrieť na prvej strane, strana dva, strana tri. 350 00:19:19,470 --> 00:19:22,040 Môžete urobiť to isté to prostredníctvom rozhrania API. 351 00:19:22,040 --> 00:19:24,150 Je len potrebné byť Výslovne sa v tom, ako to urobiť. 352 00:19:24,150 --> 00:19:29,511 >> Tak napríklad, ak sa pozerám na môj prvý dotaz tu, 353 00:19:29,511 --> 00:19:32,510 kde robím hľadanie vecí s šišky v názve, môžem povedať, 354 00:19:32,510 --> 00:19:35,415 a hranice sa rovná 20, čo znamená, daj mi prvých 20 záznamov, nie 355 00:19:35,415 --> 00:19:38,540 prvých 10, čo je predvolené nastavenie, preto, že chcem sa pozrieť na 20 naraz. 356 00:19:38,540 --> 00:19:43,435 Alebo môžem povedať, nastavte začne vo výške 20 a limitu 357 00:19:43,435 --> 00:19:47,150 rovná 20, ktorá bude obsahovať me záznamy 21 až 40. 358 00:19:47,150 --> 00:19:52,680 >> Takže myslím, že vec odniesť tu 359 00:19:52,680 --> 00:19:57,290 že sme pomocou reťazca dotazu nastaviť parametre na dotaz. 360 00:19:57,290 --> 00:20:02,760 A to vám umožní kontrolu to, čo dostanete späť. 361 00:20:02,760 --> 00:20:05,980 >> Ďalším nástrojom, ktorý môžete použiť, - 362 00:20:05,980 --> 00:20:09,250 >> A to je naozaj užitočné Podmienky skúmanie dát. 363 00:20:09,250 --> 00:20:10,840 >> --is niečo ako faceting. 364 00:20:10,840 --> 00:20:15,530 Takže termín faceting je nie nevyhnutne bežné. 365 00:20:15,530 --> 00:20:16,880 Ale vy ste všetci videli predtým. 366 00:20:16,880 --> 00:20:18,630 Ak ste sa pozrieť na Amazon, napríklad, 367 00:20:18,630 --> 00:20:20,870 a vy hľadanie šišky v knihách, 368 00:20:20,870 --> 00:20:27,080 Tu mám sériu kníh, a oni sú zoskupené podľa kategórií, 369 00:20:27,080 --> 00:20:30,470 a dostanete rôzne kategórie, a koľko kníh v každej kategórii 370 00:20:30,470 --> 00:20:31,330 ukázať. 371 00:20:31,330 --> 00:20:33,420 >> Tak to je v podstate aspekt. 372 00:20:33,420 --> 00:20:37,570 Budete mať všetky svoje knihy, 1800 knihy, ktoré zodpovedajú šišky na Amazon. 373 00:20:37,570 --> 00:20:39,820 12 z nich je v raňajky kategórie. 374 00:20:39,820 --> 00:20:43,100 21 v pečive a pečenie, a tak ďalej a tak ďalej. 375 00:20:43,100 --> 00:20:47,670 >> Tak toto je naozaj užitočný nástrojom pre skúmanie obsahu 376 00:20:47,670 --> 00:20:53,260 v knižnici, ako pretože keď sa pozriete na fazety, 377 00:20:53,260 --> 00:20:56,520 To vám dáva predstavu o tom, čo predmety existuje, ako to, čo typy objektov 378 00:20:56,520 --> 00:20:58,510 sú najobľúbenejšie priamo vo Vašom sade dotazu. 379 00:20:58,510 --> 00:21:00,950 A to vám pomôže odísť a preskúmať. 380 00:21:00,950 --> 00:21:02,770 Takže môžeme urobiť to isté. 381 00:21:02,770 --> 00:21:05,940 >> Ak chceme použiť API a pozrieť sa na aspekty, 382 00:21:05,940 --> 00:21:08,950 pridáme ďalší parameter na náš priateľ reťazec dotazu. 383 00:21:08,950 --> 00:21:12,540 Takže aspektov rovná oddelených čiarkou Zoznam toho, čo chceme, aby aspekt ďalej. 384 00:21:12,540 --> 00:21:14,790 Takže jeden z aspektov by mohli byť predmetom. 385 00:21:14,790 --> 00:21:16,565 Ďalším môže byť reč. 386 00:21:16,565 --> 00:21:19,665 A tak keď narazíme tento dotaz, my get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Vyzerá to skoro tu rovnaký. 389 00:21:24,830 --> 00:21:29,010 Ale sme pridali na koniec zoznamu súbor aspekty. 390 00:21:29,010 --> 00:21:34,060 Takže máme aspekt s názvom predmet. 391 00:21:34,060 --> 00:21:40,250 Tak to nám hovorí, že keď sa pozriem v mojich 80 vyplýva z dotazu šišky, 392 00:21:40,250 --> 00:21:42,100 13 z nich podrobiť Spojené štáty. 393 00:21:42,100 --> 00:21:43,684 Traja majú na ktoré šišky. 394 00:21:43,684 --> 00:21:45,600 Tri majú predmet mokraďových reštaurovanie, 395 00:21:45,600 --> 00:21:47,720 ktoré môžu byť naše diera v šišky. 396 00:21:47,720 --> 00:21:51,780 Dvaja z nich, Simpsons, a tak ďalej a tak ďalej. 397 00:21:51,780 --> 00:21:59,211 >> Takže to môže byť užitočné, ak Chcete zúžiť vyhľadávanie. 398 00:21:59,211 --> 00:22:00,210 To vám môže pomôcť urobiť. 399 00:22:00,210 --> 00:22:03,580 Zvlášť ak máte viac než, povedzme, 80 riadkov. 400 00:22:03,580 --> 00:22:05,980 >> Rovnako tak, sme sa pýtali pre aspekty na jazyk. 401 00:22:05,980 --> 00:22:14,790 Takže ak sa pozrieme na naše výsledky, vidíme 76 z nich sú v angličtine, štyri vo francúzštine, 402 00:22:14,790 --> 00:22:19,620 dva v španielčine, dva, myslím, že je to nedefinovaný alebo neznáme, holandský a latinčina. 403 00:22:19,620 --> 00:22:22,830 Takže si myslím, latinčinu šiška výsledok, opäť, 404 00:22:22,830 --> 00:22:24,922 nemá nič spoločného s pečiva. 405 00:22:24,922 --> 00:22:25,630 Ale tam idete. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Tak toto je trochu ukáže vám, Ako si môžete stiahnuť obsah späť 408 00:22:38,630 --> 00:22:41,270 z API práve prostredníctvom webový prehliadač, čo je skvelé. 409 00:22:41,270 --> 00:22:44,320 Ale to nie je to, čo by ste za normálnych okolností použitie v API pre to. 410 00:22:44,320 --> 00:22:48,710 Takže jeden z príkladov, ako sa by sa skutočne urobiť, je som 411 00:22:48,710 --> 00:22:54,720 napísal super malý program, ktorý opäť robí môj šišku vyhľadávania 412 00:22:54,720 --> 00:22:59,010 a vyberie pár polí a zobrazí ich v tabuľke. 413 00:22:59,010 --> 00:23:01,610 Tak to je veľmi Rovnaký obsah, ktorý sme práve 414 00:23:01,610 --> 00:23:04,830 píla s niekoľkými poli vytiahol von. 415 00:23:04,830 --> 00:23:12,090 Takže zoznamu titulov, na namiesto toho, čo knihy 416 00:23:12,090 --> 00:23:15,120 je asi, jazyk, a tak ďalej a tak ďalej. 417 00:23:15,120 --> 00:23:20,480 >> Tak, ako sa to vlastne stalo, od tej doby Myslím, že by sme sa pozrieť na nejaký kód, 418 00:23:20,480 --> 00:23:22,420 je-- 419 00:23:22,420 --> 00:23:28,060 >> To, čo tu máme, je jednoduchý HTML strana, ktorá zobrazuje text, 420 00:23:28,060 --> 00:23:32,900 vitajte na knižnice cloudu a potom zobrazuje tabuľku výsledkov. 421 00:23:32,900 --> 00:23:37,790 A tam sa v zrejme žiadne výsledky stôl, keď sa stránka sa nahrá. 422 00:23:37,790 --> 00:23:41,380 Ale čo robíme je v prvom rade, sme 423 00:23:41,380 --> 00:23:46,290 vkladáte knižnice s názvom jQuery, čo je v podstate 424 00:23:46,290 --> 00:23:52,030 knižnica JavaScript, čo z neho robí veľmi ľahko manipulovať JavaScript 425 00:23:52,030 --> 00:23:58,780 natívne, HTML, a vytvoriť webové stránky, na strane klienta logika a webové stránky. 426 00:23:58,780 --> 00:24:01,595 >> Takže to, čo tu máme, je jQuery má metódu nazvanú Get, 427 00:24:01,595 --> 00:24:05,270 ktorý v podstate pôjde do URL, ktorý v tomto prípade, 428 00:24:05,270 --> 00:24:09,070 Je to známy vyzerajúce URL. 429 00:24:09,070 --> 00:24:14,440 A potom si obsah z že URL a spustiť funkciu na to. 430 00:24:14,440 --> 00:24:19,240 Tak sme si povedali ísť do api.lib.harvard / edu. 431 00:24:19,240 --> 00:24:20,060 Hľadať šišky. 432 00:24:20,060 --> 00:24:21,300 Dajte nám 20 záznamov. 433 00:24:21,300 --> 00:24:28,590 A potom spustiť túto funkciu, ktorá Ja som zvolený, odovzdáte jej dáta. 434 00:24:28,590 --> 00:24:34,430 A dáta JSON, že dostal sa vrátil z API. 435 00:24:34,430 --> 00:24:40,120 >> A potom hovoríme, že v rámci Dáta tam je pole s názvom položky. 436 00:24:40,120 --> 00:24:48,117 A keď idem sa pozrieť späť na jeden z týchto výsledkov, ktoré je tu, 437 00:24:48,117 --> 00:24:49,200 je tu niečo called-- 438 00:24:49,200 --> 00:24:50,220 >> No, je to len bod. 439 00:24:50,220 --> 00:24:53,520 Tak, že môže byť, že. 440 00:24:53,520 --> 00:25:01,840 A to, čo robí, je to prechádza každú položku 441 00:25:01,840 --> 00:25:05,300 a potom volá ďalšie funkcie na každej položke. 442 00:25:05,300 --> 00:25:08,440 A že funkcia v podstate berie hodnotu 443 00:25:08,440 --> 00:25:12,010 položky, ktorá je v podstate individuálny rekord 444 00:25:12,010 --> 00:25:18,220 a umožňuje nám vytiahnuť titul, pokrytie a jazyk. 445 00:25:18,220 --> 00:25:21,640 >> Tak sme volanie funkcie na každý položka, ktorá sme sa vrátili z API. 446 00:25:21,640 --> 00:25:25,397 A ak si stačí sa pozrieť V tomto kúsku tu, 447 00:25:25,397 --> 00:25:27,230 to, čo robíme, je sme vytvoriť reťazec, 448 00:25:27,230 --> 00:25:31,810 čo je v podstate niektoré značky HTML okolo stola, s value.title, 449 00:25:31,810 --> 00:25:35,790 čo je názov objekt, value.coverage, 450 00:25:35,790 --> 00:25:36,790 čo je pokrytie, - 451 00:25:36,790 --> 00:25:38,225 >> A robíme kontrolu tu vidieť, kto je definovaný 452 00:25:38,225 --> 00:25:40,570 a skrývanie, ak hovorí, že nedefinované, preto, že sme naozaj záujem 453 00:25:40,570 --> 00:25:41,600 sa tým, že. 454 00:25:41,600 --> 00:25:42,939 >> --and potom jazyk. 455 00:25:42,939 --> 00:25:44,730 A potom to, čo sme robí, je, že pripojením 456 00:25:44,730 --> 00:25:48,510 do tabuľky, ktorá je identifikovať podľa tohto reťazca tu. 457 00:25:48,510 --> 00:25:50,790 A ako jQuery funguje je to, čo to hovorí 458 00:25:50,790 --> 00:25:56,420 sa pozrieť na tabuľku s myšlienkou výsledky a pridajte tento text k tomu. 459 00:25:56,420 --> 00:25:59,380 A to je tabuľka s výsledkami nápad. 460 00:25:59,380 --> 00:26:04,998 Takže to, čo ste skončili s je na túto stránku tu. 461 00:26:04,998 --> 00:26:06,206 A aby sa mohli source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 No, zdroj nie je v skutočnosti aktualizovať, keď sa to stalo. 464 00:26:13,810 --> 00:26:18,740 Takže môžete vidieť aktuálne Výsledky v tabuľke tu hoci. 465 00:26:18,740 --> 00:26:24,770 >> Takže je to len jednoduchý príklad robí veľmi jednoduchý dotaz na rozhraní API 466 00:26:24,770 --> 00:26:29,020 a zobrazovanie informácií v inej tvorí, a nič nerobí moc fantázie. 467 00:26:29,020 --> 00:26:36,370 A teraz, ďalší príklad je ako Aplikácia napísal David Weinberger 468 00:26:36,370 --> 00:26:39,120 ako demo tohto, ktorý v podstate ukazuje, 469 00:26:39,120 --> 00:26:44,620 ako si môžete zapariť na výsledky, kde si dostať z knižnice cloud API 470 00:26:44,620 --> 00:26:46,250 s, povedzme, Knihy Google. 471 00:26:46,250 --> 00:26:52,225 >> A myslenie je, že môžem Spustení dotazu proti Google Books, 472 00:26:52,225 --> 00:26:56,060 získať fulltextové vyhľadávanie, získať nejaké výsledky späť, zistiť, ktorý z týchto položiek 473 00:26:56,060 --> 00:27:01,180 skutočne existujú v Hollis, knižničný systém, 474 00:27:01,180 --> 00:27:03,200 a potom mi odkazy späť do týchto položiek. 475 00:27:03,200 --> 00:27:12,730 Takže keď som sa hľadať, to bolo temná a búrlivá noc, ja 476 00:27:12,730 --> 00:27:16,210 dostať späť veľa výsledkov od spoločnosti Google, a potom jeden výsledok 477 00:27:16,210 --> 00:27:19,460 čo je vyhladenie vrások v čase. 478 00:27:19,460 --> 00:27:29,330 A to sú odkazy na knihy, ktoré existujú v rámci systému Harvard knižnice. 479 00:27:29,330 --> 00:27:32,160 >> Takže myslím, že bod tu nie je tak veľmi, že to môže alebo nemusí 480 00:27:32,160 --> 00:27:34,118 je spôsob, akým chcete hľadať knižnicu, 481 00:27:34,118 --> 00:27:38,310 ale to je úplne iná spôsob, ktorý nebol k dispozícii pre vás 482 00:27:38,310 --> 00:27:42,884 pred, ako ste mali žiadny spôsob, ako robiť Plné znenie hľadá na knihy, ktoré aj 483 00:27:42,884 --> 00:27:44,550 boli súčasťou systému Harvard knižnice. 484 00:27:44,550 --> 00:27:46,870 Takže teraz je to cesta ktoré môžete urobiť. 485 00:27:46,870 --> 00:27:51,930 A môžete zobraziť v akomkoľvek formáte, budete chcieť. 486 00:27:51,930 --> 00:27:55,990 Takže bod tu je, v podstate, sme otvára nové možnosti pre ľudí 487 00:27:55,990 --> 00:27:59,080 pre prácu s dátami. 488 00:27:59,080 --> 00:28:07,925 >> Ďalší kus knižnice mraku je to, že to pomáha vystaviť niektoré údaje o použití 489 00:28:07,925 --> 00:28:08,800 že knižnica má. 490 00:28:08,800 --> 00:28:12,630 Takže ak idete do knižnice, a hľadáte pre knihy, 491 00:28:12,630 --> 00:28:15,770 nemusíte nutne v skutočnosti majú predstavu, 492 00:28:15,770 --> 00:28:19,080 pre všetky položky v najmä predmet, čo 493 00:28:19,080 --> 00:28:21,200 sú ľudia v komunity, či už je to 494 00:28:21,200 --> 00:28:24,890 definovaná ako Harvard, alebo krajiny alebo vaša trieda, 495 00:28:24,890 --> 00:28:26,421 to, čo sa našli najvhodnejšie? 496 00:28:26,421 --> 00:28:28,920 A knižnica v skutočnosti má ton informácií o tom, čo 497 00:28:28,920 --> 00:28:32,999 je veľmi užitočné, pretože v prípade, že mnoho ľudí, ktorí sú mimo kontrolu knihu, 498 00:28:32,999 --> 00:28:34,040 že vám povie niečo. 499 00:28:34,040 --> 00:28:36,498 Tam musí byť nejaký dôvod chcú pozrieť sa na to. 500 00:28:36,498 --> 00:28:38,270 Veľa ľudí ju na rezervy. 501 00:28:38,270 --> 00:28:42,520 >> Ak je to na rezervný zoznam pre mnoho tried, ktoré vám povie niečo. 502 00:28:42,520 --> 00:28:45,960 Ak sa členovia katedry sú to kontroly out veľa a vysokoškoláci nie sú, 503 00:28:45,960 --> 00:28:47,200 to mi hovorí niečo. 504 00:28:47,200 --> 00:28:49,280 Vice versa, že tiež hovorí vám niečo. 505 00:28:49,280 --> 00:28:54,680 Tak to by bolo naozaj zaujímavé dal, že informácie tam a nechať 506 00:28:54,680 --> 00:28:59,969 ľudia používajú, aby im pomohla nájsť práce v rámci knižničného systému. 507 00:28:59,969 --> 00:29:02,260 Odvrátenou stranou je tam sú niektoré vážne o ochrane osobných údajov 508 00:29:02,260 --> 00:29:07,854 obavy, pretože jeden z základné princípy knižnice 509 00:29:07,854 --> 00:29:10,770 sa my nebudeme hovoriť Ľudia, čo ostatní ľudia čítajú. 510 00:29:10,770 --> 00:29:17,360 A aj keď sa hovorí, to Kniha bola odhlásil štyrikrát 511 00:29:17,360 --> 00:29:20,070 v určitom mesiaci, ktorý by mohol byť použitý 512 00:29:20,070 --> 00:29:25,252 odkazujú na konkrétne človek by de-anonymizácie údajov 513 00:29:25,252 --> 00:29:26,710 a zistiť, kto ju odhlásil. 514 00:29:26,710 --> 00:29:30,792 Takže spôsob, ako môžeme avoid-- 515 00:29:30,792 --> 00:29:33,750 Spôsob, akým sa môžeme pokúsiť extrahovať nejaký signál od všetkých informácií 516 00:29:33,750 --> 00:29:36,740 bez porušenia obavy niekto o ochrane osobných 517 00:29:36,740 --> 00:29:42,150 Je v podstate sa pozrieme na 10 rokov údaje o používaní, - 518 00:29:42,150 --> 00:29:43,930 >> Takže je to po dlhú dobu. 519 00:29:43,930 --> 00:29:50,639 >> --and povedať, OK, poďme sa pozrieť, ako mnohokrát táto práca bola použitá 520 00:29:50,639 --> 00:29:52,930 a kto v tomto období času, a potom sa v podstate 521 00:29:52,930 --> 00:29:56,300 vrátiť číslo, ktoré nazývame stack skóre, čo v podstate 522 00:29:56,300 --> 00:29:59,910 predstavuje, ako moc to bolo použité. 523 00:29:59,910 --> 00:30:01,084 A to number-- 524 00:30:01,084 --> 00:30:03,250 Mnoho rôznych výpočtov prejsť na toto číslo. 525 00:30:03,250 --> 00:30:05,150 --but, že je to veľmi hrubý metrika, ktorá vám dáva 526 00:30:05,150 --> 00:30:11,300 určitú predstavu o tom, ako obec môže oceniť túto prácu. 527 00:30:11,300 --> 00:30:16,772 >> A tak iný druh aj viac konkretizovať prihlášku 528 00:30:16,772 --> 00:30:18,480 že využíva to je niečo 529 00:30:18,480 --> 00:30:24,000 nazvaný Stacklife, čo je v skutočnosti k dispozícii cez hlavnú Harvard 530 00:30:24,000 --> 00:30:24,880 Knižnica portál. 531 00:30:24,880 --> 00:30:26,700 Takže idete do library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Uvidíte viac rôznych spôsoby hľadania knižnice. 533 00:30:29,360 --> 00:30:32,300 A jeden z nich sa volá Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> A to je aplikácia, ktorá prechádza obsah knižnice, 535 00:30:38,980 --> 00:30:43,490 ale je úplne postavený v hornej časti týchto API. 536 00:30:43,490 --> 00:30:46,910 Takže nie je žiadny zvláštne veci deje v zákulisí. 537 00:30:46,910 --> 00:30:49,570 Neexistuje žiadny prístup k Údaje, ktoré nemáte. 538 00:30:49,570 --> 00:30:54,090 Je to pomocou rozhrania API poskytnúť vám s úplne iným prehliadanie 539 00:30:54,090 --> 00:30:55,480 zážitok. 540 00:30:55,480 --> 00:30:58,570 >> Takže keď som sa hľadať Alice v ríši divov v tomto prípade, 541 00:30:58,570 --> 00:31:02,600 Mám výsledok, ktorý vyzerá ako to, čo je celkom much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> To je veľmi podobné iným vyhľadávania môžete robiť, s výnimkou v tomto prípade 544 00:31:10,870 --> 00:31:15,730 sme rebríčku položky by stackscore, ktorý vám poskytne 545 00:31:15,730 --> 00:31:19,850 nejakú predstavu o tom, ako populárne týchto položky boli v rámci komunity. 546 00:31:19,850 --> 00:31:25,610 A tak jasne, Alenka v ríši divov Walt Disney je veľmi populárny. 547 00:31:25,610 --> 00:31:36,570 Ale môžete tiež vidieť horné štyri Tu sú tie, ktoré nemusia actually-- 548 00:31:36,570 --> 00:31:39,220 >> Veci, ktoré sú vysoko použité, ale nemusí hneď 549 00:31:39,220 --> 00:31:41,240 spojte sa s Alenka v ríši divov. 550 00:31:41,240 --> 00:31:44,650 Takže náš starý priateľ Poznámkami Alice je tu. 551 00:31:44,650 --> 00:31:46,350 Tak som si vziať na to pozrieť. 552 00:31:46,350 --> 00:31:52,010 A teraz to, čo hľadám v je v podstate nastavená of-- 553 00:31:52,010 --> 00:31:53,760 Môžem mať komentovaný Alice tu. 554 00:31:53,760 --> 00:31:56,700 Mám informácie o tom. 555 00:31:56,700 --> 00:32:00,230 A mám tiež stackscore o, v tomto prípade 26. 556 00:32:00,230 --> 00:32:03,169 A to mi hovorí, trochu hrubo Ako sme sa dostali k tomuto stackscore, 557 00:32:03,169 --> 00:32:05,835 ako kto ho odhlásil, ako ako mnohokrát bolo odhlásené, 558 00:32:05,835 --> 00:32:08,440 ako fakulty alebo undergrads, ako veľa kópií knižnica, 559 00:32:08,440 --> 00:32:11,300 a tak ďalej a tak ďalej. 560 00:32:11,300 --> 00:32:16,460 >> A môžete tiež dosť zaujímavý tu, prechádzať stohy virtuálne. 561 00:32:16,460 --> 00:32:19,550 Tak tu sú údaje, to ukazuje zoradiť 562 00:32:19,550 --> 00:32:23,547 virtuálne reprezentácie toho, čo si police sily 563 00:32:23,547 --> 00:32:25,880 vyzerať, ak ste boli, aby sa všetky poľnohospodárske podniky knižnice 564 00:32:25,880 --> 00:32:28,940 a dať ich dohromady na jednej nekonečné polici. 565 00:32:28,940 --> 00:32:30,990 A pekná vec je, že sme can-- 566 00:32:30,990 --> 00:32:33,380 >> Po prvé, metadáta o týchto knihách 567 00:32:33,380 --> 00:32:35,627 Často vám povie, kedy bola publikovaná. 568 00:32:35,627 --> 00:32:37,085 To vám povie, koľko stránok má. 569 00:32:37,085 --> 00:32:38,459 Mohlo by ti rozmery. 570 00:32:38,459 --> 00:32:42,930 Takže môžete vidieť, že sa tu prejavuje z hľadiska veľkosti kníh. 571 00:32:42,930 --> 00:32:46,740 >> A potom môžeme použiť stack skóre zvýrazniť 572 00:32:46,740 --> 00:32:49,170 knihy, ktoré majú vyššie skóre zásobníka. 573 00:32:49,170 --> 00:32:54,930 Takže ak je to tmavšia, to znamená, že, Možno predpokladať, že to je viac často používané. 574 00:32:54,930 --> 00:32:57,040 Takže v tomto prípade, ja som bude hádať, že tento 575 00:32:57,040 --> 00:33:03,226 je verzia Alenky v ríši divov ktorá je veľmi bežne používaná a najviac 576 00:33:03,226 --> 00:33:05,100 prístupné, knižnica má najviac kópie. 577 00:33:05,100 --> 00:33:06,975 Takže ak hľadáte pre Alenka v ríši divov, 578 00:33:06,975 --> 00:33:10,220 to môže byť dobrým miestom pre začiatok. 579 00:33:10,220 --> 00:33:13,500 >> A potom tu si môžete tiež spojiť so na, povedzme, Amazon kúpiť knihu, 580 00:33:13,500 --> 00:33:15,182 a tak ďalej a tak ďalej. 581 00:33:15,182 --> 00:33:17,140 Pointa, znova, nie je ani tak, že sa 582 00:33:17,140 --> 00:33:25,030 je najlepší spôsob, ako prechádzať knižnicu alebo správny nástroj pre každú príležitosť. 583 00:33:25,030 --> 00:33:28,400 Ale je to iný spôsob, ako to urobiť. 584 00:33:28,400 --> 00:33:31,359 A tým, že dáta k dispozícii cez API, čo 585 00:33:31,359 --> 00:33:34,650 je vyrobená z veľmi jednoduchých stavebných blokov, ktorý umožňuje vyhľadávať v obsahu, 586 00:33:34,650 --> 00:33:39,420 môžete vytvoriť niečo takto, že môže 587 00:33:39,420 --> 00:33:41,520 byť mimoriadne cenný pre niektorých ľudí. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Tak to je druh, rovnako ako ja chcem povedať, naozaj o tom, čo je API 590 00:33:51,860 --> 00:33:56,070 a to, čo odhaľuje, je tu celá veľa vecí, v zákulisí, čo 591 00:33:56,070 --> 00:33:59,480 Ja som jednoducho ísť na dotyk krátko len preto, že tak nejako príde na to 592 00:33:59,480 --> 00:34:03,720 z úplne iného uhla o tom, ako robí niečo také 593 00:34:03,720 --> 00:34:04,580 si dať na svoje miesto? 594 00:34:04,580 --> 00:34:10,820 >> Takže API je štandardný rozhranie pre všetky tohto obsahu. 595 00:34:10,820 --> 00:34:13,820 Ale aby sa to tam, Prvá vec, ktorú sme museli urobiť 596 00:34:13,820 --> 00:34:17,260 sa ťahať za jeden povraz informácie kníh a obrazov 597 00:34:17,260 --> 00:34:21,580 a nález pomáha, kolekcia Dokument z rôznych systémov Harvard. 598 00:34:21,580 --> 00:34:23,929 Aleph, VIA, a OASIS sú názvy systémov. 599 00:34:23,929 --> 00:34:28,820 A v podstate idú do potrubia, spracovanie potrubia. 600 00:34:28,820 --> 00:34:33,230 >> Takže v prvom rade, dostaneme export súbory zo všetkých týchto systémov. 601 00:34:33,230 --> 00:34:35,130 Rozdelili sme ich do jednotlivých položiek. 602 00:34:35,130 --> 00:34:39,360 Takže máme súbor, ktorý je gigabyte, ktorý má milión záznamov v ňom. 603 00:34:39,360 --> 00:34:42,290 Tak došlo k rozdeleniu na jednotlivé položky. 604 00:34:42,290 --> 00:34:45,374 Potom, pre každú položku, sme to konvertovať do MODS, pretože niektoré z nich 605 00:34:45,374 --> 00:34:47,040 natívne MODS, niektoré z nich nie sú. 606 00:34:47,040 --> 00:34:49,204 Tak sme si ich všetky byť v rovnakom formáte. 607 00:34:49,204 --> 00:34:51,120 Potom sú tu rôzne obohacovanie kroky, kde 608 00:34:51,120 --> 00:34:55,969 pridáme ďalšie informácie k údajom než bol k dispozícii v knižnici. 609 00:34:55,969 --> 00:34:59,750 Preto musíme pridať, najprv máme to, čo knižnice držať. 610 00:34:59,750 --> 00:35:02,250 Ideme cez krokom výpočtu stackscore. 611 00:35:02,250 --> 00:35:07,112 Prechádzame ďalší krok pridanie ďalších metadát, pokiaľ ide 612 00:35:07,112 --> 00:35:10,730 O tom, čo zbierok ľudí mohol pridal tohle-- 613 00:35:10,730 --> 00:35:12,532 >> Ľudia sa vytvára zbierky predmetov. 614 00:35:12,532 --> 00:35:13,990 Čo zbierky to patrí? 615 00:35:13,990 --> 00:35:17,220 Ako sa ľudia označili tento obsah v minulosti? 616 00:35:17,220 --> 00:35:20,750 Potom ste odfiltrovať, a obmedziť záznamy, pretože, ako som už spomenul, 617 00:35:20,750 --> 00:35:24,120 tam je nejaké záznamy, že z dôvodu dôvodu ochrany autorských práv, nemôžeme zobraziť. 618 00:35:24,120 --> 00:35:26,700 A potom sme ich nahrať do niečoho zvaného 619 00:35:26,700 --> 00:35:31,680 Solr, čo nie je chybne napísané, ale je názov kus softvéru 620 00:35:31,680 --> 00:35:35,710 že robí vyhľadávanie indexovanie, čo riadi všetky vyhľadávania za API. 621 00:35:35,710 --> 00:35:40,110 A potom je k dispozícii na API, a ľudia môžu používať. 622 00:35:40,110 --> 00:35:44,640 >> Takže to je ako celkom priamočiary proces. 623 00:35:44,640 --> 00:35:47,230 Jedným zo zaujímavých veci, o to je 624 00:35:47,230 --> 00:35:50,990 že máme čo do činenia s 13 miliónov platní 625 00:35:50,990 --> 00:35:53,820 a my sa bude rokovania alebo viac. 626 00:35:53,820 --> 00:36:01,260 A my chceme byť schopní zvládnuť Tieto relatívne rýchle spôsobom. 627 00:36:01,260 --> 00:36:03,630 Trvá dlho, než sa spracovať 13 miliónov záznamov. 628 00:36:03,630 --> 00:36:09,529 >> Tak, ako to potrubie je nastavenie je, že ste can-- 629 00:36:09,529 --> 00:36:12,070 Myslím, že tú výhodu, že potrubia, problém, že sme 630 00:36:12,070 --> 00:36:15,580 sa snaží riešiť tu, je to, že všetky transformácie, všetko 631 00:36:15,580 --> 00:36:18,729 týchto krokov potrubia sú oddeliteľné. 632 00:36:18,729 --> 00:36:19,645 Nie je závislosť. 633 00:36:19,645 --> 00:36:22,146 Ak ste spracovanie záznam o jednej knihe, 634 00:36:22,146 --> 00:36:24,270 nie je závislosť na že medzi ďalšie knihu. 635 00:36:24,270 --> 00:36:27,760 >> Takže to, čo môžeme urobiť, je v podstate, na každom kroku v potrubí, 636 00:36:27,760 --> 00:36:30,470 dáme do fronty v cloude. 637 00:36:30,470 --> 00:36:32,250 Náhodou som sa byť na Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Takže tam je zoznam, hovoria, 10,000 položky, ktoré 639 00:36:35,140 --> 00:36:38,100 musí byť normalizované a prevedené do formátu MODS. 640 00:36:38,100 --> 00:36:41,620 A my sme točiť ako mnoho serverov ako sme chceli, možno 10 serverov. 641 00:36:41,620 --> 00:36:44,860 A každý z týchto serverov len sedí tam vyzerá v tejto fronte, 642 00:36:44,860 --> 00:36:46,730 vidí, že je tu ešte jedna, ktorá musí spracované, ťahá ju preč z frontu, 643 00:36:46,730 --> 00:36:48,740 spracuje ju a palice sa na ďalšie fronty. 644 00:36:48,740 --> 00:36:54,200 >> A tak, čo to nám umožňuje urobiť, je použiť, v podstate, 645 00:36:54,200 --> 00:36:58,110 toľko hardware, ako by sme chceli, aby to problém po veľmi krátku dobu 646 00:36:58,110 --> 00:37:02,970 tak rýchlo, ako spracovávať dáta je to možné, čo je niečo, čo len, 647 00:37:02,970 --> 00:37:08,220 teraz vo svete cloud computingu Môžeme sa poskytovanie servery v zásade 648 00:37:08,220 --> 00:37:09,890 okamžite, že je užitočný. 649 00:37:09,890 --> 00:37:12,260 Takže sme nemuseli mať Obrie servera sedieť 650 00:37:12,260 --> 00:37:16,700 po celú dobu robiť spracovania že by sa mohlo stať len raz za týždeň. 651 00:37:16,700 --> 00:37:21,440 >> Takže to je väčšinou to. 652 00:37:21,440 --> 00:37:27,590 K dispozícii je dokumentácia k dispozícii Pre knižnice Cloud položky API 653 00:37:27,590 --> 00:37:31,960 na tejto adrese URL, bude čo bude k dispozícii neskôr. 654 00:37:31,960 --> 00:37:36,730 A prosím, choďte sa pozrieť na je vidieť, či tam je niečo, 655 00:37:36,730 --> 00:37:37,579 Máte nejaké nápady. 656 00:37:37,579 --> 00:37:38,120 Hrajte sa s ním. 657 00:37:38,120 --> 00:37:38,830 Hlúposti. 658 00:37:38,830 --> 00:37:42,800 A dúfajme, že môžete prísť s niečím veľkým. 659 00:37:42,800 --> 00:37:44,740 Děkuju. 660 00:37:44,740 --> 00:37:45,899