1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY LICHT: Ahoj. 3 00:00:12,370 --> 00:00:13,550 Jsem Jeffrey Licht. 4 00:00:13,550 --> 00:00:17,890 A já jsem tu s tebou mluvit o Harvard Library a budování zítřejší 5 00:00:17,890 --> 00:00:20,870 dnes knihovna, myslím. 6 00:00:20,870 --> 00:00:23,040 Takže pozadí tady, hřiště pro tuto relaci 7 00:00:23,040 --> 00:00:26,930 je v podstatě, že je hodně bibliografických údajů 8 00:00:26,930 --> 00:00:28,400 k dispozici v knihovnách Harvard. 9 00:00:28,400 --> 00:00:33,434 A je tu příležitost, přes některé z nástrojů 10 00:00:33,434 --> 00:00:36,350 a projekt, který je vyvíjen, získat přístup k informacím 11 00:00:36,350 --> 00:00:42,430 a vzít ho do míst, která Harvard knihovna není právě teď dělá, 12 00:00:42,430 --> 00:00:45,460 dělat nové věci s tím, experiment a hrát si s ním. 13 00:00:45,460 --> 00:00:52,413 >> Takže vstupní bod do toho je API volal Harvard Library Cloud, který 14 00:00:52,413 --> 00:00:57,650 je otevřený server, metadata, který budu mluvit teď. 15 00:00:57,650 --> 00:01:02,595 Takže pozadí je, že je Spousta věcí v knihovně Harvard. 16 00:01:02,595 --> 00:01:07,150 Máme více než 13 milionů bibliografických evidence, miliony obrázků, 17 00:01:07,150 --> 00:01:11,090 a tisíce archivních pomůcek, které jsou v podstatě dokumenty popisující 18 00:01:11,090 --> 00:01:15,500 sbírky, říkat, co je v nich, krabice papírů 19 00:01:15,500 --> 00:01:21,080 a tak dále, které reprezentují více než milion jednotlivé dokumenty. 20 00:01:21,080 --> 00:01:24,290 A je tu také hodně informace, které má knihovna 21 00:01:24,290 --> 00:01:28,180 o tom, jak se používá, aby obsah by mohlo být zajímavé pro lidi 22 00:01:28,180 --> 00:01:32,400 kdo by mohl chtít, aby s ním pracovat. 23 00:01:32,400 --> 00:01:36,150 >> Takže všechny informace Knihovna má metadata. 24 00:01:36,150 --> 00:01:39,500 Takže metadata jsou data o datech. 25 00:01:39,500 --> 00:01:42,070 Takže když mluvíme o informace, které je 26 00:01:42,070 --> 00:01:44,890 k dispozici přes knihovnu mrak, který je k dispozici, 27 00:01:44,890 --> 00:01:47,760 to není nezbytně skutečné dokumenty 28 00:01:47,760 --> 00:01:53,060 samy o sobě, nemusí být úplný Text knihy nebo plné obrazů, 29 00:01:53,060 --> 00:01:54,890 i když ve skutečnosti, že může být v případě. 30 00:01:54,890 --> 00:01:57,550 Ale je to opravdu informace o datech. 31 00:01:57,550 --> 00:02:00,909 >> Takže si můžete myslet katalogizace informace, telefonní čísla, předměty, 32 00:02:00,909 --> 00:02:02,700 kolik kopií kniha tam jsou, co 33 00:02:02,700 --> 00:02:06,380 jsou vydání, jaké jsou formáty, autoři, a tak dále. 34 00:02:06,380 --> 00:02:12,250 Takže tam je spousta informací o Informace v kolekci, která, 35 00:02:12,250 --> 00:02:14,400 samo o sobě, je ve své podstatě druh užitečné. 36 00:02:14,400 --> 00:02:19,230 A i když pokud jste dělá in-podrobný výzkum, 37 00:02:19,230 --> 00:02:25,160 budete zřejmě chtít dostat do skutečné spokojit a podívat se na údaje, 38 00:02:25,160 --> 00:02:30,140 metadat je užitečné, pokud jde o obě analýzy korpusu jako celek, 39 00:02:30,140 --> 00:02:33,870 jako to, co věci jsou v kolekci. 40 00:02:33,870 --> 00:02:35,520 Jak se týkají? 41 00:02:35,520 --> 00:02:39,482 To vám pomůže opravdu najít jiné věci, což je opravdu hlavním účelem toho. 42 00:02:39,482 --> 00:02:41,190 Bod metadata a katalog 43 00:02:41,190 --> 00:02:43,230 je pomoci vám najít všechny informace, které je 44 00:02:43,230 --> 00:02:46,590 k dispozici v rámci sbírek. 45 00:02:46,590 --> 00:02:53,690 >> Tak tohle je příklad metadat pro knihu v knihovně Harvard. 46 00:02:53,690 --> 00:02:56,370 Takže je to tam. 47 00:02:56,370 --> 00:02:59,850 A můžete vidět, že je to ve skutečnosti mírně komplex. 48 00:02:59,850 --> 00:03:04,610 A část hodnoty metadat v rámci systému Harvard knihovny 49 00:03:04,610 --> 00:03:09,320 se, že to bylo nějak zastavěné by katalogizátory 50 00:03:09,320 --> 00:03:12,720 a sestavila osob žádajících spousta odborných znalostí a dovedností 51 00:03:12,720 --> 00:03:20,030 a myšlenka ní v průběhu času, který má spoustu hodnoty. 52 00:03:20,030 --> 00:03:25,450 >> Takže pokud jste se podívat na tento záznam pro Anotoval Alice, můžete zjistit, 53 00:03:25,450 --> 00:03:32,590 máte titul, který to napsal, autor, a všechny různé předměty 54 00:03:32,590 --> 00:03:35,380 které lidé do katalogu do. 55 00:03:35,380 --> 00:03:40,110 A můžete vidět, že je také v přídavek na hodně dobrých informací 56 00:03:40,110 --> 00:03:42,852 tady, tam je nějaký opakování. 57 00:03:42,852 --> 00:03:45,560 Je tu spousta složitosti, že je to projevuje prostřednictvím metadat 58 00:03:45,560 --> 00:03:46,300 že máte. 59 00:03:46,300 --> 00:03:50,320 >> Takže jeden titul z této knihy je Alenka v říši divů. 60 00:03:50,320 --> 00:03:53,880 Tak tohle je poznámkami verze této knihy. 61 00:03:53,880 --> 00:03:56,380 Ale je to také volal komentovaný Alice, Alenka 62 00:03:56,380 --> 00:03:58,570 v říši divů, protože to je něco, co se 63 00:03:58,570 --> 00:04:00,430 Martin Gardner napsal a komentovaný knihu. 64 00:04:00,430 --> 00:04:03,369 A je tu spousta skvělé informace o logických hádanek a věci 65 00:04:03,369 --> 00:04:05,410 v Alici, že vás asi nevěděl o. 66 00:04:05,410 --> 00:04:07,000 Takže byste měli jít přečíst. 67 00:04:07,000 --> 00:04:11,940 >> Ale můžete vidět, že je to spousta detailů zde, 68 00:04:11,940 --> 00:04:15,340 včetně identifikátorů, když ji byl vytvořen, odkud pochází, 69 00:04:15,340 --> 00:04:17,420 pokud jde o Harvard systém, a tak dále. 70 00:04:17,420 --> 00:04:20,350 Tak to je ukázka typ metadat 71 00:04:20,350 --> 00:04:24,340 které jste mohli vidět na knihu v kolekce Harvard knihovny. 72 00:04:24,340 --> 00:04:26,680 >> To je něco úplně jiného. 73 00:04:26,680 --> 00:04:32,610 Takže tam je systém nazvaný VIA Harvard, který v podstatě 74 00:04:32,610 --> 00:04:39,990 je katalogizace obrazů a uměleckých předmětů a vizuální věci v celém Harvardu, 75 00:04:39,990 --> 00:04:44,010 a doplnění některých metadata k nim, jejich třídění, 76 00:04:44,010 --> 00:04:49,200 a, v některých případech, poskytující malé náhledy 77 00:04:49,200 --> 00:04:51,250 které si můžete vzít podívejte se na pokud si to přejí. 78 00:04:51,250 --> 00:04:54,240 >> Tak tohle je příklad metadata, že máte na talíři 79 00:04:54,240 --> 00:04:57,840 z, pravděpodobně, Alenka v říši divů. 80 00:04:57,840 --> 00:05:00,499 A můžete vidět, že je to méně metadata zde. 81 00:05:00,499 --> 00:05:02,040 Je to jen jiný druh objektu. 82 00:05:02,040 --> 00:05:03,425 A tak je tu méně informací. 83 00:05:03,425 --> 00:05:07,790 >> Většinou musíte skutečnost, volání číslo, v podstatě, kdo ji vytvořil, - 84 00:05:07,790 --> 00:05:10,410 >> Nevíme, kdy byl vytvořen. 85 00:05:10,410 --> 00:05:13,320 >> --and titulu. 86 00:05:13,320 --> 00:05:14,300 >> Dalším příkladem. 87 00:05:14,300 --> 00:05:16,380 To je pomůcka. 88 00:05:16,380 --> 00:05:19,030 Takže tam je sbírka Lewis Papíry Carroll je na Harvardu. 89 00:05:19,030 --> 00:05:23,601 Tak to popisuje, co se je v této kolekci. 90 00:05:23,601 --> 00:05:26,100 Takže někdo prošel a Podíval se přes všechny boxy 91 00:05:26,100 --> 00:05:32,220 a katalogizovány to s ohledem na některé pozadí, písemný přehled o tom, co je to tady. 92 00:05:32,220 --> 00:05:35,290 A pokud jste se podívat dále na to, to 93 00:05:35,290 --> 00:05:39,620 jde na stránky a stránky a strany, ale řekne vám 94 00:05:39,620 --> 00:05:41,860 co písmena a co pochází z toho, co boxů 95 00:05:41,860 --> 00:05:44,289 existoval v celé sbírky. 96 00:05:44,289 --> 00:05:46,330 Ale tohle je něco, co to, že pokud jste na Harvardu, 97 00:05:46,330 --> 00:05:50,720 můžete jít a skutečně fyzicky vypadat up a, pravděpodobně, podívejte se na. 98 00:05:50,720 --> 00:05:53,440 >> Tak to je všechno skvělé. 99 00:05:53,440 --> 00:05:54,450 Tato metadata je užitečné. 100 00:05:54,450 --> 00:05:56,327 Je to v systému, Harvard knihovny. 101 00:05:56,327 --> 00:05:58,910 K dispozici jsou nástroje on-line, pokud vás může jít a podívat se na to, 102 00:05:58,910 --> 00:05:59,993 a vidět to, a hledat to. 103 00:05:59,993 --> 00:06:02,810 A můžete plátek a kostky se v mnoha různými způsoby. 104 00:06:02,810 --> 00:06:06,920 >> Ale je to opravdu k dispozici pouze v případě, Jste člověk sedět 105 00:06:06,920 --> 00:06:12,600 ve Vašem webovém prohlížeči, nebo tak něco, nebo telefon a navigaci přes to. 106 00:06:12,600 --> 00:06:16,730 Není to opravdu k dispozici v jakékoliv využitelné módy 107 00:06:16,730 --> 00:06:19,520 pro jiné systémy nebo ostatní počítače k ​​použití, 108 00:06:19,520 --> 00:06:21,500 Není se systémy v rámci Harvard knihovny, 109 00:06:21,500 --> 00:06:24,890 ale systémy ve vnějším světě, jen ostatní lidé obecně. 110 00:06:24,890 --> 00:06:30,210 Otázkou tedy je, jak můžeme aby bylo k dispozici pro počítače 111 00:06:30,210 --> 00:06:33,560 takže můžeme udělat zajímavější věci s ním, než jen 112 00:06:33,560 --> 00:06:36,550 Procházení to sami? 113 00:06:36,550 --> 00:06:39,766 >> Tak proč byste měli chtít, aby to udělat? 114 00:06:39,766 --> 00:06:41,140 Existuje mnoho možností. 115 00:06:41,140 --> 00:06:43,980 Jedním z nich je můžete vytvořit zcela odlišný způsob prohlížení 116 00:06:43,980 --> 00:06:46,962 obsah, který je k dispozici přes Harvard knihovny. 117 00:06:46,962 --> 00:06:48,670 Ukážu vám jednu později volal Stacklife, 118 00:06:48,670 --> 00:06:52,440 který má zcela jiný vzít na hledání obsahu. 119 00:06:52,440 --> 00:06:54,560 >> Dalo by se postavit doporučení motor. 120 00:06:54,560 --> 00:06:57,955 Takže Harvard knihovna není v obchodní říct, líbí se vám tuto knihu. 121 00:06:57,955 --> 00:07:01,080 Pak jděte se podívat na těchto 17 další knihy, které by vás mohly zajímat v 122 00:07:01,080 --> 00:07:03,200 nebo těchto 18 dalších snímků. 123 00:07:03,200 --> 00:07:06,040 Ale to jistě mohl být cenná vlastnost. 124 00:07:06,040 --> 00:07:09,272 A vzhledem k tomu metadata, může to možné uvést, že dohromady. 125 00:07:09,272 --> 00:07:11,980 Ty mohou mít různé potřeby v Podmínky vyhledávání obsahu, 126 00:07:11,980 --> 00:07:16,200 Třeba i přes nástroje, které jsou k dispozici, že knihovna je 127 00:07:16,200 --> 00:07:18,450 k dispozici, možná budete chtít hledat jiným způsobem 128 00:07:18,450 --> 00:07:21,847 nebo optimalizovat pro konkrétní případ užití, což možná je to velmi specializované. 129 00:07:21,847 --> 00:07:23,930 Možná, že existuje jen málo lidí na světě, kteří 130 00:07:23,930 --> 00:07:25,846 chcete vyhledávat obsah tímto způsobem, ale 131 00:07:25,846 --> 00:07:28,985 by bylo skvělé, kdybychom mohl nechat udělat. 132 00:07:28,985 --> 00:07:30,860 Je tu spousta analytics V tom, jak lidé 133 00:07:30,860 --> 00:07:33,860 použít obsah, který by bylo opravdu zajímavé vědět, zjistěte 134 00:07:33,860 --> 00:07:37,280 jaké knihy se používají, co nejsou, a tak dále. 135 00:07:37,280 --> 00:07:41,670 A pak je tu spousta možnost integrovat 136 00:07:41,670 --> 00:07:45,210 s dalšími informacemi že je tam na webu. 137 00:07:45,210 --> 00:07:46,880 Tak jsme have-- 138 00:07:46,880 --> 00:07:50,260 >> Například, má NPR Recenze knihy segmentu, 139 00:07:50,260 --> 00:07:53,090 kde se rozhovor Autoři o knihách. 140 00:07:53,090 --> 00:07:56,837 A tak to by bylo skvělé, kdyby jste byli vzhlédl knihu v Harvard 141 00:07:56,837 --> 00:07:59,670 Knihovna, a vy říkáte, OK, je tu Byl rozhovor s autorem. 142 00:07:59,670 --> 00:08:00,878 Pojďme se podívat na to. 143 00:08:00,878 --> 00:08:05,461 Nebo je tu stránka Wikipedie, as autoritativní, vědecké reference 144 00:08:05,461 --> 00:08:07,710 o této knize, která vás chtít, aby se podívat na. 145 00:08:07,710 --> 00:08:12,600 >> K dispozici jsou tyto typy zdrojů rozptýlené po celém webu. 146 00:08:12,600 --> 00:08:16,555 A je sbližovat by mohl být skvělý použití 147 00:08:16,555 --> 00:08:18,930 na někoho při pohledu na obsah, hledá něco. 148 00:08:18,930 --> 00:08:20,180 Ale to také není druh věc, kterou byste 149 00:08:20,180 --> 00:08:23,205 Chcete-knihovna být zodpovědný pro přechod dolů a honit 150 00:08:23,205 --> 00:08:25,455 Všechny tyto různé zdroje a ucpávání je spolu 151 00:08:25,455 --> 00:08:28,920 protože se neustále mění. 152 00:08:28,920 --> 00:08:33,570 A to, co si myslí, že je důležité, květen nebude to, co si myslíte, že je důležité. 153 00:08:33,570 --> 00:08:36,929 >> A ještě více, v podstatě je tu Hodně věcí jsme se mysleli, přesto. 154 00:08:36,929 --> 00:08:42,222 Takže pokud můžeme otevřít toto nahoru víc, Lidé kromě půl tuctu nebo tak, 155 00:08:42,222 --> 00:08:45,174 kteří se při pohledu na to na pravidelně, může myslet nápadů 156 00:08:45,174 --> 00:08:47,340 a masáž dat, a dělat, co chtějí s ním. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Proto chceme, aby to k dispozici do světa dat. 159 00:08:54,045 --> 00:08:55,670 No, existuje pár komplikace. 160 00:08:55,670 --> 00:08:58,540 Jedním z nich je, že tato metadata je v různých systémech. 161 00:08:58,540 --> 00:09:01,110 Je to v různých formátech. 162 00:09:01,110 --> 00:09:04,719 Takže tam je nějaký normalizace který se má stát, 163 00:09:04,719 --> 00:09:08,010 který normalizace je proces přinášet věci z různých formátů 164 00:09:08,010 --> 00:09:12,940 a jejich mapování na jednotném formátu takže pole budou shodovat. 165 00:09:12,940 --> 00:09:15,160 >> Existují určitá omezení autorských práv. 166 00:09:15,160 --> 00:09:21,010 Kupodivu, vstup katalog o kniha je odpovědný za autorská práva. 167 00:09:21,010 --> 00:09:24,060 Takže i když je to jen informace získané z knihy, 168 00:09:24,060 --> 00:09:25,330 to je copyrightable. 169 00:09:25,330 --> 00:09:28,400 A podle toho, kdo vlastně vytvořil metadat, 170 00:09:28,400 --> 00:09:32,175 může být omezení na to, kdo Můžete jej distribuovat, podobný to-- 171 00:09:32,175 --> 00:09:33,402 >> Nevím. 172 00:09:33,402 --> 00:09:36,110 To může, ale nemusí být podobné situace písňových textů, 173 00:09:36,110 --> 00:09:36,610 například. 174 00:09:36,610 --> 00:09:38,560 Tak jsme se všichni víme, jak to pánve ven. 175 00:09:38,560 --> 00:09:40,450 Takže je potřeba se dostat kolem této otázky. 176 00:09:40,450 --> 00:09:44,910 >> A pak další kus že je tu spousta dat. 177 00:09:44,910 --> 00:09:52,420 Takže pokud jsem někoho, kdo chce pracovat s údaji, nebo má skvělý nápad, 178 00:09:52,420 --> 00:09:55,350 jednání s 14000000 záznamů na mém notebooku 179 00:09:55,350 --> 00:09:57,487 by mohlo být problematické a obtížné. 180 00:09:57,487 --> 00:09:59,320 Takže chceme snížit bariéry pro lidi 181 00:09:59,320 --> 00:10:02,130 aby bylo možné pracovat s daty. 182 00:10:02,130 --> 00:10:07,880 >> Takže přístup, který by snad adresy všechny tyto obavy jsou dvě části. 183 00:10:07,880 --> 00:10:11,770 Jedním z nich je budování platformy, který trvá Data ze všech těchto různých zdrojů 184 00:10:11,770 --> 00:10:14,350 a zhoršuje to, normalizuje, obohacuje, a značky 185 00:10:14,350 --> 00:10:16,650 je k dispozici na jednom místě. 186 00:10:16,650 --> 00:10:20,950 A to je to k dispozici prostřednictvím veřejné API, které mohou lidé volat. 187 00:10:20,950 --> 00:10:24,430 >> Takže API je Application Programming Interface. 188 00:10:24,430 --> 00:10:28,930 A to v podstatě odkazuje na Koncový bod, že systém nebo technologie 189 00:10:28,930 --> 00:10:31,720 zavolat a získat data zpět do strukturovaný formát způsobem 190 00:10:31,720 --> 00:10:32,900 která může být použita. 191 00:10:32,900 --> 00:10:36,060 Takže to není závislý dál na webové stránky 192 00:10:36,060 --> 00:10:37,970 a škrábání data z ní, např. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Tak to je domovská stránka Knihovna Cloud Item API, 195 00:10:45,010 --> 00:10:47,220 který je v podstatě jeho verze dvě. 196 00:10:47,220 --> 00:10:50,130 Takže je to druhá iterace se snaží, aby všechny tyto údaje 197 00:10:50,130 --> 00:10:53,280 k dispozici na celém světě. 198 00:10:53,280 --> 00:10:59,560 Tak to je http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 A právě rozčlenit tento systém trochu, co to znamená 200 00:11:03,830 --> 00:11:06,115 je to, že je to verze dvě API. 201 00:11:06,115 --> 00:11:08,490 K dispozici je verze jedna, což Nebudu mluvit. 202 00:11:08,490 --> 00:11:09,750 Ale je tu jedna verze. 203 00:11:09,750 --> 00:11:14,740 >> A pokud voláte to API, jste získali položky. 204 00:11:14,740 --> 00:11:20,640 A část myšlenky API je API je smlouva. 205 00:11:20,640 --> 00:11:23,440 Je to něco, co je nebude měnit. 206 00:11:23,440 --> 00:11:24,850 Tak například, - 207 00:11:24,850 --> 00:11:27,410 >> A důvodem je, že když jsem vytvořit nějaký systém, který 208 00:11:27,410 --> 00:11:33,210 bude používat knihovny cloud API Pro zobrazení knihy nebo pomoci lidem najít 209 00:11:33,210 --> 00:11:36,190 Informace v jedinečným způsobem, to, co nechceme, aby se stalo 210 00:11:36,190 --> 00:11:38,940 je pro nás jít změnit způsob, jakým že API funguje, a najednou 211 00:11:38,940 --> 00:11:41,340 vše přestávky na koncové straně uživatele. 212 00:11:41,340 --> 00:11:46,710 Takže část, pokud děláš API k dispozici na celém světě, je to 213 00:11:46,710 --> 00:11:49,396 dobrým zvykem dát číslo verze v tom, aby lidé 214 00:11:49,396 --> 00:11:51,020 vědí, jakou verzi jsou co do činění s. 215 00:11:51,020 --> 00:11:54,300 >> Takže když jsme se rozhodli jsme najít lepší způsob, tvorby tyto informace k dispozici, 216 00:11:54,300 --> 00:11:57,295 můžeme změnit na volat, že verze tři. 217 00:11:57,295 --> 00:11:59,920 Takže každý, kdo je stále používá verze dvě, že bude i nadále fungovat. 218 00:11:59,920 --> 00:12:03,490 Ale verze tři by mít všechny nové věci. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Tak tohle je API, ale to Opravdu vypadá jako URL. 221 00:12:09,210 --> 00:12:11,680 A tak to, co to je Příkladem je to, co je 222 00:12:11,680 --> 00:12:16,615 volal odpočinek API, který je k dispozici přes jen běžné webové připojení. 223 00:12:16,615 --> 00:12:19,680 A můžete skutečně jít na to v prohlížeči. 224 00:12:19,680 --> 00:12:28,550 >> Tak tady jsem se právě otevřela Firefox a šel do api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 A tak to, co jsem se sem dostal, je v podstatě první stránka 226 00:12:31,560 --> 00:12:34,740 výsledků z celé soubor předmětů, které jsme dostali. 227 00:12:34,740 --> 00:12:37,460 A je to tady ve formátu XML. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 A je to také přikrášlil Firefox. 230 00:12:42,210 --> 00:12:45,850 To není ve skutečnosti mají všechny tyto málo rozšiřování a uzavírání smluv 231 00:12:45,850 --> 00:12:47,880 doohickeys zde. 232 00:12:47,880 --> 00:12:52,520 To je trochu hezčí verze způsob, jak se na to podívat. 233 00:12:52,520 --> 00:12:57,040 >> Ale co je to nám říká, je Já jsem požádal všechny položky. 234 00:12:57,040 --> 00:13:03,120 Takže tam jsou 13.289.475 položky. 235 00:13:03,120 --> 00:13:06,150 A já jsem při pohledu na první 10, začíná v poloze nulové 236 00:13:06,150 --> 00:13:09,760 protože v informatice začínáme vždy od nuly. 237 00:13:09,760 --> 00:13:15,150 A to, co jsem tady, když jsem kolaps to, uvidíte já mám 10 položek. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> A když jsem se podívat na položky, mohu vidět, že mám informace o něm. 240 00:13:25,210 --> 00:13:27,400 A to je to, co se nazývá MODS formulář. 241 00:13:27,400 --> 00:13:30,860 A tak budu přepínat zpět sem na chvíli. 242 00:13:30,860 --> 00:13:33,750 OK. 243 00:13:33,750 --> 00:13:37,447 >> Takže pojďme hledat něco v specifické tím, že jako první položku, která 244 00:13:37,447 --> 00:13:40,030 se stane přijít, když se podíváte přes celou kolekci 245 00:13:40,030 --> 00:13:41,750 je, podle definice, náhodný. 246 00:13:41,750 --> 00:13:44,550 Tak se pojďme podívat na některé koblihy. 247 00:13:44,550 --> 00:13:46,830 Oh. 248 00:13:46,830 --> 00:13:49,190 >> OK. 249 00:13:49,190 --> 00:13:49,940 Takže koblihy. 250 00:13:49,940 --> 00:13:55,360 Tak jsme tam našli je 80 položky v Kolekce, která odkazují koblihy. 251 00:13:55,360 --> 00:13:57,150 Díváme se na prvních 10 z nich. 252 00:13:57,150 --> 00:14:01,890 Nyní můžete vidět zde způsob, jakým Řekl jsem, Hledám koblihy, 253 00:14:01,890 --> 00:14:04,400 Jen jsem přidal něco řetězec dotazu URL. 254 00:14:04,400 --> 00:14:09,680 Takže q se rovná koblihy, které si můžete viz trochu snadněji zde. 255 00:14:09,680 --> 00:14:12,131 >> A to v podstatě znamená, že je spec pro API, které 256 00:14:12,131 --> 00:14:13,880 definuje, co všechno Tyto parametry znamenají. 257 00:14:13,880 --> 00:14:17,150 A to znamená, že budeme hledat vše, co pro koblihy. 258 00:14:17,150 --> 00:14:24,910 >> Takže na první položku zde máme můžete vidět, titul je Donuts, 259 00:14:24,910 --> 00:14:29,310 a tam je podtitul s názvem Americký Passion, což je, myslím, 260 00:14:29,310 --> 00:14:31,610 vhodné. 261 00:14:31,610 --> 00:14:36,134 Existuje mnoho different-- 262 00:14:36,134 --> 00:14:38,050 Jakmile se dostanete do bodu, o získání dat, 263 00:14:38,050 --> 00:14:41,020 existuje mnoho různých formáty, které se můžete dostat do. 264 00:14:41,020 --> 00:14:44,050 A tam jsou různé síly a slabé stránky pro všechny z nich. 265 00:14:44,050 --> 00:14:49,000 Tak tohle, můžete vidět tady, tato forma je velmi bohatá. 266 00:14:49,000 --> 00:14:51,946 A to je standardizován. 267 00:14:51,946 --> 00:14:55,040 >> Takže je tu konkrétní titul pole, pole titulků. 268 00:14:55,040 --> 00:14:58,950 K dispozici je alternativní titul, American Passion. 269 00:14:58,950 --> 00:15:01,650 Tam je název s ním spojené. 270 00:15:01,650 --> 00:15:03,120 Typ zdroje je textu. 271 00:15:03,120 --> 00:15:06,070 Je tu spousta informací tady v tomto formátu. 272 00:15:06,070 --> 00:15:09,480 >> Ale jsou tu parta z různých formátech. 273 00:15:09,480 --> 00:15:11,920 Takže to, co jsme byli jen je při pohledu na formát 274 00:15:11,920 --> 00:15:17,700 zvané MODS, což znamená Metadata Object Popis Service, 275 00:15:17,700 --> 00:15:18,250 potenciálně. 276 00:15:18,250 --> 00:15:23,030 Ve skutečnosti jsem si zcela jist, o S. Ale je to docela složitý formát. 277 00:15:23,030 --> 00:15:24,240 To je výchozí formát. 278 00:15:24,240 --> 00:15:30,260 >> Ale je to ten, který drží bohatost všech údajů 279 00:15:30,260 --> 00:15:33,820 že knihovna má proto je to velmi blízko k tomu, co 280 00:15:33,820 --> 00:15:35,110 Knihovna používá interně. 281 00:15:35,110 --> 00:15:39,030 Je to standard, který je používá po celé zemi, 282 00:15:39,030 --> 00:15:40,944 po celém světě, v akademických knihovnách. 283 00:15:40,944 --> 00:15:42,110 A to je velmi interoperabilní. 284 00:15:42,110 --> 00:15:44,852 Takže pokud máte dokument že je ve formátu MODS, 285 00:15:44,852 --> 00:15:47,560 si můžete dát, že pro někoho jiného jejichž systémy pochopit mods, 286 00:15:47,560 --> 00:15:48,518 a mohou jej importovat. 287 00:15:48,518 --> 00:15:50,840 Takže je to standardní. 288 00:15:50,840 --> 00:15:54,250 Je to velmi dobře definované, velmi specifické. 289 00:15:54,250 --> 00:15:58,980 A to je to, co dělá to spolupracovat, protože pokud někdo říká, 290 00:15:58,980 --> 00:16:04,930 To je alternativní název rekord, každý ví, co to znamená. 291 00:16:04,930 --> 00:16:07,740 Na druhou stranu, je to velmi složité. 292 00:16:07,740 --> 00:16:13,160 >> Takže pokud jste se podívat V tomto záznamu tady, 293 00:16:13,160 --> 00:16:15,320 pokud chci jen, aby si název tohoto dokumentu, 294 00:16:15,320 --> 00:16:21,150 z této knihy, která je pravděpodobně Donuts, Americký Passion, rozebrat ho 295 00:16:21,150 --> 00:16:22,940 je trochu zapojit. 296 00:16:22,940 --> 00:16:27,380 Vzhledem k tomu, že je jiný formát nazvaný Dublin Core, 297 00:16:27,380 --> 00:16:29,730 což je mnohem, mnohem jednodušší formát. 298 00:16:29,730 --> 00:16:33,764 >> A tak zde vidíte, není název, podtitul, alternativní název. 299 00:16:33,764 --> 00:16:35,930 Je tu jen titul, Donuts, American Passion, 300 00:16:35,930 --> 00:16:38,780 a další titul, American Passion. 301 00:16:38,780 --> 00:16:42,907 Takže, když se díváte na to, jakou formu Chcete-li získat data z, 302 00:16:42,907 --> 00:16:44,740 Hodně záleží na tom, jak budete používat. 303 00:16:44,740 --> 00:16:46,573 Jste použitím interoperability nebo si 304 00:16:46,573 --> 00:16:49,970 Chcete něco jednoduchého, že by mohlo být jednodušší pracovat? 305 00:16:49,970 --> 00:16:56,002 >> Na druhou stranu, spousta Podrobnosti si trochu naskládal dolů. 306 00:16:56,002 --> 00:16:58,460 Můžete přijít o nuance co určité oblasti prostředek 307 00:16:58,460 --> 00:17:02,960 pokud máte co do činění s Dublin Core, které byste si s MODS. 308 00:17:02,960 --> 00:17:06,462 To jsou dva formáty se můžete dostat ven z API. 309 00:17:06,462 --> 00:17:08,920 A v podstatě, držíme to v zákulisí v MODS. 310 00:17:08,920 --> 00:17:14,179 Ale můžeme dát ji do Mods a Dublin Core a něco i jinde. 311 00:17:14,179 --> 00:17:16,470 Další plnění, pokud hledáte v datech 312 00:17:16,470 --> 00:17:21,210 je můžete získat buď jako JSON, který je zkratka pro JavaScript Object Notation, 313 00:17:21,210 --> 00:17:24,720 nebo XML, což je zkratka pro Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 A tyto datové reprezentace obou mají stejné údaje, přesně 315 00:17:30,080 --> 00:17:31,080 stejných oblastech. 316 00:17:31,080 --> 00:17:33,644 Ale jsou to jen syntakticky jinak. 317 00:17:33,644 --> 00:17:40,401 >> Tak tohle je je-- 318 00:17:40,401 --> 00:17:41,400 No, tak to prostě přejít. 319 00:17:41,400 --> 00:17:47,490 Tak tohle je náš dotaz pro koblihy ve formátu XML. 320 00:17:47,490 --> 00:17:53,470 Když jsem se přejít to, že JSON, Vidím, že to vypadá jinak. 321 00:17:53,470 --> 00:17:58,580 Takže teď je to stejný obsah, ale odlišná struktura. 322 00:17:58,580 --> 00:18:00,080 Tam je méně lomené závorky. 323 00:18:00,080 --> 00:18:02,530 Je tu méně upovídaný. 324 00:18:02,530 --> 00:18:06,440 >> A to je formát, který, pokud máte pracují v prostředí webu, 325 00:18:06,440 --> 00:18:09,680 jste se s největší pravděpodobností bude chtít použít, protože jeden 326 00:18:09,680 --> 00:18:12,630 z pěkných věcí o JSON je je kompatibilní s JavaScriptem. 327 00:18:12,630 --> 00:18:17,680 Takže když píšu webové aplikace, můžu vytáhnout JSON a právě s ním pracovat přímo. 328 00:18:17,680 --> 00:18:20,187 Vzhledem k tomu, s XML, je to trochu složitější. 329 00:18:20,187 --> 00:18:21,520 Takže znovu, to jsou oba použitelné. 330 00:18:21,520 --> 00:18:26,387 Prostě jsou různé případy použití kde se lidé mohou chtít použít. 331 00:18:26,387 --> 00:18:26,886 OK. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Takže zpět k API. 334 00:18:31,680 --> 00:18:32,900 Takže můžeme hledat for-- 335 00:18:32,900 --> 00:18:36,220 >> Dám příklad vyhledávání koblihy. 336 00:18:36,220 --> 00:18:39,330 Můžeme také hledat jen v Zejména oblast v sem. 337 00:18:39,330 --> 00:18:41,310 Takže místo toho, hledání celý záznam, 338 00:18:41,310 --> 00:18:43,870 Mohu jen hledat v názvu pole. 339 00:18:43,870 --> 00:18:48,810 A tak teď tam jsou věci, které 25 mají koblihy v názvu, z nichž jedna 340 00:18:48,810 --> 00:18:52,430 je o obnovení mokřady v oblasti řízení 341 00:18:52,430 --> 00:18:54,990 z otvoru v koblihy Program, který je pravděpodobně 342 00:18:54,990 --> 00:18:58,970 nemusí být nutně to, co hledáme , když jsme hledali koblihy. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> Můžete také, když jste jednání s API-- 345 00:19:05,490 --> 00:19:08,827 >> Část má API dává lidé přístup k velkých datových souborů. 346 00:19:08,827 --> 00:19:11,410 A existuje několik různých nástroje, které můžete použít k tomu, že. 347 00:19:11,410 --> 00:19:14,170 Jedním z nich je, velmi jednoduše, vy lze procházet data. 348 00:19:14,170 --> 00:19:17,340 Takže stejně, jako byste udělat dotaz přes webové rozhraní, 349 00:19:17,340 --> 00:19:19,470 se můžete podívat na první straně, strana dva, strana tři. 350 00:19:19,470 --> 00:19:22,040 Můžete udělat totéž to prostřednictvím rozhraní API. 351 00:19:22,040 --> 00:19:24,150 Je pouze potřeba být Výslovně se v tom, jak to udělat. 352 00:19:24,150 --> 00:19:29,511 >> Tak například, pokud se dívám na můj první dotaz zde, 353 00:19:29,511 --> 00:19:32,510 kde dělám hledání věcí s koblihy v názvu, mohu říci, 354 00:19:32,510 --> 00:19:35,415 a hranice se rovná 20, což znamená, dej mi prvních 20 záznamů, ne 355 00:19:35,415 --> 00:19:38,540 prvních 10, což je výchozí nastavení, proto, že chci se podívat na 20 najednou. 356 00:19:38,540 --> 00:19:43,435 Nebo mohu říci, nastavte začne ve výši 20 a limitu 357 00:19:43,435 --> 00:19:47,150 rovná 20, která bude obsahovat me záznamy 21 až 40. 358 00:19:47,150 --> 00:19:52,680 >> Takže myslím, že věc odnést zde 359 00:19:52,680 --> 00:19:57,290 že jsme pomocí řetězce dotazu nastavit parametry na dotaz. 360 00:19:57,290 --> 00:20:02,760 A to vám umožní kontrolu to, co dostanete zpátky. 361 00:20:02,760 --> 00:20:05,980 >> Dalším nástrojem, který můžete použít, - 362 00:20:05,980 --> 00:20:09,250 >> A to je opravdu užitečné Podmínky zkoumání dat. 363 00:20:09,250 --> 00:20:10,840 >> --is něco jako faceting. 364 00:20:10,840 --> 00:20:15,530 Takže termín faceting je ne nutně běžné. 365 00:20:15,530 --> 00:20:16,880 Ale vy jste všichni viděli předtím. 366 00:20:16,880 --> 00:20:18,630 Pokud jste se podívat na Amazon, například, 367 00:20:18,630 --> 00:20:20,870 a vy hledání koblihy v knihách, 368 00:20:20,870 --> 00:20:27,080 Tady mám sérii knih, a oni jsou seskupeny podle kategorií, 369 00:20:27,080 --> 00:20:30,470 a dostanete různé kategorie, a kolik knih v každé kategorii 370 00:20:30,470 --> 00:20:31,330 ukázat. 371 00:20:31,330 --> 00:20:33,420 >> Tak to je v podstatě aspekt. 372 00:20:33,420 --> 00:20:37,570 Budete mít všechny své knihy, 1800 knihy, které odpovídají koblihy na Amazon. 373 00:20:37,570 --> 00:20:39,820 12 z nich je v snídaně kategorie. 374 00:20:39,820 --> 00:20:43,100 21 v pečivu a pečení, a tak dále a tak dále. 375 00:20:43,100 --> 00:20:47,670 >> Tak tohle je opravdu užitečný nástrojem pro zkoumání obsahu 376 00:20:47,670 --> 00:20:53,260 v knihovně, jakož protože když se podíváte na fazety, 377 00:20:53,260 --> 00:20:56,520 To vám dává představu o tom, co předměty existuje, jako to, co typy objektů 378 00:20:56,520 --> 00:20:58,510 jsou nejoblíbenější přímo ve Vašem sadě dotazu. 379 00:20:58,510 --> 00:21:00,950 A to vám pomůže odjet a prozkoumat. 380 00:21:00,950 --> 00:21:02,770 Takže můžeme udělat totéž. 381 00:21:02,770 --> 00:21:05,940 >> Pokud chceme použít API a podívat se na aspekty, 382 00:21:05,940 --> 00:21:08,950 přidáme další parametr na náš přítel řetězec dotazu. 383 00:21:08,950 --> 00:21:12,540 Takže aspektů rovná oddělených čárkou Seznam toho, co chceme, aby aspekt dál. 384 00:21:12,540 --> 00:21:14,790 Takže jeden z aspektů by mohly být předmětem. 385 00:21:14,790 --> 00:21:16,565 Dalším může být řeč. 386 00:21:16,565 --> 00:21:19,665 A tak když narazíme tento dotaz, my get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Vypadá to skoro tady stejný. 389 00:21:24,830 --> 00:21:29,010 Ale jsme přidali na konec seznamu soubor aspekty. 390 00:21:29,010 --> 00:21:34,060 Takže máme aspekt s názvem předmět. 391 00:21:34,060 --> 00:21:40,250 Tak to nám říká, že když se podívám v mých 80 vyplývá z dotazu koblihy, 392 00:21:40,250 --> 00:21:42,100 13 z nich podrobit Spojené státy. 393 00:21:42,100 --> 00:21:43,684 Tři mají na něž koblihy. 394 00:21:43,684 --> 00:21:45,600 Tři mají předmět mokřadních restaurování, 395 00:21:45,600 --> 00:21:47,720 které mohou být naše díra v koblihy. 396 00:21:47,720 --> 00:21:51,780 Dva z nich, Simpsons, a tak dále a tak dále. 397 00:21:51,780 --> 00:21:59,211 >> Takže to může být užitečné, pokud Chcete zúžit vyhledávání. 398 00:21:59,211 --> 00:22:00,210 To vám může pomoci udělat. 399 00:22:00,210 --> 00:22:03,580 Zvlášť pokud máte více než, řekněme, 80 řádků. 400 00:22:03,580 --> 00:22:05,980 >> Stejně tak, jsme se ptali pro aspekty na jazyk. 401 00:22:05,980 --> 00:22:14,790 Takže pokud se podíváme na naše výsledky, vidíme 76 z nich jsou v angličtině, čtyři ve francouzštině, 402 00:22:14,790 --> 00:22:19,620 dva ve španělštině, dva, myslím, že je to nedefinovaný nebo neznámé, holandský a latina. 403 00:22:19,620 --> 00:22:22,830 Takže si myslím, latinu kobliha výsledek, opět, 404 00:22:22,830 --> 00:22:24,922 nemá nic společného s pečiva. 405 00:22:24,922 --> 00:22:25,630 Ale tam jdete. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Tak tohle je trochu ukáže vám, Jak si můžete stáhnout obsah zpět 408 00:22:38,630 --> 00:22:41,270 z API právě prostřednictvím webový prohlížeč, což je skvělé. 409 00:22:41,270 --> 00:22:44,320 Ale to není to, co byste za normálních okolností použití v API pro to. 410 00:22:44,320 --> 00:22:48,710 Takže jeden z příkladů, jak se by se skutečně udělat, je jsem 411 00:22:48,710 --> 00:22:54,720 napsal super malý program, který opět dělá můj koblihu vyhledávání 412 00:22:54,720 --> 00:22:59,010 a vybere pár polí a zobrazí je v tabulce. 413 00:22:59,010 --> 00:23:01,610 Tak to je velmi Stejný obsah, který jsme právě 414 00:23:01,610 --> 00:23:04,830 pila s několika poli vytáhl ven. 415 00:23:04,830 --> 00:23:12,090 Takže seznamu titulů, na místo toho, co knihy 416 00:23:12,090 --> 00:23:15,120 je asi, jazyk, a tak dále a tak dále. 417 00:23:15,120 --> 00:23:20,480 >> Tak, jak se to vlastně stalo, od té doby Myslím, že bychom se podívat na nějaký kód, 418 00:23:20,480 --> 00:23:22,420 je-- 419 00:23:22,420 --> 00:23:28,060 >> To, co zde máme, je jednoduchý HTML strana, která zobrazuje text, 420 00:23:28,060 --> 00:23:32,900 vítejte na knihovny cloudu a pak zobrazuje tabulku výsledků. 421 00:23:32,900 --> 00:23:37,790 A tam se v zřejmě žádné výsledky stůl, když se stránka se nahraje. 422 00:23:37,790 --> 00:23:41,380 Ale co děláme je v první řadě, jsme 423 00:23:41,380 --> 00:23:46,290 vkládáte knihovny s názvem jQuery, což je v podstatě 424 00:23:46,290 --> 00:23:52,030 knihovna JavaScript, což z něj činí velmi snadno manipulovat JavaScript 425 00:23:52,030 --> 00:23:58,780 nativně, HTML, a vytvořit webové stránky, na straně klienta logika a webové stránky. 426 00:23:58,780 --> 00:24:01,595 >> Takže to, co tu máme, je jQuery má metodu nazvanou Get, 427 00:24:01,595 --> 00:24:05,270 který v podstatě půjde do URL, který v tomto případě, 428 00:24:05,270 --> 00:24:09,070 Je to známý vypadající URL. 429 00:24:09,070 --> 00:24:14,440 A pak si obsah z že URL a spustit funkci na to. 430 00:24:14,440 --> 00:24:19,240 Tak jsme si řekli jít do api.lib.harvard / edu. 431 00:24:19,240 --> 00:24:20,060 Hledat koblihy. 432 00:24:20,060 --> 00:24:21,300 Dejte nám 20 záznamů. 433 00:24:21,300 --> 00:24:28,590 A pak spustit tuto funkci, která Já jsem zvolen, předáte jí data. 434 00:24:28,590 --> 00:24:34,430 A data JSON, že dostal se vrátil z API. 435 00:24:34,430 --> 00:24:40,120 >> A pak říkáme, že v rámci Data tam je pole s názvem položky. 436 00:24:40,120 --> 00:24:48,117 A když jdu se podívat zpět na jeden z těchto výsledků, které je tady, 437 00:24:48,117 --> 00:24:49,200 je tu něco called-- 438 00:24:49,200 --> 00:24:50,220 >> No, je to jen bod. 439 00:24:50,220 --> 00:24:53,520 Tak, že může být, že. 440 00:24:53,520 --> 00:25:01,840 A to, co dělá, je to prochází každou položku 441 00:25:01,840 --> 00:25:05,300 a pak volá další funkce na každé položce. 442 00:25:05,300 --> 00:25:08,440 A že funkce v podstatě bere hodnotu 443 00:25:08,440 --> 00:25:12,010 položky, která je v podstatě individuální rekord 444 00:25:12,010 --> 00:25:18,220 a umožňuje nám vytáhnout titul, pokrytí a jazyk. 445 00:25:18,220 --> 00:25:21,640 >> Tak jsme volání funkce na každý položka, která jsme se vrátili z API. 446 00:25:21,640 --> 00:25:25,397 A pokud si stačí se podívat V tomto kousku tady, 447 00:25:25,397 --> 00:25:27,230 to, co děláme, je jsme vytvořit řetězec, 448 00:25:27,230 --> 00:25:31,810 což je v podstatě některé značky HTML kolem stolu, s value.title, 449 00:25:31,810 --> 00:25:35,790 což je název objekt, value.coverage, 450 00:25:35,790 --> 00:25:36,790 což je pokrytí, - 451 00:25:36,790 --> 00:25:38,225 >> A děláme kontrolu zde vidět, kdo je definován 452 00:25:38,225 --> 00:25:40,570 a skrývání, pokud říká, že nedefinované, proto, že jsme opravdu zájem 453 00:25:40,570 --> 00:25:41,600 se tím, že. 454 00:25:41,600 --> 00:25:42,939 >> --and pak jazyk. 455 00:25:42,939 --> 00:25:44,730 A pak to, co jsme dělá, je, že připojením 456 00:25:44,730 --> 00:25:48,510 do tabulky, která je identifikovat podle tohoto řetězce zde. 457 00:25:48,510 --> 00:25:50,790 A jak jQuery funguje je to, co to říká 458 00:25:50,790 --> 00:25:56,420 se podívat na tabulku s myšlenkou výsledky a přidejte tento text k tomu. 459 00:25:56,420 --> 00:25:59,380 A to je tabulka s výsledky nápad. 460 00:25:59,380 --> 00:26:04,998 Takže to, co jste skončili s je na tuto stránku zde. 461 00:26:04,998 --> 00:26:06,206 A aby se mohli source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 No, zdroj není ve skutečnosti aktualizovat, když se to stalo. 464 00:26:13,810 --> 00:26:18,740 Takže můžete vidět aktuální Výsledky v tabulce zde ačkoli. 465 00:26:18,740 --> 00:26:24,770 >> Takže je to jen jednoduchý příklad dělá velmi jednoduchý dotaz na rozhraní API 466 00:26:24,770 --> 00:26:29,020 a zobrazování informací v jiné tvoří, a nic nedělá moc fantazie. 467 00:26:29,020 --> 00:26:36,370 A teď, další příklad je jako Aplikace napsal David Weinberger 468 00:26:36,370 --> 00:26:39,120 jako demo tohoto, který v podstatě ukazuje, 469 00:26:39,120 --> 00:26:44,620 jak si můžete zapařit na výsledky, kde jsi dostat z knihovny cloud API 470 00:26:44,620 --> 00:26:46,250 s, řekněme, Knihy Google. 471 00:26:46,250 --> 00:26:52,225 >> A myšlení je, že můžu Spuštění dotazu proti Google Books, 472 00:26:52,225 --> 00:26:56,060 získat fulltextové vyhledávání, získat nějaké výsledky zpět, zjistit, který z těchto položek 473 00:26:56,060 --> 00:27:01,180 skutečně existují v Hollis, knihovní systém, 474 00:27:01,180 --> 00:27:03,200 a pak mi odkazy zpět do těchto položek. 475 00:27:03,200 --> 00:27:12,730 Takže když jsem se hledat, to bylo temná a bouřlivá noc, já 476 00:27:12,730 --> 00:27:16,210 dostat zpět spoustu výsledků od společnosti Google, a pak jeden výsledek 477 00:27:16,210 --> 00:27:19,460 což je vyhlazení vrásek v čase. 478 00:27:19,460 --> 00:27:29,330 A to jsou odkazy na knihy, které existují v rámci systému Harvard knihovny. 479 00:27:29,330 --> 00:27:32,160 >> Takže myslím, že bod tady není tak moc, že ​​to může nebo nemusí 480 00:27:32,160 --> 00:27:34,118 je způsob, jakým chcete hledat knihovnu, 481 00:27:34,118 --> 00:27:38,310 ale to je úplně jiná způsob, který nebyl k dispozici pro vás 482 00:27:38,310 --> 00:27:42,884 před, jako jste měli žádný způsob, jak dělat Plné znění hledá na knihy, které i 483 00:27:42,884 --> 00:27:44,550 byly součástí systému Harvard knihovny. 484 00:27:44,550 --> 00:27:46,870 Takže teď je to cesta které můžete udělat. 485 00:27:46,870 --> 00:27:51,930 A můžete zobrazit v jakémkoli formátu, budete chtít. 486 00:27:51,930 --> 00:27:55,990 Takže bod tady je, v podstatě, jsme otevírá nové možnosti pro lidi 487 00:27:55,990 --> 00:27:59,080 pro práci s daty. 488 00:27:59,080 --> 00:28:07,925 >> Další kus knihovny mraku je to, že to pomáhá vystavit některé údaje o použití 489 00:28:07,925 --> 00:28:08,800 že knihovna má. 490 00:28:08,800 --> 00:28:12,630 Takže pokud jdete do knihovny, a hledáte pro knihy, 491 00:28:12,630 --> 00:28:15,770 nemusíte nutně ve skutečnosti mají představu, 492 00:28:15,770 --> 00:28:19,080 pro všechny položky v zejména předmět, co 493 00:28:19,080 --> 00:28:21,200 jsou lidé v komunity, ať už je to 494 00:28:21,200 --> 00:28:24,890 definována jako Harvard, nebo země nebo vaše třída, 495 00:28:24,890 --> 00:28:26,421 to, co se našli nejvhodnější? 496 00:28:26,421 --> 00:28:28,920 A knihovna ve skutečnosti má ton informací o tom, co 497 00:28:28,920 --> 00:28:32,999 je velmi užitečné, protože v případě, že mnoho lidí, kteří jsou mimo kontrolu knihu, 498 00:28:32,999 --> 00:28:34,040 že vám řekne něco. 499 00:28:34,040 --> 00:28:36,498 Tam musí být nějaký důvod chtějí podívat se na to. 500 00:28:36,498 --> 00:28:38,270 Hodně lidí ji na rezervy. 501 00:28:38,270 --> 00:28:42,520 >> Pokud je to na rezervní seznam pro mnoho tříd, které vám řekne něco. 502 00:28:42,520 --> 00:28:45,960 Pokud se členové katedry jsou to kontroly out hodně a vysokoškoláci nejsou, 503 00:28:45,960 --> 00:28:47,200 to mi říká něco. 504 00:28:47,200 --> 00:28:49,280 Vice versa, že také říká vám něco. 505 00:28:49,280 --> 00:28:54,680 Tak to by bylo opravdu zajímavé dal, že informace tam a nechat 506 00:28:54,680 --> 00:28:59,969 lidé používají, aby jim pomohla najít práce v rámci knihovního systému. 507 00:28:59,969 --> 00:29:02,260 Odvrácenou stranou je tam jsou některé vážné o ochraně osobních údajů 508 00:29:02,260 --> 00:29:07,854 obavy, protože jeden z základní principy knihovny 509 00:29:07,854 --> 00:29:10,770 se my nebudeme říkat Lidé, co ostatní lidé čtou. 510 00:29:10,770 --> 00:29:17,360 A i když se říká, to Kniha byla odhlásil čtyřikrát 511 00:29:17,360 --> 00:29:20,070 v určitém měsíci, který by mohl být použit 512 00:29:20,070 --> 00:29:25,252 odkazují na konkrétní člověk by de-anonymizace údajů 513 00:29:25,252 --> 00:29:26,710 a zjistit, kdo ji odhlásila. 514 00:29:26,710 --> 00:29:30,792 Takže způsob, jak můžeme avoid-- 515 00:29:30,792 --> 00:29:33,750 Způsob, jakým se můžeme pokusit extrahovat nějaký signál od všech informací 516 00:29:33,750 --> 00:29:36,740 bez porušení obavy někdo o ochraně osobních 517 00:29:36,740 --> 00:29:42,150 Je v podstatě se podíváme na 10 let údaje o používání, - 518 00:29:42,150 --> 00:29:43,930 >> Takže je to po dlouhou dobu. 519 00:29:43,930 --> 00:29:50,639 >> --and říct, OK, pojďme se podívat, jak mnohokrát tato práce byla použita 520 00:29:50,639 --> 00:29:52,930 a kdo v tomto období času, a pak se v podstatě 521 00:29:52,930 --> 00:29:56,300 vrátit číslo, které nazýváme stack skóre, což v podstatě 522 00:29:56,300 --> 00:29:59,910 představuje, jak moc to bylo použito. 523 00:29:59,910 --> 00:30:01,084 A to number-- 524 00:30:01,084 --> 00:30:03,250 Mnoho různých výpočtů přejít na toto číslo. 525 00:30:03,250 --> 00:30:05,150 --but, že je to velmi hrubý metrika, která vám dává 526 00:30:05,150 --> 00:30:11,300 určitou představu o tom, jak obec může ocenit tuto práci. 527 00:30:11,300 --> 00:30:16,772 >> A tak jiný druh i více konkretizovat přihlášku 528 00:30:16,772 --> 00:30:18,480 že využívá to je něco 529 00:30:18,480 --> 00:30:24,000 nazvaný Stacklife, což je ve skutečnosti k dispozici přes hlavní Harvard 530 00:30:24,000 --> 00:30:24,880 Knihovna portál. 531 00:30:24,880 --> 00:30:26,700 Takže jdete do library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Uvidíte více různých způsoby hledání knihovny. 533 00:30:29,360 --> 00:30:32,300 A jeden z nich se jmenuje Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> A to je aplikace, která prochází obsah knihovny, 535 00:30:38,980 --> 00:30:43,490 ale je zcela postaven v horní části těchto API. 536 00:30:43,490 --> 00:30:46,910 Takže není žádný zvláštní věci děje v zákulisí. 537 00:30:46,910 --> 00:30:49,570 Neexistuje žádný přístup k Údaje, které nemáte. 538 00:30:49,570 --> 00:30:54,090 Je to pomocí rozhraní API poskytnout vám s úplně jiným prohlížení 539 00:30:54,090 --> 00:30:55,480 zážitek. 540 00:30:55,480 --> 00:30:58,570 >> Takže když jsem se hledat Alice v říši divů v tomto případě, 541 00:30:58,570 --> 00:31:02,600 Mám výsledek, který vypadá jako to, což je docela much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> To je velmi podobné jiným vyhledávání můžete dělat, s výjimkou v tomto případě 544 00:31:10,870 --> 00:31:15,730 jsme žebříčku položky by stackscore, který vám poskytne 545 00:31:15,730 --> 00:31:19,850 nějakou představu o tom, jak populární těchto položky byly v rámci komunity. 546 00:31:19,850 --> 00:31:25,610 A tak jasně, Alenka v říši divů Walt Disney je velmi populární. 547 00:31:25,610 --> 00:31:36,570 Ale můžete také vidět horní čtyři Zde jsou ty, které nemusí actually-- 548 00:31:36,570 --> 00:31:39,220 >> Věci, které jsou vysoce použity, ale nemusí hned 549 00:31:39,220 --> 00:31:41,240 spojte se s Alenka v říši divů. 550 00:31:41,240 --> 00:31:44,650 Takže náš starý přítel Poznámkami Alice je tady. 551 00:31:44,650 --> 00:31:46,350 Tak jsem si vzít na to podívat. 552 00:31:46,350 --> 00:31:52,010 A teď to, co hledám v je v podstatě nastavena of-- 553 00:31:52,010 --> 00:31:53,760 Můžu mít komentovaný Alice tady. 554 00:31:53,760 --> 00:31:56,700 Mám informace o tom. 555 00:31:56,700 --> 00:32:00,230 A mám také stackscore o, v tomto případě 26. 556 00:32:00,230 --> 00:32:03,169 A to mi říká, trochu hrubě Jak jsme se dostali k tomuto stackscore, 557 00:32:03,169 --> 00:32:05,835 jako kdo ho odhlásil, jako jak mnohokrát bylo odhlášené, 558 00:32:05,835 --> 00:32:08,440 jako fakulty nebo undergrads, jak mnoho kopií knihovna, 559 00:32:08,440 --> 00:32:11,300 a tak dále a tak dále. 560 00:32:11,300 --> 00:32:16,460 >> A můžete také dost zajímavý tady, procházet stohy virtuálně. 561 00:32:16,460 --> 00:32:19,550 Tak tady jsou údaje, to ukazuje seřadit 562 00:32:19,550 --> 00:32:23,547 virtuální reprezentace toho, co si police síly 563 00:32:23,547 --> 00:32:25,880 vypadat, pokud jste byli, aby se všechny zemědělské podniky knihovny 564 00:32:25,880 --> 00:32:28,940 a dát je dohromady na jedné nekonečné polici. 565 00:32:28,940 --> 00:32:30,990 A pěkná věc je, že jsme can-- 566 00:32:30,990 --> 00:32:33,380 >> Za prvé, metadata o těchto knihách 567 00:32:33,380 --> 00:32:35,627 Často vám řekne, kdy byla publikována. 568 00:32:35,627 --> 00:32:37,085 To vám řekne, kolik stránek má. 569 00:32:37,085 --> 00:32:38,459 Mohlo by ti rozměry. 570 00:32:38,459 --> 00:32:42,930 Takže můžete vidět, že se tady projevuje z hlediska velikosti knih. 571 00:32:42,930 --> 00:32:46,740 >> A pak můžeme použít stack skóre zvýraznit 572 00:32:46,740 --> 00:32:49,170 knihy, které mají vyšší skóre zásobníku. 573 00:32:49,170 --> 00:32:54,930 Takže pokud je to tmavší, to znamená, že, Lze předpokládat, že to je více často používané. 574 00:32:54,930 --> 00:32:57,040 Takže v tomto případě, já jsem bude hádat, že tento 575 00:32:57,040 --> 00:33:03,226 je verze Alenky v říši divů která je velmi běžně používaná a nejvíce 576 00:33:03,226 --> 00:33:05,100 přístupné, knihovna má nejvíce kopie. 577 00:33:05,100 --> 00:33:06,975 Takže pokud hledáte pro Alenka v říši divů, 578 00:33:06,975 --> 00:33:10,220 to může být dobrým místem pro začátek. 579 00:33:10,220 --> 00:33:13,500 >> A pak zde si můžete také spojit se na, řekněme, Amazon koupit knihu, 580 00:33:13,500 --> 00:33:15,182 a tak dále a tak dále. 581 00:33:15,182 --> 00:33:17,140 Pointa, znovu, není ani tak, že se 582 00:33:17,140 --> 00:33:25,030 je nejlepší způsob, jak procházet knihovnu nebo správný nástroj pro každou příležitost. 583 00:33:25,030 --> 00:33:28,400 Ale je to jiný způsob, jak to udělat. 584 00:33:28,400 --> 00:33:31,359 A tím, že data k dispozici přes API, což 585 00:33:31,359 --> 00:33:34,650 je vyrobena z velmi jednoduchých stavebních bloků, který umožňuje vyhledávat v obsahu, 586 00:33:34,650 --> 00:33:39,420 můžete vytvořit něco takhle, že může 587 00:33:39,420 --> 00:33:41,520 být mimořádně cenný pro některé lidi. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Tak to je druh, stejně jako já chci říci, opravdu o tom, co je API 590 00:33:51,860 --> 00:33:56,070 a to, co odhaluje, je tu celá spoustu věcí, v zákulisí, což 591 00:33:56,070 --> 00:33:59,480 Já jsem prostě jít na dotek krátce jen proto, že tak nějak přijde na to 592 00:33:59,480 --> 00:34:03,720 z úplně jiného úhlu o tom, jak dělá něco takového 593 00:34:03,720 --> 00:34:04,580 si dát na své místo? 594 00:34:04,580 --> 00:34:10,820 >> Takže API je standardní rozhraní pro všechny tohoto obsahu. 595 00:34:10,820 --> 00:34:13,820 Ale aby se to tam, První věc, kterou jsme museli udělat 596 00:34:13,820 --> 00:34:17,260 se táhnout za jeden provaz informace knih a obrazů 597 00:34:17,260 --> 00:34:21,580 a nález pomáhá, kolekce Dokument z různých systémů Harvard. 598 00:34:21,580 --> 00:34:23,929 Aleph, VIA, a OASIS jsou názvy systémů. 599 00:34:23,929 --> 00:34:28,820 A v podstatě jdou do potrubí, zpracování potrubí. 600 00:34:28,820 --> 00:34:33,230 >> Takže v první řadě, dostaneme export soubory ze všech těchto systémů. 601 00:34:33,230 --> 00:34:35,130 Rozdělili jsme je do jednotlivých položek. 602 00:34:35,130 --> 00:34:39,360 Takže máme soubor, který je gigabyte, který má milion záznamů v něm. 603 00:34:39,360 --> 00:34:42,290 Tak došlo k rozdělení na jednotlivé položky. 604 00:34:42,290 --> 00:34:45,374 Poté, pro každou položku, jsme to konvertovat do MODS, protože některé z nich 605 00:34:45,374 --> 00:34:47,040 nativně MODS, některé z nich nejsou. 606 00:34:47,040 --> 00:34:49,204 Tak jsme si je všechny být ve stejném formátu. 607 00:34:49,204 --> 00:34:51,120 Pak jsou tu různé obohacování kroky, kde 608 00:34:51,120 --> 00:34:55,969 přidáme další informace k údajům než byl k dispozici v knihovně. 609 00:34:55,969 --> 00:34:59,750 Proto musíme přidat, nejprve máme to, co knihovny držet. 610 00:34:59,750 --> 00:35:02,250 Jdeme přes krokem výpočtu stackscore. 611 00:35:02,250 --> 00:35:07,112 Procházíme další krok přidání dalších metadat, pokud jde 612 00:35:07,112 --> 00:35:10,730 O tom, co sbírek lidí mohl přidal tohle-- 613 00:35:10,730 --> 00:35:12,532 >> Lidé se vytváří sbírky předmětů. 614 00:35:12,532 --> 00:35:13,990 Co sbírky to patří? 615 00:35:13,990 --> 00:35:17,220 Jak se lidé označili tento obsah v minulosti? 616 00:35:17,220 --> 00:35:20,750 Pak jste odfiltrovat, a omezit záznamy, protože, jak jsem již zmínil, 617 00:35:20,750 --> 00:35:24,120 tam je nějaké záznamy, že z důvodu důvodu ochrany autorských práv, nemůžeme zobrazit. 618 00:35:24,120 --> 00:35:26,700 A pak jsme je nahrát do něčeho zvaného 619 00:35:26,700 --> 00:35:31,680 Solr, což není chybně napsané, ale je název kus softwaru 620 00:35:31,680 --> 00:35:35,710 že dělá vyhledávání indexování, což řídí veškeré vyhledávání za API. 621 00:35:35,710 --> 00:35:40,110 A pak je k dispozici na API, a lidé mohou používat. 622 00:35:40,110 --> 00:35:44,640 >> Takže to je jako docela přímočarý proces. 623 00:35:44,640 --> 00:35:47,230 Jedním ze zajímavých věci, o to je 624 00:35:47,230 --> 00:35:50,990 že máme co do činění s 13 miliónů desek 625 00:35:50,990 --> 00:35:53,820 a my se bude jednání nebo více. 626 00:35:53,820 --> 00:36:01,260 A my chceme být schopni zvládnout Tyto relativně rychlé způsobem. 627 00:36:01,260 --> 00:36:03,630 Trvá dlouho, než se zpracovat 13 milionů záznamů. 628 00:36:03,630 --> 00:36:09,529 >> Tak, jak to potrubí je nastavení je, že jste can-- 629 00:36:09,529 --> 00:36:12,070 Myslím, že tu výhodu, že potrubí, problém, že jsme 630 00:36:12,070 --> 00:36:15,580 se snaží řešit tady, je to, že všechny transformace, vše 631 00:36:15,580 --> 00:36:18,729 těchto kroků potrubí jsou oddělitelné. 632 00:36:18,729 --> 00:36:19,645 Není závislost. 633 00:36:19,645 --> 00:36:22,146 Pokud jste zpracování záznam o jedné knize, 634 00:36:22,146 --> 00:36:24,270 není závislost na že mezi další knihu. 635 00:36:24,270 --> 00:36:27,760 >> Takže to, co můžeme udělat, je v podstatě, na každém kroku v potrubí, 636 00:36:27,760 --> 00:36:30,470 dáme do fronty v cloudu. 637 00:36:30,470 --> 00:36:32,250 Náhodou jsem se být na Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Takže tam je seznam, říkají, 10,000 položky, které 639 00:36:35,140 --> 00:36:38,100 musí být normalizované a převedeny do formátu MODS. 640 00:36:38,100 --> 00:36:41,620 A my jsme točit jako mnoho serverů jak jsme chtěli, možná 10 serverů. 641 00:36:41,620 --> 00:36:44,860 A každý z těchto serverů jen sedí tam vypadá v této frontě, 642 00:36:44,860 --> 00:36:46,730 vidí, že je tu ještě jedna, která musí zpracovány, táhne ji pryč z fronty, 643 00:36:46,730 --> 00:36:48,740 zpracuje ji a hole se na další fronty. 644 00:36:48,740 --> 00:36:54,200 >> A tak, co to nám umožňuje udělat, je použít, v podstatě, 645 00:36:54,200 --> 00:36:58,110 tolik hardware, jak bychom chtěli, aby to problém po velmi krátkou dobu 646 00:36:58,110 --> 00:37:02,970 tak rychle, jak zpracovávat data je to možné, což je něco, co pouze, 647 00:37:02,970 --> 00:37:08,220 nyní ve světě cloud computingu Můžeme se poskytování servery v zásadě 648 00:37:08,220 --> 00:37:09,890 okamžitě, že je užitečný. 649 00:37:09,890 --> 00:37:12,260 Takže jsme nemuseli mít Obří serveru sedět 650 00:37:12,260 --> 00:37:16,700 po celou dobu dělat zpracování že by se mohlo stát jen jednou za týden. 651 00:37:16,700 --> 00:37:21,440 >> Takže to je většinou to. 652 00:37:21,440 --> 00:37:27,590 K dispozici je dokumentace k dispozici Pro knihovny Cloud položky API 653 00:37:27,590 --> 00:37:31,960 na této adrese URL, bude což bude k dispozici později. 654 00:37:31,960 --> 00:37:36,730 A prosím, jděte se podívat na je vidět, jestli tam je něco, 655 00:37:36,730 --> 00:37:37,579 Máte nějaké nápady. 656 00:37:37,579 --> 00:37:38,120 Hrajte si s ním. 657 00:37:38,120 --> 00:37:38,830 Hlouposti. 658 00:37:38,830 --> 00:37:42,800 A doufejme, že můžete přijít s něčím velkým. 659 00:37:42,800 --> 00:37:44,740 Děkuju. 660 00:37:44,740 --> 00:37:45,899