1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY lig: Hi daar. 3 00:00:12,370 --> 00:00:13,550 Ek is Jeffrey lig. 4 00:00:13,550 --> 00:00:17,890 En ek is hier om te praat oor die Harvard Biblioteek en die bou van môre se 5 00:00:17,890 --> 00:00:20,870 vandag biblioteek, dink ek. 6 00:00:20,870 --> 00:00:23,040 So die agtergrond hier, die plek vir hierdie sessie 7 00:00:23,040 --> 00:00:26,930 is in wese dat daar 'n baie van bibliografiese data 8 00:00:26,930 --> 00:00:28,400 beskikbaar in die Harvard biblioteke. 9 00:00:28,400 --> 00:00:33,434 En daar is 'n geleentheid, deur 'n paar van die gereedskap 10 00:00:33,434 --> 00:00:36,350 en 'n projek wat is ontwikkel, toegang tot die inligting te kry 11 00:00:36,350 --> 00:00:42,430 en neem dit na plekke wat die Harvard Biblioteek is nie nou doen, 12 00:00:42,430 --> 00:00:45,460 doen nuwe dinge met dit, eksperiment en speel rond met dit. 13 00:00:45,460 --> 00:00:52,413 >> So die inskrywing punt in hierdie is 'n API genoem die Harvard Biblioteek wolk 14 00:00:52,413 --> 00:00:57,650 is 'n oop metadata bediener, wat ek sal praat oor die nou. 15 00:00:57,650 --> 00:01:02,595 So het die agtergrond is dat daar 'n baie dinge in die Harvard biblioteek. 16 00:01:02,595 --> 00:01:07,150 Ons het meer as 13 miljoen bibliografiese rekords, miljoene van beelde, 17 00:01:07,150 --> 00:01:11,090 en duisende van die vind van hulpmiddels, wat is in wese dokumente beskryf 18 00:01:11,090 --> 00:01:15,500 versamelings, sê wat is in hulle bokse papiere 19 00:01:15,500 --> 00:01:21,080 en so meer wat oor verteenwoordig 'n miljoen individuele dokumente. 20 00:01:21,080 --> 00:01:24,290 En daar is ook 'n baie inligting wat die biblioteek het 21 00:01:24,290 --> 00:01:28,180 oor hoe die inhoud gebruik wat van belang kan wees vir mense 22 00:01:28,180 --> 00:01:32,400 wat dalk wil om te werk met dit. 23 00:01:32,400 --> 00:01:36,150 >> So al die inligting die biblioteek het metadata. 24 00:01:36,150 --> 00:01:39,500 So metadata is data oor die data. 25 00:01:39,500 --> 00:01:42,070 So wanneer ons praat oor die inligting wat 26 00:01:42,070 --> 00:01:44,890 wat beskikbaar is deur die biblioteek wolk wat beskikbaar is, 27 00:01:44,890 --> 00:01:47,760 dit is nie noodwendig die werklike dokumente 28 00:01:47,760 --> 00:01:53,060 hulself, nie noodwendig die volle teks van boeke of die volle beelde, 29 00:01:53,060 --> 00:01:54,890 al wat werklik die geval is. 30 00:01:54,890 --> 00:01:57,550 Maar dit is regtig inligting oor die data. 31 00:01:57,550 --> 00:02:00,909 >> So jy kan dink katalogisering inligting, skakel getalle, vakke, 32 00:02:00,909 --> 00:02:02,700 hoeveel eksemplare van die boek is daar, wat 33 00:02:02,700 --> 00:02:06,380 is die uitgawes, wat die formate, die skrywers, en so meer. 34 00:02:06,380 --> 00:02:12,250 So is daar 'n baie inligting oor die inligting in die versameling wat, 35 00:02:12,250 --> 00:02:14,400 op sigself, is 'n soort van inherent nuttig. 36 00:02:14,400 --> 00:02:19,230 En al is jy doen in-diepte navorsing, 37 00:02:19,230 --> 00:02:25,160 jy natuurlik wil te kry om die werklike inhoud self en kyk na die data, 38 00:02:25,160 --> 00:02:30,140 die metadata is nuttig in terme van beide die ontleding van die corpus as 'n geheel, 39 00:02:30,140 --> 00:02:33,870 soos wat dinge in die versameling. 40 00:02:33,870 --> 00:02:35,520 Hoe verband hulle? 41 00:02:35,520 --> 00:02:39,482 Dit help jou om werklik te vind ander dinge, Dit is regtig die hoofdoel van dit. 42 00:02:39,482 --> 00:02:41,190 Die punt van die metadata en die katalogus 43 00:02:41,190 --> 00:02:43,230 is om te help om al vind die inligting wat 44 00:02:43,230 --> 00:02:46,590 beskikbaar is binne die versamelings. 45 00:02:46,590 --> 00:02:53,690 >> So, dit is 'n voorbeeld van metadata vir 'n boek in die Harvard Biblioteek. 46 00:02:53,690 --> 00:02:56,370 So dit is daar. 47 00:02:56,370 --> 00:02:59,850 En jy kan sien dit is eintlik matig komplekse. 48 00:02:59,850 --> 00:03:04,610 En 'n deel van die waarde van metadata binne die Harvard Biblioteek stelsel 49 00:03:04,610 --> 00:03:09,320 is dat dit soort gewees van opgebou deur catalogers 50 00:03:09,320 --> 00:03:12,720 en saamgestel deur mense wat aansoek doen 'n baie kundigheid en vaardigheid 51 00:03:12,720 --> 00:03:20,030 en het gedink om dit met verloop van tyd, wat 'n baie waarde. 52 00:03:20,030 --> 00:03:25,450 >> So as jy 'n blik op hierdie rekord vir Die Annotated Alice, kan jy uitvind 53 00:03:25,450 --> 00:03:32,590 jy het die titel, wat dit geskryf het, die skrywer, en al die verskillende vakke 54 00:03:32,590 --> 00:03:35,380 wat mense het gekatalogiseer dit in. 55 00:03:35,380 --> 00:03:40,110 En jy kan sien daar is ook, in Benewens 'n baie goeie inligting 56 00:03:40,110 --> 00:03:42,852 hier, daar is 'n paar duplisering. 57 00:03:42,852 --> 00:03:45,560 Daar is 'n baie van kompleksiteit wat weerspieël deur die metadata 58 00:03:45,560 --> 00:03:46,300 wat jy het. 59 00:03:46,300 --> 00:03:50,320 >> So een titel van hierdie boek is Alice se avonture in Wonderland. 60 00:03:50,320 --> 00:03:53,880 So, dit is 'n geannoteerde weergawe van die boek. 61 00:03:53,880 --> 00:03:56,380 Maar dit is ook 'n beroep Die Annotated Alice, Alice se avonture 62 00:03:56,380 --> 00:03:58,570 in Wonderland omdat dit is iets wat 63 00:03:58,570 --> 00:04:00,430 Martin Gardner geskryf en geannoteerde die boek. 64 00:04:00,430 --> 00:04:03,369 En daar is 'n baie goeie inligting oor logiese raaisels en dinge 65 00:04:03,369 --> 00:04:05,410 binne Alice dat jy waarskynlik nie geweet het nie oor. 66 00:04:05,410 --> 00:04:07,000 So jy moet gaan lees dit. 67 00:04:07,000 --> 00:04:11,940 >> Maar jy kan sien daar is 'n baie detail hier, 68 00:04:11,940 --> 00:04:15,340 insluitend identifiseerders, wanneer dit geskep, waar dit vandaan kom, 69 00:04:15,340 --> 00:04:17,420 in terme van die Harvard stelsel, en so meer. 70 00:04:17,420 --> 00:04:20,350 So, dit is 'n voorbeeld van die tipe metadata 71 00:04:20,350 --> 00:04:24,340 dat jy kan sien 'n boek in die Harvard Biblioteek versameling. 72 00:04:24,340 --> 00:04:26,680 >> Dit is iets heeltemal anders. 73 00:04:26,680 --> 00:04:32,610 So is daar 'n stelsel genoem VIA Harvard, wat basies 74 00:04:32,610 --> 00:04:39,990 is katalogisering beelde en voorwerpe van kuns en visuele dinge regdeur Harvard, 75 00:04:39,990 --> 00:04:44,010 en die toevoeging van 'n paar metadata vir hulle te klassifiseer hulle 76 00:04:44,010 --> 00:04:49,200 en, in sommige gevalle, die verskaffing klein miniatuur prente 77 00:04:49,200 --> 00:04:51,250 wat jy kan neem om 'n kyk na as jy dit wil hê. 78 00:04:51,250 --> 00:04:54,240 >> So, dit is 'n voorbeeld van die metadata wat jy vir 'n bord 79 00:04:54,240 --> 00:04:57,840 uit, vermoedelik, Alice in Wonderland. 80 00:04:57,840 --> 00:05:00,499 En jy kan sien daar is minder metadata hier. 81 00:05:00,499 --> 00:05:02,040 Dit is net 'n ander soort voorwerp. 82 00:05:02,040 --> 00:05:03,425 En so is daar minder inligting. 83 00:05:03,425 --> 00:05:07,790 >> Jy het meestal die feit dat 'n oproep nommer, wese wat dit geskep het, - 84 00:05:07,790 --> 00:05:10,410 >> Ons weet nie wanneer dit geskep is. 85 00:05:10,410 --> 00:05:13,320 >> --and 'n titel. 86 00:05:13,320 --> 00:05:14,300 >> Nog 'n voorbeeld. 87 00:05:14,300 --> 00:05:16,380 Dit is 'n bevinding hulp. 88 00:05:16,380 --> 00:05:19,030 So daar is 'n versameling van Lewis Carroll se referate by Harvard. 89 00:05:19,030 --> 00:05:23,601 So beskryf dit wat is in daardie versameling. 90 00:05:23,601 --> 00:05:26,100 So iemand het gegaan en kyk deur al die bokse 91 00:05:26,100 --> 00:05:32,220 en gekatalogiseer dit, gegewe 'n agtergrond, geskryf om 'n opsomming van wat hier is. 92 00:05:32,220 --> 00:05:35,290 En as jy was om te kyk verder op hierdie, hierdie 93 00:05:35,290 --> 00:05:39,620 gaan vir bladsye en bladsye en bladsye, maar dit sal jou vertel 94 00:05:39,620 --> 00:05:41,860 wat briewe en wat datums van wat bokse 95 00:05:41,860 --> 00:05:44,289 dwarsdeur die versameling bestaan. 96 00:05:44,289 --> 00:05:46,330 Maar dit is iets dat, as jy by Harvard, 97 00:05:46,330 --> 00:05:50,720 jy kan gaan en eintlik fisies kyk en, vermoedelik, neem 'n blik op. 98 00:05:50,720 --> 00:05:53,440 >> So, dit is al groot. 99 00:05:53,440 --> 00:05:54,450 Dit metadata se nuttig. 100 00:05:54,450 --> 00:05:56,327 Dit is in die Harvard Biblioteek stelsel. 101 00:05:56,327 --> 00:05:58,910 Daar is gereedskap aanlyn waar jy kan gaan en neem 'n blik op dit, 102 00:05:58,910 --> 00:05:59,993 en sien dit, en soek dit. 103 00:05:59,993 --> 00:06:02,810 En jy kan dit en dobbelstene sny dit in baie verskillende maniere. 104 00:06:02,810 --> 00:06:06,920 >> Maar dit is regtig slegs beskikbaar indien jy is 'n menslike wese sit 105 00:06:06,920 --> 00:06:12,600 op jou webblaaier of iets of jou selfoon en opgevolg deur dit. 106 00:06:12,600 --> 00:06:16,730 Dit is nie regtig in enige vorm van bruikbare mode 107 00:06:16,730 --> 00:06:19,520 vir ander stelsels of ander rekenaars te gebruik, 108 00:06:19,520 --> 00:06:21,500 nie met stelsels binne die Harvard Biblioteek, 109 00:06:21,500 --> 00:06:24,890 maar stelsels in die res van die wêreld, net om ander mense in die algemeen. 110 00:06:24,890 --> 00:06:30,210 So die vraag is, hoe kan ons maak dit beskikbaar vir rekenaars 111 00:06:30,210 --> 00:06:33,560 sodat ons meer interessant kan doen dinge met dit as net 112 00:06:33,560 --> 00:06:36,550 browsing dit self? 113 00:06:36,550 --> 00:06:39,766 >> So hoekom sou jy wil om dit te doen? 114 00:06:39,766 --> 00:06:41,140 Daar is 'n baie moontlikhede. 115 00:06:41,140 --> 00:06:43,980 Een daarvan is jy kan heeltemal bou van 'n ander manier van blare 116 00:06:43,980 --> 00:06:46,962 die inhoud wat beskikbaar is deur die Harvard Biblioteke. 117 00:06:46,962 --> 00:06:48,670 Ek sal jou een wys later genoem Stacklife, 118 00:06:48,670 --> 00:06:52,440 wat 'n heeltemal ander neem op soek na die inhoud. 119 00:06:52,440 --> 00:06:54,560 >> Jy kan 'n aanbeveling enjin bou. 120 00:06:54,560 --> 00:06:57,955 So Harvard Biblioteek is nie in die besigheid te sê, jy graag hierdie boek. 121 00:06:57,955 --> 00:07:01,080 Dan gaan neem 'n blik op hierdie 17 ander boeke wat jy kan in belangstel 122 00:07:01,080 --> 00:07:03,200 of die 18 ander beelde. 123 00:07:03,200 --> 00:07:06,040 Maar dit kan beslis 'n waardevolle funksie. 124 00:07:06,040 --> 00:07:09,272 En gegewe die metadata, kan dit moontlik wees dat om saam te stel. 125 00:07:09,272 --> 00:07:11,980 Jy kan verskillende behoeftes in terme van die soek na die inhoud, 126 00:07:11,980 --> 00:07:16,200 soos miskien ten spyte van die gereedskap wat is beskikbaar wat die biblioteek maak 127 00:07:16,200 --> 00:07:18,450 beskikbaar is, kan jy wil om te soek in 'n ander manier 128 00:07:18,450 --> 00:07:21,847 of optimaliseer vir 'n spesifieke gebruik geval, wat miskien is dit baie gespesialiseerde. 129 00:07:21,847 --> 00:07:23,930 Miskien is daar net 'n paar mense in die wêreld wat 130 00:07:23,930 --> 00:07:25,846 wil die inhoud te soek op hierdie manier, maar dit 131 00:07:25,846 --> 00:07:28,985 groot sou wees as ons kon laat hulle dit doen. 132 00:07:28,985 --> 00:07:30,860 Daar is 'n baie analytics in net hoe mense 133 00:07:30,860 --> 00:07:33,860 gebruik om die inhoud wat werklik sou wees interessant om te weet oor, uit te vind 134 00:07:33,860 --> 00:07:37,280 watter boeke gebruik word, wat is nie, en so meer. 135 00:07:37,280 --> 00:07:41,670 En dan is daar 'n baie geleentheid te integreer 136 00:07:41,670 --> 00:07:45,210 met ander inligting wat daar buite op die web. 137 00:07:45,210 --> 00:07:46,880 Sodat ons have-- 138 00:07:46,880 --> 00:07:50,260 >> Byvoorbeeld, NPR het 'n boekresensie segment, 139 00:07:50,260 --> 00:07:53,090 waar hulle 'n onderhoud skrywers oor boeke. 140 00:07:53,090 --> 00:07:56,837 En so sou dit wonderlik wees as jy was soek na 'n boek in die Harvard 141 00:07:56,837 --> 00:07:59,670 Biblioteek, en jy sê, OK, daar is was 'n onderhoud met die skrywer. 142 00:07:59,670 --> 00:08:00,878 Kom ons gaan neem 'n blik op dit. 143 00:08:00,878 --> 00:08:05,461 Of daar is 'n Wikipedia bladsy, as 'n gesaghebbende, wetenskaplike verwysing 144 00:08:05,461 --> 00:08:07,710 oor hierdie boek wat u dalk 'n blik op te neem. 145 00:08:07,710 --> 00:08:12,600 >> Daar is hierdie tipe van bronne regdeur die web verstrooi. 146 00:08:12,600 --> 00:08:16,555 En bring hulle saam kan 'n groot nut wees 147 00:08:16,555 --> 00:08:18,930 aan iemand te kyk na die inhoud, soek vir iets. 148 00:08:18,930 --> 00:08:20,180 Maar dit is ook nie die soort van ding wat jy wil 149 00:08:20,180 --> 00:08:23,205 wil die biblioteek om verantwoordelik te wees om uit te gaan sit en die jag af 150 00:08:23,205 --> 00:08:25,455 al hierdie verskillende bronne en steek hulle saam 151 00:08:25,455 --> 00:08:28,920 want hulle is voortdurend aan die verander. 152 00:08:28,920 --> 00:08:33,570 En wat hulle dink is belangrik Mei nie wat jy dink belangrik is. 153 00:08:33,570 --> 00:08:36,929 >> En selfs meer so, basies is daar 'n baie dinge wat ons nie gedink het nie nog. 154 00:08:36,929 --> 00:08:42,222 So as ons dit kan oopmaak, meer mense behalwe 'n half dosyn of so, 155 00:08:42,222 --> 00:08:45,174 wat op soek is na hierdie op 'n gereelde basis kan dink van idees 156 00:08:45,174 --> 00:08:47,340 en masseer die data, en doen wat hulle wil met dit. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> So ons wil om dit te maak data beskikbaar is vir die wêreld. 159 00:08:54,045 --> 00:08:55,670 Wel, daar is 'n paar komplikasies. 160 00:08:55,670 --> 00:08:58,540 Een daarvan is dat hierdie metadata is in die verskillende stelsels. 161 00:08:58,540 --> 00:09:01,110 Dit is in verskillende formate. 162 00:09:01,110 --> 00:09:04,719 So is daar 'n paar normalisering wat moet gebeur, 163 00:09:04,719 --> 00:09:08,010 wat normalisering synde die proses van bring dinge uit verskillende formate 164 00:09:08,010 --> 00:09:12,940 en kartering hulle na 'n enkele formaat sodat die velde sal ooreenstem. 165 00:09:12,940 --> 00:09:15,160 >> Daar is 'n paar kopiereg beperkings. 166 00:09:15,160 --> 00:09:21,010 Vreemd genoeg, die katalogus inskrywing oor 'n boek is aanspreeklik vir kopiereg. 167 00:09:21,010 --> 00:09:24,060 So selfs al is dit net inligting verkry uit die boek, 168 00:09:24,060 --> 00:09:25,330 dit is kopiereg. 169 00:09:25,330 --> 00:09:28,400 En afhangende van wat eintlik geskep dat metadata, 170 00:09:28,400 --> 00:09:32,175 daar beperkings op wat wees kan dit versprei, soortgelyk aan- 171 00:09:32,175 --> 00:09:33,402 >> Ek weet nie. 172 00:09:33,402 --> 00:09:36,110 Dit mag of mag nie soortgelyk te wees die situasie van die song lyrics, 173 00:09:36,110 --> 00:09:36,610 byvoorbeeld. 174 00:09:36,610 --> 00:09:38,560 So ons almal weet hoe dit panne uit. 175 00:09:38,560 --> 00:09:40,450 So jy moet kry om daardie probleem. 176 00:09:40,450 --> 00:09:44,910 >> En dan nog 'n stukkie is dat daar is 'n baie van data. 177 00:09:44,910 --> 00:09:52,420 So as ek iemand wat wil om te werk met die data of het 'n koel idee, 178 00:09:52,420 --> 00:09:55,350 die hantering van 14 miljoen rekords op my laptop 179 00:09:55,350 --> 00:09:57,487 kan 'n probleem wees en moeilik om te beheer. 180 00:09:57,487 --> 00:09:59,320 So ons wil verminder die hindernisse vir mense 181 00:09:59,320 --> 00:10:02,130 in staat wees om te werk met die data. 182 00:10:02,130 --> 00:10:07,880 >> So het die benadering wat hopelik adresse al hierdie bekommernisse is twee dele. 183 00:10:07,880 --> 00:10:11,770 Een is die bou van 'n platform wat neem data van al hierdie uiteenlopende bronne 184 00:10:11,770 --> 00:10:14,350 en vererger dit normaliseer, verryk, en fabrikate 185 00:10:14,350 --> 00:10:16,650 dit beskikbaar in 'n enkele plek. 186 00:10:16,650 --> 00:10:20,950 En dit maak dit beskikbaar is deur middel 'n openbare API wat mense kan bel. 187 00:10:20,950 --> 00:10:24,430 >> So 'n API is 'n Aansoek Programming Interface. 188 00:10:24,430 --> 00:10:28,930 En dit basies verwys na 'n eindpunt dat 'n stelsel of tegnologie 189 00:10:28,930 --> 00:10:31,720 kan noem en kry data terug in 'n gestruktureerde formaat op 'n manier 190 00:10:31,720 --> 00:10:32,900 dat dit gebruik kan word. 191 00:10:32,900 --> 00:10:36,060 So dit is nie afhanklik aan die gang na 'n webwerf 192 00:10:36,060 --> 00:10:37,970 en skraap data af dit, byvoorbeeld. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> So, dit is die tuisblad van die API Library Wolk punt, 195 00:10:45,010 --> 00:10:47,220 wat is in wese sy weergawe twee. 196 00:10:47,220 --> 00:10:50,130 So dit is die tweede iterasie van probeer om al hierdie inligting te maak 197 00:10:50,130 --> 00:10:53,280 beskikbaar is vir die wêreld. 198 00:10:53,280 --> 00:10:59,560 So dit is http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 En net om hierdie af te breek 'n bietjie, wat dit beteken 200 00:11:03,830 --> 00:11:06,115 is dat hierdie weergawe twee van die API. 201 00:11:06,115 --> 00:11:08,490 Daar is 'n weergawe een, wat Ek is nie van plan om oor te praat. 202 00:11:08,490 --> 00:11:09,750 Maar daar is 'n weergawe een. 203 00:11:09,750 --> 00:11:14,740 >> En as jy noem hierdie API, kry jy items. 204 00:11:14,740 --> 00:11:20,640 En 'n deel van die idee van 'n API is 'n API is 'n kontrak. 205 00:11:20,640 --> 00:11:23,440 Dit is iets wat gaan nie verander nie. 206 00:11:23,440 --> 00:11:24,850 So byvoorbeeld, - 207 00:11:24,850 --> 00:11:27,410 >> En die rede is dat as ek bou 'n soort van die stelsel wat 208 00:11:27,410 --> 00:11:33,210 gaan 'n biblioteek wolk API te gebruik boeke te vertoon of mense te help vind 209 00:11:33,210 --> 00:11:36,190 inligting in unieke maniere, wat ons nie wil hê om te gebeur 210 00:11:36,190 --> 00:11:38,940 is vir ons om te gaan verander hoe dat API werk, en skielik 211 00:11:38,940 --> 00:11:41,340 alles breek op die eindgebruiker kant. 212 00:11:41,340 --> 00:11:46,710 So deel van as jy API jy maak beskikbaar is vir die wêreld, is dit 213 00:11:46,710 --> 00:11:49,396 goeie praktyk om 'n te sit weergawe nommer in dit sodat mense 214 00:11:49,396 --> 00:11:51,020 weet watter weergawe hulle hanteer. 215 00:11:51,020 --> 00:11:54,300 >> So as ons besluit om ons 'n beter manier om van die maak van hierdie inligting beskikbaar is, 216 00:11:54,300 --> 00:11:57,295 ons kan verander om dit te noem dat die weergawe van drie. 217 00:11:57,295 --> 00:11:59,920 So almal wat nog steeds met behulp weergawe twee, dit sal nog steeds werk. 218 00:11:59,920 --> 00:12:03,490 Maar weergawe drie sou het al die nuwe dinge. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> So, dit is 'n API, maar dit regtig lyk soos 'n URL. 221 00:12:09,210 --> 00:12:11,680 En ja, wat dit 'n voorbeeld van is wat is 222 00:12:11,680 --> 00:12:16,615 bekend as 'n res API, wat beskikbaar is oor net 'n gereelde web verbinding. 223 00:12:16,615 --> 00:12:19,680 En jy kan eintlik gaan dit in 'n leser. 224 00:12:19,680 --> 00:12:28,550 >> So hier is ek nou net oopgemaak Firefox en gegaan om api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 En ja, wat ek hier is basies die eerste bladsy 226 00:12:31,560 --> 00:12:34,740 van die resultate van die hele stel van die items wat ons het. 227 00:12:34,740 --> 00:12:37,460 En dit is hier in XML-formaat. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 En dit is ook prettified deur Firefox. 230 00:12:42,210 --> 00:12:45,850 Dit maak nie eintlik al hierdie bietjie uit te brei en kontraktering 231 00:12:45,850 --> 00:12:47,880 doohickeys hier. 232 00:12:47,880 --> 00:12:52,520 Dit is 'n soort van 'n mooier weergawe manier om te kyk na dit. 233 00:12:52,520 --> 00:12:57,040 >> Maar wat is dit vir ons sê is Ek het gevra al die items. 234 00:12:57,040 --> 00:13:03,120 So is daar 13.289.475 items. 235 00:13:03,120 --> 00:13:06,150 En ek is op soek na die eerste 10, begin by posisie nul 236 00:13:06,150 --> 00:13:09,760 want in rekenaarwetenskap ons altyd begin by nul. 237 00:13:09,760 --> 00:13:15,150 En wat ek hier, as ek net in duie stort hierdie, sal jy sien ek het 10 items. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> En as ek 'n blik op 'n item, kan ek sien dat Ek het inligting oor dit. 240 00:13:25,210 --> 00:13:27,400 En dit is in wat genoem MODS vorm. 241 00:13:27,400 --> 00:13:30,860 En so ek gaan om te skakel terug hier vir 'n oomblik. 242 00:13:30,860 --> 00:13:33,750 OK. 243 00:13:33,750 --> 00:13:37,447 >> So laat ons soek vir iets in spesifieke omdat die eerste item wat 244 00:13:37,447 --> 00:13:40,030 gebeur om te kom wanneer jy kyk deur die hele versameling 245 00:13:40,030 --> 00:13:41,750 is, per definisie, lukraak. 246 00:13:41,750 --> 00:13:44,550 So kom ons kyk vir 'n paar donuts. 247 00:13:44,550 --> 00:13:46,830 Oh. 248 00:13:46,830 --> 00:13:49,190 >> OK. 249 00:13:49,190 --> 00:13:49,940 So donuts. 250 00:13:49,940 --> 00:13:55,360 So het ons gevind daar is 80 items in die versameling wat verwys donuts. 251 00:13:55,360 --> 00:13:57,150 Ons is op soek na die eerste 10 van hulle. 252 00:13:57,150 --> 00:14:01,890 Nou, kan jy hier sien die manier waarop Ek het gesê ek is op soek na oliebolle, 253 00:14:01,890 --> 00:14:04,400 Ek het net iets bygevoeg die soektog string van die URL. 254 00:14:04,400 --> 00:14:09,680 So q gelyk oliebolle, wat jy kan sien 'n bietjie meer maklik hier. 255 00:14:09,680 --> 00:14:12,131 >> En dit basies beteken daar is 'n spec vir die API, wat 256 00:14:12,131 --> 00:14:13,880 definieer wat al hierdie parameters beteken. 257 00:14:13,880 --> 00:14:17,150 En dit beteken ons gaan soek alles vir donuts. 258 00:14:17,150 --> 00:14:24,910 >> Dus is die eerste item hier het ons jy kan sien die titel is Donuts, 259 00:14:24,910 --> 00:14:29,310 en daar is 'n subtitel genoem 'n Amerikaanse Passie, wat is, dink ek, 260 00:14:29,310 --> 00:14:31,610 gepas. 261 00:14:31,610 --> 00:14:36,134 Daar is 'n baie different-- 262 00:14:36,134 --> 00:14:38,050 Sodra jy op die punt om die data, 263 00:14:38,050 --> 00:14:41,020 daar is 'n baie verskillende formate wat jy dit kan kry in. 264 00:14:41,020 --> 00:14:44,050 En daar is verskillende sterkpunte en swakhede vir almal van hulle. 265 00:14:44,050 --> 00:14:49,000 So hierdie een, kan jy sien hier, hierdie vorm is baie ryk. 266 00:14:49,000 --> 00:14:51,946 En dit is gestandaardiseer. 267 00:14:51,946 --> 00:14:55,040 >> So is daar 'n spesifieke titel gebied, 'n subtitel veld. 268 00:14:55,040 --> 00:14:58,950 Daar is 'n alternatiewe titel, 'n Amerikaanse passie. 269 00:14:58,950 --> 00:15:01,650 Daar is die naam wat verband hou met dit. 270 00:15:01,650 --> 00:15:03,120 Tipe van die hulpbron is teks. 271 00:15:03,120 --> 00:15:06,070 Daar is 'n baie inligting hier in hierdie formaat. 272 00:15:06,070 --> 00:15:09,480 >> Maar daar is 'n klomp van verskillende formate. 273 00:15:09,480 --> 00:15:11,920 So, wat was ons net op soek na 'n formaat 274 00:15:11,920 --> 00:15:17,700 genoem MODS, wat staan ​​vir Metadata Object Beskrywing Service, 275 00:15:17,700 --> 00:15:18,250 potensieel. 276 00:15:18,250 --> 00:15:23,030 Ek is eintlik nie heeltemal seker oor die S. Maar dit is 'n redelik komplekse formaat. 277 00:15:23,030 --> 00:15:24,240 Dit is die verstek formaat. 278 00:15:24,240 --> 00:15:30,260 >> Maar dit is die een wat hou die rykdom van al die data 279 00:15:30,260 --> 00:15:33,820 dat die biblioteek omdat dit is baie naby aan wat 280 00:15:33,820 --> 00:15:35,110 die biblioteek gebruik intern. 281 00:15:35,110 --> 00:15:39,030 Dit is 'n standaard wat gebruik oor die hele land, 282 00:15:39,030 --> 00:15:40,944 regoor die wêreld in akademiese biblioteke. 283 00:15:40,944 --> 00:15:42,110 En dit is baie tusenwerkbaar. 284 00:15:42,110 --> 00:15:44,852 So as jy het 'n dokument wat in MODS formaat, 285 00:15:44,852 --> 00:15:47,560 jy kan gee wat aan iemand anders wie stelsels verstaan ​​MODS, 286 00:15:47,560 --> 00:15:48,518 en hulle kan dit invoer. 287 00:15:48,518 --> 00:15:50,840 So dit is 'n standaard. 288 00:15:50,840 --> 00:15:54,250 Dit is baie goed gedefinieer, baie spesifiek. 289 00:15:54,250 --> 00:15:58,980 En dit is wat maak dit tusenwerkbaar want as iemand sê, 290 00:15:58,980 --> 00:16:04,930 dit is die alternatiewe titel van 'n rekord, almal weet wat dit beteken. 291 00:16:04,930 --> 00:16:07,740 Aan die ander kant, dit is baie ingewikkeld. 292 00:16:07,740 --> 00:16:13,160 >> So as jy 'n blik by hierdie rekord hier, 293 00:16:13,160 --> 00:16:15,320 as ek wil net die te kry titel van hierdie dokument, 294 00:16:15,320 --> 00:16:21,150 van hierdie boek, wat waarskynlik Donuts, 'N Amerikaanse Passie, die ontleding van dit uit 295 00:16:21,150 --> 00:16:22,940 is 'n bietjie betrokke. 296 00:16:22,940 --> 00:16:27,380 AANGESIEN daar is 'n ander formaat genoem Dublin Core, 297 00:16:27,380 --> 00:16:29,730 wat is 'n baie, baie eenvoudiger formaat. 298 00:16:29,730 --> 00:16:33,764 >> En so sien jy hier, is daar geen titel, subtitel, alternatiewe titel. 299 00:16:33,764 --> 00:16:35,930 Daar is net die titel, Donuts, 'n Amerikaanse Passie, 300 00:16:35,930 --> 00:16:38,780 en 'n ander titel, Amerikaanse passie. 301 00:16:38,780 --> 00:16:42,907 So wanneer jy op soek na wat vorm jy wil die data te kry uit, 302 00:16:42,907 --> 00:16:44,740 'n Baie hang af van hoe jy gaan om dit te gebruik. 303 00:16:44,740 --> 00:16:46,573 Gebruik jy vir interoperabiliteit of wil jy 304 00:16:46,573 --> 00:16:49,970 iets eenvoudig wat wil dalk makliker om mee te werk? 305 00:16:49,970 --> 00:16:56,002 >> Aan die ander kant, 'n groot deel van die besonderhede kry soort van squished af. 306 00:16:56,002 --> 00:16:58,460 Jy kan die nuanses van verloor wat 'n spesifieke veld middel 307 00:16:58,460 --> 00:17:02,960 As jy met Dublin Core, wat jy nie sou kry met MODS. 308 00:17:02,960 --> 00:17:06,462 So dit is twee van die formate wat jy kan kry uit die API. 309 00:17:06,462 --> 00:17:08,920 En basies, is ons hou dit agter die skerms in MODS. 310 00:17:08,920 --> 00:17:14,179 Maar ons kan jy dit gee MODS en Dublin Core en enigiets anders as well. 311 00:17:14,179 --> 00:17:16,470 Die ander oorweging wanneer jy soek in die data 312 00:17:16,470 --> 00:17:21,210 is jy kan dit as óf into, wat staan ​​vir JavaScript Object notasie, 313 00:17:21,210 --> 00:17:24,720 of XML, wat staan ​​vir Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 En hierdie data vertoë beide presies dieselfde data, presies 315 00:17:30,080 --> 00:17:31,080 dieselfde velde. 316 00:17:31,080 --> 00:17:33,644 Maar hulle is net sintakties verskillende. 317 00:17:33,644 --> 00:17:40,401 >> So, dit is a-- 318 00:17:40,401 --> 00:17:41,400 Wel, laat ons net skakel. 319 00:17:41,400 --> 00:17:47,490 So dit is ons navraag vir donuts in XML-formaat. 320 00:17:47,490 --> 00:17:53,470 As ek maar net skakel dit om into Ek kan sien dat dit lyk anders. 321 00:17:53,470 --> 00:17:58,580 So nou is dit dieselfde inhoud, maar 'n ander struktuur. 322 00:17:58,580 --> 00:18:00,080 Daar is minder hoek tussen hakies. 323 00:18:00,080 --> 00:18:02,530 Daar is minder verbose. 324 00:18:02,530 --> 00:18:06,440 >> En dit is 'n formaat wat, as jy werk in die web-omgewing, 325 00:18:06,440 --> 00:18:09,680 jy is waarskynlik gaan te wil, want een te gebruik 326 00:18:09,680 --> 00:18:12,630 van die mooi dinge oor into is dit is verenigbaar met JavaScript. 327 00:18:12,630 --> 00:18:17,680 So as ek skryf web app, kan ek trek in into en net werk met dit direk. 328 00:18:17,680 --> 00:18:20,187 Terwyl met XML, dit is 'n bietjie meer ingewikkeld. 329 00:18:20,187 --> 00:18:21,520 So weer, dit is beide nuttig. 330 00:18:21,520 --> 00:18:26,387 Hulle het net verskillende gevalle gebruik waar mense dalk wil om dit te gebruik. 331 00:18:26,387 --> 00:18:26,886 OK. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 So terug na die API. 334 00:18:31,680 --> 00:18:32,900 Sodat ons kan soek for-- 335 00:18:32,900 --> 00:18:36,220 >> Ek gee 'n voorbeeld van soek vir donuts. 336 00:18:36,220 --> 00:18:39,330 Ons kan ook net soek in 'n bepaalde gebied hier. 337 00:18:39,330 --> 00:18:41,310 So in plaas van soek die hele rekord, 338 00:18:41,310 --> 00:18:43,870 Ek kan net soek die titel veld. 339 00:18:43,870 --> 00:18:48,810 En so nou is daar 25 dinge wat het oliebolle in die titel, waarvan een 340 00:18:48,810 --> 00:18:52,430 is oor die herstel van vleilande in die bestuur 341 00:18:52,430 --> 00:18:54,990 van die gat in die donut program, wat waarskynlik 342 00:18:54,990 --> 00:18:58,970 nie noodwendig wat ons soek vir wanneer ons soek na donuts. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> Jy kan ook, wanneer jy die hantering van 'n API-- 345 00:19:05,490 --> 00:19:08,827 >> Deel van 'n API gee mense toegang tot groot datastelle. 346 00:19:08,827 --> 00:19:11,410 En daar is 'n paar verskillende gereedskap wat jy kan gebruik om dit te doen. 347 00:19:11,410 --> 00:19:14,170 Een daarvan is baie eenvoudig, jy kan blaai deur die data. 348 00:19:14,170 --> 00:19:17,340 So asof jy 'n navraag deur 'n web koppelvlak, 349 00:19:17,340 --> 00:19:19,470 jy kan kyk na bladsy een, bladsy twee, bladsy drie. 350 00:19:19,470 --> 00:19:22,040 Jy kan dieselfde doen ding deur die API. 351 00:19:22,040 --> 00:19:24,150 Jy hoef net te wees eksplisiete in hoe jy dit doen. 352 00:19:24,150 --> 00:19:29,511 >> So byvoorbeeld, as ek sien In my eerste navraag hier, 353 00:19:29,511 --> 00:19:32,510 waar ek doen 'n soektog na dinge met oliebolle in die titel, kan ek sê, 354 00:19:32,510 --> 00:19:35,415 en beperk gelyk 20, wat beteken gee my die eerste 20 rekords nie 355 00:19:35,415 --> 00:19:38,540 die eerste 10, wat is die standaard, want ek wil om te kyk na 20 op 'n tyd. 356 00:19:38,540 --> 00:19:43,435 Of ek kan sê, stel die begin gelyk aan 20 en beperk 357 00:19:43,435 --> 00:19:47,150 gelyk 20, wat sal gee my rekords 21 deur 40. 358 00:19:47,150 --> 00:19:52,680 >> So ek dink die ding hier weg te neem is 359 00:19:52,680 --> 00:19:57,290 dat ons met behulp van die navraag snare parameters op die navraag te stel. 360 00:19:57,290 --> 00:20:02,760 En dit kan jy beheer wat jy terug kry. 361 00:20:02,760 --> 00:20:05,980 >> Nog 'n instrument wat jy kan gebruik, - 362 00:20:05,980 --> 00:20:09,250 >> En dit is werklik nuttig in terme van die ondersoek van die data. 363 00:20:09,250 --> 00:20:10,840 >> --is iets genoem faceting. 364 00:20:10,840 --> 00:20:15,530 So die term faceting is nie noodwendig algemeen. 365 00:20:15,530 --> 00:20:16,880 Maar jy het dit al voorheen gesien. 366 00:20:16,880 --> 00:20:18,630 As jy 'n blik op Amazon, byvoorbeeld, 367 00:20:18,630 --> 00:20:20,870 en jy doen 'n soektog vir donuts in die boeke, 368 00:20:20,870 --> 00:20:27,080 hier is hulle het 'n reeks van boeke, en hulle is gegroepeer volgens kategorie, 369 00:20:27,080 --> 00:20:30,470 en jy die verskillende kategorieë, en hoe baie boeke in elke kategorie 370 00:20:30,470 --> 00:20:31,330 wys. 371 00:20:31,330 --> 00:20:33,420 >> So, dit is basies 'n faset. 372 00:20:33,420 --> 00:20:37,570 Jy neem al hulle boeke, die 1800 boeke wat ooreenstem donuts by Amazon. 373 00:20:37,570 --> 00:20:39,820 12 van hulle is in die ontbyt kategorie. 374 00:20:39,820 --> 00:20:43,100 21 in die deeg en bak, en so aan en so voort. 375 00:20:43,100 --> 00:20:47,670 >> So dit is regtig 'n nuttige instrument vir die verkenning van die inhoud 376 00:20:47,670 --> 00:20:53,260 binne die biblioteek asook want as jy kyk na 'n faset, 377 00:20:53,260 --> 00:20:56,520 dit gee jou 'n idee van watter vakke bestaan, soos watter tipes vakke 378 00:20:56,520 --> 00:20:58,510 is die mees gewilde in jou navraag stel. 379 00:20:58,510 --> 00:21:00,950 En dit help jy ry af en verken. 380 00:21:00,950 --> 00:21:02,770 So kan ons die dieselfde ding doen. 381 00:21:02,770 --> 00:21:05,940 >> As ons wil hê dat die gebruik API en kyk na fasette, 382 00:21:05,940 --> 00:21:08,950 ons nog 'n parameter te ons vriend die navraag string. 383 00:21:08,950 --> 00:21:12,540 So fasette gelyk aan 'n komma geskei n lys van wat ons wil faset op. 384 00:21:12,540 --> 00:21:14,790 So een van die fasette kan onderwerp. 385 00:21:14,790 --> 00:21:16,565 Nog dalk taal wees. 386 00:21:16,565 --> 00:21:19,665 En so as ons loop die soektog, ons get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Dit lyk baie dieselfde hier. 389 00:21:24,830 --> 00:21:29,010 Maar ons aan die einde bygevoeg het van die lys van 'n stel van fasette. 390 00:21:29,010 --> 00:21:34,060 So het ons 'n faset genoem onderwerp. 391 00:21:34,060 --> 00:21:40,250 So dit is om ons te vertel dat as ek kyk op my 80 resultate van die donut navraag, 392 00:21:40,250 --> 00:21:42,100 13 van hulle het die onderwerp Verenigde State van Amerika. 393 00:21:42,100 --> 00:21:43,684 Drie het die onderwerp donuts. 394 00:21:43,684 --> 00:21:45,600 Drie het die onderwerp vleiland herstel, 395 00:21:45,600 --> 00:21:47,720 wat kan ons gat in die donut wees. 396 00:21:47,720 --> 00:21:51,780 Twee van hulle, die Simpsons, en so aan en so voort. 397 00:21:51,780 --> 00:21:59,211 >> So kan dit nuttig as jy wil jou soektog te verklein. 398 00:21:59,211 --> 00:22:00,210 Dit kan help jy dit doen. 399 00:22:00,210 --> 00:22:03,580 Veral as jy ' meer as, sê, 80 resultate. 400 00:22:03,580 --> 00:22:05,980 >> Net so, het ons ook gevra vir fasette op taal. 401 00:22:05,980 --> 00:22:14,790 So as ons kyk na die resultate, sien ons 76 van hulle is in Engels, vier in Frans, 402 00:22:14,790 --> 00:22:19,620 twee in Spaans, twee, ek dink dit is ongedefinieerde of onbekend is, Nederlandse en Latyn. 403 00:22:19,620 --> 00:22:22,830 So ek dink die Latynse donut gevolg, weer, 404 00:22:22,830 --> 00:22:24,922 het niks te doen met gebak. 405 00:22:24,922 --> 00:22:25,630 Maar daar gaan jy. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> So dit is soort van wat jy hoe kan jy die inhoud terug te trek 408 00:22:38,630 --> 00:22:41,270 uit die API net deur webblaaier, wat is groot. 409 00:22:41,270 --> 00:22:44,320 Maar dit is nie regtig wat jy wil gewoonlik gebruik word om in API vir dit. 410 00:22:44,320 --> 00:22:48,710 So 'n voorbeeld van hoe jy kan eintlik doen, is ek het 411 00:22:48,710 --> 00:22:54,720 geskryf om 'n super klein program, wat, weer, het my donut soek 412 00:22:54,720 --> 00:22:59,010 en kies 'n paar velde en gee dit in 'n tabel. 413 00:22:59,010 --> 00:23:01,610 So dit is baie die dieselfde inhoud wat ons net 414 00:23:01,610 --> 00:23:04,830 saag met 'n paar velde getrek uit. 415 00:23:04,830 --> 00:23:12,090 So lys van titels, die plek van wat die boek 416 00:23:12,090 --> 00:23:15,120 is oor die taal, en so aan en so voort. 417 00:23:15,120 --> 00:23:20,480 >> So hoe dit gebeur het nie, aangesien Ek dink ons ​​moet kyk na 'n paar kode, 418 00:23:20,480 --> 00:23:22,420 is-- 419 00:23:22,420 --> 00:23:28,060 >> Wat ons hier het is 'n eenvoudige HTML bladsy, wat die teks vertoon, 420 00:23:28,060 --> 00:23:32,900 welkom om die biblioteek wolk en gee dan 'n tafel van die resultate. 421 00:23:32,900 --> 00:23:37,790 En daar is natuurlik geen resultate in die tafel wanneer die bladsy kry gelaai. 422 00:23:37,790 --> 00:23:41,380 Maar wat ons doen is die eerste van alles, ons 423 00:23:41,380 --> 00:23:46,290 is laai 'n biblioteek genoem jQuery, wat is basies 424 00:23:46,290 --> 00:23:52,030 'n JavaScript-biblioteek, wat maak dit baie maklik JavaScript te manipuleer 425 00:23:52,030 --> 00:23:58,780 native, HTML, en webblaaie te skep, kliënt-kant logika en webblaaie. 426 00:23:58,780 --> 00:24:01,595 >> So wat ons hier het is jQuery het 'n metode genoem kry 427 00:24:01,595 --> 00:24:05,270 wat in wese gaan om 'n URL, wat in hierdie geval, 428 00:24:05,270 --> 00:24:09,070 is hierdie bekende soek URL. 429 00:24:09,070 --> 00:24:14,440 En sal dan die inhoud van dat URL en dan hardloop 'n funksie op dit. 430 00:24:14,440 --> 00:24:19,240 Daarom het ons gesê gaan na api.lib.harvard / edu. 431 00:24:19,240 --> 00:24:20,060 Soek vir donuts. 432 00:24:20,060 --> 00:24:21,300 Gee ons 20 rekords. 433 00:24:21,300 --> 00:24:28,590 En dan loop hierdie funksie, wat Ek het gekies, om dit die data. 434 00:24:28,590 --> 00:24:34,430 En die data is die into dat het uit die API teruggekeer. 435 00:24:34,430 --> 00:24:40,120 >> En dan sê ons, binne daardie data daar is 'n veld met die naam item. 436 00:24:40,120 --> 00:24:48,117 En as ek gaan neem 'n blik op een van hierdie resultate is dit hier, 437 00:24:48,117 --> 00:24:49,200 daar is iets called-- 438 00:24:49,200 --> 00:24:50,220 >> Wel, dit is genoem item. 439 00:24:50,220 --> 00:24:53,520 So wat kan dit wees. 440 00:24:53,520 --> 00:25:01,840 En wat dit doen, is dit gaan deur elke item 441 00:25:01,840 --> 00:25:05,300 en dan noem 'n ander funksie op elke item. 442 00:25:05,300 --> 00:25:08,440 En daardie funksie basies neem die waarde 443 00:25:08,440 --> 00:25:12,010 van die item, wat wese die individuele rekord 444 00:25:12,010 --> 00:25:18,220 en ons toelaat om te trek uit die titel, die dekking en die taal. 445 00:25:18,220 --> 00:25:21,640 >> So noem ons 'n funksie op elke item wat ons terug van die API. 446 00:25:21,640 --> 00:25:25,397 En as jy net 'n blik op hierdie stuk reg hier, 447 00:25:25,397 --> 00:25:27,230 wat ons doen is ons skep 'n string, 448 00:25:27,230 --> 00:25:31,810 wat is in wese 'n HTML opmaak om 'n tafel met value.title, 449 00:25:31,810 --> 00:25:35,790 wat is die titel van die voorwerp, value.coverage, 450 00:25:35,790 --> 00:25:36,790 wat is die dekking, - 451 00:25:36,790 --> 00:25:38,225 >> En ons is besig met 'n tjek hier om te sien wat is ongedefinieerd 452 00:25:38,225 --> 00:25:40,570 en wegkruip as dit sê ongedefinieerde, want ons is nie regtig belangstel 453 00:25:40,570 --> 00:25:41,600 in daardie. 454 00:25:41,600 --> 00:25:42,939 >> --and dan die taal. 455 00:25:42,939 --> 00:25:44,730 En dan wat ons is doen, is die aanbring van wat 456 00:25:44,730 --> 00:25:48,510 aan die tafel wat geïdentifiseer deur die string hier. 457 00:25:48,510 --> 00:25:50,790 En hoe jQuery werk is wat dit sê 458 00:25:50,790 --> 00:25:56,420 is op soek na die tafel met die idee van resultate en voeg hierdie teks om dit te. 459 00:25:56,420 --> 00:25:59,380 En dit is die tafel met die idee van die resultate. 460 00:25:59,380 --> 00:26:04,998 So wat jy eindig met is hierdie bladsy hier. 461 00:26:04,998 --> 00:26:06,206 En om te sien source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Wel, die bron is nie eintlik opgedateer wanneer dit gebeur. 464 00:26:13,810 --> 00:26:18,740 So kan jy die werklike sien resultate van die tafel hier al is. 465 00:26:18,740 --> 00:26:24,770 >> So dit is net 'n eenvoudige voorbeeld van doen 'n baie basiese navraag teen die API 466 00:26:24,770 --> 00:26:29,020 en die vertoon inligting in 'n ander vorm, en nie om iets te doen te fancy. 467 00:26:29,020 --> 00:26:36,370 Nou, nog 'n voorbeeld is soos 'n aansoek geskryf deur David Weinberger 468 00:26:36,370 --> 00:26:39,120 as 'n demo van hierdie, wat wese wys jou 469 00:26:39,120 --> 00:26:44,620 hoe jy kan mash up die resultate wat jy is kry uit die biblioteek wolk API 470 00:26:44,620 --> 00:26:46,250 met, sê, Google Books. 471 00:26:46,250 --> 00:26:52,225 >> En die denke hier is dat ek kan hardloop 'n navraag teen Google Books, 472 00:26:52,225 --> 00:26:56,060 kry 'n volledige teks soek, kry 'n paar resultate terug, vind uit watter een van dié items 473 00:26:56,060 --> 00:27:01,180 eintlik in Hollis bestaan ​​nie, die biblioteek stelsel, 474 00:27:01,180 --> 00:27:03,200 en gee my dan skakels terug na die items. 475 00:27:03,200 --> 00:27:12,730 So as ek soek vir, dit was 'n donker en stormagtige nag, ek 476 00:27:12,730 --> 00:27:16,210 terug te kry 'n klomp van die resultate van Google, en dan 'n resultaat 477 00:27:16,210 --> 00:27:19,460 wat is 'n Wrinkle in Time. 478 00:27:19,460 --> 00:27:29,330 En dit is skakels na boeke wat bestaan binne die Harvard Biblioteek stelsel. 479 00:27:29,330 --> 00:27:32,160 >> So ek dink die punt hier is nie soveel dat dit kan of mag nie 480 00:27:32,160 --> 00:27:34,118 die manier wat jy wil die biblioteek te soek, 481 00:27:34,118 --> 00:27:38,310 maar dit is 'n heeltemal ander manier wat nie beskikbaar is vir jou 482 00:27:38,310 --> 00:27:42,884 voor, soos jy het geen manier om dit te doen volledige teks soek op boeke dat selfs 483 00:27:42,884 --> 00:27:44,550 was deel van die Harvard Biblioteek stelsel. 484 00:27:44,550 --> 00:27:46,870 So nou is dit 'n manier om wat jy kan doen. 485 00:27:46,870 --> 00:27:51,930 En jy kan hulle vertoon in watter formaat jy wil. 486 00:27:51,930 --> 00:27:55,990 So die punt hier is, basies, ons die opening van nuwe maniere om vir mense 487 00:27:55,990 --> 00:27:59,080 om te werk met die data. 488 00:27:59,080 --> 00:28:07,925 >> Nog 'n stukkie van die biblioteek wolk is dat dit help blootstel sommige van die gebruik van data 489 00:28:07,925 --> 00:28:08,800 dat die biblioteek. 490 00:28:08,800 --> 00:28:12,630 So as jy gaan na die biblioteek, en jy is op soek na boeke, 491 00:28:12,630 --> 00:28:15,770 jy nie noodwendig eintlik 'n idee van, 492 00:28:15,770 --> 00:28:19,080 vir al die items in 'n spesifieke onderwerp, wat 493 00:28:19,080 --> 00:28:21,200 is mense in die gemeenskap, of dit nou 494 00:28:21,200 --> 00:28:24,890 gedefinieer as die Harvard of die land of jou klas, 495 00:28:24,890 --> 00:28:26,421 Wat het hulle gevind dat die meeste nuttig? 496 00:28:26,421 --> 00:28:28,920 En die biblioteek het eintlik 'n ton van inligting oor wat 497 00:28:28,920 --> 00:28:32,999 is baie handig, want as 'n baie mense uitcheck 'n boek, 498 00:28:32,999 --> 00:28:34,040 wat vir jou vertel iets. 499 00:28:34,040 --> 00:28:36,498 Daar moet gewees het een of ander rede hulle wil om dit te sien. 500 00:28:36,498 --> 00:28:38,270 Baie mense het dit op reserwe. 501 00:28:38,270 --> 00:28:42,520 >> As dit is op die reservaat lys vir 'n baie van klasse, wat vir jou vertel iets. 502 00:28:42,520 --> 00:28:45,960 As lede van die fakulteit monitor dit uit 'n baie en voorgraadse studente is nie, 503 00:28:45,960 --> 00:28:47,200 dit vertel vir my iets. 504 00:28:47,200 --> 00:28:49,280 Omgekeerd, dat ook vertel jou iets. 505 00:28:49,280 --> 00:28:54,680 So dit is regtig interessant om te wees sit die inligting daar buite en laat 506 00:28:54,680 --> 00:28:59,969 mense gebruik dit om hulle te help vind werk binne die biblioteek stelsel. 507 00:28:59,969 --> 00:29:02,260 Die ander kant van hierdie is daar is 'n paar ernstige privaatheid 508 00:29:02,260 --> 00:29:07,854 kommer, want een van die kern beginsels van die biblioteek 509 00:29:07,854 --> 00:29:10,770 is ons gaan nie te word vertel mense wat ander mense is die voorlees. 510 00:29:10,770 --> 00:29:17,360 En selfs as jy sê dit boek is nagegaan vier keer 511 00:29:17,360 --> 00:29:20,070 in 'n spesifieke maand, wat gebruik kan word 512 00:29:20,070 --> 00:29:25,252 terug te skakel na 'n spesifieke persoon wat deur de-anonimisering data 513 00:29:25,252 --> 00:29:26,710 en om uit te vind wat dit bewys nie. 514 00:29:26,710 --> 00:29:30,792 So het die manier waarop ons kan avoid-- 515 00:29:30,792 --> 00:29:33,750 Die manier waarop ons kan probeer om te onttrek sommige sein van al die inligting 516 00:29:33,750 --> 00:29:36,740 sonder om inbreuk iemand se privaatheid kommer 517 00:29:36,740 --> 00:29:42,150 is in wese ons kyk na 10 jaar van die gebruik van data, - 518 00:29:42,150 --> 00:29:43,930 >> So dit is oor 'n lang tydperk van die tyd. 519 00:29:43,930 --> 00:29:50,639 >> --and sê OK, kom ons kyk hoe baie keer hierdie werk gebruik is, 520 00:29:50,639 --> 00:29:52,930 en deur wat oor hierdie tydperk van die tyd, en dan basies 521 00:29:52,930 --> 00:29:56,300 gee terug 'n nommer, wat ons noem 'n stapel telling, wat basies 522 00:29:56,300 --> 00:29:59,910 verteenwoordig hoeveel dit gebruik is. 523 00:29:59,910 --> 00:30:01,084 En dat number-- 524 00:30:01,084 --> 00:30:03,250 'N baie verskillende berekeninge gaan in dat die getal. 525 00:30:03,250 --> 00:30:05,150 --but dit is 'n baie rowwe metrieke dat jy gee 526 00:30:05,150 --> 00:30:11,300 'n idee van hoe die gemeenskap kan daardie werk waardeer. 527 00:30:11,300 --> 00:30:16,772 >> En so 'n ander soort van selfs meer vleis uit aansoek 528 00:30:16,772 --> 00:30:18,480 wat voordeel van hierdie is iets 529 00:30:18,480 --> 00:30:24,000 genoem Stacklife, wat eintlik wat beskikbaar is deur die hoof Harvard 530 00:30:24,000 --> 00:30:24,880 Biblioteek portaal. 531 00:30:24,880 --> 00:30:26,700 So jy gaan na library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Jy sal 'n aantal van die verskillende sien maniere van soek die biblioteek. 533 00:30:29,360 --> 00:30:32,300 En een van hulle is Stacklife genoem. 534 00:30:32,300 --> 00:30:38,980 >> En dit is 'n program wat bladert die inhoud van die biblioteek, 535 00:30:38,980 --> 00:30:43,490 maar is heeltemal gebou bo-op hierdie API. 536 00:30:43,490 --> 00:30:46,910 So daar is geen spesiale dinge gaan agter die skerms. 537 00:30:46,910 --> 00:30:49,570 Daar is geen toegang tot data wat jy nie het nie. 538 00:30:49,570 --> 00:30:54,090 Dit is die gebruik van die API's om jou te voorsien met 'n heeltemal ander blaai 539 00:30:54,090 --> 00:30:55,480 ervaring. 540 00:30:55,480 --> 00:30:58,570 >> So as ek soek vir Alice in Wonderland in hierdie geval, 541 00:30:58,570 --> 00:31:02,600 Ek kry 'n gevolg wat lyk soos hierdie, wat is redelik much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> Dit is baie soortgelyk aan enige ander search jy kan doen nie, behalwe in die geval 544 00:31:10,870 --> 00:31:15,730 ons die posisie van die items deur stackscore, wat gee jou 545 00:31:15,730 --> 00:31:19,850 'n idee van hoe gewild hierdie items was binne die gemeenskap. 546 00:31:19,850 --> 00:31:25,610 En so duidelik, Alice in Wonderland deur Walt Disney is hoogs gewild. 547 00:31:25,610 --> 00:31:36,570 Maar jy kan ook sien die top vier hier is wat jy dalk nie actually-- 548 00:31:36,570 --> 00:31:39,220 >> Dinge wat hoogs gebruik, maar jy kan nie dadelik 549 00:31:39,220 --> 00:31:41,240 verbind met Alice in Wonderland. 550 00:31:41,240 --> 00:31:44,650 So ons ou vriend Die Annotated Alice is hier. 551 00:31:44,650 --> 00:31:46,350 So ek kan 'n blik op dit. 552 00:31:46,350 --> 00:31:52,010 En nou wat ek soek by is basies 'n stel of-- 553 00:31:52,010 --> 00:31:53,760 Ek kan die Annotated Alice hier. 554 00:31:53,760 --> 00:31:56,700 Ek het inligting oor dit. 555 00:31:56,700 --> 00:32:00,230 En ek het ook 'n stackscore van, in hierdie geval, 26. 556 00:32:00,230 --> 00:32:03,169 En dit sê vir my soort van rofweg hoe ons hierdie stackscore, 557 00:32:03,169 --> 00:32:05,835 soos wat dit bewys nie, soos hoe Baie keer is dit is nagegaan, 558 00:32:05,835 --> 00:32:08,440 soos fakulteit of voorgraadse studente is, hoe baie kopieë van die biblioteek het, 559 00:32:08,440 --> 00:32:11,300 en so aan en so voort. 560 00:32:11,300 --> 00:32:16,460 >> En jy kan ook interessant genoeg hier, blaai deur die stapels feitlik. 561 00:32:16,460 --> 00:32:19,550 So die data hier, hierdie wys jou soort 562 00:32:19,550 --> 00:32:23,547 van 'n virtuele voorstelling van wat die rak dalk 563 00:32:23,547 --> 00:32:25,880 lyk as jy was om te neem al die biblioteek se besit 564 00:32:25,880 --> 00:32:28,940 en sit hulle saam op een oneindige rak. 565 00:32:28,940 --> 00:32:30,990 En die lekker ding is dat ons can-- 566 00:32:30,990 --> 00:32:33,380 >> Eerste van alles, die metadata oor hierdie boeke 567 00:32:33,380 --> 00:32:35,627 dikwels vertel wanneer dit gepubliseer is. 568 00:32:35,627 --> 00:32:37,085 Dit vertel jou hoeveel bladsye wat dit het. 569 00:32:37,085 --> 00:32:38,459 Dit mag dalk vir jou sê die dimensies. 570 00:32:38,459 --> 00:32:42,930 Sodat jy kan sien wat hier weerspieël in terme van die grootte van die boeke. 571 00:32:42,930 --> 00:32:46,740 >> En dan kan ons gebruik maak van die stapel telling te lig 572 00:32:46,740 --> 00:32:49,170 die boeke wat 'n hoër stapel tellings. 573 00:32:49,170 --> 00:32:54,930 So as dit donkerder word, beteken dit dat, vermoedelik, is dit meer dikwels gebruik. 574 00:32:54,930 --> 00:32:57,040 So in hierdie geval, ek is gaan om te raai dat dit 575 00:32:57,040 --> 00:33:03,226 is die weergawe van Alice in Wonderland wat baie algemeen gebruik word en die meeste 576 00:33:03,226 --> 00:33:05,100 verkry, die biblioteek het die meeste afskrifte van. 577 00:33:05,100 --> 00:33:06,975 So as jy op soek is na vir Alice in Wonderland, 578 00:33:06,975 --> 00:33:10,220 hierdie dalk 'n goeie plek om te begin. 579 00:33:10,220 --> 00:33:13,500 >> En dan is hier jy kan ook 'n skakel uit te sê, Amazon die boek te koop, 580 00:33:13,500 --> 00:33:15,182 en so aan en so voort. 581 00:33:15,182 --> 00:33:17,140 Die punt hier, weer, is nie soseer dat dit 582 00:33:17,140 --> 00:33:25,030 is die beste manier om die biblioteek te blaai of die regte gereedskap vir elke geleentheid. 583 00:33:25,030 --> 00:33:28,400 Maar dit is 'n ander manier om dit te doen. 584 00:33:28,400 --> 00:33:31,359 En deur die maak van die data wat beskikbaar is deur 'n API, wat 585 00:33:31,359 --> 00:33:34,650 gemaak van 'n baie eenvoudige boustene, wat kan jy die inhoud te soek, 586 00:33:34,650 --> 00:33:39,420 jy iets kan bou soos hierdie wat kan 587 00:33:39,420 --> 00:33:41,520 buitengewoon waardevol vir sommige mense. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> So dit is soort van, soveel as wat ek wil om werklik sê oor wat die API is 590 00:33:51,860 --> 00:33:56,070 en wat dit blootstel, is daar 'n hele n klomp van die dinge wat agter die skerms, wat 591 00:33:56,070 --> 00:33:59,480 Ek gaan net aan te raak vlugtig net omdat dit kom soort op hierdie 592 00:33:59,480 --> 00:34:03,720 uit 'n totaal ander hoek in terme van hoe iets soos hierdie 593 00:34:03,720 --> 00:34:04,580 kry in plek gestel? 594 00:34:04,580 --> 00:34:10,820 >> So 'n API is 'n standaard koppelvlak aan al hierdie inhoud. 595 00:34:10,820 --> 00:34:13,820 Maar dit is daar, die te kry eerste ding wat ons gehad het om te doen 596 00:34:13,820 --> 00:34:17,260 is trek inligting saam van boeke en beelde 597 00:34:17,260 --> 00:34:21,580 en die vind van hulpmiddels, die versameling dokument van verskeie Harvard stelsels. 598 00:34:21,580 --> 00:34:23,929 Aleph, VIA, en Oasis is die name van die stelsels. 599 00:34:23,929 --> 00:34:28,820 En hulle gaan in wese 'n pyplyn, 'n verwerking pyplyn. 600 00:34:28,820 --> 00:34:33,230 >> So die eerste van alles, kry ons die uitvoer lêers van al hierdie stelsels. 601 00:34:33,230 --> 00:34:35,130 Ons verdeel hulle in individuele items. 602 00:34:35,130 --> 00:34:39,360 So het ons 'n lêer, wat is 'n GB, wat 'n miljoen rekords in dit. 603 00:34:39,360 --> 00:34:42,290 So ons verdeel dit in individuele items. 604 00:34:42,290 --> 00:34:45,374 Dan, vir elke item, ons het dit omskep in MODS, omdat sommige van hierdie 605 00:34:45,374 --> 00:34:47,040 is native MODS, sommige van hulle is nie. 606 00:34:47,040 --> 00:34:49,204 So kry ons hulle almal te in dieselfde formaat. 607 00:34:49,204 --> 00:34:51,120 Dan is daar verskeie verryking stappe, waar 608 00:34:51,120 --> 00:34:55,969 voeg ons meer inligting aan die data as was in die biblioteek beskikbaar. 609 00:34:55,969 --> 00:34:59,750 Dus moet ons by te voeg, die eerste van alles ons het wat biblioteke hou dit oop. 610 00:34:59,750 --> 00:35:02,250 Ons gaan deur 'n stap van die berekening van die stackscore. 611 00:35:02,250 --> 00:35:07,112 Ons gaan deur 'n ander stap van die toevoeging van meer metadata in terme 612 00:35:07,112 --> 00:35:10,730 van wat versamelings mense kan bygevoeg het this-- 613 00:35:10,730 --> 00:35:12,532 >> Mense skep versamelings van items. 614 00:35:12,532 --> 00:35:13,990 Wat versamelings dit behoort? 615 00:35:13,990 --> 00:35:17,220 Hoe het mense tagged hierdie inhoud in die verlede? 616 00:35:17,220 --> 00:35:20,750 Dan moet jy uit te filter, en jy beperk die rekords, want soos ek genoem het, 617 00:35:20,750 --> 00:35:24,120 daar is 'n paar rekords wat, as gevolg van kopiereg redes, kan ons nie vertoon. 618 00:35:24,120 --> 00:35:26,700 En dan het ons laai dit in iets genoem 619 00:35:26,700 --> 00:35:31,680 Solr, wat nie 'n spelfout nie, maar is die naam van 'n stuk sagteware 620 00:35:31,680 --> 00:35:35,710 wat nie soek kruip, wat dryf al die search agter die API. 621 00:35:35,710 --> 00:35:40,110 En dan is dit beskikbaar raak te die API, en mense kan dit gebruik. 622 00:35:40,110 --> 00:35:44,640 >> So, dit is soos 'n redelik eenvoudige proses. 623 00:35:44,640 --> 00:35:47,230 Een van die interessante dinge oor dit 624 00:35:47,230 --> 00:35:50,990 dat ons hier met 13 miljoen rekords 625 00:35:50,990 --> 00:35:53,820 en ons gaan word wat of meer. 626 00:35:53,820 --> 00:36:01,260 En ons wil in staat wees om te hanteer dit in 'n relatief vinnige mode. 627 00:36:01,260 --> 00:36:03,630 Dit neem 'n lang tyd om te verwerk 13 miljoen rekords. 628 00:36:03,630 --> 00:36:09,529 >> So hoe hierdie pyplyn is opgestel is dat jy can-- 629 00:36:09,529 --> 00:36:12,070 Ek dink die voordeel van die pyplyn, die probleem is dat ons 630 00:36:12,070 --> 00:36:15,580 probeer om hier te los, is dat al die transformasies, al 631 00:36:15,580 --> 00:36:18,729 hierdie stappe in hierdie pyplyn is skeibare. 632 00:36:18,729 --> 00:36:19,645 Daar is geen afhanklikheid. 633 00:36:19,645 --> 00:36:22,146 As jy die verwerking 'n rekord van 'n boek, 634 00:36:22,146 --> 00:36:24,270 daar is geen afhanklikheid in wat tussen 'n ander boek. 635 00:36:24,270 --> 00:36:27,760 >> So, wat ons kan doen is basies, by elke stap in die pyplyn, 636 00:36:27,760 --> 00:36:30,470 ons sit dit in 'n tou in die wolk. 637 00:36:30,470 --> 00:36:32,250 Ek het gebeur om te wees op Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 So daar is 'n lys van, sê, 10,000 items wat 639 00:36:35,140 --> 00:36:38,100 moet genormaliseer wees en omgeskakel na MODS formaat. 640 00:36:38,100 --> 00:36:41,620 En ons draai as baie bedieners as ons wil, miskien 10 bedieners. 641 00:36:41,620 --> 00:36:44,860 En elkeen van daardie bedieners net daar sit, lyk in daardie tou, 642 00:36:44,860 --> 00:36:46,730 sien dat daar een wat moet word verwerk, trek dit af in die tou, 643 00:36:46,730 --> 00:36:48,740 verwerk dit, en stokke dit op die volgende ry. 644 00:36:48,740 --> 00:36:54,200 >> En ja, wat ons toelaat om te doen, is van toepassing, in wese, 645 00:36:54,200 --> 00:36:58,110 soveel hardeware soos ons wil hierdie probleem vir 'n baie kort periode van tyd 646 00:36:58,110 --> 00:37:02,970 die data te so vinnig as verwerk moontlik, dit is iets wat net, 647 00:37:02,970 --> 00:37:08,220 nou in die wêreld van die wolk rekenaar ons kan voorsiening bedieners wese 648 00:37:08,220 --> 00:37:09,890 onmiddellik, is dat nuttig. 649 00:37:09,890 --> 00:37:12,260 So ons het nie 'n te hê reuse bediener sit om 650 00:37:12,260 --> 00:37:16,700 al die tyd die verwerking te doen wat dalk net een keer gebeur 'n week. 651 00:37:16,700 --> 00:37:21,440 >> So dit is dit meestal. 652 00:37:21,440 --> 00:37:27,590 Daar is dokumentasie beskikbaar vir die API Library Wolk Item 653 00:37:27,590 --> 00:37:31,960 op hierdie URL, wat sal beskikbaar wees later. 654 00:37:31,960 --> 00:37:36,730 En asseblief gaan neem 'n blik op om dit te sien of daar enigiets, 655 00:37:36,730 --> 00:37:37,579 jy enige idees. 656 00:37:37,579 --> 00:37:38,120 Speel met dit. 657 00:37:38,120 --> 00:37:38,830 Fool rond. 658 00:37:38,830 --> 00:37:42,800 En hopelik jy kan kom met iets groot. 659 00:37:42,800 --> 00:37:44,740 Dankie. 660 00:37:44,740 --> 00:37:45,899