1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY LICHT: Hej der. 3 00:00:12,370 --> 00:00:13,550 Jeg er Jeffrey Licht. 4 00:00:13,550 --> 00:00:17,890 Og jeg er her for at tale med dig om det Harvard Library og bygning morgendagens 5 00:00:17,890 --> 00:00:20,870 bibliotek i dag, tror jeg. 6 00:00:20,870 --> 00:00:23,040 Så baggrunden her, banen for denne session 7 00:00:23,040 --> 00:00:26,930 er i det væsentlige, at der er en masse af bibliografiske data 8 00:00:26,930 --> 00:00:28,400 tilgængelig i Harvard biblioteker. 9 00:00:28,400 --> 00:00:33,434 Og der er en mulighed, gennem nogle af de værktøjer 10 00:00:33,434 --> 00:00:36,350 og et projekt, der er under udvikling, at få adgang til de oplysninger, 11 00:00:36,350 --> 00:00:42,430 og tage det til steder, som den Harvard Library ikke gør lige nu, 12 00:00:42,430 --> 00:00:45,460 gøre nye ting med det, eksperimentere og lege med det. 13 00:00:45,460 --> 00:00:52,413 >> Så indgang til dette er en API kaldet Harvard Library Cloud, som 14 00:00:52,413 --> 00:00:57,650 er en åben metadata server, som jeg vil tale om nu. 15 00:00:57,650 --> 00:01:02,595 Så baggrunden er, at der er en masse ting i Harvard-biblioteket. 16 00:01:02,595 --> 00:01:07,150 Vi har over 13 millioner bibliografiske optegnelser, millioner af billeder, 17 00:01:07,150 --> 00:01:11,090 og tusindvis af finde hjælpemidler, der er væsentlige dokumenter, der beskriver 18 00:01:11,090 --> 00:01:15,500 samlinger, siger hvad er i dem, kasser med papirer 19 00:01:15,500 --> 00:01:21,080 og så videre, der repræsenterer over en million enkelte dokumenter. 20 00:01:21,080 --> 00:01:24,290 Og der er også en masse oplysninger om, at biblioteket har 21 00:01:24,290 --> 00:01:28,180 om, hvordan indholdet anvendes som kunne være af interesse for mennesker 22 00:01:28,180 --> 00:01:32,400 som måske ønsker at arbejde med det. 23 00:01:32,400 --> 00:01:36,150 >> Så alle de oplysninger biblioteket har metadata. 24 00:01:36,150 --> 00:01:39,500 Så metadata er data om data. 25 00:01:39,500 --> 00:01:42,070 Så når vi taler om de oplysninger, der er 26 00:01:42,070 --> 00:01:44,890 tilgængelige via biblioteket sky, der er til rådighed, 27 00:01:44,890 --> 00:01:47,760 det er ikke nødvendigvis den faktiske dokumenter 28 00:01:47,760 --> 00:01:53,060 selv ikke nødvendigvis den fulde Teksten bøger eller de fulde billeder, 29 00:01:53,060 --> 00:01:54,890 selv om det kan faktisk være tilfældet. 30 00:01:54,890 --> 00:01:57,550 Men det er virkelig oplysninger om dataene. 31 00:01:57,550 --> 00:02:00,909 >> Så du kan tænke på katalogisering information, telefonnumre, fag, 32 00:02:00,909 --> 00:02:02,700 hvor mange kopier af bog er der, hvad 33 00:02:02,700 --> 00:02:06,380 er de udgaver, hvad er det formater, forfatterne, og så videre. 34 00:02:06,380 --> 00:02:12,250 Så der er en masse oplysninger om oplysningerne i den samling,, 35 00:02:12,250 --> 00:02:14,400 i sig selv er slags iboende nyttig. 36 00:02:14,400 --> 00:02:19,230 Og selv hvis du er gøre grundig forskning, 37 00:02:19,230 --> 00:02:25,160 du naturligvis ønsker at komme til den faktiske nøjes og se på dataene, 38 00:02:25,160 --> 00:02:30,140 metadata er nyttig med hensyn til både analysere corpus som helhed, 39 00:02:30,140 --> 00:02:33,870 lige hvad tingene er i samlingen. 40 00:02:33,870 --> 00:02:35,520 Hvordan de vedrører? 41 00:02:35,520 --> 00:02:39,482 Det hjælper du virkelig finde andre ting, som er virkelig det vigtigste formål med den. 42 00:02:39,482 --> 00:02:41,190 Pointen i metadata og kataloget 43 00:02:41,190 --> 00:02:43,230 er at hjælpe dig med at finde alle de oplysninger, der er 44 00:02:43,230 --> 00:02:46,590 rådighed inden for de samlinger. 45 00:02:46,590 --> 00:02:53,690 >> Så dette er et eksempel på metadata for en bog i Harvard Library. 46 00:02:53,690 --> 00:02:56,370 Så det er der. 47 00:02:56,370 --> 00:02:59,850 Og du kan se, det er faktisk moderat kompleks. 48 00:02:59,850 --> 00:03:04,610 Og en del af værdien af ​​metadata inden Harvard Library systemet 49 00:03:04,610 --> 00:03:09,320 er, at det har været slags af bygget op af catalogers 50 00:03:09,320 --> 00:03:12,720 og samlet af personer, der ansøger en masse af ekspertise og dygtighed 51 00:03:12,720 --> 00:03:20,030 og tænkte at det over tid, som har en masse værdi. 52 00:03:20,030 --> 00:03:25,450 >> Så hvis du tager et kig på denne rekord for Kommenteret Alice, kan du finde ud af 53 00:03:25,450 --> 00:03:32,590 du har fået titlen, der skrev det, det forfatter, og alle de forskellige fag 54 00:03:32,590 --> 00:03:35,380 som folk har katalogiseret det ind. 55 00:03:35,380 --> 00:03:40,110 Og du kan se er der også, i Foruden en masse god information 56 00:03:40,110 --> 00:03:42,852 her, er der nogle overlapning. 57 00:03:42,852 --> 00:03:45,560 Der er en masse af kompleksitet, der er afspejles gennem metadata 58 00:03:45,560 --> 00:03:46,300 som du har. 59 00:03:46,300 --> 00:03:50,320 >> Så en titlen på denne bog er Alice i Eventyrland. 60 00:03:50,320 --> 00:03:53,880 Så dette er en annoteret version af denne bog. 61 00:03:53,880 --> 00:03:56,380 Men det er også kaldet den kommenterede Alice, Alice Adventures 62 00:03:56,380 --> 00:03:58,570 i Eventyrland, fordi det er noget, som 63 00:03:58,570 --> 00:04:00,430 Martin Gardner skrev og kommenteret bogen. 64 00:04:00,430 --> 00:04:03,369 Og der er en masse store oplysninger om logiske gåder og ting 65 00:04:03,369 --> 00:04:05,410 inden Alice, at du sandsynligvis ikke kender til. 66 00:04:05,410 --> 00:04:07,000 Så du skal gå læse den. 67 00:04:07,000 --> 00:04:11,940 >> Men du kan se, at der er en masse detaljer her, 68 00:04:11,940 --> 00:04:15,340 herunder identifikatorer, når det blev oprettet, hvor den kom fra, 69 00:04:15,340 --> 00:04:17,420 i form af Harvard systemet, og så videre. 70 00:04:17,420 --> 00:04:20,350 Så dette er et eksempel på typen af ​​metadata 71 00:04:20,350 --> 00:04:24,340 at du måske se en bog i Harvard Library kollektionen. 72 00:04:24,340 --> 00:04:26,680 >> Det er noget helt andet. 73 00:04:26,680 --> 00:04:32,610 Så der er et system kaldet VIA Harvard, som dybest set 74 00:04:32,610 --> 00:04:39,990 katalogisering af billeder og kunstgenstande og visuelle ting hele Harvard, 75 00:04:39,990 --> 00:04:44,010 og tilføje nogle metadata til dem, klassificere dem, 76 00:04:44,010 --> 00:04:49,200 og i nogle tilfælde give små miniaturebilleder 77 00:04:49,200 --> 00:04:51,250 at du kan tage en se på, hvis du ønsker det. 78 00:04:51,250 --> 00:04:54,240 >> Så dette er et eksempel på metadata, du har for en plade 79 00:04:54,240 --> 00:04:57,840 fra, formentlig, Alice i Eventyrland. 80 00:04:57,840 --> 00:05:00,499 Og du kan se der er færre metadata her. 81 00:05:00,499 --> 00:05:02,040 Det er bare en anden slags objekt. 82 00:05:02,040 --> 00:05:03,425 Og så der er færre oplysninger. 83 00:05:03,425 --> 00:05:07,790 >> Du har hovedsagelig den omstændighed, at et opkald nummer, hovedsagelig som skabte det, - 84 00:05:07,790 --> 00:05:10,410 >> Vi ved ikke, hvornår den blev oprettet. 85 00:05:10,410 --> 00:05:13,320 >> DET-- en titel. 86 00:05:13,320 --> 00:05:14,300 >> Et andet eksempel. 87 00:05:14,300 --> 00:05:16,380 Det er en konstatering støtte. 88 00:05:16,380 --> 00:05:19,030 Så der er en samling af Lewis Carroll papirer på Harvard. 89 00:05:19,030 --> 00:05:23,601 Så dette beskriver, hvad er i denne samling. 90 00:05:23,601 --> 00:05:26,100 Så nogen har været igennem, og kiggede gennem alle boksene 91 00:05:26,100 --> 00:05:32,220 og katalogiseret det, givet nogle baggrund, skrevet en oversigt over, hvad der er her. 92 00:05:32,220 --> 00:05:35,290 Og hvis du skulle kigge yderligere på dette, dette 93 00:05:35,290 --> 00:05:39,620 går for sider og sider og sider, men vil fortælle dig 94 00:05:39,620 --> 00:05:41,860 hvilke bogstaver og hvad datoer Fra hvad kasser 95 00:05:41,860 --> 00:05:44,289 eksisterede i hele kollektionen. 96 00:05:44,289 --> 00:05:46,330 Men det er noget at hvis du er på Harvard, 97 00:05:46,330 --> 00:05:50,720 du kan gå og rent fysisk se op og, formentlig, tage et kig på. 98 00:05:50,720 --> 00:05:53,440 >> Så dette er alle store. 99 00:05:53,440 --> 00:05:54,450 Denne metadata er nyttige. 100 00:05:54,450 --> 00:05:56,327 Det er i Harvard Library system. 101 00:05:56,327 --> 00:05:58,910 Der er værktøjer online, hvor du kan gå og tage et kig på det, 102 00:05:58,910 --> 00:05:59,993 og se det, og søg den. 103 00:05:59,993 --> 00:06:02,810 Og du kan skære det og terninger det på mange forskellige måder. 104 00:06:02,810 --> 00:06:06,920 >> Men det er virkelig kun tilgængelig, hvis du er et menneske sidder ned 105 00:06:06,920 --> 00:06:12,600 på din webbrowser eller noget eller telefonen og navigere igennem den. 106 00:06:12,600 --> 00:06:16,730 Det er egentlig ikke tilgængelig i enhver form for anvendelig mode 107 00:06:16,730 --> 00:06:19,520 for andre systemer eller andre computere at bruge, 108 00:06:19,520 --> 00:06:21,500 ikke med systemer inden Harvard Library, 109 00:06:21,500 --> 00:06:24,890 men systemer i omverdenen, bare andre mennesker generelt. 110 00:06:24,890 --> 00:06:30,210 Så spørgsmålet er, kan vi, hvordan gøre det tilgængeligt for computere 111 00:06:30,210 --> 00:06:33,560 så vi kan gøre mere interessant ting med det, end blot 112 00:06:33,560 --> 00:06:36,550 browsing det selv? 113 00:06:36,550 --> 00:06:39,766 >> Så hvorfor skulle du ønsker at gøre dette? 114 00:06:39,766 --> 00:06:41,140 Der er en masse muligheder. 115 00:06:41,140 --> 00:06:43,980 Den ene er, at du kan bygge en helt anderledes måde browsing 116 00:06:43,980 --> 00:06:46,962 det indhold, der er til rådighed gennem Harvard biblioteker. 117 00:06:46,962 --> 00:06:48,670 Jeg vil vise dig en senere kaldet Stacklife, 118 00:06:48,670 --> 00:06:52,440 som har en helt anden tage på udkig efter indhold. 119 00:06:52,440 --> 00:06:54,560 >> Du kan bygge en anbefaling motor. 120 00:06:54,560 --> 00:06:57,955 Så Harvard Library er ikke i virksomhed for at sige, du kan lide denne bog. 121 00:06:57,955 --> 00:07:01,080 Så gå tage et kig på disse 17 andre bøger, som du kan være interesseret i 122 00:07:01,080 --> 00:07:03,200 eller disse 18 andre billeder. 123 00:07:03,200 --> 00:07:06,040 Men det helt sikkert kunne være en værdifuld funktion. 124 00:07:06,040 --> 00:07:09,272 Og i betragtning af metadata, kan den være muligt at sætte det sammen. 125 00:07:09,272 --> 00:07:11,980 Du kan have forskellige behov i Betingelser for at søge på indhold, 126 00:07:11,980 --> 00:07:16,200 som måske på trods af de værktøjer, som findes at biblioteket gør 127 00:07:16,200 --> 00:07:18,450 tilgængelige, kan du at søge på en anden måde 128 00:07:18,450 --> 00:07:21,847 eller optimere til en bestemt anvendelse sag, som måske er det meget specialiseret. 129 00:07:21,847 --> 00:07:23,930 Måske er der kun nogle få mennesker i verden, der 130 00:07:23,930 --> 00:07:25,846 ønsker at søge på indhold på denne måde, men det 131 00:07:25,846 --> 00:07:28,985 ville være dejligt, hvis vi kunne lade dem gøre det. 132 00:07:28,985 --> 00:07:30,860 Der er en masse analytics på bare hvordan folk 133 00:07:30,860 --> 00:07:33,860 bruge indholdet, der ville være virkelig interessant at vide om, finde ud af 134 00:07:33,860 --> 00:07:37,280 Hvilke bøger bliver brugt, hvad er ikke, og så videre. 135 00:07:37,280 --> 00:07:41,670 Og så er der en masse mulighed for at integrere 136 00:07:41,670 --> 00:07:45,210 med andre oplysninger der er derude på nettet. 137 00:07:45,210 --> 00:07:46,880 Så vi have-- 138 00:07:46,880 --> 00:07:50,260 >> For eksempel NPR har en boganmeldelse segment, 139 00:07:50,260 --> 00:07:53,090 hvor de interviewer forfattere om bøger. 140 00:07:53,090 --> 00:07:56,837 Og så det ville være dejligt, hvis du var kigge op en bog i Harvard 141 00:07:56,837 --> 00:07:59,670 Bibliotek, og du siger, OK, er der været et interview med forfatteren. 142 00:07:59,670 --> 00:08:00,878 Lad os gå tage et kig på det. 143 00:08:00,878 --> 00:08:05,461 Eller der er en Wikipedia side, som en autoritativ, videnskabelig henvisning 144 00:08:05,461 --> 00:08:07,710 om denne bog, som du måske ønsker at tage et kig på. 145 00:08:07,710 --> 00:08:12,600 >> Der er disse typer af kilder spredt over hele nettet. 146 00:08:12,600 --> 00:08:16,555 Og at samle dem kunne være en stor brug 147 00:08:16,555 --> 00:08:18,930 til en person ser på indhold, på udkig efter noget. 148 00:08:18,930 --> 00:08:20,180 Men det er heller ikke den slags ting du ville 149 00:08:20,180 --> 00:08:23,205 ønsker biblioteket at være ansvarlig for at gå ned og jagt ned 150 00:08:23,205 --> 00:08:25,455 alle disse forskellige kilder og sætte dem sammen 151 00:08:25,455 --> 00:08:28,920 fordi de ændrer sig konstant. 152 00:08:28,920 --> 00:08:33,570 Og hvad de synes er vigtigt maj ikke være, hvad du synes er vigtigt. 153 00:08:33,570 --> 00:08:36,929 >> Og endnu mere, dybest set er der en masse ting, vi ikke har tænkt på endnu. 154 00:08:36,929 --> 00:08:42,222 Så hvis vi kan åbne denne op, mere mennesker foruden et halvt dusin eller så, 155 00:08:42,222 --> 00:08:45,174 der kigger på dette på en regelmæssigt kan tænke på ideer 156 00:08:45,174 --> 00:08:47,340 og massere af data, og gøre hvad de vil med det. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Så vi ønsker at gøre dette data til rådighed for verden. 159 00:08:54,045 --> 00:08:55,670 Nå, der er et par komplikationer. 160 00:08:55,670 --> 00:08:58,540 Den ene er, at denne metadata er i forskellige systemer. 161 00:08:58,540 --> 00:09:01,110 Det er i forskellige formater. 162 00:09:01,110 --> 00:09:04,719 Så der er en vis normalisering der skal ske, 163 00:09:04,719 --> 00:09:08,010 som normalisering er processen bringer ting fra forskellige formater 164 00:09:08,010 --> 00:09:12,940 og kortlægge dem til et enkelt format således at felterne vil matche op. 165 00:09:12,940 --> 00:09:15,160 >> Der er nogle begrænsninger ophavsret. 166 00:09:15,160 --> 00:09:21,010 Mærkeligt nok, kataloget post om en bog er ansvarlig for ophavsret. 167 00:09:21,010 --> 00:09:24,060 Så selvom det er bare information udledt fra bogen, 168 00:09:24,060 --> 00:09:25,330 det er copyrightable. 169 00:09:25,330 --> 00:09:28,400 Og afhængigt af, hvem der rent faktisk skabt, metadata, 170 00:09:28,400 --> 00:09:32,175 Der kan være restriktioner for hvem kan distribuere den tilsvarende at-- 171 00:09:32,175 --> 00:09:33,402 >> Jeg ved det ikke. 172 00:09:33,402 --> 00:09:36,110 Det kan eller kan ikke være lig situationen for de sangtekster, 173 00:09:36,110 --> 00:09:36,610 f.eks. 174 00:09:36,610 --> 00:09:38,560 Så vi ved alle, hvordan det pander ud. 175 00:09:38,560 --> 00:09:40,450 Så du har brug for at komme omkring dette problem. 176 00:09:40,450 --> 00:09:44,910 >> Og så et andet stykke er at der er en masse data. 177 00:09:44,910 --> 00:09:52,420 Så hvis jeg er en person, der ønsker at arbejde til oplysningerne eller har en cool idé, 178 00:09:52,420 --> 00:09:55,350 beskæftiger sig med 14 millioner optegnelser om min laptop 179 00:09:55,350 --> 00:09:57,487 kunne være problematisk og vanskelige at håndtere. 180 00:09:57,487 --> 00:09:59,320 Så vi ønsker at reducere barriererne for folk 181 00:09:59,320 --> 00:10:02,130 at være i stand til at arbejde med dataene. 182 00:10:02,130 --> 00:10:07,880 >> Så den tilgang, forhåbentlig adresser alle disse bekymringer er to dele. 183 00:10:07,880 --> 00:10:11,770 Man er ved at opbygge en platform, der tager data fra alle disse forskellige kilder 184 00:10:11,770 --> 00:10:14,350 og forværrer det, normaliserer, beriger det, og gør 185 00:10:14,350 --> 00:10:16,650 det fås i et enkelt sted. 186 00:10:16,650 --> 00:10:20,950 Og det gør det tilgængeligt via en offentlig API, som folk kan ringe til. 187 00:10:20,950 --> 00:10:24,430 >> Så en API er et program Programming Interface. 188 00:10:24,430 --> 00:10:28,930 Og det dybest set refererer til en endepunkt, at et system eller teknologi 189 00:10:28,930 --> 00:10:31,720 kan ringe og få data tilbage i et struktureret format på en måde 190 00:10:31,720 --> 00:10:32,900 at det kan anvendes. 191 00:10:32,900 --> 00:10:36,060 Så det er ikke afhængige om at gå til et websted 192 00:10:36,060 --> 00:10:37,970 og skrabe data ud af den, f.eks. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Så dette er hjemmesiden for Biblioteket Cloud Item API, 195 00:10:45,010 --> 00:10:47,220 som i det væsentlige dens version to. 196 00:10:47,220 --> 00:10:50,130 Så det er den anden iteration af forsøger at gøre alle disse data 197 00:10:50,130 --> 00:10:53,280 til rådighed for verden. 198 00:10:53,280 --> 00:10:59,560 Så det er http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 Og bare for at opdele det en lille smule, hvad det betyder 200 00:11:03,830 --> 00:11:06,115 er, at dette er version to af API. 201 00:11:06,115 --> 00:11:08,490 Der er en version én, som Jeg har ikke tænkt mig at tale om. 202 00:11:08,490 --> 00:11:09,750 Men der er en version én. 203 00:11:09,750 --> 00:11:14,740 >> Og hvis du ringer dette API, får du poster. 204 00:11:14,740 --> 00:11:20,640 Og en del af idéen om en API er en API er en kontrakt. 205 00:11:20,640 --> 00:11:23,440 Det er noget, der er ikke kommer til at ændre sig. 206 00:11:23,440 --> 00:11:24,850 Så for eksempel - 207 00:11:24,850 --> 00:11:27,410 >> Og grunden er, at hvis jeg opbygge en slags system, 208 00:11:27,410 --> 00:11:33,210 skal bruge et bibliotek sky API at vise bøger eller hjælpe folk med at finde 209 00:11:33,210 --> 00:11:36,190 information i unikke måder, det, vi ikke ønsker at ske 210 00:11:36,190 --> 00:11:38,940 er for os at gå ændre, hvordan at API fungerer, og pludselig 211 00:11:38,940 --> 00:11:41,340 alt bryder på slutbrugerens side. 212 00:11:41,340 --> 00:11:46,710 Så en del af, hvis du laver API til rådighed for verden, er det 213 00:11:46,710 --> 00:11:49,396 god praksis at sætte en versionsnummer i det så folk 214 00:11:49,396 --> 00:11:51,020 vide, hvilken version de har at gøre med. 215 00:11:51,020 --> 00:11:54,300 >> Så hvis vi beslutter vi finder en bedre måde at gøre disse oplysninger, 216 00:11:54,300 --> 00:11:57,295 vi måske ændre det til kalder denne version tre. 217 00:11:57,295 --> 00:11:59,920 Så alle, der er stadig bruger udgave to, vil det stadig arbejde. 218 00:11:59,920 --> 00:12:03,490 Men versionen tre ville have alle de nye ting. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Så det er et API, men dette virkelig ligner en URL. 221 00:12:09,210 --> 00:12:11,680 Og så, hvad det er en eksempel på er, hvad der er 222 00:12:11,680 --> 00:12:16,615 kaldes en API resten, som er til rådighed i løbet af blot en almindelig web-forbindelse. 223 00:12:16,615 --> 00:12:19,680 Og du kan faktisk gå til den i en browser. 224 00:12:19,680 --> 00:12:28,550 >> Så her jeg har lige åbnet Firefox og gået til api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 Og så hvad jeg får her er dybest set den første side 226 00:12:31,560 --> 00:12:34,740 af resultater fra hele sæt af elementer, som vi har. 227 00:12:34,740 --> 00:12:37,460 Og det er her i XML-format. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 Og det har også været prettified af Firefox. 230 00:12:42,210 --> 00:12:45,850 Det behøver faktisk ikke have alle disse lille ekspanderende og kontraherende 231 00:12:45,850 --> 00:12:47,880 doohickeys her. 232 00:12:47,880 --> 00:12:52,520 Det er sortering af en pænere udgave måde at se på det. 233 00:12:52,520 --> 00:12:57,040 >> Men hvad dette fortæller os er Jeg har anmodet alle elementerne. 234 00:12:57,040 --> 00:13:03,120 Så der er 13.289.475 poster. 235 00:13:03,120 --> 00:13:06,150 Og jeg ser på det første 10, begyndende ved position nul 236 00:13:06,150 --> 00:13:09,760 fordi i datalogi Vi starter altid ved nul. 237 00:13:09,760 --> 00:13:15,150 Og hvad jeg har her, hvis jeg bare bryde sammen dette, vil du se, at jeg har fået 10 poster. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> Og hvis jeg tager et kig på et emne, kan jeg se, at jeg har fået oplysninger om det. 240 00:13:25,210 --> 00:13:27,400 Og det er i, hvad der kaldes MODS form. 241 00:13:27,400 --> 00:13:30,860 Og så jeg har tænkt mig at skifte tilbage her for et øjeblik. 242 00:13:30,860 --> 00:13:33,750 OK. 243 00:13:33,750 --> 00:13:37,447 >> Så lad os søge efter noget i specifik, fordi det første element, 244 00:13:37,447 --> 00:13:40,030 sker for at komme op, når du ser gennem hele samlingen 245 00:13:40,030 --> 00:13:41,750 er per definition tilfældigt. 246 00:13:41,750 --> 00:13:44,550 Så lad os kigge efter nogle donuts. 247 00:13:44,550 --> 00:13:46,830 Oh. 248 00:13:46,830 --> 00:13:49,190 >> OK. 249 00:13:49,190 --> 00:13:49,940 Så donuts. 250 00:13:49,940 --> 00:13:55,360 Så vi fandt der er 80 poster i samlingen, der refererer donuts. 251 00:13:55,360 --> 00:13:57,150 Vi ser på de første 10 af dem. 252 00:13:57,150 --> 00:14:01,890 Nu kan du se her den måde, at Jeg sagde jeg leder efter donuts, 253 00:14:01,890 --> 00:14:04,400 Jeg har lige tilføjet noget til søgestrengen af ​​URL'en. 254 00:14:04,400 --> 00:14:09,680 Så q lig donuts, som du kan se lidt lettere her. 255 00:14:09,680 --> 00:14:12,131 >> Og det dybest set betyder, at der er en spec for API, som 256 00:14:12,131 --> 00:14:13,880 definerer, hvad alle disse parametre betyder. 257 00:14:13,880 --> 00:14:17,150 Og det betyder, at vi kommer til at søge alt til donuts. 258 00:14:17,150 --> 00:14:24,910 >> Så det første punkt her har vi du kan se titlen er Donuts, 259 00:14:24,910 --> 00:14:29,310 og der er en undertekst kaldet An American Passion, som er, tror jeg, 260 00:14:29,310 --> 00:14:31,610 hensigtsmæssigt. 261 00:14:31,610 --> 00:14:36,134 Der er en masse different-- 262 00:14:36,134 --> 00:14:38,050 Når du kommer til det punkt for at få de data, 263 00:14:38,050 --> 00:14:41,020 Der er en masse forskellige formater, som du kan få det ind. 264 00:14:41,020 --> 00:14:44,050 Og der er forskellige styrker og svagheder for dem alle. 265 00:14:44,050 --> 00:14:49,000 Så denne ene, kan du se her er denne form er meget rig. 266 00:14:49,000 --> 00:14:51,946 Og det er standardiseret. 267 00:14:51,946 --> 00:14:55,040 >> Så der er et særligt afsnit område, en undertitel felt. 268 00:14:55,040 --> 00:14:58,950 Der er en alternativ titel, An American Passion. 269 00:14:58,950 --> 00:15:01,650 Der er navnet forbundet med det. 270 00:15:01,650 --> 00:15:03,120 Type af ressourcen er tekst. 271 00:15:03,120 --> 00:15:06,070 Der er en masse information her i dette format. 272 00:15:06,070 --> 00:15:09,480 >> Men der er en flok forskellige formater. 273 00:15:09,480 --> 00:15:11,920 Så det, vi var blot ser på et format 274 00:15:11,920 --> 00:15:17,700 kaldet MODS, som står for Metadataobjekt Beskrivelse Tjeneste, 275 00:15:17,700 --> 00:15:18,250 potentielt. 276 00:15:18,250 --> 00:15:23,030 Jeg er faktisk ikke helt sikker på om den S. Men det er en temmelig kompliceret format. 277 00:15:23,030 --> 00:15:24,240 Det er standardformatet. 278 00:15:24,240 --> 00:15:30,260 >> Men det er den, der holder den rigdom af alle de data 279 00:15:30,260 --> 00:15:33,820 at biblioteket har, fordi det er meget tæt på, hvad 280 00:15:33,820 --> 00:15:35,110 Biblioteket anvender internt. 281 00:15:35,110 --> 00:15:39,030 Det er en standard, der er bruges i hele landet, 282 00:15:39,030 --> 00:15:40,944 hele verden i akademiske biblioteker. 283 00:15:40,944 --> 00:15:42,110 Og det er meget interoperable. 284 00:15:42,110 --> 00:15:44,852 Så hvis du har fået et dokument der er i MODS format, 285 00:15:44,852 --> 00:15:47,560 du kan give det til en anden hvis systemer forstår MODS, 286 00:15:47,560 --> 00:15:48,518 og de kan importere den. 287 00:15:48,518 --> 00:15:50,840 Så det er en standard. 288 00:15:50,840 --> 00:15:54,250 Det er meget godt defineret, meget specifikke. 289 00:15:54,250 --> 00:15:58,980 Og det er det, der gør det interoperable fordi hvis nogen siger, 290 00:15:58,980 --> 00:16:04,930 dette er den alternative titlen på en rekord, alle ved, hvad det betyder. 291 00:16:04,930 --> 00:16:07,740 I flip side, det er meget kompliceret. 292 00:16:07,740 --> 00:16:13,160 >> Så hvis du tager et kig på denne post her, 293 00:16:13,160 --> 00:16:15,320 hvis jeg ønsker bare at få den titel af dette dokument, 294 00:16:15,320 --> 00:16:21,150 af denne bog, som er sandsynligvis Donuts, En amerikansk Passion, parsing det ud 295 00:16:21,150 --> 00:16:22,940 er lidt involveret. 296 00:16:22,940 --> 00:16:27,380 Betragtninger der er en anden format kaldet Dublin Core, 297 00:16:27,380 --> 00:16:29,730 som er et meget, meget enklere format. 298 00:16:29,730 --> 00:16:33,764 >> Og så du ser her, er der ingen titel, undertitel, alternativ titel. 299 00:16:33,764 --> 00:16:35,930 Der er bare titlen, Donuts, An American Passion, 300 00:16:35,930 --> 00:16:38,780 og en anden titel, amerikansk Passion. 301 00:16:38,780 --> 00:16:42,907 Så når du kigger på hvilken form du ønsker at få data ud af, 302 00:16:42,907 --> 00:16:44,740 meget afhænger af, hvor du kommer til at bruge det. 303 00:16:44,740 --> 00:16:46,573 Bruger du for interoperabilitet eller har du 304 00:16:46,573 --> 00:16:49,970 ønsker noget simpelt, at kan være lettere at arbejde med? 305 00:16:49,970 --> 00:16:56,002 >> På bagsiden, en masse af de detaljer får slags squished ned. 306 00:16:56,002 --> 00:16:58,460 Du kan miste nuancerne i hvad et bestemt felt middel 307 00:16:58,460 --> 00:17:02,960 hvis du har at gøre med Dublin Core, som du ikke ville få med MODS. 308 00:17:02,960 --> 00:17:06,462 Så dem er to af de formater du kan få ud af API. 309 00:17:06,462 --> 00:17:08,920 Og dybest set, holder vi det bag kulisserne i MODS. 310 00:17:08,920 --> 00:17:14,179 Men vi kan give dig det i MODS og Dublin Core og alt andet også. 311 00:17:14,179 --> 00:17:16,470 Den anden overvejelse, når du søger i data 312 00:17:16,470 --> 00:17:21,210 er du kan få det som enten JSON, som står for JavaScript Object Notation, 313 00:17:21,210 --> 00:17:24,720 eller XML, som står for Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 Og disse data repræsentationer både har præcis de samme data, præcis 315 00:17:30,080 --> 00:17:31,080 på samme område. 316 00:17:31,080 --> 00:17:33,644 Men de er bare syntaktisk anderledes. 317 00:17:33,644 --> 00:17:40,401 >> Så dette er en-- 318 00:17:40,401 --> 00:17:41,400 Nå, lad os bare skifte. 319 00:17:41,400 --> 00:17:47,490 Så det er vores forespørgsel til donuts i XML-format. 320 00:17:47,490 --> 00:17:53,470 Hvis jeg bare skifte dette er JSON, Jeg kan se det ser anderledes ud. 321 00:17:53,470 --> 00:17:58,580 Så nu er det det samme indhold, men en anden struktur. 322 00:17:58,580 --> 00:18:00,080 Der er færre vinkelbeslag. 323 00:18:00,080 --> 00:18:02,530 Der er mindre detaljeret. 324 00:18:02,530 --> 00:18:06,440 >> Og det er et format, hvis du arbejder i web miljø, 325 00:18:06,440 --> 00:18:09,680 du er mest sandsynligt vil at ville bruge, fordi en 326 00:18:09,680 --> 00:18:12,630 af de gode ting om JSON er det er kompatibelt med JavaScript. 327 00:18:12,630 --> 00:18:17,680 Så hvis jeg skriver web-app, kan jeg trække i JSON og bare arbejde med det direkte. 328 00:18:17,680 --> 00:18:20,187 Betragtninger med XML, er det en lidt mere kompliceret. 329 00:18:20,187 --> 00:18:21,520 Så igen, det er både nyttigt. 330 00:18:21,520 --> 00:18:26,387 De bare er forskellige use cases hvor folk måske ønsker at bruge dem. 331 00:18:26,387 --> 00:18:26,886 OK. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Så tilbage til API. 334 00:18:31,680 --> 00:18:32,900 Så vi kan søge for-- 335 00:18:32,900 --> 00:18:36,220 >> Jeg giver et eksempel på søge efter donuts. 336 00:18:36,220 --> 00:18:39,330 Vi kan også søge bare i en bestemt felt indenfor her. 337 00:18:39,330 --> 00:18:41,310 Så i stedet for at søge hele posten, 338 00:18:41,310 --> 00:18:43,870 Jeg kan bare søge titelfeltet. 339 00:18:43,870 --> 00:18:48,810 Og så nu er der 25 ting, har donuts i titlen, hvoraf den ene 340 00:18:48,810 --> 00:18:52,430 handler om at genoprette vådområder i ledelse 341 00:18:52,430 --> 00:18:54,990 af hullet i donut program, hvilket sandsynligvis 342 00:18:54,990 --> 00:18:58,970 ikke nødvendigvis det, vi leder efter for når vi søger efter donuts. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> Du kan også, når du er beskæftiger sig med en API-- 345 00:19:05,490 --> 00:19:08,827 >> Del af at have en API giver mennesker adgang til store datasæt. 346 00:19:08,827 --> 00:19:11,410 Og der er et par forskellige værktøjer, du kan bruge til at gøre det. 347 00:19:11,410 --> 00:19:14,170 Den ene er, ganske enkelt, du kan bladre gennem data. 348 00:19:14,170 --> 00:19:17,340 Så lige som hvis du gør en forespørgsel via en web-grænseflade, 349 00:19:17,340 --> 00:19:19,470 du kan se på side et, side to, side tre. 350 00:19:19,470 --> 00:19:22,040 Du kan gøre det samme ting gennem API. 351 00:19:22,040 --> 00:19:24,150 Du skal blot være eksplicit i hvordan du gør det. 352 00:19:24,150 --> 00:19:29,511 >> Altså for eksempel, hvis jeg søger på min første forespørgsel her, 353 00:19:29,511 --> 00:19:32,510 hvor jeg gør en søgning efter ting med donuts i titlen, kan jeg sige, 354 00:19:32,510 --> 00:19:35,415 og grænsen er lig med 20, hvilket betyder, give mig de første 20 poster, ikke 355 00:19:35,415 --> 00:19:38,540 de første 10, som er standard, fordi jeg ønsker at se på 20 ad gangen. 356 00:19:38,540 --> 00:19:43,435 Eller jeg kan sige, indstille starte lig med 20 og grænsen 357 00:19:43,435 --> 00:19:47,150 svarer til 20, hvilket vil give mig registrerer 21 gennem 40. 358 00:19:47,150 --> 00:19:52,680 >> Så jeg gætte ting at tage væk her er 359 00:19:52,680 --> 00:19:57,290 at vi bruger de søgestrenge at indstille parametre på forespørgslen. 360 00:19:57,290 --> 00:20:02,760 Og det kan du kontrol hvad du får tilbage. 361 00:20:02,760 --> 00:20:05,980 >> Et andet værktøj, du kan bruge, - 362 00:20:05,980 --> 00:20:09,250 >> Og det er virkelig nyttige i Betingelser for at udforske data. 363 00:20:09,250 --> 00:20:10,840 >> --is noget, der hedder facettering. 364 00:20:10,840 --> 00:20:15,530 Så termen facettering er ikke nødvendigvis fælles. 365 00:20:15,530 --> 00:20:16,880 Men du har alle set det før. 366 00:20:16,880 --> 00:20:18,630 Hvis du tager et kig på Amazon, for eksempel, 367 00:20:18,630 --> 00:20:20,870 og du gør en søgning efter donuts i bøgerne, 368 00:20:20,870 --> 00:20:27,080 her har de fået en serie af bøger, og de er grupperet efter kategori, 369 00:20:27,080 --> 00:20:30,470 og du får de forskellige kategorier, og hvor mange bøger i hver kategori 370 00:20:30,470 --> 00:20:31,330 dukke op. 371 00:20:31,330 --> 00:20:33,420 >> Så dette er dybest set en facet. 372 00:20:33,420 --> 00:20:37,570 Du tager alle deres bøger, de 1.800 bøger, der matcher donuts på Amazon. 373 00:20:37,570 --> 00:20:39,820 12 af dem er i Morgenmad kategori. 374 00:20:39,820 --> 00:20:43,100 21 i wienerbrød og bagning, og så videre og så videre. 375 00:20:43,100 --> 00:20:47,670 >> Så dette er virkelig en nyttig redskab til at udforske indholdet 376 00:20:47,670 --> 00:20:53,260 i bibliotek samt fordi når man ser på en facet, 377 00:20:53,260 --> 00:20:56,520 det giver dig en idé om, hvilke fag eksisterer, lige hvad slags emner 378 00:20:56,520 --> 00:20:58,510 er mest populære i din forespørgsel sæt. 379 00:20:58,510 --> 00:21:00,950 Og det hjælper du kører ud og udforske. 380 00:21:00,950 --> 00:21:02,770 Så vi kan gøre det samme. 381 00:21:02,770 --> 00:21:05,940 >> Hvis vi ønsker at bruge API og se på facetter, 382 00:21:05,940 --> 00:21:08,950 vi tilføjer en anden parameter til vores ven søgestrengen. 383 00:21:08,950 --> 00:21:12,540 Så facetter svarer til en kommasepareret liste over, hvad vi ønsker at facet på. 384 00:21:12,540 --> 00:21:14,790 Så en af ​​de facetter kan være genstand. 385 00:21:14,790 --> 00:21:16,565 En anden kunne være sprog. 386 00:21:16,565 --> 00:21:19,665 Og så hvis vi kører den forespørgsel, vi get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Det ser stort set den samme her. 389 00:21:24,830 --> 00:21:29,010 Men vi har tilføjet til slutningen af listen et sæt af facetter. 390 00:21:29,010 --> 00:21:34,060 Så vi har en facet kaldet emne. 391 00:21:34,060 --> 00:21:40,250 Så dette er at fortælle os, at hvis jeg ser på mine 80 resultater fra doughnut forespørgslen, 392 00:21:40,250 --> 00:21:42,100 13 af dem har underlægge USA. 393 00:21:42,100 --> 00:21:43,684 Tre har omfattet donuts. 394 00:21:43,684 --> 00:21:45,600 Tre har emnet af vådområder restaurering, 395 00:21:45,600 --> 00:21:47,720 som kan være vores hul i doughnut. 396 00:21:47,720 --> 00:21:51,780 To af dem, The Simpsons, og så videre og så videre. 397 00:21:51,780 --> 00:21:59,211 >> Så det kan være nyttigt, hvis du ønsker at indsnævre din søgning. 398 00:21:59,211 --> 00:22:00,210 Det kan hjælpe dig gøre det. 399 00:22:00,210 --> 00:22:03,580 Især hvis du har mere end, siger, 80 resultater. 400 00:22:03,580 --> 00:22:05,980 >> Ligeledes har vi også spurgt for facetter på sproget. 401 00:22:05,980 --> 00:22:14,790 Så hvis vi ser på vores resultater, ser vi 76 af dem er på engelsk, fire på fransk, 402 00:22:14,790 --> 00:22:19,620 to i spansk, to, tror jeg, det er undefined eller ukendt, hollandsk og latin. 403 00:22:19,620 --> 00:22:22,830 Så jeg tror, ​​det latinske donut resultat igen, 404 00:22:22,830 --> 00:22:24,922 har intet at gøre med bagværk. 405 00:22:24,922 --> 00:22:25,630 Men der du går. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Så dette er slags viser dig hvordan du kan trække indholdet tilbage 408 00:22:38,630 --> 00:22:41,270 fra API blot gennem webbrowser, som er stort. 409 00:22:41,270 --> 00:22:44,320 Men det er ikke rigtig, hvad du ville normalt være brug i API for det. 410 00:22:44,320 --> 00:22:48,710 Så et eksempel på, hvordan man kunne faktisk gøre dette er, jeg har 411 00:22:48,710 --> 00:22:54,720 skrevet en super lille program, som igen gør min donut søgning 412 00:22:54,720 --> 00:22:59,010 og vælger et par felter og viser dem i en tabel. 413 00:22:59,010 --> 00:23:01,610 Så dette er meget det samme indhold, som vi bare 414 00:23:01,610 --> 00:23:04,830 sav med et par felter trukket ud. 415 00:23:04,830 --> 00:23:12,090 Så listen over titler, de Placeringen af, hvad bogen 416 00:23:12,090 --> 00:23:15,120 handler om, sproget, og så videre og så videre. 417 00:23:15,120 --> 00:23:20,480 >> Så hvordan det faktisk skete, da Jeg tror vi er nødt til at se på nogle kode, 418 00:23:20,480 --> 00:23:22,420 is-- 419 00:23:22,420 --> 00:23:28,060 >> Hvad vi har her er en simpel HTML side, som viser teksten, 420 00:23:28,060 --> 00:23:32,900 velkommen til biblioteket sky og viser derefter en oversigt af resultaterne. 421 00:23:32,900 --> 00:23:37,790 Og der er naturligvis ingen resultater i bordet, når siden indlæses. 422 00:23:37,790 --> 00:23:41,380 Men hvad vi laver er først og fremmest, vi 423 00:23:41,380 --> 00:23:46,290 lægger et bibliotek kaldet jQuery, der egentlig 424 00:23:46,290 --> 00:23:52,030 et JavaScript bibliotek, som gør det meget let at manipulere JavaScript 425 00:23:52,030 --> 00:23:58,780 indbygget, HTML og oprette websider, client-side logik og websider. 426 00:23:58,780 --> 00:24:01,595 >> Så det, vi har her, er jQuery har en metode kaldet Get, 427 00:24:01,595 --> 00:24:05,270 som i det væsentlige vil gå til en URL, som i dette tilfælde, 428 00:24:05,270 --> 00:24:09,070 er dette velkendte leder webadresse. 429 00:24:09,070 --> 00:24:14,440 Og vil så få indholdet fra at URL og derefter køre en funktion på den. 430 00:24:14,440 --> 00:24:19,240 Så vi sagde gå til api.lib.harvard / edu. 431 00:24:19,240 --> 00:24:20,060 Søg efter donuts. 432 00:24:20,060 --> 00:24:21,300 Giv os 20 poster. 433 00:24:21,300 --> 00:24:28,590 Og derefter køre denne funktion, som Jeg har valgt, passerer det dataene. 434 00:24:28,590 --> 00:24:34,430 Og data er den JSON som fik tilbage fra API. 435 00:24:34,430 --> 00:24:40,120 >> Og så er vi sige, inden for denne data der er et felt kaldet element. 436 00:24:40,120 --> 00:24:48,117 Og hvis jeg gå tage et kig tilbage på en af ​​disse resultater, at der er her, 437 00:24:48,117 --> 00:24:49,200 der er noget called-- 438 00:24:49,200 --> 00:24:50,220 >> Tja, det hedder element. 439 00:24:50,220 --> 00:24:53,520 Så det kan være det. 440 00:24:53,520 --> 00:25:01,840 Og hvad det gør, er det går gennem hvert element 441 00:25:01,840 --> 00:25:05,300 og opfordrer derefter en anden funktionen på hvert punkt. 442 00:25:05,300 --> 00:25:08,440 Og denne funktion dybest set tager værdien 443 00:25:08,440 --> 00:25:12,010 af elementet, som er væsentlige de enkelte record 444 00:25:12,010 --> 00:25:18,220 og giver os mulighed for at trække sig ud af titlen, dækningen og sproget. 445 00:25:18,220 --> 00:25:21,640 >> Så vi kalder en funktion på hver element, vi fik tilbage fra API. 446 00:25:21,640 --> 00:25:25,397 Og hvis du bare tage et kig på dette stykke lige her, 447 00:25:25,397 --> 00:25:27,230 hvad vi laver, er Vi skaber en snor, 448 00:25:27,230 --> 00:25:31,810 som i det væsentlige nogle HTML markup omkring et bord, med value.title, 449 00:25:31,810 --> 00:25:35,790 som er titlen på objekt, value.coverage, 450 00:25:35,790 --> 00:25:36,790 som er dækning - 451 00:25:36,790 --> 00:25:38,225 >> Og vi laver en check her for at se, hvem der er udefineret 452 00:25:38,225 --> 00:25:40,570 og skjule det, hvis det siger udefineret, fordi vi er ikke rigtig interesseret 453 00:25:40,570 --> 00:25:41,600 i det. 454 00:25:41,600 --> 00:25:42,939 >> DET-- derefter sproget. 455 00:25:42,939 --> 00:25:44,730 Og hvad så vi er gør, er at tilføje, at 456 00:25:44,730 --> 00:25:48,510 til bordet, der er identificeret ved denne streng her. 457 00:25:48,510 --> 00:25:50,790 Og hvordan jQuery fungerer er, hvad denne siger 458 00:25:50,790 --> 00:25:56,420 er se efter tabellen med idéen resultater og tilføje denne tekst til det. 459 00:25:56,420 --> 00:25:59,380 Og dette er bordet med idé resultater. 460 00:25:59,380 --> 00:26:04,998 Så hvad du ender med er denne side her. 461 00:26:04,998 --> 00:26:06,206 Og for at se source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Nå, kilden er faktisk ikke opdateres, når det skete. 464 00:26:13,810 --> 00:26:18,740 Så du kan se de faktiske Resultaterne af tabellen her selv. 465 00:26:18,740 --> 00:26:24,770 >> Så det er bare et simpelt eksempel på gør en meget grundlæggende forespørgsel mod API 466 00:26:24,770 --> 00:26:29,020 og visning af information i en anden dannes, og ikke gør noget også dekorativ. 467 00:26:29,020 --> 00:26:36,370 Nu, et andet eksempel er som en ansøgning skrevet af David Weinberger 468 00:26:36,370 --> 00:26:39,120 som en demo af dette, som væsentlige viser dig 469 00:26:39,120 --> 00:26:44,620 hvordan du kan mash op de resultater, du komme fra biblioteket sky API 470 00:26:44,620 --> 00:26:46,250 med, siger, Google Bøger. 471 00:26:46,250 --> 00:26:52,225 >> Og tankegangen er, at jeg kan kører en forespørgsel mod Google Bøger, 472 00:26:52,225 --> 00:26:56,060 få en fuldtekstsøgning, få nogle resultater tilbage, finde ud af, hvilke af disse elementer 473 00:26:56,060 --> 00:27:01,180 faktisk eksisterer i Hollis, bibliotekssystemet, 474 00:27:01,180 --> 00:27:03,200 og derefter give mig links tilbage til disse poster. 475 00:27:03,200 --> 00:27:12,730 Så hvis jeg søger efter, det var en mørk og stormfuld nat, jeg 476 00:27:12,730 --> 00:27:16,210 komme tilbage en masse resultater fra Google, og derefter ét resultat 477 00:27:16,210 --> 00:27:19,460 som er en rynke i tide. 478 00:27:19,460 --> 00:27:29,330 Og disse er links til bøger, der findes inden Harvard Library system. 479 00:27:29,330 --> 00:27:32,160 >> Så jeg gætte det punkt her er ikke så meget, at dette kan eller ikke 480 00:27:32,160 --> 00:27:34,118 være den måde, du vil at søge i biblioteket, 481 00:27:34,118 --> 00:27:38,310 men det er en helt anden måde, der ikke var til rådighed for dig 482 00:27:38,310 --> 00:27:42,884 før, ligesom du havde ingen måde at gøre fuldtekst søger på bøger, der selv 483 00:27:42,884 --> 00:27:44,550 var en del af Harvard Library system. 484 00:27:44,550 --> 00:27:46,870 Så nu er det en måde at du kan gøre det. 485 00:27:46,870 --> 00:27:51,930 Og du kan få dem vist i uanset format, du ønsker. 486 00:27:51,930 --> 00:27:55,990 Så pointen her er, dybest set, vi åbner nye veje for mennesker 487 00:27:55,990 --> 00:27:59,080 at arbejde med dataene. 488 00:27:59,080 --> 00:28:07,925 >> Et andet stykke af biblioteket cloud er, at det hjælper afsløre nogle af dataforbrug 489 00:28:07,925 --> 00:28:08,800 at biblioteket har. 490 00:28:08,800 --> 00:28:12,630 Så hvis du gå på biblioteket, og du leder efter bøger, 491 00:28:12,630 --> 00:28:15,770 Du behøver ikke nødvendigvis faktisk har en idé om, 492 00:28:15,770 --> 00:28:19,080 for alle elementer i en bestemt emne, hvad 493 00:28:19,080 --> 00:28:21,200 er folk i samfund, uanset om det er 494 00:28:21,200 --> 00:28:24,890 defineret som Harvard eller land eller din klasse, 495 00:28:24,890 --> 00:28:26,421 hvad har de fundet mest nyttige? 496 00:28:26,421 --> 00:28:28,920 Og biblioteket har faktisk en ton af oplysninger om, hvad 497 00:28:28,920 --> 00:28:32,999 er mest nyttigt, fordi hvis en masse af folk tjekker en bog, 498 00:28:32,999 --> 00:28:34,040 der fortæller dig noget. 499 00:28:34,040 --> 00:28:36,498 Der må have været en eller anden grund de ønsker at tjekke det ud. 500 00:28:36,498 --> 00:28:38,270 En masse mennesker sætte det på reserven. 501 00:28:38,270 --> 00:28:42,520 >> Hvis det er på reservelisten for en masse af klasser, der fortæller dig noget. 502 00:28:42,520 --> 00:28:45,960 Hvis videnskabelige medarbejdere kontrollerer det ud en masse og bachelorer er ikke, 503 00:28:45,960 --> 00:28:47,200 der fortæller mig noget. 504 00:28:47,200 --> 00:28:49,280 Vice versa, der også fortæller dig noget. 505 00:28:49,280 --> 00:28:54,680 Så det ville være virkelig interessant at sætte disse oplysninger derude og lad 506 00:28:54,680 --> 00:28:59,969 folk bruger det til at hjælpe dem med at finde arbejder inden for bibliotekssystemet. 507 00:28:59,969 --> 00:29:02,260 Bagsiden af ​​dette er der er nogle alvorlige personlige oplysninger 508 00:29:02,260 --> 00:29:07,854 bekymringer, fordi en af centrale principper i biblioteket 509 00:29:07,854 --> 00:29:10,770 er vi ikke kommer til at fortælle folk, hvad andre mennesker læser. 510 00:29:10,770 --> 00:29:17,360 Og selvom du siger det bog blev tjekket ud fire gange 511 00:29:17,360 --> 00:29:20,070 i en bestemt måned, der kan anvendes 512 00:29:20,070 --> 00:29:25,252 at linke tilbage til en bestemt person ved de-anonymiserings- data 513 00:29:25,252 --> 00:29:26,710 og finde ud af, hvem tjekket det ud. 514 00:29:26,710 --> 00:29:30,792 Så den måde, vi kan avoid-- 515 00:29:30,792 --> 00:29:33,750 Den måde, at vi kan forsøge at udtrække nogle signal fra alle de oplysninger 516 00:29:33,750 --> 00:29:36,740 uden at krænke nogens privatlivets fred 517 00:29:36,740 --> 00:29:42,150 er i det væsentlige vi ser på 10 års brugsdata, - 518 00:29:42,150 --> 00:29:43,930 >> Så det er over en lang periode. 519 00:29:43,930 --> 00:29:50,639 >> DET-- sige, OK, lad os se, hvordan mange gange dette arbejde blev anvendt, 520 00:29:50,639 --> 00:29:52,930 og af hvem i dette tidsrum af tid, og derefter dybest set 521 00:29:52,930 --> 00:29:56,300 give tilbage et nummer, som vi kalder en stak score, som dybest set 522 00:29:56,300 --> 00:29:59,910 angiver, hvor meget det er blevet brugt. 523 00:29:59,910 --> 00:30:01,084 Og det number-- 524 00:30:01,084 --> 00:30:03,250 En masse forskellige beregninger gå i dette nummer. 525 00:30:03,250 --> 00:30:05,150 --but det er en meget grov metrisk, der giver dig 526 00:30:05,150 --> 00:30:11,300 en idé om, hvordan den samfund kan værdsætte dette arbejde. 527 00:30:11,300 --> 00:30:16,772 >> Og så en anden slags selv mere konkretiseret ansøgning 528 00:30:16,772 --> 00:30:18,480 der drager fordel dette er noget 529 00:30:18,480 --> 00:30:24,000 kaldet Stacklife, som faktisk er tilgængelig gennem den vigtigste Harvard 530 00:30:24,000 --> 00:30:24,880 Bibliotek portal. 531 00:30:24,880 --> 00:30:26,700 Så du går til library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Du vil se en række forskellige måder at søge i biblioteket. 533 00:30:29,360 --> 00:30:32,300 Og en af ​​dem kaldes Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> Og det er et program, gennemser indholdet af biblioteket, 535 00:30:38,980 --> 00:30:43,490 men er helt bygget oven på disse API. 536 00:30:43,490 --> 00:30:46,910 Så der er ingen særlige ting foregår bag kulisserne. 537 00:30:46,910 --> 00:30:49,570 Der er ingen adgang til data, som du ikke har. 538 00:30:49,570 --> 00:30:54,090 Det er ved hjælp af API'er til at give dig med en helt anden browsing 539 00:30:54,090 --> 00:30:55,480 oplevelse. 540 00:30:55,480 --> 00:30:58,570 >> Så hvis jeg søger efter Alice i Eventyrland i denne sag, 541 00:30:58,570 --> 00:31:02,600 Jeg får et resultat, der ligner dette, som er temmelig much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> Det er meget lig en anden søgning du kan gøre, undtagen i dette tilfælde 544 00:31:10,870 --> 00:31:15,730 vi rangordne de elementer ved stackscore, som giver dig 545 00:31:15,730 --> 00:31:19,850 en idé om, hvor populære disse elementer var i samfundet. 546 00:31:19,850 --> 00:31:25,610 Og så klart, Alice i Eventyrland af Walt Disney er meget populære. 547 00:31:25,610 --> 00:31:36,570 Men du kan også se top fire Her er dem, du måske ikke actually-- 548 00:31:36,570 --> 00:31:39,220 >> Ting, der er meget anvendt, men du kan ikke umiddelbart 549 00:31:39,220 --> 00:31:41,240 forbinde med Alice i Eventyrland. 550 00:31:41,240 --> 00:31:44,650 Så vores gamle ven Kommenterede Alice er her. 551 00:31:44,650 --> 00:31:46,350 Så jeg kan tage et kig på det. 552 00:31:46,350 --> 00:31:52,010 Og nu hvad jeg søger på, er dybest set en indstillet of-- 553 00:31:52,010 --> 00:31:53,760 Jeg kan have den kommenterede Alice lige her. 554 00:31:53,760 --> 00:31:56,700 Jeg har oplysninger om det. 555 00:31:56,700 --> 00:32:00,230 Og jeg har også en stackscore af, i dette tilfælde 26. 556 00:32:00,230 --> 00:32:03,169 Og det fortæller mig slags groft hvordan vi kom til denne stackscore, 557 00:32:03,169 --> 00:32:05,835 ligesom der indskrev den ud, ligesom hvordan mange gange det blev tjekket ud, 558 00:32:05,835 --> 00:32:08,440 ligesom fakultet eller undergrads, hvordan mange kopier har biblioteket, 559 00:32:08,440 --> 00:32:11,300 og så videre og så videre. 560 00:32:11,300 --> 00:32:16,460 >> Og du kan også, interessant nok her, gennemse stakkene virtuelt. 561 00:32:16,460 --> 00:32:19,550 Så de data, her, det viser dig sortere 562 00:32:19,550 --> 00:32:23,547 af en virtuel repræsentation hvad hylden might 563 00:32:23,547 --> 00:32:25,880 se ud, hvis du skulle tage alle bibliotekets beholdning 564 00:32:25,880 --> 00:32:28,940 og sætte dem sammen på en uendelig hylde. 565 00:32:28,940 --> 00:32:30,990 Og det gode er, at vi can-- 566 00:32:30,990 --> 00:32:33,380 >> Først og fremmest metadata om disse bøger 567 00:32:33,380 --> 00:32:35,627 ofte fortæller dig, når den blev offentliggjort. 568 00:32:35,627 --> 00:32:37,085 Det fortæller dig, hvor mange sider den har. 569 00:32:37,085 --> 00:32:38,459 Det kan fortælle dig dimensionerne. 570 00:32:38,459 --> 00:32:42,930 Så du kan se, der er afspejlet her i form af størrelsen af ​​bøgerne. 571 00:32:42,930 --> 00:32:46,740 >> Og så kan vi bruge stable score for at fremhæve 572 00:32:46,740 --> 00:32:49,170 bøgerne, der har højere stak scoringer. 573 00:32:49,170 --> 00:32:54,930 Så hvis det er mørkere, betyder det, at formentlig er det anvendes oftere. 574 00:32:54,930 --> 00:32:57,040 Så i dette tilfælde, er jeg vil gætte på, at dette 575 00:32:57,040 --> 00:33:03,226 er den version af Alice i Eventyrland der er meget almindeligt anvendte og mest 576 00:33:03,226 --> 00:33:05,100 adgang, biblioteket har flest kopier af. 577 00:33:05,100 --> 00:33:06,975 Så hvis du søger til Alice i Eventyrland, 578 00:33:06,975 --> 00:33:10,220 dette kan være et godt sted at starte. 579 00:33:10,220 --> 00:33:13,500 >> Og så her kan du også linke ud til, siger, at Amazon købe bogen, 580 00:33:13,500 --> 00:33:15,182 og så videre og så videre. 581 00:33:15,182 --> 00:33:17,140 Pointen her, igen, er ikke så meget, at denne 582 00:33:17,140 --> 00:33:25,030 er den bedste måde at gennemse biblioteket eller det rigtige værktøj til enhver lejlighed. 583 00:33:25,030 --> 00:33:28,400 Men det er en anden måde at gøre det. 584 00:33:28,400 --> 00:33:31,359 Og ved at gøre data tilgængelige via et API, som 585 00:33:31,359 --> 00:33:34,650 er lavet af meget simple byggeblokke, som giver dig mulighed for at søge i indholdet, 586 00:33:34,650 --> 00:33:39,420 du kan bygge noget som denne, der kan 587 00:33:39,420 --> 00:33:41,520 være overordentligt værdifuld for nogle mennesker. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Så det er lidt, så meget som jeg ønsker at sige virkelig om, hvad API er 590 00:33:51,860 --> 00:33:56,070 og hvad det udsætter, er der en hel masse ting bag kulisserne, som 591 00:33:56,070 --> 00:33:59,480 Jeg skal bare komme ind på kort bare fordi det slags kommer på denne 592 00:33:59,480 --> 00:34:03,720 fra en helt anden vinkel i forhold til, hvordan gør noget som dette 593 00:34:03,720 --> 00:34:04,580 få sat på plads? 594 00:34:04,580 --> 00:34:10,820 >> Så en API er en standard interface til alt dette indhold. 595 00:34:10,820 --> 00:34:13,820 Men for at få det der, første, vi havde at gøre 596 00:34:13,820 --> 00:34:17,260 blev samle information af bøger og billeder 597 00:34:17,260 --> 00:34:21,580 og konstateringen hjælpemidler, indsamling dokument fra forskellige Harvard-systemer. 598 00:34:21,580 --> 00:34:23,929 Aleph, VIA, og OASIS er navnene på de systemer. 599 00:34:23,929 --> 00:34:28,820 Og de væsentlige går ind i en rørledning, en behandling rørledning. 600 00:34:28,820 --> 00:34:33,230 >> Så først og fremmest får vi eksport filer fra alle disse systemer. 601 00:34:33,230 --> 00:34:35,130 Vi delt dem op i individuelle elementer. 602 00:34:35,130 --> 00:34:39,360 Så vi har en fil, som er en gigabyte, som har en million poster i det. 603 00:34:39,360 --> 00:34:42,290 Så vi delt det op i individuelle elementer. 604 00:34:42,290 --> 00:34:45,374 Så for hver enkelt post, konverterer vi det i MODS, fordi nogle af disse 605 00:34:45,374 --> 00:34:47,040 er indbygget MODS, nogle af dem er ikke. 606 00:34:47,040 --> 00:34:49,204 Så vi får dem alle til være i samme format. 607 00:34:49,204 --> 00:34:51,120 Så er der forskellige berigelse trin, hvor 608 00:34:51,120 --> 00:34:55,969 vi tilføje flere oplysninger til data end var tilgængelige i biblioteket. 609 00:34:55,969 --> 00:34:59,750 Så vi nødt til at tilføje, først og fremmest vi har hvad biblioteker holde den. 610 00:34:59,750 --> 00:35:02,250 Vi går gennem et trin til beregning af stackscore. 611 00:35:02,250 --> 00:35:07,112 Vi går igennem endnu et skridt på tilføje flere metadata i form 612 00:35:07,112 --> 00:35:10,730 af, hvad kollektioner mennesker kunne have tilføjet denne-- 613 00:35:10,730 --> 00:35:12,532 >> Folk er ved at skabe samlinger af genstande. 614 00:35:12,532 --> 00:35:13,990 Hvilke samlinger betyder det tilhører? 615 00:35:13,990 --> 00:35:17,220 Hvordan har folk tagget dette indhold i fortiden? 616 00:35:17,220 --> 00:35:20,750 Så du filtrere, og du begrænse posterne fordi, som jeg nævnte, 617 00:35:20,750 --> 00:35:24,120 Der er nogle poster, som på grund af ophavsretlige årsager, kan vi ikke vise. 618 00:35:24,120 --> 00:35:26,700 Og så skal vi indlæse dem i noget, der hedder 619 00:35:26,700 --> 00:35:31,680 Solr, som ikke er en stavefejl, men er navnet på et stykke software 620 00:35:31,680 --> 00:35:35,710 der gør søgning indeksering, som driver al søgningen bag API. 621 00:35:35,710 --> 00:35:40,110 Og så bliver det til rådighed for API, og folk kan bruge det. 622 00:35:40,110 --> 00:35:44,640 >> Så dette er ligesom en temmelig ligetil proces. 623 00:35:44,640 --> 00:35:47,230 En af de interessante ting om det er 624 00:35:47,230 --> 00:35:50,990 at vi har at gøre med 13 millioner plader 625 00:35:50,990 --> 00:35:53,820 og vi kommer til at beskæftige eller mere. 626 00:35:53,820 --> 00:36:01,260 Og vi ønsker at være i stand til at håndtere disse i en relativt hurtig måde. 627 00:36:01,260 --> 00:36:03,630 Det tager lang tid at behandle 13 millioner plader. 628 00:36:03,630 --> 00:36:09,529 >> Så hvordan denne rørledning er oprettet er, at du can-- 629 00:36:09,529 --> 00:36:12,070 Jeg gætter godt af rørledning, det problem, at vi er 630 00:36:12,070 --> 00:36:15,580 forsøger at løse her, er, at alle de transformationer, alle 631 00:36:15,580 --> 00:36:18,729 disse trin i denne rørledning kan adskilles. 632 00:36:18,729 --> 00:36:19,645 Der er ingen afhængighed. 633 00:36:19,645 --> 00:36:22,146 Hvis du behandler et referat af en bog, 634 00:36:22,146 --> 00:36:24,270 der er ingen afhængighed i at mellem en anden bog. 635 00:36:24,270 --> 00:36:27,760 >> Så det, vi kan gøre, er dybest set, på hvert trin på vej, 636 00:36:27,760 --> 00:36:30,470 vi sætte det ind i en kø i skyen. 637 00:36:30,470 --> 00:36:32,250 Jeg tilfældigvis på Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Så der er en liste over, sige, 10.000 genstande, 639 00:36:35,140 --> 00:36:38,100 nødt til at være normaliseret, og konverteret til MODS format. 640 00:36:38,100 --> 00:36:41,620 Og vi spinde så mange servere som vi ønsker, måske 10 servere. 641 00:36:41,620 --> 00:36:44,860 Og hver af disse servere lige sidder der, ser i den kø, 642 00:36:44,860 --> 00:36:46,730 ser, at der er én, der har brug for at forarbejdes, trækker det køen, 643 00:36:46,730 --> 00:36:48,740 behandler det, og pinde det på den næste kø. 644 00:36:48,740 --> 00:36:54,200 >> Og hvad så, der giver os at gøre, er anvendelse i det væsentlige, 645 00:36:54,200 --> 00:36:58,110 så meget hardware som vi ønsker at dette problem for en meget kort periode 646 00:36:58,110 --> 00:37:02,970 at behandle oplysningerne så hurtigt som muligt, hvilket er noget, som kun 647 00:37:02,970 --> 00:37:08,220 nu i en verden af ​​cloud computing Vi kan bestemmelse servere væsentlige 648 00:37:08,220 --> 00:37:09,890 går, at nyttigt. 649 00:37:09,890 --> 00:37:12,260 Så vi behøver ikke at have en kæmpe server sidder omkring 650 00:37:12,260 --> 00:37:16,700 hele tiden at gøre behandlingen der kan ske bare en gang om ugen. 651 00:37:16,700 --> 00:37:21,440 >> Så det er for det meste. 652 00:37:21,440 --> 00:37:27,590 Der er dokumentation til biblioteket Cloud Item API 653 00:37:27,590 --> 00:37:31,960 på denne webadresse, som vil foreligge senere. 654 00:37:31,960 --> 00:37:36,730 Og venligst gå tage et kig på den for at se om der er noget, 655 00:37:36,730 --> 00:37:37,579 du har nogen ideer. 656 00:37:37,579 --> 00:37:38,120 Spil med det. 657 00:37:38,120 --> 00:37:38,830 Fjolle rundt. 658 00:37:38,830 --> 00:37:42,800 Og forhåbentlig kan komme op med noget stort. 659 00:37:42,800 --> 00:37:44,740 Tak. 660 00:37:44,740 --> 00:37:45,899