1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY LICHT: Hola. 3 00:00:12,370 --> 00:00:13,550 Estic Jeffrey Licht. 4 00:00:13,550 --> 00:00:17,890 I jo sóc aquí per parlar amb vostè sobre la Biblioteca de la Universitat de Harvard i la construcció del matí 5 00:00:17,890 --> 00:00:20,870 biblioteca avui, suposo. 6 00:00:20,870 --> 00:00:23,040 Així el fons aquí, el terreny de joc per aquesta sessió 7 00:00:23,040 --> 00:00:26,930 és essencialment que hi ha una gran quantitat de dades bibliogràfiques 8 00:00:26,930 --> 00:00:28,400 disponibles a les biblioteques de Harvard. 9 00:00:28,400 --> 00:00:33,434 I hi ha una oportunitat, a través d'algunes de les eines 10 00:00:33,434 --> 00:00:36,350 i un projecte que s'està desenvolupant, per accedir a la informació 11 00:00:36,350 --> 00:00:42,430 i portar-la als llocs que la Biblioteca de la Universitat de Harvard no està fent en aquest moment, 12 00:00:42,430 --> 00:00:45,460 fer coses noves amb ell, experiment i jugar una estona amb ell. 13 00:00:45,460 --> 00:00:52,413 >> Així que el punt d'entrada en aquesta és una API anomenada la Harvard Biblioteca Núvol, que 14 00:00:52,413 --> 00:00:57,650 és un servidor de metadades obert, que vaig a parlar ara. 15 00:00:57,650 --> 00:01:02,595 Així que el fons és que hi ha una munt de coses a la biblioteca de la Universitat de Harvard. 16 00:01:02,595 --> 00:01:07,150 Tenim més de 13 milions bibliogràfica registres, milions d'imatges, 17 00:01:07,150 --> 00:01:11,090 i milers d'instruments de descripció, que són essencialment documents que descriuen 18 00:01:11,090 --> 00:01:15,500 col·leccions, dient el hi ha en ells, caixes de papers 19 00:01:15,500 --> 00:01:21,080 etc., que representen més del un milió de documents individuals. 20 00:01:21,080 --> 00:01:24,290 I també hi ha una gran quantitat de informació que la biblioteca té 21 00:01:24,290 --> 00:01:28,180 sobre com s'utilitza el contingut que podria ser d'interès per a les persones 22 00:01:28,180 --> 00:01:32,400 que podria voler treballar amb ell. 23 00:01:32,400 --> 00:01:36,150 >> Així que tota la informació la biblioteca compta amb metadades. 24 00:01:36,150 --> 00:01:39,500 Així que les metadades són dades sobre dades. 25 00:01:39,500 --> 00:01:42,070 Així que quan parlem de la informació que està 26 00:01:42,070 --> 00:01:44,890 disponible a través de la biblioteca núvol que està disponible, 27 00:01:44,890 --> 00:01:47,760 no és necessàriament els documents reals 28 00:01:47,760 --> 00:01:53,060 si mateixos, no necessàriament la plena text dels llibres o les imatges a tot, 29 00:01:53,060 --> 00:01:54,890 però, que en realitat pot ser el cas. 30 00:01:54,890 --> 00:01:57,550 Però en realitat és informació sobre les dades. 31 00:01:57,550 --> 00:02:00,909 >> Així que vostè pot pensar en la catalogació informació, números de trucada, temes, 32 00:02:00,909 --> 00:02:02,700 quantes còpies de la llibre hi ha, el que 33 00:02:02,700 --> 00:02:06,380 són les edicions, quins són els formats, els autors, i així successivament. 34 00:02:06,380 --> 00:02:12,250 Així que hi ha una gran quantitat d'informació sobre la informació de la col·lecció que, 35 00:02:12,250 --> 00:02:14,400 en si mateix, és una espècie de inherentment útil. 36 00:02:14,400 --> 00:02:19,230 I encara que si estàs fent una investigació en profunditat, 37 00:02:19,230 --> 00:02:25,160 és obvi que vol arribar a la real acontentar i mirar les dades, 38 00:02:25,160 --> 00:02:30,140 les metadades és útil en termes de tant l'anàlisi de la corpus en el seu conjunt, 39 00:02:30,140 --> 00:02:33,870 com el que són les coses en la col·lecció. 40 00:02:33,870 --> 00:02:35,520 Com es relacionen? 41 00:02:35,520 --> 00:02:39,482 L'ajuda realment a trobar altres coses, que és realment el propòsit principal de la mateixa. 42 00:02:39,482 --> 00:02:41,190 El punt de la metadades i del catàleg 43 00:02:41,190 --> 00:02:43,230 és ajudar a trobar de tot la informació que està 44 00:02:43,230 --> 00:02:46,590 disponible dins de les col·leccions. 45 00:02:46,590 --> 00:02:53,690 >> Així que aquest és un exemple de metadades d'un llibre a la Biblioteca de la Universitat de Harvard. 46 00:02:53,690 --> 00:02:56,370 Així que aquí està. 47 00:02:56,370 --> 00:02:59,850 I es pot veure que és en realitat moderadament complex. 48 00:02:59,850 --> 00:03:04,610 I part del valor de les metadades dins del sistema de Biblioteca de la Universitat de Harvard 49 00:03:04,610 --> 00:03:09,320 és que ha estat una espècie l'acumulat pels catalogadors 50 00:03:09,320 --> 00:03:12,720 i muntats per persones que sol·liciten una gran quantitat d'experiència i habilitat 51 00:03:12,720 --> 00:03:20,030 i es creu que amb el temps, que té molt valor. 52 00:03:20,030 --> 00:03:25,450 >> Així que si vostè fes un cop d'ull a aquest expedient per Alicia anotada, vostè pot descobrir 53 00:03:25,450 --> 00:03:32,590 que tingui el títol, que el va escriure, el autor, i tots els diferents temes 54 00:03:32,590 --> 00:03:35,380 Quines persones han catalogat a. 55 00:03:35,380 --> 00:03:40,110 I vostè pot veure que hi ha també, en A més d'un munt de bona informació 56 00:03:40,110 --> 00:03:42,852 aquí, hi ha certa duplicació. 57 00:03:42,852 --> 00:03:45,560 Hi ha una gran quantitat de complexitat que és reflecteix a través de les metadades 58 00:03:45,560 --> 00:03:46,300 que té. 59 00:03:46,300 --> 00:03:50,320 >> Així que un títol d'aquest llibre és Les aventures d'Alicia al País de les Meravelles. 60 00:03:50,320 --> 00:03:53,880 Així que aquest és un Anotat versió d'aquest llibre. 61 00:03:53,880 --> 00:03:56,380 Però també diu El Anotat Alice, les aventures d'Alícia 62 00:03:56,380 --> 00:03:58,570 in Wonderland perquè és una cosa que 63 00:03:58,570 --> 00:04:00,430 Martin Gardner va escriure i anotada del llibre. 64 00:04:00,430 --> 00:04:03,369 I hi ha una gran quantitat d'informació sobre de trencaclosques de lògica i coses 65 00:04:03,369 --> 00:04:05,410 dins d'Alice que probablement no conèixer. 66 00:04:05,410 --> 00:04:07,000 Així que cal anar llegir. 67 00:04:07,000 --> 00:04:11,940 >> Però vostè pot veure que hi ha molt detall aquí, 68 00:04:11,940 --> 00:04:15,340 inclosos els identificadors, quan va ser creat, d'on ve, 69 00:04:15,340 --> 00:04:17,420 en termes de la Universitat de Harvard sistema, i així successivament. 70 00:04:17,420 --> 00:04:20,350 Així que això és una mostra de el tipus de metadades 71 00:04:20,350 --> 00:04:24,340 que vostè pot veure per un llibre en la Col·lecció de la biblioteca de Harvard. 72 00:04:24,340 --> 00:04:26,680 >> Això és una cosa completament diferent. 73 00:04:26,680 --> 00:04:32,610 Així que hi ha un sistema anomenat VIA Harvard, que, bàsicament, 74 00:04:32,610 --> 00:04:39,990 està catalogant imatges i objectes d'art i les coses visuals al llarg de Harvard, 75 00:04:39,990 --> 00:04:44,010 i l'addició d'alguns metadades a ells, classificant, 76 00:04:44,010 --> 00:04:49,200 i, en alguns casos, proporcionant petites imatges en miniatura 77 00:04:49,200 --> 00:04:51,250 que pot prendre un mira si així ho desitja. 78 00:04:51,250 --> 00:04:54,240 >> Així que aquest és un exemple de la metadades que vostè té per a una placa 79 00:04:54,240 --> 00:04:57,840 de, presumiblement, Alícia al País de les Meravelles. 80 00:04:57,840 --> 00:05:00,499 I vostè pot veure que hi ha menys metadades aquí. 81 00:05:00,499 --> 00:05:02,040 És només un tipus diferent d'objecte. 82 00:05:02,040 --> 00:05:03,425 I el que hi ha menys informació. 83 00:05:03,425 --> 00:05:07,790 >> Vostè majoritàriament té el fet que, una trucada nombre, essencialment que el va crear, - 84 00:05:07,790 --> 00:05:10,410 >> No sabem quan es va crear. 85 00:05:10,410 --> 00:05:13,320 >> --i un títol. 86 00:05:13,320 --> 00:05:14,300 >> Un altre exemple. 87 00:05:14,300 --> 00:05:16,380 Es tracta d'un instrument de descripció. 88 00:05:16,380 --> 00:05:19,030 Així que hi ha una col·lecció de Lewis Treballs de Carroll a Harvard. 89 00:05:19,030 --> 00:05:23,601 Així que això descriu el que és en aquesta col·lecció. 90 00:05:23,601 --> 00:05:26,100 Així que algú ha passat per i mirat a través de totes les caixes 91 00:05:26,100 --> 00:05:32,220 i el va catalogar, donat alguns antecedents, escrit un resum del que hi ha aquí. 92 00:05:32,220 --> 00:05:35,290 I si anés a mirar addicionalment a això, aquest 93 00:05:35,290 --> 00:05:39,620 continua durant pàgines i pàgines i pàgines, però li dirà 94 00:05:39,620 --> 00:05:41,860 quines cartes i què data de quina caixes 95 00:05:41,860 --> 00:05:44,289 existit en tota la col·lecció. 96 00:05:44,289 --> 00:05:46,330 Però això és una cosa que, si estàs a Harvard, 97 00:05:46,330 --> 00:05:50,720 vostè pot anar i realment es veuen físicament i, presumiblement, fer una ullada a. 98 00:05:50,720 --> 00:05:53,440 >> Així que això és genial. 99 00:05:53,440 --> 00:05:54,450 D'utilitat Aquestes metadades. 100 00:05:54,450 --> 00:05:56,327 Està en el sistema de Biblioteca de la Universitat de Harvard. 101 00:05:56,327 --> 00:05:58,910 Hi ha eines en línia on vostè pot anar a prendre una mirada en ella, 102 00:05:58,910 --> 00:05:59,993 i veure-ho, i buscar-la. 103 00:05:59,993 --> 00:06:02,810 I vostè pot tallar i daus en un munt de diferents maneres. 104 00:06:02,810 --> 00:06:06,920 >> Però en realitat només està disponible si vostè és un ésser humà que se senti baix 105 00:06:06,920 --> 00:06:12,600 en el seu navegador web o alguna cosa o el seu telèfon i navegar a través d'ell. 106 00:06:12,600 --> 00:06:16,730 En realitat no és disponible en qualsevol tipus de moda utilitzable 107 00:06:16,730 --> 00:06:19,520 per a altres sistemes o altres equips a utilitzar, 108 00:06:19,520 --> 00:06:21,500 no amb sistemes dins de la Biblioteca de Harvard, 109 00:06:21,500 --> 00:06:24,890 però els sistemes al món exterior, només altres persones en general. 110 00:06:24,890 --> 00:06:30,210 Llavors la pregunta és, com podem nosaltres posar-lo a disposició dels ordinadors 111 00:06:30,210 --> 00:06:33,560 de manera que puguem fer més interessant coses amb ell que amb prou feines 112 00:06:33,560 --> 00:06:36,550 navegació per nosaltres mateixos? 113 00:06:36,550 --> 00:06:39,766 >> Així que per què vols fer això? 114 00:06:39,766 --> 00:06:41,140 Hi ha un munt de possibilitats. 115 00:06:41,140 --> 00:06:43,980 Una d'elles és que podria construir un complet diferent manera de navegació 116 00:06:43,980 --> 00:06:46,962 el contingut que està disponible a través de les biblioteques de Harvard. 117 00:06:46,962 --> 00:06:48,670 Et vaig a mostrar 1 més tard anomenat Stacklife, 118 00:06:48,670 --> 00:06:52,440 que té un completament diferent prendre en la recerca de contingut. 119 00:06:52,440 --> 00:06:54,560 >> Es pot construir un motor de recomanació. 120 00:06:54,560 --> 00:06:57,955 Així Biblioteca Harvard no està en el negoci de dir, t'agrada aquest llibre. 121 00:06:57,955 --> 00:07:01,080 Després anar a prendre un cop d'ull a aquests altres 17 llibres que us poden interessar 122 00:07:01,080 --> 00:07:03,200 o aquests 18 altres imatges. 123 00:07:03,200 --> 00:07:06,040 Però que sens dubte podria ser una característica valuosa. 124 00:07:06,040 --> 00:07:09,272 I tenint en compte les metadades, pot ser possible ajuntar això. 125 00:07:09,272 --> 00:07:11,980 És possible que tingui diferents necessitats en termes de cerca en el contingut, 126 00:07:11,980 --> 00:07:16,200 com potser tot i les eines que estan disponibles de que la biblioteca fa 127 00:07:16,200 --> 00:07:18,450 disponibles, és possible que vulgueu per buscar d'una manera diferent 128 00:07:18,450 --> 00:07:21,847 o optimitzar per a un cas concret, que potser és molt especialitzat. 129 00:07:21,847 --> 00:07:23,930 Potser només hi ha uns pocs persones al món que 130 00:07:23,930 --> 00:07:25,846 voler buscar el contingut d'aquesta manera, però 131 00:07:25,846 --> 00:07:28,985 seria genial si podria deixar que ells facin això. 132 00:07:28,985 --> 00:07:30,860 Hi ha una gran quantitat d'anàlisi en tot just com la gent 133 00:07:30,860 --> 00:07:33,860 utilitzar el contingut que seria realment interessant per conèixer, descobrir 134 00:07:33,860 --> 00:07:37,280 quins llibres s'estan utilitzant, el que no ho són, i així successivament. 135 00:07:37,280 --> 00:07:41,670 I després hi ha una gran quantitat de oportunitat d'integrar 136 00:07:41,670 --> 00:07:45,210 amb una altra informació això és per aquí a la web. 137 00:07:45,210 --> 00:07:46,880 Així que tener-- 138 00:07:46,880 --> 00:07:50,260 >> Per exemple, NPR té un segment de ressenyes de llibres, 139 00:07:50,260 --> 00:07:53,090 on entrevisten autors de llibres. 140 00:07:53,090 --> 00:07:56,837 I així que seria genial si fossis buscar un llibre a la Universitat de Harvard 141 00:07:56,837 --> 00:07:59,670 Biblioteca, i dius, OK, no hi ha estat una entrevista amb l'autor. 142 00:07:59,670 --> 00:08:00,878 Anem a fer una ullada a això. 143 00:08:00,878 --> 00:08:05,461 O hi ha una pàgina de Wikipedia, com referència autoritzada, acadèmic 144 00:08:05,461 --> 00:08:07,710 sobre aquest llibre que pot ser que vulgui fer una ullada a. 145 00:08:07,710 --> 00:08:12,600 >> Hi ha aquests tipus de fonts dispersos per tot el web. 146 00:08:12,600 --> 00:08:16,555 I reunint podria ser un gran ús 147 00:08:16,555 --> 00:08:18,930 per a algú que busca en el contingut, a la recerca d'alguna cosa. 148 00:08:18,930 --> 00:08:20,180 Però també no és el tipus de cosa que 149 00:08:20,180 --> 00:08:23,205 vol que la biblioteca sigui responsable per baixar i la caça de 150 00:08:23,205 --> 00:08:25,455 totes aquestes diferents fonts i connectar junts 151 00:08:25,455 --> 00:08:28,920 perquè estan en continu canvi. 152 00:08:28,920 --> 00:08:33,570 I el que ells pensen que és important maig no ser el que vostè pensa és important. 153 00:08:33,570 --> 00:08:36,929 >> I més encara, en el fons hi ha una munt de coses que no hem pensat encara. 154 00:08:36,929 --> 00:08:42,222 Així que si podem obrir això, més persones, a més d'una mitja dotzena o així, 155 00:08:42,222 --> 00:08:45,174 que estan mirant això en un de forma regular pot pensar en idees 156 00:08:45,174 --> 00:08:47,340 i massatges les dades, i facin el que vulguin amb ell. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Així que volem fer d'aquest les dades disponibles per al món. 159 00:08:54,045 --> 00:08:55,670 Bé, hi ha un parell de complicacions. 160 00:08:55,670 --> 00:08:58,540 Una és que aquests metadades és en diferents sistemes. 161 00:08:58,540 --> 00:09:01,110 Està en diferents formats. 162 00:09:01,110 --> 00:09:04,719 Així que hi ha certa normalització que ha de succeir, 163 00:09:04,719 --> 00:09:08,010 que la normalització és el procés de portant coses de diferents formats 164 00:09:08,010 --> 00:09:12,940 i mapar a un únic format perquè els camps coincidiran. 165 00:09:12,940 --> 00:09:15,160 >> Hi ha algunes restriccions de copyright. 166 00:09:15,160 --> 00:09:21,010 Per estrany que sembli, l'entrada del catàleg sobre un llibre es fa responsable dels drets d'autor. 167 00:09:21,010 --> 00:09:24,060 Així que, encara que és només informació derivada de la llibre, 168 00:09:24,060 --> 00:09:25,330 és dret d'autor. 169 00:09:25,330 --> 00:09:28,400 I depenent que en realitat creat que les metadades, 170 00:09:28,400 --> 00:09:32,175 pot haver restriccions sobre qui pot distribuir-lo, A-- similars 171 00:09:32,175 --> 00:09:33,402 >> No ho sé. 172 00:09:33,402 --> 00:09:36,110 Pot o pot no ser similar a la situació de les lletres de cançons, 173 00:09:36,110 --> 00:09:36,610 per exemple. 174 00:09:36,610 --> 00:09:38,560 Així que tots sabem el que surt bé. 175 00:09:38,560 --> 00:09:40,450 Així que cal aconseguir al voltant d'aquest tema. 176 00:09:40,450 --> 00:09:44,910 >> I després una altra peça és que hi ha una gran quantitat de dades. 177 00:09:44,910 --> 00:09:52,420 Així que si jo sóc algú que vol treballar amb les dades o té una idea genial, 178 00:09:52,420 --> 00:09:55,350 tractar amb 14 milions registres en el meu portàtil 179 00:09:55,350 --> 00:09:57,487 podria ser problemàtic i difícil de manejar. 180 00:09:57,487 --> 00:09:59,320 Així que volem reduir les barreres per a les persones 181 00:09:59,320 --> 00:10:02,130 per poder treballar amb les dades. 182 00:10:02,130 --> 00:10:07,880 >> El que l'enfocament que s'espera adreces totes aquestes preocupacions és dues parts. 183 00:10:07,880 --> 00:10:11,770 Un és la construcció d'una plataforma que pren les dades de totes aquestes fonts dispars 184 00:10:11,770 --> 00:10:14,350 i l'agreuja, normalitza, l'enriqueix, i marques 185 00:10:14,350 --> 00:10:16,650 a disposició en un sol lloc. 186 00:10:16,650 --> 00:10:20,950 I ho fa disponible a través de una API pública que la gent pot trucar. 187 00:10:20,950 --> 00:10:24,430 >> Així que una API és una aplicació Interfície de programació. 188 00:10:24,430 --> 00:10:28,930 I bàsicament es refereix a un punt final que un sistema o tecnologia 189 00:10:28,930 --> 00:10:31,720 pot trucar i obtenir dades de tornada a un format estructurat d'una manera 190 00:10:31,720 --> 00:10:32,900 que es pot utilitzar. 191 00:10:32,900 --> 00:10:36,060 Així que no és dependent a anar a un lloc web 192 00:10:36,060 --> 00:10:37,970 i raspant dades fora de la mateixa, per exemple. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Així que aquesta és la pàgina principal de Cloud Library API d'article, 195 00:10:45,010 --> 00:10:47,220 que és essencialment la seva versió dos. 196 00:10:47,220 --> 00:10:50,130 Així que és la segona iteració de tractant de fer totes aquestes dades 197 00:10:50,130 --> 00:10:53,280 a disposició del món. 198 00:10:53,280 --> 00:10:59,560 Pel que és http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 I només per descompondre una mica, el que això significa 200 00:11:03,830 --> 00:11:06,115 és que aquesta és la segona versió de l'API. 201 00:11:06,115 --> 00:11:08,490 Hi ha una versió d'un, el que Jo no vaig a parlar. 202 00:11:08,490 --> 00:11:09,750 Però hi ha una versió d'un. 203 00:11:09,750 --> 00:11:14,740 >> I si vostè està trucant a aquest API, que està rebent els articles. 204 00:11:14,740 --> 00:11:20,640 I parteix de la idea d'un API és una API és un contracte. 205 00:11:20,640 --> 00:11:23,440 És una cosa que és no canviarà. 206 00:11:23,440 --> 00:11:24,850 Així, per exemple, - 207 00:11:24,850 --> 00:11:27,410 >> I la raó és que si jo construir algun tipus de sistema que 208 00:11:27,410 --> 00:11:33,210 es va a utilitzar una API de biblioteca de núvol per mostrar llibres o ajudar a la gent a trobar 209 00:11:33,210 --> 00:11:36,190 informació d'una manera única, el que no volem que passi 210 00:11:36,190 --> 00:11:38,940 és per a nosaltres anar canviar la forma que funciona API, i de sobte 211 00:11:38,940 --> 00:11:41,340 tot el que es trenca en el costat de l'usuari final. 212 00:11:41,340 --> 00:11:46,710 Així que part de si estàs fent API a disposició del món, és 213 00:11:46,710 --> 00:11:49,396 bones pràctiques per posar un nombre de versió en ella perquè la gent 214 00:11:49,396 --> 00:11:51,020 saben quina versió s'està tractant. 215 00:11:51,020 --> 00:11:54,300 >> Així que si decidim trobem una millor manera de fer que aquesta informació estigui disponible, 216 00:11:54,300 --> 00:11:57,295 podríem canviar això a cridar a aquesta versió 3. 217 00:11:57,295 --> 00:11:59,920 Així que tot el que encara està utilitzant versió dos, que encara va a treballar. 218 00:11:59,920 --> 00:12:03,490 Però la versió de tres faria tenir totes les coses noves. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Així que aquest és un API, però aquesta Realment sembla un URL. 221 00:12:09,210 --> 00:12:11,680 I així el que es tracta d'una exemple del que és la 222 00:12:11,680 --> 00:12:16,615 anomenat API resta, que està disponible sobre només una connexió web normal. 223 00:12:16,615 --> 00:12:19,680 I en realitat es pot anar-hi en un navegador. 224 00:12:19,680 --> 00:12:28,550 >> Així que aquí Acabo d'obrir Firefox i anat a api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 I així ho he arribat fins aquí és bàsicament la primera pàgina 226 00:12:31,560 --> 00:12:34,740 dels resultats de la totalitat conjunt d'elements que ens tenim. 227 00:12:34,740 --> 00:12:37,460 I és aquí en format XML. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 I també ha estat prettified per Firefox. 230 00:12:42,210 --> 00:12:45,850 En realitat, no té tots aquests poca expansió i contracció 231 00:12:45,850 --> 00:12:47,880 doohickeys aquí. 232 00:12:47,880 --> 00:12:52,520 Aquesta és una espècie d'agradable Versió manera de veure-ho. 233 00:12:52,520 --> 00:12:57,040 >> Però el que això ens està dient és He demanat a tots els articles. 234 00:12:57,040 --> 00:13:03,120 Així que hi ha 13.289.475 articles. 235 00:13:03,120 --> 00:13:06,150 I estic buscant a la primera 10, començant en la posició zero 236 00:13:06,150 --> 00:13:09,760 perquè en ciències de la computació sempre comencem a zero. 237 00:13:09,760 --> 00:13:15,150 I el que tinc aquí, si acabo de col·lapsar això, veuràs que tinc 10 articles. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> I si em prenc un cop d'ull a un article, puc veig que tinc informació al respecte. 240 00:13:25,210 --> 00:13:27,400 I això és en el que s'anomena forma MODS. 241 00:13:27,400 --> 00:13:30,860 I així em vaig a canviar tornar aquí per un moment. 242 00:13:30,860 --> 00:13:33,750 D'acord. 243 00:13:33,750 --> 00:13:37,447 >> Així que anem a buscar alguna cosa a específic perquè el primer element que 244 00:13:37,447 --> 00:13:40,030 passa per arribar quan es mira a través de tota la col·lecció 245 00:13:40,030 --> 00:13:41,750 és, per definició, a l'atzar. 246 00:13:41,750 --> 00:13:44,550 Així que donem una ullada a alguns donuts. 247 00:13:44,550 --> 00:13:46,830 Oh. 248 00:13:46,830 --> 00:13:49,190 >> D'acord. 249 00:13:49,190 --> 00:13:49,940 Així donas. 250 00:13:49,940 --> 00:13:55,360 Així trobem que hi ha 80 articles en la col·lecció que la referència donuts. 251 00:13:55,360 --> 00:13:57,150 Estem pensant en el primer 10 d'ells. 252 00:13:57,150 --> 00:14:01,890 Ara, es pot veure aquí la forma en què Li vaig dir que estic buscant donas, 253 00:14:01,890 --> 00:14:04,400 Acabo d'afegir alguna cosa a la cadena de consulta de la URL. 254 00:14:04,400 --> 00:14:09,680 Així q és igual a rosquilles, que es pot veure una mica més fàcil aquí. 255 00:14:09,680 --> 00:14:12,131 >> I això bàsicament vol dir que hi ha una especificació de l'API, que 256 00:14:12,131 --> 00:14:13,880 defineix el que tots aquests paràmetres signifiquen. 257 00:14:13,880 --> 00:14:17,150 I això vol dir que anem a buscar tot per donas. 258 00:14:17,150 --> 00:14:24,910 >> Així que el primer article aquí tenim es pot veure el títol és Donuts, 259 00:14:24,910 --> 00:14:29,310 i hi ha un subtítol anomenat Un American Passion, que és, suposo, 260 00:14:29,310 --> 00:14:31,610 apropiat. 261 00:14:31,610 --> 00:14:36,134 Hi ha un munt de diferent-- 262 00:14:36,134 --> 00:14:38,050 Un cop al punt d'obtenir les dades, 263 00:14:38,050 --> 00:14:41,020 hi ha un munt de diferents formats que vostè pot aconseguir a. 264 00:14:41,020 --> 00:14:44,050 I hi ha diferents punts forts i debilitats per a tots ells. 265 00:14:44,050 --> 00:14:49,000 Així que aquest, vostè pot veure aquí, aquesta forma és molt rica. 266 00:14:49,000 --> 00:14:51,946 I ha estat estandarditzada. 267 00:14:51,946 --> 00:14:55,040 >> Així que hi ha un títol específic camp, un camp de subtítols. 268 00:14:55,040 --> 00:14:58,950 Hi ha un suplent títol, An American Passion. 269 00:14:58,950 --> 00:15:01,650 No és el nom associat amb ell. 270 00:15:01,650 --> 00:15:03,120 Tipus del recurs és text. 271 00:15:03,120 --> 00:15:06,070 Hi ha una gran quantitat d'informació aquí en aquest format. 272 00:15:06,070 --> 00:15:09,480 >> Però hi ha un munt de formats diferents. 273 00:15:09,480 --> 00:15:11,920 Així que el que estàvem veient és un format 274 00:15:11,920 --> 00:15:17,700 anomenats MODS, que significa Metadades d'objecte Descripció Servei, 275 00:15:17,700 --> 00:15:18,250 potencialment. 276 00:15:18,250 --> 00:15:23,030 En realitat estic molt segur sobre la S. Però és un format bastant complexa. 277 00:15:23,030 --> 00:15:24,240 És el format per defecte. 278 00:15:24,240 --> 00:15:30,260 >> Però és la que manté la riquesa de totes les dades 279 00:15:30,260 --> 00:15:33,820 que la biblioteca té perquè que és molt proper al que 280 00:15:33,820 --> 00:15:35,110 La biblioteca utilitza internament. 281 00:15:35,110 --> 00:15:39,030 És una norma que és utilitzat en tot el país, 282 00:15:39,030 --> 00:15:40,944 a tot el món a les biblioteques universitàries. 283 00:15:40,944 --> 00:15:42,110 I és molt interoperable. 284 00:15:42,110 --> 00:15:44,852 Així que si vostè té un document que està en format MODS, 285 00:15:44,852 --> 00:15:47,560 vostè pot donar-li això a una altra persona els sistemes entenen MODS, 286 00:15:47,560 --> 00:15:48,518 i poden importar. 287 00:15:48,518 --> 00:15:50,840 Així que és un estàndard. 288 00:15:50,840 --> 00:15:54,250 Està molt ben definit, molt específic. 289 00:15:54,250 --> 00:15:58,980 I això és el que el fa interoperable perquè si algú diu, 290 00:15:58,980 --> 00:16:04,930 aquest és el títol alternatiu d'una registre, tothom sap el que això significa. 291 00:16:04,930 --> 00:16:07,740 D'altra banda, és molt complicat. 292 00:16:07,740 --> 00:16:13,160 >> Així que si vostè fes un cop d'ull en aquest disc aquí, 293 00:16:13,160 --> 00:16:15,320 si només vull aconseguir el títol d'aquest document, 294 00:16:15,320 --> 00:16:21,150 d'aquest llibre, que és probablement Donuts, Una passió americana, analitzar-fora 295 00:16:21,150 --> 00:16:22,940 és una mica involucrats. 296 00:16:22,940 --> 00:16:27,380 Mentre que hi ha un altre format anomenat Dublin Core, 297 00:16:27,380 --> 00:16:29,730 que és un format molt, molt més simple. 298 00:16:29,730 --> 00:16:33,764 >> I pel que es veu aquí, no hi ha títol, subtítol, títol alternatiu. 299 00:16:33,764 --> 00:16:35,930 No és només el títol, Donuts, An American Passion, 300 00:16:35,930 --> 00:16:38,780 i un nou títol, American Passion. 301 00:16:38,780 --> 00:16:42,907 Així que quan vostè està buscant en quina forma Per obtenir les dades de, 302 00:16:42,907 --> 00:16:44,740 molt depèn de com vas a usar-lo. 303 00:16:44,740 --> 00:16:46,573 Està utilitzant per interoperabilitat o vostè 304 00:16:46,573 --> 00:16:49,970 volen alguna cosa simple que podria ser més fàcil treballar amb ell? 305 00:16:49,970 --> 00:16:56,002 >> D'altra banda, una gran part del detalls aconsegueixen espècie de aixafades cap avall. 306 00:16:56,002 --> 00:16:58,460 És possible que perdi els matisos de el que significa una determinada parcel·la 307 00:16:58,460 --> 00:17:02,960 si vostè està tractant amb Dublin Core, que no et donen amb MODS. 308 00:17:02,960 --> 00:17:06,462 Així que aquests són dos dels formats vostè pot sortir de l'API. 309 00:17:06,462 --> 00:17:08,920 I en el fons, estem mantenint darrere de les escenes en MODS. 310 00:17:08,920 --> 00:17:14,179 Però podem donar-li a MODS i Dublin Core i tota la resta també. 311 00:17:14,179 --> 00:17:16,470 L'altra consideració quan vostè està buscant en les dades 312 00:17:16,470 --> 00:17:21,210 és que vostè pot aconseguir com sigui JSON, que és sinònim de JavaScript Object Notation, 313 00:17:21,210 --> 00:17:24,720 o XML, el que significa Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 I aquestes representacions de dades tant tenir exactament les mateixes dades, exactament 315 00:17:30,080 --> 00:17:31,080 els mateixos camps. 316 00:17:31,080 --> 00:17:33,644 Però són només sintàcticament diferent. 317 00:17:33,644 --> 00:17:40,401 >> Així que això és A-- 318 00:17:40,401 --> 00:17:41,400 Bé, anem a canviar. 319 00:17:41,400 --> 00:17:47,490 Així que aquesta és la nostra consulta per donas en format XML. 320 00:17:47,490 --> 00:17:53,470 Si només em canvi que es tracta de JSON, Puc veure que es veu diferent. 321 00:17:53,470 --> 00:17:58,580 Així que ara aquest és el mateix contingut, però una estructura diferent. 322 00:17:58,580 --> 00:18:00,080 Hi ha menys parèntesis angulars. 323 00:18:00,080 --> 00:18:02,530 Hi ha menys detallat. 324 00:18:02,530 --> 00:18:06,440 >> I aquest és un format que, si estan treballant en l'entorn web, 325 00:18:06,440 --> 00:18:09,680 vostè és més probable va a voler utilitzar perquè un 326 00:18:09,680 --> 00:18:12,630 de les coses bones de JSON és és compatible amb JavaScript. 327 00:18:12,630 --> 00:18:17,680 Així que si estic escrivint aplicació web, puc tirar en JSON i simplement treballar directament amb ell. 328 00:18:17,680 --> 00:18:20,187 Mentre que amb XML, és un poc més complicat. 329 00:18:20,187 --> 00:18:21,520 Així que de nou, aquests són alhora útil. 330 00:18:21,520 --> 00:18:26,387 Ells només són diferents casos d'ús on la gent podria voler usar-los. 331 00:18:26,387 --> 00:18:26,886 D'acord. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Així que de tornada a l'API. 334 00:18:31,680 --> 00:18:32,900 Així que podem buscar la finalitat de: 335 00:18:32,900 --> 00:18:36,220 >> Dono un exemple de la recerca de donuts. 336 00:18:36,220 --> 00:18:39,330 Podem buscar només en un en particular de camp dins d'aquí. 337 00:18:39,330 --> 00:18:41,310 Així que en lloc de buscar la totalitat de l'expedient, 338 00:18:41,310 --> 00:18:43,870 Només puc buscar el camp de títol. 339 00:18:43,870 --> 00:18:48,810 I pel que ara hi ha 25 coses que tenir donuts en el títol, un dels quals 340 00:18:48,810 --> 00:18:52,430 és sobre la restauració aiguamolls en la gestió 341 00:18:52,430 --> 00:18:54,990 del forat de la rosquilla programa, que és probablement 342 00:18:54,990 --> 00:18:58,970 no necessàriament el que estem buscant per quan estem a la recerca de donuts. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> També pot, quan estàs tractar amb un API-- 345 00:19:05,490 --> 00:19:08,827 >> Part d'haver una API està donant persones l'accés a grans conjunts de dades. 346 00:19:08,827 --> 00:19:11,410 I hi ha un parell diferent eines que pot utilitzar per fer això. 347 00:19:11,410 --> 00:19:14,170 Un d'ells és, simplement, que pot desplaçar-se per les dades. 348 00:19:14,170 --> 00:19:17,340 Així com si vostè fa una consulta a través d'una interfície web, 349 00:19:17,340 --> 00:19:19,470 es pot veure a la pàgina un, la segona pàgina, la pàgina tres. 350 00:19:19,470 --> 00:19:22,040 Vostè pot fer el mateix cosa a través de l'API. 351 00:19:22,040 --> 00:19:24,150 Vostè només ha de ser explícit en com ho fa. 352 00:19:24,150 --> 00:19:29,511 >> Així, per exemple, si estic buscant en la meva primera consulta aquí, 353 00:19:29,511 --> 00:19:32,510 on jo estic fent una recerca de les coses amb donuts en el títol, el que puc dir, 354 00:19:32,510 --> 00:19:35,415 i el límit és igual a 20, el que significa dóna'm els primers 20 registres, no 355 00:19:35,415 --> 00:19:38,540 el primer 10, que és el valor per defecte, perquè vull mirar a 20 alhora. 356 00:19:38,540 --> 00:19:43,435 O el que puc dir, establir el iniciar igual a 20 i el límit 357 00:19:43,435 --> 00:19:47,150 igual a 20, el que donarà em Registres 21 a 40. 358 00:19:47,150 --> 00:19:52,680 >> Així que suposo que la cosa per portar aquí és 359 00:19:52,680 --> 00:19:57,290 que estem fent servir les cadenes de consulta per establir els paràmetres de la consulta. 360 00:19:57,290 --> 00:20:02,760 I et permet el control el que rep. 361 00:20:02,760 --> 00:20:05,980 >> Una altra de les eines que pot utilitzar, - 362 00:20:05,980 --> 00:20:09,250 >> I això és realment útil en termes de l'exploració de les dades. 363 00:20:09,250 --> 00:20:10,840 >> --És Una cosa anomenada facetat. 364 00:20:10,840 --> 00:20:15,530 Així el terme facetat és no necessàriament comú. 365 00:20:15,530 --> 00:20:16,880 Però tots vostès ho ha vist abans. 366 00:20:16,880 --> 00:20:18,630 Si fes un cop d'ull a Amazon, per exemple, 367 00:20:18,630 --> 00:20:20,870 i vostè fa una recerca per donuts en els llibres, 368 00:20:20,870 --> 00:20:27,080 aquí el que tenen una sèrie de llibres, i que estan agrupats per categoria, 369 00:20:27,080 --> 00:20:30,470 i et donen les diferents categories, i el nombre de llibres en cada categoria 370 00:20:30,470 --> 00:20:31,330 aparèixer. 371 00:20:31,330 --> 00:20:33,420 >> Així que això és bàsicament una faceta. 372 00:20:33,420 --> 00:20:37,570 Vostè pren tots els seus llibres, el 1800 llibres que coincideixin amb feu donació a Amazon. 373 00:20:37,570 --> 00:20:39,820 12 d'ells estan en el categoria d'esmorzar. 374 00:20:39,820 --> 00:20:43,100 21 en pastisseria i fleca, i així successivament i així successivament. 375 00:20:43,100 --> 00:20:47,670 >> Així que això és realment una eina eina per explorar el contingut 376 00:20:47,670 --> 00:20:53,260 dins de la biblioteca, així perquè quan ens fixem en una faceta, 377 00:20:53,260 --> 00:20:56,520 que et dóna una idea de quins temes existeix, com quins tipus de temes 378 00:20:56,520 --> 00:20:58,510 són les més populars dins del seu conjunt de consultes. 379 00:20:58,510 --> 00:21:00,950 I ajuda d'anar-se'n i explorar. 380 00:21:00,950 --> 00:21:02,770 Pel que podem fer el mateix. 381 00:21:02,770 --> 00:21:05,940 >> Si volem utilitzar el API i mirar facetes, 382 00:21:05,940 --> 00:21:08,950 afegim un altre paràmetre a la nostra amiga la cadena de consulta. 383 00:21:08,950 --> 00:21:12,540 Així facetes iguals separats per comes llista del que volem en la faceta. 384 00:21:12,540 --> 00:21:14,790 Així que una de les facetes podria estar subjecte. 385 00:21:14,790 --> 00:21:16,565 Un altre podria ser idioma. 386 00:21:16,565 --> 00:21:19,665 I pel que si correm aquesta consulta, ens get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Es veu més o menys el mateix aquí. 389 00:21:24,830 --> 00:21:29,010 Però hem afegit al final de la llista d'un conjunt de facetes. 390 00:21:29,010 --> 00:21:34,060 Així que tenim una faceta anomenada matèria. 391 00:21:34,060 --> 00:21:40,250 Així que això ens està dient que si miro als meus 80 resultats de la consulta d'rosquilla, 392 00:21:40,250 --> 00:21:42,100 13 d'ells tenen la sotmetre Estats Units. 393 00:21:42,100 --> 00:21:43,684 Tres tenen els donuts subjectes. 394 00:21:43,684 --> 00:21:45,600 Tres tenen el tema de la restauració d'aiguamolls, 395 00:21:45,600 --> 00:21:47,720 que pot ser el nostre forat de la dona. 396 00:21:47,720 --> 00:21:51,780 Dos d'ells, els Simpsons, i així successivament i així successivament. 397 00:21:51,780 --> 00:21:59,211 >> Així que això pot ser útil si vostè volen reduir la cerca. 398 00:21:59,211 --> 00:22:00,210 Pot ajudar a fer això. 399 00:22:00,210 --> 00:22:03,580 Especialment si vostè té més de, diguem, 80 resultats. 400 00:22:03,580 --> 00:22:05,980 >> De la mateixa manera, també demanem de facetes en el llenguatge. 401 00:22:05,980 --> 00:22:14,790 Així que si ens fixem en els nostres resultats, veiem 76 d'ells estan en Anglès, quatre en francès, 402 00:22:14,790 --> 00:22:19,620 dos a espanyol, dos, crec que això és indefinit o desconegut, holandès i llatí. 403 00:22:19,620 --> 00:22:22,830 Així que crec que l'Amèrica rosquilla resultat, de nou, 404 00:22:22,830 --> 00:22:24,922 no té res a veure amb els productes forn. 405 00:22:24,922 --> 00:22:25,630 Però cal anar. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Així que això és una espècie de mostra que com es pot tirar el contingut de nou 408 00:22:38,630 --> 00:22:41,270 de l'API només a través de navegador web, la qual cosa és genial. 409 00:22:41,270 --> 00:22:44,320 Però en realitat no és el que ho faria normalment utilitzant en API per a això. 410 00:22:44,320 --> 00:22:48,710 Així que un exemple de com es en realitat podria fer això és que he 411 00:22:48,710 --> 00:22:54,720 escrit un super petit programa, que, de nou, què la cerca rosquilla 412 00:22:54,720 --> 00:22:59,010 i seleccioneu un parell de camps i les mostra en una taula. 413 00:22:59,010 --> 00:23:01,610 Així que això és molt el mateix contingut que acabem de 414 00:23:01,610 --> 00:23:04,830 serra amb alguns camps treure. 415 00:23:04,830 --> 00:23:12,090 Així llista de títols, els ubicació del que el llibre 416 00:23:12,090 --> 00:23:15,120 està a punt, l'idioma, i així successivament i així successivament. 417 00:23:15,120 --> 00:23:20,480 >> Llavors, com això va succeir realment, ja que Crec que hem de mirar una mica de codi, 418 00:23:20,480 --> 00:23:22,420 és-- 419 00:23:22,420 --> 00:23:28,060 >> El que tenim aquí és un simple HTML La pàgina, que mostra el text, 420 00:23:28,060 --> 00:23:32,900 la benvinguda al núvol biblioteca i a continuació, mostra una taula de resultats. 421 00:23:32,900 --> 00:23:37,790 I òbviament no hi ha resultats a la taula quan la pàgina es carrega. 422 00:23:37,790 --> 00:23:41,380 Però el que estem fent és, en primer lloc, que 423 00:23:41,380 --> 00:23:46,290 es carrega d'una biblioteca anomenada jQuery, que és bàsicament 424 00:23:46,290 --> 00:23:52,030 una biblioteca de JavaScript, que fa molt fàcil de manipular JavaScript 425 00:23:52,030 --> 00:23:58,780 nativament, HTML i crear pàgines web, lògica del costat del client i pàgines web. 426 00:23:58,780 --> 00:24:01,595 >> Així que el que tenim aquí és jQuery té un mètode anomenat Get, 427 00:24:01,595 --> 00:24:05,270 que essencialment es destinarà a una URL, que, en aquest cas, 428 00:24:05,270 --> 00:24:09,070 és aquesta URL d'aspecte familiar. 429 00:24:09,070 --> 00:24:14,440 I després obtenir el contingut de aquesta URL i executi una funció en ell. 430 00:24:14,440 --> 00:24:19,240 Llavors vam dir anar a api.lib.harvard / edu. 431 00:24:19,240 --> 00:24:20,060 Cerca de donuts. 432 00:24:20,060 --> 00:24:21,300 Dóna'ns 20 registres. 433 00:24:21,300 --> 00:24:28,590 I a continuació, executeu aquesta funció, que He seleccionat, passant-li les dades. 434 00:24:28,590 --> 00:24:34,430 I les dades és la que JSON va aconseguir tornar de l'API. 435 00:24:34,430 --> 00:24:40,120 >> I llavors el que estem dient, dins d'aquest dades hi ha un camp anomenat article. 436 00:24:40,120 --> 00:24:48,117 I si em vaig fer una ullada enrere en un d'aquests resultats que està aquí, 437 00:24:48,117 --> 00:24:49,200 hi ha alguna cosa called-- 438 00:24:49,200 --> 00:24:50,220 >> Bé, es diu element. 439 00:24:50,220 --> 00:24:53,520 Així que pot ser això. 440 00:24:53,520 --> 00:25:01,840 I el que fa és que passa a través de cada element 441 00:25:01,840 --> 00:25:05,300 i després crida a un altre funció en cada element. 442 00:25:05,300 --> 00:25:08,440 I aquesta funció, bàsicament, està prenent el valor 443 00:25:08,440 --> 00:25:12,010 del tema, que és essencialment el registre individual 444 00:25:12,010 --> 00:25:18,220 i ens permet treure el títol, la cobertura i l'idioma. 445 00:25:18,220 --> 00:25:21,640 >> Així que cridem a una funció en cada element que tornem de l'API. 446 00:25:21,640 --> 00:25:25,397 I si vostè acaba de prendre un cop d'ull en aquesta peça aquí, 447 00:25:25,397 --> 00:25:27,230 el que estem fent és estem creant una cadena, 448 00:25:27,230 --> 00:25:31,810 que és essencialment una mica de marcat HTML al voltant d'una taula, amb value.title, 449 00:25:31,810 --> 00:25:35,790 que és el títol de la objecte, value.coverage, 450 00:25:35,790 --> 00:25:36,790 que és la cobertura, - 451 00:25:36,790 --> 00:25:38,225 >> I estem fent un xec aquí per veure qui és indefinit 452 00:25:38,225 --> 00:25:40,570 i ocultar si diu indefinit, perquè no estem realment interessats 453 00:25:40,570 --> 00:25:41,600 en això. 454 00:25:41,600 --> 00:25:42,939 >> -i després l'idioma. 455 00:25:42,939 --> 00:25:44,730 I llavors el que estem fent és agregant que 456 00:25:44,730 --> 00:25:48,510 a la taula que és identificat per aquesta cadena aquí. 457 00:25:48,510 --> 00:25:50,790 I com funciona jQuery és el que això està dient 458 00:25:50,790 --> 00:25:56,420 és buscar la taula amb idea resultats i afegir text a ell. 459 00:25:56,420 --> 00:25:59,380 I aquesta és la taula amb resultats idea. 460 00:25:59,380 --> 00:26:04,998 Així que el que vostè acaba amb és aquesta pàgina aquí. 461 00:26:04,998 --> 00:26:06,206 I per tal de veure source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Bé, la font no és en realitat actualitzat quan això va succeir. 464 00:26:13,810 --> 00:26:18,740 Així que vostè pot veure el real Els resultats de la taula aquí però. 465 00:26:18,740 --> 00:26:24,770 >> Així que això és només un exemple simple de fent una consulta molt bàsica en contra de l'API 466 00:26:24,770 --> 00:26:29,020 i mostrar la informació en algun altre formar, i no fer res massa luxós. 467 00:26:29,020 --> 00:26:36,370 Ara, un altre exemple és com una sol·licitud per escrit per David Weinberger 468 00:26:36,370 --> 00:26:39,120 com una demostració d'això, el que en essència el que mostra 469 00:26:39,120 --> 00:26:44,620 com es pot triturar els resultats que busques rebent de l'API de biblioteca núvol 470 00:26:44,620 --> 00:26:46,250 amb, per exemple, Google Books. 471 00:26:46,250 --> 00:26:52,225 >> I el pensament aquí és que puc executar una consulta a Google Books, 472 00:26:52,225 --> 00:26:56,060 obtenir una recerca de text complet, obtenir alguns resultats esquena, esbrinar quin d'aquests articles 473 00:26:56,060 --> 00:27:01,180 en realitat existeixen en Hollis, el sistema de biblioteques, 474 00:27:01,180 --> 00:27:03,200 i després donar-me enllaços de nou a aquests articles. 475 00:27:03,200 --> 00:27:12,730 Així que si jo busco, que era una nit fosca i tempestuosa, em 476 00:27:12,730 --> 00:27:16,210 tornar un munt de resultats de Google, i després un dels resultats 477 00:27:16,210 --> 00:27:19,460 que és una arruga en el temps. 478 00:27:19,460 --> 00:27:29,330 I aquests són els enllaços als llibres que existeixen dins del sistema de Biblioteca de la Universitat de Harvard. 479 00:27:29,330 --> 00:27:32,160 >> Així que suposo que el punt aquí no és tant que això pot o no 480 00:27:32,160 --> 00:27:34,118 ser el camí que desitja per buscar a la biblioteca, 481 00:27:34,118 --> 00:27:38,310 però és un completament diferent de manera que no estava disponible per a vostè 482 00:27:38,310 --> 00:27:42,884 abans, com que no tenia manera de fer recerques de text complet en els llibres que fins i tot 483 00:27:42,884 --> 00:27:44,550 eren part del sistema de Biblioteca de la Universitat de Harvard. 484 00:27:44,550 --> 00:27:46,870 Així que ara aquesta és una manera que vostè pot fer això. 485 00:27:46,870 --> 00:27:51,930 I vostè pot mostrar-los en qualsevol format que desitgi. 486 00:27:51,930 --> 00:27:55,990 Així que el punt aquí és, bàsicament, estem obrint nous camins per a la gent 487 00:27:55,990 --> 00:27:59,080 per treballar amb les dades. 488 00:27:59,080 --> 00:28:07,925 >> Un altre tros de núvol biblioteca és que ajuda a exposar algunes de les dades d'ús 489 00:28:07,925 --> 00:28:08,800 que la biblioteca té. 490 00:28:08,800 --> 00:28:12,630 Així que si vas a la biblioteca, i que està buscant per als llibres, 491 00:28:12,630 --> 00:28:15,770 No necessàriament realment tenir una idea de, 492 00:28:15,770 --> 00:28:19,080 per a tots els elements d'una tema en particular, el que 493 00:28:19,080 --> 00:28:21,200 són persones al comunitat, ja sigui 494 00:28:21,200 --> 00:28:24,890 definida com Harvard o la país o de la seva classe, 495 00:28:24,890 --> 00:28:26,421 ¿Què han trobat més útil? 496 00:28:26,421 --> 00:28:28,920 I la biblioteca té en realitat un tona d'informació sobre el que 497 00:28:28,920 --> 00:28:32,999 és més útil perquè si un munt de la gent està mirant un llibre, 498 00:28:32,999 --> 00:28:34,040 que et diu alguna cosa. 499 00:28:34,040 --> 00:28:36,498 Hi ha d'haver hagut alguna raó volen comprovar-ho. 500 00:28:36,498 --> 00:28:38,270 Molta gent el va posar en servei. 501 00:28:38,270 --> 00:28:42,520 >> Si és a la llista de reserva per a molts de les classes, que et diu alguna cosa. 502 00:28:42,520 --> 00:28:45,960 Si els membres de la facultat estan comprovant que fos molt i estudiants universitaris no són, 503 00:28:45,960 --> 00:28:47,200 això em diu alguna cosa. 504 00:28:47,200 --> 00:28:49,280 Viceversa, que també et diu alguna cosa. 505 00:28:49,280 --> 00:28:54,680 Així que seria molt interessant posar aquesta informació per aquí i deixar 506 00:28:54,680 --> 00:28:59,969 persones l'utilitzen per ajudar-los a trobar que funciona dins del sistema de biblioteques. 507 00:28:59,969 --> 00:29:02,260 L'altra cara d'això és hi ha una mica de privacitat greu 508 00:29:02,260 --> 00:29:07,854 preocupacions perquè una de les principis bàsics de la biblioteca 509 00:29:07,854 --> 00:29:10,770 és que no estarem dient la gent el que estan llegint altres persones. 510 00:29:10,770 --> 00:29:17,360 I fins i tot si vostè està dient això llibre va ser desprotegit quatre vegades 511 00:29:17,360 --> 00:29:20,070 en un mes determinat, que podrien utilitzar- 512 00:29:20,070 --> 00:29:25,252 vincular de nou a un particular, persona per les dades de-anonimat 513 00:29:25,252 --> 00:29:26,710 i descobrir que el va obtenir. 514 00:29:26,710 --> 00:29:30,792 Així que la forma en què podem avoid-- 515 00:29:30,792 --> 00:29:33,750 La forma en què podem tractar d'extreure algun senyal de tota la informació 516 00:29:33,750 --> 00:29:36,740 sense infringir preocupacions sobre la privacitat de ningú 517 00:29:36,740 --> 00:29:42,150 és essencialment mirem 10 anys de dades d'ús, - 518 00:29:42,150 --> 00:29:43,930 >> Així que és durant un llarg període de temps. 519 00:29:43,930 --> 00:29:50,639 >> --i diuen, OK, anem a veure com moltes vegades es va utilitzar aquest treball, 520 00:29:50,639 --> 00:29:52,930 i per que en aquest període de temps, i després bàsicament 521 00:29:52,930 --> 00:29:56,300 retornar un nombre, el que anomenem una puntuació de pila, que, bàsicament, 522 00:29:56,300 --> 00:29:59,910 representa la quantitat que ha estat utilitzat. 523 00:29:59,910 --> 00:30:01,084 I això number-- 524 00:30:01,084 --> 00:30:03,250 Hi ha gran quantitat de càlculs entrar en aquest nombre. 525 00:30:03,250 --> 00:30:05,150 --però que és una molt aspra mètrica que li dóna 526 00:30:05,150 --> 00:30:11,300 una idea de com el comunitat pot valorar aquest treball. 527 00:30:11,300 --> 00:30:16,772 >> I pel que un altre tipus de fins més concretar aplicació 528 00:30:16,772 --> 00:30:18,480 que s'aprofita d'això és una cosa 529 00:30:18,480 --> 00:30:24,000 Stacklife trucada, que és en realitat disponible a través de la principal Harvard 530 00:30:24,000 --> 00:30:24,880 Portal de la Biblioteca. 531 00:30:24,880 --> 00:30:26,700 Així que vas a library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Vostè veurà un nombre de diferents maneres de buscar la biblioteca. 533 00:30:29,360 --> 00:30:32,300 I un d'ells es diu Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> I aquesta és una aplicació que busca el contingut de la biblioteca, 535 00:30:38,980 --> 00:30:43,490 sinó que està completament construït a la part superior d'aquestes API. 536 00:30:43,490 --> 00:30:46,910 Així que no hi ha coses especials passant darrere de les escenes. 537 00:30:46,910 --> 00:30:49,570 No hi ha accés a dades que no hi ha. 538 00:30:49,570 --> 00:30:54,090 Es tracta d'utilitzar les API per proporcionar amb una navegació completament diferent 539 00:30:54,090 --> 00:30:55,480 experiència. 540 00:30:55,480 --> 00:30:58,570 >> Així que si jo busco Alice in Wonderland en aquest cas, 541 00:30:58,570 --> 00:31:02,600 Obtinc un resultat que sembla això, la qual cosa és bastant molt-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> És molt similar a qualsevol altra cerca vostè pot fer, excepte en aquest cas 544 00:31:10,870 --> 00:31:15,730 estem classificant els elements per stackscore, que li dóna 545 00:31:15,730 --> 00:31:19,850 una idea del popular que aquests articles estaven dins de la comunitat. 546 00:31:19,850 --> 00:31:25,610 I amb tanta claredat, Alícia al País de les Meravelles per Walt Disney és molt popular. 547 00:31:25,610 --> 00:31:36,570 Però també es pot veure als quatre primers aquí són les que vostè pot ser que no actually-- 548 00:31:36,570 --> 00:31:39,220 >> Les coses que són molt utilitzats, però no pots immediatament 549 00:31:39,220 --> 00:31:41,240 connectar amb Alícia al País de les Meravelles. 550 00:31:41,240 --> 00:31:44,650 Així que el nostre vell amic el Alícia anotada és aquí. 551 00:31:44,650 --> 00:31:46,350 Així que puc tenir una mirada en ella. 552 00:31:46,350 --> 00:31:52,010 I ara el que estic buscant en és bàsicament un conjunt de-- 553 00:31:52,010 --> 00:31:53,760 Puc tenir la Anotat Alice aquí. 554 00:31:53,760 --> 00:31:56,700 Tinc informació al respecte. 555 00:31:56,700 --> 00:32:00,230 I també tinc un stackscore de, en aquest cas, 26. 556 00:32:00,230 --> 00:32:03,169 I això em diu espècie d'aproximadament com hem arribat a aquesta stackscore, 557 00:32:03,169 --> 00:32:05,835 com que l'hagi facturat a terme, com la forma moltes vegades es marxem, 558 00:32:05,835 --> 00:32:08,440 com a professors o estudiants de llicenciatura, com moltes còpies de la biblioteca té, 559 00:32:08,440 --> 00:32:11,300 i així successivament i així successivament. 560 00:32:11,300 --> 00:32:16,460 >> I vostè pot també, prou interessant aquí, revisar les piles de forma virtual. 561 00:32:16,460 --> 00:32:19,550 Així que les dades aquí, aquesta li està mostrant espècie 562 00:32:19,550 --> 00:32:23,547 d'una representació virtual del que el poder prestatge 563 00:32:23,547 --> 00:32:25,880 veurà com si anés a prendre tots els fons de la biblioteca 564 00:32:25,880 --> 00:32:28,940 i posar-los junts en un prestatge infinit. 565 00:32:28,940 --> 00:32:30,990 I el millor és que can-- 566 00:32:30,990 --> 00:32:33,380 >> En primer lloc, la metadades sobre aquests llibres 567 00:32:33,380 --> 00:32:35,627 sovint li diu quan es va publicar. 568 00:32:35,627 --> 00:32:37,085 Se li indica el nombre de pàgines que té. 569 00:32:37,085 --> 00:32:38,459 Podria dir-te les dimensions. 570 00:32:38,459 --> 00:32:42,930 Així es pot veure que es reflecteix aquí en termes de la mida dels llibres. 571 00:32:42,930 --> 00:32:46,740 >> I llavors podem utilitzar el apilar puntuació per destacar 572 00:32:46,740 --> 00:32:49,170 els llibres que tenen puntuacions més alts de la pila. 573 00:32:49,170 --> 00:32:54,930 Així que si és més fosc, vol dir que, presumiblement, s'utilitza amb més freqüència. 574 00:32:54,930 --> 00:32:57,040 Així que en aquest cas, estic suposarà que aquest 575 00:32:57,040 --> 00:33:03,226 és la versió d'Alícia al País de les Meravelles que s'utilitza amb molta freqüència i més 576 00:33:03,226 --> 00:33:05,100 visitada, la biblioteca té la majoria de les còpies de. 577 00:33:05,100 --> 00:33:06,975 Així que si vostè està buscant per Alícia al país de les meravelles, 578 00:33:06,975 --> 00:33:10,220 això podria ser un bon lloc per començar. 579 00:33:10,220 --> 00:33:13,500 >> I llavors aquí també es pot vincular a terme a, diguem, Amazon per comprar el llibre, 580 00:33:13,500 --> 00:33:15,182 i així successivament i així successivament. 581 00:33:15,182 --> 00:33:17,140 El punt aquí, de nou, no és tant que aquesta 582 00:33:17,140 --> 00:33:25,030 és la millor manera d'explorar la biblioteca o l'eina adequada per a cada ocasió. 583 00:33:25,030 --> 00:33:28,400 Però és una altra manera de fer-ho. 584 00:33:28,400 --> 00:33:31,359 I pel que les dades disponible a través d'una API, que 585 00:33:31,359 --> 00:33:34,650 està fet de blocs de construcció molt simples, que li permet buscar en el contingut, 586 00:33:34,650 --> 00:33:39,420 vostè pot construir alguna cosa com aquest que pot 587 00:33:39,420 --> 00:33:41,520 ser extraordinàriament valuosa per a algunes persones. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Així que això és més o menys, tant com jo vull dir realment sobre el que és l'API 590 00:33:51,860 --> 00:33:56,070 i el que s'exposa, hi ha un conjunt munt de coses darrere de les escenes, que 591 00:33:56,070 --> 00:33:59,480 Jo només vaig a tocar en breu només perquè és una espècie de tracta en aquest 592 00:33:59,480 --> 00:34:03,720 des d'un angle completament diferent a termes de com fa alguna cosa com això 593 00:34:03,720 --> 00:34:04,580 arribar a posar al seu lloc? 594 00:34:04,580 --> 00:34:10,820 >> Així una API és un estàndard interconnectar a tot aquest contingut. 595 00:34:10,820 --> 00:34:13,820 Però per arribar-hi, el El primer que havíem de fer 596 00:34:13,820 --> 00:34:17,260 va ser reunir informació de llibres i imatges 597 00:34:17,260 --> 00:34:21,580 i els instruments de descripció, la col·lecció document de diversos sistemes de Harvard. 598 00:34:21,580 --> 00:34:23,929 Aleph, VIA, i OASIS són els noms dels sistemes. 599 00:34:23,929 --> 00:34:28,820 I essencialment entren en un oleoducte, una canonada de processament. 600 00:34:28,820 --> 00:34:33,230 >> Així, en primer lloc, tenim l'exportació arxius de tots aquests sistemes. 601 00:34:33,230 --> 00:34:35,130 Nosaltres els dividim en elements individuals. 602 00:34:35,130 --> 00:34:39,360 Així que tenim un arxiu, que és d'un gigabyte, que compta amb un milió de discos al mateix. 603 00:34:39,360 --> 00:34:42,290 Així que dividir-lo en elements individuals. 604 00:34:42,290 --> 00:34:45,374 Després, per a cada article, el convertim en MODS, perquè alguns d'ells 605 00:34:45,374 --> 00:34:47,040 són MODS nativa, alguns d'ells no ho són. 606 00:34:47,040 --> 00:34:49,204 Així que tots arribem a estar en el mateix format. 607 00:34:49,204 --> 00:34:51,120 Després hi ha diversos passos d'enriquiment, on 608 00:34:51,120 --> 00:34:55,969 afegim més informació a les dades que estava disponible a la biblioteca. 609 00:34:55,969 --> 00:34:59,750 Així que hem d'afegir, en primer lloc tenim el que les biblioteques han de. 610 00:34:59,750 --> 00:35:02,250 Anem a través d'un pas de el càlcul de la stackscore. 611 00:35:02,250 --> 00:35:07,112 Anem a través d'un pas de l'addició de més metadades en termes 612 00:35:07,112 --> 00:35:10,730 del que la gent col·leccions podria haver afegit esto-- 613 00:35:10,730 --> 00:35:12,532 >> Les persones estan creant col·leccions d'articles. 614 00:35:12,532 --> 00:35:13,990 Què col·leccions també us pertany? 615 00:35:13,990 --> 00:35:17,220 Com han etiquetat persones aquest contingut en el passat? 616 00:35:17,220 --> 00:35:20,750 A continuació, filtrar, i es restringeix els registres, ja que, com he esmentat, 617 00:35:20,750 --> 00:35:24,120 hi ha alguns registres que, a causa de raons de drets d'autor, no podem mostrar. 618 00:35:24,120 --> 00:35:26,700 I després ens carregarem en una cosa anomenada 619 00:35:26,700 --> 00:35:31,680 Solr, que no és una falta d'ortografia, però és el nom d'una peça de programari 620 00:35:31,680 --> 00:35:35,710 que fa la recerca d'indexació, que impulsa tota la recerca darrere de l'API. 621 00:35:35,710 --> 00:35:40,110 I llavors es torna disponible per les API, i les persones poden utilitzar-lo. 622 00:35:40,110 --> 00:35:44,640 >> Així que això és com una justa procés senzill. 623 00:35:44,640 --> 00:35:47,230 Un dels interessant coses sobre ell és 624 00:35:47,230 --> 00:35:50,990 que es tracta amb 13 milions de discos 625 00:35:50,990 --> 00:35:53,820 i estarem tractant o més. 626 00:35:53,820 --> 00:36:01,260 I volem ser capaços de manejar aquests d'una manera relativament ràpida. 627 00:36:01,260 --> 00:36:03,630 Es necessita molt de temps per processar 13 milions de registres. 628 00:36:03,630 --> 00:36:09,529 >> Llavors, com aquesta canonada és establir és que can-- 629 00:36:09,529 --> 00:36:12,070 Suposo que l'avantatge de la canonada, el problema que estem 630 00:36:12,070 --> 00:36:15,580 tractant de resoldre aquí, és que totes les transformacions, tot 631 00:36:15,580 --> 00:36:18,729 aquests passos d'aquest canonada són separables. 632 00:36:18,729 --> 00:36:19,645 No hi ha dependència. 633 00:36:19,645 --> 00:36:22,146 Si vostè està processant un registre d'un llibre, 634 00:36:22,146 --> 00:36:24,270 no hi ha dependència en que entre l'altre llibre. 635 00:36:24,270 --> 00:36:27,760 >> Així que el que podem fer és, bàsicament, en cada pas de la canonada, 636 00:36:27,760 --> 00:36:30,470 el posem en una cua en el núvol. 637 00:36:30,470 --> 00:36:32,250 Em va passar a ser a Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Així que hi ha una llista de, dir, 10.000 articles que 639 00:36:35,140 --> 00:36:38,100 necessita ser normalitzat i convertits a format MODS. 640 00:36:38,100 --> 00:36:41,620 I fem girar el major nombre de servidors com volem, potser 10 servidors. 641 00:36:41,620 --> 00:36:44,860 I cada un d'aquests servidors només senti allà, es veu en aquesta cua, 642 00:36:44,860 --> 00:36:46,730 veu que n'hi ha un que necessita ser processada, la desenganxa de la cua, 643 00:36:46,730 --> 00:36:48,740 processa i pals en la següent cua. 644 00:36:48,740 --> 00:36:54,200 >> I així el que ens permet de fer és aplicar, en essència, 645 00:36:54,200 --> 00:36:58,110 tant de maquinari com volem a aquesta problema per a un període molt curt de temps 646 00:36:58,110 --> 00:37:02,970 per processar les dades tan ràpidament com possible, que és una cosa que només, 647 00:37:02,970 --> 00:37:08,220 ara en el món de la computació en núvol podem els servidors de provisió essencialment 648 00:37:08,220 --> 00:37:09,890 instantàniament, és que útil. 649 00:37:09,890 --> 00:37:12,260 Així que no has de tenir un servidor gegant asseguts al voltant 650 00:37:12,260 --> 00:37:16,700 tot el temps per fer el processament que podria passar només una vegada a la setmana. 651 00:37:16,700 --> 00:37:21,440 >> Així que és sobretot això. 652 00:37:21,440 --> 00:37:27,590 Hi ha documentació disponible per al núvol Biblioteca API d'article 653 00:37:27,590 --> 00:37:31,960 en aquesta direcció, el que farà estarà disponible més endavant. 654 00:37:31,960 --> 00:37:36,730 I si us plau anar a prendre un cop d'ull a a veure si hi ha alguna cosa, 655 00:37:36,730 --> 00:37:37,579 vostè té alguna idea. 656 00:37:37,579 --> 00:37:38,120 Juga amb ella. 657 00:37:38,120 --> 00:37:38,830 Perdre el temps. 658 00:37:38,830 --> 00:37:42,800 I espero que vostè pot venir amb alguna cosa gran. 659 00:37:42,800 --> 00:37:44,740 Gràcies. 660 00:37:44,740 --> 00:37:45,899