JEFFREY LICHT: Hola. Estic Jeffrey Licht. I jo sóc aquí per parlar amb vostè sobre la Biblioteca de la Universitat de Harvard i la construcció del matí biblioteca avui, suposo. Així el fons aquí, el terreny de joc per aquesta sessió és essencialment que hi ha una gran quantitat de dades bibliogràfiques disponibles a les biblioteques de Harvard. I hi ha una oportunitat, a través d'algunes de les eines i un projecte que s'està desenvolupant, per accedir a la informació i portar-la als llocs que la Biblioteca de la Universitat de Harvard no està fent en aquest moment, fer coses noves amb ell, experiment i jugar una estona amb ell. Així que el punt d'entrada en aquesta és una API anomenada la Harvard Biblioteca Núvol, que és un servidor de metadades obert, que vaig a parlar ara. Així que el fons és que hi ha una munt de coses a la biblioteca de la Universitat de Harvard. Tenim més de 13 milions bibliogràfica registres, milions d'imatges, i milers d'instruments de descripció, que són essencialment documents que descriuen col·leccions, dient el hi ha en ells, caixes de papers etc., que representen més del un milió de documents individuals. I també hi ha una gran quantitat de informació que la biblioteca té sobre com s'utilitza el contingut que podria ser d'interès per a les persones que podria voler treballar amb ell. Així que tota la informació la biblioteca compta amb metadades. Així que les metadades són dades sobre dades. Així que quan parlem de la informació que està disponible a través de la biblioteca núvol que està disponible, no és necessàriament els documents reals si mateixos, no necessàriament la plena text dels llibres o les imatges a tot, però, que en realitat pot ser el cas. Però en realitat és informació sobre les dades. Així que vostè pot pensar en la catalogació informació, números de trucada, temes, quantes còpies de la llibre hi ha, el que són les edicions, quins són els formats, els autors, i així successivament. Així que hi ha una gran quantitat d'informació sobre la informació de la col·lecció que, en si mateix, és una espècie de inherentment útil. I encara que si estàs fent una investigació en profunditat, és obvi que vol arribar a la real acontentar i mirar les dades, les metadades és útil en termes de tant l'anàlisi de la corpus en el seu conjunt, com el que són les coses en la col·lecció. Com es relacionen? L'ajuda realment a trobar altres coses, que és realment el propòsit principal de la mateixa. El punt de la metadades i del catàleg és ajudar a trobar de tot la informació que està disponible dins de les col·leccions. Així que aquest és un exemple de metadades d'un llibre a la Biblioteca de la Universitat de Harvard. Així que aquí està. I es pot veure que és en realitat moderadament complex. I part del valor de les metadades dins del sistema de Biblioteca de la Universitat de Harvard és que ha estat una espècie l'acumulat pels catalogadors i muntats per persones que sol·liciten una gran quantitat d'experiència i habilitat i es creu que amb el temps, que té molt valor. Així que si vostè fes un cop d'ull a aquest expedient per Alicia anotada, vostè pot descobrir que tingui el títol, que el va escriure, el autor, i tots els diferents temes Quines persones han catalogat a. I vostè pot veure que hi ha també, en A més d'un munt de bona informació aquí, hi ha certa duplicació. Hi ha una gran quantitat de complexitat que és reflecteix a través de les metadades que té. Així que un títol d'aquest llibre és Les aventures d'Alicia al País de les Meravelles. Així que aquest és un Anotat versió d'aquest llibre. Però també diu El Anotat Alice, les aventures d'Alícia in Wonderland perquè és una cosa que Martin Gardner va escriure i anotada del llibre. I hi ha una gran quantitat d'informació sobre de trencaclosques de lògica i coses dins d'Alice que probablement no conèixer. Així que cal anar llegir. Però vostè pot veure que hi ha molt detall aquí, inclosos els identificadors, quan va ser creat, d'on ve, en termes de la Universitat de Harvard sistema, i així successivament. Així que això és una mostra de el tipus de metadades que vostè pot veure per un llibre en la Col·lecció de la biblioteca de Harvard. Això és una cosa completament diferent. Així que hi ha un sistema anomenat VIA Harvard, que, bàsicament, està catalogant imatges i objectes d'art i les coses visuals al llarg de Harvard, i l'addició d'alguns metadades a ells, classificant, i, en alguns casos, proporcionant petites imatges en miniatura que pot prendre un mira si així ho desitja. Així que aquest és un exemple de la metadades que vostè té per a una placa de, presumiblement, Alícia al País de les Meravelles. I vostè pot veure que hi ha menys metadades aquí. És només un tipus diferent d'objecte. I el que hi ha menys informació. Vostè majoritàriament té el fet que, una trucada nombre, essencialment que el va crear, - No sabem quan es va crear. --i un títol. Un altre exemple. Es tracta d'un instrument de descripció. Així que hi ha una col·lecció de Lewis Treballs de Carroll a Harvard. Així que això descriu el que és en aquesta col·lecció. Així que algú ha passat per i mirat a través de totes les caixes i el va catalogar, donat alguns antecedents, escrit un resum del que hi ha aquí. I si anés a mirar addicionalment a això, aquest continua durant pàgines i pàgines i pàgines, però li dirà quines cartes i què data de quina caixes existit en tota la col·lecció. Però això és una cosa que, si estàs a Harvard, vostè pot anar i realment es veuen físicament i, presumiblement, fer una ullada a. Així que això és genial. D'utilitat Aquestes metadades. Està en el sistema de Biblioteca de la Universitat de Harvard. Hi ha eines en línia on vostè pot anar a prendre una mirada en ella, i veure-ho, i buscar-la. I vostè pot tallar i daus en un munt de diferents maneres. Però en realitat només està disponible si vostè és un ésser humà que se senti baix en el seu navegador web o alguna cosa o el seu telèfon i navegar a través d'ell. En realitat no és disponible en qualsevol tipus de moda utilitzable per a altres sistemes o altres equips a utilitzar, no amb sistemes dins de la Biblioteca de Harvard, però els sistemes al món exterior, només altres persones en general. Llavors la pregunta és, com podem nosaltres posar-lo a disposició dels ordinadors de manera que puguem fer més interessant coses amb ell que amb prou feines navegació per nosaltres mateixos? Així que per què vols fer això? Hi ha un munt de possibilitats. Una d'elles és que podria construir un complet diferent manera de navegació el contingut que està disponible a través de les biblioteques de Harvard. Et vaig a mostrar 1 més tard anomenat Stacklife, que té un completament diferent prendre en la recerca de contingut. Es pot construir un motor de recomanació. Així Biblioteca Harvard no està en el negoci de dir, t'agrada aquest llibre. Després anar a prendre un cop d'ull a aquests altres 17 llibres que us poden interessar o aquests 18 altres imatges. Però que sens dubte podria ser una característica valuosa. I tenint en compte les metadades, pot ser possible ajuntar això. És possible que tingui diferents necessitats en termes de cerca en el contingut, com potser tot i les eines que estan disponibles de que la biblioteca fa disponibles, és possible que vulgueu per buscar d'una manera diferent o optimitzar per a un cas concret, que potser és molt especialitzat. Potser només hi ha uns pocs persones al món que voler buscar el contingut d'aquesta manera, però seria genial si podria deixar que ells facin això. Hi ha una gran quantitat d'anàlisi en tot just com la gent utilitzar el contingut que seria realment interessant per conèixer, descobrir quins llibres s'estan utilitzant, el que no ho són, i així successivament. I després hi ha una gran quantitat de oportunitat d'integrar amb una altra informació això és per aquí a la web. Així que tener-- Per exemple, NPR té un segment de ressenyes de llibres, on entrevisten autors de llibres. I així que seria genial si fossis buscar un llibre a la Universitat de Harvard Biblioteca, i dius, OK, no hi ha estat una entrevista amb l'autor. Anem a fer una ullada a això. O hi ha una pàgina de Wikipedia, com referència autoritzada, acadèmic sobre aquest llibre que pot ser que vulgui fer una ullada a. Hi ha aquests tipus de fonts dispersos per tot el web. I reunint podria ser un gran ús per a algú que busca en el contingut, a la recerca d'alguna cosa. Però també no és el tipus de cosa que vol que la biblioteca sigui responsable per baixar i la caça de totes aquestes diferents fonts i connectar junts perquè estan en continu canvi. I el que ells pensen que és important maig no ser el que vostè pensa és important. I més encara, en el fons hi ha una munt de coses que no hem pensat encara. Així que si podem obrir això, més persones, a més d'una mitja dotzena o així, que estan mirant això en un de forma regular pot pensar en idees i massatges les dades, i facin el que vulguin amb ell. Així que volem fer d'aquest les dades disponibles per al món. Bé, hi ha un parell de complicacions. Una és que aquests metadades és en diferents sistemes. Està en diferents formats. Així que hi ha certa normalització que ha de succeir, que la normalització és el procés de portant coses de diferents formats i mapar a un únic format perquè els camps coincidiran. Hi ha algunes restriccions de copyright. Per estrany que sembli, l'entrada del catàleg sobre un llibre es fa responsable dels drets d'autor. Així que, encara que és només informació derivada de la llibre, és dret d'autor. I depenent que en realitat creat que les metadades, pot haver restriccions sobre qui pot distribuir-lo, A-- similars No ho sé. Pot o pot no ser similar a la situació de les lletres de cançons, per exemple. Així que tots sabem el que surt bé. Així que cal aconseguir al voltant d'aquest tema. I després una altra peça és que hi ha una gran quantitat de dades. Així que si jo sóc algú que vol treballar amb les dades o té una idea genial, tractar amb 14 milions registres en el meu portàtil podria ser problemàtic i difícil de manejar. Així que volem reduir les barreres per a les persones per poder treballar amb les dades. El que l'enfocament que s'espera adreces totes aquestes preocupacions és dues parts. Un és la construcció d'una plataforma que pren les dades de totes aquestes fonts dispars i l'agreuja, normalitza, l'enriqueix, i marques a disposició en un sol lloc. I ho fa disponible a través de una API pública que la gent pot trucar. Així que una API és una aplicació Interfície de programació. I bàsicament es refereix a un punt final que un sistema o tecnologia pot trucar i obtenir dades de tornada a un format estructurat d'una manera que es pot utilitzar. Així que no és dependent a anar a un lloc web i raspant dades fora de la mateixa, per exemple. Així que aquesta és la pàgina principal de Cloud Library API d'article, que és essencialment la seva versió dos. Així que és la segona iteració de tractant de fer totes aquestes dades a disposició del món. Pel que és http://api.lib.harvard.edu/v2/items. I només per descompondre una mica, el que això significa és que aquesta és la segona versió de l'API. Hi ha una versió d'un, el que Jo no vaig a parlar. Però hi ha una versió d'un. I si vostè està trucant a aquest API, que està rebent els articles. I parteix de la idea d'un API és una API és un contracte. És una cosa que és no canviarà. Així, per exemple, - I la raó és que si jo construir algun tipus de sistema que es va a utilitzar una API de biblioteca de núvol per mostrar llibres o ajudar a la gent a trobar informació d'una manera única, el que no volem que passi és per a nosaltres anar canviar la forma que funciona API, i de sobte tot el que es trenca en el costat de l'usuari final. Així que part de si estàs fent API a disposició del món, és bones pràctiques per posar un nombre de versió en ella perquè la gent saben quina versió s'està tractant. Així que si decidim trobem una millor manera de fer que aquesta informació estigui disponible, podríem canviar això a cridar a aquesta versió 3. Així que tot el que encara està utilitzant versió dos, que encara va a treballar. Però la versió de tres faria tenir totes les coses noves. Així que aquest és un API, però aquesta Realment sembla un URL. I així el que es tracta d'una exemple del que és la anomenat API resta, que està disponible sobre només una connexió web normal. I en realitat es pot anar-hi en un navegador. Així que aquí Acabo d'obrir Firefox i anat a api.lib.harvard.edu/v2/items. I així ho he arribat fins aquí és bàsicament la primera pàgina dels resultats de la totalitat conjunt d'elements que ens tenim. I és aquí en format XML. I també ha estat prettified per Firefox. En realitat, no té tots aquests poca expansió i contracció doohickeys aquí. Aquesta és una espècie d'agradable Versió manera de veure-ho. Però el que això ens està dient és He demanat a tots els articles. Així que hi ha 13.289.475 articles. I estic buscant a la primera 10, començant en la posició zero perquè en ciències de la computació sempre comencem a zero. I el que tinc aquí, si acabo de col·lapsar això, veuràs que tinc 10 articles. I si em prenc un cop d'ull a un article, puc veig que tinc informació al respecte. I això és en el que s'anomena forma MODS. I així em vaig a canviar tornar aquí per un moment. D'acord. Així que anem a buscar alguna cosa a específic perquè el primer element que passa per arribar quan es mira a través de tota la col·lecció és, per definició, a l'atzar. Així que donem una ullada a alguns donuts. Oh. D'acord. Així donas. Així trobem que hi ha 80 articles en la col·lecció que la referència donuts. Estem pensant en el primer 10 d'ells. Ara, es pot veure aquí la forma en què Li vaig dir que estic buscant donas, Acabo d'afegir alguna cosa a la cadena de consulta de la URL. Així q és igual a rosquilles, que es pot veure una mica més fàcil aquí. I això bàsicament vol dir que hi ha una especificació de l'API, que defineix el que tots aquests paràmetres signifiquen. I això vol dir que anem a buscar tot per donas. Així que el primer article aquí tenim es pot veure el títol és Donuts, i hi ha un subtítol anomenat Un American Passion, que és, suposo, apropiat. Hi ha un munt de diferent-- Un cop al punt d'obtenir les dades, hi ha un munt de diferents formats que vostè pot aconseguir a. I hi ha diferents punts forts i debilitats per a tots ells. Així que aquest, vostè pot veure aquí, aquesta forma és molt rica. I ha estat estandarditzada. Així que hi ha un títol específic camp, un camp de subtítols. Hi ha un suplent títol, An American Passion. No és el nom associat amb ell. Tipus del recurs és text. Hi ha una gran quantitat d'informació aquí en aquest format. Però hi ha un munt de formats diferents. Així que el que estàvem veient és un format anomenats MODS, que significa Metadades d'objecte Descripció Servei, potencialment. En realitat estic molt segur sobre la S. Però és un format bastant complexa. És el format per defecte. Però és la que manté la riquesa de totes les dades que la biblioteca té perquè que és molt proper al que La biblioteca utilitza internament. És una norma que és utilitzat en tot el país, a tot el món a les biblioteques universitàries. I és molt interoperable. Així que si vostè té un document que està en format MODS, vostè pot donar-li això a una altra persona els sistemes entenen MODS, i poden importar. Així que és un estàndard. Està molt ben definit, molt específic. I això és el que el fa interoperable perquè si algú diu, aquest és el títol alternatiu d'una registre, tothom sap el que això significa. D'altra banda, és molt complicat. Així que si vostè fes un cop d'ull en aquest disc aquí, si només vull aconseguir el títol d'aquest document, d'aquest llibre, que és probablement Donuts, Una passió americana, analitzar-fora és una mica involucrats. Mentre que hi ha un altre format anomenat Dublin Core, que és un format molt, molt més simple. I pel que es veu aquí, no hi ha títol, subtítol, títol alternatiu. No és només el títol, Donuts, An American Passion, i un nou títol, American Passion. Així que quan vostè està buscant en quina forma Per obtenir les dades de, molt depèn de com vas a usar-lo. Està utilitzant per interoperabilitat o vostè volen alguna cosa simple que podria ser més fàcil treballar amb ell? D'altra banda, una gran part del detalls aconsegueixen espècie de aixafades cap avall. És possible que perdi els matisos de el que significa una determinada parcel·la si vostè està tractant amb Dublin Core, que no et donen amb MODS. Així que aquests són dos dels formats vostè pot sortir de l'API. I en el fons, estem mantenint darrere de les escenes en MODS. Però podem donar-li a MODS i Dublin Core i tota la resta també. L'altra consideració quan vostè està buscant en les dades és que vostè pot aconseguir com sigui JSON, que és sinònim de JavaScript Object Notation, o XML, el que significa Extensible Markup Language. I aquestes representacions de dades tant tenir exactament les mateixes dades, exactament els mateixos camps. Però són només sintàcticament diferent. Així que això és A-- Bé, anem a canviar. Així que aquesta és la nostra consulta per donas en format XML. Si només em canvi que es tracta de JSON, Puc veure que es veu diferent. Així que ara aquest és el mateix contingut, però una estructura diferent. Hi ha menys parèntesis angulars. Hi ha menys detallat. I aquest és un format que, si estan treballant en l'entorn web, vostè és més probable va a voler utilitzar perquè un de les coses bones de JSON és és compatible amb JavaScript. Així que si estic escrivint aplicació web, puc tirar en JSON i simplement treballar directament amb ell. Mentre que amb XML, és un poc més complicat. Així que de nou, aquests són alhora útil. Ells només són diferents casos d'ús on la gent podria voler usar-los. D'acord. Així que de tornada a l'API. Així que podem buscar la finalitat de: Dono un exemple de la recerca de donuts. Podem buscar només en un en particular de camp dins d'aquí. Així que en lloc de buscar la totalitat de l'expedient, Només puc buscar el camp de títol. I pel que ara hi ha 25 coses que tenir donuts en el títol, un dels quals és sobre la restauració aiguamolls en la gestió del forat de la rosquilla programa, que és probablement no necessàriament el que estem buscant per quan estem a la recerca de donuts. També pot, quan estàs tractar amb un API-- Part d'haver una API està donant persones l'accés a grans conjunts de dades. I hi ha un parell diferent eines que pot utilitzar per fer això. Un d'ells és, simplement, que pot desplaçar-se per les dades. Així com si vostè fa una consulta a través d'una interfície web, es pot veure a la pàgina un, la segona pàgina, la pàgina tres. Vostè pot fer el mateix cosa a través de l'API. Vostè només ha de ser explícit en com ho fa. Així, per exemple, si estic buscant en la meva primera consulta aquí, on jo estic fent una recerca de les coses amb donuts en el títol, el que puc dir, i el límit és igual a 20, el que significa dóna'm els primers 20 registres, no el primer 10, que és el valor per defecte, perquè vull mirar a 20 alhora. O el que puc dir, establir el iniciar igual a 20 i el límit igual a 20, el que donarà em Registres 21 a 40. Així que suposo que la cosa per portar aquí és que estem fent servir les cadenes de consulta per establir els paràmetres de la consulta. I et permet el control el que rep. Una altra de les eines que pot utilitzar, - I això és realment útil en termes de l'exploració de les dades. --És Una cosa anomenada facetat. Així el terme facetat és no necessàriament comú. Però tots vostès ho ha vist abans. Si fes un cop d'ull a Amazon, per exemple, i vostè fa una recerca per donuts en els llibres, aquí el que tenen una sèrie de llibres, i que estan agrupats per categoria, i et donen les diferents categories, i el nombre de llibres en cada categoria aparèixer. Així que això és bàsicament una faceta. Vostè pren tots els seus llibres, el 1800 llibres que coincideixin amb feu donació a Amazon. 12 d'ells estan en el categoria d'esmorzar. 21 en pastisseria i fleca, i així successivament i així successivament. Així que això és realment una eina eina per explorar el contingut dins de la biblioteca, així perquè quan ens fixem en una faceta, que et dóna una idea de quins temes existeix, com quins tipus de temes són les més populars dins del seu conjunt de consultes. I ajuda d'anar-se'n i explorar. Pel que podem fer el mateix. Si volem utilitzar el API i mirar facetes, afegim un altre paràmetre a la nostra amiga la cadena de consulta. Així facetes iguals separats per comes llista del que volem en la faceta. Així que una de les facetes podria estar subjecte. Un altre podria ser idioma. I pel que si correm aquesta consulta, ens get-- Es veu més o menys el mateix aquí. Però hem afegit al final de la llista d'un conjunt de facetes. Així que tenim una faceta anomenada matèria. Així que això ens està dient que si miro als meus 80 resultats de la consulta d'rosquilla, 13 d'ells tenen la sotmetre Estats Units. Tres tenen els donuts subjectes. Tres tenen el tema de la restauració d'aiguamolls, que pot ser el nostre forat de la dona. Dos d'ells, els Simpsons, i així successivament i així successivament. Així que això pot ser útil si vostè volen reduir la cerca. Pot ajudar a fer això. Especialment si vostè té més de, diguem, 80 resultats. De la mateixa manera, també demanem de facetes en el llenguatge. Així que si ens fixem en els nostres resultats, veiem 76 d'ells estan en Anglès, quatre en francès, dos a espanyol, dos, crec que això és indefinit o desconegut, holandès i llatí. Així que crec que l'Amèrica rosquilla resultat, de nou, no té res a veure amb els productes forn. Però cal anar. Així que això és una espècie de mostra que com es pot tirar el contingut de nou de l'API només a través de navegador web, la qual cosa és genial. Però en realitat no és el que ho faria normalment utilitzant en API per a això. Així que un exemple de com es en realitat podria fer això és que he escrit un super petit programa, que, de nou, què la cerca rosquilla i seleccioneu un parell de camps i les mostra en una taula. Així que això és molt el mateix contingut que acabem de serra amb alguns camps treure. Així llista de títols, els ubicació del que el llibre està a punt, l'idioma, i així successivament i així successivament. Llavors, com això va succeir realment, ja que Crec que hem de mirar una mica de codi, és-- El que tenim aquí és un simple HTML La pàgina, que mostra el text, la benvinguda al núvol biblioteca i a continuació, mostra una taula de resultats. I òbviament no hi ha resultats a la taula quan la pàgina es carrega. Però el que estem fent és, en primer lloc, que es carrega d'una biblioteca anomenada jQuery, que és bàsicament una biblioteca de JavaScript, que fa molt fàcil de manipular JavaScript nativament, HTML i crear pàgines web, lògica del costat del client i pàgines web. Així que el que tenim aquí és jQuery té un mètode anomenat Get, que essencialment es destinarà a una URL, que, en aquest cas, és aquesta URL d'aspecte familiar. I després obtenir el contingut de aquesta URL i executi una funció en ell. Llavors vam dir anar a api.lib.harvard / edu. Cerca de donuts. Dóna'ns 20 registres. I a continuació, executeu aquesta funció, que He seleccionat, passant-li les dades. I les dades és la que JSON va aconseguir tornar de l'API. I llavors el que estem dient, dins d'aquest dades hi ha un camp anomenat article. I si em vaig fer una ullada enrere en un d'aquests resultats que està aquí, hi ha alguna cosa called-- Bé, es diu element. Així que pot ser això. I el que fa és que passa a través de cada element i després crida a un altre funció en cada element. I aquesta funció, bàsicament, està prenent el valor del tema, que és essencialment el registre individual i ens permet treure el títol, la cobertura i l'idioma. Així que cridem a una funció en cada element que tornem de l'API. I si vostè acaba de prendre un cop d'ull en aquesta peça aquí, el que estem fent és estem creant una cadena, que és essencialment una mica de marcat HTML al voltant d'una taula, amb value.title, que és el títol de la objecte, value.coverage, que és la cobertura, - I estem fent un xec aquí per veure qui és indefinit i ocultar si diu indefinit, perquè no estem realment interessats en això. -i després l'idioma. I llavors el que estem fent és agregant que a la taula que és identificat per aquesta cadena aquí. I com funciona jQuery és el que això està dient és buscar la taula amb idea resultats i afegir text a ell. I aquesta és la taula amb resultats idea. Així que el que vostè acaba amb és aquesta pàgina aquí. I per tal de veure source-- Bé, la font no és en realitat actualitzat quan això va succeir. Així que vostè pot veure el real Els resultats de la taula aquí però. Així que això és només un exemple simple de fent una consulta molt bàsica en contra de l'API i mostrar la informació en algun altre formar, i no fer res massa luxós. Ara, un altre exemple és com una sol·licitud per escrit per David Weinberger com una demostració d'això, el que en essència el que mostra com es pot triturar els resultats que busques rebent de l'API de biblioteca núvol amb, per exemple, Google Books. I el pensament aquí és que puc executar una consulta a Google Books, obtenir una recerca de text complet, obtenir alguns resultats esquena, esbrinar quin d'aquests articles en realitat existeixen en Hollis, el sistema de biblioteques, i després donar-me enllaços de nou a aquests articles. Així que si jo busco, que era una nit fosca i tempestuosa, em tornar un munt de resultats de Google, i després un dels resultats que és una arruga en el temps. I aquests són els enllaços als llibres que existeixen dins del sistema de Biblioteca de la Universitat de Harvard. Així que suposo que el punt aquí no és tant que això pot o no ser el camí que desitja per buscar a la biblioteca, però és un completament diferent de manera que no estava disponible per a vostè abans, com que no tenia manera de fer recerques de text complet en els llibres que fins i tot eren part del sistema de Biblioteca de la Universitat de Harvard. Així que ara aquesta és una manera que vostè pot fer això. I vostè pot mostrar-los en qualsevol format que desitgi. Així que el punt aquí és, bàsicament, estem obrint nous camins per a la gent per treballar amb les dades. Un altre tros de núvol biblioteca és que ajuda a exposar algunes de les dades d'ús que la biblioteca té. Així que si vas a la biblioteca, i que està buscant per als llibres, No necessàriament realment tenir una idea de, per a tots els elements d'una tema en particular, el que són persones al comunitat, ja sigui definida com Harvard o la país o de la seva classe, ¿Què han trobat més útil? I la biblioteca té en realitat un tona d'informació sobre el que és més útil perquè si un munt de la gent està mirant un llibre, que et diu alguna cosa. Hi ha d'haver hagut alguna raó volen comprovar-ho. Molta gent el va posar en servei. Si és a la llista de reserva per a molts de les classes, que et diu alguna cosa. Si els membres de la facultat estan comprovant que fos molt i estudiants universitaris no són, això em diu alguna cosa. Viceversa, que també et diu alguna cosa. Així que seria molt interessant posar aquesta informació per aquí i deixar persones l'utilitzen per ajudar-los a trobar que funciona dins del sistema de biblioteques. L'altra cara d'això és hi ha una mica de privacitat greu preocupacions perquè una de les principis bàsics de la biblioteca és que no estarem dient la gent el que estan llegint altres persones. I fins i tot si vostè està dient això llibre va ser desprotegit quatre vegades en un mes determinat, que podrien utilitzar- vincular de nou a un particular, persona per les dades de-anonimat i descobrir que el va obtenir. Així que la forma en què podem avoid-- La forma en què podem tractar d'extreure algun senyal de tota la informació sense infringir preocupacions sobre la privacitat de ningú és essencialment mirem 10 anys de dades d'ús, - Així que és durant un llarg període de temps. --i diuen, OK, anem a veure com moltes vegades es va utilitzar aquest treball, i per que en aquest període de temps, i després bàsicament retornar un nombre, el que anomenem una puntuació de pila, que, bàsicament, representa la quantitat que ha estat utilitzat. I això number-- Hi ha gran quantitat de càlculs entrar en aquest nombre. --però que és una molt aspra mètrica que li dóna una idea de com el comunitat pot valorar aquest treball. I pel que un altre tipus de fins més concretar aplicació que s'aprofita d'això és una cosa Stacklife trucada, que és en realitat disponible a través de la principal Harvard Portal de la Biblioteca. Així que vas a library.harvard.edu. Vostè veurà un nombre de diferents maneres de buscar la biblioteca. I un d'ells es diu Stacklife. I aquesta és una aplicació que busca el contingut de la biblioteca, sinó que està completament construït a la part superior d'aquestes API. Així que no hi ha coses especials passant darrere de les escenes. No hi ha accés a dades que no hi ha. Es tracta d'utilitzar les API per proporcionar amb una navegació completament diferent experiència. Així que si jo busco Alice in Wonderland en aquest cas, Obtinc un resultat que sembla això, la qual cosa és bastant molt-- És molt similar a qualsevol altra cerca vostè pot fer, excepte en aquest cas estem classificant els elements per stackscore, que li dóna una idea del popular que aquests articles estaven dins de la comunitat. I amb tanta claredat, Alícia al País de les Meravelles per Walt Disney és molt popular. Però també es pot veure als quatre primers aquí són les que vostè pot ser que no actually-- Les coses que són molt utilitzats, però no pots immediatament connectar amb Alícia al País de les Meravelles. Així que el nostre vell amic el Alícia anotada és aquí. Així que puc tenir una mirada en ella. I ara el que estic buscant en és bàsicament un conjunt de-- Puc tenir la Anotat Alice aquí. Tinc informació al respecte. I també tinc un stackscore de, en aquest cas, 26. I això em diu espècie d'aproximadament com hem arribat a aquesta stackscore, com que l'hagi facturat a terme, com la forma moltes vegades es marxem, com a professors o estudiants de llicenciatura, com moltes còpies de la biblioteca té, i així successivament i així successivament. I vostè pot també, prou interessant aquí, revisar les piles de forma virtual. Així que les dades aquí, aquesta li està mostrant espècie d'una representació virtual del que el poder prestatge veurà com si anés a prendre tots els fons de la biblioteca i posar-los junts en un prestatge infinit. I el millor és que can-- En primer lloc, la metadades sobre aquests llibres sovint li diu quan es va publicar. Se li indica el nombre de pàgines que té. Podria dir-te les dimensions. Així es pot veure que es reflecteix aquí en termes de la mida dels llibres. I llavors podem utilitzar el apilar puntuació per destacar els llibres que tenen puntuacions més alts de la pila. Així que si és més fosc, vol dir que, presumiblement, s'utilitza amb més freqüència. Així que en aquest cas, estic suposarà que aquest és la versió d'Alícia al País de les Meravelles que s'utilitza amb molta freqüència i més visitada, la biblioteca té la majoria de les còpies de. Així que si vostè està buscant per Alícia al país de les meravelles, això podria ser un bon lloc per començar. I llavors aquí també es pot vincular a terme a, diguem, Amazon per comprar el llibre, i així successivament i així successivament. El punt aquí, de nou, no és tant que aquesta és la millor manera d'explorar la biblioteca o l'eina adequada per a cada ocasió. Però és una altra manera de fer-ho. I pel que les dades disponible a través d'una API, que està fet de blocs de construcció molt simples, que li permet buscar en el contingut, vostè pot construir alguna cosa com aquest que pot ser extraordinàriament valuosa per a algunes persones. Així que això és més o menys, tant com jo vull dir realment sobre el que és l'API i el que s'exposa, hi ha un conjunt munt de coses darrere de les escenes, que Jo només vaig a tocar en breu només perquè és una espècie de tracta en aquest des d'un angle completament diferent a termes de com fa alguna cosa com això arribar a posar al seu lloc? Així una API és un estàndard interconnectar a tot aquest contingut. Però per arribar-hi, el El primer que havíem de fer va ser reunir informació de llibres i imatges i els instruments de descripció, la col·lecció document de diversos sistemes de Harvard. Aleph, VIA, i OASIS són els noms dels sistemes. I essencialment entren en un oleoducte, una canonada de processament. Així, en primer lloc, tenim l'exportació arxius de tots aquests sistemes. Nosaltres els dividim en elements individuals. Així que tenim un arxiu, que és d'un gigabyte, que compta amb un milió de discos al mateix. Així que dividir-lo en elements individuals. Després, per a cada article, el convertim en MODS, perquè alguns d'ells són MODS nativa, alguns d'ells no ho són. Així que tots arribem a estar en el mateix format. Després hi ha diversos passos d'enriquiment, on afegim més informació a les dades que estava disponible a la biblioteca. Així que hem d'afegir, en primer lloc tenim el que les biblioteques han de. Anem a través d'un pas de el càlcul de la stackscore. Anem a través d'un pas de l'addició de més metadades en termes del que la gent col·leccions podria haver afegit esto-- Les persones estan creant col·leccions d'articles. Què col·leccions també us pertany? Com han etiquetat persones aquest contingut en el passat? A continuació, filtrar, i es restringeix els registres, ja que, com he esmentat, hi ha alguns registres que, a causa de raons de drets d'autor, no podem mostrar. I després ens carregarem en una cosa anomenada Solr, que no és una falta d'ortografia, però és el nom d'una peça de programari que fa la recerca d'indexació, que impulsa tota la recerca darrere de l'API. I llavors es torna disponible per les API, i les persones poden utilitzar-lo. Així que això és com una justa procés senzill. Un dels interessant coses sobre ell és que es tracta amb 13 milions de discos i estarem tractant o més. I volem ser capaços de manejar aquests d'una manera relativament ràpida. Es necessita molt de temps per processar 13 milions de registres. Llavors, com aquesta canonada és establir és que can-- Suposo que l'avantatge de la canonada, el problema que estem tractant de resoldre aquí, és que totes les transformacions, tot aquests passos d'aquest canonada són separables. No hi ha dependència. Si vostè està processant un registre d'un llibre, no hi ha dependència en que entre l'altre llibre. Així que el que podem fer és, bàsicament, en cada pas de la canonada, el posem en una cua en el núvol. Em va passar a ser a Amazon Web Services. Així que hi ha una llista de, dir, 10.000 articles que necessita ser normalitzat i convertits a format MODS. I fem girar el major nombre de servidors com volem, potser 10 servidors. I cada un d'aquests servidors només senti allà, es veu en aquesta cua, veu que n'hi ha un que necessita ser processada, la desenganxa de la cua, processa i pals en la següent cua. I així el que ens permet de fer és aplicar, en essència, tant de maquinari com volem a aquesta problema per a un període molt curt de temps per processar les dades tan ràpidament com possible, que és una cosa que només, ara en el món de la computació en núvol podem els servidors de provisió essencialment instantàniament, és que útil. Així que no has de tenir un servidor gegant asseguts al voltant tot el temps per fer el processament que podria passar només una vegada a la setmana. Així que és sobretot això. Hi ha documentació disponible per al núvol Biblioteca API d'article en aquesta direcció, el que farà estarà disponible més endavant. I si us plau anar a prendre un cop d'ull a a veure si hi ha alguna cosa, vostè té alguna idea. Juga amb ella. Perdre el temps. I espero que vostè pot venir amb alguna cosa gran. Gràcies.