1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY Licht: Hi there. 3 00:00:12,370 --> 00:00:13,550 Estou Jeffrey Licht. 4 00:00:13,550 --> 00:00:17,890 E eu estou aquí para falar con vostede sobre o Harvard Biblioteca e construción de mañá 5 00:00:17,890 --> 00:00:20,870 biblioteca hoxe, eu creo. 6 00:00:20,870 --> 00:00:23,040 Así, o fondo aquí, o terreo de xogo para esta sesión 7 00:00:23,040 --> 00:00:26,930 é que non hai esencialmente unha morea de datos bibliográficos 8 00:00:26,930 --> 00:00:28,400 dispoñible en bibliotecas de Harvard. 9 00:00:28,400 --> 00:00:33,434 E hai unha oportunidade, a través dalgunhas das ferramentas 10 00:00:33,434 --> 00:00:36,350 e un proxecto que está a ser desenvolvido, para obter o acceso á información 11 00:00:36,350 --> 00:00:42,430 e levalo a lugares que o Biblioteca de Harvard non está facendo agora, 12 00:00:42,430 --> 00:00:45,460 facer cousas novas con el, experimento e xogar con el. 13 00:00:45,460 --> 00:00:52,413 >> Así, o punto de entrada para esta é unha API chamado de Harvard Biblioteca Nube, que 14 00:00:52,413 --> 00:00:57,650 é un servidor de metadatos aberto, que eu vou falar agora. 15 00:00:57,650 --> 00:01:02,595 Así, o fondo é de que hai un chea de cousas na biblioteca de Harvard. 16 00:01:02,595 --> 00:01:07,150 Temos máis de 13 millóns de bibliográfica rexistros, millóns de imaxes, 17 00:01:07,150 --> 00:01:11,090 e miles de instrumentos de descrición, que son esencialmente documentos que describen 18 00:01:11,090 --> 00:01:15,500 coleccións, dicindo que hai neles, caixas de papeis 19 00:01:15,500 --> 00:01:21,080 etc., que representan máis de un millón de documentos individuais. 20 00:01:21,080 --> 00:01:24,290 E hai tamén unha chea de información que a biblioteca ten 21 00:01:24,290 --> 00:01:28,180 sobre a forma como o contido se usa que podería ser de interese para as persoas 22 00:01:28,180 --> 00:01:32,400 que pode querer traballar con el. 23 00:01:32,400 --> 00:01:36,150 >> Así, toda a información a biblioteca ten metadatos. 24 00:01:36,150 --> 00:01:39,500 Entón metadatos son datos sobre datos. 25 00:01:39,500 --> 00:01:42,070 Así, cando falamos de a información que é 26 00:01:42,070 --> 00:01:44,890 dispoñible na biblioteca nube que está dispoñible, 27 00:01:44,890 --> 00:01:47,760 non é necesariamente os documentos reais 28 00:01:47,760 --> 00:01:53,060 eles mesmos, non necesariamente a total texto de libros ou as imaxes completas, 29 00:01:53,060 --> 00:01:54,890 con todo, que, de feito, pode ser o caso. 30 00:01:54,890 --> 00:01:57,550 Pero é realmente información sobre os datos. 31 00:01:57,550 --> 00:02:00,909 >> Entón pode pensar de catalogación información, números de teléfono, temas, 32 00:02:00,909 --> 00:02:02,700 cantas copias do libro hai, o que 33 00:02:02,700 --> 00:02:06,380 son as edicións, cales son os formatos, os autores, e así por diante. 34 00:02:06,380 --> 00:02:12,250 Polo tanto, hai unha morea de información sobre a información contida na colección que, 35 00:02:12,250 --> 00:02:14,400 en si mesmo, é unha especie de inherentemente útil. 36 00:02:14,400 --> 00:02:19,230 E, aínda que se é facer investigación en profundidade, 37 00:02:19,230 --> 00:02:25,160 obviamente quere chegar ao real contentar-se e ollar os datos, 38 00:02:25,160 --> 00:02:30,140 os metadatos é útil en termos de tanto na análise o corpo como un todo, 39 00:02:30,140 --> 00:02:33,870 como o que as cousas son na colección. 40 00:02:33,870 --> 00:02:35,520 Como se relacionan? 41 00:02:35,520 --> 00:02:39,482 El axuda realmente atopar outras cousas, o que é realmente a principal finalidade do mesmo. 42 00:02:39,482 --> 00:02:41,190 O punto de partida da metadatos e do catálogo 43 00:02:41,190 --> 00:02:43,230 é axudar a atopar todos a información que é 44 00:02:43,230 --> 00:02:46,590 dispoñible dentro das coleccións. 45 00:02:46,590 --> 00:02:53,690 >> Polo tanto, este é un exemplo de metadatos para un libro na Biblioteca de Harvard. 46 00:02:53,690 --> 00:02:56,370 Entón, el está aí. 47 00:02:56,370 --> 00:02:59,850 E podes ver que é en realidade, moderadamente complexa. 48 00:02:59,850 --> 00:03:04,610 E parte do valor dos metadatos dentro do sistema de biblioteca de Harvard 49 00:03:04,610 --> 00:03:09,320 é que foi sorte de construído por catalogadores 50 00:03:09,320 --> 00:03:12,720 e montada por persoas que solicitan moita destreza e habilidade 51 00:03:12,720 --> 00:03:20,030 e pensado para que ao longo do tempo, que ten unha morea de valor. 52 00:03:20,030 --> 00:03:25,450 >> Entón, se der un ollo neste rexistro para The Annotated Alicia, pode descubrir 53 00:03:25,450 --> 00:03:32,590 ten o título, que o escribiu, o autor, e todos os distintos temas 54 00:03:32,590 --> 00:03:35,380 cal as persoas teñen catalogado-lo en. 55 00:03:35,380 --> 00:03:40,110 E podes ver que hai tamén, en Ademais de unha chea de boas información 56 00:03:40,110 --> 00:03:42,852 aquí, hai algunha duplicación. 57 00:03:42,852 --> 00:03:45,560 Hai unha morea de complexidade que é reflectida a través dos metadatos 58 00:03:45,560 --> 00:03:46,300 que ten. 59 00:03:46,300 --> 00:03:50,320 >> Así, un título deste libro é As aventuras de Alicia no país das marabillas. 60 00:03:50,320 --> 00:03:53,880 Polo tanto, esta é unha anotada versión dese libro. 61 00:03:53,880 --> 00:03:56,380 Pero tamén é chamado de The Annotated Alicia, de Alicia Adventures 62 00:03:56,380 --> 00:03:58,570 no país das marabillas, porque é algo que 63 00:03:58,570 --> 00:04:00,430 Martin Gardner escribiu e anotada do libro. 64 00:04:00,430 --> 00:04:03,369 E hai un gran lote de información sobre enigmas de lóxica e cousas 65 00:04:03,369 --> 00:04:05,410 dentro de Alicia que probablemente non sabía. 66 00:04:05,410 --> 00:04:07,000 Entón ten que ir lelo. 67 00:04:07,000 --> 00:04:11,940 >> Pero podes ver que non hai unha morea de detalles aquí, 68 00:04:11,940 --> 00:04:15,340 incluíndo identificadores, cando foi creado, de onde veu, 69 00:04:15,340 --> 00:04:17,420 en termos de Harvard sistema, e así por diante. 70 00:04:17,420 --> 00:04:20,350 Polo tanto, esta é unha mostra de o tipo de metadatos 71 00:04:20,350 --> 00:04:24,340 que se pode ver nun libro en da colección da Biblioteca Harvard. 72 00:04:24,340 --> 00:04:26,680 >> Isto é algo completamente diferente. 73 00:04:26,680 --> 00:04:32,610 Polo tanto, hai un sistema chamado VIA Harvard, que basicamente 74 00:04:32,610 --> 00:04:39,990 está catalogando imaxes e obxectos de arte e as cousas visuais en todo Harvard, 75 00:04:39,990 --> 00:04:44,010 e engadindo algúns metadatos para eles, clasificándose os, 76 00:04:44,010 --> 00:04:49,200 e, nalgúns casos, proporcionando pequenas imaxes en miniatura 77 00:04:49,200 --> 00:04:51,250 que pode tomar un vexa se así o desexa. 78 00:04:51,250 --> 00:04:54,240 >> Polo tanto, este é un exemplo do metadatos que ten para unha tarxeta 79 00:04:54,240 --> 00:04:57,840 de, presuntamente, Alicia no país das marabillas. 80 00:04:57,840 --> 00:05:00,499 E podes ver que non hai menos metadatos aquí. 81 00:05:00,499 --> 00:05:02,040 É só un tipo de obxecto. 82 00:05:02,040 --> 00:05:03,425 E por iso hai menos información. 83 00:05:03,425 --> 00:05:07,790 >> Está na súa maioría teñen o feito de que, unha chamada número, esencialmente, que o creou, - 84 00:05:07,790 --> 00:05:10,410 >> Non sabemos cando foi creado. 85 00:05:10,410 --> 00:05:13,320 >> -E un título. 86 00:05:13,320 --> 00:05:14,300 >> Outro exemplo. 87 00:05:14,300 --> 00:05:16,380 Este é un instrumento de investigación. 88 00:05:16,380 --> 00:05:19,030 Polo tanto, hai unha colección de Lewis Fondos de Carroll en Harvard. 89 00:05:19,030 --> 00:05:23,601 Entón, iso describe o que é nesa colección. 90 00:05:23,601 --> 00:05:26,100 Entón, alguén pasou por e mirou a través de todas as caixas 91 00:05:26,100 --> 00:05:32,220 e catalogado-lo, dado algún fondo, escribiu un resumo do que está aquí. 92 00:05:32,220 --> 00:05:35,290 E se estaba a ollar adicionalmente polo presente, este 93 00:05:35,290 --> 00:05:39,620 prolóngase por páxinas e páxinas e páxinas, pero dir-lhe- 94 00:05:39,620 --> 00:05:41,860 que letras e cales datas dende o que caixas 95 00:05:41,860 --> 00:05:44,289 existiron ao longo da colección. 96 00:05:44,289 --> 00:05:46,330 Pero iso é algo que, se está en Harvard, 97 00:05:46,330 --> 00:05:50,720 pode ir e realmente ollar fisicamente -Se e, presumiblemente, bótalle un ollo. 98 00:05:50,720 --> 00:05:53,440 >> Entón, todo isto é óptimo. 99 00:05:53,440 --> 00:05:54,450 Deste útil de metadatos. 100 00:05:54,450 --> 00:05:56,327 É no sistema Biblioteca Harvard. 101 00:05:56,327 --> 00:05:58,910 Existen ferramentas en liña onde pode ir e dar un ollo no que fai, 102 00:05:58,910 --> 00:05:59,993 e velo, e busca-lo. 103 00:05:59,993 --> 00:06:02,810 E pode corte-lo e dice que, de moitos xeitos diferentes. 104 00:06:02,810 --> 00:06:06,920 >> Pero é realmente só está dispoñible se é un ser humano de sentir 105 00:06:06,920 --> 00:06:12,600 no seu navegador ou algo ou teléfono e navegar a través del. 106 00:06:12,600 --> 00:06:16,730 Non é realmente dispoñible en calquera tipo de forma utilizable 107 00:06:16,730 --> 00:06:19,520 ou a outros sistemas outros ordenadores de usar, 108 00:06:19,520 --> 00:06:21,500 non con sistemas dentro Biblioteca de Harvard, 109 00:06:21,500 --> 00:06:24,890 pero os sistemas do mundo exterior, só a outras persoas en xeral. 110 00:06:24,890 --> 00:06:30,210 Entón a pregunta é, como podemos facelo dispoñible para os ordenadores 111 00:06:30,210 --> 00:06:33,560 para que poidamos facer máis interesante cousas con el que 112 00:06:33,560 --> 00:06:36,550 browsing-lo nós mesmos? 113 00:06:36,550 --> 00:06:39,766 >> Entón, por que ía querer facelo? 114 00:06:39,766 --> 00:06:41,140 Hai unha serie de posibilidades. 115 00:06:41,140 --> 00:06:43,980 Unha delas é que podería construír un completo forma diferente de navegación 116 00:06:43,980 --> 00:06:46,962 o contido que está dispoñible a través das bibliotecas de Harvard. 117 00:06:46,962 --> 00:06:48,670 Eu vou te amosar unha máis tarde chamado Stacklife, 118 00:06:48,670 --> 00:06:52,440 que ten unha forma completamente diferente asumir buscar contido. 119 00:06:52,440 --> 00:06:54,560 >> Vostede podería construír un mecanismo de recomendación. 120 00:06:54,560 --> 00:06:57,955 Así Biblioteca de Harvard non é o negocio de dicir, che gusta deste libro. 121 00:06:57,955 --> 00:07:01,080 Entón vai dar un ollo nestes 17 outros libros que pode estar interesado en 122 00:07:01,080 --> 00:07:03,200 ou estes 18 outras imaxes. 123 00:07:03,200 --> 00:07:06,040 Pero iso seguramente podería ser un recurso valioso. 124 00:07:06,040 --> 00:07:09,272 E dada a metadatos, pode ser posible poñer isto en conxunto. 125 00:07:09,272 --> 00:07:11,980 Pode ter diferentes necesidades en termos de busca de contidos, 126 00:07:11,980 --> 00:07:16,200 como quizais, a pesar das ferramentas que que están dispoñibles a biblioteca fai 127 00:07:16,200 --> 00:07:18,450 dispoñible, pode querer de investigación dun xeito diferente 128 00:07:18,450 --> 00:07:21,847 ou optimizar a un caso de uso particular, que quizais sexa moi especializado. 129 00:07:21,847 --> 00:07:23,930 Quizais existan só algúns persoas no mundo que 130 00:07:23,930 --> 00:07:25,846 quere buscar o contido deste xeito, pero 131 00:07:25,846 --> 00:07:28,985 Sería óptimo se nós podería deixalos facelo. 132 00:07:28,985 --> 00:07:30,860 Hai unha morea de Analytics en só como a xente 133 00:07:30,860 --> 00:07:33,860 usar o contido que sería moi interesante coñecer, descubrir 134 00:07:33,860 --> 00:07:37,280 o que os libros están a ser empregados, o que non é, e así por diante. 135 00:07:37,280 --> 00:07:41,670 E entón hai unha morea de oportunidade de integrar 136 00:07:41,670 --> 00:07:45,210 con outras informacións que está aí fóra na web. 137 00:07:45,210 --> 00:07:46,880 Entón, nós have-- 138 00:07:46,880 --> 00:07:50,260 >> Por exemplo, ten NPR un segmento crítica do libro, 139 00:07:50,260 --> 00:07:53,090 onde entrevistan autores sobre libros. 140 00:07:53,090 --> 00:07:56,837 E por iso sería óptimo se fose buscar un libro na Harvard 141 00:07:56,837 --> 00:07:59,670 Biblioteca, e dis, OK, non hai foi unha entrevista co autor. 142 00:07:59,670 --> 00:08:00,878 Imos dar un ollo niso. 143 00:08:00,878 --> 00:08:05,461 Ou hai unha páxina de Wikipedia, como unha autoritaria, referencia académica 144 00:08:05,461 --> 00:08:07,710 sobre este libro que Pode querer dar un ollo. 145 00:08:07,710 --> 00:08:12,600 >> Existen destes tipos de fontes espalladas por toda a web. 146 00:08:12,600 --> 00:08:16,555 E trae-los xuntos Pode ser un gran uso 147 00:08:16,555 --> 00:08:18,930 para alguén mirando para o contido, buscando algo. 148 00:08:18,930 --> 00:08:20,180 Pero tampouco é o tipo de cousas que 149 00:08:20,180 --> 00:08:23,205 quere a biblioteca a ser responsable para baixar e cazar 150 00:08:23,205 --> 00:08:25,455 todas estas fontes diferentes e poñer-los xuntos 151 00:08:25,455 --> 00:08:28,920 porque están cambiando continuamente. 152 00:08:28,920 --> 00:08:33,570 E o que eles cren que é importante maio non ser o que pensas que é importante. 153 00:08:33,570 --> 00:08:36,929 >> E máis aínda, basicamente, hai unha morea de cousas que nós non teña pensado aínda. 154 00:08:36,929 --> 00:08:42,222 Entón, se podemos abrir este up, máis persoas ademais dunha media ducia ou así, 155 00:08:42,222 --> 00:08:45,174 que están mirando para iso nun base regular pode pensar en ideas 156 00:08:45,174 --> 00:08:47,340 e Masaxes os datos, e facer o que quere con el. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Entón, nós queremos facer este datos dispoñibles para o mundo. 159 00:08:54,045 --> 00:08:55,670 Así, hai algunhas complicacións. 160 00:08:55,670 --> 00:08:58,540 Unha delas é que estes metadatos é en sistemas diferentes. 161 00:08:58,540 --> 00:09:01,110 É en diferentes formatos. 162 00:09:01,110 --> 00:09:04,719 Polo tanto, hai algunha normalización que ten que ocorrer, 163 00:09:04,719 --> 00:09:08,010 que a normalización é o proceso de traendo as cousas de diferentes formatos 164 00:09:08,010 --> 00:09:12,940 e mapea-los para un único formato para que os campos ha igualar-se. 165 00:09:12,940 --> 00:09:15,160 >> Existen algunhas restricións de copyright. 166 00:09:15,160 --> 00:09:21,010 Curiosamente, a entrada do catálogo sobre un libro é responsable de copyright. 167 00:09:21,010 --> 00:09:24,060 Así, aínda que sexa só información obtida a partir do libro, 168 00:09:24,060 --> 00:09:25,330 está protexido por dereitos de autor. 169 00:09:25,330 --> 00:09:28,400 E dependendo de quen, por certo, creado que os metadatos, 170 00:09:28,400 --> 00:09:32,175 pode haber restricións sobre quen pode distribuí-lo, a-- semellante 171 00:09:32,175 --> 00:09:33,402 >> Eu non sei. 172 00:09:33,402 --> 00:09:36,110 Pode ou non ser similar á a situación das letras de música, 173 00:09:36,110 --> 00:09:36,610 por exemplo. 174 00:09:36,610 --> 00:09:38,560 Entón, todos sabemos como que garimpa para fóra. 175 00:09:38,560 --> 00:09:40,450 Entón, ten que desplazarse esta cuestión. 176 00:09:40,450 --> 00:09:44,910 >> E, a continuación, outra parte é que hai unha gran cantidade de datos. 177 00:09:44,910 --> 00:09:52,420 Entón, se eu son alguén que quere traballar cos datos ou ten unha idea legal, 178 00:09:52,420 --> 00:09:55,350 xestionar 14 millóns rexistros no meu portátil 179 00:09:55,350 --> 00:09:57,487 podería ser problemático e difícil de xestionar. 180 00:09:57,487 --> 00:09:59,320 Por iso, queremos reducir as barreiras para as persoas 181 00:09:59,320 --> 00:10:02,130 para poder traballar cos datos. 182 00:10:02,130 --> 00:10:07,880 >> Polo tanto, o enfoque que esperamos que os enderezos todas estas preocupacións é dúas partes. 183 00:10:07,880 --> 00:10:11,770 Un deles é a construción dunha plataforma que leva datos de todas estas fontes diferentes 184 00:10:11,770 --> 00:10:14,350 e agrava-lo, normaliza, enriquece-lo, e marcas 185 00:10:14,350 --> 00:10:16,650 Lo dispoñible nun único lugar. 186 00:10:16,650 --> 00:10:20,950 E fai-se dispoñible a través unha API pública que a xente pode conectar. 187 00:10:20,950 --> 00:10:24,430 >> Así, unha API é unha aplicación Interface de programación. 188 00:10:24,430 --> 00:10:28,930 E, basicamente, refírese a un punto de extrema que un sistema ou tecnoloxía 189 00:10:28,930 --> 00:10:31,720 pode conectar e obter datos de volta un formato estructurado de forma 190 00:10:31,720 --> 00:10:32,900 que pode ser usado. 191 00:10:32,900 --> 00:10:36,060 Polo tanto, non é dependente en ir a un sitio web 192 00:10:36,060 --> 00:10:37,970 e rascado de datos off del, por exemplo. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Polo tanto, esta é a páxina de inicio do a API elemento Biblioteca Nube, 195 00:10:45,010 --> 00:10:47,220 que é esencialmente a versión dous. 196 00:10:47,220 --> 00:10:50,130 Polo tanto, é a segunda iteración do tentando facer que todos estes datos 197 00:10:50,130 --> 00:10:53,280 dispoñible para o mundo. 198 00:10:53,280 --> 00:10:59,560 Polo tanto, é http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 E só para decompô-lo un pouco, o que iso significa 200 00:11:03,830 --> 00:11:06,115 é que esta versión é de dous a API. 201 00:11:06,115 --> 00:11:08,490 Hai unha versión dun, o que Eu non vou falar. 202 00:11:08,490 --> 00:11:09,750 Pero hai unha versión un. 203 00:11:09,750 --> 00:11:14,740 >> E se está chamando este API, está a recibir elementos. 204 00:11:14,740 --> 00:11:20,640 E parte da idea dun API é unha API é un contrato. 205 00:11:20,640 --> 00:11:23,440 É algo que é non vai cambiar. 206 00:11:23,440 --> 00:11:24,850 Así, por exemplo, - 207 00:11:24,850 --> 00:11:27,410 >> E a razón é que, se eu construír algún tipo de sistema que 208 00:11:27,410 --> 00:11:33,210 vai usar unha API biblioteca nube para amosar libros ou axudar a xente a atopar 209 00:11:33,210 --> 00:11:36,190 información de forma única, o que nós non queremos que aconteza 210 00:11:36,190 --> 00:11:38,940 é para nós a ir cambiar o xeito no que API que funciona, e de súpeto 211 00:11:38,940 --> 00:11:41,340 todo queda ao lado do usuario final. 212 00:11:41,340 --> 00:11:46,710 Así, parte se está facendo API dispoñible para o mundo, é 213 00:11:46,710 --> 00:11:49,396 boas prácticas para poñer un número de versión nel para que a xente 214 00:11:49,396 --> 00:11:51,020 saber que a versión que están lidando. 215 00:11:51,020 --> 00:11:54,300 >> Entón, se decide que atopar un xeito mellor a facer estas informacións dispoñibles, 216 00:11:54,300 --> 00:11:57,295 podemos cambiar isto para chamar esa versión tres. 217 00:11:57,295 --> 00:11:59,920 Entón todo o mundo que aínda está a usar versión dous, que aínda vai traballar. 218 00:11:59,920 --> 00:12:03,490 Pero a versión de tres faría ten todo o material novo. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Polo tanto, esta é unha API, pero este realmente parece unha URL. 221 00:12:09,210 --> 00:12:11,680 E entón o que se trata dun exemplo de iso é o que é 222 00:12:11,680 --> 00:12:16,615 chamado dunha API de descanso, que se atopa dispoñible en só unha conexión web estándar. 223 00:12:16,615 --> 00:12:19,680 E realmente pode acceder a ela nun navegador. 224 00:12:19,680 --> 00:12:28,550 >> Entón aquí eu acaba de abrir o Firefox e ir para api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 E así que eu chegar aquí é basicamente, a primeira páxina 226 00:12:31,560 --> 00:12:34,740 dos resultados da totalidade conxunto de elementos que temos. 227 00:12:34,740 --> 00:12:37,460 E é aquí, en formato XML. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 E ten tamén foi adornada pola Firefox. 230 00:12:42,210 --> 00:12:45,850 En realidade, non teño todo isto pouco mellore e contraendo 231 00:12:45,850 --> 00:12:47,880 doohickeys aquí. 232 00:12:47,880 --> 00:12:52,520 Esta é unha especie de un Buscamos versión maneira de ollar para el. 233 00:12:52,520 --> 00:12:57,040 >> Pero o que iso está nos dicindo é Eu xa solicitou a todos os elementos. 234 00:12:57,040 --> 00:13:03,120 Polo tanto, hai 13.289.475 elementos. 235 00:13:03,120 --> 00:13:06,150 E eu estou ollando para o primeiro 10, comezando na posición cero 236 00:13:06,150 --> 00:13:09,760 porque en ciencia da computación sempre comezan en cero. 237 00:13:09,760 --> 00:13:15,150 E o que eu teño aquí, se eu entrar en colapso iso, vai ver que eu teño 10 elementos. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> E se eu dar un ollo a un elemento, podo ver que eu teño información sobre el. 240 00:13:25,210 --> 00:13:27,400 E iso é o que se chama en forma mods. 241 00:13:27,400 --> 00:13:30,860 E así eu vou cambiar volver aquí por un momento. 242 00:13:30,860 --> 00:13:33,750 Aceptar. 243 00:13:33,750 --> 00:13:37,447 >> Entón, imos buscar algo en específico, xa que o primeiro elemento que 244 00:13:37,447 --> 00:13:40,030 pasa a vir cara arriba cando mira por toda a colección 245 00:13:40,030 --> 00:13:41,750 é, por definición, aleatoria. 246 00:13:41,750 --> 00:13:44,550 Entón, imos ollar para algúns Donuts. 247 00:13:44,550 --> 00:13:46,830 Oh. 248 00:13:46,830 --> 00:13:49,190 >> Aceptar. 249 00:13:49,190 --> 00:13:49,940 Así Donuts. 250 00:13:49,940 --> 00:13:55,360 Entón, atopamos hai 80 elementos en a colección que referenciar Donuts. 251 00:13:55,360 --> 00:13:57,150 Estamos mirando para os primeiros 10 deles. 252 00:13:57,150 --> 00:14:01,890 Agora, podes ver aquí o camiño que Eu dixen que eu estou buscando aneis de escuma, 253 00:14:01,890 --> 00:14:04,400 Acaba de engadir algo a a cadea de consulta da URL. 254 00:14:04,400 --> 00:14:09,680 Así q é igual a rosquinhas, que pode ver un pouco máis facilmente aquí. 255 00:14:09,680 --> 00:14:12,131 >> E iso basicamente significa que hai unha especificación para a API, que 256 00:14:12,131 --> 00:14:13,880 define o que todos estes parámetros dicir. 257 00:14:13,880 --> 00:14:17,150 E isto significa que imos buscar todo para Donuts. 258 00:14:17,150 --> 00:14:24,910 >> Así, o primeiro elemento aquí temos podes ver o título é Donuts, 259 00:14:24,910 --> 00:14:29,310 e hai unha chamada Unha lenda Paixón americana, que é, eu creo, 260 00:14:29,310 --> 00:14:31,610 axeitado. 261 00:14:31,610 --> 00:14:36,134 Hai unha morea de diferente-- 262 00:14:36,134 --> 00:14:38,050 Unha vez que chegar ao punto de obter os datos, 263 00:14:38,050 --> 00:14:41,020 hai un gran número de diferentes formatos que pode obterse en. 264 00:14:41,020 --> 00:14:44,050 E hai diferentes forzas e débiles para todos eles. 265 00:14:44,050 --> 00:14:49,000 Entón este, podes ver aquí, esa forma é moi rica. 266 00:14:49,000 --> 00:14:51,946 E é estándar. 267 00:14:51,946 --> 00:14:55,040 >> Polo tanto, hai un título específico campo, un campo de subtítulos. 268 00:14:55,040 --> 00:14:58,950 Hai un suplente Título, An American Passion. 269 00:14:58,950 --> 00:15:01,650 Non é o nome asociado a el. 270 00:15:01,650 --> 00:15:03,120 Tipo do recurso é o texto. 271 00:15:03,120 --> 00:15:06,070 Hai unha morea de información aquí neste formato. 272 00:15:06,070 --> 00:15:09,480 >> Pero hai un grupo de diferentes formatos. 273 00:15:09,480 --> 00:15:11,920 Entón, o que nós eramos só mirando é un formato 274 00:15:11,920 --> 00:15:17,700 chamados mods, que significa Metadata Object Description Service, 275 00:15:17,700 --> 00:15:18,250 potencialmente. 276 00:15:18,250 --> 00:15:23,030 Realmente non estou moi seguro sobre o S. Pero é un formato moi complexo. 277 00:15:23,030 --> 00:15:24,240 É o formato estándar. 278 00:15:24,240 --> 00:15:30,260 >> Pero é o único que mantén a riqueza de todos os datos 279 00:15:30,260 --> 00:15:33,820 que a biblioteca ten porque é moi próximo ao que 280 00:15:33,820 --> 00:15:35,110 usa a biblioteca internamente. 281 00:15:35,110 --> 00:15:39,030 É un estándar que é utilizado en todo o país, 282 00:15:39,030 --> 00:15:40,944 en todo o mundo en bibliotecas universitarias. 283 00:15:40,944 --> 00:15:42,110 E é moi interoperables. 284 00:15:42,110 --> 00:15:44,852 Entón, se ten un documento que está no formato mods, 285 00:15:44,852 --> 00:15:47,560 pode dar isto para outra persoa cuxos sistemas entender mods, 286 00:15:47,560 --> 00:15:48,518 e poden Import-lo. 287 00:15:48,518 --> 00:15:50,840 Polo tanto, é un estándar. 288 00:15:50,840 --> 00:15:54,250 É moi ben definida, moi específico. 289 00:15:54,250 --> 00:15:58,980 E iso é o que fai que sexa interoperable, porque se alguén di: 290 00:15:58,980 --> 00:16:04,930 este é o título dun suplente rexistro, todo o mundo sabe o que iso significa. 291 00:16:04,930 --> 00:16:07,740 Por outra banda, é moi complicado. 292 00:16:07,740 --> 00:16:13,160 >> Entón, se der un ollo neste rexistro aquí, 293 00:16:13,160 --> 00:16:15,320 se eu só quero incorporarse o título deste documento, 294 00:16:15,320 --> 00:16:21,150 deste libro, que é probablemente Donuts, An American Passion, analiza-lo para fóra 295 00:16:21,150 --> 00:16:22,940 é un pouco implicado. 296 00:16:22,940 --> 00:16:27,380 Tendo en conta que hai outra formato chamado Dublin Core, 297 00:16:27,380 --> 00:16:29,730 que é un formato moito máis simple. 298 00:16:29,730 --> 00:16:33,764 >> E así que ve aquí, non hai ningunha título, subtítulo, título alternativo. 299 00:16:33,764 --> 00:16:35,930 Hai só título, Donuts, An American Passion, 300 00:16:35,930 --> 00:16:38,780 e outro título, Paixón americano. 301 00:16:38,780 --> 00:16:42,907 Entón, cando está mirando para o que forma quere obter os datos de, 302 00:16:42,907 --> 00:16:44,740 moi depende de como vai usalo. 303 00:16:44,740 --> 00:16:46,573 Está a utilizar para interoperabilidade ou 304 00:16:46,573 --> 00:16:49,970 quere algo simple que pode ser máis fácil de traballar? 305 00:16:49,970 --> 00:16:56,002 >> Por outra banda, unha gran parte do detalles se especie de esmagado baixo. 306 00:16:56,002 --> 00:16:58,460 Pode perder as pasaxes de o que supón un campo particular 307 00:16:58,460 --> 00:17:02,960 se está lidando con Dublin Core, que non ía estar con mods. 308 00:17:02,960 --> 00:17:06,462 Entón eses son dous dos formatos pode saír da API. 309 00:17:06,462 --> 00:17:08,920 E, basicamente, estamos mantendo el nos bastidores de mods. 310 00:17:08,920 --> 00:17:14,179 Pero podemos darlle-lo en mods e Dublin Core e algo tamén. 311 00:17:14,179 --> 00:17:16,470 A outra consideración cando estás buscando nos datos 312 00:17:16,470 --> 00:17:21,210 é que pode obterse tanto como JSON, que significa JavaScript Object Notation, 313 00:17:21,210 --> 00:17:24,720 ou XML, o que significa Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 E esas representacións de datos tanto teñen exactamente os mesmos datos, exactamente 315 00:17:30,080 --> 00:17:31,080 os mesmos campos. 316 00:17:31,080 --> 00:17:33,644 Pero son só sintacticamente diferente. 317 00:17:33,644 --> 00:17:40,401 >> Polo tanto, este é a-- 318 00:17:40,401 --> 00:17:41,400 Ben, imos só cambiar. 319 00:17:41,400 --> 00:17:47,490 Entón esta é a nosa consulta para Donuts en formato XML. 320 00:17:47,490 --> 00:17:53,470 Se eu cambiar isto sexa JSON, Podo ver iso parece diferente. 321 00:17:53,470 --> 00:17:58,580 Entón, agora que é o mesmo contido, pero unha estrutura diferente. 322 00:17:58,580 --> 00:18:00,080 Hai menos corchetes. 323 00:18:00,080 --> 00:18:02,530 Hai menos detallado. 324 00:18:02,530 --> 00:18:06,440 >> E este é un formato que, se están a traballar no ámbito web, 325 00:18:06,440 --> 00:18:09,680 está moi probablemente vai querer usar porque un 326 00:18:09,680 --> 00:18:12,630 das cousas agradables sobre JSON é é compatible con JavaScript. 327 00:18:12,630 --> 00:18:17,680 Entón, se eu estou escribindo app web, podo tirar en JSON e só traballar con el directamente. 328 00:18:17,680 --> 00:18:20,187 Considerando con XML, é unha pouco máis complicado. 329 00:18:20,187 --> 00:18:21,520 Entón, de novo, estes son útiles. 330 00:18:21,520 --> 00:18:26,387 Eles só son diferentes casos de uso onde as persoas poden querer usalos. 331 00:18:26,387 --> 00:18:26,886 Aceptar. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Entón, de volta ao API. 334 00:18:31,680 --> 00:18:32,900 Así, podemos buscar for-- 335 00:18:32,900 --> 00:18:36,220 >> Dou un exemplo de busca de Donuts. 336 00:18:36,220 --> 00:18:39,330 Tamén pode buscar só nun campo específico dentro aquí. 337 00:18:39,330 --> 00:18:41,310 Entón, en vez de buscar todo o rexistro, 338 00:18:41,310 --> 00:18:43,870 Podo só buscar o campo de título. 339 00:18:43,870 --> 00:18:48,810 E agora hai 25 cousas que ten rosquinhas no título, un dos cales 340 00:18:48,810 --> 00:18:52,430 é sobre a restauración Wetlands na xestión 341 00:18:52,430 --> 00:18:54,990 do rombo programa, o cal pode ser 342 00:18:54,990 --> 00:18:58,970 non necesariamente o que estamos a buscar para cando estamos buscando Donuts. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> Tamén pode, cando está lidando con un API-- 345 00:19:05,490 --> 00:19:08,827 >> Parte de ter unha API é dando persoas o acceso a grandes conxuntos de datos. 346 00:19:08,827 --> 00:19:11,410 E hai un par diferente ferramentas que pode usar para facer iso. 347 00:19:11,410 --> 00:19:14,170 Unha delas é, moi simplemente, vostede pode navegar os datos. 348 00:19:14,170 --> 00:19:17,340 Así como se fai unha consulta a través dunha interface web, 349 00:19:17,340 --> 00:19:19,470 pode ollar para a primeira páxina, páxina dous, páxina tres. 350 00:19:19,470 --> 00:19:22,040 Podes facer o mesmo cousa a través da API. 351 00:19:22,040 --> 00:19:24,150 Só ten que ser explícita en como facelo. 352 00:19:24,150 --> 00:19:29,511 >> Así, por exemplo, se eu estou buscando na miña primeira consulta aquí, 353 00:19:29,511 --> 00:19:32,510 onde eu estou facendo unha investigación de cousas con aneis de escuma no título, o que podo dicir, 354 00:19:32,510 --> 00:19:35,415 e límite é igual a 20, o que significa déame os primeiros 20 rexistros, non 355 00:19:35,415 --> 00:19:38,540 os 10 primeiros, que é o estándar, porque quero ollar para 20 de cada vez. 356 00:19:38,540 --> 00:19:43,435 Ou podo dicir, establecer o iniciar igual a 20 e de espera 357 00:19:43,435 --> 00:19:47,150 igual a 20, o que dará me rexistra 21 a 40. 358 00:19:47,150 --> 00:19:52,680 >> Entón eu creo que a cousa para sacar aquí é 359 00:19:52,680 --> 00:19:57,290 que estamos a usar cadeas de consulta para definir parámetros sobre a consulta. 360 00:19:57,290 --> 00:20:02,760 E el permite que control o que recibe de volta. 361 00:20:02,760 --> 00:20:05,980 >> Outra ferramenta que pode usar, - 362 00:20:05,980 --> 00:20:09,250 >> E iso é realmente útil en termos de explotar os datos. 363 00:20:09,250 --> 00:20:10,840 >> -É algo chamado faceting. 364 00:20:10,840 --> 00:20:15,530 Así, o termo é facetamento non necesariamente común. 365 00:20:15,530 --> 00:20:16,880 Pero xa todos vimos isto antes. 366 00:20:16,880 --> 00:20:18,630 Se der un ollo Amazon, por exemplo, 367 00:20:18,630 --> 00:20:20,870 e se fai unha busca para rosquinhas nos libros, 368 00:20:20,870 --> 00:20:27,080 aquí teñen unha serie de libros, e eles están agrupados por categoría, 369 00:20:27,080 --> 00:20:30,470 e comeza as distintas categorías, e cantos libros en cada categoría 370 00:20:30,470 --> 00:20:31,330 aparecer. 371 00:20:31,330 --> 00:20:33,420 >> Polo tanto, este é basicamente unha faceta. 372 00:20:33,420 --> 00:20:37,570 Se toma todos os seus libros, a 1.800 os libros que correspondan rosquinhas en Amazon. 373 00:20:37,570 --> 00:20:39,820 12 deles están no categoría almorzo. 374 00:20:39,820 --> 00:20:43,100 21 en pastelería e panadería, e así por diante e así por diante. 375 00:20:43,100 --> 00:20:47,670 >> Polo tanto, este é realmente un útil ferramenta para explorar o contido 376 00:20:47,670 --> 00:20:53,260 dentro da biblioteca ben porque cando mira para unha faceta, 377 00:20:53,260 --> 00:20:56,520 que lle dá unha idea do que somete existe, que tipo de asuntos 378 00:20:56,520 --> 00:20:58,510 son máis populares dentro do seu conxunto consulta. 379 00:20:58,510 --> 00:21:00,950 E iso axuda a expulsar e explorar. 380 00:21:00,950 --> 00:21:02,770 Así, podemos facer o mesmo. 381 00:21:02,770 --> 00:21:05,940 >> Se quer usar o API e mirar para as facetas, 382 00:21:05,940 --> 00:21:08,950 engadimos outro parámetro para o noso amigo a cadea de consulta. 383 00:21:08,950 --> 00:21:12,540 Entón facetas é igual a unha lista separada por comas lista do que queremos faceta diante. 384 00:21:12,540 --> 00:21:14,790 Polo tanto, unha das facetas pode estar suxeito. 385 00:21:14,790 --> 00:21:16,565 Outro pode ser a linguaxe. 386 00:21:16,565 --> 00:21:19,665 E por iso, se corremos esta consulta, nós get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Parece case o mesmo aquí. 389 00:21:24,830 --> 00:21:29,010 Pero temos engadido ao final da lista un conxunto de actividades. 390 00:21:29,010 --> 00:21:34,060 Polo tanto, temos unha faceta chamado asunto. 391 00:21:34,060 --> 00:21:40,250 Entón, iso está nos dicindo que se eu ollar nos meus 80 resultados da consulta filloas, 392 00:21:40,250 --> 00:21:42,100 13 deles teñen o suxeitar Estados Unidos. 393 00:21:42,100 --> 00:21:43,684 Tres teñen os Donuts suxeitos. 394 00:21:43,684 --> 00:21:45,600 Tres teñen o suxeito de restauración de zonas húmidas, 395 00:21:45,600 --> 00:21:47,720 o que pode ser o noso buraco no donut. 396 00:21:47,720 --> 00:21:51,780 Dous deles, os Simpsons, e así por diante e así por diante. 397 00:21:51,780 --> 00:21:59,211 >> Polo tanto, este pode ser útil se quere afinar a súa investigación. 398 00:21:59,211 --> 00:22:00,210 El pode axudar a facelo. 399 00:22:00,210 --> 00:22:03,580 Especialmente se ten máis que, digamos, 80 resultados. 400 00:22:03,580 --> 00:22:05,980 >> Do mesmo xeito, tamén se require para facetas sobre a linguaxe. 401 00:22:05,980 --> 00:22:14,790 Polo tanto, se miramos para os nosos resultados, vemos 76 deles son en inglés, catro en francés, 402 00:22:14,790 --> 00:22:19,620 dous en español, dous, eu creo que é indefinidos ou descoñecidos, holandés e latín. 403 00:22:19,620 --> 00:22:22,830 Entón eu creo que o Latin resultado de rosca, de novo, 404 00:22:22,830 --> 00:22:24,922 non ten nada que ver con produtos de panadaría. 405 00:22:24,922 --> 00:22:25,630 Pero aí vai. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Polo tanto, esta é unha especie de mostrarlle como pode tirar o contido de volta 408 00:22:38,630 --> 00:22:41,270 a partir da API só a través navegador web, o que é óptimo. 409 00:22:41,270 --> 00:22:44,320 Pero non é realmente o que faría normalmente usando en API para iso. 410 00:22:44,320 --> 00:22:48,710 Entón, un exemplo de como podería realmente facer iso é que eu teño 411 00:22:48,710 --> 00:22:54,720 escrito un super pequeno programa, que, unha vez máis, que a miña procura rosquinhas 412 00:22:54,720 --> 00:22:59,010 e selecciona algúns campos e as exhibe nunha mesa. 413 00:22:59,010 --> 00:23:01,610 Entón iso é moito o mesmo contido que acabamos 414 00:23:01,610 --> 00:23:04,830 serra con algúns campos levado cara fóra. 415 00:23:04,830 --> 00:23:12,090 Entón lista de títulos, os localización do que o libro 416 00:23:12,090 --> 00:23:15,120 é de preto de, a lingua, e así por diante e así por diante. 417 00:23:15,120 --> 00:23:20,480 >> Entón, como iso realmente aconteceu, xa que Creo que temos que mirar para un código, 418 00:23:20,480 --> 00:23:22,420 é-- 419 00:23:22,420 --> 00:23:28,060 >> O que temos aquí é un HTML simple páxina, que exhibe o texto, 420 00:23:28,060 --> 00:23:32,900 Benvido á nube biblioteca e logo exhibe unha táboa de resultados. 421 00:23:32,900 --> 00:23:37,790 E obviamente non hai resultados en a mesa cando a páxina é cargada. 422 00:23:37,790 --> 00:23:41,380 Pero o que estamos facendo é, en primeiro lugar, nós 423 00:23:41,380 --> 00:23:46,290 está a poñer unha biblioteca chamada jQuery, que é basicamente 424 00:23:46,290 --> 00:23:52,030 unha biblioteca JavaScript, o que fai moi fácil de manipular JavaScript 425 00:23:52,030 --> 00:23:58,780 nativamente, HTML, e crear páxinas web, lóxica de cliente e páxinas web. 426 00:23:58,780 --> 00:24:01,595 >> Entón o que temos aquí é jQuery ten un método chamado Get, 427 00:24:01,595 --> 00:24:05,270 que esencialmente vai para un URL, o cal, neste caso, 428 00:24:05,270 --> 00:24:09,070 é este URL ollar familiar. 429 00:24:09,070 --> 00:24:14,440 E, a continuación, obter o contido de que dirección e, a continuación, realizar unha función nel. 430 00:24:14,440 --> 00:24:19,240 Entón nós dixemos ir api.lib.harvard / edu. 431 00:24:19,240 --> 00:24:20,060 Busca Donuts. 432 00:24:20,060 --> 00:24:21,300 Dános a 20 rexistros. 433 00:24:21,300 --> 00:24:28,590 E a continuación, realizar esta función, o que Eu seleccionei, pasando-os datos. 434 00:24:28,590 --> 00:24:34,430 E os datos é o JSON que foi retornado do API. 435 00:24:34,430 --> 00:24:40,120 >> E entón nós estamos dicindo, dentro dese datos hai un campo chamado elemento. 436 00:24:40,120 --> 00:24:48,117 E se eu for un ollo cara atrás en un deses resultados que están aquí, 437 00:24:48,117 --> 00:24:49,200 hai algo called-- 438 00:24:49,200 --> 00:24:50,220 >> Ben, é chamado elemento. 439 00:24:50,220 --> 00:24:53,520 De xeito que pode ser que. 440 00:24:53,520 --> 00:25:01,840 E o que fai é pasa por cada elemento 441 00:25:01,840 --> 00:25:05,300 e, a continuación, chama outro función de cada elemento. 442 00:25:05,300 --> 00:25:08,440 E esa función, basicamente, está tomando o valor 443 00:25:08,440 --> 00:25:12,010 do elemento, o que é esencialmente o rexistro individual 444 00:25:12,010 --> 00:25:18,220 e permítenos sacar o título, a cobertura e o idioma. 445 00:25:18,220 --> 00:25:21,640 >> Por iso, chamar a unha función en cada elemento que temos de volta a partir da API. 446 00:25:21,640 --> 00:25:25,397 E se só dar un ollo para este anaco aquí, 447 00:25:25,397 --> 00:25:27,230 o que estamos facendo é estamos creando unha corda, 448 00:25:27,230 --> 00:25:31,810 que é esencialmente un pouco de reserva HTML en torno a unha mesa, con value.title, 449 00:25:31,810 --> 00:25:35,790 que é o título do obxecto, value.coverage, 450 00:25:35,790 --> 00:25:36,790 que é a cobertura, - 451 00:25:36,790 --> 00:25:38,225 >> E nós estamos facendo unha comprobación aquí para ver quen é indefinido 452 00:25:38,225 --> 00:25:40,570 e esconde-lo se di indefinido, porque non estamos realmente interesados 453 00:25:40,570 --> 00:25:41,600 en que. 454 00:25:41,600 --> 00:25:42,939 >> -E entón a linguaxe. 455 00:25:42,939 --> 00:25:44,730 E entón o que somos facendo é engadindo que 456 00:25:44,730 --> 00:25:48,510 para a táboa que se identificado por esta cadea aquí. 457 00:25:48,510 --> 00:25:50,790 E como funciona jQuery é o que se di 458 00:25:50,790 --> 00:25:56,420 é ollar para a táboa coa idea resultados e engade-lle o texto. 459 00:25:56,420 --> 00:25:59,380 E esta é a táboa cos resultados idea. 460 00:25:59,380 --> 00:26:04,998 Entón, o que acaba con é esta páxina aquí. 461 00:26:04,998 --> 00:26:06,206 E, a fin de ver source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Ben, a fonte non é realmente actualizados cando isto aconteceu. 464 00:26:13,810 --> 00:26:18,740 Así pode ver o real resultados da táboa aquí aínda. 465 00:26:18,740 --> 00:26:24,770 >> Entón, iso é só un exemplo sinxelo de facendo unha consulta moi básico contra a API 466 00:26:24,770 --> 00:26:29,020 e visualización de información nalgún outro formar, e non facer nada moi extravagante. 467 00:26:29,020 --> 00:26:36,370 Agora, outro exemplo é como un solicitude escrita por David Weinberger 468 00:26:36,370 --> 00:26:39,120 como unha demo deste, que esencialmente mostra 469 00:26:39,120 --> 00:26:44,620 como pode mesturar-se os resultados que está a recibindo a partir da API biblioteca nube 470 00:26:44,620 --> 00:26:46,250 con, digamos, Google Books. 471 00:26:46,250 --> 00:26:52,225 >> E o pensamento aquí é que podo realizar unha consulta contra Google Books, 472 00:26:52,225 --> 00:26:56,060 obter unha investigación de texto completo, obter uns resultados volta, descubrir cal destes elementos 473 00:26:56,060 --> 00:27:01,180 realmente existen en Hollis, o sistema de biblioteca, 474 00:27:01,180 --> 00:27:03,200 e, a continuación, dar-me as ligazóns de volta a eses elementos. 475 00:27:03,200 --> 00:27:12,730 Entón, se eu buscar, era unha noite escura e tempestuosa, I 476 00:27:12,730 --> 00:27:16,210 volver unha morea de resultados de Google, e, a continuación, un resultado 477 00:27:16,210 --> 00:27:19,460 que é Unha Dobra o Tempo. 478 00:27:19,460 --> 00:27:29,330 E estes son os enlaces para os libros que existen dentro do sistema de biblioteca de Harvard. 479 00:27:29,330 --> 00:27:32,160 >> Entón eu creo que a cuestión aquí non é tanto que este pode ou non 480 00:27:32,160 --> 00:27:34,118 ser do xeito que quere para buscar a biblioteca, 481 00:27:34,118 --> 00:27:38,310 pero é completamente diferente forma que non estaba dispoñible para ti 482 00:27:38,310 --> 00:27:42,884 antes, como non tiña como facer texto completo busca en libros que, mesmo 483 00:27:42,884 --> 00:27:44,550 eran parte do sistema Biblioteca Harvard. 484 00:27:44,550 --> 00:27:46,870 Entón, agora esta é unha forma que pode facelo. 485 00:27:46,870 --> 00:27:51,930 E pode amosar-los en calquera formato que sexa. 486 00:27:51,930 --> 00:27:55,990 Entón, a cuestión aquí é, basicamente, estamos abrindo novas formas para as persoas 487 00:27:55,990 --> 00:27:59,080 traballando cos datos. 488 00:27:59,080 --> 00:28:07,925 >> Outra peza de cloud biblioteca é que el axuda a expoñer algúns dos datos de uso 489 00:28:07,925 --> 00:28:08,800 que ten a biblioteca. 490 00:28:08,800 --> 00:28:12,630 Entón, se vai á biblioteca, e está á procura de libros, 491 00:28:12,630 --> 00:28:15,770 Non precisa necesariamente realmente ter unha idea de, 492 00:28:15,770 --> 00:28:19,080 para todos os elementos dunha determinado asunto, o que 493 00:28:19,080 --> 00:28:21,200 son persoas na comunidade, se é 494 00:28:21,200 --> 00:28:24,890 definido como Harvard ou o país ou da súa clase, 495 00:28:24,890 --> 00:28:26,421 o que teñen eles atoparon máis útil? 496 00:28:26,421 --> 00:28:28,920 E a biblioteca, en realidade, ten un tonelada de información sobre o que 497 00:28:28,920 --> 00:28:32,999 é máis útil porque se un lote de persoas a visitar a un libro, 498 00:28:32,999 --> 00:28:34,040 que lle di algo. 499 00:28:34,040 --> 00:28:36,498 Debe haber algunha razón queren dar un ollo. 500 00:28:36,498 --> 00:28:38,270 Unha morea de xente poñelas na reserva. 501 00:28:38,270 --> 00:28:42,520 >> Se é na lista de reserva para unha morea das clases, que lle di algo. 502 00:28:42,520 --> 00:28:45,960 Se os membros do corpo docente están verificando- fóra moito e alumnos de graduación non son, 503 00:28:45,960 --> 00:28:47,200 que me di algo. 504 00:28:47,200 --> 00:28:49,280 Viceversa, que tamén dille algo. 505 00:28:49,280 --> 00:28:54,680 Polo tanto, sería moi interesante para poñer esta información alí fóra e deixar 506 00:28:54,680 --> 00:28:59,969 persoas usalo para axudalos a atopar funciona dentro do sistema de biblioteca. 507 00:28:59,969 --> 00:29:02,260 O outro lado diso é hai un pouco de privacidade grave 508 00:29:02,260 --> 00:29:07,854 preocupacións porque un dos principios fundamentais da biblioteca 509 00:29:07,854 --> 00:29:10,770 é que non imos estar a dicir persoas que as outras persoas están lendo. 510 00:29:10,770 --> 00:29:17,360 E aínda que está dicindo iso libro foi comprobado catro veces 511 00:29:17,360 --> 00:29:20,070 nun determinado mes, que podería ser utilizada 512 00:29:20,070 --> 00:29:25,252 para conectar de volta a un determinado persoa por datos de-anonimato 513 00:29:25,252 --> 00:29:26,710 e descubrir o que fixo o check-out. 514 00:29:26,710 --> 00:29:30,792 Así, a forma que podemos avoid-- 515 00:29:30,792 --> 00:29:33,750 O xeito que podemos tentar extraer algúns sinais de toda a información 516 00:29:33,750 --> 00:29:36,740 sen infrinxir problemas coa privacidade de ninguén 517 00:29:36,740 --> 00:29:42,150 é, esencialmente, nos miramos 10 anos de datos de uso, - 518 00:29:42,150 --> 00:29:43,930 >> Entón, é por un longo período de tempo. 519 00:29:43,930 --> 00:29:50,639 >> -E dicir, OK, imos ver como moitas veces este traballo foi usado, 520 00:29:50,639 --> 00:29:52,930 e por que ao longo deste período de tempo, e, a continuación, basicamente 521 00:29:52,930 --> 00:29:56,300 devolver un número, que chamamos unha puntuación de pila, que, basicamente, 522 00:29:56,300 --> 00:29:59,910 representa o que el foi usado. 523 00:29:59,910 --> 00:30:01,084 E iso number-- 524 00:30:01,084 --> 00:30:03,250 Unha morea de diferentes cálculos ir a ese número. 525 00:30:03,250 --> 00:30:05,150 -Mais é un moi áspera métrica que lle dá 526 00:30:05,150 --> 00:30:11,300 algunha idea de como o comunidade poden valorar ese traballo. 527 00:30:11,300 --> 00:30:16,772 >> E así máis dun tipo de mesmo máis afondados aplicación 528 00:30:16,772 --> 00:30:18,480 que aproveita isto é algo 529 00:30:18,480 --> 00:30:24,000 chamado Stacklife, que é, en realidade, dispoñible a través do principal Harvard 530 00:30:24,000 --> 00:30:24,880 Portal da Biblioteca. 531 00:30:24,880 --> 00:30:26,700 Entón vai para library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Verá unha serie de distinta formas de buscar a biblioteca. 533 00:30:29,360 --> 00:30:32,300 E un deles é chamado Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> E este é unha aplicación que navega o contido da biblioteca, 535 00:30:38,980 --> 00:30:43,490 pero é totalmente construído enriba destas APIs. 536 00:30:43,490 --> 00:30:46,910 Polo tanto, non hai material especial pasando nos bastidores. 537 00:30:46,910 --> 00:30:49,570 Non hai acceso a datos que non ten. 538 00:30:49,570 --> 00:30:54,090 Está a usar as APIs para fornecer-lle cunha navegación completamente diferente 539 00:30:54,090 --> 00:30:55,480 experiencia. 540 00:30:55,480 --> 00:30:58,570 >> Entón, se eu buscar Alicia no País das Marabillas, neste caso, 541 00:30:58,570 --> 00:31:02,600 I obter un resultado que parece este, que é moi much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> É moi semellante a calquera outra investigación que pode facer, agás, neste caso, 544 00:31:10,870 --> 00:31:15,730 estamos clasificando os elementos por stackscore, que lle dá 545 00:31:15,730 --> 00:31:19,850 algunha idea de quão popular estes elementos estaban dentro da comunidade. 546 00:31:19,850 --> 00:31:25,610 E de forma tan clara, Alicia no país das marabillas por Walt Disney é altamente popular. 547 00:31:25,610 --> 00:31:36,570 Pero tamén se pode ver os catro primeiros aquí son os que pode non actually-- 548 00:31:36,570 --> 00:31:39,220 >> Cousas que son moi utilizados, Pero pode non inmediatamente 549 00:31:39,220 --> 00:31:41,240 enlazar co Alicia no país das marabillas. 550 00:31:41,240 --> 00:31:44,650 Así, o noso vello amigo, o Annotated Alice está aquí. 551 00:31:44,650 --> 00:31:46,350 Para que eu poida dar un ollo niso. 552 00:31:46,350 --> 00:31:52,010 E agora o que estou buscando en é basicamente un conxunto de-- 553 00:31:52,010 --> 00:31:53,760 Podo ter The Annotated Alicia aquí. 554 00:31:53,760 --> 00:31:56,700 Eu teño información sobre el. 555 00:31:56,700 --> 00:32:00,230 E eu tamén teño un stackscore de, neste caso, 26. 556 00:32:00,230 --> 00:32:03,169 E iso me di que tipo de aproximadamente como chegamos a este stackscore, 557 00:32:03,169 --> 00:32:05,835 como que o check-out, como o xeito no que moitas veces se fixo check-out, 558 00:32:05,835 --> 00:32:08,440 como facultade ou graduandos, como moitas copias a biblioteca ten, 559 00:32:08,440 --> 00:32:11,300 e así por diante e así por diante. 560 00:32:11,300 --> 00:32:16,460 >> E tamén pode, interesante o suficiente aquí, ver as pilas virtualmente. 561 00:32:16,460 --> 00:32:19,550 Así, os datos aquí, este está mostrándolle sorte 562 00:32:19,550 --> 00:32:23,547 dunha representación virtual que o poder de andel 563 00:32:23,547 --> 00:32:25,880 mira como se tivese que tomar todas as explotacións da biblioteca 564 00:32:25,880 --> 00:32:28,940 e poñer-los xuntos sobre unha andel infinito. 565 00:32:28,940 --> 00:32:30,990 E o bo é que nos can-- 566 00:32:30,990 --> 00:32:33,380 >> En primeiro lugar, o metadatos sobre estes libros 567 00:32:33,380 --> 00:32:35,627 moitas veces dille cando se publicou. 568 00:32:35,627 --> 00:32:37,085 Dille cantas páxinas ten. 569 00:32:37,085 --> 00:32:38,459 Pode dicir-lle as dimensións. 570 00:32:38,459 --> 00:32:42,930 Así, podes ver que se reflicte aquí en termos de dimensión dos libros. 571 00:32:42,930 --> 00:32:46,740 >> E entón podemos utilizar o empilhar puntuación para destacar 572 00:32:46,740 --> 00:32:49,170 os libros que teñen puntuacións máis altas pila. 573 00:32:49,170 --> 00:32:54,930 Entón, se é máis escura, isto significa que, Presuntamente, é usado con máis frecuencia. 574 00:32:54,930 --> 00:32:57,040 Polo tanto, neste caso, eu son indo para adiviñar que este 575 00:32:57,040 --> 00:33:03,226 é a versión de Alicia no país das marabillas que é moi usado e máis 576 00:33:03,226 --> 00:33:05,100 accedeuse, a biblioteca ten o maior número de copias. 577 00:33:05,100 --> 00:33:06,975 Entón, se está a buscar para Alicia no País das Marabillas, 578 00:33:06,975 --> 00:33:10,220 este pode ser un bo lugar para comezar. 579 00:33:10,220 --> 00:33:13,500 >> E, a continuación, aquí tamén se pode conectar a fóra para, digamos, Amazon para mercar o libro, 580 00:33:13,500 --> 00:33:15,182 e así por diante e así por diante. 581 00:33:15,182 --> 00:33:17,140 O punto aquí, unha vez máis, Non é tanto que este 582 00:33:17,140 --> 00:33:25,030 é a mellor forma de navegar na biblioteca ou a ferramenta correcta para cada ocasión. 583 00:33:25,030 --> 00:33:28,400 Pero é outra forma de facelo. 584 00:33:28,400 --> 00:33:31,359 E facendo a datos dispoñible a través dunha API, que 585 00:33:31,359 --> 00:33:34,650 está feita de bloques de construción moi simple, que permite que buscar o contido, 586 00:33:34,650 --> 00:33:39,420 pode construír algo como esta que poden 587 00:33:39,420 --> 00:33:41,520 ser extraordinariamente valioso para algunhas persoas. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Entón, iso é unha especie de, tanto como eu quero a dicir verdade sobre o que a API é 590 00:33:51,860 --> 00:33:56,070 eo que expón, non hai un todo chea de cousas nos bastidores, que 591 00:33:56,070 --> 00:33:59,480 Eu só vou tocar en breve só porque é unha especie de chega a este 592 00:33:59,480 --> 00:34:03,720 desde un ángulo diferente en termos de como é que algo así 593 00:34:03,720 --> 00:34:04,580 se pór en práctica? 594 00:34:04,580 --> 00:34:10,820 >> Así, unha API é un estándar interface con todo ese contido. 595 00:34:10,820 --> 00:34:13,820 Pero para chegar alí, o primeiro que tiña que facer 596 00:34:13,820 --> 00:34:17,260 foi reunir información de libros e imaxes 597 00:34:17,260 --> 00:34:21,580 e os instrumentos de descrición, a colección documento a partir de diversos sistemas de Harvard. 598 00:34:21,580 --> 00:34:23,929 Aleph, VIA, e OASIS son os nomes dos sistemas. 599 00:34:23,929 --> 00:34:28,820 E esencialmente entrar nun tubería, unha tubería de procesamento. 600 00:34:28,820 --> 00:34:33,230 >> Entón, primeiro de todo, temos de exportación ficheiros de todos estes sistemas. 601 00:34:33,230 --> 00:34:35,130 Nós dividídelos en elementos individuais. 602 00:34:35,130 --> 00:34:39,360 Polo tanto, temos un arquivo, que é un gigabyte, que ten un millón de discos na mesma. 603 00:34:39,360 --> 00:34:42,290 Por iso, división la en elementos individuais. 604 00:34:42,290 --> 00:34:45,374 Entón, para cada elemento, imos convertelo lo en mods, porque algunhas delas 605 00:34:45,374 --> 00:34:47,040 son mods nativamente, algúns deles non son. 606 00:34:47,040 --> 00:34:49,204 Entón, nós levalos todos para estar no mesmo formato. 607 00:34:49,204 --> 00:34:51,120 Despois, hai varios etapas de enriquecemento, onde 608 00:34:51,120 --> 00:34:55,969 sumamos máis información para os datos que estaba dispoñible na biblioteca. 609 00:34:55,969 --> 00:34:59,750 Entón, necesitamos engadir, en primeiro lugar temos o que bibliotecas seguro-la. 610 00:34:59,750 --> 00:35:02,250 Pasamos por unha etapa de cálculo da stackscore. 611 00:35:02,250 --> 00:35:07,112 Pasamos por unha etapa engadindo máis de metadatos en termos 612 00:35:07,112 --> 00:35:10,730 que coleccións persoas podería ter engadido isto-- 613 00:35:10,730 --> 00:35:12,532 >> A xente está creando coleccións de elementos. 614 00:35:12,532 --> 00:35:13,990 Que coleccións pertence? 615 00:35:13,990 --> 00:35:17,220 Como é que a xente con etiquetas este contido en pasado? 616 00:35:17,220 --> 00:35:20,750 Entón filtrar, e restrinxir os rexistros, porque, como xa referín, 617 00:35:20,750 --> 00:35:24,120 hai algúns rexistros que, por mor da razóns de dereitos de autor, non podemos amosar. 618 00:35:24,120 --> 00:35:26,700 E, despois, cargalos en algo chamado 619 00:35:26,700 --> 00:35:31,680 Solr, que non é un erro de ortografía, pero é o nome dun anaco de software 620 00:35:31,680 --> 00:35:35,710 que fai a indexación de busca, que impulsa toda a busca por tras da API. 621 00:35:35,710 --> 00:35:40,110 E entón el se fai dispoñible para API, e as persoas poden usalo. 622 00:35:40,110 --> 00:35:44,640 >> Entón, iso é como unha forma xusta proceso simple. 623 00:35:44,640 --> 00:35:47,230 Un dos interesante cousas sobre el é 624 00:35:47,230 --> 00:35:50,990 que estamos lidando con 13 millóns de rexistros 625 00:35:50,990 --> 00:35:53,820 e nós imos estar lidando ou máis. 626 00:35:53,820 --> 00:36:01,260 E nós queremos ser capaces de xestionar estes de forma relativamente rápida. 627 00:36:01,260 --> 00:36:03,630 Leva moito tempo para procesar 13 millóns de rexistros. 628 00:36:03,630 --> 00:36:09,529 >> Entón, como este gasoduto é establecer é que can-- 629 00:36:09,529 --> 00:36:12,070 Eu creo que a vantaxe do Segmentación, o problema que estamos 630 00:36:12,070 --> 00:36:15,580 intentando resolver aquí, é que todas as transformacións, todo 631 00:36:15,580 --> 00:36:18,729 estes pasos nesta gasoduto son separáveis. 632 00:36:18,729 --> 00:36:19,645 Non hai ningunha dependencia. 633 00:36:19,645 --> 00:36:22,146 Se está a procesar un rexistro de un libro, 634 00:36:22,146 --> 00:36:24,270 non hai ningunha dependencia en que entre outro libro. 635 00:36:24,270 --> 00:36:27,760 >> Entón o que podemos facer é, basicamente, en cada paso na cadra, 636 00:36:27,760 --> 00:36:30,470 imos poñer-la nunha cola na nube. 637 00:36:30,470 --> 00:36:32,250 Pasou de eu estar en Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Polo tanto, hai unha lista de, dicir, 10.000 elementos que 639 00:36:35,140 --> 00:36:38,100 necesita ser normalizado e convertidos a formato de mods. 640 00:36:38,100 --> 00:36:41,620 E nós xirar tantos servidores como queremos, quizais 10 servidores. 641 00:36:41,620 --> 00:36:44,860 E cada un destes servidores só senta alí, mira en fila, 642 00:36:44,860 --> 00:36:46,730 vese que hai un que precisa ser procesado, tira-lo da cola, 643 00:36:46,730 --> 00:36:48,740 procesa e sticks que na próxima cola. 644 00:36:48,740 --> 00:36:54,200 >> E así o que nos permite que facer é aplicar, no esencial, 645 00:36:54,200 --> 00:36:58,110 tanto hardware como queremos este problema para un período moi curto de tempo 646 00:36:58,110 --> 00:37:02,970 para procesar os datos tan axiña como posible, o que é algo que só, 647 00:37:02,970 --> 00:37:08,220 agora no mundo da computación en nube Podemos provisionar servidores esencialmente 648 00:37:08,220 --> 00:37:09,890 instantáneamente, que é útil. 649 00:37:09,890 --> 00:37:12,260 Entón, non debemos ter un servidor xigante sentado arredor 650 00:37:12,260 --> 00:37:16,700 o tempo para facer o procesamento que pode ocorrer só unha vez por semana. 651 00:37:16,700 --> 00:37:21,440 >> De xeito que é na maior parte dela. 652 00:37:21,440 --> 00:37:27,590 Non hai documentación dispoñible para a API elemento Biblioteca Nube 653 00:37:27,590 --> 00:37:31,960 neste URL, que será estar dispoñible máis tarde. 654 00:37:31,960 --> 00:37:36,730 E por favor, vai dar un ollo Lo para ver se hai algo, 655 00:37:36,730 --> 00:37:37,579 Ten algunha idea. 656 00:37:37,579 --> 00:37:38,120 Xogar con el. 657 00:37:38,120 --> 00:37:38,830 Xogar. 658 00:37:38,830 --> 00:37:42,800 E espero que pode vir con algo grande. 659 00:37:42,800 --> 00:37:44,740 Grazas. 660 00:37:44,740 --> 00:37:45,899