1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY LICHT: Hola. 3 00:00:12,370 --> 00:00:13,550 Estoy Jeffrey Licht. 4 00:00:13,550 --> 00:00:17,890 Y yo estoy aquí para hablar con usted acerca de la Biblioteca de la Universidad de Harvard y la construcción del mañana 5 00:00:17,890 --> 00:00:20,870 biblioteca hoy, supongo. 6 00:00:20,870 --> 00:00:23,040 Así el fondo aquí, el terreno de juego para esta sesión 7 00:00:23,040 --> 00:00:26,930 es esencialmente que hay una gran cantidad de datos bibliográficos 8 00:00:26,930 --> 00:00:28,400 disponibles en las bibliotecas de Harvard. 9 00:00:28,400 --> 00:00:33,434 Y hay una oportunidad, a través de algunas de las herramientas 10 00:00:33,434 --> 00:00:36,350 y un proyecto que se está desarrollando, para obtener acceso a la información 11 00:00:36,350 --> 00:00:42,430 y llevarla a los lugares que la Biblioteca de la Universidad de Harvard no está haciendo en este momento, 12 00:00:42,430 --> 00:00:45,460 hacer cosas nuevas con él, experimento y jugar un rato con él. 13 00:00:45,460 --> 00:00:52,413 >> Así que el punto de entrada en esta es una API llamada la Harvard Biblioteca Nube, que 14 00:00:52,413 --> 00:00:57,650 es un servidor de metadatos abierto, que voy a hablar ahora. 15 00:00:57,650 --> 00:01:02,595 Así que el fondo es que hay una montón de cosas en la biblioteca de la Universidad de Harvard. 16 00:01:02,595 --> 00:01:07,150 Tenemos más de 13 millones bibliográfica registros, millones de imágenes, 17 00:01:07,150 --> 00:01:11,090 y miles de instrumentos de descripción, que son esencialmente documentos que describen 18 00:01:11,090 --> 00:01:15,500 colecciones, diciendo lo hay en ellos, cajas de papeles 19 00:01:15,500 --> 00:01:21,080 etc., que representan más del un millón de documentos individuales. 20 00:01:21,080 --> 00:01:24,290 Y también hay una gran cantidad de información que la biblioteca tiene 21 00:01:24,290 --> 00:01:28,180 acerca de cómo se utiliza el contenido que podría ser de interés para las personas 22 00:01:28,180 --> 00:01:32,400 que podría querer trabajar con él. 23 00:01:32,400 --> 00:01:36,150 >> Así que toda la información la biblioteca cuenta con metadatos. 24 00:01:36,150 --> 00:01:39,500 Así que los metadatos son datos acerca de datos. 25 00:01:39,500 --> 00:01:42,070 Así que cuando hablamos de la información que está 26 00:01:42,070 --> 00:01:44,890 disponible a través de la biblioteca nube que está disponible, 27 00:01:44,890 --> 00:01:47,760 no es necesariamente los documentos reales 28 00:01:47,760 --> 00:01:53,060 sí mismos, no necesariamente la plena texto de los libros o las imágenes a todo, 29 00:01:53,060 --> 00:01:54,890 sin embargo, que en realidad puede ser el caso. 30 00:01:54,890 --> 00:01:57,550 Pero en realidad es información sobre los datos. 31 00:01:57,550 --> 00:02:00,909 >> Así que usted puede pensar en la catalogación información, números de llamada, temas, 32 00:02:00,909 --> 00:02:02,700 cuántas copias de la libro hay, lo que 33 00:02:02,700 --> 00:02:06,380 son las ediciones, ¿cuáles son los formatos, los autores, y así sucesivamente. 34 00:02:06,380 --> 00:02:12,250 Así que hay una gran cantidad de información sobre la información de la colección que, 35 00:02:12,250 --> 00:02:14,400 en sí mismo, es una especie de inherentemente útil. 36 00:02:14,400 --> 00:02:19,230 Y aunque si estás haciendo una investigación en profundidad, 37 00:02:19,230 --> 00:02:25,160 es obvio que quiere llegar a la real contentarse y mirar los datos, 38 00:02:25,160 --> 00:02:30,140 los metadatos es útil en términos de tanto el análisis de la corpus en su conjunto, 39 00:02:30,140 --> 00:02:33,870 como lo que son las cosas en la colección. 40 00:02:33,870 --> 00:02:35,520 ¿Cómo se relacionan? 41 00:02:35,520 --> 00:02:39,482 Le ayuda realmente a encontrar otras cosas, que es realmente el propósito principal de la misma. 42 00:02:39,482 --> 00:02:41,190 El punto de la metadatos y del catálogo 43 00:02:41,190 --> 00:02:43,230 es ayudar a encontrar de todo la información que está 44 00:02:43,230 --> 00:02:46,590 disponible dentro de las colecciones. 45 00:02:46,590 --> 00:02:53,690 >> Así que este es un ejemplo de metadatos de un libro en la Biblioteca de la Universidad de Harvard. 46 00:02:53,690 --> 00:02:56,370 Así que ahí está. 47 00:02:56,370 --> 00:02:59,850 Y se puede ver que es en realidad moderadamente complejo. 48 00:02:59,850 --> 00:03:04,610 Y parte del valor de los metadatos dentro del sistema de Biblioteca de la Universidad de Harvard 49 00:03:04,610 --> 00:03:09,320 es que ha sido una especie del acumulado por los catalogadores 50 00:03:09,320 --> 00:03:12,720 y montados por personas que solicitan una gran cantidad de experiencia y habilidad 51 00:03:12,720 --> 00:03:20,030 y se cree que con el tiempo, que tiene mucho valor. 52 00:03:20,030 --> 00:03:25,450 >> Así que si usted echa un vistazo a este expediente por Alicia anotada, usted puede descubrir 53 00:03:25,450 --> 00:03:32,590 que tenga el título, que lo escribió, el autor, y todos los diferentes temas 54 00:03:32,590 --> 00:03:35,380 ¿Qué personas han catalogado en. 55 00:03:35,380 --> 00:03:40,110 Y usted puede ver que hay también, en Además de un montón de buena información 56 00:03:40,110 --> 00:03:42,852 aquí, hay cierta duplicación. 57 00:03:42,852 --> 00:03:45,560 Hay una gran cantidad de complejidad que es refleja a través de los metadatos 58 00:03:45,560 --> 00:03:46,300 que tiene. 59 00:03:46,300 --> 00:03:50,320 >> Así que un título de este libro es Las aventuras de Alicia en el País de las Maravillas. 60 00:03:50,320 --> 00:03:53,880 Así que este es un Anotado versión de ese libro. 61 00:03:53,880 --> 00:03:56,380 Pero también llama El Anotado Alice, las aventuras de Alicia 62 00:03:56,380 --> 00:03:58,570 in Wonderland porque es algo que 63 00:03:58,570 --> 00:04:00,430 Martin Gardner escribió y anotada del libro. 64 00:04:00,430 --> 00:04:03,369 Y hay una gran cantidad de información acerca de puzzles de lógica y cosas 65 00:04:03,369 --> 00:04:05,410 dentro de Alice que probablemente no conocer. 66 00:04:05,410 --> 00:04:07,000 Así que hay que ir leyó. 67 00:04:07,000 --> 00:04:11,940 >> Pero usted puede ver que hay mucho detalle aquí, 68 00:04:11,940 --> 00:04:15,340 incluidos los identificadores, cuando fue creado, de dónde viene, 69 00:04:15,340 --> 00:04:17,420 en términos de la Universidad de Harvard sistema, y ​​así sucesivamente. 70 00:04:17,420 --> 00:04:20,350 Así que esto es una muestra de el tipo de metadatos 71 00:04:20,350 --> 00:04:24,340 que usted puede ver por un libro en la Colección de la biblioteca de Harvard. 72 00:04:24,340 --> 00:04:26,680 >> Esto es algo completamente diferente. 73 00:04:26,680 --> 00:04:32,610 Así que hay un sistema llamado VIA Harvard, que, básicamente, 74 00:04:32,610 --> 00:04:39,990 está catalogando imágenes y objetos de arte y las cosas visuales a lo largo de Harvard, 75 00:04:39,990 --> 00:04:44,010 y la adición de algunos metadatos a ellos, clasificándolos, 76 00:04:44,010 --> 00:04:49,200 y, en algunos casos, proporcionando pequeñas imágenes en miniatura 77 00:04:49,200 --> 00:04:51,250 que puede tomar un mira si así lo desea. 78 00:04:51,250 --> 00:04:54,240 >> Así que este es un ejemplo de la metadatos que usted tiene para una placa 79 00:04:54,240 --> 00:04:57,840 de, presumiblemente, Alicia en el País de las Maravillas. 80 00:04:57,840 --> 00:05:00,499 Y usted puede ver que hay menos metadatos aquí. 81 00:05:00,499 --> 00:05:02,040 Es sólo un tipo diferente de objeto. 82 00:05:02,040 --> 00:05:03,425 Y lo que hay menos información. 83 00:05:03,425 --> 00:05:07,790 >> Usted en su mayoría tiene el hecho de que, una llamada número, esencialmente que lo creó, - 84 00:05:07,790 --> 00:05:10,410 >> No sabemos cuando se creó. 85 00:05:10,410 --> 00:05:13,320 >> --y un título. 86 00:05:13,320 --> 00:05:14,300 >> Otro ejemplo. 87 00:05:14,300 --> 00:05:16,380 Se trata de un instrumento de descripción. 88 00:05:16,380 --> 00:05:19,030 Así que hay una colección de Lewis Trabajos de Carroll en Harvard. 89 00:05:19,030 --> 00:05:23,601 Así que esto describe lo que es en esa colección. 90 00:05:23,601 --> 00:05:26,100 Así que alguien ha pasado por y mirado a través de todas las cajas 91 00:05:26,100 --> 00:05:32,220 y lo catalogó, dado algunos antecedentes, escrito un resumen de lo que hay aquí. 92 00:05:32,220 --> 00:05:35,290 Y si usted fuera a mirar adicionalmente a esto, este 93 00:05:35,290 --> 00:05:39,620 continúa durante páginas y páginas y páginas, pero le dirá 94 00:05:39,620 --> 00:05:41,860 qué cartas y qué data de qué cajas 95 00:05:41,860 --> 00:05:44,289 existido en toda la colección. 96 00:05:44,289 --> 00:05:46,330 Pero esto es algo que, si estás en Harvard, 97 00:05:46,330 --> 00:05:50,720 usted puede ir y realmente se ven físicamente y, presumiblemente, echar un vistazo a. 98 00:05:50,720 --> 00:05:53,440 >> Así que esto es genial. 99 00:05:53,440 --> 00:05:54,450 De utilidad Estos metadatos. 100 00:05:54,450 --> 00:05:56,327 Está en el sistema de Biblioteca de la Universidad de Harvard. 101 00:05:56,327 --> 00:05:58,910 Existen herramientas en línea donde usted puede ir a tomar una mirada en ella, 102 00:05:58,910 --> 00:05:59,993 y verlo, y buscarla. 103 00:05:59,993 --> 00:06:02,810 Y usted puede cortar y dados en un montón de diferentes maneras. 104 00:06:02,810 --> 00:06:06,920 >> Pero en realidad sólo está disponible si usted es un ser humano que se sienta abajo 105 00:06:06,920 --> 00:06:12,600 en su navegador web o algo o su teléfono y navegar a través de él. 106 00:06:12,600 --> 00:06:16,730 En realidad no es disponible en cualquier tipo de moda utilizable 107 00:06:16,730 --> 00:06:19,520 para otros sistemas o otros equipos a utilizar, 108 00:06:19,520 --> 00:06:21,500 no con sistemas dentro de la Biblioteca de Harvard, 109 00:06:21,500 --> 00:06:24,890 pero los sistemas en el mundo exterior, sólo otras personas en general. 110 00:06:24,890 --> 00:06:30,210 Entonces la pregunta es, ¿cómo podemos nosotros ponerlo a disposición de los ordenadores 111 00:06:30,210 --> 00:06:33,560 de manera que podamos hacer más interesante cosas con él que apenas 112 00:06:33,560 --> 00:06:36,550 navegación por nosotros mismos? 113 00:06:36,550 --> 00:06:39,766 >> Así que ¿por qué quieres hacer esto? 114 00:06:39,766 --> 00:06:41,140 Hay un montón de posibilidades. 115 00:06:41,140 --> 00:06:43,980 Una de ellas es que podría construir un completo diferente modo de navegación 116 00:06:43,980 --> 00:06:46,962 el contenido que está disponible a través de las bibliotecas de Harvard. 117 00:06:46,962 --> 00:06:48,670 Te voy a mostrar uno más tarde llamado Stacklife, 118 00:06:48,670 --> 00:06:52,440 que tiene un completamente diferente tomar en la búsqueda de contenido. 119 00:06:52,440 --> 00:06:54,560 >> Se puede construir un motor de recomendación. 120 00:06:54,560 --> 00:06:57,955 Así Biblioteca Harvard no está en el negocio de decir, te gusta este libro. 121 00:06:57,955 --> 00:07:01,080 Luego ir a tomar un vistazo a estos otros 17 libros que le pueden interesar 122 00:07:01,080 --> 00:07:03,200 o estos 18 otras imágenes. 123 00:07:03,200 --> 00:07:06,040 Pero que sin duda podría ser una característica valiosa. 124 00:07:06,040 --> 00:07:09,272 Y teniendo en cuenta los metadatos, puede ser posible juntar eso. 125 00:07:09,272 --> 00:07:11,980 Es posible que tenga diferentes necesidades en términos de búsqueda en el contenido, 126 00:07:11,980 --> 00:07:16,200 como tal vez a pesar de las herramientas que están disponibles de que la biblioteca hace 127 00:07:16,200 --> 00:07:18,450 disponibles, es posible que desee para buscar de una manera diferente 128 00:07:18,450 --> 00:07:21,847 u optimizar para un caso concreto, que tal vez es muy especializado. 129 00:07:21,847 --> 00:07:23,930 Tal vez sólo hay unos pocos personas en el mundo que 130 00:07:23,930 --> 00:07:25,846 querer buscar el contenido de esta manera, pero 131 00:07:25,846 --> 00:07:28,985 sería genial si podría dejar que ellos hagan eso. 132 00:07:28,985 --> 00:07:30,860 Hay una gran cantidad de análisis en apenas cómo la gente 133 00:07:30,860 --> 00:07:33,860 utilizar el contenido que sería realmente interesante para conocer, descubrir 134 00:07:33,860 --> 00:07:37,280 qué libros se están utilizando, lo que no lo son, y así sucesivamente. 135 00:07:37,280 --> 00:07:41,670 Y luego hay una gran cantidad de oportunidad de integrar 136 00:07:41,670 --> 00:07:45,210 con otra información eso es por ahí en la web. 137 00:07:45,210 --> 00:07:46,880 Así que tener-- 138 00:07:46,880 --> 00:07:50,260 >> Por ejemplo, NPR tiene un segmento de reseñas de libros, 139 00:07:50,260 --> 00:07:53,090 donde entrevistan autores de libros. 140 00:07:53,090 --> 00:07:56,837 Y así que sería genial si fueras buscar un libro en la Universidad de Harvard 141 00:07:56,837 --> 00:07:59,670 Biblioteca, y dices, OK, no hay sido una entrevista con el autor. 142 00:07:59,670 --> 00:08:00,878 Vamos a echar un vistazo a eso. 143 00:08:00,878 --> 00:08:05,461 O hay una página de Wikipedia, como referencia autorizada, académico 144 00:08:05,461 --> 00:08:07,710 acerca de este libro que puede ser que desee echar un vistazo a. 145 00:08:07,710 --> 00:08:12,600 >> Hay estos tipos de fuentes dispersos por toda la web. 146 00:08:12,600 --> 00:08:16,555 Y reuniéndolos podría ser un gran uso 147 00:08:16,555 --> 00:08:18,930 para alguien que busca en el contenido, en busca de algo. 148 00:08:18,930 --> 00:08:20,180 Pero también no es el tipo de cosa que 149 00:08:20,180 --> 00:08:23,205 quiere que la biblioteca sea responsable para bajar y la caza de 150 00:08:23,205 --> 00:08:25,455 todas estas diferentes fuentes y conectarlos juntos 151 00:08:25,455 --> 00:08:28,920 porque están en continuo cambio. 152 00:08:28,920 --> 00:08:33,570 Y lo que ellos piensan que es importante mayo no ser lo que usted piensa es importante. 153 00:08:33,570 --> 00:08:36,929 >> Y más aún, en el fondo hay una montón de cosas que no hemos pensado todavía. 154 00:08:36,929 --> 00:08:42,222 Así que si podemos abrir esto, más personas, además de una media docena o así, 155 00:08:42,222 --> 00:08:45,174 que están mirando esto en un de forma regular puede pensar en ideas 156 00:08:45,174 --> 00:08:47,340 y masajear los datos, y hagan lo que quieran con él. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Así que queremos hacer de este los datos disponibles para el mundo. 159 00:08:54,045 --> 00:08:55,670 Bueno, hay un par de complicaciones. 160 00:08:55,670 --> 00:08:58,540 Una es que estos metadatos es en diferentes sistemas. 161 00:08:58,540 --> 00:09:01,110 Está en diferentes formatos. 162 00:09:01,110 --> 00:09:04,719 Así que hay cierta normalización que tiene que suceder, 163 00:09:04,719 --> 00:09:08,010 que la normalización es el proceso de trayendo cosas de diferentes formatos 164 00:09:08,010 --> 00:09:12,940 y mapear a un único formato para que los campos coincidirán. 165 00:09:12,940 --> 00:09:15,160 >> Hay algunas restricciones de copyright. 166 00:09:15,160 --> 00:09:21,010 Por extraño que parezca, la entrada del catálogo acerca de un libro se hace responsable de los derechos de autor. 167 00:09:21,010 --> 00:09:24,060 Así que, aunque es sólo información derivada de la libro, 168 00:09:24,060 --> 00:09:25,330 es derecho de autor. 169 00:09:25,330 --> 00:09:28,400 Y dependiendo de que en realidad creado que los metadatos, 170 00:09:28,400 --> 00:09:32,175 puede haber restricciones sobre quién puede distribuirlo, a-- similares 171 00:09:32,175 --> 00:09:33,402 >> No lo sé. 172 00:09:33,402 --> 00:09:36,110 Puede o puede no ser similar a la situación de las letras de canciones, 173 00:09:36,110 --> 00:09:36,610 por ejemplo. 174 00:09:36,610 --> 00:09:38,560 Así que todos sabemos lo que sale bien. 175 00:09:38,560 --> 00:09:40,450 Así que hay que conseguir alrededor de ese tema. 176 00:09:40,450 --> 00:09:44,910 >> Y luego otra pieza es que hay una gran cantidad de datos. 177 00:09:44,910 --> 00:09:52,420 Así que si yo soy alguien que quiere trabajar con los datos o tiene una idea genial, 178 00:09:52,420 --> 00:09:55,350 tratar con 14 millones registros en mi portátil 179 00:09:55,350 --> 00:09:57,487 podría ser problemático y difícil de manejar. 180 00:09:57,487 --> 00:09:59,320 Así que queremos reducir las barreras para las personas 181 00:09:59,320 --> 00:10:02,130 para poder trabajar con los datos. 182 00:10:02,130 --> 00:10:07,880 >> Lo que el enfoque que se espera direcciones todas estas preocupaciones es dos partes. 183 00:10:07,880 --> 00:10:11,770 Uno es la construcción de una plataforma que toma los datos de todas estas fuentes dispares 184 00:10:11,770 --> 00:10:14,350 y la agrava, normaliza, la enriquece, y marcas 185 00:10:14,350 --> 00:10:16,650 a disposición en un solo lugar. 186 00:10:16,650 --> 00:10:20,950 Y lo hace disponible a través de una API pública que la gente puede llamar. 187 00:10:20,950 --> 00:10:24,430 >> Así que una API es una aplicación Interfaz de programación. 188 00:10:24,430 --> 00:10:28,930 Y básicamente se refiere a un punto final que un sistema o tecnología 189 00:10:28,930 --> 00:10:31,720 puede llamar y obtener datos de vuelta en un formato estructurado de una manera 190 00:10:31,720 --> 00:10:32,900 que se puede utilizar. 191 00:10:32,900 --> 00:10:36,060 Así que no es dependiente en ir a un sitio web 192 00:10:36,060 --> 00:10:37,970 y raspando datos fuera de la misma, por ejemplo. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Así que esta es la página principal de Cloud Library API de artículo, 195 00:10:45,010 --> 00:10:47,220 que es esencialmente su versión dos. 196 00:10:47,220 --> 00:10:50,130 Así que es la segunda iteración de tratando de hacer todos estos datos 197 00:10:50,130 --> 00:10:53,280 a disposición del mundo. 198 00:10:53,280 --> 00:10:59,560 Por lo que es http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 Y sólo para descomponerlo un poco, lo que esto significa 200 00:11:03,830 --> 00:11:06,115 es que esta es la segunda versión del API. 201 00:11:06,115 --> 00:11:08,490 Hay una versión de uno, lo que Yo no voy a hablar. 202 00:11:08,490 --> 00:11:09,750 Pero hay una versión de uno. 203 00:11:09,750 --> 00:11:14,740 >> Y si usted está llamando a este API, que está recibiendo los artículos. 204 00:11:14,740 --> 00:11:20,640 Y parte de la idea de un API es una API es un contrato. 205 00:11:20,640 --> 00:11:23,440 Es algo que es no va a cambiar. 206 00:11:23,440 --> 00:11:24,850 Así, por ejemplo, - 207 00:11:24,850 --> 00:11:27,410 >> Y la razón es que si yo construir algún tipo de sistema que 208 00:11:27,410 --> 00:11:33,210 se va a utilizar una API de biblioteca de nube para mostrar libros o ayudar a la gente a encontrar 209 00:11:33,210 --> 00:11:36,190 información de una forma única, lo que no queremos que suceda 210 00:11:36,190 --> 00:11:38,940 es para nosotros ir cambiar la forma que funciona API, y de repente 211 00:11:38,940 --> 00:11:41,340 todo lo que se rompe en el lado del usuario final. 212 00:11:41,340 --> 00:11:46,710 Así que parte de si estás haciendo API a disposición del mundo, es 213 00:11:46,710 --> 00:11:49,396 buenas prácticas para poner un número de versión en ella para que la gente 214 00:11:49,396 --> 00:11:51,020 saben qué versión se está tratando. 215 00:11:51,020 --> 00:11:54,300 >> Así que si decidimos encontramos una mejor manera de hacer que esta información esté disponible, 216 00:11:54,300 --> 00:11:57,295 podríamos cambiar eso a llamar a esa versión tres. 217 00:11:57,295 --> 00:11:59,920 Así que todo el que todavía está utilizando versión dos, que todavía va a trabajar. 218 00:11:59,920 --> 00:12:03,490 Pero la versión de tres haría tener todas las cosas nuevas. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Así que este es un API, pero esta Realmente parece un URL. 221 00:12:09,210 --> 00:12:11,680 Y así lo que se trata de una ejemplo de lo que es la 222 00:12:11,680 --> 00:12:16,615 llamado API resto, que está disponible sobre sólo una conexión web normal. 223 00:12:16,615 --> 00:12:19,680 Y en realidad se puede ir a ella en un navegador. 224 00:12:19,680 --> 00:12:28,550 >> Así que aquí Acabo de abrir Firefox y ido a api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 Y así lo he llegado hasta aquí es básicamente la primera página 226 00:12:31,560 --> 00:12:34,740 de los resultados de la totalidad conjunto de elementos que nos tenemos. 227 00:12:34,740 --> 00:12:37,460 Y es aquí en formato XML. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 Y también ha sido prettified por Firefox. 230 00:12:42,210 --> 00:12:45,850 En realidad, no tiene todos estos poca expansión y contracción 231 00:12:45,850 --> 00:12:47,880 doohickeys aquí. 232 00:12:47,880 --> 00:12:52,520 Esta es una especie de agradable Versión manera de verlo. 233 00:12:52,520 --> 00:12:57,040 >> Pero lo que esto nos está diciendo es He pedido a todos los artículos. 234 00:12:57,040 --> 00:13:03,120 Así que hay 13.289.475 artículos. 235 00:13:03,120 --> 00:13:06,150 Y estoy buscando a la primera 10, comenzando en la posición cero 236 00:13:06,150 --> 00:13:09,760 porque en ciencias de la computación siempre empezamos en cero. 237 00:13:09,760 --> 00:13:15,150 Y lo que tengo aquí, si acabo de colapsar esto, verás que tengo 10 artículos. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> Y si me tomo un vistazo a un artículo, puedo veo que tengo información al respecto. 240 00:13:25,210 --> 00:13:27,400 Y esto es en lo que se llama forma MODS. 241 00:13:27,400 --> 00:13:30,860 Y así me voy a cambiar volver aquí por un momento. 242 00:13:30,860 --> 00:13:33,750 DE ACUERDO. 243 00:13:33,750 --> 00:13:37,447 >> Así que vamos a buscar algo en específico porque el primer elemento que 244 00:13:37,447 --> 00:13:40,030 pasa para llegar cuando se mira a través de toda la colección 245 00:13:40,030 --> 00:13:41,750 es, por definición, al azar. 246 00:13:41,750 --> 00:13:44,550 Así que echemos un vistazo a algunos donuts. 247 00:13:44,550 --> 00:13:46,830 Oh. 248 00:13:46,830 --> 00:13:49,190 >> DE ACUERDO. 249 00:13:49,190 --> 00:13:49,940 Así donas. 250 00:13:49,940 --> 00:13:55,360 Así encontramos que hay 80 artículos en la colección que la referencia donuts. 251 00:13:55,360 --> 00:13:57,150 Estamos pensando en el primer 10 de ellos. 252 00:13:57,150 --> 00:14:01,890 Ahora, se puede ver aquí la forma en que Le dije que estoy buscando donas, 253 00:14:01,890 --> 00:14:04,400 Acabo de añadir algo a la cadena de consulta de la URL. 254 00:14:04,400 --> 00:14:09,680 Así q es igual a rosquillas, que se puede ver un poco más fácil aquí. 255 00:14:09,680 --> 00:14:12,131 >> Y esto básicamente significa que hay una especificación de la API, que 256 00:14:12,131 --> 00:14:13,880 define lo que todos estos parámetros significan. 257 00:14:13,880 --> 00:14:17,150 Y esto significa que vamos a buscar todo para donas. 258 00:14:17,150 --> 00:14:24,910 >> Así que el primer artículo aquí tenemos se puede ver el título es Donuts, 259 00:14:24,910 --> 00:14:29,310 y hay un subtítulo llamado Un American Passion, que es, supongo, 260 00:14:29,310 --> 00:14:31,610 apropiado. 261 00:14:31,610 --> 00:14:36,134 Hay un montón de diferente-- 262 00:14:36,134 --> 00:14:38,050 Una vez en el punto de obtener los datos, 263 00:14:38,050 --> 00:14:41,020 hay un montón de diferentes formatos que usted puede conseguir en. 264 00:14:41,020 --> 00:14:44,050 Y hay diferentes puntos fuertes y debilidades para todos ellos. 265 00:14:44,050 --> 00:14:49,000 Así que éste, usted puede ver aquí, esta forma es muy rica. 266 00:14:49,000 --> 00:14:51,946 Y ha sido estandarizada. 267 00:14:51,946 --> 00:14:55,040 >> Así que hay un título específico campo, un campo de subtítulos. 268 00:14:55,040 --> 00:14:58,950 Hay un suplente título, An American Passion. 269 00:14:58,950 --> 00:15:01,650 No es el nombre asociado con él. 270 00:15:01,650 --> 00:15:03,120 Tipo del recurso es texto. 271 00:15:03,120 --> 00:15:06,070 Hay una gran cantidad de información aquí en este formato. 272 00:15:06,070 --> 00:15:09,480 >> Pero hay un montón de formatos diferentes. 273 00:15:09,480 --> 00:15:11,920 Así que lo que estábamos viendo es un formato 274 00:15:11,920 --> 00:15:17,700 llamados MODS, que significa Metadatos de objeto Descripción Servicio, 275 00:15:17,700 --> 00:15:18,250 potencialmente. 276 00:15:18,250 --> 00:15:23,030 En realidad estoy muy seguro acerca de la S. Pero es un formato bastante compleja. 277 00:15:23,030 --> 00:15:24,240 Es el formato predeterminado. 278 00:15:24,240 --> 00:15:30,260 >> Pero es la que mantiene la riqueza de todos los datos 279 00:15:30,260 --> 00:15:33,820 que la biblioteca tiene porque que es muy cercano a lo que 280 00:15:33,820 --> 00:15:35,110 La biblioteca utiliza internamente. 281 00:15:35,110 --> 00:15:39,030 Es una norma que es utilizado en todo el país, 282 00:15:39,030 --> 00:15:40,944 en todo el mundo en las bibliotecas universitarias. 283 00:15:40,944 --> 00:15:42,110 Y es muy interoperable. 284 00:15:42,110 --> 00:15:44,852 Así que si usted tiene un documento que está en formato MODS, 285 00:15:44,852 --> 00:15:47,560 usted puede darle eso a otra persona cuyos sistemas entienden MODS, 286 00:15:47,560 --> 00:15:48,518 y pueden importarlo. 287 00:15:48,518 --> 00:15:50,840 Así que es un estándar. 288 00:15:50,840 --> 00:15:54,250 Está muy bien definido, muy específico. 289 00:15:54,250 --> 00:15:58,980 Y eso es lo que lo hace interoperable porque si alguien dice, 290 00:15:58,980 --> 00:16:04,930 este es el título alternativo de una registro, todo el mundo sabe lo que eso significa. 291 00:16:04,930 --> 00:16:07,740 Por otro lado, es muy complicado. 292 00:16:07,740 --> 00:16:13,160 >> Así que si usted echa un vistazo en este disco aquí, 293 00:16:13,160 --> 00:16:15,320 si sólo quiero conseguir el título de este documento, 294 00:16:15,320 --> 00:16:21,150 de este libro, que es probablemente Donuts, Una pasión americana, analizarlo fuera 295 00:16:21,150 --> 00:16:22,940 es un poco involucrados. 296 00:16:22,940 --> 00:16:27,380 Mientras que hay otro formato llamado Dublin Core, 297 00:16:27,380 --> 00:16:29,730 que es un formato mucho, mucho más simple. 298 00:16:29,730 --> 00:16:33,764 >> Y por lo que se ve aquí, no hay título, subtítulo, título alternativo. 299 00:16:33,764 --> 00:16:35,930 No es sólo el título, Donuts, An American Passion, 300 00:16:35,930 --> 00:16:38,780 y un nuevo título, American Passion. 301 00:16:38,780 --> 00:16:42,907 Así que cuando usted está buscando en qué forma desea obtener los datos de, 302 00:16:42,907 --> 00:16:44,740 mucho depende de cómo vas a usarlo. 303 00:16:44,740 --> 00:16:46,573 ¿Está utilizando para interoperabilidad o usted 304 00:16:46,573 --> 00:16:49,970 quieren algo simple que podría ser más fácil trabajar con él? 305 00:16:49,970 --> 00:16:56,002 >> Por otro lado, una gran parte del detalles consiguen especie de aplastadas hacia abajo. 306 00:16:56,002 --> 00:16:58,460 Es posible que pierda los matices de lo que significa una determinada parcela 307 00:16:58,460 --> 00:17:02,960 si usted está tratando con Dublin Core, que no te dan con MODS. 308 00:17:02,960 --> 00:17:06,462 Así que estos son dos de los formatos usted puede salir de la API. 309 00:17:06,462 --> 00:17:08,920 Y en el fondo, estamos manteniendo detrás de las escenas en MODS. 310 00:17:08,920 --> 00:17:14,179 Pero podemos darle en MODS y Dublin Core y todo lo demás también. 311 00:17:14,179 --> 00:17:16,470 La otra consideración cuando usted está buscando en los datos 312 00:17:16,470 --> 00:17:21,210 es que usted puede conseguirlo como sea JSON, que es sinónimo de JavaScript Object Notation, 313 00:17:21,210 --> 00:17:24,720 o XML, lo que significa Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 Y estas representaciones de datos tanto tener exactamente los mismos datos, exactamente 315 00:17:30,080 --> 00:17:31,080 los mismos campos. 316 00:17:31,080 --> 00:17:33,644 Pero son sólo sintácticamente diferente. 317 00:17:33,644 --> 00:17:40,401 >> Así que esto es A-- 318 00:17:40,401 --> 00:17:41,400 Bueno, vamos a cambiar. 319 00:17:41,400 --> 00:17:47,490 Así que esta es nuestra consulta para donas en formato XML. 320 00:17:47,490 --> 00:17:53,470 Si sólo me cambio que se trata de JSON, Puedo ver que se ve diferente. 321 00:17:53,470 --> 00:17:58,580 Así que ahora este es el mismo contenido, pero una estructura diferente. 322 00:17:58,580 --> 00:18:00,080 Hay menos paréntesis angulares. 323 00:18:00,080 --> 00:18:02,530 Hay menos detallado. 324 00:18:02,530 --> 00:18:06,440 >> Y este es un formato que, si están trabajando en el entorno web, 325 00:18:06,440 --> 00:18:09,680 usted es más probable va a querer utilizar porque uno 326 00:18:09,680 --> 00:18:12,630 de las cosas buenas de JSON es es compatible con JavaScript. 327 00:18:12,630 --> 00:18:17,680 Así que si estoy escribiendo aplicación web, puedo tirar en JSON y simplemente trabajar directamente con él. 328 00:18:17,680 --> 00:18:20,187 Mientras que con XML, es un poco más complicado. 329 00:18:20,187 --> 00:18:21,520 Así que de nuevo, estos son a la vez útil. 330 00:18:21,520 --> 00:18:26,387 Ellos sólo son diferentes casos de uso donde la gente podría querer usarlos. 331 00:18:26,387 --> 00:18:26,886 DE ACUERDO. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Así que de vuelta a la API. 334 00:18:31,680 --> 00:18:32,900 Así que podemos buscar el fin de: 335 00:18:32,900 --> 00:18:36,220 >> Doy un ejemplo de la búsqueda de donuts. 336 00:18:36,220 --> 00:18:39,330 Podemos buscar sólo en un en particular de campo dentro de aquí. 337 00:18:39,330 --> 00:18:41,310 Así que en lugar de buscar la totalidad del expediente, 338 00:18:41,310 --> 00:18:43,870 Sólo puedo buscar el campo de título. 339 00:18:43,870 --> 00:18:48,810 Y por lo que ahora hay 25 cosas que tener donuts en el título, uno de los cuales 340 00:18:48,810 --> 00:18:52,430 es acerca de la restauración humedales en la gestión 341 00:18:52,430 --> 00:18:54,990 del agujero de la rosquilla programa, que es probablemente 342 00:18:54,990 --> 00:18:58,970 no necesariamente lo que estamos buscando para cuando estamos en busca de donuts. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> También puede, cuando estás tratar con un API-- 345 00:19:05,490 --> 00:19:08,827 >> Parte de tener una API está dando personas el acceso a grandes conjuntos de datos. 346 00:19:08,827 --> 00:19:11,410 Y hay un par diferente herramientas que puede utilizar para hacer eso. 347 00:19:11,410 --> 00:19:14,170 Uno de ellos es, simplemente, que puede desplazarse por los datos. 348 00:19:14,170 --> 00:19:17,340 Así como si usted hace una consulta a través de una interfaz web, 349 00:19:17,340 --> 00:19:19,470 se puede ver en la página uno, la segunda página, la página tres. 350 00:19:19,470 --> 00:19:22,040 Usted puede hacer lo mismo cosa a través de la API. 351 00:19:22,040 --> 00:19:24,150 Usted sólo tiene que ser explícito en cómo lo hace. 352 00:19:24,150 --> 00:19:29,511 >> Así, por ejemplo, si estoy buscando en mi primera consulta aquí, 353 00:19:29,511 --> 00:19:32,510 donde yo estoy haciendo una búsqueda de las cosas con donuts en el título, lo que puedo decir, 354 00:19:32,510 --> 00:19:35,415 y el límite es igual a 20, lo que significa dame los primeros 20 registros, no 355 00:19:35,415 --> 00:19:38,540 el primer 10, que es el valor por defecto, porque quiero mirar a 20 a la vez. 356 00:19:38,540 --> 00:19:43,435 O lo que puedo decir, establecer el iniciar igual a 20 y el límite 357 00:19:43,435 --> 00:19:47,150 igual a 20, lo que dará me Registros 21 a 40. 358 00:19:47,150 --> 00:19:52,680 >> Así que supongo que la cosa para llevar aquí es 359 00:19:52,680 --> 00:19:57,290 que estamos usando las cadenas de consulta para establecer los parámetros de la consulta. 360 00:19:57,290 --> 00:20:02,760 Y te permite el control lo que recibe. 361 00:20:02,760 --> 00:20:05,980 >> Otra de las herramientas que puede utilizar, - 362 00:20:05,980 --> 00:20:09,250 >> Y esto es realmente útil en términos de la exploración de los datos. 363 00:20:09,250 --> 00:20:10,840 >> --Es algo llamado facetado. 364 00:20:10,840 --> 00:20:15,530 Así el término facetado es no necesariamente común. 365 00:20:15,530 --> 00:20:16,880 Pero todos ustedes lo ha visto antes. 366 00:20:16,880 --> 00:20:18,630 Si usted echa un vistazo a Amazon, por ejemplo, 367 00:20:18,630 --> 00:20:20,870 y usted hace una búsqueda para donuts en los libros, 368 00:20:20,870 --> 00:20:27,080 aquí lo que tienen una serie de libros, y que están agrupados por categoría, 369 00:20:27,080 --> 00:20:30,470 y te dan las diferentes categorías, y el número de libros en cada categoría 370 00:20:30,470 --> 00:20:31,330 aparecer. 371 00:20:31,330 --> 00:20:33,420 >> Así que esto es básicamente una faceta. 372 00:20:33,420 --> 00:20:37,570 Usted toma todos sus libros, el 1800 libros que coincidan con donas en Amazon. 373 00:20:37,570 --> 00:20:39,820 12 de ellos están en el categoría de desayuno. 374 00:20:39,820 --> 00:20:43,100 21 en pastelería y panadería, y así sucesivamente y así sucesivamente. 375 00:20:43,100 --> 00:20:47,670 >> Así que esto es realmente un útil herramienta para explorar el contenido 376 00:20:47,670 --> 00:20:53,260 dentro de la biblioteca, así porque cuando nos fijamos en una faceta, 377 00:20:53,260 --> 00:20:56,520 que te da una idea de qué temas existe, como qué tipos de temas 378 00:20:56,520 --> 00:20:58,510 son las más populares dentro de su conjunto de consultas. 379 00:20:58,510 --> 00:21:00,950 Y ayuda de irse y explorar. 380 00:21:00,950 --> 00:21:02,770 Por lo que podemos hacer lo mismo. 381 00:21:02,770 --> 00:21:05,940 >> Si queremos utilizar el API y mirar facetas, 382 00:21:05,940 --> 00:21:08,950 añadimos otro parámetro a nuestra amiga la cadena de consulta. 383 00:21:08,950 --> 00:21:12,540 Así facetas iguales separados por comas lista de lo que queremos en la faceta. 384 00:21:12,540 --> 00:21:14,790 Así que una de las facetas podría estar sujeto. 385 00:21:14,790 --> 00:21:16,565 Otro podría ser idioma. 386 00:21:16,565 --> 00:21:19,665 Y por lo que si corremos esa consulta, nos get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Se ve más o menos lo mismo aquí. 389 00:21:24,830 --> 00:21:29,010 Pero hemos añadido al final de la lista de un conjunto de facetas. 390 00:21:29,010 --> 00:21:34,060 Así que tenemos una faceta llamada materia. 391 00:21:34,060 --> 00:21:40,250 Así que esto nos está diciendo que si miro a mis 80 resultados de la consulta de rosquilla, 392 00:21:40,250 --> 00:21:42,100 13 de ellos tienen la someter Estados Unidos. 393 00:21:42,100 --> 00:21:43,684 Tres tienen los donuts sujetos. 394 00:21:43,684 --> 00:21:45,600 Tres tienen el tema de la restauración de humedales, 395 00:21:45,600 --> 00:21:47,720 que puede ser nuestro agujero de la dona. 396 00:21:47,720 --> 00:21:51,780 Dos de ellos, los Simpsons, y así sucesivamente y así sucesivamente. 397 00:21:51,780 --> 00:21:59,211 >> Así que esto puede ser útil si usted quieren reducir su búsqueda. 398 00:21:59,211 --> 00:22:00,210 Puede ayudarle a hacer eso. 399 00:22:00,210 --> 00:22:03,580 Especialmente si usted tiene más de, digamos, 80 resultados. 400 00:22:03,580 --> 00:22:05,980 >> Del mismo modo, también pedimos de facetas en el lenguaje. 401 00:22:05,980 --> 00:22:14,790 Así que si nos fijamos en nuestros resultados, vemos 76 de ellos están en Inglés, cuatro en francés, 402 00:22:14,790 --> 00:22:19,620 dos en español, dos, creo que eso es indefinido o desconocido, holandés y latín. 403 00:22:19,620 --> 00:22:22,830 Así que creo que el América rosquilla resultado, de nuevo, 404 00:22:22,830 --> 00:22:24,922 no tiene nada que ver con los productos horneados. 405 00:22:24,922 --> 00:22:25,630 Pero hay que ir. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Así que esto es una especie de muestra que cómo se puede tirar el contenido de nuevo 408 00:22:38,630 --> 00:22:41,270 de la API sólo a través de navegador web, lo cual es genial. 409 00:22:41,270 --> 00:22:44,320 Pero en realidad no es lo que lo haría normalmente utilizando en API para ello. 410 00:22:44,320 --> 00:22:48,710 Así que un ejemplo de cómo se en realidad podría hacer esto es que he 411 00:22:48,710 --> 00:22:54,720 escrito un super pequeño programa, que, de nuevo, qué mi búsqueda rosquilla 412 00:22:54,720 --> 00:22:59,010 y selecciona un par de campos y las muestra en una tabla. 413 00:22:59,010 --> 00:23:01,610 Así que esto es mucho el mismo contenido que acabamos de 414 00:23:01,610 --> 00:23:04,830 sierra con algunos campos sacó. 415 00:23:04,830 --> 00:23:12,090 Así lista de títulos, los ubicación de lo que el libro 416 00:23:12,090 --> 00:23:15,120 está a punto, el idioma, y así sucesivamente y así sucesivamente. 417 00:23:15,120 --> 00:23:20,480 >> Entonces, ¿cómo esto sucedió realmente, ya que Creo que tenemos que mirar un poco de código, 418 00:23:20,480 --> 00:23:22,420 es-- 419 00:23:22,420 --> 00:23:28,060 >> Lo que tenemos aquí es un simple HTML La página, que muestra el texto, 420 00:23:28,060 --> 00:23:32,900 la bienvenida a la nube biblioteca y a continuación, muestra una tabla de resultados. 421 00:23:32,900 --> 00:23:37,790 Y obviamente no hay resultados en la mesa cuando la página se carga. 422 00:23:37,790 --> 00:23:41,380 Pero lo que estamos haciendo es, en primer lugar, que 423 00:23:41,380 --> 00:23:46,290 se carga de una biblioteca llamada jQuery, que es básicamente 424 00:23:46,290 --> 00:23:52,030 una biblioteca de JavaScript, que hace muy fácil de manipular JavaScript 425 00:23:52,030 --> 00:23:58,780 nativamente, HTML y crear páginas web, lógica del lado del cliente y páginas web. 426 00:23:58,780 --> 00:24:01,595 >> Así que lo que tenemos aquí es jQuery tiene un método llamado Get, 427 00:24:01,595 --> 00:24:05,270 que esencialmente se destinará a un URL, que, en este caso, 428 00:24:05,270 --> 00:24:09,070 es esta URL de aspecto familiar. 429 00:24:09,070 --> 00:24:14,440 Y luego obtener el contenido de esa URL y ejecute una función en él. 430 00:24:14,440 --> 00:24:19,240 Entonces dijimos ir a api.lib.harvard / edu. 431 00:24:19,240 --> 00:24:20,060 Búsqueda de donuts. 432 00:24:20,060 --> 00:24:21,300 Danos 20 registros. 433 00:24:21,300 --> 00:24:28,590 Y a continuación, ejecute esta función, que He seleccionado, pasándole los datos. 434 00:24:28,590 --> 00:24:34,430 Y los datos es la que JSON consiguió regresar de la API. 435 00:24:34,430 --> 00:24:40,120 >> Y entonces lo que estamos diciendo, dentro de ese datos hay un campo llamado artículo. 436 00:24:40,120 --> 00:24:48,117 Y si me voy echar un vistazo atrás en uno de estos resultados que está aquí, 437 00:24:48,117 --> 00:24:49,200 hay algo called-- 438 00:24:49,200 --> 00:24:50,220 >> Bueno, se llama elemento. 439 00:24:50,220 --> 00:24:53,520 Así que puede ser eso. 440 00:24:53,520 --> 00:25:01,840 Y lo que hace es que pasa a través de cada elemento 441 00:25:01,840 --> 00:25:05,300 y luego llama a otro función en cada elemento. 442 00:25:05,300 --> 00:25:08,440 Y esa función, básicamente, está tomando el valor 443 00:25:08,440 --> 00:25:12,010 del tema, que es esencialmente el registro individual 444 00:25:12,010 --> 00:25:18,220 y nos permite sacar el título, la cobertura y el idioma. 445 00:25:18,220 --> 00:25:21,640 >> Así que llamamos a una función en cada elemento que regresamos de la API. 446 00:25:21,640 --> 00:25:25,397 Y si usted acaba de tomar un vistazo en esta pieza aquí, 447 00:25:25,397 --> 00:25:27,230 lo que estamos haciendo es estamos creando una cadena, 448 00:25:27,230 --> 00:25:31,810 que es esencialmente un poco de marcado HTML alrededor de una mesa, con value.title, 449 00:25:31,810 --> 00:25:35,790 que es el título de la objeto, value.coverage, 450 00:25:35,790 --> 00:25:36,790 que es la cobertura, - 451 00:25:36,790 --> 00:25:38,225 >> Y estamos haciendo un cheque aquí para ver quién es indefinido 452 00:25:38,225 --> 00:25:40,570 y ocultarlo si dice indefinido, porque no estamos realmente interesados 453 00:25:40,570 --> 00:25:41,600 en eso. 454 00:25:41,600 --> 00:25:42,939 >> -y luego el idioma. 455 00:25:42,939 --> 00:25:44,730 Y entonces lo que estamos haciendo es agregando que 456 00:25:44,730 --> 00:25:48,510 a la mesa que es identificado por esta cadena aquí. 457 00:25:48,510 --> 00:25:50,790 ¿Y cómo funciona jQuery es lo que esto está diciendo 458 00:25:50,790 --> 00:25:56,420 es buscar la mesa con idea resultados y añadir texto a él. 459 00:25:56,420 --> 00:25:59,380 Y esta es la tabla con resultados idea. 460 00:25:59,380 --> 00:26:04,998 Así que lo que usted termina con es esta página aquí. 461 00:26:04,998 --> 00:26:06,206 Y con el fin de ver source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Bueno, la fuente no es en realidad actualizado cuando eso sucedió. 464 00:26:13,810 --> 00:26:18,740 Así que usted puede ver el real Los resultados de la tabla aquí sin embargo. 465 00:26:18,740 --> 00:26:24,770 >> Así que eso es sólo un ejemplo simple de haciendo una consulta muy básica en contra de la API 466 00:26:24,770 --> 00:26:29,020 y mostrar la información en algún otro formar, y no hacer nada demasiado lujoso. 467 00:26:29,020 --> 00:26:36,370 Ahora, otro ejemplo es como una solicitud por escrito por David Weinberger 468 00:26:36,370 --> 00:26:39,120 como una demostración de esto, lo que en esencia lo que muestra 469 00:26:39,120 --> 00:26:44,620 cómo se puede triturar los resultados que buscas recibiendo de la API de biblioteca nube 470 00:26:44,620 --> 00:26:46,250 con, por ejemplo, Google Books. 471 00:26:46,250 --> 00:26:52,225 >> Y el pensamiento aquí es que puedo ejecutar una consulta en Google Books, 472 00:26:52,225 --> 00:26:56,060 obtener una búsqueda de texto completo, obtener algunos resultados espalda, averiguar cuál de esos artículos 473 00:26:56,060 --> 00:27:01,180 en realidad existen en Hollis, el sistema de bibliotecas, 474 00:27:01,180 --> 00:27:03,200 y luego darme enlaces de nuevo a esos artículos. 475 00:27:03,200 --> 00:27:12,730 Así que si yo busco, que era una noche oscura y tormentosa, me 476 00:27:12,730 --> 00:27:16,210 volver un montón de resultados de Google, y luego uno de los resultados 477 00:27:16,210 --> 00:27:19,460 que es una arruga en el tiempo. 478 00:27:19,460 --> 00:27:29,330 Y estos son los enlaces a los libros que existen dentro del sistema de Biblioteca de la Universidad de Harvard. 479 00:27:29,330 --> 00:27:32,160 >> Así que supongo que el punto aquí no es tanto que esto puede o no 480 00:27:32,160 --> 00:27:34,118 ser el camino que desea para buscar en la biblioteca, 481 00:27:34,118 --> 00:27:38,310 pero es un completamente diferente de manera que no estaba disponible para usted 482 00:27:38,310 --> 00:27:42,884 antes, como que no tenía manera de hacer búsquedas de texto completo en los libros que incluso 483 00:27:42,884 --> 00:27:44,550 eran parte del sistema de Biblioteca de la Universidad de Harvard. 484 00:27:44,550 --> 00:27:46,870 Así que ahora esta es una manera que usted puede hacer eso. 485 00:27:46,870 --> 00:27:51,930 Y usted puede mostrarlos en cualquier formato que desee. 486 00:27:51,930 --> 00:27:55,990 Así que el punto aquí es, básicamente, estamos abriendo nuevos caminos para la gente 487 00:27:55,990 --> 00:27:59,080 para trabajar con los datos. 488 00:27:59,080 --> 00:28:07,925 >> Otro pedazo de nube biblioteca es que ayuda a exponer algunos de los datos de uso 489 00:28:07,925 --> 00:28:08,800 que la biblioteca tiene. 490 00:28:08,800 --> 00:28:12,630 Así que si vas a la biblioteca, y que está buscando para los libros, 491 00:28:12,630 --> 00:28:15,770 No necesariamente realmente tener una idea de, 492 00:28:15,770 --> 00:28:19,080 para todos los elementos de una tema en particular, lo que 493 00:28:19,080 --> 00:28:21,200 son personas en el comunidad, ya sea 494 00:28:21,200 --> 00:28:24,890 definida como Harvard o la país o de su clase, 495 00:28:24,890 --> 00:28:26,421 ¿Qué han encontrado más útil? 496 00:28:26,421 --> 00:28:28,920 Y la biblioteca tiene en realidad un tonelada de información sobre lo que 497 00:28:28,920 --> 00:28:32,999 es más útil porque si un montón de la gente está mirando un libro, 498 00:28:32,999 --> 00:28:34,040 que te dice algo. 499 00:28:34,040 --> 00:28:36,498 Debe haber habido alguna razón quieren comprobarlo. 500 00:28:36,498 --> 00:28:38,270 Mucha gente lo puso en reserva. 501 00:28:38,270 --> 00:28:42,520 >> Si está en la lista de reserva para muchos de las clases, que te dice algo. 502 00:28:42,520 --> 00:28:45,960 Si los miembros de la facultad están comprobando que fuera mucho y estudiantes universitarios no son, 503 00:28:45,960 --> 00:28:47,200 eso me dice algo. 504 00:28:47,200 --> 00:28:49,280 Viceversa, que también te dice algo. 505 00:28:49,280 --> 00:28:54,680 Así que sería muy interesante poner esa información por ahí y dejar 506 00:28:54,680 --> 00:28:59,969 personas lo utilizan para ayudarles a encontrar que funciona dentro del sistema de bibliotecas. 507 00:28:59,969 --> 00:29:02,260 La otra cara de esto es hay algo de privacidad grave 508 00:29:02,260 --> 00:29:07,854 preocupaciones porque una de las principios básicos de la biblioteca 509 00:29:07,854 --> 00:29:10,770 es que no vamos a estar diciendo la gente lo que están leyendo otras personas. 510 00:29:10,770 --> 00:29:17,360 E incluso si usted está diciendo esto libro fue desprotegido cuatro veces 511 00:29:17,360 --> 00:29:20,070 en un mes determinado, que podrían utilizarse 512 00:29:20,070 --> 00:29:25,252 vincular de nuevo a un particular, persona por los datos de-anonimato 513 00:29:25,252 --> 00:29:26,710 y descubrir que lo obtuvo. 514 00:29:26,710 --> 00:29:30,792 Así que la forma en que podemos avoid-- 515 00:29:30,792 --> 00:29:33,750 La forma en que podemos tratar de extraer alguna señal de toda la información 516 00:29:33,750 --> 00:29:36,740 sin infringir preocupaciones sobre la privacidad de nadie 517 00:29:36,740 --> 00:29:42,150 es esencialmente miramos 10 años de datos de uso, - 518 00:29:42,150 --> 00:29:43,930 >> Así que es durante un largo período de tiempo. 519 00:29:43,930 --> 00:29:50,639 >> --y dicen, OK, vamos a ver cómo muchas veces se utilizó este trabajo, 520 00:29:50,639 --> 00:29:52,930 y por que en este período de tiempo, y luego básicamente 521 00:29:52,930 --> 00:29:56,300 devolver un número, lo que llamamos una puntuación de pila, que, básicamente, 522 00:29:56,300 --> 00:29:59,910 representa la cantidad que ha sido utilizado. 523 00:29:59,910 --> 00:30:01,084 Y eso number-- 524 00:30:01,084 --> 00:30:03,250 Hay gran cantidad de cálculos entrar en ese número. 525 00:30:03,250 --> 00:30:05,150 --pero que es una muy áspera métrica que le da 526 00:30:05,150 --> 00:30:11,300 una idea de cómo el comunidad puede valorar ese trabajo. 527 00:30:11,300 --> 00:30:16,772 >> Y por lo que otro tipo de incluso más concretarse aplicación 528 00:30:16,772 --> 00:30:18,480 que se aprovecha de esto es algo 529 00:30:18,480 --> 00:30:24,000 Stacklife llamada, que es en realidad disponible a través de la principal Harvard 530 00:30:24,000 --> 00:30:24,880 Portal de la Biblioteca. 531 00:30:24,880 --> 00:30:26,700 Así que vas a library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Usted verá un número de diferentes maneras de buscar la biblioteca. 533 00:30:29,360 --> 00:30:32,300 Y uno de ellos se llama Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> Y esta es una aplicación que busca el contenido de la biblioteca, 535 00:30:38,980 --> 00:30:43,490 sino que está completamente construido en la parte superior de estas API. 536 00:30:43,490 --> 00:30:46,910 Así que no hay cosas especiales pasando detrás de las escenas. 537 00:30:46,910 --> 00:30:49,570 No hay acceso a datos que usted no tiene. 538 00:30:49,570 --> 00:30:54,090 Se trata de utilizar las API para proporcionarle con una navegación completamente diferente 539 00:30:54,090 --> 00:30:55,480 experiencia. 540 00:30:55,480 --> 00:30:58,570 >> Así que si yo busco Alice in Wonderland en este caso, 541 00:30:58,570 --> 00:31:02,600 Obtengo un resultado que parece esto, lo cual es bastante mucho-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> Es muy similar a cualquier otra búsqueda usted puede hacer, excepto en este caso 544 00:31:10,870 --> 00:31:15,730 estamos clasificando los elementos por stackscore, que le da 545 00:31:15,730 --> 00:31:19,850 una idea de lo popular que éstos artículos estaban dentro de la comunidad. 546 00:31:19,850 --> 00:31:25,610 Y con tanta claridad, Alicia en el País de las Maravillas por Walt Disney es muy popular. 547 00:31:25,610 --> 00:31:36,570 Pero también se puede ver a los cuatro primeros aquí son las que usted puede ser que no actually-- 548 00:31:36,570 --> 00:31:39,220 >> Las cosas que son muy utilizados, pero usted no puede inmediatamente 549 00:31:39,220 --> 00:31:41,240 conectar con Alicia en el País de las Maravillas. 550 00:31:41,240 --> 00:31:44,650 Así que nuestro viejo amigo el Alicia anotada está aquí. 551 00:31:44,650 --> 00:31:46,350 Así que puedo tener una mirada en ella. 552 00:31:46,350 --> 00:31:52,010 Y ahora lo que estoy buscando en es básicamente un conjunto de-- 553 00:31:52,010 --> 00:31:53,760 Puedo tener la Anotado Alice aquí. 554 00:31:53,760 --> 00:31:56,700 Tengo información al respecto. 555 00:31:56,700 --> 00:32:00,230 Y también tengo un stackscore de, en este caso, 26. 556 00:32:00,230 --> 00:32:03,169 Y esto me dice especie de aproximadamente cómo hemos llegado a esta stackscore, 557 00:32:03,169 --> 00:32:05,835 como que lo haya facturado a cabo, como la forma muchas veces se marchamos, 558 00:32:05,835 --> 00:32:08,440 como profesores o estudiantes de licenciatura, cómo muchas copias de la biblioteca tiene, 559 00:32:08,440 --> 00:32:11,300 y así sucesivamente y así sucesivamente. 560 00:32:11,300 --> 00:32:16,460 >> Y usted puede también, lo suficientemente interesante aquí, revisar las pilas de forma virtual. 561 00:32:16,460 --> 00:32:19,550 Así que los datos aquí, esta le está mostrando especie 562 00:32:19,550 --> 00:32:23,547 de una representación virtual de lo que el poderío estante 563 00:32:23,547 --> 00:32:25,880 verá como si usted fuera a tomar todos los fondos de la biblioteca 564 00:32:25,880 --> 00:32:28,940 y ponerlos juntos en un estante infinito. 565 00:32:28,940 --> 00:32:30,990 Y lo bueno es que can-- 566 00:32:30,990 --> 00:32:33,380 >> En primer lugar, la metadatos sobre estos libros 567 00:32:33,380 --> 00:32:35,627 a menudo le dice cuando se publicó. 568 00:32:35,627 --> 00:32:37,085 Se le indica el número de páginas que tiene. 569 00:32:37,085 --> 00:32:38,459 Podría decirte las dimensiones. 570 00:32:38,459 --> 00:32:42,930 Así se puede ver que se refleja aquí en términos del tamaño de los libros. 571 00:32:42,930 --> 00:32:46,740 >> Y entonces podemos utilizar el apilar puntuación para destacar 572 00:32:46,740 --> 00:32:49,170 los libros que tienen puntajes más altos de la pila. 573 00:32:49,170 --> 00:32:54,930 Así que si es más oscuro, significa que, presumiblemente, se utiliza con más frecuencia. 574 00:32:54,930 --> 00:32:57,040 Así que en este caso, estoy va a suponer que este 575 00:32:57,040 --> 00:33:03,226 es la versión de Alicia en el País de las Maravillas que se utiliza con mucha frecuencia y más 576 00:33:03,226 --> 00:33:05,100 visitada, la biblioteca tiene la mayoría de las copias de. 577 00:33:05,100 --> 00:33:06,975 Así que si usted está buscando para Alicia en el país de las maravillas, 578 00:33:06,975 --> 00:33:10,220 esto podría ser un buen lugar para empezar. 579 00:33:10,220 --> 00:33:13,500 >> Y entonces aquí también se puede vincular a cabo a, digamos, Amazon para comprar el libro, 580 00:33:13,500 --> 00:33:15,182 y así sucesivamente y así sucesivamente. 581 00:33:15,182 --> 00:33:17,140 El punto aquí, de nuevo, no es tanto que esta 582 00:33:17,140 --> 00:33:25,030 es la mejor manera de explorar la biblioteca o la herramienta adecuada para cada ocasión. 583 00:33:25,030 --> 00:33:28,400 Pero es otra manera de hacerlo. 584 00:33:28,400 --> 00:33:31,359 Y por lo que los datos disponible a través de una API, que 585 00:33:31,359 --> 00:33:34,650 está hecho de bloques de construcción muy simples, que le permite buscar en el contenido, 586 00:33:34,650 --> 00:33:39,420 usted puede construir algo como este que puede 587 00:33:39,420 --> 00:33:41,520 ser extraordinariamente valiosa para algunas personas. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Así que eso es más o menos, tanto como yo quiero que decir realmente acerca de lo que es la API 590 00:33:51,860 --> 00:33:56,070 y lo que se expone, hay un conjunto montón de cosas detrás de las escenas, que 591 00:33:56,070 --> 00:33:59,480 Yo sólo voy a tocar en breve sólo porque es una especie de trata en este 592 00:33:59,480 --> 00:34:03,720 desde un ángulo completamente diferente en términos de cómo hace algo como esto 593 00:34:03,720 --> 00:34:04,580 llegar a poner en su lugar? 594 00:34:04,580 --> 00:34:10,820 >> Así una API es un estándar interconectar a todo este contenido. 595 00:34:10,820 --> 00:34:13,820 Pero para llegar allí, el Lo primero que teníamos que hacer 596 00:34:13,820 --> 00:34:17,260 fue reunir información de libros e imágenes 597 00:34:17,260 --> 00:34:21,580 y los instrumentos de descripción, la colección documento de varios sistemas de Harvard. 598 00:34:21,580 --> 00:34:23,929 Aleph, VIA, y OASIS son los nombres de los sistemas. 599 00:34:23,929 --> 00:34:28,820 Y esencialmente entran en un oleoducto, una tubería de procesamiento. 600 00:34:28,820 --> 00:34:33,230 >> Así, en primer lugar, tenemos la exportación archivos de todos estos sistemas. 601 00:34:33,230 --> 00:34:35,130 Nosotros los dividimos en elementos individuales. 602 00:34:35,130 --> 00:34:39,360 Así que tenemos un archivo, que es de un gigabyte, que cuenta con un millón de discos en el mismo. 603 00:34:39,360 --> 00:34:42,290 Así que dividirlo en elementos individuales. 604 00:34:42,290 --> 00:34:45,374 Luego, para cada artículo, lo convertimos en MODS, porque algunos de ellos 605 00:34:45,374 --> 00:34:47,040 son MODS nativa, algunos de ellos no lo son. 606 00:34:47,040 --> 00:34:49,204 Así que todos lleguemos a estar en el mismo formato. 607 00:34:49,204 --> 00:34:51,120 Luego hay varios pasos de enriquecimiento, donde 608 00:34:51,120 --> 00:34:55,969 añadimos más información a los datos que estaba disponible en la biblioteca. 609 00:34:55,969 --> 00:34:59,750 Así que tenemos que añadir, en primer lugar tenemos lo que las bibliotecas tienen que. 610 00:34:59,750 --> 00:35:02,250 Vamos a través de un paso de el cálculo de la stackscore. 611 00:35:02,250 --> 00:35:07,112 Vamos a través de un paso de la adición de más metadatos en términos 612 00:35:07,112 --> 00:35:10,730 de lo que la gente colecciones podría haber añadido esto-- 613 00:35:10,730 --> 00:35:12,532 >> Las personas están creando colecciones de artículos. 614 00:35:12,532 --> 00:35:13,990 Qué colecciones le pertenece? 615 00:35:13,990 --> 00:35:17,220 ¿Cómo han etiquetado personas este contenido en el pasado? 616 00:35:17,220 --> 00:35:20,750 A continuación, filtrar, y se restringe los registros, ya que, como he mencionado, 617 00:35:20,750 --> 00:35:24,120 hay algunos registros que, a causa de razones de derechos de autor, no podemos mostrar. 618 00:35:24,120 --> 00:35:26,700 Y luego nos cargaremos en algo llamado 619 00:35:26,700 --> 00:35:31,680 Solr, que no es una falta de ortografía, pero es el nombre de una pieza de software 620 00:35:31,680 --> 00:35:35,710 que hace la búsqueda de indexación, que impulsa toda la búsqueda detrás de la API. 621 00:35:35,710 --> 00:35:40,110 Y entonces se vuelve disponible para las API, y las personas pueden utilizarlo. 622 00:35:40,110 --> 00:35:44,640 >> Así que esto es como una justa proceso sencillo. 623 00:35:44,640 --> 00:35:47,230 Uno de los interesante cosas sobre él es 624 00:35:47,230 --> 00:35:50,990 que se trata con 13 millones de discos 625 00:35:50,990 --> 00:35:53,820 y vamos a estar tratando o más. 626 00:35:53,820 --> 00:36:01,260 Y queremos ser capaces de manejar éstos de una manera relativamente rápida. 627 00:36:01,260 --> 00:36:03,630 Se necesita mucho tiempo para procesar 13 millones de registros. 628 00:36:03,630 --> 00:36:09,529 >> Entonces, ¿cómo esta tubería es establecer es que can-- 629 00:36:09,529 --> 00:36:12,070 Supongo que la ventaja de la tubería, el problema que estamos 630 00:36:12,070 --> 00:36:15,580 tratando de resolver aquí, es que todas las transformaciones, todo 631 00:36:15,580 --> 00:36:18,729 estos pasos de este tubería son separables. 632 00:36:18,729 --> 00:36:19,645 No hay dependencia. 633 00:36:19,645 --> 00:36:22,146 Si usted está procesando un registro de un libro, 634 00:36:22,146 --> 00:36:24,270 no hay dependencia en que entre el otro libro. 635 00:36:24,270 --> 00:36:27,760 >> Así que lo que podemos hacer es, básicamente, en cada paso de la tubería, 636 00:36:27,760 --> 00:36:30,470 lo ponemos en una cola en la nube. 637 00:36:30,470 --> 00:36:32,250 Me pasó a ser en Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Así que hay una lista de, decir, 10.000 artículos que 639 00:36:35,140 --> 00:36:38,100 necesita ser normalizado y convertidos a formato MODS. 640 00:36:38,100 --> 00:36:41,620 Y hacemos girar el mayor número de servidores como queremos, tal vez 10 servidores. 641 00:36:41,620 --> 00:36:44,860 Y cada uno de esos servidores sólo sienta allí, se ve en esa cola, 642 00:36:44,860 --> 00:36:46,730 ve que hay uno que necesita ser procesada, la despega de la cola, 643 00:36:46,730 --> 00:36:48,740 procesa y palos en la siguiente cola. 644 00:36:48,740 --> 00:36:54,200 >> Y así lo que nos permite que hacer es aplicar, en esencia, 645 00:36:54,200 --> 00:36:58,110 tanto de hardware como queremos a esta problema para un período muy corto de tiempo 646 00:36:58,110 --> 00:37:02,970 para procesar los datos tan rápidamente como posible, que es algo que sólo, 647 00:37:02,970 --> 00:37:08,220 ahora en el mundo de la computación en nube podemos los servidores de provisión esencialmente 648 00:37:08,220 --> 00:37:09,890 instantáneamente, es que útil. 649 00:37:09,890 --> 00:37:12,260 Así que no tienes que tener un servidor gigante sentados alrededor 650 00:37:12,260 --> 00:37:16,700 todo el tiempo para hacer el procesamiento que podría ocurrir sólo una vez a la semana. 651 00:37:16,700 --> 00:37:21,440 >> Así que es sobre todo ello. 652 00:37:21,440 --> 00:37:27,590 Hay documentación disponible para la nube Biblioteca API de artículo 653 00:37:27,590 --> 00:37:31,960 en esta dirección, lo que hará estará disponible más adelante. 654 00:37:31,960 --> 00:37:36,730 Y por favor ir a tomar un vistazo a a ver si hay algo, 655 00:37:36,730 --> 00:37:37,579 usted tiene alguna idea. 656 00:37:37,579 --> 00:37:38,120 Juega con ella. 657 00:37:38,120 --> 00:37:38,830 Perder el tiempo. 658 00:37:38,830 --> 00:37:42,800 Y espero que usted puede venir con algo grande. 659 00:37:42,800 --> 00:37:44,740 Gracias. 660 00:37:44,740 --> 00:37:45,899