JEFFREY LICHT: Hi there. Estou Jeffrey Licht. E eu estou aqui para falar com você sobre o Harvard Biblioteca e construção de amanhã biblioteca hoje, eu acho. Assim, o fundo aqui, o terreno de jogo para esta sessão é que não há essencialmente um monte de dados bibliográficos disponível em bibliotecas de Harvard. E há uma oportunidade, através de algumas das ferramentas e um projeto que está sendo desenvolvido, para obter o acesso à informação e levá-lo a lugares que o Biblioteca de Harvard não está fazendo agora, fazer coisas novas com ele, experimento e brincar com ele. Assim, o ponto de entrada para esta é uma API chamado de Harvard Biblioteca Nuvem, que é um servidor de metadados aberto, que eu vou falar agora. Assim, o fundo é de que existe um monte de coisas na biblioteca de Harvard. Temos mais de 13 milhões de bibliográfica registros, milhões de imagens, e milhares de instrumentos de descrição, que são essencialmente documentos que descrevem coleções, dizendo que há neles, caixas de papéis e assim por diante, que representam mais de um milhão de documentos individuais. E há também um monte de informações que a biblioteca tem sobre a forma como o conteúdo é usado que poderia ser de interesse para as pessoas que pode querer trabalhar com ele. 

Assim, todas as informações a biblioteca tem metadados. Então metadados são dados sobre dados. Assim, quando falamos de a informação que é disponível na biblioteca nuvem que está disponível, não é necessariamente os documentos reais eles próprios, não necessariamente a total texto de livros ou as imagens completas, no entanto, que, na verdade, pode ser o caso. Mas é realmente informações sobre os dados. 

Então você pode pensar de catalogação informações, números de telefone, assuntos, quantas cópias do livro há, o que são as edições, quais são os formatos, os autores, e assim por diante. Portanto, há um monte de informações sobre as informações contidas na coleção que, em si mesmo, é uma espécie de inerentemente útil. E, embora se você é fazer pesquisa em profundidade, você obviamente quer chegar ao real contentar-se e olhar para os dados, os metadados é útil em termos de tanto na análise o corpo como um todo, como o que as coisas são na coleção. Como eles se relacionam? Ele ajuda você realmente encontrar outras coisas, o que é realmente a principal finalidade do mesmo. O ponto de partida da metadados e do catálogo é ajudar você a encontrar todos a informação que é disponível dentro das coleções. 

Portanto, este é um exemplo de metadados para um livro na Biblioteca de Harvard. Então, ele está lá. E você pode ver que é na verdade, moderadamente complexa. E parte do valor dos metadados dentro do sistema de biblioteca de Harvard é que ele foi sorte de construído por catalogadores e montada por pessoas que solicitam muita perícia e habilidade e pensado para que ao longo do tempo, que tem um monte de valor. 

Então, se você der uma olhada neste registro para The Annotated Alice, você pode descobrir você tem o título, que o escreveu, o autor, e todos os diferentes temas qual as pessoas têm catalogado-lo em. E você pode ver que há também, em Além de um monte de boas informações aqui, há alguma duplicação. Há um monte de complexidade que é refletida através dos metadados que você tem. 

Assim, um título deste livro é As aventuras de Alice no País das Maravilhas. Portanto, esta é uma Anotada versão desse livro. Mas também é chamado de The Annotated Alice, de Alice Adventures no país das maravilhas, porque é algo que Martin Gardner escreveu e anotada do livro. E há um grande lote de informações sobre enigmas de lógica e coisas dentro de Alice que você provavelmente não sabia. Então você deve ir lê-lo. 

Mas você pode ver que não há um monte de detalhes aqui, incluindo identificadores, quando foi criado, de onde veio, em termos de Harvard sistema, e assim por diante. Portanto, esta é uma amostra de o tipo de metadados que você pode ver em um livro em da coleção da Biblioteca Harvard. 

Isso é algo completamente diferente. Portanto, há um sistema chamado VIA Harvard, que basicamente está catalogando imagens e objetos de arte e as coisas visuais em todo Harvard, e adicionando alguns metadados para eles, classificando-os, e, em alguns casos, proporcionando pequenas imagens em miniatura que você pode tomar um veja se assim o desejar. 

Portanto, este é um exemplo do metadados que você tem para uma placa de, presumivelmente, Alice no País das Maravilhas. E você pode ver que não há menos metadados aqui. É apenas um tipo diferente de objeto. E por isso há menos informação. 

Está na sua maioria têm o facto de que, uma chamada número, essencialmente, que o criou, - 

Não sabemos quando ele foi criado. 

--e um título. 

Outro exemplo. Este é um instrumento de pesquisa. Portanto, há uma coleção de Lewis Papéis de Carroll em Harvard. Então, isso descreve o que é nessa coleção. Então, alguém passou por e olhou através de todas as caixas e catalogado-lo, dado algum fundo, escreveu um resumo do que está aqui. E se você estava a olhar adicionalmente pelo presente, este prolonga-se por páginas e páginas e páginas, mas dir-lhe- que letras e quais datas a partir do que caixas existido ao longo da coleção. Mas isso é algo que, se você estiver em Harvard, você pode ir e realmente olhar fisicamente -se e, presumivelmente, dê uma olhada. 

Então, tudo isso é ótimo. Deste útil de metadados. É no sistema Biblioteca Harvard. Existem ferramentas on-line onde você pode ir e dar uma olhada no que faz, e vê-lo, e busca-lo. E você pode cortá-lo e dice que, de muitas maneiras diferentes. 

Mas é realmente só está disponível se você é um ser humano de se sentar no seu navegador ou algo ou seu telefone e navegar através dele. Não é realmente disponível em qualquer tipo de forma utilizável ou para outros sistemas outros computadores de usar, não com sistemas dentro Biblioteca de Harvard, mas os sistemas do mundo exterior, apenas a outras pessoas em geral. Então a questão é, como podemos torná-lo disponível para os computadores para que possamos fazer mais interessante coisas com ele do que apenas browsing-lo nós mesmos? 

Então, por que você iria querer fazer isso? Há uma série de possibilidades. Uma delas é que você poderia construir um completamente forma diferente de navegação o conteúdo que está disponível através das bibliotecas de Harvard. Eu vou te mostrar uma mais tarde chamado Stacklife, que tem uma forma completamente diferente assumir procurando conteúdo. 

Você poderia construir um mecanismo de recomendação. Assim Biblioteca de Harvard não é no negócio de dizer, você gosta deste livro. Então vá dar uma olhada nestes 17 outros livros que você pode estar interessado em ou esses 18 outras imagens. Mas isso certamente poderia ser um recurso valioso. E dada a metadados, pode ser possível colocar isso em conjunto. Você pode ter diferentes necessidades em termos de pesquisa do conteúdo, como talvez, apesar das ferramentas que que estão disponíveis a biblioteca torna disponível, você pode querer de pesquisa de uma maneira diferente ou otimizar para um caso de uso particular, que talvez seja muito especializado. Talvez existam apenas alguns pessoas no mundo que deseja pesquisar o conteúdo desta forma, mas Seria ótimo se nós poderia deixá-los fazer isso. Há um monte de analytics em apenas como as pessoas usar o conteúdo que seria muito interessante conhecer, descobrir o que os livros estão sendo usados, o que não é, e assim por diante. E então há um monte de oportunidade de integrar com outras informações que está lá fora na web. Então, nós have-- 

Por exemplo, tem NPR um segmento resenha do livro, onde eles entrevistam autores sobre livros. E por isso seria ótimo se você fosse procurar um livro na Harvard Biblioteca, e você diz, OK, não há foi uma entrevista com o autor. Vamos dar uma olhada nisso. Ou há uma página da Wikipedia, como uma autoritária, referência acadêmica sobre este livro que você pode querer dar uma olhada. 

Existem destes tipos de fontes espalhadas por toda a web. E trazê-los juntos Pode ser um ótimo uso para alguém olhando para o conteúdo, à procura de algo. Mas também não é o tipo de coisa que você quer a biblioteca a ser responsável para descer e caçar todas estas fontes diferentes e colocá-los juntos porque eles estão mudando continuamente. E o que eles acham que é importante maio não ser o que você acha que é importante. 

E mais ainda, basicamente, há uma monte de coisas que nós não tenha pensado ainda. Então, se podemos abrir este up, mais pessoas além de uma meia dúzia ou assim, que estão olhando para isso em um base regular pode pensar em idéias e massagear os dados, e fazer o que quiser com ele. 

Então, nós queremos fazer este dados disponíveis para o mundo. Bem, há algumas complicações. Uma delas é que esses metadados é em sistemas diferentes. É em diferentes formatos. Portanto, há alguma normalização que precisa acontecer, que a normalização é o processo de trazendo as coisas de diferentes formatos e mapeá-los para um único formato para que os campos irá igualar-se. 

Existem algumas restrições de direitos autorais. Curiosamente, a entrada do catálogo sobre um livro é responsável por copyright. Assim, mesmo que seja apenas informações obtidas a partir do livro, é protegido por direitos autorais. E dependendo de quem, na verdade, criado que os metadados, pode haver restrições sobre quem pode distribuí-lo, a-- semelhante 

Eu não sei. Ele pode ou não ser similar à a situação das letras de música, por exemplo. Então, todos nós sabemos como que garimpa para fora. Então, você precisa se locomover essa questão. 

E, em seguida, uma outra parte é que há uma grande quantidade de dados. Então, se eu sou alguém que quer trabalhar com os dados ou tem uma idéia legal, lidar com 14 milhões registros no meu laptop poderia ser problemático e difícil de gerir. Por isso, queremos reduzir as barreiras para as pessoas para ser capaz de trabalhar com os dados. 

Portanto, a abordagem que esperamos que os endereços todas estas preocupações é duas partes. Um deles é a construção de uma plataforma que leva dados de todas estas fontes diferentes e agrava-lo, normaliza, enriquece-lo, e marcas -lo disponível em um único local. E torna-se disponível através uma API pública que as pessoas podem ligar. 

Assim, uma API é uma aplicação Programming Interface. E, basicamente, refere-se a um ponto de extremidade que um sistema ou tecnologia pode ligar e obter dados de volta um formato estruturado de uma forma que ele pode ser usado. Portanto, não é dependente em ir para um site e raspagem de dados off dele, por exemplo. 

Portanto, esta é a página inicial do a API item Biblioteca Nuvem, que é essencialmente a sua versão dois. Portanto, é a segunda iteração do tentando fazer com que todos esses dados disponível para o mundo. Portanto, é http://api.lib.harvard.edu/v2/items. E só para decompô-lo um pouco, o que isso significa é que esta versão é de dois a API. Há uma versão de um, o que Eu não vou falar. Mas há uma versão um. 

E se você está chamando este API, você está recebendo itens. E parte da ideia de um API é uma API é um contrato. É algo que é não vai mudar. Assim, por exemplo, - 

E a razão é que, se eu construir algum tipo de sistema que vai usar uma API biblioteca nuvem para exibir livros ou ajudar as pessoas a encontrar informações de forma única, o que nós não queremos que aconteça é para nós a ir mudar a forma como API que funciona, e de repente tudo fica do lado do usuário final. Assim, parte se você está fazendo API disponível para o mundo, é boas práticas para colocar um número da versão nele para que as pessoas saber qual a versão que eles estão lidando. 

Então, se você decidir que encontrar uma maneira melhor a tornar estas informações disponíveis, podemos mudar isso para chamar essa versão três. Então todo mundo que ainda está usando versão dois, que ainda vai trabalhar. Mas a versão de três faria tem todo o material novo. 

Portanto, esta é uma API, mas este realmente se parece com uma URL. E então o que este é um exemplo de é o que é chamado de uma API de descanso, que se encontra disponível em apenas uma conexão web regular. E você pode realmente acessá-la em um navegador. 

Então aqui eu acabou de abrir o Firefox e ido para api.lib.harvard.edu/v2/items. E assim que eu chegar aqui é basicamente, a primeira página dos resultados da totalidade conjunto de itens que nós temos. E é aqui, em formato XML. E tem também sido enfeitada pela Firefox. Na verdade, não tenho tudo isso pouco expandindo e contraindo doohickeys aqui. Esta é uma espécie de um Buscamos versão maneira de olhar para ele. 

Mas o que isso está nos dizendo é Eu já solicitou a todos os itens. Portanto, há 13.289.475 itens. E eu estou olhando para o primeiro 10, começando na posição zero porque em ciência da computação nós sempre começam em zero. E o que eu tenho aqui, se eu entrar em colapso isso, você vai ver que eu tenho 10 itens. 

E se eu dar uma olhada em um item, eu posso ver que eu tenho informações sobre ele. E isso é o que é chamado em forma mods. E assim eu vou mudar voltar aqui por um momento. OK. 

Então, vamos procurar algo em específico, porque o primeiro item que acontece a vir para cima quando você olha por toda a coleção é, por definição, aleatória. Então, vamos olhar para alguns donuts. Oh. 

OK. Assim donuts. Então, nós encontramos há 80 itens em a coleção que referenciar donuts. Nós estamos olhando para os primeiros 10 deles. Agora, você pode ver aqui o caminho que Eu disse que eu estou procurando anéis de espuma, Acabei de adicionar algo a a string de consulta da URL. Assim q é igual a rosquinhas, que você pode ver um pouco mais facilmente aqui. 

E isso basicamente significa que há uma especificação para a API, que define o que todos esses parâmetros dizer. E isso significa que vamos procurar tudo para donuts. 

Assim, o primeiro item aqui temos você pode ver o título é Donuts, e existe uma chamada Uma legenda Paixão americana, que é, eu acho, apropriado. Há um monte de diferente-- Uma vez que você chegar ao ponto de obter os dados, há um grande número de diferentes formatos que você pode obtê-lo em. E há diferentes forças e fracos para todos eles. Então este, você pode ver aqui, essa forma é muito rica. E é padronizado. 

Portanto, há um título específico campo, um campo de legenda. Há um suplente título, An American Passion. Não é o nome associado a ele. Tipo do recurso é o texto. Há um monte de informações aqui neste formato. 

Mas há um grupo de diferentes formatos. Então, o que nós éramos apenas olhando é um formato chamados mods, que significa Metadata Object Description Service, potencialmente. Eu realmente não estou muito certo sobre o S. Mas é um formato bastante complexo. É o formato padrão. 

Mas é a única que mantém a riqueza de todos os dados que a biblioteca tem porque é muito próximo ao que usa a biblioteca internamente. É um padrão que é utilizado em todo o país, em todo o mundo em bibliotecas universitárias. E é muito interoperáveis. Então, se você tem um documento que está no formato mods, você pode dar isso para outra pessoa cujos sistemas entender mods, e eles podem importá-lo. Portanto, é um padrão. É muito bem definida, muito específico. E é isso que faz com que seja interoperável, porque se alguém diz: este é o título de um suplente registro, todo mundo sabe o que isso significa. Por outro lado, é muito complicado. 

Então, se você der uma olhada neste registro aqui, se eu só quero pegar o título deste documento, deste livro, que é provavelmente Donuts, An American Passion, analisá-lo para fora é um pouco envolvido. Considerando que há uma outra formato chamado Dublin Core, que é um formato muito, muito mais simples. 

E assim que você vê aqui, não há nenhuma título, subtítulo, título alternativo. Há apenas o título, Donuts, An American Passion, e outro título, Paixão americano. Então, quando você está olhando para o que forma você deseja obter os dados de, muito depende de como você vai usá-lo. Você está usando para interoperabilidade ou você quer algo simples que pode ser mais fácil de trabalhar? 

Por outro lado, uma grande parte do detalhes se espécie de esmagado baixo. Você pode perder as nuances de o que significa um campo particular se você está lidando com Dublin Core, que você não iria ficar com mods. Então esses são dois dos formatos você pode sair da API. E, basicamente, estamos mantendo ele nos bastidores de mods. Mas podemos dar-lhe-lo em mods e Dublin Core e mais alguma coisa também. A outra consideração quando você está procurando nos dados é que você pode obtê-lo tanto como JSON, que significa JavaScript Object Notation, ou XML, o que significa Extensible Markup Language. E essas representações de dados tanto têm exatamente os mesmos dados, exatamente os mesmos campos. Mas eles são apenas sintacticamente diferente. 

Portanto, este é a-- Bem, vamos apenas mudar. Então esta é a nossa consulta para donuts no formato XML. Se eu mudar isso seja JSON, Eu posso ver isso parece diferente. Então, agora este é o mesmo conteúdo, mas uma estrutura diferente. Há menos colchetes. Há menos detalhado. 

E este é um formato que, se você estão trabalhando no ambiente web, você está muito provavelmente vai querer usar porque um das coisas agradáveis ​​sobre JSON é ele é compatível com JavaScript. Então, se eu estou escrevendo app web, posso puxar em JSON e apenas trabalhar com ele diretamente. Considerando com XML, é uma pouco mais complicado. Então, novamente, estes são úteis. Eles só são diferentes casos de uso onde as pessoas podem querer usá-los. OK. Então, de volta para o API. Assim, podemos procurar for-- 

Eu dou um exemplo de procura de donuts. Nós também pode pesquisar apenas em um campo específico dentro aqui. Então, ao invés de procurar todo o registro, Eu posso apenas procurar o campo de título. E agora existem 25 coisas que tem rosquinhas no título, um dos quais é sobre a restauração wetlands na gestão do rombo programa, o qual é provavelmente não necessariamente o que estamos procurando para quando estamos à procura de donuts. 

Você também pode, quando você está lidando com um API-- 

Parte de ter uma API é dando pessoas o acesso a grandes conjuntos de dados. E há um par diferente ferramentas que você pode usar para fazer isso. Uma delas é, muito simplesmente, você pode folhear os dados. Assim como se você fizer uma consulta através de uma interface web, você pode olhar para a primeira página, página dois, página três. Você pode fazer o mesmo coisa através da API. Você só precisa ser explícita em como fazê-lo. 

Assim, por exemplo, se eu estou procurando na minha primeira consulta aqui, onde eu estou fazendo uma pesquisa de coisas com anéis de espuma no título, o que posso dizer, e limite é igual a 20, o que significa dê-me os primeiros 20 registros, não os 10 primeiros, que é o padrão, porque eu quero olhar para 20 de cada vez. Ou eu posso dizer, definir o iniciar igual a 20 e limite igual a 20, o que dará me registra 21 a 40. 

Então eu acho que a coisa para tirar aqui é que estamos usando as strings de consulta para definir parâmetros sobre a consulta. E ele permite que você controle o que você recebe de volta. 

Outra ferramenta que você pode usar, - 

E isso é realmente útil em termos de explorar os dados. 

--é algo chamado faceting. Assim, o termo é facetamento não necessariamente comum. Mas você já todos vimos isso antes. Se você der uma olhada Amazon, por exemplo, e você fizer uma pesquisa para rosquinhas nos livros, aqui eles têm uma série de livros, e eles estão agrupados por categoria, e você começa as diferentes categorias, e quantos livros em cada categoria aparecer. 

Portanto, este é basicamente uma faceta. Você toma todos os seus livros, a 1.800 os livros que correspondam rosquinhas na Amazon. 12 deles estão no categoria café da manhã. 21 em pastelaria e panificação, e assim por diante e assim por diante. 

Portanto, este é realmente um útil ferramenta para explorar o conteúdo dentro da biblioteca bem porque quando você olha para uma faceta, que lhe dá uma idéia do que submete existe, como que tipos de assuntos são mais populares dentro do seu conjunto consulta. E isso ajuda a expulsar e explorar. Assim, podemos fazer a mesma coisa. 

Se quiser usar o API e olhar para as facetas, acrescentamos um outro parâmetro para o nosso amigo a string de consulta. Então facetas é igual a uma separados por vírgula lista do que queremos faceta diante. Portanto, uma das facetas pode estar sujeito. Outro pode ser a linguagem. E por isso, se corremos essa consulta, nós get-- Parece quase a mesma coisa aqui. Mas nós temos adicionado ao final da lista um conjunto de facetas. Portanto, temos uma faceta chamado assunto. Então, isso está nos dizendo que se eu olhar em meus 80 resultados da consulta filhós, 13 deles têm o sujeitar Estados Unidos. Três têm os donuts sujeitos. Três têm o sujeito de restauração de zonas húmidas, o que pode ser o nosso buraco no donut. Dois deles, os Simpsons, e assim por diante e assim por diante. 

Portanto, este pode ser útil se você quer afinar a sua pesquisa. Ele pode ajudá-lo a fazer isso. Especialmente se você tem mais do que, digamos, 80 resultados. 

Da mesma forma, também pedimos para facetas sobre a linguagem. Portanto, se olharmos para os nossos resultados, vemos 76 deles são em Inglês, quatro em francês, dois em espanhol, dois, eu acho que é indefinidos ou desconhecidos, holandês e latim. Então eu acho que o Latin resultado de rosca, novamente, não tem nada a ver com produtos de panificação. Mas lá vai. 

Portanto, esta é uma espécie de lhe mostrar como você pode puxar o conteúdo de volta a partir da API apenas através navegador web, o que é ótimo. Mas não é realmente o que você faria normalmente usando em API para isso. Então, um exemplo de como você poderia realmente fazer isso é que eu tenho escrito um super pequeno programa, que, mais uma vez, que a minha pesquisa rosquinha e seleciona alguns campos e as exibe em uma mesa. Então isso é muito o mesmo conteúdo que acabamos serra com alguns campos puxado para fora. Então lista de títulos, os localização do que o livro é de cerca de, a língua, e assim por diante e assim por diante. 

Então, como isso realmente aconteceu, uma vez que Eu acho que nós temos que olhar para algum código, é-- 

O que temos aqui é um HTML simples página, que exibe o texto, Bem-vindo à nuvem biblioteca e em seguida, exibe uma tabela de resultados. E obviamente não há resultados em a mesa quando a página é carregada. Mas o que estamos fazendo é, em primeiro lugar, nós está a colocar uma biblioteca chamada jQuery, que é basicamente uma biblioteca JavaScript, o que torna muito fácil de manipular JavaScript nativamente, HTML, e criar páginas web, lógica de cliente e páginas da web. 

Então o que temos aqui é jQuery tem um método chamado Get, que essencialmente vai para um URL, o qual, neste caso, é esta URL olhar familiar. E, em seguida, obter o conteúdo de que URL e, em seguida, executar uma função nele. Então nós dissemos ir para api.lib.harvard / edu. Pesquise donuts. Dê-nos a 20 registros. E em seguida, executar esta função, o que Eu selecionei, passando-os dados. E os dados é o JSON que foi retornado do API. 

E então nós estamos dizendo, dentro desse dados há um campo chamado item. E se eu for dar uma olhada para trás em um desses resultados que estão aqui, há algo called-- 

Bem, ele é chamado item. De modo que pode ser que. E o que ele faz é passa por cada item e, em seguida, chama outro função em cada item. E essa função, basicamente, está tomando o valor do item, o que é essencialmente o registro individual e permite-nos tirar o título, a cobertura e o idioma. 

Por isso, chamar uma função em cada item que temos de volta a partir da API. E se você só dar uma olhada para este pedaço aqui, o que estamos fazendo é estamos criando uma corda, que é essencialmente um pouco de marcação HTML em torno de uma mesa, com value.title, que é o título do objeto, value.coverage, que é a cobertura, - 

E nós estamos fazendo uma verificação aqui para ver quem é indefinido e escondê-lo se ele diz indefinido, porque não estamos realmente interessados em que. 

--e então a linguagem. E então o que nós somos fazendo é acrescentando que para a tabela que é identificado por esta cadeia aqui. E como funciona jQuery é o que se diz é olhar para a tabela com a idéia resultados e adicione-lhe o texto. E esta é a tabela com os resultados idéia. Então, o que você acaba com é esta página aqui. E, a fim de visualizar source-- Bem, a fonte não é realmente atualizados quando isso aconteceu. Assim você pode ver o real resultados da tabela aqui embora. 

Então, isso é apenas um exemplo simples de fazendo uma consulta muito básico contra a API e exibição de informações em algum outro formar, e não fazer nada muito extravagante. Agora, outro exemplo é como um pedido escrito por David Weinberger como uma demo deste, que essencialmente mostra como você pode misturar-se os resultados que você está recebendo a partir da API biblioteca nuvem com, digamos, o Google Books. 

E o pensamento aqui é que eu posso executar uma consulta contra Google Books, obter uma pesquisa de texto completo, obter alguns resultados volta, descobrir qual desses itens realmente existem em Hollis, o sistema de biblioteca, e, em seguida, dar-me os links de volta a esses itens. Então, se eu procurar, era uma noite escura e tempestuosa, I voltar um monte de resultados do Google, e, em seguida, um resultado que é Uma Dobra no Tempo. E estes são os links para os livros que existem dentro do sistema de biblioteca de Harvard. 

Então eu acho que a questão aqui não é tanto que este pode ou não ser do jeito que você quer para procurar a biblioteca, mas é completamente diferente forma que não estava disponível para você antes, como você não tinha como fazer texto completo pesquisa em livros que, mesmo eram parte do sistema Biblioteca Harvard. Então, agora esta é uma maneira que você pode fazer isso. E você pode exibi-los em qualquer formato que você quiser. Então, a questão aqui é, basicamente, estamos abrindo novas maneiras para as pessoas a trabalhar com os dados. 

Outra peça de cloud biblioteca é que ele ajuda a expor alguns dos dados de uso que tem a biblioteca. Então, se você vai para a biblioteca, e você está à procura de livros, Você não precisa necessariamente realmente ter uma idéia de, para todos os itens de uma determinado assunto, o que são pessoas na comunidade, se é definido como Harvard ou o país ou da sua classe, o que têm eles encontraram mais útil? E a biblioteca, na verdade, tem um tonelada de informações sobre o que é mais útil porque se um lote de pessoas a visitar a um livro, que lhe diz alguma coisa. Deve ter havido alguma razão eles querem dar uma olhada. Um monte de gente colocá-lo na reserva. 

Se é na lista de reserva para um monte das aulas, que lhe diz alguma coisa. Se os membros do corpo docente estão verificando- fora muito e alunos de graduação não são, que me diz alguma coisa. Vice-versa, que também diz-lhe alguma coisa. Portanto, seria muito interessante para colocar essa informação lá fora e deixar pessoas usá-lo para ajudá-los a encontrar funciona dentro do sistema de biblioteca. O outro lado disso é há um pouco de privacidade grave preocupações porque um dos princípios fundamentais da biblioteca é que não vamos estar a dizer pessoas que as outras pessoas estão lendo. E mesmo que você está dizendo isso livro foi verificado quatro vezes em um determinado mês, que poderia ser utilizada para ligar de volta a um determinado pessoa por dados de-anonimato e descobrir o que fez o check-out. Assim, a maneira que nós podemos avoid-- A maneira que nós podemos tentar extrair alguns sinais de todas as informações sem infringir preocupações com a privacidade de ninguém é, essencialmente, nós olhamos 10 anos de dados de utilização, - 

Então, é por um longo período de tempo. 

--e dizer, OK, vamos ver como muitas vezes este trabalho foi usado, e por que ao longo deste período de tempo, e, em seguida, basicamente devolver um número, que chamamos uma pontuação de pilha, que, basicamente, representa o quanto ele foi usado. E isso number-- Um monte de diferentes cálculos ir para esse número. --mas é um muito áspera métrica que lhe dá alguma idéia de como o comunidade podem valorizar esse trabalho. 

E assim mais um tipo de mesmo mais aprofundados aplicação que aproveita isto é algo chamado Stacklife, que é, na verdade, disponível através do principal Harvard Portal da Biblioteca. Então você vai para library.harvard.edu. Você verá uma série de diferente formas de pesquisar a biblioteca. E um deles é chamado Stacklife. 

E este é um aplicativo que navega o conteúdo da biblioteca, mas é totalmente construído em cima dessas APIs. Portanto, não há material especial acontecendo nos bastidores. Não há acesso a dados que você não tem. Ele está usando as APIs para fornecer-lhe com uma navegação completamente diferente experiência. 

Então, se eu procurar Alice no País das Maravilhas, neste caso, I obter um resultado que parece este, que é bastante much-- 

É muito semelhante a qualquer outra pesquisa que você pode fazer, exceto, neste caso, estamos classificando os itens por stackscore, que lhe dá alguma idéia de quão popular esses itens estavam dentro da comunidade. E de forma tão clara, Alice no País das Maravilhas por Walt Disney é altamente popular. Mas você também pode ver os quatro primeiros aqui são aqueles que você pode não actually-- 

Coisas que são muito utilizados, Mas você pode não imediatamente conectar-se com Alice no País das Maravilhas. Assim, o nosso velho amigo, o Annotated Alice está aqui. Para que eu possa dar uma olhada nisso. E agora o que estou procurando em é basicamente um conjunto de-- Eu posso ter The Annotated Alice aqui. Eu tenho informações sobre ele. E eu também tenho um stackscore de, neste caso, 26. E isso me diz que tipo de aproximadamente como chegamos a este stackscore, como que o check-out, como a forma como muitas vezes foi feito check-out, como faculdade ou graduandos, como muitas cópias a biblioteca tem, e assim por diante e assim por diante. 

E você também pode, interessante o suficiente aqui, ver as pilhas virtualmente. Assim, os dados aqui, este está mostrando-lhe sorte de uma representação virtual do que o poder de prateleira olha como se você tivesse que tomar todas as explorações da biblioteca e colocá-los juntos sobre uma prateleira infinito. E o bom é que nós can-- 

Em primeiro lugar, o metadados sobre esses livros muitas vezes diz-lhe quando foi publicado. Diz-lhe quantas páginas ele tem. Pode dizer-lhe as dimensões. Assim, você pode ver que se reflete aqui em termos da dimensão dos livros. 

E então podemos usar o empilhar pontuação para realçar os livros que têm pontuações mais altas pilha. Então, se é mais escura, isso significa que, Presumivelmente, ele é usado com mais freqüência. Portanto, neste caso, eu sou indo para adivinhar que este é a versão de Alice no País das Maravilhas que é muito usado e mais acessada, a biblioteca tem o maior número de cópias. Então, se você está procurando para Alice no País das Maravilhas, este pode ser um bom lugar para começar. 

E, em seguida, aqui você também pode ligar para fora para, digamos, a Amazon para comprar o livro, e assim por diante e assim por diante. O ponto aqui, mais uma vez, Não é tanto que este é a melhor maneira de navegar na biblioteca ou a ferramenta certa para cada ocasião. Mas é uma outra maneira de fazê-lo. E fazendo a dados disponível através de uma API, que é feita de blocos de construção muito simples, que permite que você pesquise o conteúdo, você pode construir algo como esta que podem ser extraordinariamente valioso para algumas pessoas. 

Então, isso é uma espécie de, tanto quanto eu quero a dizer realmente sobre o que a API é eo que ele expõe, não há um todo monte de coisas nos bastidores, que Eu só vou tocar em breve só porque é uma espécie de chega a este a partir de um ângulo completamente diferente em termos de como é que algo como isto se colocar em prática? 

Assim, uma API é um padrão interface com todo esse conteúdo. Mas para chegar lá, o primeira coisa que tinha que fazer foi reunir informações de livros e imagens e os instrumentos de descrição, a coleção documento a partir de diversos sistemas de Harvard. Aleph, VIA, e OASIS são os nomes dos sistemas. E eles essencialmente entrar em um tubagem, uma tubagem de processamento. 

Então, primeiro de tudo, temos de exportação ficheiros de todos estes sistemas. Nós dividi-los em itens individuais. Portanto, temos um arquivo, que é um gigabyte, que tem um milhão de discos na mesma. Por isso, dividi-la em itens individuais. Então, para cada item, vamos convertê-lo em mods, porque algumas delas são MODS nativamente, alguns deles não são. Então, nós levá-los todos para estar no mesmo formato. Depois, há vários etapas de enriquecimento, onde somarmos mais informações para os dados que estava disponível na biblioteca. Então, nós precisamos adicionar, em primeiro lugar nós temos o que bibliotecas segurá-la. Passamos por uma etapa de cálculo da stackscore. Passamos por mais uma etapa adicionando mais de metadados em termos do que coleções pessoas poderia ter acrescentado isto-- 

As pessoas estão criando coleções de itens. Que coleções ele pertence? Como é que as pessoas com etiquetas este conteúdo no passado? Então você filtrar, e você restringir os registros, porque, como já referi, há alguns registros que, por causa de razões de direitos autorais, não podemos exibir. E, depois, carregá-los em algo chamado Solr, que não é um erro de soletração, mas é o nome de um pedaço de software que faz a indexação de busca, que impulsiona toda a busca por trás da API. E então ele se torna disponível para API, e as pessoas podem usá-lo. 

Então, isso é como uma forma justa processo simples. Um dos interessante coisas sobre ele é que estamos lidando com 13 milhões de registros e nós vamos estar lidando ou mais. E nós queremos ser capazes de lidar com estes de uma forma relativamente rápida. Leva muito tempo para processar 13 milhões de registros. 

Então, como este gasoduto é estabelecer é que você can-- Eu acho que a vantagem do pipeline, o problema que estamos tentando resolver aqui, é que todas as transformações, todos estas etapas nesta gasoduto são separáveis. Não há nenhuma dependência. Se você está processando um registro de um livro, não há nenhuma dependência em que entre outro livro. 

Então o que podemos fazer é, basicamente, em cada passo na calha, vamos colocá-la em uma fila na nuvem. Aconteceu de eu estar na Amazon Web Services. Portanto, há uma lista de, dizer, 10.000 itens que necessita de ser normalizado e convertidos para o formato de mods. E nós girar tantos servidores como queremos, talvez 10 servidores. E cada um desses servidores apenas senta lá, olha em fila, vê-se que há um que precisa ser processado, puxa-lo da fila, processa e sticks que na próxima fila. 

E assim o que nos permite a fazer é aplicar, no essencial, tanto hardware quanto queremos este problema para um período muito curto de tempo para processar os dados tão rapidamente quanto possível, o que é algo que só, agora no mundo da computação em nuvem Nós podemos provisionar servidores essencialmente instantaneamente, que é útil. Então, não temos de ter um servidor gigante sentado ao redor o tempo todo para fazer o processamento que pode acontecer apenas uma vez por semana. 

De modo que é na maior parte dela. Não há documentação disponível para a API item Biblioteca Nuvem neste URL, que será estar disponível mais tarde. E por favor, vá dar uma olhada -lo para ver se há alguma coisa, Você tem alguma idéia. Jogar com ele. Brincar. E espero que você pode vir com algo grande. Obrigado.