Джеффри LICHT: Привет. Я Джеффри Licht. И я здесь, чтобы поговорить с вами о Библиотека Гарвардского университета и здание завтра Библиотека сегодня, я думаю. Так фон здесь, шаг к этой сессии по существу, что существует много библиографических данных доступны в библиотеках Гарварда. И есть возможность, через некоторые из инструментов, и проект, который разрабатывается, чтобы получить доступ к информации, и принять его на местах, Библиотека Гарвардского университета не делать прямо сейчас, сделать новый материал с ней, эксперимент и поиграть с ним. Таким образом, точка входа в это API называется Библиотека Гарвардского университета облако, которое является открытым сервер метаданных, которые я буду говорить теперь. Таким образом, фон, который существует Много материала в библиотеке Гарвардского университета. У нас есть более 13 миллионов книговедческое записи, миллионы изображений, и тысячи нахождения средств, которые по существу, документы, описывающие Коллекции, говоря, что в них, ящики бумаг и так далее, которые составляют более миллион отдельные документы. И есть также много информация, библиотека имеет о том, как содержание, что используется может представлять интерес для людей, кто хотел бы работать с ним. 

Так всю информацию Библиотека имеет метаданные. Так метаданные это данные о данных. Поэтому, когда мы говорим о информацию, которая доступны через библиотеку Облако, которое доступно, это не обязательно фактические документы Сами, не обязательно полная Текст книги или полных образов, однако, что на самом деле может иметь место. Но это на самом деле Информация о данных. 

Таким образом, вы можете думать о каталогизации Информация, абонентские номера, субъекты, сколько копий Книга есть, то, что являются издания, каковы форматы, авторы, и так далее. Так что много информации о Информация, содержащаяся в сборе, что, само по себе, это своего рода изначально полезными. И, хотя, если вы делать глубокие исследования, Вы, очевидно, хотят, чтобы добраться до фактической довольствоваться и посмотрите на данные, Метаданные полезно с точки зрения и анализ корпус в целом, как то, что вещи находятся в коллекции. Как они соотносятся между собой? Это поможет вам найти действительно другие вещи, который является действительно главной целью ней. Точка Каталог метаданных и чтобы помочь вам найти все информацию, которая доступны в коллекциях. 

Таким образом, это является примером метаданных для книги в Гарвардском библиотеки. Так что это там. И вы можете видеть, что это на самом деле очень сложный. И часть стоимости метаданных в рамках системы Библиотека Гарвардского университета является то, что это было своего рода из застроена каталогизаторам и собрал людей, претендующих много опыта и мастерства и мысли к нему в течение долгого времени, который имеет большую ценность. 

Так что, если вы посмотрите на этой записи для Аннотированный Алиса, вы можете узнать у вас есть титул, который написал его, Автор, а все разные предметы которые люди каталог его в. И вы можете видеть, есть также в дополнение к много хорошей информации здесь, есть некоторое дублирование. Там это много сложности это отражение в метаданных что у вас есть. 

Так что название этой книги Приключения Алисы в стране чудес. Так что это аннотированных версия этой книги. Но это также называется аннотированных Алиса, Алиса в стране чудес, потому что это то, что Мартин Гарднер написал и аннотированный книгу. И есть много полезной информации о логических головоломок и вещей в Элис, что вы вероятно, не знают. Таким образом, вы должны идти читать это. 

Но вы можете видеть, что это Много здесь подробно, в том числе идентификаторы, когда его была создана, когда он пришел, с точки зрения Гарварде Система и так далее. Так что это образец тип метаданных что для книги в вы можете увидеть Коллекция Библиотека Гарвардского университета. 

Это нечто совсем другое. Так что есть система, называемая VIA Гарвард, который в основном является каталогизация изображений и предметов искусства и визуальные вещи по всей Гарварде, и добавление некоторых метаданных к ним, их классификации, и, в некоторых случаях, обеспечивая миниатюр изображений что вы можете взять посмотреть, если вы так хотите. 

Таким образом, это является примером метаданные, которые у вас есть для пластины от, предположительно, Алиса в стране чудес. И вы можете видеть, что это меньше метаданные здесь. Это просто другой вид объекта. И таким образом, есть меньше информации. 

У вас скорее всего тот факт, что вызов Количество, по существу, кто его создал, - 

Мы не знаем, когда она была создана. 

--и название. 

Другой пример. Это помощь находкой. Так что коллекция Льюис Газеты Кэрролла в Гарварде. Так это описывает, что в этой коллекции. Так кто-то пошел до конца и просмотрел все поля и каталогизированы его, учитывая некоторые фон, написал обзор того, что здесь. И если вы посмотрите В дальнейшем, при этом, это продолжается в течение страницы и страницы и страницы, но скажу вам, какие буквы и что даты от того, что коробки существовала на протяжении всей коллекции. Но это что-то что, если вы в Гарварде, Вы можете пойти и на самом деле физически смотреть и, по-видимому, взглянуть на. 

Так что это все здорово. Эти метаданные Полезные. Это в системе Библиотека Гарвардского университета. Есть инструменты онлайн, где вас может пойти и взглянуть на него, и увидеть его, и искать его. И вы можете нарезать его и кости это в большом количестве различных способов. 

Но это действительно доступна, только если Вы человек существо сидит вниз в вашем веб-браузере или что- Ваш телефон и навигации по ним. Это на самом деле не доступен в любой вид полезной моды для других систем или другие компьютеры в использовании, не с системами в рамках Библиотека Гарвардского университета, но системы в окружающем мире, всего другие люди в целом. Так вопрос в том, как мы можем сделать его доступным для компьютеров так что мы можем сделать более интересным Материал с ней, чем просто просмотр это сами? 

Так почему же вы хотите это сделать? Есть много возможностей. Одним из них является, вы можете построить полностью другой способ просмотра содержание, которое доступно через Гарварда библиотек. Я покажу вам один позже названный Stacklife, который имеет совершенно другой взять на доступ к содержимому. 

Вы могли бы построить рекомендации двигателя. Так Библиотека Гарвардского университета не находится в бизнес говоря, вам нравится эта книга. Затем перейдите взглянуть на них еще 17 книги, которые вы могли бы быть заинтересованы в или эти 18 другие изображения. Но это, конечно, могли быть ценным свойством. А если учесть, метаданные, он может можно положить, что вместе. Вы можете иметь различные потребности в Условия поиска содержание, как, может быть, несмотря на инструменты, которые доступны, что библиотека делает в наличии, вы можете искать по-другому или оптимизировать для конкретного использования, которые, может быть, это очень специализированы. Может быть, есть только несколько люди в мире, которые хотите искать содержание В этом случае, однако было бы здорово, если мы мог позволить им сделать это. Там очень много аналитики всего, как люди используем содержимое, которое будет действительно Интересно знать о, узнать, какие книги используются, что нет, и так далее. А тут еще много возможность интеграции с другой информацией что-то там в Интернете. Таким образом, мы have-- 

Например, NPR имеет сегмент Рецензия на книгу, где они берут интервью Авторы о книгах. И поэтому было бы здорово, если бы вы были глядя книгу в Гарварде Библиотека, а вы говорите, хорошо, что есть был Интервью с автором. Давайте взглянем на это. Или есть страница Википедии, а авторитетный, научная справка об этой книге, что вы возможно, захотите взглянуть на. 

Есть эти типы источников разбросаны по всей сети. И чего их вместе может быть большое использование для кого-то, глядя на Содержание, глядя на что-то. Но это также не вид, что вы бы хочу библиотека нести ответственность для перехода вниз и охоту все эти различные источники и подключить их вместе потому что они постоянно менялись. И то, что они думают, что очень важно мая не может быть то, что вы считаете важным. 

И уж тем более, в основном там много вещей мы не думали до сих пор. Так что, если мы можем открыть это, более люди, кроме полутора десятков или около того, кто смотрит на это на регулярной основе может думать идей и массаж данные, и делать то, что они хотят с ним. 

Поэтому мы хотим, чтобы сделать это Данные из имеющихся в мире. Ну, есть пара осложнения. Во-первых, этот метаданных в различных системах. Это в различных форматах. Так что некоторые нормализация который должен произойти, которые нормализации быть процесс доводя дело из различных форматов и отображение их в единый формат так, что поля будет совпадать. 

Есть некоторые ограничения авторского права. Как ни странно, размещение информации в каталоге о книге ответственности за авторские права. Поэтому, даже если это просто сведения, полученные из книги, это защищаема. И в зависимости от того, кто на самом деле создано эти метаданные, могут быть ограничения относительно того, кто может распространять его, подобно to-- 

Я не знаю. Это может или не может быть аналогичен Положение текста песни, например. Так что мы все знаем, как это кастрюли. Таким образом, вы должны обойти эту проблему. 

А потом еще кусок что есть много данных. Так что, если я кого-то, кто хочет работать с данными или имеет классная идея, дело с 14000000 записи на моем ноутбуке может быть проблематичным и трудно управлять. Поэтому мы хотим, чтобы уменьшить барьеры для людей чтобы иметь возможность работать с данными. 

Так подхода, который, мы надеемся, адреса все эти проблемы является две части. Один строит платформу, которая принимает Данные от всех этих разнородных источников и усугубляет ее, нормализует, обогащает его, и делает это доступно в одном месте. И это делает его доступным через общественного API, что люди могут позвонить. 

Так API является применение Интерфейс программирования. И это в основном относится к Конечная точка, система или технология может позвонить и получить данные обратно в структурированный формат таким образом, что он может быть использован. Так что это не зависит при переходе на сайт и выскабливание данные с это, например. 

Так что это домашняя страница Библиотека Cloud товара API, который является по существу ее вариант два. Так что это второй итерации пытается сделать все эти данные распространение по всему миру. Так что это http://api.lib.harvard.edu/v2/items. И только разорвать этот вниз чуть-чуть, что это значит то, что это вариант два из API. Там это версия одного, который Я не собираюсь говорить об этом. Но есть версия одна. 

И если вы звоните в этом API, вы получаете элементы. И часть идеи API является API является контракт. Это то, что является не собирается менять. Так, например, - 

И причина в том, что если я построить какую-то систему, собирается использовать библиотеку облачных API для отображения книги или помочь людям найти Информация, содержащаяся в уникальных способов, что мы не хотим чтобы это произошло для нас, чтобы пойти изменить, как что API работает, и вдруг все ломает на стороне конечного пользователя. Так что часть, если вы делаете API распространение по всему миру, это хорошая практика, чтобы положить номер версии в нем, чтобы люди узнать, какая версия они имеют дело с. 

Так что, если мы решим, что найти лучший способ сделать эту информацию доступной, мы могли бы изменить, что назвать это третьей версии. Поэтому каждый, кто по-прежнему использует Версия вторая, что еще будем работать. Но версия три будет есть весь новый материал. 

Таким образом, это API, но это действительно похоже на URL. И так, что это Примером является то, что называется API отдых, который доступен Только за обычный веб соединения. И вы можете на самом деле идти к ней в браузере. 

Так вот, я просто открыл Firefox и отправились в api.lib.harvard.edu/v2/items. И так, что я получаю здесь в основном первая страница результатов от всего набор элементов, которые мы получили. И именно здесь в формате XML. И это также prettified по Firefox. Это на самом деле не все из них немного расширяться и сжиматься doohickeys здесь. Это своего рода приятнее Версия способ смотреть на него. 

Но то, что это говорит нам о том, Я просил все детали. Таким образом, есть 13289475 пункты. И я смотрю на первый 10, начиная с позиции нулевого потому что в информатике мы всегда начинаем с нуля. И то, что я здесь, если я просто рухнет это, вы увидите, что я получил 10 пунктов. 

И если я взгляну на пункт, я могу видеть, что у меня есть информацию о нем. И это в то, что называется MODS форма. И поэтому я буду переключаться сюда на минуту. ОК. 

Итак, давайте искать что-то в определенными, потому что первый элемент, который происходит, чтобы придумать, когда вы смотрите всю коллекцию это, по определению, случайным образом. Итак, давайте посмотрим на некоторые пончики. Ох. 

ОК. Так пончики. Таким образом, мы нашли там 80 пунктов в Коллекция, которые ссылаются на пончики. Мы смотрим на первые 10 из них. Теперь вы можете посмотреть здесь так, что Я сказал, что я ищу для пончиков, Я просто добавил что-то Строка запроса в URL. Так Q равен пончики, которые вы можете см немного легче здесь. 

И это в основном означает, что есть Спецификация для API, который определяет, что все Эти параметры означают. А это значит, что мы собираемся поиск все для пончиков. 

Так вот первый пункт у нас есть Вы можете видеть название Donuts, и существует субтитров называется Американский страсть, которая, я думаю,, соответственно. Есть много different-- После того как вы дойдете до точки, получения данных, Есть много разных Форматы, которые вы можете получить его в. И существуют различные сильные и слабые для всех из них. Так что это один, вы можете увидеть здесь, эта форма очень богат. И это стандартизированы. 

Так что конкретное название поле, поле субтитры. Там это альтернативный название, американский страсти. Существует имя, связанное с ним. Тип ресурса текстов. Там очень много информации Здесь, в этом формате. 

Но есть куча разных форматов. Итак, что мы были просто глядя на это формат называемые моды, которая стоит за Объект метаданных Описание Service, потенциально. На самом деле я не совсем уверен, о С. Но это довольно сложный формат. Это формат по умолчанию. 

Но это тот, который держит Богатство всех данных, что библиотека имеет, потому что это очень близко к тому, что Библиотека использует внутренне. Это стандарт, который является используется по всей стране, по всему миру в академических библиотеках. И это очень совместимы. Так что, если у вас есть документ что в формате моды, Вы можете дать, что кого-то другого чьи системы понимают моды, и они могут импортировать его. Так что это стандарт. Это очень хорошо определены, очень специфичен. И это то, что делает его взаимодействовать, потому что если кто-то говорит, это альтернативный название запись, все знают, что это значит. С другой стороны, это очень сложно. 

Так что, если вы посмотрите в этой записи здесь, если я просто хочу, чтобы получить название этого документа, из этой книги, которая, вероятно, Donuts, Американский Страсть, анализ его это немного участие. В то время как есть другой формат, называемый Dublin Core, который является гораздо, гораздо проще формат. 

И поэтому вы не увидите здесь, нет никакой заголовок, подзаголовок, альтернативный название. Там просто название, Donuts, американский Страсть, и еще один титул, американский страсти. Поэтому, когда вы смотрите на то, что форма Вы хотите, чтобы получить данные из, Многое зависит от того, как Вы собираетесь его использовать. Используете ли вы для совместимость или вы хотите что-то простое, что может быть легче работать? 

С другой стороны, много какие детали вроде сплющенные вниз. Вы можете потерять все нюансы что конкретные средства на местах если вы имеете дело с Dublin Core, которые вы не получите с модами. Так что те два из форматов Вы можете выйти из API. И в основном, мы держим это за кулисами в модов. Но мы можем дать вам его в Моды и Dublin Core и все остальное также. Другое соображение, когда Вы ищете в данных что вы можете получить его либо как JSON, который выступает за нотации объектов JavaScript, или XML, которая выступает за Extensible Markup Language. И эти представления данных и имеют одни и те же данные, точно одни и те же поля. Но они просто синтаксически различны. 

Так что это a-- Ну, давайте просто переключиться. Так что это наш запрос на пончики в формате XML. Если бы я просто переключиться, чтобы это было JSON, Я вижу, что выглядит по-другому. Так что теперь это же самое содержание, а другая структура. Есть меньше угловые скобки. Там это менее многословным. 

И это формат, который, если вы работают в веб-среде, вы, скорее всего, будет хотите использовать, потому что один из хороших вещей о JSON является он совместим с JavaScript. Так что, если я пишу веб-приложение, я могу тянуть в JSON и просто работать с ним напрямую. В то время как с XML, это немного сложнее. Итак, еще раз, это как полезно. Они просто разные случаи использования где люди могли бы хотеть использовать их. ОК. Итак, вернемся к API. Так мы можем искать for-- 

Я приведу пример поиск пончики. Мы также можем искать только в конкретное поле в здесь. Таким образом, вместо того, чтобы искать Вся запись, Я могу просто искать в поле заголовка. И вот теперь есть 25 вещей, которые есть пончики в заголовке, один из которых о восстановлении водно-болотных угодий в управлении отверстия в пончик Программа, которая, вероятно, не обязательно, что мы ищем когда мы ищем для пончиков. 

Вы можете также, когда вы дело с API-- 

Часть имеющий API дает людям доступ к большим наборам данных. И есть несколько различных инструменты, которые можно использовать, чтобы сделать это. Одним из них является, очень просто, вы может пролистать данных. Так как если бы вы сделать запрос через веб-интерфейс, Вы можете посмотреть на первой странице, вторая страница, страница три. Вы можете сделать то же самое что через API. Вы просто должны быть Явный в том, как вы это делаете. 

Так, например, если я ищу в моем первом запросе здесь, где я делаю поиск для вещей с пончиками в названии, я могу говорить, и предел равен 20, что означает, дать мне первые 20 записей, а не первый 10, который является по умолчанию, потому что я хочу посмотреть на 20 одновременно. Или я могу сказать, установить начать равно 20 и предел равняться 20, что даст мне записывает с 21 по 40. 

Так что я думаю вещь забрать здесь что мы, используя строки запроса чтобы установить параметры на запрос. И это позволяет контролировать то, что вы вернетесь. 

Еще один инструмент, который можно использовать, - 

И это действительно полезно в Условия изучает данные. 

--is то, что называется огранка. Так термин огранка является не должны быть общими. Но вы все видели его раньше. Если вы посмотрите на Amazon, например, и вы делаете поиск пончики в книгах, здесь они получили серию книг, и они сгруппированы по категориям, и вы получите различные категории, и сколько книг в каждой категории показать вверх. 

Так что это в основном аспект. Вы берете все свои книги, 1800 книги, которые соответствуют пончики на Amazon. 12 из них находятся в категория завтрак. 21 в тесте и выпечка, и так далее, и так далее. 

Так что это действительно полезно инструмент для исследования содержания в библиотеке, а потому что, когда вы смотрите на грани, это дает вам представление о том, какие предметы существует, как, какие виды субъектов Наиболее популярны в ваш набор запроса. И это поможет вам отогнать и исследовать. Таким образом, мы можем сделать то же самое. 

Если мы хотим использовать API и посмотреть на грани, мы добавить еще один параметр наш друг строка запроса. Так граней равняется запятую Список того, что мы хотим, чтобы фаской по. Таким образом, одна из граней может быть предметом. Еще может быть язык. И поэтому, если мы запустим этот запрос, мы get-- Это выглядит довольно много же самое. Но мы добавили к концу из списка набор граней. Итак, мы имеем аспект, называемый объектом. Так что это говорит нам, что если я смотрю на мои 80 результатов пончик запроса, 13 из них имеют территории Соединенных Штатов. Три есть пончики по теме. Три иметь тему восстановления водно-болотных угодий, который может быть наш отверстие в пончик. Двое из них, Симпсоны, и так далее, и так далее. 

Так что это может быть полезно, если вы хотите, чтобы сузить свой поиск. Это может помочь вам сделать это. Особенно, если у вас есть более чем, скажем, 80 результатов. 

Кроме того, мы также попросили для гранями языке. Так что, если мы посмотрим на наши результаты, мы видим, 76 из них на английском языке, четыре на французском языке, два на испанском языке, два, я думаю, что это не определено или неизвестно, голландский и латынь. Так что я думаю, что по-латыни пончик результат, опять же, не имеет ничего общего с хлебобулочных изделий. Но там вы идете. 

Так что это своего рода показывая вам, как вы можете вытащить данные обратно от API только через веб-браузер, который отлично подходит. Но это не совсем то, что вы бы как правило, с использованием в API для этого. Так один пример того, как надо может на самом деле сделать это я имею написано супер небольшая программа, которые, опять же, не мой поиск пончика и выбирает пару поля и отображает их в виде таблицы. Так что это очень то же содержание, что мы просто пила с несколькими полями вытащил. Так список названий, в расположение, что книга о, язык, и так далее, и так далее. 

Так, как это произошло на самом деле, так как Я думаю, мы должны смотреть на код, is-- 

То, что мы имеем здесь дело с простой HTML страница, которая отображает текст, Добро пожаловать в библиотеку облака и то на экран выводится таблица результатов. И нет, очевидно, не приводит к Таблица когда страница загружается. Но то, что мы делаем это, в первую очередь, мы загружаются библиотеку под названием JQuery, который является в основном Библиотека наличие которого делает его очень легко манипулировать наличие изначально, HTML, а также создавать веб-страницы, на стороне клиента логика и веб-страниц. 

Итак, что мы имеем здесь дело с JQuery имеет метод Get, что существенно пойдет на Ссылка, которая, в данном случае, это знакомо глядя URL. И тогда получите содержание от что URL, а затем запустить функцию на ней. Поэтому мы сказали пойти в api.lib.harvard / Edu. Поиск пончики. Дайте нам 20 записей. И затем запустить эту функцию, которая Я выбрал, передавая ему данные. И данные JSON, что получил вернулся из API. 

И тогда мы говорим, в том, что Данные есть поле, называемое пункт. И если я пойду взглянуть назад на один из этих результатов, что здесь, есть что-то called-- 

Ну, это называется пункт. Так, что может быть, что. И то, что она делает, это его проходит через каждого элемента а затем вызывает другое Функция по каждому пункту. И, что функция в основном принимает значение пункта, что является по сути отдельная запись и позволяет вытащить название, охват и язык. 

Так мы называем функцию на каждый элемент, который мы вернулись из API. И если вы просто посмотрите на этот кусок прямо здесь, то, что мы делаем, мы создаем строку, который является по существу некоторые HTML разметка вокруг стола, с value.title, что название Объект, value.coverage, который является освещение, - 

И мы делаем проверку здесь, чтобы увидеть, кто не определено и скрывая его, если он говорит, что не определено, потому что мы на самом деле не заинтересованы в этом. 

--и тогда язык. И тогда то, что мы делаете добавления, что к таблице, которая определены этой строкой здесь. И как JQuery работает это то, что это говорит это посмотреть на таблицу с идеей Результаты и добавьте в него текст. И это таблица с результатами идея. Так что вы в конечном итоге с это страницы здесь. А для того, чтобы просмотреть source-- Ну, источником на самом деле не обновляются, когда это произошло. Таким образом, вы можете увидеть фактическое Результаты таблицы, хотя здесь. 

Так что это просто простой пример делает очень простой запрос к API и отображения информации, в какой-то другой форме, и ничего не делает слишком фантазии. Теперь еще один пример, как программа, написанная Дэвидом Вайнбергером как демо это, что по существу показывает вам, как вы можете пюре итоги вы получение из библиотеки облачных API с, скажем, Google Books. 

И мышление здесь является то, что я могу выполним запрос Google Books, получить полнотекстовый поиск, получить некоторые результаты назад, выяснить, какие из этих элементов на самом деле существует в Холлис, библиотечная система, а затем дать мне ссылки Вернуться к этих элементов. Так что, если я ищу, это было темная и бурная ночь, я вернуться кучу результатов от Google, а затем один результат что морщин во времени. И это ссылки на книги, которые существуют в рамках системы Библиотека Гарвардского университета. 

Так что я думаю, дело здесь не в так что это может или не может быть так, что вы хотите искать библиотеку, но это совершенно разные так, что не было доступно для вас прежде, как вас не было никакой возможности делать Полный текст поиск по книгам, что даже были частью системы Библиотека Гарвардского университета. Так что теперь это способ что вы можете сделать это. И их можно отобразить в любой формат, вы хотите. Так моментом здесь является, в основном, мы открываем новые пути для людей работать с данными. 

Другая часть библиотеки облака, что это помогает раскрыть некоторые из данных использования что библиотека имеет. Так что, если вы идете в библиотеку, и вы ищете для книг, Вам не обязательно на самом деле имеют представление о том,, для всех элементов в конкретный субъект, то, что люди в сообщество, будь то определяется как Гарвард или страна или ваш класс, Что они оказались наиболее полезными? И библиотека на самом деле имеет Огромное количество информации о том, что наиболее полезен, поскольку если много людей проверить книгу, что говорит вам что-то. Там был какой-то причине они хотят, чтобы проверить его. Много людей положить его в запасе. 

Если это резервный список для многих классов, который говорит вам что-то. Если преподаватели проверяют его из много и студенты не являются, что говорит мне что-то. И наоборот, что также говорит вам что-то. Поэтому было бы очень интересно положить эту информацию там, и пусть люди используют его, чтобы помочь им найти работает внутри библиотечной системы. Оборотной стороной этого является есть некоторые серьезные конфиденциальности проблемы, потому что один из Основные принципы библиотеки что мы не собираемся рассказывать люди, что другие люди читают. И даже если вы говорите, это Книга была проверена четыре раза в конкретном месяце, , которые могут быть использованы ссылаются на особенности человек по данным де-анонимизирующая и выяснить, кто проверил это. Так так, что мы можем avoid-- Так, что мы можем попытаться извлечь некоторые сигнал от всей информации, без нарушения неприкосновенности частной жизни ничьих по существу мы смотрим на 10 лет данные об использовании, - 

Таким образом, это в течение длительного периода времени. 

--и говорят, хорошо, давайте посмотрим, как много раз был использован эту работу, и которые в течение этого периода времени, и то в основном вернуть номер, который мы называем оценка стек, который в основном показывает, насколько она была использована. И что number-- Много различных расчетов перейти в это число. --but это очень грубая показатель, который дает вам Некоторое представление о том, как сообщество могут оценивать эту работу. 

И так другого рода, даже более конкретизированы приложения которая воспользуется преимуществами этого является то, называется Stacklife, которая на самом деле доступны через главное Гарварде Библиотека портала. Так вы идете в library.harvard.edu. Вы увидите ряд различных пути поиска библиотеки. И один из них называется Stacklife. 

И это приложение, которое просматривает содержание библиотеки, но полностью построен поверх этих интерфейсов. Таким образом, нет никаких специальных материал происходит за кулисами. Там нет доступа к данные, которые вы не имеете. Она использует API-интерфейсы, чтобы предоставить вам с совершенно иной просмотра опыт. 

Так что, если я ищу для Алисы в стране чудес в этом случае, Я получаю результат, который выглядит как это, который является довольно much-- 

Это очень похож на любой другой категории Вы могли бы сделать, кроме как в этом случае мы ранжирования детали stackscore, что дает вам Некоторое представление о том, как популярны в эти предметы были в обществе. И так ясно, Алиса в стране чудес Уолт Дисней очень популярны. Но вы также можете увидеть первую четверку вот те, что вы, возможно, не actually-- 

Вещи, которые высоко используются, но вы не можете сразу связаться с Алиса в стране чудес. Таким образом, наш старый друг Аннотированный Алиса здесь. Так что я могу взглянуть на него. А теперь то, что я ищу в основном устанавливается of-- Я могу иметь с примечаниями Алиса здесь. У меня есть информация о нем. И у меня также есть stackscore от того, в этом случае, 26. И это говорит мне вроде примерно как мы попали в этот stackscore, как кто проверял его, например, как много раз был проверили, как факультет или старшекурсники, как много копий библиотека имеет, и так далее, и так далее. 

И вы можете также, достаточно интересно здесь, просматривать стеки виртуально. Таким образом, данные здесь, это показывает вам разобраться виртуального представления от того, какой шельфа мощи выглядеть, если вы должны были принять все фондов библиотеки и положить их вместе на одной бесконечной полке. И приятно то, что мы can-- 

Прежде всего, метаданные об этих книгах часто говорит вам, когда она была опубликована. Она говорит вам, сколько страниц он имеет. Это может сказать вам размеры. Таким образом, вы можете видеть, что отражено здесь по размеру книг. 

И тогда мы можем использовать стек счет, чтобы выделить книги, которые имеют более высокие показатели складываются. Так что, если он темнее, это означает, что, Предположительно, она используется чаще. Таким образом, в этом случае, я буду гадать, что это это версия Алисе в стране чудес который очень широко используется и наиболее Доступ, библиотека имеет больше копий. Так что, если вы ищете Алиса в стране чудес, это может быть хорошим местом для начала. 

И тогда здесь Вы можете также связать из , скажем, Amazon, чтобы купить книгу, и так далее, и так далее. Дело здесь, опять же, не так много, что это это лучший способ, чтобы просмотреть библиотеку или правильный инструмент для каждого случая. Но это еще один способ сделать это. И, сделав данные доступны через API, который изготовлена ​​из очень простых блоков, который позволяет искать контент, Вы можете построить что-то как это, что можно быть чрезвычайно ценным для некоторых людей. 

Так вот вроде, как я хочу сказать на самом деле о том, что API является и то, что он предоставляет, есть вся куча вещей за кулисами, которые Я просто хочу, чтобы коснуться кратко только потому, что он вроде идет на это с совершенно иной точки зрения в Условия, как делает что-то вроде этого получить положить на место? 

Так API является стандартным интерфейс для всего этого контента. Но чтобы получить его там, Первое, что мы должны были сделать был сблизить информации книг и изображений и системах поиска, сбора Документ из различных систем Гарварда. Алеф, VIA и оазиса имена систем. И они по существу идти в Трубопровод, конвейер обработки. 

Итак, прежде всего, мы получаем экспорт файлы из всех этих систем. Мы разделили их на отдельные элементы. Поэтому у нас есть файл, который гигабайт, который имеет миллионов записей в нем. Таким образом, мы разделили его на отдельные элементы. Затем, для каждого элемента, мы превращаем его в моды, потому что некоторые из них исходно моды, некоторые из них не являются. Итак, мы получаем их все, чтобы находиться в том же формате. Тогда существуют различные обогащению шагов, где добавить дополнительную информацию к данным чем была доступна в библиотеке. Таким образом, мы должны добавить, в первую очередь мы имеем то, что библиотеки удержать его. Мы проходим через стадию расчета stackscore. Мы проходим через другой стадии добавив больше метаданных в плане из каких наборов людей мог бы добавить this-- 

Люди создают наборы элементов. Что коллекции он принадлежит? Как бы люди с тегами это содержание в прошлом? Тогда вы отфильтровать, и вы ограничиваете записи, потому что, как я уже говорил, есть некоторые записи, которые, из-за Причины авторских прав, мы не можем отобразить. А потом мы загружаем их в то, что называется Solr, которая не опечатка, но Это имя части программного обеспечения что делает индексированием поиска, которые Приводы Все поиском позади API. И тогда он становится доступным для API-интерфейс, и люди могут его использовать. 

Так что это, как справедливо простой процесс. Одним из интересных все о нем что мы имеем дело 13 миллионов записей и мы будем иметь дело или более. И мы хотим, чтобы быть в состоянии справиться это в относительно скорейшего моды. Это занимает много времени, чтобы обрабатывать 13 миллионов записей. 

Так как этот трубопровод настроить, что вы can-- Я думаю, преимущество Трубопровод, проблема, что мы пытается решить здесь, является то, что все преобразования, все Эти шаги в этом Трубопровод отделимы. Там нет зависимости. Если вы обрабатываете запись одной книги, нет иждивенцев в что между другой книге. 

Итак, что мы можем сделать, это в основном, на каждом шаге в трубопроводе, мы ставим его в очередь в облаке. Мне довелось быть на Amazon Web Services. Так что список, говорят, 10000 предметов, которые должны быть нормализованы и преобразуется в формат модов. И мы раскручивается столько серверов Так как мы хотим, может быть, 10 серверов. И каждый из этих серверов только сидит там, смотрит в этой очереди, видит, что есть один, который должен обрабатываться, тянет его из очереди, обрабатывает его и палочки На следующем очереди. 

И так, что это позволяет нам сделать, это применить, по сути, как много аппаратных средств, а мы хотим, чтобы это Проблема в течение очень короткого периода времени для обработки данных так быстро, как возможно, что-то, что только, сейчас в мире облачных вычислений Мы можем предоставление серверы по существу мгновенно, в том, что полезно. Таким образом, мы не должны иметь гигант сервер сидеть все время, чтобы сделать обработку что может случиться только один раз в неделю. 

Так что это в основном это. Там же документация Для библиотеки Cloud Пункт API по этому адресу, который будет будет доступна позже. И, пожалуйста, пойти взглянуть на его, чтобы увидеть, если есть что-нибудь, у вас есть какие-то идеи. Играть с ним. Дурак вокруг. И, надеюсь, вы можете прийти с чего-то великого. Спасибо.