Джеффрі LICHT: Привіт. Я Джеффрі Licht. І я тут, щоб поговорити з вами про Бібліотека Гарвардського університету і будівля завтра Бібліотека сьогодні, я думаю. Так фон тут, крок до цієї сесії по суті, що існує багато бібліографічних даних доступні в бібліотеках Гарварду. І є можливість, через деякі з інструментів, і проект, який розробляється, щоб отримати доступ до інформації, і прийняти його на місцях, Бібліотека Гарвардського університету не робити прямо зараз, зробити новий матеріал з нею, експеримент і пограти з ним. Таким чином, точка входу в це API називається Бібліотека Гарвардського університету хмара, яка є відкритим сервер метаданих, які я буду говорити тепер. Таким чином, фон, який існує Багато матеріалу в бібліотеці Гарвардського університету. У нас є більше 13 мільйонів книговедческой записи, мільйони зображень, і тисячі знаходження коштів, які по суті, документи, що описують Колекції, кажучи, що в них, ящики паперів і так далі, які складають більше мільйон окремі документи. І є також багато інформація, бібліотека має про те, як зміст, що використовується може становити інтерес для людей, хто хотів би працювати з ним. 

Так всю інформацію Бібліотека має метадані. Так метадані це дані про дані. Тому, коли ми говоримо про інформацію, яка доступні через бібліотеку Хмара що доступно, це не обов'язково фактичні документи Самі, не обов'язково повна Текст книги або повних образів, однак, що насправді може мати місце. Але це насправді Інформація про дані. 

Таким чином, ви можете думати про каталогізації Інформація, абонентські номери, суб'єкти, скільки копій Книга є, те, що є видання, які формати, автори, і так далі. Так що багато інформації про Інформація, що міститься в зборі, що, само по собі, це свого роду спочатку корисними. І, хоча, якщо ви робити глибокі дослідження, Ви, очевидно, хочуть, щоб дістатися до фактичної задовольнятися і подивіться на дані, Метадані корисно з точки зору і аналіз корпус в цілому, як те, що речі знаходяться в колекції. Як вони співвідносяться між собою? Це допоможе вам знайти дійсно інші речі, який є дійсно головною метою нею. Точка Каталог метаданих і щоб допомогти вам знайти всі інформацію, яка доступні в колекціях. 

Таким чином, це є прикладом метаданих для книги в Гарвардському бібліотеки. Так що це там. І ви можете бачити, що це насправді дуже складний. І частина вартості метаданих в рамках системи Бібліотека Гарвардського університету є те, що це було свого роду з забудована каталогізатора і зібрав людей, які претендують багато досвіду і майстерності і думки до нього протягом довгого часу, який має велику цінність. 

Так що, якщо ви подивитеся на цьому записі для Анотований Аліса, ви можете дізнатися у вас є титул, який написав його, Автор, а всі різні предмети які люди каталог його в. І ви можете бачити, є також у додаток до багато хорошої інформації тут, є деяке дублювання. Там це багато складності це відображення в метаданих що у вас є. 

Так що назва цієї книги Пригоди Аліси в країні чудес. Так що це анотованих версія цієї книги. Але це також називається анотованих Аліса, Аліса в країні чудес, тому що це те, що Мартін Гарднер написав і анотований книгу. І є багато корисної інформації про логічних головоломок і речей в Еліс, що ви ймовірно, не знають. Таким чином, ви повинні йти читати це. 

Але ви можете бачити, що це Багато тут докладно, в тому числі ідентифікатори, коли його була створена, коли він прийшов, з точки зору Гарварді Система і так далі. Так що це зразок тип метаданих що для книги в ви можете побачити Колекція Бібліотека Гарвардського університету. 

Це щось зовсім інше. Так що є система, звана VIA Гарвард, який в основному є каталогізація зображень і предметів мистецтва і візуальні речі по всій Гарварді, і додавання деяких метаданих до них, їх класифікації, і, в деяких випадках, забезпечуючи мініатюр зображень що ви можете взяти подивитися, якщо ви так хочете. 

Таким чином, це є прикладом метадані, які у вас є для пластини від, імовірно, Аліса в країні чудес. І ви можете бачити, що це менше метадані тут. Це просто інший вид об'єкта. І таким чином, є менше інформації. 

У вас швидше за все той факт, що виклик Кількість, по суті, хто його створив, - 

Ми не знаємо, коли вона була створена. 

--І назву. 

Інший приклад. Це допомога знахідкою. Так що колекція Льюїс Газети Керролла в Гарварді. Так це описує, що в цій колекції. Так хтось пішов до кінця і переглянув всі поля і каталогізовані його, враховуючи деякі фон, написав огляд того, що тут. І якщо ви подивитеся Надалі, при цьому, це триває протягом сторінки та сторінки і сторінки, але скажу вам, які букви і що дати від того, що коробки існувала протягом всієї колекції. Але це щось що, якщо ви в Гарварді, Ви можете піти і насправді фізично дивитися і, мабуть, поглянути на. 

Так що це все здорово. Ці метадані Корисні. Це в системі Бібліотека Гарвардського університету. Є інструменти онлайн, де вас може піти і поглянути на нього, і побачити його, і шукати його. І ви можете нарізати його і кістки це у великій кількості різних способів. 

Але це дійсно доступна, тільки якщо Ви людина істота сидить вниз в вашому веб-браузері або що- Ваш телефон і навігації по ним. Це насправді не доступний в будь-який вид корисної моди для інших систем або інші комп'ютери у використанні, ні з системами в рамках Бібліотека Гарвардського університету, але системи в навколишньому світі, всього інші люди в цілому. Так питання в тому, як ми можемо зробити його доступним для комп'ютерів так що ми можемо зробити більш цікавим Матеріал з нею, ніж просто перегляд це самі? 

Так чому ж ви хочете це зробити? Є багато можливостей. Одним з них є, ви можете побудувати повністю інший спосіб перегляду зміст, який доступно через Гарварда бібліотек. Я покажу вам один пізніше названий Stacklife, який має зовсім інший взяти на доступ до вмісту. 

Ви могли б побудувати рекомендації двигуна. Так Бібліотека Гарвардського університету чи не знаходиться в бізнес кажучи, вам подобається ця книга. Потім перейдіть поглянути на них ще 17 книги, які ви могли б бути зацікавлені в або ці 18 інші зображення. Але це, звичайно, могли бути цінним властивістю. А якщо врахувати, метадані, він може можна покласти, що разом. Ви можете мати різні потреби в Умови пошуку зміст, як, можливо, незважаючи на інструменти, які доступні, що бібліотека робить в наявності, ви можете шукати по-іншому або оптимізувати для конкретного використання, які, може бути, це дуже спеціалізовані. Може бути, є лише кілька люди в світі, які хочете шукати зміст У цьому випадку, однак було б здорово, якщо ми міг дозволити їм зробити це. Там дуже багато аналітики все, як люди використовуємо вміст, який буде дійсно Цікаво знати про, дізнатися, які книги використовуються, що ні, і так далі. А тут ще багато можливість інтеграції з іншою інформацією щось там в Інтернеті. Таким чином, ми have-- 

Наприклад, NPR має сегмент Рецензія на книгу, де вони беруть інтерв'ю Автори про книжки. І тому було б здорово, якби ви були дивлячись книгу в Гарварді Бібліотека, а ви кажете, добре, що є був Інтерв'ю з автором. Давайте поглянемо на це. Або є сторінка Вікіпедії, а авторитетний, наукова довідка про цю книгу, що ви можливо, захочете поглянути на. 

Є ці типи джерел розкидані по всій мережі. І чого їх разом може бути велике використання для кого-то, дивлячись на Зміст, дивлячись на щось. Але це також не вигляд, що ви б хочу бібліотека нести відповідальність для переходу вниз і полювання всі ці різні джерела і підключити їх разом тому що вони постійно змінювалися. І те, що вони думають, що дуже важливо травня не може бути те, що ви вважаєте важливим. 

І вже тим більше, в основному там багато речей ми не думали досі. Так що, якщо ми можемо відкрити це, більш люди, крім півтора десятків або близько того, хто дивиться на це на регулярній основі може думати ідей і масаж дані, і робити те, що вони хочуть з ним. 

Тому ми хочемо, щоб зробити це Дані з наявних у світі. Ну, є пара ускладнення. По-перше, цей метаданих в різних системах. Це в різних форматах. Так що деякі нормалізація який повинен відбутися, які нормалізації бути процес доводячи справу з різних форматів і відображення їх у єдиний формат так, що поля буде збігатися. 

Є деякі обмеження авторського права. Як не дивно, розміщення інформації в каталозі про книгу відповідальності за авторські права. Тому, навіть якщо це просто відомості, отримані з книги, це защіщаема. І залежно від того, хто насправді створено ці метадані, можуть бути обмеження щодо того, хто може поширювати його, подібно to-- 

Я не знаю. Це може або не може бути аналогічний Положення тексту пісні, наприклад. Так що ми всі знаємо, як це каструлі. Таким чином, ви повинні обійти цю проблему. 

А потім ще шматок що є багато даних. Так що, якщо я когось, хто хоче працювати з даними або має класна ідея, справу з 14000000 записи на моєму ноутбуці може бути проблематичним і важко керувати. Тому ми хочемо, щоб зменшити бар'єри для людей щоб мати можливість працювати з даними. 

Так підходу, який, ми сподіваємося, адреси всі ці проблеми є дві частини. Один будує платформу, яка приймає Дані від усіх цих різнорідних джерел і посилює її, нормалізує, збагачує його, і робить це доступно в одному місці. І це робить його доступним через громадського API, що люди можуть подзвонити. 

Так API є застосування Інтерфейс програмування. І це в основному відноситься до Кінцева точка, система чи технологія може зателефонувати і отримати дані назад у структурований формат таким чином, що він може бути використаний. Так що це не залежить при переході на сайт і вишкрібання дані з це, наприклад. 

Так що це домашня сторінка Бібліотека Cloud товару API, який є по суті її варіант два. Так що це другий ітерації намагається зробити всі ці дані поширення по всьому світу. Так що це http://api.lib.harvard.edu/v2/items. І тільки розірвати це вниз чуть-чуть, що це означає те, що це варіант два з API. Там це версія одного, який Я не збираюся говорити про це. Але є версія одна. 

І якщо ви телефонуєте в цьому API, ви отримуєте елементи. І частина ідеї API є API є контракт. Це те, що є не збирається міняти. Так, наприклад, - 

І причина в тому, що якщо я побудувати якусь систему, збирається використовувати бібліотеку хмарних API для відображення книги або допомогти людям знайти Інформація, що міститься в унікальних способів, що ми не хочемо щоб це відбулося для нас, щоб піти змінити, як що API працює, і раптом всі ламає на стороні кінцевого користувача. Так що частина, якщо ви робите API поширення по всьому світу, це хороша практика, щоб покласти номер версії в ньому, щоб люди дізнатися, яка версія вони мають справу з. 

Так що, якщо ми вирішимо, що знайти кращий спосіб зробити цю інформацію доступною, ми могли б змінити, що назвати це третій версії. Тому кожен, хто раніше використовує Версія друга, що ще будемо працювати. Але версія три буде Тобто весь новий матеріал. 

Таким чином, це API, але це дійсно схоже на URL. І так, що це Прикладом є те, що називається API відпочинок, який доступний Тільки за звичайний веб з'єднання. І ви можете насправді йти до неї в браузері. 

Так от, я просто відкрив Firefox і вирушили в api.lib.harvard.edu/v2/items. І так, що я отримую тут в основному перша сторінка результатів від усього набір елементів, які ми отримали. І саме тут у форматі XML. І це також prettified по Firefox. Це насправді не всі з них трохи розширюватися і стискатися doohickeys тут. Це свого роду приємніше Версія спосіб дивитися на нього. 

Але те, що це говорить нам про те, Я просив всі деталі. Таким чином, є 13289475 пункти. І я дивлюся на перший 10, починаючи з позиції нульового тому що в інформатиці ми завжди починаємо з нуля. І те, що я тут, якщо я просто завалиться це, ви побачите, що я отримав 10 пунктів. 

І якщо я гляну на пункт, я можу бачити, що у мене є інформацію про нього. І це в те, що називається MODS форма. І тому я буду перемикатися сюди на хвилину. ОК. 

Отже, давайте шукати щось в визначеними, тому що перший елемент, який відбувається, щоб придумати, коли ви дивитеся всю колекцію це, за визначенням, випадковим чином. Отже, давайте подивимося на деякі пончики. Ох. 

ОК. Так пончики. Таким чином, ми знайшли там 80 пунктів в Колекція, які посилаються на пончики. Ми дивимося на перші 10 з них. Тепер ви можете подивитися тут так, що Я сказав, що я шукаю для пончиків, Я просто додав щось Рядок запиту в URL. Так Q дорівнює пончики, які ви можете см трохи легше тут. 

І це в основному означає, що є Специфікація для API, який визначає, що всі Ці параметри означають. А це означає, що ми збираємося пошук все для пончиків. 

Так ось перший пункт у нас є Ви можете бачити назву Donuts, і існує субтитрів називається Американський пристрасть, яка, я думаю ,, відповідно. Є багато different-- Після того як ви дійдете до точки, отримання даних, Є багато різних Формати, які ви можете отримати його в. І існують різні сильні і слабкі для всіх з них. Так що це один, ви можете побачити тут, ця форма дуже багатий. І це стандартизовані. 

Так що конкретну назву поле, поле субтитри. Там це альтернативний назва, американський пристрасті. Існує ім'я, пов'язане з ним. Тип ресурсу текстів. Там дуже багато інформації Тут, у цьому форматі. 

Але є купа різних форматів. Отже, що ми були просто дивлячись на це формат звані моди, яка стоїть за Об'єкт метаданих Опис Service, потенційно. Насправді я не зовсім впевнений, про С. Але це досить складний формат. Це формат за замовчуванням. 

Але це той, який тримає Багатство всіх даних, що бібліотека має, тому що це дуже близько до того, що Бібліотека використовує внутрішньо. Це стандарт, який є використовується по всій країні, по всьому світу в академічних бібліотеках. І це дуже сумісні. Так що, якщо у вас є документ що у форматі моди, Ви можете дати, що когось іншого чиї системи розуміють моди, і вони можуть імпортувати його. Так що це стандарт. Це дуже добре визначені, дуже специфічний. І це те, що робить його взаємодіяти, бо якщо хтось говорить, це альтернативний назву запис, всі знають, що це означає. З іншого боку, це дуже складно. 

Так що, якщо ви подивитеся в цьому записі тут, якщо я просто хочу, щоб отримати назва цього документа, з цієї книги, яка, ймовірно, Donuts, Американський Пристрасть, аналіз його це трохи участь. У той час як є інший формат, званий Dublin Core, який є набагато, набагато простіше формат. 

І тому ви не побачите тут, немає ніякої заголовок, підзаголовок, альтернативний назву. Там просто назва, Donuts, американський Пристрасть, і ще один титул, американський пристрасті. Тому, коли ви дивитеся на те, що форма Ви хочете, щоб отримати дані з, Багато що залежить від того, як Ви збираєтеся його використовувати. Чи використовуєте ви для сумісність або ви хочете щось просте, що може бути легше працювати? 

З іншого боку, багато які деталі начебто сплющені вниз. Ви можете втратити всі нюанси що конкретні кошти на місцях якщо ви маєте справу з Dublin Core, які ви не отримаєте з модами. Так що ті два з форматів Ви можете вийти з API. І в основному, ми тримаємо це за лаштунками в модів. Але ми можемо дати вам його в Моди та Dublin Core і все інше також. Інше міркування, коли Ви шукаєте в даних що ви можете отримати його або як JSON, який виступає за нотації об'єктів JavaScript, або XML, яка виступає за Extensible Markup Language. І ці представлення даних і мають одні і ті ж дані, точно одні й ті ж поля. Але вони просто синтаксично різні. 

Так що це a-- Ну, давайте просто переключитися. Так що це наш запит на пончики у форматі XML. Якби я просто переключитися, щоб це було JSON, Я бачу, що виглядає по-іншому. Так що тепер це ж саме зміст, а інша структура. Є менше кутові дужки. Там це менш багатослівним. 

І це формат, який, якщо ви працюють у веб-середовищі, ви, швидше за все, буде хочете використовувати, тому що один з хороших речей про JSON є він сумісний з JavaScript. Так що, якщо я пишу веб-додаток, я можу тягнути в JSON і просто працювати з ним безпосередньо. У той час як з XML, це трохи складніше. Отже, ще раз, це як корисно. Вони просто різні випадки використання де люди могли б хотіти використовувати їх. ОК. Отже, повернемося до API. Так ми можемо шукати for-- 

Я наведу приклад пошук пончики. Ми також можемо шукати тільки в конкретне поле в тут. Таким чином, замість того, щоб шукати Вся запис, Я можу просто шукати в поле заголовка. І ось тепер є 25 речей, які є пончики в заголовку, один з яких про відновлення водно-болотних угідь в управлінні отвори в пончик Програма, яка, ймовірно, не обов'язково, що ми шукаємо коли ми шукаємо для пончиків. 

Ви можете також, коли ви справу з API-- 

Частина має API дає людям доступ до великих наборів даних. І є кілька різних інструменти, які можна використовувати, щоб зробити це. Одним з них є, дуже просто, ви може перегорнути даних. Так як якщо б ви зробити запит через веб-інтерфейс, Ви можете подивитися на першій сторінці, друга сторінка, сторінка три. Ви можете зробити те ж саме що через API. Ви просто повинні бути Явний в тому, як ви це робите. 

Так, наприклад, якщо я шукаю в моєму першому запиті тут, де я роблю пошук для речей з пончиками в назві, я можу говорити, і межа дорівнює 20, що означає, дати мені перші 20 записів, а не перший 10, який є за умовчанням, тому що я хочу подивитися на 20 одночасно. Або я можу сказати, встановити почати одно 20 і межа дорівнювати 20, що дасть мені записує з 21 по 40. 

Так що я думаю річ забрати тут що ми, використовуючи рядка запиту щоб встановити параметри на запит. І це дозволяє контролювати те, що ви повернетеся. 

Ще один інструмент, який можна використовувати, - 

І це дійсно корисно в Умови вивчає дані. 

--is те, що називається ограновування. Так термін ограновування є не повинні бути спільними. Але ви всі бачили його раніше. Якщо ви подивитеся на Amazon, наприклад, і ви робите пошук пончики в книгах, тут вони отримали серію книг, і вони згруповані за категоріями, і ви отримаєте різні категорії, і скільки книг у кожній категорії показати вгору. 

Так що це в основному аспект. Ви берете всі свої книги, 1800 книги, які відповідають пончики на Amazon. 12 з них знаходяться в категорія сніданок. 21 в тесті і випічка, і так далі, і так далі. 

Так що це дійсно корисно інструмент для дослідження вмісту в бібліотеці, а тому що, коли ви дивитеся на грані, це дає вам уявлення про те, які предмети існує, як, які види суб'єктів Найбільш популярні в ваш набір запиту. І це допоможе вам відігнати і досліджувати. Таким чином, ми можемо зробити те ж саме. 

Якщо ми хочемо використовувати API і подивитися на грані, ми додати ще один параметр наш друг рядок запиту. Так граней дорівнює кому Список того, що ми хочемо, щоб фаскою по. Таким чином, одна з граней може бути предметом. Ще може бути мова. І тому, якщо ми запустимо цей запит, ми get-- Це виглядає досить багато ж саме. Але ми додали до кінця зі списку набір граней. Отже, ми маємо аспект, званий об'єктом. Так що це говорить нам, що якщо я дивлюся на мої 80 результатів пончик запиту, 13 з них мають території Сполучених Штатів. Три є пончики по темі. Три мати тему відновлення водно-болотних угідь, який може бути наш отвір в пончик. Двоє з них, Сімпсони, і так далі, і так далі. 

Так що це може бути корисно, якщо ви хочете, щоб звузити свій пошук. Це може допомогти вам зробити це. Особливо, якщо у вас є більш ніж, скажімо, 80 результатів. 

Крім того, ми також попросили для гранями мовою. Так що, якщо ми подивимося на наші результати, ми бачимо, 76 з них англійською мовою, чотири французькою мовою, два іспанською мовою, два, я думаю, що це не визначене або невідомо, голландський і латинь. Так що я думаю, що по-латині пончик результат, знову ж таки, не має нічого спільного з хлібобулочних виробів. Але там ви йдете. 

Так що це свого роду показуючи вам, як ви можете витягнути дані назад від API тільки через веб-браузер, який відмінно підходить. Але це не зовсім те, що ви б як правило, з використанням в API для цього. Так один приклад того, як треба може насправді зробити це я маю написано супер невелика програма, які, знову ж таки, не мій пошук пончика і вибирає пару поля і відображає їх у вигляді таблиці. Так що це дуже той же зміст, що ми просто пила з декількома полями витягнув. Так список назв, в розташування, що книга о, мову, і так далі, і так далі. 

Так, як це сталося насправді, так як Я думаю, ми повинні дивитися на код, is-- 

Те, що ми маємо тут справу з простою HTML сторінка, яка відображає текст, Ласкаво просимо до бібліотеки хмари і то на екран виводиться таблиця результатів. І немає, очевидно, не призводить до Таблиця коли сторінка завантажується. Але те, що ми робимо це, в першу чергу, ми завантажуються бібліотеку під назвою JQuery, який є в основному Бібліотека наявність якого робить його дуже легко маніпулювати наявність спочатку, HTML, а також створювати веб-сторінки, на стороні клієнта логіка і веб-сторінок. 

Отже, що ми маємо тут справу з JQuery має метод Get, що істотно піде на Посилання, яка, в даному випадку, це знайомо дивлячись URL. І тоді отримаєте зміст від що URL, а потім запустити функцію на ній. Тому ми сказали піти в api.lib.harvard / Edu. Пошук пончики. Дайте нам 20 записів. І потім запустити цю функцію, яка Я вибрав, передаючи йому дані. І дані JSON, що отримав повернувся з API. 

І тоді ми говоримо, в тому, що Дані є поле, зване пункт. І якщо я піду поглянути назад на один з цих результатів, що тут, є щось called-- 

Ну, це називається пункт. Так, що може бути, що. І те, що вона робить, це його проходить через кожного елемента а потім викликає інше Функція по кожному пункту. І, що функція в основному приймає значення пункту, що є по суті окремий запис і дозволяє витягнути назву, охоплення і мову. 

Так ми називаємо функцію на кожен елемент, який ми повернулися з API. І якщо ви просто подивіться на цей шматок прямо тут, те, що ми робимо, ми створюємо рядок, який є по суті деякі HTML теги навколо столу, з value.title, що назва Об'єкт, value.coverage, який є освітлення, - 

І ми робимо перевірку тут, щоб побачити, хто не визначено і приховуючи його, якщо він каже, що не визначено, тому що ми насправді не зацікавлені в цьому. 

--І тоді мова. І тоді те, що ми робите додавання, що до таблиці, яка визначені цим рядком тут. І як JQuery працює це те, що це говорить це подивитися на таблицю з ідеєю Результати і додайте в нього текст. І це таблиця з результатами ідея. Так що ви в кінцевому підсумку з це сторінки тут. А для того, щоб переглянути source-- Ну, джерелом насправді не оновлюються, коли це сталося. Таким чином, ви можете побачити фактичне Результати таблиці, хоча тут. 

Так що це просто простий приклад робить дуже простий запит до API і відображення інформації, в якійсь іншій формі, і нічого не робить занадто фантазії. Тепер ще один приклад, як програма, написана Девідом Вайнбергер як демо це, що по суті показує вам, як ви можете пюре підсумки ви отримання з бібліотеки хмарних API з, скажімо, Google Books. 

І мислення тут є те, що я можу виконаємо запит Google Books, отримати повнотекстовий пошук, отримати деякі результати назад, з'ясувати, які з цих елементів насправді існує в Холліс, бібліотечна система, а потім дати мені посилання Повернутися до цих елементів. Так що, якщо я шукаю, це було темна і бурхлива ніч, я повернутися купу результатів від Google, а потім один результат що зморшок в часі. І це посилання на книги, які існують в рамках системи Бібліотека Гарвардського університету. 

Так що я думаю, справа тут не в так що це може або не може бути так, що ви хочете шукати бібліотеку, але це зовсім різні так, що не було доступно для вас колись, як вас не було ніякої можливості робити Повний текст пошук по книгах, що навіть були частиною системи Бібліотека Гарвардського університету. Так що тепер це спосіб що ви можете зробити це. І їх можна відобразити в будь-який формат, ви хочете. Так моментом тут є, в основному, ми відкриваємо нові шляхи для людей працювати з даними. 

Інша частина бібліотеки хмари, що це допомагає розкрити деякі з даних використання що бібліотека має. Так що, якщо ви йдете в бібліотеку, і ви шукаєте для книг, Вам не обов'язково насправді мають уявлення про те ,, для всіх елементів в конкретний суб'єкт, те, що люди в співтовариство, будь то визначається як Гарвард або країна або ваш клас, Що вони виявилися найбільш корисними? І бібліотека насправді має Величезна кількість інформації про те, що найбільш корисний, оскільки якщо багато людей перевірити книгу, що говорить вам щось. Там був якоїсь причини вони хочуть, щоб перевірити його. Багато людей покласти його в запасі. 

Якщо це резервний список для багатьох класів, який говорить вам щось. Якщо викладачі перевіряють його з багато і студенти не є, що говорить мені щось. І навпаки, що також говорить вам щось. Тому було б дуже цікаво покласти цю інформацію там, і нехай люди використовують його, щоб допомогти їм знайти працює всередині бібліотечної системи. Зворотним боком цього є є деякі серйозні конфіденційності проблеми, тому що один з Основні принципи бібліотеки що ми не збираємося розповідати люди, що інші люди читають. І навіть якщо ви говорите, це Книга була перевірена чотири рази в конкретному місяці, , Які можуть бути використані посилаються на особливості осіб за даними де-анонімізуючих і з'ясувати, хто перевірив це. Так так, що ми можемо avoid-- Так, що ми можемо спробувати витягти деякі сигнал від всієї інформації, без порушення недоторканності приватного життя нічиїх по суті ми дивимося на 10 років дані про використання, - 

Таким чином, це протягом тривалого періоду часу. 

і говорили, добре, давайте подивимося, як багато разів був використаний цю роботу, і які протягом цього періоду часу, і то в основному повернути номер, який ми називаємо оцінка стек, який в основному показує, наскільки вона була використана. І що number-- Багато різних розрахунків перейти в це число. --but це дуже груба показник, який дає вам Деяке уявлення про те, як співтовариство можуть оцінювати цю роботу. 

І так іншого роду, навіть більше конкретизовані додатки яка скористається перевагами цього є те, називається Stacklife, яка насправді доступні через головне Гарварді Бібліотека порталу. Так ви йдете в library.harvard.edu. Ви побачите ряд різних шляхи пошуку бібліотеки. І один з них називається Stacklife. 

І це додаток, який переглядає зміст бібліотеки, але повністю побудований поверх цих інтерфейсів. Таким чином, немає ніяких спеціальних матеріал відбувається за лаштунками. Там немає доступу до дані, які ви не маєте. Вона використовує API-інтерфейси, щоб надати вам із зовсім іншою перегляду досвід. 

Так що, якщо я шукаю для Аліси в країні чудес в цьому випадку, Я отримую результат, який виглядає як це, який є досить much-- 

Це дуже схожий на будь-який інший категорії Ви могли б зробити, крім як у цьому випадку ми ранжирування деталі stackscore, що дає вам Деяке уявлення про те, як популярні в ці предмети були в суспільстві. І так ясно, Аліса в країні чудес Уолт Дісней дуже популярні. Але ви також можете побачити першу четвірку ось ті, що ви, можливо, не actually-- 

Речі, які високо використовуються, але ви не можете відразу Зв'язок з Аліса в країні чудес. Таким чином, наш старий друг Анотований Аліса тут. Так що я можу поглянути на нього. А тепер те, що я шукаю в основному встановлюється of-- Я можу мати з примітками Аліса тут. У мене є інформація про нього. І в мене також є stackscore від того, в цьому випадку, 26. І це говорить мені ніби приблизно як ми потрапили в цей stackscore, як хто перевіряв його, наприклад, як багато разів був перевірили, як факультет або старшокурсники, як багато копій бібліотека має, і так далі, і так далі. 

І ви можете також, досить цікаво тут, переглядати стеки віртуально. Таким чином, дані тут, це показує вам розібратися віртуального уявлення від того, який шельфу мощі виглядати, якщо ви повинні були прийняти всі фондів бібліотеки і покласти їх разом на одній нескінченної полиці. І приємно те, що ми can-- 

Перш за все, метадані про ці книги часто говорить вам, коли вона була опублікована. Вона говорить вам, скільки сторінок він має. Це може сказати вам розміри. Таким чином, ви можете бачити, що відображено тут за розміром книг. 

І тоді ми можемо використовувати стек рахунок, щоб виділити книги, які мають більш високі показники складаються. Так що, якщо він темніший, це означає, що, Імовірно, вона використовується частіше. Таким чином, в цьому випадку, я буду гадати, що це це версія Алісі в країні чудес який дуже широко використовується і найбільш Доступ, бібліотека має більше копій. Так що, якщо ви шукаєте Аліса в країні чудес, це може бути хорошим місцем для початку. 

І тоді тут Ви можете також зв'язати з , Скажімо, Amazon, щоб купити книгу, і так далі, і так далі. Справа тут, знову ж таки, не так багато, що це це найкращий спосіб, щоб переглянути бібліотеку або правильний інструмент для кожного випадку. Але це ще один спосіб зробити це. І, зробивши дані доступні через API, який виготовлена ​​з дуже простих блоків, який дозволяє шукати контент, Ви можете побудувати щось як це, що можна бути надзвичайно цінним для деяких людей. 

Так ось ніби, як я хочу сказати насправді про те, що API є і те, що він надає, є вся купа речей за лаштунками, які Я просто хочу, щоб торкнутися коротко тільки тому, що він начебто йде на це з абсолютно іншої точки зору в Умови, як робить щось на зразок цього отримати покласти на місце? 

Так API є стандартним інтерфейс для всього цього контенту. Але щоб отримати його там, Перше, що ми повинні були зробити був зблизити інформації книг і зображень і системах пошуку, збору Документ з різних систем Гарварду. Алеф, VIA і оазису імена систем. І вони по суті йти в Трубопровід, конвеєр обробки. 

Отже, перш за все, ми отримуємо експорт файли з усіх цих систем. Ми розділили їх на окремі елементи. Тому у нас є файл, який гігабайт, який має мільйонів записів в ньому. Таким чином, ми розділили його на окремі елементи. Потім, для кожного елемента, ми перетворюємо його в моди, тому що деякі з них початково моди, деякі з них не є. Отже, ми отримуємо їх все, щоб знаходитися в тому ж форматі. Тоді існують різні збагаченню кроків, де додати додаткову інформацію до даних чим була доступна в бібліотеці. Таким чином, ми повинні додати, в першу чергу ми маємо те, що бібліотеки утримати його. Ми проходимо через стадію розрахунку stackscore. Ми проходимо через інший стадії додавши більше метаданих в плані з яких наборів людей міг би додати this-- 

Люди створюють набори елементів. Що колекції він належить? Як би люди з тегами це зміст в минулому? Тоді ви відфільтрувати, і ви обмежуєте запису, тому що, як я вже говорив, є деякі записи, які, через Причини авторських прав, ми не можемо відобразити. А потім ми завантажуємо їх в те, що називається Solr, яка не помилка, але Це ім'я частини програмного забезпечення що робить індексуванням пошуку, які Приводи Всі пошуком позаду API. І тоді він стає доступним для API-інтерфейс, і люди можуть його використовувати. 

Так що це, як справедливо простий процес. Одним з цікавих все про нього що ми маємо справу 13 мільйонів записів і ми будемо мати справу або більше. І ми хочемо, щоб бути в змозі впоратися це в щодо якнайшвидшого моди. Це займає багато часу, щоб обробляти 13 мільйонів записів. 

Так як цей трубопровід налаштувати, що ви can-- Я думаю, перевага Трубопровід, проблема, що ми намагається вирішити тут, є те, що всі перетворення, все Ці кроки в цьому Трубопровід віддільні. Там немає залежності. Якщо ви обробляєте запис однієї книги, немає утриманців в що між іншій книзі. 

Отже, що ми можемо зробити, це в основному, на кожному кроці в трубопроводі, ми ставимо його в чергу в хмарі. Мені довелося бути на Amazon Web Services. Так що список, кажуть, 10000 предметів, які повинні бути нормалізовані і перетвориться у формат модів. І ми розкручується стільки серверів Так як ми хочемо, може бути, 10 серверів. І кожен з цих серверів тільки сидить там, дивиться в цій черзі, бачить, що є один, який повинен оброблятися, тягне його з черги, обробляє його і палички На наступному черги. 

І так, що це дозволяє нам зробити, це застосувати, по суті, як багато апаратних засобів, а ми хочемо, щоб це Проблема протягом дуже короткого періоду часу для обробки даних так швидко, як можливо, щось, що тільки, Зараз у світі хмарних обчислень Ми можемо надання сервери по суті миттєво, в тому, що корисно. Таким чином, ми не повинні мати гігант сервер сидіти весь час, щоб зробити обробку що може трапитися тільки один раз на тиждень. 

Так що це в основному це. Там же документація Для бібліотеки Cloud Пункт API за цією адресою, який буде буде доступна пізніше. І, будь ласка, піти поглянути на його, щоб побачити, якщо є що-небудь, у вас є якісь ідеї. Грати з ним. Дурень навколо. І, сподіваюся, ви можете прийти з чогось великого. Спасибо.