1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 Джеффрі LICHT: Привіт. 3 00:00:12,370 --> 00:00:13,550 Я Джеффрі Licht. 4 00:00:13,550 --> 00:00:17,890 І я тут, щоб поговорити з вами про Бібліотека Гарвардського університету і будівля завтра 5 00:00:17,890 --> 00:00:20,870 Бібліотека сьогодні, я думаю. 6 00:00:20,870 --> 00:00:23,040 Так фон тут, крок до цієї сесії 7 00:00:23,040 --> 00:00:26,930 по суті, що існує багато бібліографічних даних 8 00:00:26,930 --> 00:00:28,400 доступні в бібліотеках Гарварду. 9 00:00:28,400 --> 00:00:33,434 І є можливість, через деякі з інструментів, 10 00:00:33,434 --> 00:00:36,350 і проект, який розробляється, щоб отримати доступ до інформації, 11 00:00:36,350 --> 00:00:42,430 і прийняти його на місцях, Бібліотека Гарвардського університету не робити прямо зараз, 12 00:00:42,430 --> 00:00:45,460 зробити новий матеріал з нею, експеримент і пограти з ним. 13 00:00:45,460 --> 00:00:52,413 >> Таким чином, точка входу в це API називається Бібліотека Гарвардського університету хмара, яка 14 00:00:52,413 --> 00:00:57,650 є відкритим сервер метаданих, які я буду говорити тепер. 15 00:00:57,650 --> 00:01:02,595 Таким чином, фон, який існує Багато матеріалу в бібліотеці Гарвардського університету. 16 00:01:02,595 --> 00:01:07,150 У нас є більше 13 мільйонів книговедческой записи, мільйони зображень, 17 00:01:07,150 --> 00:01:11,090 і тисячі знаходження коштів, які по суті, документи, що описують 18 00:01:11,090 --> 00:01:15,500 Колекції, кажучи, що в них, ящики паперів 19 00:01:15,500 --> 00:01:21,080 і так далі, які складають більше мільйон окремі документи. 20 00:01:21,080 --> 00:01:24,290 І є також багато інформація, бібліотека має 21 00:01:24,290 --> 00:01:28,180 про те, як зміст, що використовується може становити інтерес для людей, 22 00:01:28,180 --> 00:01:32,400 хто хотів би працювати з ним. 23 00:01:32,400 --> 00:01:36,150 >> Так всю інформацію Бібліотека має метадані. 24 00:01:36,150 --> 00:01:39,500 Так метадані це дані про дані. 25 00:01:39,500 --> 00:01:42,070 Тому, коли ми говоримо про інформацію, яка 26 00:01:42,070 --> 00:01:44,890 доступні через бібліотеку Хмара що доступно, 27 00:01:44,890 --> 00:01:47,760 це не обов'язково фактичні документи 28 00:01:47,760 --> 00:01:53,060 Самі, не обов'язково повна Текст книги або повних образів, 29 00:01:53,060 --> 00:01:54,890 однак, що насправді може мати місце. 30 00:01:54,890 --> 00:01:57,550 Але це насправді Інформація про дані. 31 00:01:57,550 --> 00:02:00,909 >> Таким чином, ви можете думати про каталогізації Інформація, абонентські номери, суб'єкти, 32 00:02:00,909 --> 00:02:02,700 скільки копій Книга є, те, що 33 00:02:02,700 --> 00:02:06,380 є видання, які формати, автори, і так далі. 34 00:02:06,380 --> 00:02:12,250 Так що багато інформації про Інформація, що міститься в зборі, що, 35 00:02:12,250 --> 00:02:14,400 само по собі, це свого роду спочатку корисними. 36 00:02:14,400 --> 00:02:19,230 І, хоча, якщо ви робити глибокі дослідження, 37 00:02:19,230 --> 00:02:25,160 Ви, очевидно, хочуть, щоб дістатися до фактичної задовольнятися і подивіться на дані, 38 00:02:25,160 --> 00:02:30,140 Метадані корисно з точки зору і аналіз корпус в цілому, 39 00:02:30,140 --> 00:02:33,870 як те, що речі знаходяться в колекції. 40 00:02:33,870 --> 00:02:35,520 Як вони співвідносяться між собою? 41 00:02:35,520 --> 00:02:39,482 Це допоможе вам знайти дійсно інші речі, який є дійсно головною метою нею. 42 00:02:39,482 --> 00:02:41,190 Точка Каталог метаданих і 43 00:02:41,190 --> 00:02:43,230 щоб допомогти вам знайти всі інформацію, яка 44 00:02:43,230 --> 00:02:46,590 доступні в колекціях. 45 00:02:46,590 --> 00:02:53,690 >> Таким чином, це є прикладом метаданих для книги в Гарвардському бібліотеки. 46 00:02:53,690 --> 00:02:56,370 Так що це там. 47 00:02:56,370 --> 00:02:59,850 І ви можете бачити, що це насправді дуже складний. 48 00:02:59,850 --> 00:03:04,610 І частина вартості метаданих в рамках системи Бібліотека Гарвардського університету 49 00:03:04,610 --> 00:03:09,320 є те, що це було свого роду з забудована каталогізатора 50 00:03:09,320 --> 00:03:12,720 і зібрав людей, які претендують багато досвіду і майстерності 51 00:03:12,720 --> 00:03:20,030 і думки до нього протягом довгого часу, який має велику цінність. 52 00:03:20,030 --> 00:03:25,450 >> Так що, якщо ви подивитеся на цьому записі для Анотований Аліса, ви можете дізнатися 53 00:03:25,450 --> 00:03:32,590 у вас є титул, який написав його, Автор, а всі різні предмети 54 00:03:32,590 --> 00:03:35,380 які люди каталог його в. 55 00:03:35,380 --> 00:03:40,110 І ви можете бачити, є також у додаток до багато хорошої інформації 56 00:03:40,110 --> 00:03:42,852 тут, є деяке дублювання. 57 00:03:42,852 --> 00:03:45,560 Там це багато складності це відображення в метаданих 58 00:03:45,560 --> 00:03:46,300 що у вас є. 59 00:03:46,300 --> 00:03:50,320 >> Так що назва цієї книги Пригоди Аліси в країні чудес. 60 00:03:50,320 --> 00:03:53,880 Так що це анотованих версія цієї книги. 61 00:03:53,880 --> 00:03:56,380 Але це також називається анотованих Аліса, Аліса 62 00:03:56,380 --> 00:03:58,570 в країні чудес, тому що це те, що 63 00:03:58,570 --> 00:04:00,430 Мартін Гарднер написав і анотований книгу. 64 00:04:00,430 --> 00:04:03,369 І є багато корисної інформації про логічних головоломок і речей 65 00:04:03,369 --> 00:04:05,410 в Еліс, що ви ймовірно, не знають. 66 00:04:05,410 --> 00:04:07,000 Таким чином, ви повинні йти читати це. 67 00:04:07,000 --> 00:04:11,940 >> Але ви можете бачити, що це Багато тут докладно, 68 00:04:11,940 --> 00:04:15,340 в тому числі ідентифікатори, коли його була створена, коли він прийшов, 69 00:04:15,340 --> 00:04:17,420 з точки зору Гарварді Система і так далі. 70 00:04:17,420 --> 00:04:20,350 Так що це зразок тип метаданих 71 00:04:20,350 --> 00:04:24,340 що для книги в ви можете побачити Колекція Бібліотека Гарвардського університету. 72 00:04:24,340 --> 00:04:26,680 >> Це щось зовсім інше. 73 00:04:26,680 --> 00:04:32,610 Так що є система, звана VIA Гарвард, який в основному 74 00:04:32,610 --> 00:04:39,990 є каталогізація зображень і предметів мистецтва і візуальні речі по всій Гарварді, 75 00:04:39,990 --> 00:04:44,010 і додавання деяких метаданих до них, їх класифікації, 76 00:04:44,010 --> 00:04:49,200 і, в деяких випадках, забезпечуючи мініатюр зображень 77 00:04:49,200 --> 00:04:51,250 що ви можете взяти подивитися, якщо ви так хочете. 78 00:04:51,250 --> 00:04:54,240 >> Таким чином, це є прикладом метадані, які у вас є для пластини 79 00:04:54,240 --> 00:04:57,840 від, імовірно, Аліса в країні чудес. 80 00:04:57,840 --> 00:05:00,499 І ви можете бачити, що це менше метадані тут. 81 00:05:00,499 --> 00:05:02,040 Це просто інший вид об'єкта. 82 00:05:02,040 --> 00:05:03,425 І таким чином, є менше інформації. 83 00:05:03,425 --> 00:05:07,790 >> У вас швидше за все той факт, що виклик Кількість, по суті, хто його створив, - 84 00:05:07,790 --> 00:05:10,410 >> Ми не знаємо, коли вона була створена. 85 00:05:10,410 --> 00:05:13,320 >> --І назву. 86 00:05:13,320 --> 00:05:14,300 >> Інший приклад. 87 00:05:14,300 --> 00:05:16,380 Це допомога знахідкою. 88 00:05:16,380 --> 00:05:19,030 Так що колекція Льюїс Газети Керролла в Гарварді. 89 00:05:19,030 --> 00:05:23,601 Так це описує, що в цій колекції. 90 00:05:23,601 --> 00:05:26,100 Так хтось пішов до кінця і переглянув всі поля 91 00:05:26,100 --> 00:05:32,220 і каталогізовані його, враховуючи деякі фон, написав огляд того, що тут. 92 00:05:32,220 --> 00:05:35,290 І якщо ви подивитеся Надалі, при цьому, це 93 00:05:35,290 --> 00:05:39,620 триває протягом сторінки та сторінки і сторінки, але скажу вам, 94 00:05:39,620 --> 00:05:41,860 які букви і що дати від того, що коробки 95 00:05:41,860 --> 00:05:44,289 існувала протягом всієї колекції. 96 00:05:44,289 --> 00:05:46,330 Але це щось що, якщо ви в Гарварді, 97 00:05:46,330 --> 00:05:50,720 Ви можете піти і насправді фізично дивитися і, мабуть, поглянути на. 98 00:05:50,720 --> 00:05:53,440 >> Так що це все здорово. 99 00:05:53,440 --> 00:05:54,450 Ці метадані Корисні. 100 00:05:54,450 --> 00:05:56,327 Це в системі Бібліотека Гарвардського університету. 101 00:05:56,327 --> 00:05:58,910 Є інструменти онлайн, де вас може піти і поглянути на нього, 102 00:05:58,910 --> 00:05:59,993 і побачити його, і шукати його. 103 00:05:59,993 --> 00:06:02,810 І ви можете нарізати його і кістки це у великій кількості різних способів. 104 00:06:02,810 --> 00:06:06,920 >> Але це дійсно доступна, тільки якщо Ви людина істота сидить вниз 105 00:06:06,920 --> 00:06:12,600 в вашому веб-браузері або що- Ваш телефон і навігації по ним. 106 00:06:12,600 --> 00:06:16,730 Це насправді не доступний в будь-який вид корисної моди 107 00:06:16,730 --> 00:06:19,520 для інших систем або інші комп'ютери у використанні, 108 00:06:19,520 --> 00:06:21,500 ні з системами в рамках Бібліотека Гарвардського університету, 109 00:06:21,500 --> 00:06:24,890 але системи в навколишньому світі, всього інші люди в цілому. 110 00:06:24,890 --> 00:06:30,210 Так питання в тому, як ми можемо зробити його доступним для комп'ютерів 111 00:06:30,210 --> 00:06:33,560 так що ми можемо зробити більш цікавим Матеріал з нею, ніж просто 112 00:06:33,560 --> 00:06:36,550 перегляд це самі? 113 00:06:36,550 --> 00:06:39,766 >> Так чому ж ви хочете це зробити? 114 00:06:39,766 --> 00:06:41,140 Є багато можливостей. 115 00:06:41,140 --> 00:06:43,980 Одним з них є, ви можете побудувати повністю інший спосіб перегляду 116 00:06:43,980 --> 00:06:46,962 зміст, який доступно через Гарварда бібліотек. 117 00:06:46,962 --> 00:06:48,670 Я покажу вам один пізніше названий Stacklife, 118 00:06:48,670 --> 00:06:52,440 який має зовсім інший взяти на доступ до вмісту. 119 00:06:52,440 --> 00:06:54,560 >> Ви могли б побудувати рекомендації двигуна. 120 00:06:54,560 --> 00:06:57,955 Так Бібліотека Гарвардського університету чи не знаходиться в бізнес кажучи, вам подобається ця книга. 121 00:06:57,955 --> 00:07:01,080 Потім перейдіть поглянути на них ще 17 книги, які ви могли б бути зацікавлені в 122 00:07:01,080 --> 00:07:03,200 або ці 18 інші зображення. 123 00:07:03,200 --> 00:07:06,040 Але це, звичайно, могли бути цінним властивістю. 124 00:07:06,040 --> 00:07:09,272 А якщо врахувати, метадані, він може можна покласти, що разом. 125 00:07:09,272 --> 00:07:11,980 Ви можете мати різні потреби в Умови пошуку зміст, 126 00:07:11,980 --> 00:07:16,200 як, можливо, незважаючи на інструменти, які доступні, що бібліотека робить 127 00:07:16,200 --> 00:07:18,450 в наявності, ви можете шукати по-іншому 128 00:07:18,450 --> 00:07:21,847 або оптимізувати для конкретного використання, які, може бути, це дуже спеціалізовані. 129 00:07:21,847 --> 00:07:23,930 Може бути, є лише кілька люди в світі, які 130 00:07:23,930 --> 00:07:25,846 хочете шукати зміст У цьому випадку, однак 131 00:07:25,846 --> 00:07:28,985 було б здорово, якщо ми міг дозволити їм зробити це. 132 00:07:28,985 --> 00:07:30,860 Там дуже багато аналітики все, як люди 133 00:07:30,860 --> 00:07:33,860 використовуємо вміст, який буде дійсно Цікаво знати про, дізнатися, 134 00:07:33,860 --> 00:07:37,280 які книги використовуються, що ні, і так далі. 135 00:07:37,280 --> 00:07:41,670 А тут ще багато можливість інтеграції 136 00:07:41,670 --> 00:07:45,210 з іншою інформацією щось там в Інтернеті. 137 00:07:45,210 --> 00:07:46,880 Таким чином, ми have-- 138 00:07:46,880 --> 00:07:50,260 >> Наприклад, NPR має сегмент Рецензія на книгу, 139 00:07:50,260 --> 00:07:53,090 де вони беруть інтерв'ю Автори про книжки. 140 00:07:53,090 --> 00:07:56,837 І тому було б здорово, якби ви були дивлячись книгу в Гарварді 141 00:07:56,837 --> 00:07:59,670 Бібліотека, а ви кажете, добре, що є був Інтерв'ю з автором. 142 00:07:59,670 --> 00:08:00,878 Давайте поглянемо на це. 143 00:08:00,878 --> 00:08:05,461 Або є сторінка Вікіпедії, а авторитетний, наукова довідка 144 00:08:05,461 --> 00:08:07,710 про цю книгу, що ви можливо, захочете поглянути на. 145 00:08:07,710 --> 00:08:12,600 >> Є ці типи джерел розкидані по всій мережі. 146 00:08:12,600 --> 00:08:16,555 І чого їх разом може бути велике використання 147 00:08:16,555 --> 00:08:18,930 для кого-то, дивлячись на Зміст, дивлячись на щось. 148 00:08:18,930 --> 00:08:20,180 Але це також не вигляд, що ви б 149 00:08:20,180 --> 00:08:23,205 хочу бібліотека нести відповідальність для переходу вниз і полювання 150 00:08:23,205 --> 00:08:25,455 всі ці різні джерела і підключити їх разом 151 00:08:25,455 --> 00:08:28,920 тому що вони постійно змінювалися. 152 00:08:28,920 --> 00:08:33,570 І те, що вони думають, що дуже важливо травня не може бути те, що ви вважаєте важливим. 153 00:08:33,570 --> 00:08:36,929 >> І вже тим більше, в основному там багато речей ми не думали досі. 154 00:08:36,929 --> 00:08:42,222 Так що, якщо ми можемо відкрити це, більш люди, крім півтора десятків або близько того, 155 00:08:42,222 --> 00:08:45,174 хто дивиться на це на регулярній основі може думати ідей 156 00:08:45,174 --> 00:08:47,340 і масаж дані, і робити те, що вони хочуть з ним. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Тому ми хочемо, щоб зробити це Дані з наявних у світі. 159 00:08:54,045 --> 00:08:55,670 Ну, є пара ускладнення. 160 00:08:55,670 --> 00:08:58,540 По-перше, цей метаданих в різних системах. 161 00:08:58,540 --> 00:09:01,110 Це в різних форматах. 162 00:09:01,110 --> 00:09:04,719 Так що деякі нормалізація який повинен відбутися, 163 00:09:04,719 --> 00:09:08,010 які нормалізації бути процес доводячи справу з різних форматів 164 00:09:08,010 --> 00:09:12,940 і відображення їх у єдиний формат так, що поля буде збігатися. 165 00:09:12,940 --> 00:09:15,160 >> Є деякі обмеження авторського права. 166 00:09:15,160 --> 00:09:21,010 Як не дивно, розміщення інформації в каталозі про книгу відповідальності за авторські права. 167 00:09:21,010 --> 00:09:24,060 Тому, навіть якщо це просто відомості, отримані з книги, 168 00:09:24,060 --> 00:09:25,330 це защіщаема. 169 00:09:25,330 --> 00:09:28,400 І залежно від того, хто насправді створено ці метадані, 170 00:09:28,400 --> 00:09:32,175 можуть бути обмеження щодо того, хто може поширювати його, подібно to-- 171 00:09:32,175 --> 00:09:33,402 >> Я не знаю. 172 00:09:33,402 --> 00:09:36,110 Це може або не може бути аналогічний Положення тексту пісні, 173 00:09:36,110 --> 00:09:36,610 наприклад. 174 00:09:36,610 --> 00:09:38,560 Так що ми всі знаємо, як це каструлі. 175 00:09:38,560 --> 00:09:40,450 Таким чином, ви повинні обійти цю проблему. 176 00:09:40,450 --> 00:09:44,910 >> А потім ще шматок що є багато даних. 177 00:09:44,910 --> 00:09:52,420 Так що, якщо я когось, хто хоче працювати з даними або має класна ідея, 178 00:09:52,420 --> 00:09:55,350 справу з 14000000 записи на моєму ноутбуці 179 00:09:55,350 --> 00:09:57,487 може бути проблематичним і важко керувати. 180 00:09:57,487 --> 00:09:59,320 Тому ми хочемо, щоб зменшити бар'єри для людей 181 00:09:59,320 --> 00:10:02,130 щоб мати можливість працювати з даними. 182 00:10:02,130 --> 00:10:07,880 >> Так підходу, який, ми сподіваємося, адреси всі ці проблеми є дві частини. 183 00:10:07,880 --> 00:10:11,770 Один будує платформу, яка приймає Дані від усіх цих різнорідних джерел 184 00:10:11,770 --> 00:10:14,350 і посилює її, нормалізує, збагачує його, і робить 185 00:10:14,350 --> 00:10:16,650 це доступно в одному місці. 186 00:10:16,650 --> 00:10:20,950 І це робить його доступним через громадського API, що люди можуть подзвонити. 187 00:10:20,950 --> 00:10:24,430 >> Так API є застосування Інтерфейс програмування. 188 00:10:24,430 --> 00:10:28,930 І це в основному відноситься до Кінцева точка, система чи технологія 189 00:10:28,930 --> 00:10:31,720 може зателефонувати і отримати дані назад у структурований формат таким чином, 190 00:10:31,720 --> 00:10:32,900 що він може бути використаний. 191 00:10:32,900 --> 00:10:36,060 Так що це не залежить при переході на сайт 192 00:10:36,060 --> 00:10:37,970 і вишкрібання дані з це, наприклад. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Так що це домашня сторінка Бібліотека Cloud товару API, 195 00:10:45,010 --> 00:10:47,220 який є по суті її варіант два. 196 00:10:47,220 --> 00:10:50,130 Так що це другий ітерації намагається зробити всі ці дані 197 00:10:50,130 --> 00:10:53,280 поширення по всьому світу. 198 00:10:53,280 --> 00:10:59,560 Так що це http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 І тільки розірвати це вниз чуть-чуть, що це означає 200 00:11:03,830 --> 00:11:06,115 те, що це варіант два з API. 201 00:11:06,115 --> 00:11:08,490 Там це версія одного, який Я не збираюся говорити про це. 202 00:11:08,490 --> 00:11:09,750 Але є версія одна. 203 00:11:09,750 --> 00:11:14,740 >> І якщо ви телефонуєте в цьому API, ви отримуєте елементи. 204 00:11:14,740 --> 00:11:20,640 І частина ідеї API є API є контракт. 205 00:11:20,640 --> 00:11:23,440 Це те, що є не збирається міняти. 206 00:11:23,440 --> 00:11:24,850 Так, наприклад, - 207 00:11:24,850 --> 00:11:27,410 >> І причина в тому, що якщо я побудувати якусь систему, 208 00:11:27,410 --> 00:11:33,210 збирається використовувати бібліотеку хмарних API для відображення книги або допомогти людям знайти 209 00:11:33,210 --> 00:11:36,190 Інформація, що міститься в унікальних способів, що ми не хочемо щоб це відбулося 210 00:11:36,190 --> 00:11:38,940 для нас, щоб піти змінити, як що API працює, і раптом 211 00:11:38,940 --> 00:11:41,340 всі ламає на стороні кінцевого користувача. 212 00:11:41,340 --> 00:11:46,710 Так що частина, якщо ви робите API поширення по всьому світу, це 213 00:11:46,710 --> 00:11:49,396 хороша практика, щоб покласти номер версії в ньому, щоб люди 214 00:11:49,396 --> 00:11:51,020 дізнатися, яка версія вони мають справу з. 215 00:11:51,020 --> 00:11:54,300 >> Так що, якщо ми вирішимо, що знайти кращий спосіб зробити цю інформацію доступною, 216 00:11:54,300 --> 00:11:57,295 ми могли б змінити, що назвати це третій версії. 217 00:11:57,295 --> 00:11:59,920 Тому кожен, хто раніше використовує Версія друга, що ще будемо працювати. 218 00:11:59,920 --> 00:12:03,490 Але версія три буде Тобто весь новий матеріал. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Таким чином, це API, але це дійсно схоже на URL. 221 00:12:09,210 --> 00:12:11,680 І так, що це Прикладом є те, що 222 00:12:11,680 --> 00:12:16,615 називається API відпочинок, який доступний Тільки за звичайний веб з'єднання. 223 00:12:16,615 --> 00:12:19,680 І ви можете насправді йти до неї в браузері. 224 00:12:19,680 --> 00:12:28,550 >> Так от, я просто відкрив Firefox і вирушили в api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 І так, що я отримую тут в основному перша сторінка 226 00:12:31,560 --> 00:12:34,740 результатів від усього набір елементів, які ми отримали. 227 00:12:34,740 --> 00:12:37,460 І саме тут у форматі XML. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 І це також prettified по Firefox. 230 00:12:42,210 --> 00:12:45,850 Це насправді не всі з них трохи розширюватися і стискатися 231 00:12:45,850 --> 00:12:47,880 doohickeys тут. 232 00:12:47,880 --> 00:12:52,520 Це свого роду приємніше Версія спосіб дивитися на нього. 233 00:12:52,520 --> 00:12:57,040 >> Але те, що це говорить нам про те, Я просив всі деталі. 234 00:12:57,040 --> 00:13:03,120 Таким чином, є 13289475 пункти. 235 00:13:03,120 --> 00:13:06,150 І я дивлюся на перший 10, починаючи з позиції нульового 236 00:13:06,150 --> 00:13:09,760 тому що в інформатиці ми завжди починаємо з нуля. 237 00:13:09,760 --> 00:13:15,150 І те, що я тут, якщо я просто завалиться це, ви побачите, що я отримав 10 пунктів. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> І якщо я гляну на пункт, я можу бачити, що у мене є інформацію про нього. 240 00:13:25,210 --> 00:13:27,400 І це в те, що називається MODS форма. 241 00:13:27,400 --> 00:13:30,860 І тому я буду перемикатися сюди на хвилину. 242 00:13:30,860 --> 00:13:33,750 ОК. 243 00:13:33,750 --> 00:13:37,447 >> Отже, давайте шукати щось в визначеними, тому що перший елемент, який 244 00:13:37,447 --> 00:13:40,030 відбувається, щоб придумати, коли ви дивитеся всю колекцію 245 00:13:40,030 --> 00:13:41,750 це, за визначенням, випадковим чином. 246 00:13:41,750 --> 00:13:44,550 Отже, давайте подивимося на деякі пончики. 247 00:13:44,550 --> 00:13:46,830 Ох. 248 00:13:46,830 --> 00:13:49,190 >> ОК. 249 00:13:49,190 --> 00:13:49,940 Так пончики. 250 00:13:49,940 --> 00:13:55,360 Таким чином, ми знайшли там 80 пунктів в Колекція, які посилаються на пончики. 251 00:13:55,360 --> 00:13:57,150 Ми дивимося на перші 10 з них. 252 00:13:57,150 --> 00:14:01,890 Тепер ви можете подивитися тут так, що Я сказав, що я шукаю для пончиків, 253 00:14:01,890 --> 00:14:04,400 Я просто додав щось Рядок запиту в URL. 254 00:14:04,400 --> 00:14:09,680 Так Q дорівнює пончики, які ви можете см трохи легше тут. 255 00:14:09,680 --> 00:14:12,131 >> І це в основному означає, що є Специфікація для API, який 256 00:14:12,131 --> 00:14:13,880 визначає, що всі Ці параметри означають. 257 00:14:13,880 --> 00:14:17,150 А це означає, що ми збираємося пошук все для пончиків. 258 00:14:17,150 --> 00:14:24,910 >> Так ось перший пункт у нас є Ви можете бачити назву Donuts, 259 00:14:24,910 --> 00:14:29,310 і існує субтитрів називається Американський пристрасть, яка, я думаю ,, 260 00:14:29,310 --> 00:14:31,610 відповідно. 261 00:14:31,610 --> 00:14:36,134 Є багато different-- 262 00:14:36,134 --> 00:14:38,050 Після того як ви дійдете до точки, отримання даних, 263 00:14:38,050 --> 00:14:41,020 Є багато різних Формати, які ви можете отримати його в. 264 00:14:41,020 --> 00:14:44,050 І існують різні сильні і слабкі для всіх з них. 265 00:14:44,050 --> 00:14:49,000 Так що це один, ви можете побачити тут, ця форма дуже багатий. 266 00:14:49,000 --> 00:14:51,946 І це стандартизовані. 267 00:14:51,946 --> 00:14:55,040 >> Так що конкретну назву поле, поле субтитри. 268 00:14:55,040 --> 00:14:58,950 Там це альтернативний назва, американський пристрасті. 269 00:14:58,950 --> 00:15:01,650 Існує ім'я, пов'язане з ним. 270 00:15:01,650 --> 00:15:03,120 Тип ресурсу текстів. 271 00:15:03,120 --> 00:15:06,070 Там дуже багато інформації Тут, у цьому форматі. 272 00:15:06,070 --> 00:15:09,480 >> Але є купа різних форматів. 273 00:15:09,480 --> 00:15:11,920 Отже, що ми були просто дивлячись на це формат 274 00:15:11,920 --> 00:15:17,700 звані моди, яка стоїть за Об'єкт метаданих Опис Service, 275 00:15:17,700 --> 00:15:18,250 потенційно. 276 00:15:18,250 --> 00:15:23,030 Насправді я не зовсім впевнений, про С. Але це досить складний формат. 277 00:15:23,030 --> 00:15:24,240 Це формат за замовчуванням. 278 00:15:24,240 --> 00:15:30,260 >> Але це той, який тримає Багатство всіх даних, 279 00:15:30,260 --> 00:15:33,820 що бібліотека має, тому що це дуже близько до того, що 280 00:15:33,820 --> 00:15:35,110 Бібліотека використовує внутрішньо. 281 00:15:35,110 --> 00:15:39,030 Це стандарт, який є використовується по всій країні, 282 00:15:39,030 --> 00:15:40,944 по всьому світу в академічних бібліотеках. 283 00:15:40,944 --> 00:15:42,110 І це дуже сумісні. 284 00:15:42,110 --> 00:15:44,852 Так що, якщо у вас є документ що у форматі моди, 285 00:15:44,852 --> 00:15:47,560 Ви можете дати, що когось іншого чиї системи розуміють моди, 286 00:15:47,560 --> 00:15:48,518 і вони можуть імпортувати його. 287 00:15:48,518 --> 00:15:50,840 Так що це стандарт. 288 00:15:50,840 --> 00:15:54,250 Це дуже добре визначені, дуже специфічний. 289 00:15:54,250 --> 00:15:58,980 І це те, що робить його взаємодіяти, бо якщо хтось говорить, 290 00:15:58,980 --> 00:16:04,930 це альтернативний назву запис, всі знають, що це означає. 291 00:16:04,930 --> 00:16:07,740 З іншого боку, це дуже складно. 292 00:16:07,740 --> 00:16:13,160 >> Так що, якщо ви подивитеся в цьому записі тут, 293 00:16:13,160 --> 00:16:15,320 якщо я просто хочу, щоб отримати назва цього документа, 294 00:16:15,320 --> 00:16:21,150 з цієї книги, яка, ймовірно, Donuts, Американський Пристрасть, аналіз його 295 00:16:21,150 --> 00:16:22,940 це трохи участь. 296 00:16:22,940 --> 00:16:27,380 У той час як є інший формат, званий Dublin Core, 297 00:16:27,380 --> 00:16:29,730 який є набагато, набагато простіше формат. 298 00:16:29,730 --> 00:16:33,764 >> І тому ви не побачите тут, немає ніякої заголовок, підзаголовок, альтернативний назву. 299 00:16:33,764 --> 00:16:35,930 Там просто назва, Donuts, американський Пристрасть, 300 00:16:35,930 --> 00:16:38,780 і ще один титул, американський пристрасті. 301 00:16:38,780 --> 00:16:42,907 Тому, коли ви дивитеся на те, що форма Ви хочете, щоб отримати дані з, 302 00:16:42,907 --> 00:16:44,740 Багато що залежить від того, як Ви збираєтеся його використовувати. 303 00:16:44,740 --> 00:16:46,573 Чи використовуєте ви для сумісність або ви 304 00:16:46,573 --> 00:16:49,970 хочете щось просте, що може бути легше працювати? 305 00:16:49,970 --> 00:16:56,002 >> З іншого боку, багато які деталі начебто сплющені вниз. 306 00:16:56,002 --> 00:16:58,460 Ви можете втратити всі нюанси що конкретні кошти на місцях 307 00:16:58,460 --> 00:17:02,960 якщо ви маєте справу з Dublin Core, які ви не отримаєте з модами. 308 00:17:02,960 --> 00:17:06,462 Так що ті два з форматів Ви можете вийти з API. 309 00:17:06,462 --> 00:17:08,920 І в основному, ми тримаємо це за лаштунками в модів. 310 00:17:08,920 --> 00:17:14,179 Але ми можемо дати вам його в Моди та Dublin Core і все інше також. 311 00:17:14,179 --> 00:17:16,470 Інше міркування, коли Ви шукаєте в даних 312 00:17:16,470 --> 00:17:21,210 що ви можете отримати його або як JSON, який виступає за нотації об'єктів JavaScript, 313 00:17:21,210 --> 00:17:24,720 або XML, яка виступає за Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 І ці представлення даних і мають одні і ті ж дані, точно 315 00:17:30,080 --> 00:17:31,080 одні й ті ж поля. 316 00:17:31,080 --> 00:17:33,644 Але вони просто синтаксично різні. 317 00:17:33,644 --> 00:17:40,401 >> Так що це a-- 318 00:17:40,401 --> 00:17:41,400 Ну, давайте просто переключитися. 319 00:17:41,400 --> 00:17:47,490 Так що це наш запит на пончики у форматі XML. 320 00:17:47,490 --> 00:17:53,470 Якби я просто переключитися, щоб це було JSON, Я бачу, що виглядає по-іншому. 321 00:17:53,470 --> 00:17:58,580 Так що тепер це ж саме зміст, а інша структура. 322 00:17:58,580 --> 00:18:00,080 Є менше кутові дужки. 323 00:18:00,080 --> 00:18:02,530 Там це менш багатослівним. 324 00:18:02,530 --> 00:18:06,440 >> І це формат, який, якщо ви працюють у веб-середовищі, 325 00:18:06,440 --> 00:18:09,680 ви, швидше за все, буде хочете використовувати, тому що один 326 00:18:09,680 --> 00:18:12,630 з хороших речей про JSON є він сумісний з JavaScript. 327 00:18:12,630 --> 00:18:17,680 Так що, якщо я пишу веб-додаток, я можу тягнути в JSON і просто працювати з ним безпосередньо. 328 00:18:17,680 --> 00:18:20,187 У той час як з XML, це трохи складніше. 329 00:18:20,187 --> 00:18:21,520 Отже, ще раз, це як корисно. 330 00:18:21,520 --> 00:18:26,387 Вони просто різні випадки використання де люди могли б хотіти використовувати їх. 331 00:18:26,387 --> 00:18:26,886 ОК. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Отже, повернемося до API. 334 00:18:31,680 --> 00:18:32,900 Так ми можемо шукати for-- 335 00:18:32,900 --> 00:18:36,220 >> Я наведу приклад пошук пончики. 336 00:18:36,220 --> 00:18:39,330 Ми також можемо шукати тільки в конкретне поле в тут. 337 00:18:39,330 --> 00:18:41,310 Таким чином, замість того, щоб шукати Вся запис, 338 00:18:41,310 --> 00:18:43,870 Я можу просто шукати в поле заголовка. 339 00:18:43,870 --> 00:18:48,810 І ось тепер є 25 речей, які є пончики в заголовку, один з яких 340 00:18:48,810 --> 00:18:52,430 про відновлення водно-болотних угідь в управлінні 341 00:18:52,430 --> 00:18:54,990 отвори в пончик Програма, яка, ймовірно, 342 00:18:54,990 --> 00:18:58,970 не обов'язково, що ми шукаємо коли ми шукаємо для пончиків. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> Ви можете також, коли ви справу з API-- 345 00:19:05,490 --> 00:19:08,827 >> Частина має API дає людям доступ до великих наборів даних. 346 00:19:08,827 --> 00:19:11,410 І є кілька різних інструменти, які можна використовувати, щоб зробити це. 347 00:19:11,410 --> 00:19:14,170 Одним з них є, дуже просто, ви може перегорнути даних. 348 00:19:14,170 --> 00:19:17,340 Так як якщо б ви зробити запит через веб-інтерфейс, 349 00:19:17,340 --> 00:19:19,470 Ви можете подивитися на першій сторінці, друга сторінка, сторінка три. 350 00:19:19,470 --> 00:19:22,040 Ви можете зробити те ж саме що через API. 351 00:19:22,040 --> 00:19:24,150 Ви просто повинні бути Явний в тому, як ви це робите. 352 00:19:24,150 --> 00:19:29,511 >> Так, наприклад, якщо я шукаю в моєму першому запиті тут, 353 00:19:29,511 --> 00:19:32,510 де я роблю пошук для речей з пончиками в назві, я можу говорити, 354 00:19:32,510 --> 00:19:35,415 і межа дорівнює 20, що означає, дати мені перші 20 записів, а не 355 00:19:35,415 --> 00:19:38,540 перший 10, який є за умовчанням, тому що я хочу подивитися на 20 одночасно. 356 00:19:38,540 --> 00:19:43,435 Або я можу сказати, встановити почати одно 20 і межа 357 00:19:43,435 --> 00:19:47,150 дорівнювати 20, що дасть мені записує з 21 по 40. 358 00:19:47,150 --> 00:19:52,680 >> Так що я думаю річ забрати тут 359 00:19:52,680 --> 00:19:57,290 що ми, використовуючи рядка запиту щоб встановити параметри на запит. 360 00:19:57,290 --> 00:20:02,760 І це дозволяє контролювати те, що ви повернетеся. 361 00:20:02,760 --> 00:20:05,980 >> Ще один інструмент, який можна використовувати, - 362 00:20:05,980 --> 00:20:09,250 >> І це дійсно корисно в Умови вивчає дані. 363 00:20:09,250 --> 00:20:10,840 >> --is те, що називається ограновування. 364 00:20:10,840 --> 00:20:15,530 Так термін ограновування є не повинні бути спільними. 365 00:20:15,530 --> 00:20:16,880 Але ви всі бачили його раніше. 366 00:20:16,880 --> 00:20:18,630 Якщо ви подивитеся на Amazon, наприклад, 367 00:20:18,630 --> 00:20:20,870 і ви робите пошук пончики в книгах, 368 00:20:20,870 --> 00:20:27,080 тут вони отримали серію книг, і вони згруповані за категоріями, 369 00:20:27,080 --> 00:20:30,470 і ви отримаєте різні категорії, і скільки книг у кожній категорії 370 00:20:30,470 --> 00:20:31,330 показати вгору. 371 00:20:31,330 --> 00:20:33,420 >> Так що це в основному аспект. 372 00:20:33,420 --> 00:20:37,570 Ви берете всі свої книги, 1800 книги, які відповідають пончики на Amazon. 373 00:20:37,570 --> 00:20:39,820 12 з них знаходяться в категорія сніданок. 374 00:20:39,820 --> 00:20:43,100 21 в тесті і випічка, і так далі, і так далі. 375 00:20:43,100 --> 00:20:47,670 >> Так що це дійсно корисно інструмент для дослідження вмісту 376 00:20:47,670 --> 00:20:53,260 в бібліотеці, а тому що, коли ви дивитеся на грані, 377 00:20:53,260 --> 00:20:56,520 це дає вам уявлення про те, які предмети існує, як, які види суб'єктів 378 00:20:56,520 --> 00:20:58,510 Найбільш популярні в ваш набір запиту. 379 00:20:58,510 --> 00:21:00,950 І це допоможе вам відігнати і досліджувати. 380 00:21:00,950 --> 00:21:02,770 Таким чином, ми можемо зробити те ж саме. 381 00:21:02,770 --> 00:21:05,940 >> Якщо ми хочемо використовувати API і подивитися на грані, 382 00:21:05,940 --> 00:21:08,950 ми додати ще один параметр наш друг рядок запиту. 383 00:21:08,950 --> 00:21:12,540 Так граней дорівнює кому Список того, що ми хочемо, щоб фаскою по. 384 00:21:12,540 --> 00:21:14,790 Таким чином, одна з граней може бути предметом. 385 00:21:14,790 --> 00:21:16,565 Ще може бути мова. 386 00:21:16,565 --> 00:21:19,665 І тому, якщо ми запустимо цей запит, ми get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Це виглядає досить багато ж саме. 389 00:21:24,830 --> 00:21:29,010 Але ми додали до кінця зі списку набір граней. 390 00:21:29,010 --> 00:21:34,060 Отже, ми маємо аспект, званий об'єктом. 391 00:21:34,060 --> 00:21:40,250 Так що це говорить нам, що якщо я дивлюся на мої 80 результатів пончик запиту, 392 00:21:40,250 --> 00:21:42,100 13 з них мають території Сполучених Штатів. 393 00:21:42,100 --> 00:21:43,684 Три є пончики по темі. 394 00:21:43,684 --> 00:21:45,600 Три мати тему відновлення водно-болотних угідь, 395 00:21:45,600 --> 00:21:47,720 який може бути наш отвір в пончик. 396 00:21:47,720 --> 00:21:51,780 Двоє з них, Сімпсони, і так далі, і так далі. 397 00:21:51,780 --> 00:21:59,211 >> Так що це може бути корисно, якщо ви хочете, щоб звузити свій пошук. 398 00:21:59,211 --> 00:22:00,210 Це може допомогти вам зробити це. 399 00:22:00,210 --> 00:22:03,580 Особливо, якщо у вас є більш ніж, скажімо, 80 результатів. 400 00:22:03,580 --> 00:22:05,980 >> Крім того, ми також попросили для гранями мовою. 401 00:22:05,980 --> 00:22:14,790 Так що, якщо ми подивимося на наші результати, ми бачимо, 76 з них англійською мовою, чотири французькою мовою, 402 00:22:14,790 --> 00:22:19,620 два іспанською мовою, два, я думаю, що це не визначене або невідомо, голландський і латинь. 403 00:22:19,620 --> 00:22:22,830 Так що я думаю, що по-латині пончик результат, знову ж таки, 404 00:22:22,830 --> 00:22:24,922 не має нічого спільного з хлібобулочних виробів. 405 00:22:24,922 --> 00:22:25,630 Але там ви йдете. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Так що це свого роду показуючи вам, як ви можете витягнути дані назад 408 00:22:38,630 --> 00:22:41,270 від API тільки через веб-браузер, який відмінно підходить. 409 00:22:41,270 --> 00:22:44,320 Але це не зовсім те, що ви б як правило, з використанням в API для цього. 410 00:22:44,320 --> 00:22:48,710 Так один приклад того, як треба може насправді зробити це я маю 411 00:22:48,710 --> 00:22:54,720 написано супер невелика програма, які, знову ж таки, не мій пошук пончика 412 00:22:54,720 --> 00:22:59,010 і вибирає пару поля і відображає їх у вигляді таблиці. 413 00:22:59,010 --> 00:23:01,610 Так що це дуже той же зміст, що ми просто 414 00:23:01,610 --> 00:23:04,830 пила з декількома полями витягнув. 415 00:23:04,830 --> 00:23:12,090 Так список назв, в розташування, що книга 416 00:23:12,090 --> 00:23:15,120 о, мову, і так далі, і так далі. 417 00:23:15,120 --> 00:23:20,480 >> Так, як це сталося насправді, так як Я думаю, ми повинні дивитися на код, 418 00:23:20,480 --> 00:23:22,420 is-- 419 00:23:22,420 --> 00:23:28,060 >> Те, що ми маємо тут справу з простою HTML сторінка, яка відображає текст, 420 00:23:28,060 --> 00:23:32,900 Ласкаво просимо до бібліотеки хмари і то на екран виводиться таблиця результатів. 421 00:23:32,900 --> 00:23:37,790 І немає, очевидно, не призводить до Таблиця коли сторінка завантажується. 422 00:23:37,790 --> 00:23:41,380 Але те, що ми робимо це, в першу чергу, ми 423 00:23:41,380 --> 00:23:46,290 завантажуються бібліотеку під назвою JQuery, який є в основному 424 00:23:46,290 --> 00:23:52,030 Бібліотека наявність якого робить його дуже легко маніпулювати наявність 425 00:23:52,030 --> 00:23:58,780 спочатку, HTML, а також створювати веб-сторінки, на стороні клієнта логіка і веб-сторінок. 426 00:23:58,780 --> 00:24:01,595 >> Отже, що ми маємо тут справу з JQuery має метод Get, 427 00:24:01,595 --> 00:24:05,270 що істотно піде на Посилання, яка, в даному випадку, 428 00:24:05,270 --> 00:24:09,070 це знайомо дивлячись URL. 429 00:24:09,070 --> 00:24:14,440 І тоді отримаєте зміст від що URL, а потім запустити функцію на ній. 430 00:24:14,440 --> 00:24:19,240 Тому ми сказали піти в api.lib.harvard / Edu. 431 00:24:19,240 --> 00:24:20,060 Пошук пончики. 432 00:24:20,060 --> 00:24:21,300 Дайте нам 20 записів. 433 00:24:21,300 --> 00:24:28,590 І потім запустити цю функцію, яка Я вибрав, передаючи йому дані. 434 00:24:28,590 --> 00:24:34,430 І дані JSON, що отримав повернувся з API. 435 00:24:34,430 --> 00:24:40,120 >> І тоді ми говоримо, в тому, що Дані є поле, зване пункт. 436 00:24:40,120 --> 00:24:48,117 І якщо я піду поглянути назад на один з цих результатів, що тут, 437 00:24:48,117 --> 00:24:49,200 є щось called-- 438 00:24:49,200 --> 00:24:50,220 >> Ну, це називається пункт. 439 00:24:50,220 --> 00:24:53,520 Так, що може бути, що. 440 00:24:53,520 --> 00:25:01,840 І те, що вона робить, це його проходить через кожного елемента 441 00:25:01,840 --> 00:25:05,300 а потім викликає інше Функція по кожному пункту. 442 00:25:05,300 --> 00:25:08,440 І, що функція в основному приймає значення 443 00:25:08,440 --> 00:25:12,010 пункту, що є по суті окремий запис 444 00:25:12,010 --> 00:25:18,220 і дозволяє витягнути назву, охоплення і мову. 445 00:25:18,220 --> 00:25:21,640 >> Так ми називаємо функцію на кожен елемент, який ми повернулися з API. 446 00:25:21,640 --> 00:25:25,397 І якщо ви просто подивіться на цей шматок прямо тут, 447 00:25:25,397 --> 00:25:27,230 те, що ми робимо, ми створюємо рядок, 448 00:25:27,230 --> 00:25:31,810 який є по суті деякі HTML теги навколо столу, з value.title, 449 00:25:31,810 --> 00:25:35,790 що назва Об'єкт, value.coverage, 450 00:25:35,790 --> 00:25:36,790 який є освітлення, - 451 00:25:36,790 --> 00:25:38,225 >> І ми робимо перевірку тут, щоб побачити, хто не визначено 452 00:25:38,225 --> 00:25:40,570 і приховуючи його, якщо він каже, що не визначено, тому що ми насправді не зацікавлені 453 00:25:40,570 --> 00:25:41,600 в цьому. 454 00:25:41,600 --> 00:25:42,939 >> --І тоді мова. 455 00:25:42,939 --> 00:25:44,730 І тоді те, що ми робите додавання, що 456 00:25:44,730 --> 00:25:48,510 до таблиці, яка визначені цим рядком тут. 457 00:25:48,510 --> 00:25:50,790 І як JQuery працює це те, що це говорить 458 00:25:50,790 --> 00:25:56,420 це подивитися на таблицю з ідеєю Результати і додайте в нього текст. 459 00:25:56,420 --> 00:25:59,380 І це таблиця з результатами ідея. 460 00:25:59,380 --> 00:26:04,998 Так що ви в кінцевому підсумку з це сторінки тут. 461 00:26:04,998 --> 00:26:06,206 А для того, щоб переглянути source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Ну, джерелом насправді не оновлюються, коли це сталося. 464 00:26:13,810 --> 00:26:18,740 Таким чином, ви можете побачити фактичне Результати таблиці, хоча тут. 465 00:26:18,740 --> 00:26:24,770 >> Так що це просто простий приклад робить дуже простий запит до API 466 00:26:24,770 --> 00:26:29,020 і відображення інформації, в якійсь іншій формі, і нічого не робить занадто фантазії. 467 00:26:29,020 --> 00:26:36,370 Тепер ще один приклад, як програма, написана Девідом Вайнбергер 468 00:26:36,370 --> 00:26:39,120 як демо це, що по суті показує вам, 469 00:26:39,120 --> 00:26:44,620 як ви можете пюре підсумки ви отримання з бібліотеки хмарних API 470 00:26:44,620 --> 00:26:46,250 з, скажімо, Google Books. 471 00:26:46,250 --> 00:26:52,225 >> І мислення тут є те, що я можу виконаємо запит Google Books, 472 00:26:52,225 --> 00:26:56,060 отримати повнотекстовий пошук, отримати деякі результати назад, з'ясувати, які з цих елементів 473 00:26:56,060 --> 00:27:01,180 насправді існує в Холліс, бібліотечна система, 474 00:27:01,180 --> 00:27:03,200 а потім дати мені посилання Повернутися до цих елементів. 475 00:27:03,200 --> 00:27:12,730 Так що, якщо я шукаю, це було темна і бурхлива ніч, я 476 00:27:12,730 --> 00:27:16,210 повернутися купу результатів від Google, а потім один результат 477 00:27:16,210 --> 00:27:19,460 що зморшок в часі. 478 00:27:19,460 --> 00:27:29,330 І це посилання на книги, які існують в рамках системи Бібліотека Гарвардського університету. 479 00:27:29,330 --> 00:27:32,160 >> Так що я думаю, справа тут не в так що це може або не може 480 00:27:32,160 --> 00:27:34,118 бути так, що ви хочете шукати бібліотеку, 481 00:27:34,118 --> 00:27:38,310 але це зовсім різні так, що не було доступно для вас 482 00:27:38,310 --> 00:27:42,884 колись, як вас не було ніякої можливості робити Повний текст пошук по книгах, що навіть 483 00:27:42,884 --> 00:27:44,550 були частиною системи Бібліотека Гарвардського університету. 484 00:27:44,550 --> 00:27:46,870 Так що тепер це спосіб що ви можете зробити це. 485 00:27:46,870 --> 00:27:51,930 І їх можна відобразити в будь-який формат, ви хочете. 486 00:27:51,930 --> 00:27:55,990 Так моментом тут є, в основному, ми відкриваємо нові шляхи для людей 487 00:27:55,990 --> 00:27:59,080 працювати з даними. 488 00:27:59,080 --> 00:28:07,925 >> Інша частина бібліотеки хмари, що це допомагає розкрити деякі з даних використання 489 00:28:07,925 --> 00:28:08,800 що бібліотека має. 490 00:28:08,800 --> 00:28:12,630 Так що, якщо ви йдете в бібліотеку, і ви шукаєте для книг, 491 00:28:12,630 --> 00:28:15,770 Вам не обов'язково насправді мають уявлення про те ,, 492 00:28:15,770 --> 00:28:19,080 для всіх елементів в конкретний суб'єкт, те, що 493 00:28:19,080 --> 00:28:21,200 люди в співтовариство, будь то 494 00:28:21,200 --> 00:28:24,890 визначається як Гарвард або країна або ваш клас, 495 00:28:24,890 --> 00:28:26,421 Що вони виявилися найбільш корисними? 496 00:28:26,421 --> 00:28:28,920 І бібліотека насправді має Величезна кількість інформації про те, що 497 00:28:28,920 --> 00:28:32,999 найбільш корисний, оскільки якщо багато людей перевірити книгу, 498 00:28:32,999 --> 00:28:34,040 що говорить вам щось. 499 00:28:34,040 --> 00:28:36,498 Там був якоїсь причини вони хочуть, щоб перевірити його. 500 00:28:36,498 --> 00:28:38,270 Багато людей покласти його в запасі. 501 00:28:38,270 --> 00:28:42,520 >> Якщо це резервний список для багатьох класів, який говорить вам щось. 502 00:28:42,520 --> 00:28:45,960 Якщо викладачі перевіряють його з багато і студенти не є, 503 00:28:45,960 --> 00:28:47,200 що говорить мені щось. 504 00:28:47,200 --> 00:28:49,280 І навпаки, що також говорить вам щось. 505 00:28:49,280 --> 00:28:54,680 Тому було б дуже цікаво покласти цю інформацію там, і нехай 506 00:28:54,680 --> 00:28:59,969 люди використовують його, щоб допомогти їм знайти працює всередині бібліотечної системи. 507 00:28:59,969 --> 00:29:02,260 Зворотним боком цього є є деякі серйозні конфіденційності 508 00:29:02,260 --> 00:29:07,854 проблеми, тому що один з Основні принципи бібліотеки 509 00:29:07,854 --> 00:29:10,770 що ми не збираємося розповідати люди, що інші люди читають. 510 00:29:10,770 --> 00:29:17,360 І навіть якщо ви говорите, це Книга була перевірена чотири рази 511 00:29:17,360 --> 00:29:20,070 в конкретному місяці, , Які можуть бути використані 512 00:29:20,070 --> 00:29:25,252 посилаються на особливості осіб за даними де-анонімізуючих 513 00:29:25,252 --> 00:29:26,710 і з'ясувати, хто перевірив це. 514 00:29:26,710 --> 00:29:30,792 Так так, що ми можемо avoid-- 515 00:29:30,792 --> 00:29:33,750 Так, що ми можемо спробувати витягти деякі сигнал від всієї інформації, 516 00:29:33,750 --> 00:29:36,740 без порушення недоторканності приватного життя нічиїх 517 00:29:36,740 --> 00:29:42,150 по суті ми дивимося на 10 років дані про використання, - 518 00:29:42,150 --> 00:29:43,930 >> Таким чином, це протягом тривалого періоду часу. 519 00:29:43,930 --> 00:29:50,639 >> і говорили, добре, давайте подивимося, як багато разів був використаний цю роботу, 520 00:29:50,639 --> 00:29:52,930 і які протягом цього періоду часу, і то в основному 521 00:29:52,930 --> 00:29:56,300 повернути номер, який ми називаємо оцінка стек, який в основному 522 00:29:56,300 --> 00:29:59,910 показує, наскільки вона була використана. 523 00:29:59,910 --> 00:30:01,084 І що number-- 524 00:30:01,084 --> 00:30:03,250 Багато різних розрахунків перейти в це число. 525 00:30:03,250 --> 00:30:05,150 --but це дуже груба показник, який дає вам 526 00:30:05,150 --> 00:30:11,300 Деяке уявлення про те, як співтовариство можуть оцінювати цю роботу. 527 00:30:11,300 --> 00:30:16,772 >> І так іншого роду, навіть більше конкретизовані додатки 528 00:30:16,772 --> 00:30:18,480 яка скористається перевагами цього є те, 529 00:30:18,480 --> 00:30:24,000 називається Stacklife, яка насправді доступні через головне Гарварді 530 00:30:24,000 --> 00:30:24,880 Бібліотека порталу. 531 00:30:24,880 --> 00:30:26,700 Так ви йдете в library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Ви побачите ряд різних шляхи пошуку бібліотеки. 533 00:30:29,360 --> 00:30:32,300 І один з них називається Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> І це додаток, який переглядає зміст бібліотеки, 535 00:30:38,980 --> 00:30:43,490 але повністю побудований поверх цих інтерфейсів. 536 00:30:43,490 --> 00:30:46,910 Таким чином, немає ніяких спеціальних матеріал відбувається за лаштунками. 537 00:30:46,910 --> 00:30:49,570 Там немає доступу до дані, які ви не маєте. 538 00:30:49,570 --> 00:30:54,090 Вона використовує API-інтерфейси, щоб надати вам із зовсім іншою перегляду 539 00:30:54,090 --> 00:30:55,480 досвід. 540 00:30:55,480 --> 00:30:58,570 >> Так що, якщо я шукаю для Аліси в країні чудес в цьому випадку, 541 00:30:58,570 --> 00:31:02,600 Я отримую результат, який виглядає як це, який є досить much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> Це дуже схожий на будь-який інший категорії Ви могли б зробити, крім як у цьому випадку 544 00:31:10,870 --> 00:31:15,730 ми ранжирування деталі stackscore, що дає вам 545 00:31:15,730 --> 00:31:19,850 Деяке уявлення про те, як популярні в ці предмети були в суспільстві. 546 00:31:19,850 --> 00:31:25,610 І так ясно, Аліса в країні чудес Уолт Дісней дуже популярні. 547 00:31:25,610 --> 00:31:36,570 Але ви також можете побачити першу четвірку ось ті, що ви, можливо, не actually-- 548 00:31:36,570 --> 00:31:39,220 >> Речі, які високо використовуються, але ви не можете відразу 549 00:31:39,220 --> 00:31:41,240 Зв'язок з Аліса в країні чудес. 550 00:31:41,240 --> 00:31:44,650 Таким чином, наш старий друг Анотований Аліса тут. 551 00:31:44,650 --> 00:31:46,350 Так що я можу поглянути на нього. 552 00:31:46,350 --> 00:31:52,010 А тепер те, що я шукаю в основному встановлюється of-- 553 00:31:52,010 --> 00:31:53,760 Я можу мати з примітками Аліса тут. 554 00:31:53,760 --> 00:31:56,700 У мене є інформація про нього. 555 00:31:56,700 --> 00:32:00,230 І в мене також є stackscore від того, в цьому випадку, 26. 556 00:32:00,230 --> 00:32:03,169 І це говорить мені ніби приблизно як ми потрапили в цей stackscore, 557 00:32:03,169 --> 00:32:05,835 як хто перевіряв його, наприклад, як багато разів був перевірили, 558 00:32:05,835 --> 00:32:08,440 як факультет або старшокурсники, як багато копій бібліотека має, 559 00:32:08,440 --> 00:32:11,300 і так далі, і так далі. 560 00:32:11,300 --> 00:32:16,460 >> І ви можете також, досить цікаво тут, переглядати стеки віртуально. 561 00:32:16,460 --> 00:32:19,550 Таким чином, дані тут, це показує вам розібратися 562 00:32:19,550 --> 00:32:23,547 віртуального уявлення від того, який шельфу мощі 563 00:32:23,547 --> 00:32:25,880 виглядати, якщо ви повинні були прийняти всі фондів бібліотеки 564 00:32:25,880 --> 00:32:28,940 і покласти їх разом на одній нескінченної полиці. 565 00:32:28,940 --> 00:32:30,990 І приємно те, що ми can-- 566 00:32:30,990 --> 00:32:33,380 >> Перш за все, метадані про ці книги 567 00:32:33,380 --> 00:32:35,627 часто говорить вам, коли вона була опублікована. 568 00:32:35,627 --> 00:32:37,085 Вона говорить вам, скільки сторінок він має. 569 00:32:37,085 --> 00:32:38,459 Це може сказати вам розміри. 570 00:32:38,459 --> 00:32:42,930 Таким чином, ви можете бачити, що відображено тут за розміром книг. 571 00:32:42,930 --> 00:32:46,740 >> І тоді ми можемо використовувати стек рахунок, щоб виділити 572 00:32:46,740 --> 00:32:49,170 книги, які мають більш високі показники складаються. 573 00:32:49,170 --> 00:32:54,930 Так що, якщо він темніший, це означає, що, Імовірно, вона використовується частіше. 574 00:32:54,930 --> 00:32:57,040 Таким чином, в цьому випадку, я буду гадати, що це 575 00:32:57,040 --> 00:33:03,226 це версія Алісі в країні чудес який дуже широко використовується і найбільш 576 00:33:03,226 --> 00:33:05,100 Доступ, бібліотека має більше копій. 577 00:33:05,100 --> 00:33:06,975 Так що, якщо ви шукаєте Аліса в країні чудес, 578 00:33:06,975 --> 00:33:10,220 це може бути хорошим місцем для початку. 579 00:33:10,220 --> 00:33:13,500 >> І тоді тут Ви можете також зв'язати з , Скажімо, Amazon, щоб купити книгу, 580 00:33:13,500 --> 00:33:15,182 і так далі, і так далі. 581 00:33:15,182 --> 00:33:17,140 Справа тут, знову ж таки, не так багато, що це 582 00:33:17,140 --> 00:33:25,030 це найкращий спосіб, щоб переглянути бібліотеку або правильний інструмент для кожного випадку. 583 00:33:25,030 --> 00:33:28,400 Але це ще один спосіб зробити це. 584 00:33:28,400 --> 00:33:31,359 І, зробивши дані доступні через API, який 585 00:33:31,359 --> 00:33:34,650 виготовлена ​​з дуже простих блоків, який дозволяє шукати контент, 586 00:33:34,650 --> 00:33:39,420 Ви можете побудувати щось як це, що можна 587 00:33:39,420 --> 00:33:41,520 бути надзвичайно цінним для деяких людей. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Так ось ніби, як я хочу сказати насправді про те, що API є 590 00:33:51,860 --> 00:33:56,070 і те, що він надає, є вся купа речей за лаштунками, які 591 00:33:56,070 --> 00:33:59,480 Я просто хочу, щоб торкнутися коротко тільки тому, що він начебто йде на це 592 00:33:59,480 --> 00:34:03,720 з абсолютно іншої точки зору в Умови, як робить щось на зразок цього 593 00:34:03,720 --> 00:34:04,580 отримати покласти на місце? 594 00:34:04,580 --> 00:34:10,820 >> Так API є стандартним інтерфейс для всього цього контенту. 595 00:34:10,820 --> 00:34:13,820 Але щоб отримати його там, Перше, що ми повинні були зробити 596 00:34:13,820 --> 00:34:17,260 був зблизити інформації книг і зображень 597 00:34:17,260 --> 00:34:21,580 і системах пошуку, збору Документ з різних систем Гарварду. 598 00:34:21,580 --> 00:34:23,929 Алеф, VIA і оазису імена систем. 599 00:34:23,929 --> 00:34:28,820 І вони по суті йти в Трубопровід, конвеєр обробки. 600 00:34:28,820 --> 00:34:33,230 >> Отже, перш за все, ми отримуємо експорт файли з усіх цих систем. 601 00:34:33,230 --> 00:34:35,130 Ми розділили їх на окремі елементи. 602 00:34:35,130 --> 00:34:39,360 Тому у нас є файл, який гігабайт, який має мільйонів записів в ньому. 603 00:34:39,360 --> 00:34:42,290 Таким чином, ми розділили його на окремі елементи. 604 00:34:42,290 --> 00:34:45,374 Потім, для кожного елемента, ми перетворюємо його в моди, тому що деякі з них 605 00:34:45,374 --> 00:34:47,040 початково моди, деякі з них не є. 606 00:34:47,040 --> 00:34:49,204 Отже, ми отримуємо їх все, щоб знаходитися в тому ж форматі. 607 00:34:49,204 --> 00:34:51,120 Тоді існують різні збагаченню кроків, де 608 00:34:51,120 --> 00:34:55,969 додати додаткову інформацію до даних чим була доступна в бібліотеці. 609 00:34:55,969 --> 00:34:59,750 Таким чином, ми повинні додати, в першу чергу ми маємо те, що бібліотеки утримати його. 610 00:34:59,750 --> 00:35:02,250 Ми проходимо через стадію розрахунку stackscore. 611 00:35:02,250 --> 00:35:07,112 Ми проходимо через інший стадії додавши більше метаданих в плані 612 00:35:07,112 --> 00:35:10,730 з яких наборів людей міг би додати this-- 613 00:35:10,730 --> 00:35:12,532 >> Люди створюють набори елементів. 614 00:35:12,532 --> 00:35:13,990 Що колекції він належить? 615 00:35:13,990 --> 00:35:17,220 Як би люди з тегами це зміст в минулому? 616 00:35:17,220 --> 00:35:20,750 Тоді ви відфільтрувати, і ви обмежуєте запису, тому що, як я вже говорив, 617 00:35:20,750 --> 00:35:24,120 є деякі записи, які, через Причини авторських прав, ми не можемо відобразити. 618 00:35:24,120 --> 00:35:26,700 А потім ми завантажуємо їх в те, що називається 619 00:35:26,700 --> 00:35:31,680 Solr, яка не помилка, але Це ім'я частини програмного забезпечення 620 00:35:31,680 --> 00:35:35,710 що робить індексуванням пошуку, які Приводи Всі пошуком позаду API. 621 00:35:35,710 --> 00:35:40,110 І тоді він стає доступним для API-інтерфейс, і люди можуть його використовувати. 622 00:35:40,110 --> 00:35:44,640 >> Так що це, як справедливо простий процес. 623 00:35:44,640 --> 00:35:47,230 Одним з цікавих все про нього 624 00:35:47,230 --> 00:35:50,990 що ми маємо справу 13 мільйонів записів 625 00:35:50,990 --> 00:35:53,820 і ми будемо мати справу або більше. 626 00:35:53,820 --> 00:36:01,260 І ми хочемо, щоб бути в змозі впоратися це в щодо якнайшвидшого моди. 627 00:36:01,260 --> 00:36:03,630 Це займає багато часу, щоб обробляти 13 мільйонів записів. 628 00:36:03,630 --> 00:36:09,529 >> Так як цей трубопровід налаштувати, що ви can-- 629 00:36:09,529 --> 00:36:12,070 Я думаю, перевага Трубопровід, проблема, що ми 630 00:36:12,070 --> 00:36:15,580 намагається вирішити тут, є те, що всі перетворення, все 631 00:36:15,580 --> 00:36:18,729 Ці кроки в цьому Трубопровід віддільні. 632 00:36:18,729 --> 00:36:19,645 Там немає залежності. 633 00:36:19,645 --> 00:36:22,146 Якщо ви обробляєте запис однієї книги, 634 00:36:22,146 --> 00:36:24,270 немає утриманців в що між іншій книзі. 635 00:36:24,270 --> 00:36:27,760 >> Отже, що ми можемо зробити, це в основному, на кожному кроці в трубопроводі, 636 00:36:27,760 --> 00:36:30,470 ми ставимо його в чергу в хмарі. 637 00:36:30,470 --> 00:36:32,250 Мені довелося бути на Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Так що список, кажуть, 10000 предметів, які 639 00:36:35,140 --> 00:36:38,100 повинні бути нормалізовані і перетвориться у формат модів. 640 00:36:38,100 --> 00:36:41,620 І ми розкручується стільки серверів Так як ми хочемо, може бути, 10 серверів. 641 00:36:41,620 --> 00:36:44,860 І кожен з цих серверів тільки сидить там, дивиться в цій черзі, 642 00:36:44,860 --> 00:36:46,730 бачить, що є один, який повинен оброблятися, тягне його з черги, 643 00:36:46,730 --> 00:36:48,740 обробляє його і палички На наступному черги. 644 00:36:48,740 --> 00:36:54,200 >> І так, що це дозволяє нам зробити, це застосувати, по суті, 645 00:36:54,200 --> 00:36:58,110 як багато апаратних засобів, а ми хочемо, щоб це Проблема протягом дуже короткого періоду часу 646 00:36:58,110 --> 00:37:02,970 для обробки даних так швидко, як можливо, щось, що тільки, 647 00:37:02,970 --> 00:37:08,220 Зараз у світі хмарних обчислень Ми можемо надання сервери по суті 648 00:37:08,220 --> 00:37:09,890 миттєво, в тому, що корисно. 649 00:37:09,890 --> 00:37:12,260 Таким чином, ми не повинні мати гігант сервер сидіти 650 00:37:12,260 --> 00:37:16,700 весь час, щоб зробити обробку що може трапитися тільки один раз на тиждень. 651 00:37:16,700 --> 00:37:21,440 >> Так що це в основному це. 652 00:37:21,440 --> 00:37:27,590 Там же документація Для бібліотеки Cloud Пункт API 653 00:37:27,590 --> 00:37:31,960 за цією адресою, який буде буде доступна пізніше. 654 00:37:31,960 --> 00:37:36,730 І, будь ласка, піти поглянути на його, щоб побачити, якщо є що-небудь, 655 00:37:36,730 --> 00:37:37,579 у вас є якісь ідеї. 656 00:37:37,579 --> 00:37:38,120 Грати з ним. 657 00:37:38,120 --> 00:37:38,830 Дурень навколо. 658 00:37:38,830 --> 00:37:42,800 І, сподіваюся, ви можете прийти з чогось великого. 659 00:37:42,800 --> 00:37:44,740 Спасибо. 660 00:37:44,740 --> 00:37:45,899