1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 Джефри ЛИХТ: Hi там. 3 00:00:12,370 --> 00:00:13,550 Сигурен съм, Джефри Licht. 4 00:00:13,550 --> 00:00:17,890 И аз съм тук, за да говоря с вас за Harvard Library и изграждане на утрешния 5 00:00:17,890 --> 00:00:20,870 Днес библиотеката, предполагам. 6 00:00:20,870 --> 00:00:23,040 Така че на фона тук, терена за тази сесия 7 00:00:23,040 --> 00:00:26,930 по същество е, че съществува много библиографски данни 8 00:00:26,930 --> 00:00:28,400 разположение в библиотеките Харвард. 9 00:00:28,400 --> 00:00:33,434 И там е една възможност, чрез някои от инструментите 10 00:00:33,434 --> 00:00:36,350 и един проект, който е в процес на разработка за да получите достъп до информацията 11 00:00:36,350 --> 00:00:42,430 и да го отведе до места, че Harvard Library не се прави в момента, 12 00:00:42,430 --> 00:00:45,460 правя нови неща с него, експеримент и да си поиграете с него. 13 00:00:45,460 --> 00:00:52,413 >> Така че входната точка в това е API наречена Harvard Library Облакът, който 14 00:00:52,413 --> 00:00:57,650 е открита метаданни сървър, които ще говоря за сега. 15 00:00:57,650 --> 00:01:02,595 Така че фонът е, че е налице много неща в библиотеката в Харвард. 16 00:01:02,595 --> 00:01:07,150 В момента има над 13 милиона библиографски записи, милиони снимки, 17 00:01:07,150 --> 00:01:11,090 и хиляди справочни издания, които са по същество документи, описващи 18 00:01:11,090 --> 00:01:15,500 колекции, казват това, което е в тях, кутии за документи 19 00:01:15,500 --> 00:01:21,080 и така нататък, които представляват над един милион отделни документи. 20 00:01:21,080 --> 00:01:24,290 А има и много информация, че библиотеката е 21 00:01:24,290 --> 00:01:28,180 за това как съдържанието се използва, че биха могли да представляват интерес за хората 22 00:01:28,180 --> 00:01:32,400 който би искал да работи с него. 23 00:01:32,400 --> 00:01:36,150 >> Така че цялата информация, библиотеката има метаданни. 24 00:01:36,150 --> 00:01:39,500 Така метаданни е данни за данни. 25 00:01:39,500 --> 00:01:42,070 Така че, когато говорим за информацията, която е 26 00:01:42,070 --> 00:01:44,890 достъпна чрез библиотеката облак, който е на разположение, 27 00:01:44,890 --> 00:01:47,760 това не е задължително действителните документи 28 00:01:47,760 --> 00:01:53,060 себе си, а не непременно в пълна текст на книги или пълните изображения, 29 00:01:53,060 --> 00:01:54,890 макар че всъщност може да бъде случаят. 30 00:01:54,890 --> 00:01:57,550 Но това е наистина информация за данните. 31 00:01:57,550 --> 00:02:00,909 >> Така че можете да мислите за каталогизиране информация, номера за повикване, предмети, 32 00:02:00,909 --> 00:02:02,700 колко копия от книга има, какво 33 00:02:02,700 --> 00:02:06,380 са изданията, какви са формати, авторите, и така нататък. 34 00:02:06,380 --> 00:02:12,250 Така че има много информация за информацията в колекцията, че 35 00:02:12,250 --> 00:02:14,400 само по себе си, е нещо присъщо полезна. 36 00:02:14,400 --> 00:02:19,230 И все пак, ако сте правят по-задълбочени изследвания, 37 00:02:19,230 --> 00:02:25,160 вие очевидно искате да стигнете до действителното се задоволи и погледнат данните, 38 00:02:25,160 --> 00:02:30,140 метаданните е полезно от гледна точка на както анализиране на корпуса като цяло, 39 00:02:30,140 --> 00:02:33,870 като това, нещата са в колекцията. 40 00:02:33,870 --> 00:02:35,520 Как се отнасят? 41 00:02:35,520 --> 00:02:39,482 Тя ви помага да намерите наистина други неща, което наистина е основната цел на това. 42 00:02:39,482 --> 00:02:41,190 Смисълът на метаданни и каталога 43 00:02:41,190 --> 00:02:43,230 е да ви помогне да намерите всички информацията, която е 44 00:02:43,230 --> 00:02:46,590 на разположение в рамките на колекциите. 45 00:02:46,590 --> 00:02:53,690 >> Така че това е пример за метаданни за книга в Харвард библиотека. 46 00:02:53,690 --> 00:02:56,370 Така, че е там. 47 00:02:56,370 --> 00:02:59,850 И вие можете да видите, че е всъщност умерено сложна. 48 00:02:59,850 --> 00:03:04,610 И част от стойността на метаданни в рамките на системата Harvard Library 49 00:03:04,610 --> 00:03:09,320 е, че това е било сортиране на натрупани от каталози 50 00:03:09,320 --> 00:03:12,720 и построената от хората, кандидатстващи много опит и умения 51 00:03:12,720 --> 00:03:20,030 и смята, че тя с течение на времето, който има много стойност. 52 00:03:20,030 --> 00:03:25,450 >> Така че, ако погледнете на този запис за Анотираният Алис, можете да разберете 53 00:03:25,450 --> 00:03:32,590 имаш титлата, който го е написал г. автора и всички учебни дисциплини 54 00:03:32,590 --> 00:03:35,380 които хората са го каталогизирани в. 55 00:03:35,380 --> 00:03:40,110 И можете да видите там също, в Освен с много добра информация 56 00:03:40,110 --> 00:03:42,852 тук, има известно дублиране. 57 00:03:42,852 --> 00:03:45,560 Има много неща, на сложност, че е отразени чрез метаданните 58 00:03:45,560 --> 00:03:46,300 че имате. 59 00:03:46,300 --> 00:03:50,320 >> Така че едно заглавие на тази книга е Алиса в Страната на чудесата. 60 00:03:50,320 --> 00:03:53,880 Така че това е анотиран версия на тази книга. 61 00:03:53,880 --> 00:03:56,380 Но тя също така се нарича с обяснителни бележки Alice, Adventures Алис 62 00:03:56,380 --> 00:03:58,570 в страната на чудесата, защото това е нещо, което 63 00:03:58,570 --> 00:04:00,430 Мартин Гарднър пише и анотирани книгата. 64 00:04:00,430 --> 00:04:03,369 И има много голяма информация за логически пъзели и неща 65 00:04:03,369 --> 00:04:05,410 в рамките на Алис, че сте Вероятно не знаете за. 66 00:04:05,410 --> 00:04:07,000 Така че трябва да отида да го прочетете. 67 00:04:07,000 --> 00:04:11,940 >> Но можете да видите там много подробно тук, 68 00:04:11,940 --> 00:04:15,340 включително идентификатори, когато става е създаден, от къде идва, 69 00:04:15,340 --> 00:04:17,420 от гледна точка на Харвард система, и така нататък. 70 00:04:17,420 --> 00:04:20,350 Така че това е извадка от вида на метаданни 71 00:04:20,350 --> 00:04:24,340 За да видиш за книга в Събирането на Harvard Library. 72 00:04:24,340 --> 00:04:26,680 >> Това е нещо съвсем различно. 73 00:04:26,680 --> 00:04:32,610 Така че съществува система, наречена VIA Харвард, които в общи линии 74 00:04:32,610 --> 00:04:39,990 е каталогизиране снимки и предмети на изкуството и визуални неща в целия Харвард, 75 00:04:39,990 --> 00:04:44,010 и добавяне на метаданни им класифициране тях, 76 00:04:44,010 --> 00:04:49,200 и, в някои случаи, предоставяща малки иконки 77 00:04:49,200 --> 00:04:51,250 че можете да вземете Посетете ако желаят това. 78 00:04:51,250 --> 00:04:54,240 >> Така че това е пример за метаданни, които имате за една чиния 79 00:04:54,240 --> 00:04:57,840 от, вероятно, Алиса в страната на чудесата. 80 00:04:57,840 --> 00:05:00,499 И можете да видите там Самолетни метаданни тук. 81 00:05:00,499 --> 00:05:02,040 Това е просто различен вид на обекта. 82 00:05:02,040 --> 00:05:03,425 И така, има по-малко информация. 83 00:05:03,425 --> 00:05:07,790 >> Вие най-вече да има фактът, че, на повикване брой, по същество, който го е създал, - 84 00:05:07,790 --> 00:05:10,410 >> Ние не знаем кога е бил създаден. 85 00:05:10,410 --> 00:05:13,320 >> --and заглавие. 86 00:05:13,320 --> 00:05:14,300 >> Друг пример. 87 00:05:14,300 --> 00:05:16,380 Това е помощ констатация. 88 00:05:16,380 --> 00:05:19,030 Така че има колекция от Lewis Хартии Карол в Харвард. 89 00:05:19,030 --> 00:05:23,601 Така че това описва какво е в тази колекция. 90 00:05:23,601 --> 00:05:26,100 Така че някой е минал през и Погледнах през всички кутии 91 00:05:26,100 --> 00:05:32,220 и го каталогизирани, дадени някои фон, писмено резюме на това, което е тук. 92 00:05:32,220 --> 00:05:35,290 И ако ви се налага да се търси допълнително към това, този 93 00:05:35,290 --> 00:05:39,620 продължава от страници и страници и страници, но ще ви кажа, 94 00:05:39,620 --> 00:05:41,860 какви писма и какво дати от това, което кутии 95 00:05:41,860 --> 00:05:44,289 съществува по време на събирането. 96 00:05:44,289 --> 00:05:46,330 Но това е нещо, че, ако сте в Харвард, 97 00:05:46,330 --> 00:05:50,720 можете да отидете и действително физически погледнем и, вероятно, да разгледаме. 98 00:05:50,720 --> 00:05:53,440 >> Така че всичко това е страхотно. 99 00:05:53,440 --> 00:05:54,450 Това метаданни е полезно. 100 00:05:54,450 --> 00:05:56,327 Това е в системата Харвард библиотека. 101 00:05:56,327 --> 00:05:58,910 Има инструменти, онлайн, където можете може да отиде и да погледнем това, 102 00:05:58,910 --> 00:05:59,993 и да го види, и да го търси. 103 00:05:59,993 --> 00:06:02,810 И вие можете да го и зарчета режа то в много различни начини. 104 00:06:02,810 --> 00:06:06,920 >> Но това е на разположение наистина, само ако Ако сте човек в седнало положение 105 00:06:06,920 --> 00:06:12,600 при вашия браузер или нещо или телефона и навигацията чрез него. 106 00:06:12,600 --> 00:06:16,730 Всъщност не е на разположение в всякакъв вид използваема мода 107 00:06:16,730 --> 00:06:19,520 за други системи или други компютри да използват, 108 00:06:19,520 --> 00:06:21,500 не със системи в Харвард библиотека, 109 00:06:21,500 --> 00:06:24,890 но системи във външния свят, само на други хора като цяло. 110 00:06:24,890 --> 00:06:30,210 Така че въпросът е, как можем да я прави достъпна за компютри 111 00:06:30,210 --> 00:06:33,560 така че можем да направим по-интересно неща с него, отколкото просто 112 00:06:33,560 --> 00:06:36,550 сърфирането си го? 113 00:06:36,550 --> 00:06:39,766 >> Така че защо ще искате да направите това? 114 00:06:39,766 --> 00:06:41,140 Има много възможности. 115 00:06:41,140 --> 00:06:43,980 Един от тях е може да се изгради напълно различен начин за сърфиране 116 00:06:43,980 --> 00:06:46,962 съдържание, което е достъпно през Харвард библиотеки. 117 00:06:46,962 --> 00:06:48,670 Ще ви покажа един наречен по-късно Stacklife, 118 00:06:48,670 --> 00:06:52,440 който е напълно различна поеме търсите съдържание. 119 00:06:52,440 --> 00:06:54,560 >> Можете да изгради препоръка на двигателя. 120 00:06:54,560 --> 00:06:57,955 Така Харвард библиотека не е в бизнес се каже, ви харесва тази книга. 121 00:06:57,955 --> 00:07:01,080 След това отидете да разгледаме тези 17 други книги, които може да се интересуват от 122 00:07:01,080 --> 00:07:03,200 или тези 18 други изображения. 123 00:07:03,200 --> 00:07:06,040 Но това със сигурност може да да бъде ценна функция. 124 00:07:06,040 --> 00:07:09,272 И като се има предвид метаданните, тя може е възможно да се сложи това заедно. 125 00:07:09,272 --> 00:07:11,980 Може да има различни нужди в Условия за търсене в съдържанието, 126 00:07:11,980 --> 00:07:16,200 като може би въпреки инструментите, които са на разположение, че библиотеката прави 127 00:07:16,200 --> 00:07:18,450 наличен, може да искате да търсите по различен начин 128 00:07:18,450 --> 00:07:21,847 или оптимизира за определен случай, използване, който може би е много специализирана. 129 00:07:21,847 --> 00:07:23,930 Може би има само няколко хора в света, които 130 00:07:23,930 --> 00:07:25,846 искате да търсите в съдържанието По този начин, но 131 00:07:25,846 --> 00:07:28,985 Би било чудесно, ако ние би могло да ги направи това. 132 00:07:28,985 --> 00:07:30,860 Има много анализи само за това как хората 133 00:07:30,860 --> 00:07:33,860 използвате съдържанието, което ще бъде наистина Интересно е да се знае за, разбери 134 00:07:33,860 --> 00:07:37,280 какви книги са били използвани, това, което не сме, и така нататък. 135 00:07:37,280 --> 00:07:41,670 И след това има много възможност да се интегрират 136 00:07:41,670 --> 00:07:45,210 с друга информация че е там в интернет. 137 00:07:45,210 --> 00:07:46,880 Така че ние have-- 138 00:07:46,880 --> 00:07:50,260 >> Например, NPR има сегмент рецензия на книга, 139 00:07:50,260 --> 00:07:53,090 когато те интервюират автори за книги. 140 00:07:53,090 --> 00:07:56,837 И така, би било чудесно, ако сте били търси една книга в Харвард 141 00:07:56,837 --> 00:07:59,670 Библиотека, а вие казвате, OK, има е интервю с автора. 142 00:07:59,670 --> 00:08:00,878 Хайде да отидем да разгледаме това. 143 00:08:00,878 --> 00:08:05,461 Или има страница в Уикипедия, като авторитетна, научна референтна 144 00:08:05,461 --> 00:08:07,710 Относно тази книга, която сте Може би искате да погледнете на. 145 00:08:07,710 --> 00:08:12,600 >> Има тези видове източници пръснати из мрежата. 146 00:08:12,600 --> 00:08:16,555 И да ги обедини би могло да бъде по-голямо използване 147 00:08:16,555 --> 00:08:18,930 на някой търси в съдържание, които търсят нещо. 148 00:08:18,930 --> 00:08:20,180 Но това също не е най- вид на нещо, което щеше 149 00:08:20,180 --> 00:08:23,205 Искам библиотеката да бъде отговорен за да не слезе и преследват 150 00:08:23,205 --> 00:08:25,455 всички тези различни източници и да ги включите заедно 151 00:08:25,455 --> 00:08:28,920 защото те променя непрекъснато. 152 00:08:28,920 --> 00:08:33,570 И това, което смятам за важно май Не е това, което мислите, че е важно. 153 00:08:33,570 --> 00:08:36,929 >> И още повече, че, общо взето има много неща, ние не сме помислили за още. 154 00:08:36,929 --> 00:08:42,222 Така че, ако можем да отворим тази нагоре, по- хора, освен половин дузина или така, 155 00:08:42,222 --> 00:08:45,174 които разглеждате тази на редовно да се сетя за идеи 156 00:08:45,174 --> 00:08:47,340 и масажирайте данните, и правят каквото си искат с него. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Така че ние искаме да направим това налични към света на данни. 159 00:08:54,045 --> 00:08:55,670 Е, има няколко усложнения. 160 00:08:55,670 --> 00:08:58,540 Един от тях е, че тази метаданни е в различни системи. 161 00:08:58,540 --> 00:09:01,110 Това е в различни формати. 162 00:09:01,110 --> 00:09:04,719 Така че има някаква нормализация което трябва да се случи, 163 00:09:04,719 --> 00:09:08,010 който е нормализиране на процеса на привеждане неща от различни формати 164 00:09:08,010 --> 00:09:12,940 и ги нанасяне на един формат така, че областта ще съвпадат. 165 00:09:12,940 --> 00:09:15,160 >> Има някои ограничения на авторските им права. 166 00:09:15,160 --> 00:09:21,010 Странното е, че влизането на стоките около една книга носи отговорност за авторските права. 167 00:09:21,010 --> 00:09:24,060 Така че, въпреки че това е просто информация, получена от книгата, 168 00:09:24,060 --> 00:09:25,330 това е авторски или сродни права. 169 00:09:25,330 --> 00:09:28,400 И в зависимост от това кой всъщност създаден, че метаданни, 170 00:09:28,400 --> 00:09:32,175 може да има ограничения за които да я разпространява, подобно to-- 171 00:09:32,175 --> 00:09:33,402 >> Не знам. 172 00:09:33,402 --> 00:09:36,110 Това може или не може да бъде подобна на положението на текстовете на песните, 173 00:09:36,110 --> 00:09:36,610 например. 174 00:09:36,610 --> 00:09:38,560 Така че ние всички знаем колко че тигани навън. 175 00:09:38,560 --> 00:09:40,450 Така че ще трябва да получи около този въпрос. 176 00:09:40,450 --> 00:09:44,910 >> И после още едно парче е че има много данни. 177 00:09:44,910 --> 00:09:52,420 Така че, ако аз съм човек, който иска да работи с данните, или има страхотна идея, 178 00:09:52,420 --> 00:09:55,350 занимаващи се с 14 милиона записи на моя лаптоп 179 00:09:55,350 --> 00:09:57,487 може да създаде проблеми и трудни за управление. 180 00:09:57,487 --> 00:09:59,320 Така че ние искаме да се намали бариерите за хората 181 00:09:59,320 --> 00:10:02,130 да бъде в състояние да работи с данните. 182 00:10:02,130 --> 00:10:07,880 >> Така че подход, който се надяваме адреси всички тези притеснения е от две части. 183 00:10:07,880 --> 00:10:11,770 Един от тях е изграждането на платформа, която отнема данни от всички тези различни източници 184 00:10:11,770 --> 00:10:14,350 и го задълбочава, нормализира, тя обогатява и прави 185 00:10:14,350 --> 00:10:16,650 го предоставя на едно място. 186 00:10:16,650 --> 00:10:20,950 И той го прави достъпно чрез публично API, че хората могат да се обаждат. 187 00:10:20,950 --> 00:10:24,430 >> Така че един API е кандидатурa Програмен интерфейс. 188 00:10:24,430 --> 00:10:28,930 И то основно се отнася до крайна точка, че една система или технология 189 00:10:28,930 --> 00:10:31,720 да се обадите и да получите данни за минали периоди в структуриран формат по начин, 190 00:10:31,720 --> 00:10:32,900 че да може да се използва. 191 00:10:32,900 --> 00:10:36,060 Така че това не е зависима да отиде към сайт 192 00:10:36,060 --> 00:10:37,970 и остъргване на данни на разстояние от него, например. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Така че това е началната страница на Позиция API библиотеката Cloud, 195 00:10:45,010 --> 00:10:47,220 което по същество е неговата версия две. 196 00:10:47,220 --> 00:10:50,130 Така че това е втората итерация на се опитват да направят всички тези данни 197 00:10:50,130 --> 00:10:53,280 на разположение на света. 198 00:10:53,280 --> 00:10:59,560 Така че това е http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 И точно тя да се разбие малко, какво означава това 200 00:11:03,830 --> 00:11:06,115 е, че това е версия две от API. 201 00:11:06,115 --> 00:11:08,490 Има една версия една, която Аз няма да говоря за. 202 00:11:08,490 --> 00:11:09,750 Но има версия една. 203 00:11:09,750 --> 00:11:14,740 >> И ако се обаждате това API, което получавате предмети. 204 00:11:14,740 --> 00:11:20,640 И част от идеята за API е API е договор. 205 00:11:20,640 --> 00:11:23,440 Това е нещо, което е няма да се промени. 206 00:11:23,440 --> 00:11:24,850 Така например, - 207 00:11:24,850 --> 00:11:27,410 >> И причината е, че ако аз изгради някаква система, която 208 00:11:27,410 --> 00:11:33,210 ще използва библиотека облак API за показване на книги или да помогне на хората да намерят 209 00:11:33,210 --> 00:11:36,190 информация в уникални начини, това, което ние не искаме да се случи 210 00:11:36,190 --> 00:11:38,940 е за нас да отидем да промени начина, че API работи, и изведнъж 211 00:11:38,940 --> 00:11:41,340 всичко се разпада от страна на крайния потребител. 212 00:11:41,340 --> 00:11:46,710 Така че част от, ако сте прави API на разположение на света, че е 213 00:11:46,710 --> 00:11:49,396 Добра практика е да се сложи Номер на версията в него, така че хората 214 00:11:49,396 --> 00:11:51,020 знам коя версия си имат работа с. 215 00:11:51,020 --> 00:11:54,300 >> Така че ако решим го намерим по-добър начин предоставяне на достъп до тази информация, 216 00:11:54,300 --> 00:11:57,295 ние може да се промени, че да наричаме тази трета версия. 217 00:11:57,295 --> 00:11:59,920 Така че всеки, който е все още използват Версия за двама, че все пак ще работят. 218 00:11:59,920 --> 00:12:03,490 Но версия три би разполага с всички нови неща. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Така че това е API, но този наистина прилича на URL. 221 00:12:09,210 --> 00:12:11,680 И така, какво е това е пример е това, което е 222 00:12:11,680 --> 00:12:16,615 наречена API почивка, която е на разположение над просто обикновен уеб връзка. 223 00:12:16,615 --> 00:12:19,680 И всъщност можете да отидете на него в браузър. 224 00:12:19,680 --> 00:12:28,550 >> Така че тук аз току-що откри Firefox и отишъл да api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 И така, какво мога да получа тук е основно първата страница 226 00:12:31,560 --> 00:12:34,740 на резултатите от цялата набор от елементи, които ние имаме. 227 00:12:34,740 --> 00:12:37,460 И тя е тук в XML формат. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 И това също е било по- prettified от Firefox. 230 00:12:42,210 --> 00:12:45,850 Той всъщност не всички от тях малко да разширяват и свиват 231 00:12:45,850 --> 00:12:47,880 doohickeys тук. 232 00:12:47,880 --> 00:12:52,520 Това е нещо като по-хубав Версия за начин да го погледнете. 233 00:12:52,520 --> 00:12:57,040 >> Но какво е това ни казва, е Аз бях поискал всички предмети. 234 00:12:57,040 --> 00:13:03,120 Така че има 13,289,475 предмети. 235 00:13:03,120 --> 00:13:06,150 И аз търся по-напред 10, започвайки от нулево положение 236 00:13:06,150 --> 00:13:09,760 защото по компютърни науки ние винаги започва от нула. 237 00:13:09,760 --> 00:13:15,150 И това, което имаме тук, ако просто се срути това, ще видите, че имам 10 позиции. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> И ако мога да разгледаме елемент, което мога се види, че аз имам информация за него. 240 00:13:25,210 --> 00:13:27,400 И това е в това, което се нарича модове форма. 241 00:13:27,400 --> 00:13:30,860 И така, аз отивам да се включите отново тук за момент. 242 00:13:30,860 --> 00:13:33,750 OK. 243 00:13:33,750 --> 00:13:37,447 >> Така че нека да потърсите нещо в специфично, защото първият елемент, който 244 00:13:37,447 --> 00:13:40,030 се случва да излезе, когато се вгледате през цялата колекция 245 00:13:40,030 --> 00:13:41,750 е, по дефиниция, случайна. 246 00:13:41,750 --> 00:13:44,550 Така че нека да погледнем на някои понички. 247 00:13:44,550 --> 00:13:46,830 Oh. 248 00:13:46,830 --> 00:13:49,190 >> OK. 249 00:13:49,190 --> 00:13:49,940 Така понички. 250 00:13:49,940 --> 00:13:55,360 Така че ние открихме там са 80 позиции в събирането на позоваване понички. 251 00:13:55,360 --> 00:13:57,150 Ние не търсим на първите 10 от тях. 252 00:13:57,150 --> 00:14:01,890 Сега, можете да видите тук начинът, по който Аз казах, че търся понички, 253 00:14:01,890 --> 00:14:04,400 Аз просто добавя нещо към низа на заявката и името на страницата. 254 00:14:04,400 --> 00:14:09,680 Така че Q е равно на понички, които можете да виж малко по-лесно тук. 255 00:14:09,680 --> 00:14:12,131 >> И това в общи линии означава, че има спец за API, които 256 00:14:12,131 --> 00:14:13,880 определя какво всички тези параметри означават. 257 00:14:13,880 --> 00:14:17,150 А това означава, че ще се търси всичко за понички. 258 00:14:17,150 --> 00:14:24,910 >> Така че първият елемент тук имаме можете да видите заглавието е Donuts, 259 00:14:24,910 --> 00:14:29,310 и има подзаглавие нарича American Passion, което е, предполагам, 260 00:14:29,310 --> 00:14:31,610 уместно. 261 00:14:31,610 --> 00:14:36,134 Има много на different-- 262 00:14:36,134 --> 00:14:38,050 След като стигнете до точката за получаване на данни, 263 00:14:38,050 --> 00:14:41,020 там са много различни формати, които можете да го получите в. 264 00:14:41,020 --> 00:14:44,050 И има различни силни и слаби страни за всички от тях. 265 00:14:44,050 --> 00:14:49,000 Така че това, можете да видите тук, тази форма е много богат. 266 00:14:49,000 --> 00:14:51,946 И това е стандартизирана. 267 00:14:51,946 --> 00:14:55,040 >> Така че има конкретно заглавие поле, поле за субтитрите. 268 00:14:55,040 --> 00:14:58,950 Има един заместник заглавия, An American Passion. 269 00:14:58,950 --> 00:15:01,650 Има наименованието, свързани с нея. 270 00:15:01,650 --> 00:15:03,120 Тип на ресурса е текст. 271 00:15:03,120 --> 00:15:06,070 Има много информация тук, в този формат. 272 00:15:06,070 --> 00:15:09,480 >> Но има един куп на различни формати. 273 00:15:09,480 --> 00:15:11,920 Така че това, което ние бяхме просто гледаш е формат 274 00:15:11,920 --> 00:15:17,700 наречените модове, което е съкращение от Metadata Object Описание Service, 275 00:15:17,700 --> 00:15:18,250 потенциално. 276 00:15:18,250 --> 00:15:23,030 Аз съм всъщност не е съвсем сигурен за S. Но това е доста сложен формат. 277 00:15:23,030 --> 00:15:24,240 Това е формата по подразбиране. 278 00:15:24,240 --> 00:15:30,260 >> Но това е този, който държи богатството на всички данни 279 00:15:30,260 --> 00:15:33,820 че библиотеката е, защото това е много близо до това, което 280 00:15:33,820 --> 00:15:35,110 библиотеката използва за вътрешни цели. 281 00:15:35,110 --> 00:15:39,030 Това е стандарт, който е използвана в цялата страна, 282 00:15:39,030 --> 00:15:40,944 в целия свят в академичните библиотеки. 283 00:15:40,944 --> 00:15:42,110 И това е много оперативно съвместима. 284 00:15:42,110 --> 00:15:44,852 Така че, ако имаш документ че е в MODS формат, 285 00:15:44,852 --> 00:15:47,560 можете да дадете, че на някой друг чиито системи разбират модове, 286 00:15:47,560 --> 00:15:48,518 и те могат да го внесе. 287 00:15:48,518 --> 00:15:50,840 Така че това е стандартна. 288 00:15:50,840 --> 00:15:54,250 Това е много добре определено, много специфична. 289 00:15:54,250 --> 00:15:58,980 И това е, което го прави оперативно съвместими, защото, ако някой казва, 290 00:15:58,980 --> 00:16:04,930 това е алтернативен заглавието на запис, всеки знае какво означава това. 291 00:16:04,930 --> 00:16:07,740 От друга страна, това е много сложно. 292 00:16:07,740 --> 00:16:13,160 >> Така че, ако погледнем в този запис тук, 293 00:16:13,160 --> 00:16:15,320 ако просто искате да получите заглавието на този документ, 294 00:16:15,320 --> 00:16:21,150 на тази книга, която е може би Donuts, An American Passion, тя разбор на 295 00:16:21,150 --> 00:16:22,940 е малко по-ангажирани. 296 00:16:22,940 --> 00:16:27,380 Като има предвид, че има друг формат, наречен Dublin Core, 297 00:16:27,380 --> 00:16:29,730 което е много, много по-просто формат. 298 00:16:29,730 --> 00:16:33,764 >> И така, което виждате тук, няма заглавието, подзаглавието, заместник заглавието. 299 00:16:33,764 --> 00:16:35,930 Има само заглавието, Donuts, An American Passion, 300 00:16:35,930 --> 00:16:38,780 и друга титла, American Passion. 301 00:16:38,780 --> 00:16:42,907 Така че, когато търсите в каква форма искате да получите данни от, 302 00:16:42,907 --> 00:16:44,740 много зависи от това как започваш да го използвате. 303 00:16:44,740 --> 00:16:46,573 Възможно ли е да използвате за оперативна съвместимост или да направите 304 00:16:46,573 --> 00:16:49,970 Искам нещо по-просто, че може да бъде по-лесно да се работи с? 305 00:16:49,970 --> 00:16:56,002 >> От друга страна, много от подробности се нещо като смачка надолу. 306 00:16:56,002 --> 00:16:58,460 Може да се изплъзне от нюансите на какво определена сфера средства 307 00:16:58,460 --> 00:17:02,960 ако имаш работа с Dublin Core, които не бихте се с модове. 308 00:17:02,960 --> 00:17:06,462 Така че тези, които са два от форматите можете да получите на API. 309 00:17:06,462 --> 00:17:08,920 И в общи линии, ние поддържаме го зад кулисите в модове. 310 00:17:08,920 --> 00:17:14,179 Но ние можем да ви го дам в модове и Dublin Core и нещо друго, както добре. 311 00:17:14,179 --> 00:17:16,470 Другите внимание, когато , което търсите в данните 312 00:17:16,470 --> 00:17:21,210 е можете да го получите като или JSON, които щандове за JavaScript Object Notation, 313 00:17:21,210 --> 00:17:24,720 или XML, което означава Extensible Markup Language. 314 00:17:24,720 --> 00:17:30,080 И тези представяния на данни едновременно са едни и същи данни, точно 315 00:17:30,080 --> 00:17:31,080 същите области. 316 00:17:31,080 --> 00:17:33,644 Но те са само синтактично различно. 317 00:17:33,644 --> 00:17:40,401 >> Така че това е A-- 318 00:17:40,401 --> 00:17:41,400 Е, нека просто да превключите. 319 00:17:41,400 --> 00:17:47,490 Така че това е нашата заявка за понички в XML формат. 320 00:17:47,490 --> 00:17:53,470 Ако аз просто превключвате това да бъде JSON, Виждам, че изглежда различно. 321 00:17:53,470 --> 00:17:58,580 Така че сега това е едно и също съдържание, но различна структура. 322 00:17:58,580 --> 00:18:00,080 Има по-малко ъглови скоби. 323 00:18:00,080 --> 00:18:02,530 Има по-малко многословен. 324 00:18:02,530 --> 00:18:06,440 >> И това е формат, който, ако Работим в уеб среда, 325 00:18:06,440 --> 00:18:09,680 Вие най-вероятно ще да искате да използвате, защото един 326 00:18:09,680 --> 00:18:12,630 от хубави неща за JSON е това е съвместимо с JavaScript. 327 00:18:12,630 --> 00:18:17,680 Така че, ако аз пиша Web App, аз може да тегли в JSON и просто се работи с него директно. 328 00:18:17,680 --> 00:18:20,187 Като има предвид с XML, това е малко по-сложно. 329 00:18:20,187 --> 00:18:21,520 И отново, това са както полезни. 330 00:18:21,520 --> 00:18:26,387 Те просто са различни случаи работа където някой може да искат да ги използват. 331 00:18:26,387 --> 00:18:26,886 OK. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Така че обратно на API. 334 00:18:31,680 --> 00:18:32,900 Така че можем да търсим for-- 335 00:18:32,900 --> 00:18:36,220 >> Давам пример за търсите понички. 336 00:18:36,220 --> 00:18:39,330 Можем също така да търсите само в конкретна област в рамките тук. 337 00:18:39,330 --> 00:18:41,310 Така че, вместо да търсите целия запис, 338 00:18:41,310 --> 00:18:43,870 Не мога просто търсите полето за заглавие. 339 00:18:43,870 --> 00:18:48,810 И така, сега има 25 неща, които има понички в заглавието, единият от които 340 00:18:48,810 --> 00:18:52,430 е за възстановяване влажните зони в управлението 341 00:18:52,430 --> 00:18:54,990 на отвора на поничка програма, която е може би 342 00:18:54,990 --> 00:18:58,970 Не е задължително това, което търсим за когато сме търсите понички. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> Можете също така, когато си занимаващи се с API-- 345 00:19:05,490 --> 00:19:08,827 >> Част от имаща API дава на хората достъп до големи масиви от данни. 346 00:19:08,827 --> 00:19:11,410 И има няколко различни инструменти, можете да използвате, за да направите това. 347 00:19:11,410 --> 00:19:14,170 Един от тях е, много просто, вие да прелиствате данните. 348 00:19:14,170 --> 00:19:17,340 Така че, точно както ако го направите заявка през уеб интерфейс, 349 00:19:17,340 --> 00:19:19,470 можете да погледнете страницата един, втора страница, трета страница. 350 00:19:19,470 --> 00:19:22,040 Можете да направите същото нещо чрез API. 351 00:19:22,040 --> 00:19:24,150 Ти просто трябва да бъде изрично в това как да го направя. 352 00:19:24,150 --> 00:19:29,511 >> Така например, ако аз търся При първата ми заявка тук, 353 00:19:29,511 --> 00:19:32,510 когато правя търсене на неща с понички в заглавието, което мога да кажа, 354 00:19:32,510 --> 00:19:35,415 и граница се равнява на 20, което означава, ми даде първите 20 записа, не 355 00:19:35,415 --> 00:19:38,540 първата 10, който е по подразбиране, защото искам да гледам 20 в даден момент. 356 00:19:38,540 --> 00:19:43,435 Или мога да кажа, настройте започнете равна на 20 и лимит 357 00:19:43,435 --> 00:19:47,150 се равнява на 20, което ще се получи ме записва 21 до 40. 358 00:19:47,150 --> 00:19:52,680 >> Така че предполагам, че нещо да отнеме тук е 359 00:19:52,680 --> 00:19:57,290 който използваме конците от заявката да се определят параметрите на заявката. 360 00:19:57,290 --> 00:20:02,760 И това ви позволява да управлявате това, което получаваш обратно. 361 00:20:02,760 --> 00:20:05,980 >> Друг инструмент, който можете да използвате, - 362 00:20:05,980 --> 00:20:09,250 >> И това е наистина от полза в Условия за проучване на данните. 363 00:20:09,250 --> 00:20:10,840 >> --is нещо, наречено faceting. 364 00:20:10,840 --> 00:20:15,530 Така че терминът faceting е не непременно общ. 365 00:20:15,530 --> 00:20:16,880 Но вие всички сте го виждали преди. 366 00:20:16,880 --> 00:20:18,630 Ако погледнете на Amazon, например, 367 00:20:18,630 --> 00:20:20,870 и го направите търсене за понички в книгите 368 00:20:20,870 --> 00:20:27,080 Тук те имат поредица от книги, и те са групирани по категории, 369 00:20:27,080 --> 00:20:30,470 и ще получите най-различни категории, и колко книги във всяка категория 370 00:20:30,470 --> 00:20:31,330 се появи. 371 00:20:31,330 --> 00:20:33,420 >> Така че това е в основата на фасет. 372 00:20:33,420 --> 00:20:37,570 Взимаш всички свои книги, на 1800 книги, които съответстват на понички в Amazon. 373 00:20:37,570 --> 00:20:39,820 12 от тях са в категория закуска. 374 00:20:39,820 --> 00:20:43,100 21 в сладкиши и печене, и така нататък и така нататък. 375 00:20:43,100 --> 00:20:47,670 >> Така че това е наистина полезно инструмент за разглеждане на съдържанието 376 00:20:47,670 --> 00:20:53,260 в библиотеката, както и защото, когато се вгледате в един аспект, 377 00:20:53,260 --> 00:20:56,520 тя дава представа за това какви теми съществува, като това, което видове теми 378 00:20:56,520 --> 00:20:58,510 са най-популярни в рамките на вашата заявка набор. 379 00:20:58,510 --> 00:21:00,950 И това ви помага да се изкара и да проучи. 380 00:21:00,950 --> 00:21:02,770 Така че ние можем да направим същото. 381 00:21:02,770 --> 00:21:05,940 >> Ако искате да използвате API и погледнете аспекти, 382 00:21:05,940 --> 00:21:08,950 добавим още един параметър, за да нашият приятел низ заявка. 383 00:21:08,950 --> 00:21:12,540 Така аспекти равнява разделени със запетая списък на това, което искаме да Facet нататък. 384 00:21:12,540 --> 00:21:14,790 Така че един от аспектите може да бъде предмет. 385 00:21:14,790 --> 00:21:16,565 Друг може да е език. 386 00:21:16,565 --> 00:21:19,665 И така, ако бягаме, че заявката, ние get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Тя изглежда почти същото тук. 389 00:21:24,830 --> 00:21:29,010 Но ние сме се добавя в края на списъка на набор от аспекти. 390 00:21:29,010 --> 00:21:34,060 Така че ние имаме един аспект, наречен обект. 391 00:21:34,060 --> 00:21:40,250 Така че това ни казва, че ако аз гледам в моите 80 резултати от запитването на поничка, 392 00:21:40,250 --> 00:21:42,100 13 от тях са на подложи United States. 393 00:21:42,100 --> 00:21:43,684 Три имат предмет понички. 394 00:21:43,684 --> 00:21:45,600 Три държави-членки предмет на възстановяване на влажни зони, 395 00:21:45,600 --> 00:21:47,720 която може да бъде нашата дупка в поничка. 396 00:21:47,720 --> 00:21:51,780 Двама от тях, семейство Симпсън, и така нататък и така нататък. 397 00:21:51,780 --> 00:21:59,211 >> Така че това може да бъде полезно, ако искате да ограничите търсенето си. 398 00:21:59,211 --> 00:22:00,210 Той може да ви помогне да направите това. 399 00:22:00,210 --> 00:22:03,580 Особено, ако имате повече от, да речем, 80 резултати. 400 00:22:03,580 --> 00:22:05,980 >> По същия начин, ние също така поиска за фасетки от езика. 401 00:22:05,980 --> 00:22:14,790 Така че, ако погледнем резултатите ни, ние виждаме, 76 от тях са на английски език, четири френски език, 402 00:22:14,790 --> 00:22:19,620 двама в испанския, две, аз мисля, че е неопределен или неизвестен, холандски и латински. 403 00:22:19,620 --> 00:22:22,830 Така че аз мисля, че латинското поничка резултат, отново, 404 00:22:22,830 --> 00:22:24,922 няма нищо общо с тестени изделия. 405 00:22:24,922 --> 00:22:25,630 Но там ще отида. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Така че това е нещо като ви показва как можете да дръпнете съдържанието назад 408 00:22:38,630 --> 00:22:41,270 от API само чрез уеб браузър, което е страхотно. 409 00:22:41,270 --> 00:22:44,320 Но това не е наистина това, което ще обикновено се използва по API за него. 410 00:22:44,320 --> 00:22:48,710 Така че един пример за това как можете в действителност може да се направи това е Нямам 411 00:22:48,710 --> 00:22:54,720 писмено супер малка програма, което, отново, не намирам поничка 412 00:22:54,720 --> 00:22:59,010 и избира няколко области и ги показва в таблица. 413 00:22:59,010 --> 00:23:01,610 Така че това е много по същото съдържание, което ние просто 414 00:23:01,610 --> 00:23:04,830 трион с няколко полета извади. 415 00:23:04,830 --> 00:23:12,090 Така списък на заглавията, на населено място от това, което книгата 416 00:23:12,090 --> 00:23:15,120 е около, езика, и така нататък и така нататък. 417 00:23:15,120 --> 00:23:20,480 >> И така, как това се е случило, тъй като Предполагам, че трябва да обърнем внимание на някои код, 418 00:23:20,480 --> 00:23:22,420 is-- 419 00:23:22,420 --> 00:23:28,060 >> Това, което имаме тук е прост HTML страница, която показва текста, 420 00:23:28,060 --> 00:23:32,900 добре дошли в библиотеката облак и След това показва таблица с резултати. 421 00:23:32,900 --> 00:23:37,790 И там са очевидно няма резултати в таблицата, когато страницата получава зареден. 422 00:23:37,790 --> 00:23:41,380 Но това, което правим е, на първо място, ние 423 00:23:41,380 --> 00:23:46,290 зареждате библиотека, наречена Jquery, която е в основата 424 00:23:46,290 --> 00:23:52,030 на JavaScript библиотека, което го прави много лесно да се манипулира JavaScript 425 00:23:52,030 --> 00:23:58,780 роден, HTML, и създаването на уеб страници, от страна на клиента логика и уеб страници. 426 00:23:58,780 --> 00:24:01,595 >> Така че това, което имаме тук, е JQuery има метод наречен получи, 427 00:24:01,595 --> 00:24:05,270 който по същество ще отидат за един URL, който в този случай, 428 00:24:05,270 --> 00:24:09,070 е тази позната търси URL. 429 00:24:09,070 --> 00:24:14,440 И след това ще получите съдържанието от че URL и след това пуснете функция върху него. 430 00:24:14,440 --> 00:24:19,240 Така че ние казахме, отидете на api.lib.harvard / ОБН. 431 00:24:19,240 --> 00:24:20,060 Търсене за понички. 432 00:24:20,060 --> 00:24:21,300 Дайте ни 20 записа. 433 00:24:21,300 --> 00:24:28,590 И след това да изпълните тази функция, която Аз бях избран, той прекара данните. 434 00:24:28,590 --> 00:24:34,430 И на данните е JSON, че имам върна от API. 435 00:24:34,430 --> 00:24:40,120 >> И тогава ние да кажеш, че в рамките на този данни има поле наречено т. 436 00:24:40,120 --> 00:24:48,117 И като отида да погледна назад към един от тези резултати, че е тук, 437 00:24:48,117 --> 00:24:49,200 има нещо called-- 438 00:24:49,200 --> 00:24:50,220 >> Е, това се нарича позиция. 439 00:24:50,220 --> 00:24:53,520 Така че може да е това. 440 00:24:53,520 --> 00:25:01,840 И какво прави той е минава през всеки елемент 441 00:25:01,840 --> 00:25:05,300 и след това се нарича още функция на всяка точка. 442 00:25:05,300 --> 00:25:08,440 И тази функция основно се приема стойността 443 00:25:08,440 --> 00:25:12,010 на стоката, която е същество отделен запис 444 00:25:12,010 --> 00:25:18,220 и ни позволява да извадя титлата, обхвата и езика. 445 00:25:18,220 --> 00:25:21,640 >> Така че ние наричаме функция на всеки т, че се върнахме от API. 446 00:25:21,640 --> 00:25:25,397 А ако просто погледнете при това парче точно тук, 447 00:25:25,397 --> 00:25:27,230 това, което правим, е ние създаваме низ, 448 00:25:27,230 --> 00:25:31,810 който е по същество някои HTML маркиране около една маса, с value.title, 449 00:25:31,810 --> 00:25:35,790 която е заглавието на обект, value.coverage, 450 00:25:35,790 --> 00:25:36,790 която е покритието, - 451 00:25:36,790 --> 00:25:38,225 >> И ние правим проверка тук, за да видите кой е неопределена 452 00:25:38,225 --> 00:25:40,570 и да го крие, ако тя казва неопределено, защото ние не сме много заинтересовани 453 00:25:40,570 --> 00:25:41,600 в това. 454 00:25:41,600 --> 00:25:42,939 >> --and тогава езика. 455 00:25:42,939 --> 00:25:44,730 И след това, което ние сме прави се положат, че 456 00:25:44,730 --> 00:25:48,510 на масата, което е определени от този низ тук. 457 00:25:48,510 --> 00:25:50,790 И как работи JQuery е какво е това казва 458 00:25:50,790 --> 00:25:56,420 за таблицата с идея се погледне резултати и добавете този текст към него. 459 00:25:56,420 --> 00:25:59,380 И това е таблицата с резултати идея. 460 00:25:59,380 --> 00:26:04,998 Така че това, което в крайна сметка с е тази страница тук. 461 00:26:04,998 --> 00:26:06,206 И, за да видите source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Е, източникът не е реално актуализира, когато това се случи. 464 00:26:13,810 --> 00:26:18,740 Така че можете да видите действителната Резултати от масата тук все пак. 465 00:26:18,740 --> 00:26:24,770 >> Така че това е само един прост пример за прави един много основен въпрос срещу API 466 00:26:24,770 --> 00:26:29,020 и показване на информация по някакъв друг образуват, и не прави нищо прекалено фантазия. 467 00:26:29,020 --> 00:26:36,370 Сега, друг пример е като молба, написана от Дейвид Уайнбъргър 468 00:26:36,370 --> 00:26:39,120 като демонстрация на това, което същество ви показва 469 00:26:39,120 --> 00:26:44,620 как можете да миксират на резултатите, които получаваме от библиотека облак API на 470 00:26:44,620 --> 00:26:46,250 с, да речем, Google Books. 471 00:26:46,250 --> 00:26:52,225 >> И мисленето тук е, че мога пуснете запитване срещу Google Books, 472 00:26:52,225 --> 00:26:56,060 получите пълно текстово търсене, да получите някои резултати обратно, да разберете кои от тези елементи 473 00:26:56,060 --> 00:27:01,180 действително съществува в Холис, библиотечната система, 474 00:27:01,180 --> 00:27:03,200 и след това да ми даде линкове назад към онези позиции. 475 00:27:03,200 --> 00:27:12,730 Така че, ако търсите, че е тъмна и бурна нощ, I 476 00:27:12,730 --> 00:27:16,210 се върна куп резултати от Google, а след това един резултат 477 00:27:16,210 --> 00:27:19,460 което е Wrinkle във времето. 478 00:27:19,460 --> 00:27:29,330 И това са линкове към книги, които съществуват в рамките на системата Харвард библиотека. 479 00:27:29,330 --> 00:27:32,160 >> Така че предполагам, въпросът тук не е толкова много, че това може или не може 480 00:27:32,160 --> 00:27:34,118 е начинът, по който искате за да търсите в библиотеката, 481 00:27:34,118 --> 00:27:38,310 но това е съвсем друг начин, който не е на разположение, за да ви 482 00:27:38,310 --> 00:27:42,884 преди, като теб нямаше как да правим пълно текстово търсене на книги, които дори 483 00:27:42,884 --> 00:27:44,550 са част от системата Харвард библиотека. 484 00:27:44,550 --> 00:27:46,870 Така че сега това е начин че можете да направите това. 485 00:27:46,870 --> 00:27:51,930 И вие може да ги покаже в каквото формат, който искате. 486 00:27:51,930 --> 00:27:55,990 Така че въпросът тук е, общо взето, ние сме се откриват нови начини за хората 487 00:27:55,990 --> 00:27:59,080 за работа с данните. 488 00:27:59,080 --> 00:28:07,925 >> Друга част от библиотека облак е, че тя помага да изложи някои от данните за ползване 489 00:28:07,925 --> 00:28:08,800 че библиотеката разполага. 490 00:28:08,800 --> 00:28:12,630 Така че, ако отидете в библиотеката, и, което търсите книги, 491 00:28:12,630 --> 00:28:15,770 Не е задължително всъщност имат представа за това, 492 00:28:15,770 --> 00:28:19,080 за всички елементи в една конкретен въпрос, какво 493 00:28:19,080 --> 00:28:21,200 са хората в Общността, независимо дали е 494 00:28:21,200 --> 00:28:24,890 определя като Harvard или страна или вашия клас, 495 00:28:24,890 --> 00:28:26,421 Какво са намерени най-полезни? 496 00:28:26,421 --> 00:28:28,920 И библиотеката всъщност има тон на информация за това, което 497 00:28:28,920 --> 00:28:32,999 е най-полезен, защото ако много на хора, които напускат една книга, 498 00:28:32,999 --> 00:28:34,040 че ти казва нещо. 499 00:28:34,040 --> 00:28:36,498 Трябва да е имало някаква причина те искат да го проверите. 500 00:28:36,498 --> 00:28:38,270 Много хора го постави на резерв. 501 00:28:38,270 --> 00:28:42,520 >> Ако това е в списъка с резерви за много на класа, който ви казва нещо. 502 00:28:42,520 --> 00:28:45,960 Ако преподавателите са го за проверка изложени много и студенти не са, 503 00:28:45,960 --> 00:28:47,200 че ми казва нещо. 504 00:28:47,200 --> 00:28:49,280 Обратно, че също ти казва нещо. 505 00:28:49,280 --> 00:28:54,680 Така че това ще бъде наистина интересно да се поставим тази информация там и нека 506 00:28:54,680 --> 00:28:59,969 хора го използват, за да им помогне да намерят работи в рамките на библиотечната система. 507 00:28:59,969 --> 00:29:02,260 Обратната страна на това е, има някои сериозни неприкосновеността на личния живот 508 00:29:02,260 --> 00:29:07,854 опасения, тъй като един от най- основните принципи на библиотеката 509 00:29:07,854 --> 00:29:10,770 е ние няма да се казва, хората това, което другите хора са четене. 510 00:29:10,770 --> 00:29:17,360 И дори и да се казва това книга е проверен четири пъти 511 00:29:17,360 --> 00:29:20,070 в даден месец, че може да се използва 512 00:29:20,070 --> 00:29:25,252 да създадете връзка към конкретен човек от данни де-анонимизиращи 513 00:29:25,252 --> 00:29:26,710 и разбере кой го проверява. 514 00:29:26,710 --> 00:29:30,792 Така че начинът, по който можем да avoid-- 515 00:29:30,792 --> 00:29:33,750 Начинът, по който можем да се опитаме да се извлече някои сигнал от цялата информация, 516 00:29:33,750 --> 00:29:36,740 без да се нарушава личния живот ничии 517 00:29:36,740 --> 00:29:42,150 е по същество погледнем 10 години на данни за употреба, - 518 00:29:42,150 --> 00:29:43,930 >> Така че това е продължение на дълъг период от време. 519 00:29:43,930 --> 00:29:50,639 >> --and кажа, OK, нека да видим как много пъти е била използвана тази работа, 520 00:29:50,639 --> 00:29:52,930 и от които през този период от време, а след това в общи линии 521 00:29:52,930 --> 00:29:56,300 да върне определен брой, които ние наричаме Оценката, комин, който в общи линии 522 00:29:56,300 --> 00:29:59,910 представлява колко това е било използвано. 523 00:29:59,910 --> 00:30:01,084 И това number-- 524 00:30:01,084 --> 00:30:03,250 Много различни изчисления отидат в това число. 525 00:30:03,250 --> 00:30:05,150 --but това е много грубо метрика, която ви дава 526 00:30:05,150 --> 00:30:11,300 някаква представа за това как Общността може да ценим тази работа. 527 00:30:11,300 --> 00:30:16,772 >> И така, друг вид дори по-конкретно формулирани кандидатстване 528 00:30:16,772 --> 00:30:18,480 който се възползва на това е нещо, 529 00:30:18,480 --> 00:30:24,000 наречено Stacklife, който всъщност е достъпни чрез главния Харвард 530 00:30:24,000 --> 00:30:24,880 Библиотека портал. 531 00:30:24,880 --> 00:30:26,700 Така че и да отидете да library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Ще видите няколко различни начини за търсене в библиотеката. 533 00:30:29,360 --> 00:30:32,300 И един от тях се нарича Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> И това е приложение, което преглежда съдържанието на библиотеката, 535 00:30:38,980 --> 00:30:43,490 но е напълно изграден на върха на тези APIs. 536 00:30:43,490 --> 00:30:46,910 Така че няма специални неща става зад кулисите. 537 00:30:46,910 --> 00:30:49,570 Няма никакъв достъп до данни, че не е нужно. 538 00:30:49,570 --> 00:30:54,090 Той е с помощта на API, за да ви предостави с напълно различна браузване 539 00:30:54,090 --> 00:30:55,480 опит. 540 00:30:55,480 --> 00:30:58,570 >> Така че, ако търсите за Alice в страната на чудесата в този случай, 541 00:30:58,570 --> 00:31:02,600 Получавам резултат, който изглежда като това, което е доста much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> Това е много подобна на всяка друга търсачка може да се направи, освен в този случай 544 00:31:10,870 --> 00:31:15,730 ние сме в класацията, елементите от stackscore, която ви дава 545 00:31:15,730 --> 00:31:19,850 някаква представа за това колко популярни са те елементи са в рамките на Общността. 546 00:31:19,850 --> 00:31:25,610 И така ясно, Алиса в страната на чудесата от Walt Disney е много популярна. 547 00:31:25,610 --> 00:31:36,570 Но вие можете да видите първата четворка тук са тези, които може да не actually-- 548 00:31:36,570 --> 00:31:39,220 >> Нещата, които са силно използвани, но вие не може незабавно да 549 00:31:39,220 --> 00:31:41,240 свържете с Алиса в страната на чудесата. 550 00:31:41,240 --> 00:31:44,650 Така че нашият стар приятел на Анотирано Alice е тук. 551 00:31:44,650 --> 00:31:46,350 Така че аз може да погледнете в него. 552 00:31:46,350 --> 00:31:52,010 И сега това, което търся в е в основата на определен of-- 553 00:31:52,010 --> 00:31:53,760 Мога да имам с обяснителни бележки Alice точно тук. 554 00:31:53,760 --> 00:31:56,700 Имам информация за него. 555 00:31:56,700 --> 00:32:00,230 И аз също имам stackscore на, в този случай, 26. 556 00:32:00,230 --> 00:32:03,169 И това ми казва нещо грубо как се стигна до тази stackscore, 557 00:32:03,169 --> 00:32:05,835 като кой го проверява, като как Много пъти той е бил проверени, 558 00:32:05,835 --> 00:32:08,440 като преподаватели или undergrads, как много копия на библиотеката, 559 00:32:08,440 --> 00:32:11,300 и така нататък и така нататък. 560 00:32:11,300 --> 00:32:16,460 >> И вие можете също, достатъчно интересно тук, да разглеждате купчините практика. 561 00:32:16,460 --> 00:32:19,550 Така че данните тук, тази ще ти покаже сортиране 562 00:32:19,550 --> 00:32:23,547 на виртуална представителство от това, което му срок на мощта 563 00:32:23,547 --> 00:32:25,880 изглежда, ако ви се налага да се вземат всички стопанства на библиотеката 564 00:32:25,880 --> 00:32:28,940 и ги съберете заедно на една безкрайна рафт. 565 00:32:28,940 --> 00:32:30,990 И хубавото е, че ние can-- 566 00:32:30,990 --> 00:32:33,380 >> На първо място, метаданни за тези книги 567 00:32:33,380 --> 00:32:35,627 често ви казва, когато тя е била публикувана. 568 00:32:35,627 --> 00:32:37,085 Той ви казва колко страници има. 569 00:32:37,085 --> 00:32:38,459 Тя може да ви каже размерите. 570 00:32:38,459 --> 00:32:42,930 Така че можете да видите, че е отразено тук от гледна точка на размера на книгите. 571 00:32:42,930 --> 00:32:46,740 >> И тогава ние можем да използваме стека на полувремето, за да маркирате 572 00:32:46,740 --> 00:32:49,170 книгите, които имат по-високи резултати стак. 573 00:32:49,170 --> 00:32:54,930 Така че, ако това е по-тъмен, това означава, че, Предполага се, че се използва по-често. 574 00:32:54,930 --> 00:32:57,040 Така че в този случай, аз съм ще Предполагам, че това 575 00:32:57,040 --> 00:33:03,226 е версия на Алиса в страната на чудесата че много често се използва и най- 576 00:33:03,226 --> 00:33:05,100 преглеждана, библиотеката има най-много копия от. 577 00:33:05,100 --> 00:33:06,975 Така че, ако търсите за Алиса в страната на чудесата, 578 00:33:06,975 --> 00:33:10,220 това може да е добро място за начало. 579 00:33:10,220 --> 00:33:13,500 >> И след това тук можете да се свържете на да, да кажем, Amazon да закупите книгата, 580 00:33:13,500 --> 00:33:15,182 и така нататък и така нататък. 581 00:33:15,182 --> 00:33:17,140 Въпросът тук, отново, не е толкова много, че този 582 00:33:17,140 --> 00:33:25,030 е най-добрият начин да сърфирате в библиотеката или най-подходящия инструмент за всеки повод. 583 00:33:25,030 --> 00:33:28,400 Но това е друг начин да го направите. 584 00:33:28,400 --> 00:33:31,359 И като направи данните достъпно чрез API, които 585 00:33:31,359 --> 00:33:34,650 е направена от много прости изграждащи блокове, която ви позволява да търсите в съдържанието, 586 00:33:34,650 --> 00:33:39,420 може да се изгради нещо като тази, която може да 587 00:33:39,420 --> 00:33:41,520 бъде изключително ценен за някои хора. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Така че това е нещо, колкото искам да се каже наистина за какво API е 590 00:33:51,860 --> 00:33:56,070 и това, което тя излага, че има цяло куп неща зад кулисите, които 591 00:33:56,070 --> 00:33:59,480 Аз съм просто ще засегна накратко Просто защото това нещо се случва в тази 592 00:33:59,480 --> 00:34:03,720 от съвсем различен ъгъл в от гледна точка на това как прави нещо подобно 593 00:34:03,720 --> 00:34:04,580 се поставя на мястото? 594 00:34:04,580 --> 00:34:10,820 >> Така на API е стандартен интерфейса на всичко това съдържание. 595 00:34:10,820 --> 00:34:13,820 Но за да го стигнем до там, за Първото нещо, което трябваше да направим 596 00:34:13,820 --> 00:34:17,260 се съюзим информация на книги и изображения 597 00:34:17,260 --> 00:34:21,580 и справочни издания, събирането документ от различни Харвард системи. 598 00:34:21,580 --> 00:34:23,929 Aleph, VIA и OASIS са имената на системите. 599 00:34:23,929 --> 00:34:28,820 И те по същество отида в тръбопровод, тръбопровод обработка. 600 00:34:28,820 --> 00:34:33,230 >> Така че на първо място, ние се износ файлове от всички тези системи. 601 00:34:33,230 --> 00:34:35,130 Ние ги разделя на отделни елементи. 602 00:34:35,130 --> 00:34:39,360 Така че ние имаме един файл, който е гигабайт, който има един милион записи в него. 603 00:34:39,360 --> 00:34:42,290 Така че ние го разделя на отделни елементи. 604 00:34:42,290 --> 00:34:45,374 След това, за всяка позиция, ние го конвертира в MODS, тъй като някои от тях 605 00:34:45,374 --> 00:34:47,040 са на местен език модове, някои от тях не са. 606 00:34:47,040 --> 00:34:49,204 Така че ние ги стигнем до да бъде в същия формат. 607 00:34:49,204 --> 00:34:51,120 След това има различни обогатяване стъпки, където 608 00:34:51,120 --> 00:34:55,969 ние добавяме повече информация на данните отколкото е на разположение в библиотеката. 609 00:34:55,969 --> 00:34:59,750 Така че ние трябва да добавим, на първо място имаме какво библиотеки го притежават. 610 00:34:59,750 --> 00:35:02,250 Ние премине през етап на изчисляване на stackscore. 611 00:35:02,250 --> 00:35:07,112 Влизаме през друг етап на добавяне на повече метаданни от гледна точка 612 00:35:07,112 --> 00:35:10,730 на какви колекции хора би могъл да добави this-- 613 00:35:10,730 --> 00:35:12,532 >> Хората създават колекции от предмети. 614 00:35:12,532 --> 00:35:13,990 Какво колекции пък принадлежат към? 615 00:35:13,990 --> 00:35:17,220 Как са маркирани хора Това съдържание в миналото? 616 00:35:17,220 --> 00:35:20,750 След това можете да филтрира, и да ограничавате записите, защото, както вече споменах, 617 00:35:20,750 --> 00:35:24,120 Има някои записи, които, поради авторското право причини, не можем да се показват. 618 00:35:24,120 --> 00:35:26,700 И тогава ние ги зареди в нещо, наречено 619 00:35:26,700 --> 00:35:31,680 Solr, която не е правописна грешка, но е името на част от софтуера, 620 00:35:31,680 --> 00:35:35,710 който прави търсене индексиране, които пътува цяла търсенето зад API. 621 00:35:35,710 --> 00:35:40,110 И тогава тя стане достъпна за В API, и хората могат да го използват. 622 00:35:40,110 --> 00:35:44,640 >> Така че това е като сравнително прост процес. 623 00:35:44,640 --> 00:35:47,230 Един от интересните неща за него е, 624 00:35:47,230 --> 00:35:50,990 че ние се занимаваме с 13 милиона записи 625 00:35:50,990 --> 00:35:53,820 и ние ще се занимават или повече. 626 00:35:53,820 --> 00:36:01,260 И ние искаме да бъде в състояние да се справя те в сравнително бързия начин. 627 00:36:01,260 --> 00:36:03,630 Това отнема много време, за да обработва 13 милиона записи. 628 00:36:03,630 --> 00:36:09,529 >> И така, как този газопровод е създаден е, че сте can-- 629 00:36:09,529 --> 00:36:12,070 Предполагам, че предимството на тръбопровод, проблемът, че ние сме 630 00:36:12,070 --> 00:36:15,580 опитът да се реши тук, е, че всички трансформации, всички 631 00:36:15,580 --> 00:36:18,729 тези стъпки в тази тръбопроводи могат да бъдат отделени. 632 00:36:18,729 --> 00:36:19,645 Няма никаква зависимост. 633 00:36:19,645 --> 00:36:22,146 Ако Обработваме запис на една книга, 634 00:36:22,146 --> 00:36:24,270 че няма зависимост, че между друга книга. 635 00:36:24,270 --> 00:36:27,760 >> И така, какво можем да направим, е в общи линии, на всяка стъпка в процес на подготовка, 636 00:36:27,760 --> 00:36:30,470 ние го пуснат в режим на изчакване в облака. 637 00:36:30,470 --> 00:36:32,250 Аз се случи да бъде на Amazon Web Services. 638 00:36:32,250 --> 00:36:35,140 Така че има списък с, казват, 10000 нужните 639 00:36:35,140 --> 00:36:38,100 Трябва да се нормализира и превръща MODS формат. 640 00:36:38,100 --> 00:36:41,620 И ние се върти като много сървъри както ние искаме, може би 10 сървъра. 641 00:36:41,620 --> 00:36:44,860 И всеки един от тези сървъри просто седи там, изглежда, че в опашката, 642 00:36:44,860 --> 00:36:46,730 вижда, че има един, който трябва да да се обработват, тя дърпа опашката, 643 00:36:46,730 --> 00:36:48,740 обработва я и щеки то на следващия опашката. 644 00:36:48,740 --> 00:36:54,200 >> И така, това, което ни позволява, че да направите, е да се прилага, по същество, 645 00:36:54,200 --> 00:36:58,110 колкото хардуер, както ние искаме да това проблем за много кратък период от време 646 00:36:58,110 --> 00:37:02,970 да обработва данните, най-бързо възможно, което е нещо, което само, 647 00:37:02,970 --> 00:37:08,220 сега в света на облачните изчисления Ние можем предоставяне сървъри същество 648 00:37:08,220 --> 00:37:09,890 мигновено, че е полезно. 649 00:37:09,890 --> 00:37:12,260 Така че ние не трябва да има гигант сървър около заседание 650 00:37:12,260 --> 00:37:16,700 през цялото време да се направи обработката че може да се случи само веднъж седмично. 651 00:37:16,700 --> 00:37:21,440 >> Така че това е най-вече тя. 652 00:37:21,440 --> 00:37:27,590 Има налична документация за т API библиотеката Cloud 653 00:37:27,590 --> 00:37:31,960 На този URL, който ще бъде на разположение по-късно. 654 00:37:31,960 --> 00:37:36,730 И моля, проверете да разгледаме тя да се види, ако има нещо, 655 00:37:36,730 --> 00:37:37,579 Имате ли някакви идеи. 656 00:37:37,579 --> 00:37:38,120 Играйте с него. 657 00:37:38,120 --> 00:37:38,830 Поиграйте си малко. 658 00:37:38,830 --> 00:37:42,800 И се надяваме, можете да дойдете с нещо голямо. 659 00:37:42,800 --> 00:37:44,740 Благодаря. 660 00:37:44,740 --> 00:37:45,899