1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY Licht: Здраво таму. 3 00:00:12,370 --> 00:00:13,550 Јас сум Џефри Licht. 4 00:00:13,550 --> 00:00:17,890 И јас сум тука да зборувам со вас за Харвард библиотека и градење на иднината 5 00:00:17,890 --> 00:00:20,870 библиотека денес, претпоставувам. 6 00:00:20,870 --> 00:00:23,040 Значи позадина тука, теренот за оваа сесија 7 00:00:23,040 --> 00:00:26,930 е во суштина дека не е многу библиографски податоци 8 00:00:26,930 --> 00:00:28,400 достапни на Харвард библиотеки. 9 00:00:28,400 --> 00:00:33,434 И постои можност, преку некои од алатки 10 00:00:33,434 --> 00:00:36,350 и еден проект кој се развива, за да го добиете пристап до информации 11 00:00:36,350 --> 00:00:42,430 и го однесе на места кои Харвард библиотека не се прави во моментов, 12 00:00:42,430 --> 00:00:45,460 направи нови нешта со тоа, експеримент и се позанимавам со неа. 13 00:00:45,460 --> 00:00:52,413 >> Значи влезна точка во ова е API повика на Харвард библиотека Облак, која 14 00:00:52,413 --> 00:00:57,650 е отворен метаподатоци сервер, која ќе зборуваме за тоа сега. 15 00:00:57,650 --> 00:01:02,595 Значи, позадината е дека постои многу нешта во библиотеката на Харвард. 16 00:01:02,595 --> 00:01:07,150 Имаме над 13 милиони библиографски евиденција, милиони слики, 17 00:01:07,150 --> 00:01:11,090 и илјадници наоѓање помагала, кои се суштински документи опишувајќи 18 00:01:11,090 --> 00:01:15,500 колекции, велејќи дека она што е во нив, кутии со документи 19 00:01:15,500 --> 00:01:21,080 и така натаму, кои претставуваат повеќе еден милион посебни документи. 20 00:01:21,080 --> 00:01:24,290 И таму е исто така многу информации дека библиотеката има 21 00:01:24,290 --> 00:01:28,180 за тоа како содржина се користи што може да биде од интерес за луѓе 22 00:01:28,180 --> 00:01:32,400 кои би сакале да работат со него. 23 00:01:32,400 --> 00:01:36,150 >> Значи сите информации Во библиотеката има метаподатоци. 24 00:01:36,150 --> 00:01:39,500 Значи метаподатоци е податоци за податоци. 25 00:01:39,500 --> 00:01:42,070 Значи, кога зборуваме за информации кои 26 00:01:42,070 --> 00:01:44,890 достапни преку библиотеката облак кој е на располагање, 27 00:01:44,890 --> 00:01:47,760 тоа не е нужно вистинските документи 28 00:01:47,760 --> 00:01:53,060 себе, не мора да значи целосна Текстот на книги или целосни слики, 29 00:01:53,060 --> 00:01:54,890 иако тоа всушност може да биде случај. 30 00:01:54,890 --> 00:01:57,550 Но, тоа е навистина информации за податоци. 31 00:01:57,550 --> 00:02:00,909 >> Значи може да се мисли на каталогизација информации, јавете се броеви, предмети, 32 00:02:00,909 --> 00:02:02,700 колку копии од книга има, што 33 00:02:02,700 --> 00:02:06,380 се изданија, кои се формати, авторите, и така натаму. 34 00:02:06,380 --> 00:02:12,250 Значи има многу информации во врска со информациите во колекцијата што, 35 00:02:12,250 --> 00:02:14,400 само по себе, е вид на инхерентно корисни. 36 00:02:14,400 --> 00:02:19,230 И покрај тоа, ако сте прави во-длабочината на истражување, 37 00:02:19,230 --> 00:02:25,160 Очигледно сакате да се дојде до вистински самата содржина и се погледне на податоци, 38 00:02:25,160 --> 00:02:30,140 метаподатоците е корисно во смисла на и анализа на корпус, како целина, 39 00:02:30,140 --> 00:02:33,870 како што работите се во колекцијата. 40 00:02:33,870 --> 00:02:35,520 Како да се однесуваат? 41 00:02:35,520 --> 00:02:39,482 Тоа ви помага да навистина се најдат други нешта, кој е всушност главната цел на неа. 42 00:02:39,482 --> 00:02:41,190 Поентата на метаподатоци и каталог 43 00:02:41,190 --> 00:02:43,230 е да ви помогнеме да ги најдете сите информации кои 44 00:02:43,230 --> 00:02:46,590 располагање во рамките на колекции. 45 00:02:46,590 --> 00:02:53,690 >> Значи ова е пример на метаподатоци за книга во Харвард библиотека. 46 00:02:53,690 --> 00:02:56,370 Така, тоа е таму. 47 00:02:56,370 --> 00:02:59,850 И можете да видите дека е всушност умерено комплекс. 48 00:02:59,850 --> 00:03:04,610 И дел од вредноста на метаподатоци во рамките на системот на Харвард библиотека 49 00:03:04,610 --> 00:03:09,320 е дека тоа е вид на изградена од страна catalogers 50 00:03:09,320 --> 00:03:12,720 и составени од луѓе примена многу стручност и вештина 51 00:03:12,720 --> 00:03:20,030 и смета дека тоа со текот на времето, која има многу од вредност. 52 00:03:20,030 --> 00:03:25,450 >> Значи, ако се погледне на овој рекорд На коментирани Алис, можете да дознаете 53 00:03:25,450 --> 00:03:32,590 имаш за титулата, кој го напиша, авторот и сите различни предмети 54 00:03:32,590 --> 00:03:35,380 што луѓето го каталогизирани во. 55 00:03:35,380 --> 00:03:40,110 И може да се види таму, исто така, во Покрај тоа, голем број на добри информации 56 00:03:40,110 --> 00:03:42,852 тука се, има некои дуплирање. 57 00:03:42,852 --> 00:03:45,560 Има многу на сложеност што е се одразува преку метаподатоци 58 00:03:45,560 --> 00:03:46,300 што го имате. 59 00:03:46,300 --> 00:03:50,320 >> Значи еден наслов на оваа книга е Авантурите на Alice во земјата на чудата. 60 00:03:50,320 --> 00:03:53,880 Значи ова е додатна верзија на таа книга. 61 00:03:53,880 --> 00:03:56,380 Но, тоа е исто така, повика на коментирани Алис, Авантурите на Alice 62 00:03:56,380 --> 00:03:58,570 во земјата на чудата, бидејќи тоа е нешто што 63 00:03:58,570 --> 00:04:00,430 Мартин Гарднер напишал и коментари книгата. 64 00:04:00,430 --> 00:04:03,369 И има многу голема информации за логиката загатки и работи 65 00:04:03,369 --> 00:04:05,410 Алиса во рамките на што ќе веројатно не го знаат. 66 00:04:05,410 --> 00:04:07,000 Значи треба да одат да го прочита. 67 00:04:07,000 --> 00:04:11,940 >> Но, можете да видите има многу детали тука, 68 00:04:11,940 --> 00:04:15,340 вклучувајќи идентификатори, кога тоа е создаден, од каде дошла, 69 00:04:15,340 --> 00:04:17,420 во однос на Харвард систем, и така натаму. 70 00:04:17,420 --> 00:04:20,350 Значи ова е примерок од видот на метаподатоци 71 00:04:20,350 --> 00:04:24,340 кои може да се види за книга во собирање Харвард библиотека. 72 00:04:24,340 --> 00:04:26,680 >> Ова е нешто сосема друго. 73 00:04:26,680 --> 00:04:32,610 Значи, постои систем наречен ПРЕКУ Харвард, кој во основа 74 00:04:32,610 --> 00:04:39,990 е каталогизација слики и објекти на уметноста и визуелни работи во текот на Харвард, 75 00:04:39,990 --> 00:04:44,010 и додавање на некои метаподатоци за нив, класифицирање нив, 76 00:04:44,010 --> 00:04:49,200 и, во некои случаи, обезбедување мали мали слики 77 00:04:49,200 --> 00:04:51,250 кои може да се земе се погледне, ако така сакаат. 78 00:04:51,250 --> 00:04:54,240 >> Значи ова е пример на Податоците кои имате за чинија 79 00:04:54,240 --> 00:04:57,840 од, веројатно, Алиса во земјата на чудата. 80 00:04:57,840 --> 00:05:00,499 И можете да видите има помалку метаподатоци тука. 81 00:05:00,499 --> 00:05:02,040 Тоа е само еден поинаков вид на објектот. 82 00:05:02,040 --> 00:05:03,425 И така има помалку информации. 83 00:05:03,425 --> 00:05:07,790 >> Можете најчесто имаат фактот дека, на повик број, во суштина, кој го создал, - 84 00:05:07,790 --> 00:05:10,410 >> Ние не знаеме кога беше создадена. 85 00:05:10,410 --> 00:05:13,320 >> --and наслов. 86 00:05:13,320 --> 00:05:14,300 >> Друг пример. 87 00:05:14,300 --> 00:05:16,380 Овој наод помош. 88 00:05:16,380 --> 00:05:19,030 Па таму е збир на Луис Документи Керол е на Харвард. 89 00:05:19,030 --> 00:05:23,601 Значи ова го опишува она што е во тоа колекција. 90 00:05:23,601 --> 00:05:26,100 Значи некој помина низ и Погледнав низ сите кутии 91 00:05:26,100 --> 00:05:32,220 и каталогизирани, со оглед на некои позадина, писмено резиме на она што е овде. 92 00:05:32,220 --> 00:05:35,290 И ако сте во ситуација да се погледне понатаму во оваа, ова 93 00:05:35,290 --> 00:05:39,620 продолжува за страници и страници и страници, но ќе ви кажам 94 00:05:39,620 --> 00:05:41,860 она букви и она што датира од она што кутии 95 00:05:41,860 --> 00:05:44,289 владеела во целиот колекција. 96 00:05:44,289 --> 00:05:46,330 Но, ова е нешто дека, ако сте во Харвард, 97 00:05:46,330 --> 00:05:50,720 можете да одите и всушност телесно се погледне и, веројатно, ги погледне. 98 00:05:50,720 --> 00:05:53,440 >> Значи ова е за сите големи. 99 00:05:53,440 --> 00:05:54,450 Ова е корисно метаподатоци. 100 00:05:54,450 --> 00:05:56,327 Тоа е во системот Харвард библиотека. 101 00:05:56,327 --> 00:05:58,910 Има алатки на интернет каде што може да оди и да погледнам во него, 102 00:05:58,910 --> 00:05:59,993 и ја гледам, и пребарување на неа. 103 00:05:59,993 --> 00:06:02,810 И може да и се сечат парче тоа во многу различни начини. 104 00:06:02,810 --> 00:06:06,920 >> Но, тоа е навистина достапна само ако вие сте човечко суштество седнува 105 00:06:06,920 --> 00:06:12,600 во вашиот веб прелистувач или нешто или Вашиот телефон и навигацијата низ него. 106 00:06:12,600 --> 00:06:16,730 Тоа не е навистина на располагање во било вид на употребливите мода 107 00:06:16,730 --> 00:06:19,520 за други системи или други компјутери за користење, 108 00:06:19,520 --> 00:06:21,500 не со системи во рамките на Харвард библиотека, 109 00:06:21,500 --> 00:06:24,890 но системи во надворешниот свет, само другите луѓе во целина. 110 00:06:24,890 --> 00:06:30,210 Значи, прашањето е, како може ние ја направи достапна за компјутери 111 00:06:30,210 --> 00:06:33,560 така што можеме да го направиме поинтересна работи со него отколку само 112 00:06:33,560 --> 00:06:36,550 прелистување тоа самите? 113 00:06:36,550 --> 00:06:39,766 >> Па зошто вие би сакале да го направите ова? 114 00:06:39,766 --> 00:06:41,140 Постојат голем број на можности. 115 00:06:41,140 --> 00:06:43,980 Едната е дека може да се изгради целосно поинаков начин на пребарување 116 00:06:43,980 --> 00:06:46,962 содржината која е на располагање преку Харвард библиотеки. 117 00:06:46,962 --> 00:06:48,670 Јас ќе ви покажам еден подоцна наречен Stacklife, 118 00:06:48,670 --> 00:06:52,440 која има сосема различен ја преземат бараат за содржина. 119 00:06:52,440 --> 00:06:54,560 >> Вие би можеле да се изгради препорака моторот. 120 00:06:54,560 --> 00:06:57,955 Значи Харвард библиотека не е во бизнис каже, ви се допаѓа оваа книга. 121 00:06:57,955 --> 00:07:01,080 Потоа оди да ги разгледаме во овие 17 други книги кои може да бидат заинтересирани во 122 00:07:01,080 --> 00:07:03,200 или на овие 18 други слики. 123 00:07:03,200 --> 00:07:06,040 Но, тоа секако може да да биде важна карактеристика. 124 00:07:06,040 --> 00:07:09,272 И со оглед на метаподатоци, тоа може да биде можно да се стави тоа заедно. 125 00:07:09,272 --> 00:07:11,980 Вие би можеле да имаат различни потреби во термини за пребарување на содржина, 126 00:07:11,980 --> 00:07:16,200 како и можеби покрај алатки кои со кои се располага библиотеката прави 127 00:07:16,200 --> 00:07:18,450 на располагање, можеби ќе сакате за да барате во еден поинаков начин 128 00:07:18,450 --> 00:07:21,847 или да се оптимизира за одредена употреба случај, кои можеби тоа е многу специјализирани. 129 00:07:21,847 --> 00:07:23,930 Можеби постојат само неколку луѓе во светот кои 130 00:07:23,930 --> 00:07:25,846 сакате да пребарувате на содржина на овој начин, но тоа 131 00:07:25,846 --> 00:07:28,985 ќе биде одлично ако ние би можеле да ги споделите со нив да го направи тоа. 132 00:07:28,985 --> 00:07:30,860 Има многу на анализа во колку луѓе 133 00:07:30,860 --> 00:07:33,860 користење на содржината што ќе биде навистина Интересно е да се знае за тоа, да дознаете 134 00:07:33,860 --> 00:07:37,280 книги што се користат, што не се, и така натаму. 135 00:07:37,280 --> 00:07:41,670 И тогаш има многу можност да се интегрираат 136 00:07:41,670 --> 00:07:45,210 со други информации тоа е таму на интернет. 137 00:07:45,210 --> 00:07:46,880 Значи ние have-- 138 00:07:46,880 --> 00:07:50,260 >> На пример, има НПР на книга сегмент, 139 00:07:50,260 --> 00:07:53,090 каде што се интервјуираат автори за книги. 140 00:07:53,090 --> 00:07:56,837 И така тоа ќе биде прекрасно, ако сте биле угледување на книгата во Харвард 141 00:07:56,837 --> 00:07:59,670 Библиотека, а ти каже, во ред, постои е интервју со авторот. 142 00:07:59,670 --> 00:08:00,878 Ајде да ги разгледаме во тоа. 143 00:08:00,878 --> 00:08:05,461 Или има страница на Википедија, како авторитетен, научни референца 144 00:08:05,461 --> 00:08:07,710 за оваа книга, која ќе можеби ќе сакате да ги погледне. 145 00:08:07,710 --> 00:08:12,600 >> Постојат овие видови на извори расфрлани во текот на веб. 146 00:08:12,600 --> 00:08:16,555 И да ги здружи може да биде голема употреба 147 00:08:16,555 --> 00:08:18,930 на некој гледа во содржина, во потрага по нешто. 148 00:08:18,930 --> 00:08:20,180 Но, тоа е исто така, не вид на нешто што би 149 00:08:20,180 --> 00:08:23,205 сакате библиотеката да бидат одговорни за да оди надолу и лов на одредување на 150 00:08:23,205 --> 00:08:25,455 сите овие различни извори и да ги приклучување заедно 151 00:08:25,455 --> 00:08:28,920 затоа што тие се менува постојано. 152 00:08:28,920 --> 00:08:33,570 И она што тие мислат дека е важно мај нема да биде она што е битно. 153 00:08:33,570 --> 00:08:36,929 >> И уште повеќе, во основа има многу нешта не можеме да си помисли на уште. 154 00:08:36,929 --> 00:08:42,222 Значи, ако може да се отвори овој горе, повеќе луѓе покрај половина дузина или така, 155 00:08:42,222 --> 00:08:45,174 кои се во потрага по оваа на редовно да мислам на идеи 156 00:08:45,174 --> 00:08:47,340 и масажа на податоци, и го направи она што сакате со него. 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> Значи, сакаме да се направи ова податоци на располагање на светот. 159 00:08:54,045 --> 00:08:55,670 Па, постојат неколку компликации. 160 00:08:55,670 --> 00:08:58,540 Една од нив е дека ова метаподатоци е во различни системи. 161 00:08:58,540 --> 00:09:01,110 Тоа е во различни формати. 162 00:09:01,110 --> 00:09:04,719 Значи има некои нормализација што треба да се случи, 163 00:09:04,719 --> 00:09:08,010 кои се нормализирање на процесот на доведување работите од различни формати 164 00:09:08,010 --> 00:09:12,940 и да ги мапирање на еден формат така што на полиња ќе се совпаѓаат. 165 00:09:12,940 --> 00:09:15,160 >> Постојат некои ограничувања на авторските права. 166 00:09:15,160 --> 00:09:21,010 Чудно е доволно, за влез каталог за книга е одговорен за авторски права. 167 00:09:21,010 --> 00:09:24,060 Па дури и ако тоа е само информации добиени од книгата, 168 00:09:24,060 --> 00:09:25,330 тоа е copyrightable. 169 00:09:25,330 --> 00:09:28,400 И во зависност од тоа кој всушност создаде таков метаподатоци, 170 00:09:28,400 --> 00:09:32,175 може да постојат ограничувања за тоа кој можете да го дистрибуирате, слични to-- 171 00:09:32,175 --> 00:09:33,402 >> Не знам. 172 00:09:33,402 --> 00:09:36,110 Тоа може или не може да биде слична на состојбата на текстот на песната, 173 00:09:36,110 --> 00:09:36,610 на пример. 174 00:09:36,610 --> 00:09:38,560 Значи ние сите знаеме како тоа тави надвор. 175 00:09:38,560 --> 00:09:40,450 Значи ви треба за да се добие околу ова прашање. 176 00:09:40,450 --> 00:09:44,910 >> И тогаш еден дел е дека има многу податоци. 177 00:09:44,910 --> 00:09:52,420 Значи, ако јас сум некој кој сака да работи со податоци или има кул идеја, 178 00:09:52,420 --> 00:09:55,350 кои се занимаваат со 14 милиони евиденција на мојот лаптоп 179 00:09:55,350 --> 00:09:57,487 може да биде проблематично и тешко да се управуваат. 180 00:09:57,487 --> 00:09:59,320 Значи, сакаме да се намали бариерите за луѓето 181 00:09:59,320 --> 00:10:02,130 да биде во можност да работат со податоци. 182 00:10:02,130 --> 00:10:07,880 >> Така пристапот кој се надевам адреси сите од овие проблеми е на два дела. 183 00:10:07,880 --> 00:10:11,770 Една од нив е изградба на платформа која ги зема податоците од сите овие различни извори 184 00:10:11,770 --> 00:10:14,350 и го влошува, нормализира, збогатува, и прави 185 00:10:14,350 --> 00:10:16,650 тоа во една локација. 186 00:10:16,650 --> 00:10:20,950 И тоа го прави достапен преку јавна API кое луѓето можат да се јавам. 187 00:10:20,950 --> 00:10:24,430 >> Значи API е апликација Програмирање интерфејс. 188 00:10:24,430 --> 00:10:28,930 И тоа во основа се однесува на крајната точка дека системот или технологија 189 00:10:28,930 --> 00:10:31,720 може да се јавите и да добиете податоци назад во структуриран формат на начин 190 00:10:31,720 --> 00:10:32,900 кои може да се користи. 191 00:10:32,900 --> 00:10:36,060 Значи тоа не е зависна за да одат на веб-страница 192 00:10:36,060 --> 00:10:37,970 и стружење податоци исклучување за тоа, на пример. 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> Значи ова е почетната страница на Библиотеката Облак Точка API-то, 195 00:10:45,010 --> 00:10:47,220 која е во суштина својата верзија два. 196 00:10:47,220 --> 00:10:50,130 Така, тоа е втората итерација на се обидуваат да направат сите овие податоци 197 00:10:50,130 --> 00:10:53,280 на располагање на светот. 198 00:10:53,280 --> 00:10:59,560 Така, тоа е http://api.lib.harvard.edu/v2/items. 199 00:10:59,560 --> 00:11:03,830 И само да се скрши оваа надолу малку, што значи ова 200 00:11:03,830 --> 00:11:06,115 е дека ова е верзија на две API. 201 00:11:06,115 --> 00:11:08,490 Има една верзија, која Јас не одам да се зборува. 202 00:11:08,490 --> 00:11:09,750 Но, постои една верзија. 203 00:11:09,750 --> 00:11:14,740 >> И ако сте повикувајќи ова API-то, ќе се добива предмети. 204 00:11:14,740 --> 00:11:20,640 И дел од идејата за API е на API е договор. 205 00:11:20,640 --> 00:11:23,440 Тоа е нешто што е нема да се промени. 206 00:11:23,440 --> 00:11:24,850 Така на пример, - 207 00:11:24,850 --> 00:11:27,410 >> А причината е во тоа што ако јас изгради некаков вид на систем кој 208 00:11:27,410 --> 00:11:33,210 се случува да се користи библиотеката облак API за да се прикаже книги или им помогне на луѓето да најдат 209 00:11:33,210 --> 00:11:36,190 информации со уникатни начини, она што ние не сакаме да се случи 210 00:11:36,190 --> 00:11:38,940 е за нас да одиме промените начинот на дека API работи, и одеднаш 211 00:11:38,940 --> 00:11:41,340 што се распаѓа на крајниот корисник страна. 212 00:11:41,340 --> 00:11:46,710 Значи дел од ако сте прави API на располагање на светот, тоа е 213 00:11:46,710 --> 00:11:49,396 Добра пракса е да се стави бројот на верзијата во неа, па луѓето 214 00:11:49,396 --> 00:11:51,020 знам која верзија тие се занимаваат со. 215 00:11:51,020 --> 00:11:54,300 >> Значи, ако ние одлучуваме ние се најде подобар начин за изработка на оваа информација на располагање, 216 00:11:54,300 --> 00:11:57,295 ние би можеле да го променат тоа да јавете се дека верзијата три. 217 00:11:57,295 --> 00:11:59,920 Значи секој кој се уште е користење верзија две, кои сè уште ќе работат. 218 00:11:59,920 --> 00:12:03,490 Но верзија тројца имате сите нови нешта. 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> Значи ова е API, но ова навистина изгледа како URL-то. 221 00:12:09,210 --> 00:12:11,680 И така што ова е пример е она што е 222 00:12:11,680 --> 00:12:16,615 нарече остатокот API-то, кој е достапен во текот на само редовни интернет конекција. 223 00:12:16,615 --> 00:12:19,680 И всушност можете да одат на него во пребарувачот. 224 00:12:19,680 --> 00:12:28,550 >> Па еве јас сум само отвори Firefox и качил на api.lib.harvard.edu/v2/items. 225 00:12:28,550 --> 00:12:31,560 И така, она што можам да добијам тука е основа на првата страница 226 00:12:31,560 --> 00:12:34,740 на резултатите од целата поставени на ставки кои ги имаме. 227 00:12:34,740 --> 00:12:37,460 И токму тука во XML формат. 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 И тоа е, исто така, е prettified од Mozilla Firefox. 230 00:12:42,210 --> 00:12:45,850 Тоа всушност не имаат сите овие малку ширејќи се и стеснувајќи 231 00:12:45,850 --> 00:12:47,880 doohickeys тука. 232 00:12:47,880 --> 00:12:52,520 Ова е вид на поубави Верзија начин да се погледне во него. 233 00:12:52,520 --> 00:12:57,040 >> Но, она што ова ни кажува е Јас сум побарал сите елементи. 234 00:12:57,040 --> 00:13:03,120 Па така постојат 13.289.475 предмети. 235 00:13:03,120 --> 00:13:06,150 И јас барам на првиот 10, со почеток во позиција нула 236 00:13:06,150 --> 00:13:09,760 затоа што во компјутерски науки ние секогаш ќе започне од нула. 237 00:13:09,760 --> 00:13:15,150 И она што го имаме тука, ако јас само да пропадне ова, ќе видите јас имам 10 предмети. 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> И ако јас ги разгледаме во некој објект, можам види дека имам информации во врска со тоа. 240 00:13:25,210 --> 00:13:27,400 И тоа е во она што се нарекува MODS форма. 241 00:13:27,400 --> 00:13:30,860 И така јас ќе одам да се префрлат врати тука за момент. 242 00:13:30,860 --> 00:13:33,750 OK. 243 00:13:33,750 --> 00:13:37,447 >> Значи, да бараат нешто во специфична бидејќи првиот елемент кој 244 00:13:37,447 --> 00:13:40,030 се случува да излезе кога ќе се погледне низ целата колекција 245 00:13:40,030 --> 00:13:41,750 е, по дефиниција, по случаен избор. 246 00:13:41,750 --> 00:13:44,550 Значи, да се погледне за некои крофни. 247 00:13:44,550 --> 00:13:46,830 О. 248 00:13:46,830 --> 00:13:49,190 >> OK. 249 00:13:49,190 --> 00:13:49,940 Значи крофни. 250 00:13:49,940 --> 00:13:55,360 Така најдовме има 80 предмети во собирањето дека референтноста крофни. 251 00:13:55,360 --> 00:13:57,150 Ние сме во потрага на првите 10 од нив. 252 00:13:57,150 --> 00:14:01,890 Сега, можете да видите тука начинот на кој Реков јас барам за крофни, 253 00:14:01,890 --> 00:14:04,400 Јас само додаде нешто да на барањето од URL-то. 254 00:14:04,400 --> 00:14:09,680 Значи q е еднакво на крофни, кои можете да види малку повеќе тука. 255 00:14:09,680 --> 00:14:12,131 >> И ова во основа значи дека има на спец за API, што 256 00:14:12,131 --> 00:14:13,880 го дефинира она што сите овие параметри значи. 257 00:14:13,880 --> 00:14:17,150 А тоа значи дека ние се случува да се пребарување сè за крофни. 258 00:14:17,150 --> 00:14:24,910 >> Значи првата точка, тука имаме можете да го видите насловот е крофни, 259 00:14:24,910 --> 00:14:29,310 и таму е поднасловот нарекува Американскиот страст, која е, претпоставувам, 260 00:14:29,310 --> 00:14:31,610 соодветно. 261 00:14:31,610 --> 00:14:36,134 Постојат голем број на different-- 262 00:14:36,134 --> 00:14:38,050 Откако ќе се дојде до точка на добивање на податоци, 263 00:14:38,050 --> 00:14:41,020 постојат голем број на различни формати што ќе може да се влезе. 264 00:14:41,020 --> 00:14:44,050 И има различни предности и слабостите за сите нив. 265 00:14:44,050 --> 00:14:49,000 Значи овој, може да се види тука, оваа форма е многу богат. 266 00:14:49,000 --> 00:14:51,946 И тоа е стандардизиран. 267 00:14:51,946 --> 00:14:55,040 >> Значи има одреден наслов поле, превод област. 268 00:14:55,040 --> 00:14:58,950 Постои и алтернативен Наслов, американски страст. 269 00:14:58,950 --> 00:15:01,650 Постои име поврзано со неа. 270 00:15:01,650 --> 00:15:03,120 Тип на ресурсот е текст. 271 00:15:03,120 --> 00:15:06,070 Има многу информации тука во овој формат. 272 00:15:06,070 --> 00:15:09,480 >> Но, има еден куп на различни формати. 273 00:15:09,480 --> 00:15:11,920 Значи она што бевме само во потрага по е формат 274 00:15:11,920 --> 00:15:17,700 наречен mods, која се залага за Метаподатоци Предмет Опис на услугата, 275 00:15:17,700 --> 00:15:18,250 потенцијално. 276 00:15:18,250 --> 00:15:23,030 Јас сум, всушност, не е сосема сигурен за С. Но, тоа е прилично сложен формат. 277 00:15:23,030 --> 00:15:24,240 Тоа е стандардниот формат. 278 00:15:24,240 --> 00:15:30,260 >> Но, тоа е оној што ги држи богатството на сите податоци 279 00:15:30,260 --> 00:15:33,820 дека библиотеката има, бидејќи тоа е многу блиску до она што 280 00:15:33,820 --> 00:15:35,110 библиотеката користи интерно. 281 00:15:35,110 --> 00:15:39,030 Тоа е стандард кој е користи низ целата земја, 282 00:15:39,030 --> 00:15:40,944 во целиот свет во академските библиотеки. 283 00:15:40,944 --> 00:15:42,110 И тоа е многу интероперабилни. 284 00:15:42,110 --> 00:15:44,852 Значи, ако имаш документ што е во MODS формат, 285 00:15:44,852 --> 00:15:47,560 може да се даде дека на некој друг чии системи се разбере mods, 286 00:15:47,560 --> 00:15:48,518 и тие можат да го внесете. 287 00:15:48,518 --> 00:15:50,840 Така, тоа е стандард. 288 00:15:50,840 --> 00:15:54,250 Тоа е многу добро дефинирани, многу специфична. 289 00:15:54,250 --> 00:15:58,980 И тоа е она што го прави интероперабилни, бидејќи ако некој вели, 290 00:15:58,980 --> 00:16:04,930 ова е алтернативна насловот на рекорд, секој знае што значи тоа. 291 00:16:04,930 --> 00:16:07,740 Од друга страна, тоа е многу комплицирано. 292 00:16:07,740 --> 00:16:13,160 >> Значи, ако се погледне на овој запис тука, 293 00:16:13,160 --> 00:16:15,320 ако јас само сакаат да се добие Насловот на овој документ, 294 00:16:15,320 --> 00:16:21,150 на оваа книга, што е веројатно крофни, Еден американски страст, тоа парсирање надвор 295 00:16:21,150 --> 00:16:22,940 е малку вклучени. 296 00:16:22,940 --> 00:16:27,380 Каде што има уште еден формат наречен Dublin Core, 297 00:16:27,380 --> 00:16:29,730 што е многу, многу поедноставно формат. 298 00:16:29,730 --> 00:16:33,764 >> И така можете да ја видите тука, нема наслов, поднаслов, заменик титула. 299 00:16:33,764 --> 00:16:35,930 Има само насловот, Крофни, американска страст, 300 00:16:35,930 --> 00:16:38,780 и уште една титула, американски страст. 301 00:16:38,780 --> 00:16:42,907 Значи, кога сте во потрага по каква форма сакате да се добие податоци од тоа, 302 00:16:42,907 --> 00:16:44,740 многу зависи од тоа колку ви се случува да го користите. 303 00:16:44,740 --> 00:16:46,573 Дали сте за користење интероперабилност или не 304 00:16:46,573 --> 00:16:49,970 сакате нешто едноставно што може да биде полесно да се работи? 305 00:16:49,970 --> 00:16:56,002 >> Од друга страна, многу од детали добиете вид на squished надолу. 306 00:16:56,002 --> 00:16:58,460 Вие може да ја изгуби нијанси на што е особено поле средства 307 00:16:58,460 --> 00:17:02,960 ако си имаш работа со Dublin Core, кои нема да добиеш со mods. 308 00:17:02,960 --> 00:17:06,462 Значи тоа се две од формати може да се добијат на API. 309 00:17:06,462 --> 00:17:08,920 И во основа, ние сме чување тоа зад сцената во mods. 310 00:17:08,920 --> 00:17:14,179 Но, ние може да ви даде во MODS и Dublin Core и било што друго, како и. 311 00:17:14,179 --> 00:17:16,470 Другите предвид при сте во потрага на податоци 312 00:17:16,470 --> 00:17:21,210 е можете да го имате како било JSON, кои се залага за да го вклучите Javascript Објект нотација, 313 00:17:21,210 --> 00:17:24,720 или XML, која се залага за Механизми Markup Language. 314 00:17:24,720 --> 00:17:30,080 И овие податоци репрезентации двете имаат иста податоци, точно 315 00:17:30,080 --> 00:17:31,080 истите области. 316 00:17:31,080 --> 00:17:33,644 Но, тие се само синтаксички различни. 317 00:17:33,644 --> 00:17:40,401 >> Значи ова е a-- 318 00:17:40,401 --> 00:17:41,400 Па, ајде да се префрлат. 319 00:17:41,400 --> 00:17:47,490 Значи, ова е нашата барањето за крофни во XML формат. 320 00:17:47,490 --> 00:17:53,470 Ако јас само го вклучите ова за да биде JSON, Јас може да се види тоа изгледа различно. 321 00:17:53,470 --> 00:17:58,580 Па сега тоа е иста содржина, но една поинаква структура. 322 00:17:58,580 --> 00:18:00,080 Има помалку аглести загради. 323 00:18:00,080 --> 00:18:02,530 Има помалку опширниот. 324 00:18:02,530 --> 00:18:06,440 >> И ова е формат, кој, ако работат во веб животната средина, 325 00:18:06,440 --> 00:18:09,680 Ти си најверојатно ќе да сакате да го користите, бидејќи еден 326 00:18:09,680 --> 00:18:12,630 на убави работи за JSON е тоа е компатибилен со JavaScript. 327 00:18:12,630 --> 00:18:17,680 Значи, ако јас пишувам веб стан, можам да се повлече во JSON и да работиш со тоа директно. 328 00:18:17,680 --> 00:18:20,187 Со оглед на тоа со XML, тоа е малку повеќе комплицирано. 329 00:18:20,187 --> 00:18:21,520 Значи, повторно, овие се и корисни. 330 00:18:21,520 --> 00:18:26,387 Тие само се различни употреба случаи каде што луѓето можеби ќе сакате да ги користите. 331 00:18:26,387 --> 00:18:26,886 OK. 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 Па назад кон API. 334 00:18:31,680 --> 00:18:32,900 Значи, може да се бара for-- 335 00:18:32,900 --> 00:18:36,220 >> Јас им даде пример на во потрага по крофни. 336 00:18:36,220 --> 00:18:39,330 Ние, исто така може да се бара само во одредена област во рамките тука. 337 00:18:39,330 --> 00:18:41,310 Така, наместо за пребарување целата рекорд, 338 00:18:41,310 --> 00:18:43,870 Јас само може да се бара полето за наслов. 339 00:18:43,870 --> 00:18:48,810 И така сега постојат 25 работи кои имаат крофни во насловот, од кои една 340 00:18:48,810 --> 00:18:52,430 е за враќање мочуриштата во менаџмент 341 00:18:52,430 --> 00:18:54,990 на дупка во крофна Програмата, што е веројатно 342 00:18:54,990 --> 00:18:58,970 не мора да значи она што го барате за кога сме во потрага за крофни. 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> Можете исто така да, кога сте кои се занимаваат со API-- 345 00:19:05,490 --> 00:19:08,827 >> Дел од кои имаат API, се откажува на луѓето пристап до големи збирки на податоци. 346 00:19:08,827 --> 00:19:11,410 И постојат неколку различни алатки можете да го користите за да го направите тоа. 347 00:19:11,410 --> 00:19:14,170 Една од нив е, многу едноставно, може страница преку податоците. 348 00:19:14,170 --> 00:19:17,340 Па само како да го направите пребарување преку веб интерфејс, 349 00:19:17,340 --> 00:19:19,470 може да се погледне на една страница, страница два, три страница. 350 00:19:19,470 --> 00:19:22,040 Можете да го стори истото работа преку API. 351 00:19:22,040 --> 00:19:24,150 Вие само треба да биде експлицитни во тоа како го правиш. 352 00:19:24,150 --> 00:19:29,511 >> Така на пример, ако јас сум во потрага При мојата прва пребарување тука, 353 00:19:29,511 --> 00:19:32,510 каде јас го правам од пребарувањето за работите со крофни во насловот, можам да кажам, 354 00:19:32,510 --> 00:19:35,415 и за ограничување изнесува 20, што значи ми даде првите 20 записи, а не 355 00:19:35,415 --> 00:19:38,540 првите 10, која е стандардна, затоа што сакам да се погледне на 20 во исто време. 356 00:19:38,540 --> 00:19:43,435 Или можам да кажам, во собата на започне еднаков на 20 и ограничување 357 00:19:43,435 --> 00:19:47,150 еднакви 20, кој ќе даде ме снима 21 преку 40 години. 358 00:19:47,150 --> 00:19:52,680 >> Па претпоставувам дека нешто да ни ја одземе тука е 359 00:19:52,680 --> 00:19:57,290 дека ние сме со користење на пребарување стрингови за да поставите параметри за пребарување. 360 00:19:57,290 --> 00:20:02,760 И тоа ви овозможува контрола она што го добие назад. 361 00:20:02,760 --> 00:20:05,980 >> Друга алатка која можете да го користите, - 362 00:20:05,980 --> 00:20:09,250 >> И ова е навистина од голема помош во однос на истражување на податоци. 363 00:20:09,250 --> 00:20:10,840 >> --is нешто што се нарекува faceting. 364 00:20:10,840 --> 00:20:15,530 Значи терминот faceting е не мора да се честа појава. 365 00:20:15,530 --> 00:20:16,880 Но, сте сите го видел. 366 00:20:16,880 --> 00:20:18,630 Ако погледнете во Amazon, на пример, 367 00:20:18,630 --> 00:20:20,870 и ќе направите пребарување за крофни во книгите, 368 00:20:20,870 --> 00:20:27,080 тука тие го добивме серија на книги, и тие се групирани по категории, 369 00:20:27,080 --> 00:20:30,470 и ќе го добиете различни категории, и колку книги во секоја категорија 370 00:20:30,470 --> 00:20:31,330 појавиш. 371 00:20:31,330 --> 00:20:33,420 >> Значи ова е всушност аспект. 372 00:20:33,420 --> 00:20:37,570 Можете да ги преземе сите своите книги, 1800 книги кои се совпаѓаат крофни во Амазон. 373 00:20:37,570 --> 00:20:39,820 12 од нив се во појадок категорија. 374 00:20:39,820 --> 00:20:43,100 21 во оспорува и спецификации, и така натаму и така натаму. 375 00:20:43,100 --> 00:20:47,670 >> Значи ова е навистина корисна алатка за истражување на содржина 376 00:20:47,670 --> 00:20:53,260 во рамките на библиотеката, како и затоа што кога ќе се погледне во еден аспект, 377 00:20:53,260 --> 00:20:56,520 тоа ви дава една идеја за она што предмети постои, како што видови на предмети 378 00:20:56,520 --> 00:20:58,510 се најпопуларните во вашето пребарување собата. 379 00:20:58,510 --> 00:21:00,950 И тоа ви помага да се вози надвор и да се истражуваат. 380 00:21:00,950 --> 00:21:02,770 Значи, ние може да го направи истото. 381 00:21:02,770 --> 00:21:05,940 >> Ако сакаме да се користи API и погледнете аспекти, 382 00:21:05,940 --> 00:21:08,950 ние додадете уште еден параметар за нашиот пријател на барањето. 383 00:21:08,950 --> 00:21:12,540 Значи аспекти еднаква одделени со запирки листа на она што сакаме да го аспект на. 384 00:21:12,540 --> 00:21:14,790 Значи еден од аспекти може да биде предмет. 385 00:21:14,790 --> 00:21:16,565 Друг би можеле да бидат јазик. 386 00:21:16,565 --> 00:21:19,665 И така, ако трчаме дека барањето, ние get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 Тоа изгледа прилично многу исти тука. 389 00:21:24,830 --> 00:21:29,010 Но, ние додадена на крајот на листата во собата на аспекти. 390 00:21:29,010 --> 00:21:34,060 Значи имаме еден аспект нарекува тема. 391 00:21:34,060 --> 00:21:40,250 Па ова ни кажува дека ако јас се погледне во мојата 80 резултати од пребарување крофна, 392 00:21:40,250 --> 00:21:42,100 13 од нив имаат подлежат на САД. 393 00:21:42,100 --> 00:21:43,684 Три имаат предмет крофни. 394 00:21:43,684 --> 00:21:45,600 Три имаат предмет на мочуришта, 395 00:21:45,600 --> 00:21:47,720 кои можат да бидат нашите дупка во крофна. 396 00:21:47,720 --> 00:21:51,780 Двајца од нив, Симпсонови, и така натаму и така натаму. 397 00:21:51,780 --> 00:21:59,211 >> Така што ова може да биде корисно ако сакате да го стесните пребарувањето. 398 00:21:59,211 --> 00:22:00,210 Тоа може да ви помогне да го направите тоа. 399 00:22:00,210 --> 00:22:03,580 Особено ако имате повеќе отколку, да речеме, 80 резултати. 400 00:22:03,580 --> 00:22:05,980 >> Слично на тоа, ние исто така, побара за аспекти на јазикот. 401 00:22:05,980 --> 00:22:14,790 Значи, ако ние се погледне во нашите резултати, можеме да видиме 76 од нив се на англиски јазик, четворица во Франција, 402 00:22:14,790 --> 00:22:19,620 две во шпански, два, мислам дека е недефинирани или непознати, холандски и латински. 403 00:22:19,620 --> 00:22:22,830 Па мислам дека латинскиот крофна резултат на тоа, повторно, 404 00:22:22,830 --> 00:22:24,922 нема никаква врска со печени производи. 405 00:22:24,922 --> 00:22:25,630 Но, таму да одите. 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> Значи ова е вид на ви покажува како може да се повлече на содржина назад 408 00:22:38,630 --> 00:22:41,270 од API само преку веб прелистувач, што е одлично. 409 00:22:41,270 --> 00:22:44,320 Но, тоа не е навистина она што би вообичаено се користат во API за тоа. 410 00:22:44,320 --> 00:22:48,710 Значи еден пример за тоа како можете всушност би можеле да го направите ова е што сум 411 00:22:48,710 --> 00:22:54,720 напишано супер мала програма, кои, пак, не ми крофна пребарување 412 00:22:54,720 --> 00:22:59,010 и избор на неколку полиња и ги прикажува во табела. 413 00:22:59,010 --> 00:23:01,610 Значи ова е многу многу иста содржина дека ние едноставно 414 00:23:01,610 --> 00:23:04,830 видов со неколку полиња извади. 415 00:23:04,830 --> 00:23:12,090 Значи листа на наслови, локацијата на што книгата 416 00:23:12,090 --> 00:23:15,120 е за, јазикот, и така натаму и така натаму. 417 00:23:15,120 --> 00:23:20,480 >> Па, како тоа навистина се случило, бидејќи Претпоставувам дека ние треба да се погледне во некои код, 418 00:23:20,480 --> 00:23:22,420 is-- 419 00:23:22,420 --> 00:23:28,060 >> Она што го имаме тука е едноставна HTML страница, која го прикажува текстот, 420 00:23:28,060 --> 00:23:32,900 добредојде на библиотеката облак и потоа ги прикажува табела со резултати. 421 00:23:32,900 --> 00:23:37,790 И постојат очигледно нема резултати во маса, кога страната се вчитува. 422 00:23:37,790 --> 00:23:41,380 Но, она што го правиш е, пред сè, 423 00:23:41,380 --> 00:23:46,290 се вчитување на библиотека наречена jQuery, кој во основа е 424 00:23:46,290 --> 00:23:52,030 на JavaScript библиотека, што го прави многу лесно да се манипулира го вклучите Javascript- 425 00:23:52,030 --> 00:23:58,780 природно, HTML, и да се создаде веб-страници, клиент-страна логиката и веб страници. 426 00:23:58,780 --> 00:24:01,595 >> Значи она што го имаме тука е jQuery има метод наречен добие, 427 00:24:01,595 --> 00:24:05,270 што во суштина ќе оди URL-то, кој, во овој случај, 428 00:24:05,270 --> 00:24:09,070 е оваа позната во потрага URL-то. 429 00:24:09,070 --> 00:24:14,440 И тогаш ќе се добие од содржината од дека URL а потоа извршува функција на тоа. 430 00:24:14,440 --> 00:24:19,240 Па рековме да одат api.lib.harvard / edu. 431 00:24:19,240 --> 00:24:20,060 Пребарај за крофни. 432 00:24:20,060 --> 00:24:21,300 Дај ни 20 записи. 433 00:24:21,300 --> 00:24:28,590 И тогаш ја извршите оваа функција, која Јас сум избрана, поминува на податоците. 434 00:24:28,590 --> 00:24:34,430 И на податоци е JSON дека доби врати од API. 435 00:24:34,430 --> 00:24:40,120 >> И тогаш велиме, во рамките на кои податоци има областа наречена точка. 436 00:24:40,120 --> 00:24:48,117 И ако јас да си одат се погледне назад во еден од овие резултати што е тука, 437 00:24:48,117 --> 00:24:49,200 има нешто called-- 438 00:24:49,200 --> 00:24:50,220 >> Па, тоа се вика елемент. 439 00:24:50,220 --> 00:24:53,520 Така што може да биде тоа. 440 00:24:53,520 --> 00:25:01,840 И она што го прави е тоа поминува низ секоја ставка 441 00:25:01,840 --> 00:25:05,300 а потоа повикува друг функција на секој дел. 442 00:25:05,300 --> 00:25:08,440 И таа функција во основа е преземање на вредност 443 00:25:08,440 --> 00:25:12,010 на објектот, кој е суштина на поединецот рекорд 444 00:25:12,010 --> 00:25:18,220 и ни овозможува да се повлече од насловот, опфатот и јазикот. 445 00:25:18,220 --> 00:25:21,640 >> Така што ние го нарекуваме функција на секој ставка што се вративме од API. 446 00:25:21,640 --> 00:25:25,397 И ако само погледнете во овој дел, токму тука, 447 00:25:25,397 --> 00:25:27,230 она што го правиме е ние сме создавање на низа, 448 00:25:27,230 --> 00:25:31,810 што во суштина е некои HTML маркап на маса, со value.title, 449 00:25:31,810 --> 00:25:35,790 што е насловот на објект, value.coverage, 450 00:25:35,790 --> 00:25:36,790 што е покриеноста, - 451 00:25:36,790 --> 00:25:38,225 >> И ние сме прави проверка тука за да се види кој е недефиниран 452 00:25:38,225 --> 00:25:40,570 и се крие, ако тоа го вели недефиниран, бидејќи ние не сме навистина заинтересирани 453 00:25:40,570 --> 00:25:41,600 со тоа, што. 454 00:25:41,600 --> 00:25:42,939 >> --and тогаш јазик. 455 00:25:42,939 --> 00:25:44,730 И тогаш што сме прави е додавање која 456 00:25:44,730 --> 00:25:48,510 на масата што е идентификувани од страна на овој стринг тука. 457 00:25:48,510 --> 00:25:50,790 И како jQuery работи е она што ова е велејќи дека 458 00:25:50,790 --> 00:25:56,420 е да се погледне за на маса со идеја резултати и додадете го овој текст на него. 459 00:25:56,420 --> 00:25:59,380 И ова е на маса со идеја резултати. 460 00:25:59,380 --> 00:26:04,998 Значи она што ќе се заокружи со оваа страница е тука. 461 00:26:04,998 --> 00:26:06,206 И со цел да видите source-- 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 Па, изворот не е, всушност, ажурираат кога тоа се случи. 464 00:26:13,810 --> 00:26:18,740 Така можете да ја видите вистинската Резултатите од табелата тука, секако. 465 00:26:18,740 --> 00:26:24,770 >> Значи тоа е само еден едноставен пример на прави многу основни пребарување во однос на API 466 00:26:24,770 --> 00:26:29,020 и прикажување на информации во некои други форма, а не прави ништо премногу фенси. 467 00:26:29,020 --> 00:26:36,370 Сега, уште еден пример е како апликација напишана од Дејвид Вејнергер 468 00:26:36,370 --> 00:26:39,120 како демо за ова, во суштина ви покажува 469 00:26:39,120 --> 00:26:44,620 како може да се спој на резултатите што ги добива од библиотеката облак API 470 00:26:44,620 --> 00:26:46,250 со, да речеме, Google Книги. 471 00:26:46,250 --> 00:26:52,225 >> И мислење овде е дека можам се кандидира за пребарување против Google Книги, 472 00:26:52,225 --> 00:26:56,060 се добие целосна пребарување на текст, се некои резултати назад, да дознаете кој од овие елементи 473 00:26:56,060 --> 00:27:01,180 всушност постојат во Холис, на библиотечен систем, 474 00:27:01,180 --> 00:27:03,200 а потоа ми даде линкови назад кон оние ставки. 475 00:27:03,200 --> 00:27:12,730 Значи, ако јас потрага по, тоа беше темна и бурна ноќ, јас 476 00:27:12,730 --> 00:27:16,210 да се вратам еден куп на резултати од Google, а потоа еден резултат 477 00:27:16,210 --> 00:27:19,460 кој е на брчки во времето. 478 00:27:19,460 --> 00:27:29,330 И овие се линкови до книги кои постојат во рамките на системот на Харвард библиотека. 479 00:27:29,330 --> 00:27:32,160 >> Па претпоставувам дека поентата не е толку многу што тоа може или не може 480 00:27:32,160 --> 00:27:34,118 да биде начинот на кој сакате да пребарувате во библиотеката, 481 00:27:34,118 --> 00:27:38,310 но тоа е сосема поинаква начин на кој не беше достапен за вас 482 00:27:38,310 --> 00:27:42,884 пред, како што немаше начин на вршење на Целосниот текст пребарувања на книги што дури 483 00:27:42,884 --> 00:27:44,550 беа дел од системот на Харвард библиотека. 484 00:27:44,550 --> 00:27:46,870 Па сега тоа е начин дека можете да го направите тоа. 485 00:27:46,870 --> 00:27:51,930 И можете да ги наведат во на кој било формат сакаш. 486 00:27:51,930 --> 00:27:55,990 Значи, поентата тука е, во основа, ние сме отворање на нови начини за луѓето 487 00:27:55,990 --> 00:27:59,080 за работа со податоци. 488 00:27:59,080 --> 00:28:07,925 >> Друг дел од библиотеката облак е дека тоа им помага изложуваат на некои од користење на податоци 489 00:28:07,925 --> 00:28:08,800 дека библиотеката има. 490 00:28:08,800 --> 00:28:12,630 Значи, ако се оди во библиотека, и сте во потрага за книги, 491 00:28:12,630 --> 00:28:15,770 Вие не мора нужно всушност, има идеја за тоа, 492 00:28:15,770 --> 00:28:19,080 за сите ставки во одреден предмет, што 493 00:28:19,080 --> 00:28:21,200 луѓе во заедница, без разлика дали тоа е 494 00:28:21,200 --> 00:28:24,890 дефинирани како Харвард или земјата или во својата класа, 495 00:28:24,890 --> 00:28:26,421 Што имаат тие заклучија дека повеќето корисни? 496 00:28:26,421 --> 00:28:28,920 И библиотеката всушност има тон на информации за тоа што 497 00:28:28,920 --> 00:28:32,999 е многу корисно, бидејќи ако многу луѓе се одјавувањето книга, 498 00:28:32,999 --> 00:28:34,040 кој ви кажува нешто. 499 00:28:34,040 --> 00:28:36,498 Мора да имало некоја причина тие сакаат да го провериш. 500 00:28:36,498 --> 00:28:38,270 Многу луѓе го стави на резерва. 501 00:28:38,270 --> 00:28:42,520 >> Ако е на листата на резерва за многу на часови, што ви кажува нешто. 502 00:28:42,520 --> 00:28:45,960 Ако членови на факултет го проверува од многу студенти и не се, 503 00:28:45,960 --> 00:28:47,200 кој ми кажува нешто. 504 00:28:47,200 --> 00:28:49,280 Обратно, што, исто така, ви кажува нешто. 505 00:28:49,280 --> 00:28:54,680 Значи тоа ќе биде навистина интересно да се стави дека информации таму и нека 506 00:28:54,680 --> 00:28:59,969 луѓе го користат за да им помогне да најдат работи во рамките на библиотечен систем. 507 00:28:59,969 --> 00:29:02,260 На друга страна на ова е постојат некои сериозни приватност 508 00:29:02,260 --> 00:29:07,854 загриженост, бидејќи еден од клучните постулати на библиотеката 509 00:29:07,854 --> 00:29:10,770 е не ќе треба да се кажува на луѓето она што другите луѓе се читањето. 510 00:29:10,770 --> 00:29:17,360 И дури и ако се вели ова Книгата ја проверуваат од четири пати 511 00:29:17,360 --> 00:29:20,070 во одреден месец, кои би можеле да се користат 512 00:29:20,070 --> 00:29:25,252 да водат назад до одредена лице од де-anonymizing податоци 513 00:29:25,252 --> 00:29:26,710 и дознаваат кој го проверуваат надвор. 514 00:29:26,710 --> 00:29:30,792 Значи начинот на кој можеме да avoid-- 515 00:29:30,792 --> 00:29:33,750 Начинот на кој можеме да се обидеме да ја извадиме некои сигнал од сите информации 516 00:29:33,750 --> 00:29:36,740 без да се нарушат загриженост за приватноста никого 517 00:29:36,740 --> 00:29:42,150 во суштина ги погледнеме 10 години на користење на податоци, - 518 00:29:42,150 --> 00:29:43,930 >> Така, тоа е во текот на долг временски период. 519 00:29:43,930 --> 00:29:50,639 >> --and велат, добро, ајде да видиме како многу пати ова дело беше искористена, 520 00:29:50,639 --> 00:29:52,930 и со кои во текот на овој период на времето, а потоа во основа 521 00:29:52,930 --> 00:29:56,300 му ја врати на број, кој ние го нарекуваме магацинот резултат, кој во основа 522 00:29:56,300 --> 00:29:59,910 претставува колку тоа ќе се користи. 523 00:29:59,910 --> 00:30:01,084 И тоа number-- 524 00:30:01,084 --> 00:30:03,250 Многу различни пресметки одат во овој број. 525 00:30:03,250 --> 00:30:05,150 --but тоа е многу груба параметар, кој ви дава 526 00:30:05,150 --> 00:30:11,300 некоја идеја за тоа како заедница може да го цениме таа работа. 527 00:30:11,300 --> 00:30:16,772 >> И така уште еден вид дури и повеќе fleshed надвор апликација 528 00:30:16,772 --> 00:30:18,480 што носи предност ова е нешто 529 00:30:18,480 --> 00:30:24,000 наречен Stacklife, што е, всушност, достапни преку главниот Харвард 530 00:30:24,000 --> 00:30:24,880 Библиотека порталот. 531 00:30:24,880 --> 00:30:26,700 А ти оди, да library.harvard.edu. 532 00:30:26,700 --> 00:30:29,360 Ќе видите голем број на различни начини на пребарување на библиотеката. 533 00:30:29,360 --> 00:30:32,300 И еден од нив е наречен Stacklife. 534 00:30:32,300 --> 00:30:38,980 >> И ова е апликација која browses содржината на библиотеката, 535 00:30:38,980 --> 00:30:43,490 но е целосно изградена на врвот на овие API-јата. 536 00:30:43,490 --> 00:30:46,910 Значи нема посебни нешта се случува зад сцената. 537 00:30:46,910 --> 00:30:49,570 Нема пристап до податоци кои не треба. 538 00:30:49,570 --> 00:30:54,090 Тоа е со користење на API-јата за да ви овозможи со една сосема поинаква пребарување 539 00:30:54,090 --> 00:30:55,480 искуство. 540 00:30:55,480 --> 00:30:58,570 >> Значи, ако јас пребарување за Алиса во земјата на чудата, во овој случај, 541 00:30:58,570 --> 00:31:02,600 Јас се резултат на што личи ова, што е прилично much-- 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> Тоа е многу слична со било кој друг пребарување може да направи ништо, освен во овој случај 544 00:31:10,870 --> 00:31:15,730 ние сме пласман на предмети од stackscore, кој ви дава 545 00:31:15,730 --> 00:31:19,850 некоја идеја за тоа како популарна овие предмети спаѓаат во рамките на заедницата. 546 00:31:19,850 --> 00:31:25,610 И така јасно, Алиса во земјата на чудата од страна на Волт Дизни е мошне популарна. 547 00:31:25,610 --> 00:31:36,570 Но вие исто така може да се види најдобрите четири тука се и оние што не може да actually-- 548 00:31:36,570 --> 00:31:39,220 >> Работите кои се многу користени, но вие не може веднаш 549 00:31:39,220 --> 00:31:41,240 се поврзете со Алиса во земјата на чудата. 550 00:31:41,240 --> 00:31:44,650 Значи нашиот стар пријател на Коментирани Алис е тука. 551 00:31:44,650 --> 00:31:46,350 Значи можам да ги разгледаме во неа. 552 00:31:46,350 --> 00:31:52,010 И сега што јас го барате на е всушност збир of-- 553 00:31:52,010 --> 00:31:53,760 Јас може да имаат коментирани Алиса во право тука. 554 00:31:53,760 --> 00:31:56,700 Имам информации во врска со тоа. 555 00:31:56,700 --> 00:32:00,230 И јас исто така имаат stackscore на, во овој случај, 26. 556 00:32:00,230 --> 00:32:03,169 И ова ми кажува вид на приближно како стигнавме до оваа stackscore, 557 00:32:03,169 --> 00:32:05,835 како што го проверуваат надвор, на пример како Многу пати се проверуваат надвор, 558 00:32:05,835 --> 00:32:08,440 како факултет или undergrads, како многу копии библиотеката има, 559 00:32:08,440 --> 00:32:11,300 и така натаму и така натаму. 560 00:32:11,300 --> 00:32:16,460 >> И ти исто така да, интересно е доволно тука, да пребарува на Купишта буквално. 561 00:32:16,460 --> 00:32:19,550 Па податоците тука, ова ви ја покажува вид 562 00:32:19,550 --> 00:32:23,547 на виртуелна претстава на она што рокот на сила 563 00:32:23,547 --> 00:32:25,880 изгледа како да сте биле да се земе сите фонд на библиотеката 564 00:32:25,880 --> 00:32:28,940 и ги стави заедно на една бесконечна полица. 565 00:32:28,940 --> 00:32:30,990 И убаво е што ги can-- 566 00:32:30,990 --> 00:32:33,380 >> Прво на сите, Податоците за овие книги 567 00:32:33,380 --> 00:32:35,627 често ви кажува кога беше објавен. 568 00:32:35,627 --> 00:32:37,085 Тоа ви кажува колку страници има. 569 00:32:37,085 --> 00:32:38,459 Тоа би можело да ви кажам на димензии. 570 00:32:38,459 --> 00:32:42,930 Така можете да видите кој е се гледа тука во однос на големината на книги. 571 00:32:42,930 --> 00:32:46,740 >> И тогаш може да се користат магацинот резултат да се потенцира 572 00:32:46,740 --> 00:32:49,170 книги кои имаат повисоки магацинот резултати. 573 00:32:49,170 --> 00:32:54,930 Значи, ако тоа е потемна, тоа значи дека, се претпоставува дека таа се користи почесто. 574 00:32:54,930 --> 00:32:57,040 Значи во овој случај, јас сум ќе се погоди дека овој 575 00:32:57,040 --> 00:33:03,226 е верзија на Алиса во земјата на чудата што е многу често се користи и повеќето 576 00:33:03,226 --> 00:33:05,100 пристапи, библиотеката има најмногу копии. 577 00:33:05,100 --> 00:33:06,975 Значи, ако сте во потрага за Алиса во земјата на чудата, 578 00:33:06,975 --> 00:33:10,220 ова може да биде добро место за почеток. 579 00:33:10,220 --> 00:33:13,500 >> А потоа, тука исто така можете да се поврзе надвор со, да речеме, Амазон за купување на книга, 580 00:33:13,500 --> 00:33:15,182 и така натаму и така натаму. 581 00:33:15,182 --> 00:33:17,140 Поентата овде, повторно, не е толку многу што овој 582 00:33:17,140 --> 00:33:25,030 е најдобар начин да ја разгледате нашата библиотека или на правото алатка за секоја пригода. 583 00:33:25,030 --> 00:33:28,400 Но, тоа е уште еден начин да се направи тоа. 584 00:33:28,400 --> 00:33:31,359 И со изработка на податоци достапни преку API, што 585 00:33:31,359 --> 00:33:34,650 е направен од многу едноставна градежен материјал, кој ви дозволува да пребарувате на содржината, 586 00:33:34,650 --> 00:33:39,420 може да се изгради нешто како тоа може 587 00:33:39,420 --> 00:33:41,520 биде исклучително вредни за некои луѓе. 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> Значи тоа е вид на, колку што сакам да се каже за тоа што навистина API е 590 00:33:51,860 --> 00:33:56,070 и она што го изложува, има цела куп на работи зад сцената, што 591 00:33:56,070 --> 00:33:59,480 Јас сум само ќе се смести на кратко само поради тоа што вид на збор во овој 592 00:33:59,480 --> 00:34:03,720 од сосема поинаков агол во смисла на тоа како го прави нешто како ова 593 00:34:03,720 --> 00:34:04,580 се стави во место? 594 00:34:04,580 --> 00:34:10,820 >> Значи API е стандард интерфејс за сите на оваа содржина. 595 00:34:10,820 --> 00:34:13,820 Но, за да го добие таму, Првото нешто што ние мораше да го направи 596 00:34:13,820 --> 00:34:17,260 се повлече заедно информации на книги и слики 597 00:34:17,260 --> 00:34:21,580 и наоѓање помагала, колекцијата документ од различни Харвард системи. 598 00:34:21,580 --> 00:34:23,929 Алеф, VIA, и OASIS се имињата на системи. 599 00:34:23,929 --> 00:34:28,820 И тие во суштина се оди во гасоводот, за обработка на гасоводот. 600 00:34:28,820 --> 00:34:33,230 >> Значи прво на сите, ние се извоз додадени фајлови од сите овие системи. 601 00:34:33,230 --> 00:34:35,130 Ние им беа поделени на одделни ставки. 602 00:34:35,130 --> 00:34:39,360 Значи имаме датотека, која е Gigabyte, кој има милиони плочи во неа. 603 00:34:39,360 --> 00:34:42,290 Значи ние се поделени на одделни ставки. 604 00:34:42,290 --> 00:34:45,374 Потоа, за секоја точка, можеме да го претворите во mods, бидејќи некои од овие 605 00:34:45,374 --> 00:34:47,040 се природно mods, некои од нив не се. 606 00:34:47,040 --> 00:34:49,204 Значи ние сите го натера да да биде во ист формат. 607 00:34:49,204 --> 00:34:51,120 Потоа, постојат различни збогатување чекори, во која 608 00:34:51,120 --> 00:34:55,969 ние додадете повеќе информации за податоците отколку што беше на располагање во библиотеката. 609 00:34:55,969 --> 00:34:59,750 Значи ние треба да додадете, прв од сите имаме она што библиотеки го држат. 610 00:34:59,750 --> 00:35:02,250 Ние одиме преку чекор на пресметување на stackscore. 611 00:35:02,250 --> 00:35:07,112 Ние одиме преку уште еден чекор на додавање на повеќе метаподатоци во смисла 612 00:35:07,112 --> 00:35:10,730 на она што колекционери луѓе може да се додаде this-- 613 00:35:10,730 --> 00:35:12,532 >> Луѓето се создава колекции на предмети. 614 00:35:12,532 --> 00:35:13,990 Што колекционери пак припаѓаат? 615 00:35:13,990 --> 00:35:17,220 Како луѓето се означени Оваа содржина во минатото? 616 00:35:17,220 --> 00:35:20,750 Потоа ќе се филтрира и да го ограничи евиденцијата, бидејќи, како што споменав, 617 00:35:20,750 --> 00:35:24,120 има некои записи, кои, поради авторски права причини, ние не може да се прикаже. 618 00:35:24,120 --> 00:35:26,700 И тогаш ги вчитате во нешто што се нарекува 619 00:35:26,700 --> 00:35:31,680 Solr, која не е спелувањето грешка, но е името на парче софтвер 620 00:35:31,680 --> 00:35:35,710 што го прави за пребарување индексирање, кои за дискови сите од пребарувањето зад API. 621 00:35:35,710 --> 00:35:40,110 И тогаш тоа ќе стане достапен за API-то, и луѓето можат да го користат. 622 00:35:40,110 --> 00:35:44,640 >> Значи ова е како прилично јасна процес. 623 00:35:44,640 --> 00:35:47,230 Еден од интересните работи во врска со тоа 624 00:35:47,230 --> 00:35:50,990 дека се работи за со 13 милиони плочи 625 00:35:50,990 --> 00:35:53,820 и ние ќе се обидеме да се занимаваат или повеќе. 626 00:35:53,820 --> 00:36:01,260 И ние сакаме да биде во можност да се справи со овие во релативно брзо модата. 627 00:36:01,260 --> 00:36:03,630 Тоа трае долго време да се обработка на 13 милиони плочи. 628 00:36:03,630 --> 00:36:09,529 >> Па, како овој нафтовод е воспоставен е дека can-- 629 00:36:09,529 --> 00:36:12,070 Претпоставувам дека во корист на гасоводот, проблемот што сме 630 00:36:12,070 --> 00:36:15,580 обидуваат да го решат тука, е дека сите трансформации, сите 631 00:36:15,580 --> 00:36:18,729 овие чекори во оваа Нафтоводот се делива. 632 00:36:18,729 --> 00:36:19,645 Нема зависност. 633 00:36:19,645 --> 00:36:22,146 Ако сте за обработка на рекорд на една книга, 634 00:36:22,146 --> 00:36:24,270 не постои зависност во дека меѓу друга книга. 635 00:36:24,270 --> 00:36:27,760 >> Значи она што можеме да направиме е во основа, во секој чекор на гасоводот, 636 00:36:27,760 --> 00:36:30,470 ние го стави во редот за чекање во облакот. 637 00:36:30,470 --> 00:36:32,250 Јас се случи да биде на Амазон Веб Услуги. 638 00:36:32,250 --> 00:36:35,140 Значи, тука е листа на, велат, 10.000 предмети кои 639 00:36:35,140 --> 00:36:38,100 треба да се нормализира и претвораат во MODS формат. 640 00:36:38,100 --> 00:36:41,620 И ние се вртат како многу сервери како што сакаме, можеби 10 сервери. 641 00:36:41,620 --> 00:36:44,860 И секој од овие сервери само Седи таму, изгледа дека во ред, 642 00:36:44,860 --> 00:36:46,730 гледа дека има една што треба да да се обработи, тоа повлекува исклучите редот, 643 00:36:46,730 --> 00:36:48,740 процеси, и стапови тоа на следната задача. 644 00:36:48,740 --> 00:36:54,200 >> И така она што ни овозможува да направите е да се примени, во суштина, 645 00:36:54,200 --> 00:36:58,110 колку хардвер како што сакаме ова проблем за многу краток временски период на време 646 00:36:58,110 --> 00:37:02,970 за обработка на податоците толку брзо како што е можно, што е нешто што само, 647 00:37:02,970 --> 00:37:08,220 сега во светот на cloud computing можеме обезбедување сервери во суштина 648 00:37:08,220 --> 00:37:09,890 моментално, е тоа корисно. 649 00:37:09,890 --> 00:37:12,260 Значи ние не треба да се имаат гигант сервер поседнати околу 650 00:37:12,260 --> 00:37:16,700 цело време да се направи преработка што може да се случи само еднаш неделно. 651 00:37:16,700 --> 00:37:21,440 >> Па тоа е најчесто тоа. 652 00:37:21,440 --> 00:37:27,590 Има документација за библиотеката Облак API Точка 653 00:37:27,590 --> 00:37:31,960 на оваа адреса, кој ќе бидат достапни подоцна. 654 00:37:31,960 --> 00:37:36,730 И ве молам да си одат се погледне тоа да се види дали има нешто, 655 00:37:36,730 --> 00:37:37,579 имате било какви идеи. 656 00:37:37,579 --> 00:37:38,120 Игра со неа. 657 00:37:38,120 --> 00:37:38,830 Измамат околу. 658 00:37:38,830 --> 00:37:42,800 И се надевам дека ќе може да дојде со нешто големо. 659 00:37:42,800 --> 00:37:44,740 Ви благодарам. 660 00:37:44,740 --> 00:37:45,899