1 00:00:00,000 --> 00:00:11,370 2 00:00:11,370 --> 00:00:12,370 JEFFREY LICHT: वहाँ हाय। 3 00:00:12,370 --> 00:00:13,550 मैं जेफरी लिच हूँ। 4 00:00:13,550 --> 00:00:17,890 और मैं के बारे में बात करने के लिए यहाँ हूँ हार्वर्ड पुस्तकालय और इमारत कल की 5 00:00:17,890 --> 00:00:20,870 पुस्तकालय आज, मुझे लगता है। 6 00:00:20,870 --> 00:00:23,040 तो यहाँ पृष्ठभूमि, इस सत्र के लिए पिच 7 00:00:23,040 --> 00:00:26,930 अनिवार्य रूप से यह है कि वहाँ ग्रंथ सूची डेटा का एक बहुत 8 00:00:26,930 --> 00:00:28,400 हार्वर्ड पुस्तकालयों में उपलब्ध है। 9 00:00:28,400 --> 00:00:33,434 और वहाँ एक अवसर है, उपकरणों में से कुछ के माध्यम से 10 00:00:33,434 --> 00:00:36,350 और विकसित किया जा रहा है कि एक परियोजना, जानकारी तक पहुँच पाने के लिए 11 00:00:36,350 --> 00:00:42,430 और स्थानों के लिए इसे ले कि हार्वर्ड लाइब्रेरी, अभी नहीं कर रही है 12 00:00:42,430 --> 00:00:45,460 इसके साथ नए सामान करना, प्रयोग और इसके साथ खेलने के आसपास। 13 00:00:45,460 --> 00:00:52,413 >> तो इस में प्रवेश बिंदु एक एपीआई है हार्वर्ड लाइब्रेरी बादल, जो बुलाया 14 00:00:52,413 --> 00:00:57,650 एक खुला मेटाडाटा सर्वर है, जो मैं के बारे में बात करेंगे। 15 00:00:57,650 --> 00:01:02,595 तो पृष्ठभूमि एक यह है कि वहाँ हार्वर्ड पुस्तकालय में सामान की बहुत। 16 00:01:02,595 --> 00:01:07,150 हम 13 लाख ग्रंथ सूची से अधिक है रिकॉर्ड, छवियों के लाखों, 17 00:01:07,150 --> 00:01:11,090 खोजने एड्स की और हजारों, जो वर्णन कर अनिवार्य रूप से दस्तावेज हैं 18 00:01:11,090 --> 00:01:15,500 संग्रह, कह रही है क्या कागजात के बक्से, उन में है 19 00:01:15,500 --> 00:01:21,080 और इतना आगे से अधिक का प्रतिनिधित्व करते हैं कि एक लाख व्यक्ति दस्तावेजों। 20 00:01:21,080 --> 00:01:24,290 और यह भी की एक बहुत कुछ है पुस्तकालय है कि जानकारी 21 00:01:24,290 --> 00:01:28,180 सामग्री है कि प्रयोग किया जाता है के बारे में कैसे लोगों के हित के लिए हो सकता है 22 00:01:28,180 --> 00:01:32,400 जो उसके साथ काम करने के लिए चाहते हो सकता है। 23 00:01:32,400 --> 00:01:36,150 >> तो जानकारी के सभी पुस्तकालय मेटाडाटा है। 24 00:01:36,150 --> 00:01:39,500 तो मेटाडाटा डेटा के बारे में डेटा है। 25 00:01:39,500 --> 00:01:42,070 इसलिए हम के बारे में बात करते हैं जानकारी है कि 26 00:01:42,070 --> 00:01:44,890 पुस्तकालय के माध्यम से उपलब्ध उपलब्ध है कि बादल, 27 00:01:44,890 --> 00:01:47,760 यह जरूरी नहीं है वास्तविक दस्तावेज 28 00:01:47,760 --> 00:01:53,060 खुद को, जरूरी नहीं भरा किताबें या पूर्ण छवियों का पाठ, 29 00:01:53,060 --> 00:01:54,890 हालांकि कि वास्तव में मामला हो सकता है। 30 00:01:54,890 --> 00:01:57,550 लेकिन यह सच है डेटा के बारे में जानकारी। 31 00:01:57,550 --> 00:02:00,909 >> तो तुम सूचीबद्ध करने के बारे में सोच सकते हैं जानकारी, फोन नंबर, विषयों, 32 00:02:00,909 --> 00:02:02,700 कितने की प्रतियां किताब कर रहे हैं, क्या 33 00:02:02,700 --> 00:02:06,380 संस्करणों रहे हैं, क्या कर रहे हैं इतना आगे प्रारूपों, लेखकों, और। 34 00:02:06,380 --> 00:02:12,250 तो सूचना के बारे में बहुत कुछ नहीं है संग्रह में जानकारी है कि, 35 00:02:12,250 --> 00:02:14,400 अपने आप में, एक तरह से स्वाभाविक रूप से उपयोगी है। 36 00:02:14,400 --> 00:02:19,230 और अगर आप कर रहे हैं, हालांकि में गहराई से अनुसंधान कर रही है, 37 00:02:19,230 --> 00:02:25,160 आप स्पष्ट रूप से वास्तविक को प्राप्त करना चाहते हैं खुद सामग्री और आंकड़ों पर नजर डालें, 38 00:02:25,160 --> 00:02:30,140 मेटाडाटा के संदर्भ में उपयोगी है दोनों एक पूरे के रूप में कोष का विश्लेषण, 39 00:02:30,140 --> 00:02:33,870 जैसे संग्रह में क्या बातें कर रहे हैं। 40 00:02:33,870 --> 00:02:35,520 वे कैसे संबंधित हैं? 41 00:02:35,520 --> 00:02:39,482 यह आप वास्तव में अन्य सामान मिल में मदद करता है जो इसके बारे में वास्तव में मुख्य उद्देश्य है। 42 00:02:39,482 --> 00:02:41,190 के बिंदु मेटाडाटा और सूची 43 00:02:41,190 --> 00:02:43,230 आप सभी को खोजने में मदद करने के लिए है जानकारी है कि 44 00:02:43,230 --> 00:02:46,590 संग्रह के भीतर उपलब्ध। 45 00:02:46,590 --> 00:02:53,690 >> तो इस मेटाडाटा का एक उदाहरण है हार्वर्ड पुस्तकालय में एक किताब के लिए। 46 00:02:53,690 --> 00:02:56,370 तो यह वहाँ है। 47 00:02:56,370 --> 00:02:59,850 और अगर आप इसे देख सकते हैं वास्तव में मामूली जटिल। 48 00:02:59,850 --> 00:03:04,610 और मेटाडाटा के मूल्य का हिस्सा हार्वर्ड पुस्तकालय प्रणाली के भीतर 49 00:03:04,610 --> 00:03:09,320 यह की तरह किया गया है कि के catalogers द्वारा निर्मित 50 00:03:09,320 --> 00:03:12,720 और आवेदन करने वाले लोगों द्वारा इकट्ठा विशेषज्ञता और कौशल का एक बहुत 51 00:03:12,720 --> 00:03:20,030 और, समय के साथ यह करने के लिए सोचा जो मूल्य का एक बहुत कुछ है। 52 00:03:20,030 --> 00:03:25,450 >> तो क्या आप के लिए इस रिकॉर्ड पर एक नज़र रखना अगर एनोटेट ऐलिस, आप पता कर सकते हैं 53 00:03:25,450 --> 00:03:32,590 आप शीर्षक, जो इसे लिखा था, मिल गया है लेखक, और सभी विभिन्न विषयों 54 00:03:32,590 --> 00:03:35,380 जो लोगों में यह सूचीबद्ध किया है। 55 00:03:35,380 --> 00:03:40,110 और आप देख में, वहाँ भी कर सकते हैं अच्छी जानकारी का एक बहुत कुछ करने के अलावा 56 00:03:40,110 --> 00:03:42,852 यहाँ, कुछ दोहराव नहीं है। 57 00:03:42,852 --> 00:03:45,560 है कि जटिलता का एक बहुत कुछ है मेटाडाटा के माध्यम से परिलक्षित 58 00:03:45,560 --> 00:03:46,300 आपको लगता है कि। 59 00:03:46,300 --> 00:03:50,320 >> तो इस किताब की एक शीर्षक है एलिस इन वंडरलैंड के एडवेंचर्स। 60 00:03:50,320 --> 00:03:53,880 तो यह एक एनोटेट है उस किताब का संस्करण। 61 00:03:53,880 --> 00:03:56,380 लेकिन यह भी एनोटेट कहा जाता है ऐलिस ऐलिस एडवेंचर्स 62 00:03:56,380 --> 00:03:58,570 वंडरलैंड क्योंकि यह कुछ ऐसा है जो 63 00:03:58,570 --> 00:04:00,430 मार्टिन गार्डनर ने लिखा है और किताब एनोटेट। 64 00:04:00,430 --> 00:04:03,369 और महान जानकारी का एक बहुत कुछ है तर्क पहेलियाँ और चीजों के बारे में 65 00:04:03,369 --> 00:04:05,410 ऐलिस के भीतर आपको लगता है कि शायद के बारे में पता नहीं था। 66 00:04:05,410 --> 00:04:07,000 इसलिए यदि आप इसे पढ़ जाना चाहिए। 67 00:04:07,000 --> 00:04:11,940 >> लेकिन अगर आप वहाँ देख सकते हैं यहां विस्तार का एक बहुत, 68 00:04:11,940 --> 00:04:15,340 , जब यह पहचानकर्ता सहित बनाया गया था, यह कहाँ से आया 69 00:04:15,340 --> 00:04:17,420 हार्वर्ड के मामले में प्रणाली है, और बहुत आगे है। 70 00:04:17,420 --> 00:04:20,350 तो इस का एक नमूना है मेटाडाटा के प्रकार 71 00:04:20,350 --> 00:04:24,340 आप एक किताब में करने के लिए देख सकते हैं कि हार्वर्ड पुस्तकालय संग्रह। 72 00:04:24,340 --> 00:04:26,680 >> यह पूरी तरह से कुछ अलग है। 73 00:04:26,680 --> 00:04:32,610 इसलिए कहा जाता है वहाँ एक प्रणाली है के माध्यम से हार्वर्ड, मूल रूप से जो 74 00:04:32,610 --> 00:04:39,990 छवियों और कला की वस्तुओं को सूचीबद्ध किया गया है और हार्वर्ड भर दृश्य बातें, 75 00:04:39,990 --> 00:04:44,010 और कुछ मेटाडाटा जोड़ने उन्हें, उन्हें वर्गीकृत करने, 76 00:04:44,010 --> 00:04:49,200 और, कुछ मामलों में, प्रदान छोटे थंबनेल छवियों 77 00:04:49,200 --> 00:04:51,250 तुम एक ले जा सकते हैं अगर आप चाहें तो देखो। 78 00:04:51,250 --> 00:04:54,240 >> तो इस का एक उदाहरण है यदि आप एक थाली के लिए है कि मेटाडाटा 79 00:04:54,240 --> 00:04:57,840 शायद, से, एलिस इन वंडरलैंड। 80 00:04:57,840 --> 00:05:00,499 और तुम वहाँ देख सकते हैं यहां कम मेटाडाटा। 81 00:05:00,499 --> 00:05:02,040 यह वस्तु का सिर्फ एक अलग तरह का है। 82 00:05:02,040 --> 00:05:03,425 और इसलिए कम जानकारी है। 83 00:05:03,425 --> 00:05:07,790 >> आप ज्यादातर तथ्य है, एक फोन है कि संख्या, अनिवार्य रूप से, जो इसे बनाया - 84 00:05:07,790 --> 00:05:10,410 >> इसे बनाया गया था जब हम नहीं जानते। 85 00:05:10,410 --> 00:05:13,320 >> एक शीर्षक के चार। 86 00:05:13,320 --> 00:05:14,300 >> एक अन्य उदाहरण है। 87 00:05:14,300 --> 00:05:16,380 यह एक खोज सहायता है। 88 00:05:16,380 --> 00:05:19,030 तो लुईस का एक संग्रह नहीं है हार्वर्ड में कैरोल के कागजात। 89 00:05:19,030 --> 00:05:23,601 तो यह क्या वर्णन किया गया है उस संग्रह में है। 90 00:05:23,601 --> 00:05:26,100 तो किसी के माध्यम से चला गया है और सभी बक्से के माध्यम से देखा 91 00:05:26,100 --> 00:05:32,220 और, कुछ पृष्ठभूमि को देखते हुए यह सूचीबद्ध यहाँ क्या है की एक सारांश लिखा है। 92 00:05:32,220 --> 00:05:35,290 और अगर तुम थे देखने के लिए आगे इस पर, इस 93 00:05:35,290 --> 00:05:39,620 पृष्ठों और पन्नों के लिए पर चला जाता है और पृष्ठों, लेकिन आपको बता देगा 94 00:05:39,620 --> 00:05:41,860 क्या पत्रों और क्या क्या बक्से से तारीखें 95 00:05:41,860 --> 00:05:44,289 संग्रह में ही अस्तित्व में। 96 00:05:44,289 --> 00:05:46,330 लेकिन यह कुछ है कि, आप हार्वर्ड में कर रहे हैं, 97 00:05:46,330 --> 00:05:50,720 तुम जाओ और वास्तव में शारीरिक रूप से देख सकते हैं ऊपर और, शायद, पर एक नज़र रखना। 98 00:05:50,720 --> 00:05:53,440 >> तो क्या यह सब बहुत अच्छा है। 99 00:05:53,440 --> 00:05:54,450 इस मेटाडाटा की उपयोगी है। 100 00:05:54,450 --> 00:05:56,327 यह हार्वर्ड पुस्तकालय प्रणाली में है। 101 00:05:56,327 --> 00:05:58,910 उपकरण ऑनलाइन, जहाँ आप कर रहे हैं जाओ और इस पर एक नज़र ले जा सकते हैं, 102 00:05:58,910 --> 00:05:59,993 और यह देखते हैं, और यह खोज। 103 00:05:59,993 --> 00:06:02,810 और अगर आप इसे और पासा टुकड़ा कर सकते हैं यह अलग अलग तरीकों की बहुत सारी में। 104 00:06:02,810 --> 00:06:06,920 >> लेकिन यह अगर सच में ही उपलब्ध है आप नीचे बैठे एक इंसान हैं 105 00:06:06,920 --> 00:06:12,600 कृपया अपने वेब ब्राउज़र या कुछ या कम अपने फोन को और इसके माध्यम से नेविगेट। 106 00:06:12,600 --> 00:06:16,730 यह वास्तव में उपलब्ध नहीं है प्रयोग करने योग्य फैशन की किसी भी तरह 107 00:06:16,730 --> 00:06:19,520 अन्य प्रणालियों के लिए या अन्य कंप्यूटर, उपयोग करने के लिए 108 00:06:19,520 --> 00:06:21,500 नहीं भीतर सिस्टम के साथ हार्वर्ड लाइब्रेरी, 109 00:06:21,500 --> 00:06:24,890 लेकिन बाहर की दुनिया में सिस्टम, सामान्य रूप में सिर्फ दूसरे लोग। 110 00:06:24,890 --> 00:06:30,210 सवाल यह है तो, हम कैसे कर सकते हैं कंप्यूटर के लिए उपलब्ध करना 111 00:06:30,210 --> 00:06:33,560 हम और अधिक दिलचस्प कर सकते हैं ताकि बस की तुलना में इसके साथ सामान 112 00:06:33,560 --> 00:06:36,550 ब्राउज़िंग यह अपने आप? 113 00:06:36,550 --> 00:06:39,766 >> तो क्यों आप ऐसा करना चाहते है? 114 00:06:39,766 --> 00:06:41,140 संभावनाओं का एक बहुत हैं। 115 00:06:41,140 --> 00:06:43,980 एक है कि आप पूरी तरह से एक का निर्माण कर सकता है ब्राउज़िंग का अलग तरीका 116 00:06:43,980 --> 00:06:46,962 है कि उपलब्ध सामग्री हार्वर्ड पुस्तकालयों के माध्यम से। 117 00:06:46,962 --> 00:06:48,670 मैं तुम्हें एक दिखाता हूँ बाद में, Stacklife बुलाया 118 00:06:48,670 --> 00:06:52,440 एक पूरी तरह से अलग है, जो सामग्री के लिए देख ले। 119 00:06:52,440 --> 00:06:54,560 >> आप एक सिफारिश इंजन का निर्माण कर सकता। 120 00:06:54,560 --> 00:06:57,955 तो हार्वर्ड लाइब्रेरी में नहीं है कहने का व्यापार, आप इस किताब की तरह। 121 00:06:57,955 --> 00:07:01,080 तो इन 17 अन्य पर एक नज़र रखना जाना आप में रुचि हो सकती है कि किताबें 122 00:07:01,080 --> 00:07:03,200 या इन 18 अन्य छवियों। 123 00:07:03,200 --> 00:07:06,040 लेकिन वह निश्चित रूप से कर सकता है एक मूल्यवान सुविधा हो। 124 00:07:06,040 --> 00:07:09,272 मेटाडाटा दिया जाता है और, यह हो सकता है एक साथ रखा है कि संभव हो सकता है। 125 00:07:09,272 --> 00:07:11,980 आप में अलग अलग की जरूरत हो सकता है सामग्री खोज की दृष्टि से, 126 00:07:11,980 --> 00:07:16,200 जैसे शायद उपकरण के बावजूद कि पुस्तकालय में आता है कि उपलब्ध हैं 127 00:07:16,200 --> 00:07:18,450 उपलब्ध है, तुम चाहते हो सकता है एक अलग तरह से खोज करने के लिए 128 00:07:18,450 --> 00:07:21,847 या एक विशेष उपयोग के मामले के लिए अनुकूलित, जो हो सकता है यह बहुत विशेष है। 129 00:07:21,847 --> 00:07:23,930 शायद ही कुछ कर रहे हैं दुनिया में जो लोग 130 00:07:23,930 --> 00:07:25,846 सामग्री खोज करना चाहते हैं इस तरह, यह है, लेकिन 131 00:07:25,846 --> 00:07:28,985 बहुत अच्छा होगा अगर हम उन्हें ऐसा करते हैं सकता है। 132 00:07:28,985 --> 00:07:30,860 Analytics का एक बहुत कुछ है बस कैसे लोगों में 133 00:07:30,860 --> 00:07:33,860 सच होगा कि सामग्री का उपयोग पता लगाने के बारे में पता करने के लिए दिलचस्प 134 00:07:33,860 --> 00:07:37,280 क्या किताबें इस्तेमाल किया जा रहा है, क्या नहीं कर रहे हैं, और बहुत आगे है। 135 00:07:37,280 --> 00:07:41,670 और फिर से एक बहुत कुछ है एकीकृत करने के लिए अवसर 136 00:07:41,670 --> 00:07:45,210 अन्य जानकारी के साथ कि वेब पर वहाँ से बाहर है। 137 00:07:45,210 --> 00:07:46,880 इसलिए हम have-- 138 00:07:46,880 --> 00:07:50,260 >> उदाहरण के लिए, एनपीआर है एक किताब की समीक्षा खंड, 139 00:07:50,260 --> 00:07:53,090 वे साक्षात्कार जहां पुस्तकों के बारे में लेखक। 140 00:07:53,090 --> 00:07:56,837 अगर तुम थे और इसलिए यह बहुत अच्छा होगा हार्वर्ड में एक किताब की तलाश में 141 00:07:56,837 --> 00:07:59,670 लाइब्रेरी, और आप ठीक है, वहाँ है, का कहना है लेखक के साथ एक साक्षात्कार किया गया। 142 00:07:59,670 --> 00:08:00,878 उस पर एक नज़र रखना चलते हैं। 143 00:08:00,878 --> 00:08:05,461 या फिर एक विकिपीडिया पृष्ठ एक के रूप में, वहाँ है आधिकारिक, विद्वानों के संदर्भ 144 00:08:05,461 --> 00:08:07,710 इस पुस्तक के बारे में है कि आप पर एक नज़र रखना चाहते हो सकता है। 145 00:08:07,710 --> 00:08:12,600 >> सूत्रों का कहना है की इन प्रकार के होते हैं वेब भर में बिखरे हुए। 146 00:08:12,600 --> 00:08:16,555 और उन्हें एक साथ लाने एक महान उपयोग किया जा सकता है 147 00:08:16,555 --> 00:08:18,930 किसी के लिए पर देख रहे हैं सामग्री, कुछ के लिए देख रहे हैं। 148 00:08:18,930 --> 00:08:20,180 लेकिन यह भी नहीं है बात की तरह आप चाहते हैं 149 00:08:20,180 --> 00:08:23,205 पुस्तकालय जिम्मेदार होना चाहता हूँ नीचे जा रहा है और नीचे शिकार के लिए 150 00:08:23,205 --> 00:08:25,455 इन सभी विभिन्न स्रोतों और उन्हें एक साथ plugging 151 00:08:25,455 --> 00:08:28,920 वे लगातार बदल रहे हैं क्योंकि। 152 00:08:28,920 --> 00:08:33,570 और क्या उन्हें लगता है कि महत्वपूर्ण हो सकता है क्या आपको लगता है कि महत्वपूर्ण है नहीं हो। 153 00:08:33,570 --> 00:08:36,929 >> और उससे भी ज्यादा, मूल रूप से वहाँ एक हम अभी तक के बारे में सोचा नहीं है सामान की बहुत। 154 00:08:36,929 --> 00:08:42,222 इसलिए हम इस खोल सकते हैं, तो अधिक एक आधा दर्जन या तो इसके अलावा लोगों को, 155 00:08:42,222 --> 00:08:45,174 जो एक पर इस पर देख रहे हैं विचारों के बारे में सोच सकते हैं नियमित आधार 156 00:08:45,174 --> 00:08:47,340 और डेटा की मालिश, और वे इसके साथ क्या करना चाहते हैं। 157 00:08:47,340 --> 00:08:49,920 158 00:08:49,920 --> 00:08:54,045 >> इसलिए हम इस बनाना चाहते दुनिया के लिए उपलब्ध डेटा। 159 00:08:54,045 --> 00:08:55,670 खैर, एक जोड़ी उलझने हैं। 160 00:08:55,670 --> 00:08:58,540 एक इस मेटाडाटा यह है कि विभिन्न प्रणालियों में है। 161 00:08:58,540 --> 00:09:01,110 यह विभिन्न स्वरूपों में है। 162 00:09:01,110 --> 00:09:04,719 तो कुछ सामान्यीकरण नहीं है होने की जरूरत है, जो 163 00:09:04,719 --> 00:09:08,010 जो सामान्य बनाने की प्रक्रिया की जा रही है विभिन्न स्वरूपों से चीजों को लाने 164 00:09:08,010 --> 00:09:12,940 और एक भी प्रारूप करने के लिए उन्हें मानचित्रण इसलिए क्षेत्रों अप मैच होगा। 165 00:09:12,940 --> 00:09:15,160 >> कुछ कॉपीराइट प्रतिबंध है। 166 00:09:15,160 --> 00:09:21,010 ताज्जुब है, सूची प्रविष्टि के बारे में एक पुस्तक कॉपीराइट के लिए उत्तरदायी है। 167 00:09:21,010 --> 00:09:24,060 तो भी यह सिर्फ यद्यपि किताब से ली गई जानकारी, 168 00:09:24,060 --> 00:09:25,330 यह कॉपीराइट है। 169 00:09:25,330 --> 00:09:28,400 और वास्तव में जो के आधार पर कि मेटाडाटा बनाई गई हैं, 170 00:09:28,400 --> 00:09:32,175 जो पर प्रतिबंध नहीं हो सकता है इसे वितरित कर सकते हैं, इसी तरह to-- 171 00:09:32,175 --> 00:09:33,402 >> मुझे नहीं पता। 172 00:09:33,402 --> 00:09:36,110 यह हो सकता है या करने के लिए समान नहीं हो सकता गाने के बोल की स्थिति, 173 00:09:36,110 --> 00:09:36,610 उदाहरण के लिए। 174 00:09:36,610 --> 00:09:38,560 इसलिए हम सभी को लगता है कि बाहर धूपदान कैसे पता है। 175 00:09:38,560 --> 00:09:40,450 तो आपको लगता है कि इस मुद्दे के आसपास पाने की जरूरत है। 176 00:09:40,450 --> 00:09:44,910 >> और फिर एक और टुकड़ा है उस डेटा का एक बहुत कुछ है। 177 00:09:44,910 --> 00:09:52,420 मैं काम करना चाहता है कोई है जो कर रहा हूँ तो अगर डेटा के साथ या एक अच्छा विचार है, 178 00:09:52,420 --> 00:09:55,350 14 लाख के साथ काम अपने लैपटॉप पर अभिलेख 179 00:09:55,350 --> 00:09:57,487 समस्याग्रस्त हो सकता है और मुश्किल का प्रबंधन करने के लिए। 180 00:09:57,487 --> 00:09:59,320 इसलिए हम कम करना चाहते हैं लोगों के लिए बाधाओं 181 00:09:59,320 --> 00:10:02,130 डेटा के साथ काम करने में सक्षम हो। 182 00:10:02,130 --> 00:10:07,880 >> तो दृष्टिकोण है कि उम्मीद है कि पतों इन चिंताओं के सभी दो भागों है। 183 00:10:07,880 --> 00:10:11,770 एक लेता है कि एक मंच का निर्माण होता है इन सभी असमान स्रोतों से डेटा 184 00:10:11,770 --> 00:10:14,350 और, normalizes, यह aggravates यह समृद्ध करती है, और बनावट 185 00:10:14,350 --> 00:10:16,650 यह एक ही स्थान में उपलब्ध है। 186 00:10:16,650 --> 00:10:20,950 और इसके माध्यम से यह उपलब्ध बनाता है लोगों को कॉल कर सकते हैं कि एक सार्वजनिक API। 187 00:10:20,950 --> 00:10:24,430 >> तो एक एपीआई एक आवेदन पत्र है प्रोग्रामिंग इंटरफेस। 188 00:10:24,430 --> 00:10:28,930 और यह मूल रूप से एक को संदर्भित करता है समापन बिंदु एक प्रणाली है कि या तकनीक 189 00:10:28,930 --> 00:10:31,720 कॉल और डेटा वापस मिल सकता है एक तरह से एक संरचित प्रारूप 190 00:10:31,720 --> 00:10:32,900 इसका इस्तेमाल किया जा सकता है। 191 00:10:32,900 --> 00:10:36,060 तो यह निर्भर नहीं है एक वेबसाइट के लिए जा रहा पर 192 00:10:36,060 --> 00:10:37,970 और बंद डेटा scraping इसके बारे में, उदाहरण के लिए। 193 00:10:37,970 --> 00:10:40,690 194 00:10:40,690 --> 00:10:45,010 >> इसलिए इस बात का होम पेज है लाइब्रेरी बादल आइटम एपीआई, 195 00:10:45,010 --> 00:10:47,220 जो अनिवार्य रूप से अपने संस्करण दो है। 196 00:10:47,220 --> 00:10:50,130 तो यह की दूसरी यात्रा है इस डेटा के सभी बनाने की कोशिश 197 00:10:50,130 --> 00:10:53,280 दुनिया के लिए उपलब्ध है। 198 00:10:53,280 --> 00:10:59,560 तो यह है http://api.lib.harvard.edu/v2/items। 199 00:10:59,560 --> 00:11:03,830 और बस इसी को तोड़ने के लिए एक छोटा सा है, क्या इसका मतलब यह है 200 00:11:03,830 --> 00:11:06,115 इस एपीआई के संस्करण के दो है। 201 00:11:06,115 --> 00:11:08,490 एक संस्करण एक, वहाँ जो मैं इस बारे में बात करने के लिए नहीं जा रहा हूँ। 202 00:11:08,490 --> 00:11:09,750 लेकिन एक संस्करण नहीं है। 203 00:11:09,750 --> 00:11:14,740 >> और तुम इस बुला रहे हैं एपीआई, आप आइटम हो रही है। 204 00:11:14,740 --> 00:11:20,640 और एक के विचार का हिस्सा एपीआई एक एपीआई एक अनुबंध है। 205 00:11:20,640 --> 00:11:23,440 ऐसा नहीं है कि कुछ है बदलने नहीं जा रहा। 206 00:11:23,440 --> 00:11:24,850 उदाहरण के लिए, - 207 00:11:24,850 --> 00:11:27,410 >> और कारण यह है कि अगर मैं प्रणाली के कुछ प्रकार है कि निर्माण 208 00:11:27,410 --> 00:11:33,210 एक पुस्तकालय बादल एपीआई का उपयोग करने के लिए जा रहा है पुस्तकें प्रदर्शित या लोगों को खोजने में मदद करने के लिए 209 00:11:33,210 --> 00:11:36,190 अनूठे तरीके में जानकारी, हम ऐसा करने के लिए क्या नहीं करना चाहती 210 00:11:36,190 --> 00:11:38,940 कैसे बदलने के लिए हमें जाने के लिए है कि एपीआई काम करता है, और अचानक 211 00:11:38,940 --> 00:11:41,340 सब कुछ अंत उपयोगकर्ता पक्ष पर टूट जाता है। 212 00:11:41,340 --> 00:11:46,710 आप एपीआई बना रहे हैं तो हिस्सा दुनिया के लिए उपलब्ध है, यह है 213 00:11:46,710 --> 00:11:49,396 अच्छा अभ्यास एक डाल करने के लिए इसमें संस्करण संख्या लोग तो 214 00:11:49,396 --> 00:11:51,020 वे साथ काम कर रहे हैं जो संस्करण पता है। 215 00:11:51,020 --> 00:11:54,300 >> हम चुनते हैं तो हम एक बेहतर तरीका खोजने इस जानकारी उपलब्ध कराने के, 216 00:11:54,300 --> 00:11:57,295 हम करने के लिए कि बदल सकता है उस संस्करण तीन कहते हैं। 217 00:11:57,295 --> 00:11:59,920 का उपयोग करते हुए अब भी है, जो तो हर कोई संस्करण दो, कि अभी भी काम करेंगे। 218 00:11:59,920 --> 00:12:03,490 लेकिन संस्करण तीन होगा सभी नए सामान है। 219 00:12:03,490 --> 00:12:06,680 220 00:12:06,680 --> 00:12:09,210 >> तो यह है कि यह एक एपीआई है, लेकिन वास्तव में एक यूआरएल की तरह लग रहा है। 221 00:12:09,210 --> 00:12:11,680 और तो क्या यह है एक का उदाहरण दिया गया है क्या है 222 00:12:11,680 --> 00:12:16,615 उपलब्ध है जो एक बाकी एपीआई कहा जाता है, सिर्फ एक नियमित रूप से वेब कनेक्शन पर। 223 00:12:16,615 --> 00:12:19,680 और आप वास्तव में कर सकते हैं एक ब्राउज़र में इसे करने के लिए जाना। 224 00:12:19,680 --> 00:12:28,550 >> तो यहाँ मैं सिर्फ फ़ायरफ़ॉक्स खोल दिया है और api.lib.harvard.edu/v2/items के लिए चला गया। 225 00:12:28,550 --> 00:12:31,560 और तो क्या मैं यहाँ मिलता है मूल रूप से प्रथम पृष्ठ 226 00:12:31,560 --> 00:12:34,740 पूरे से परिणामों की हमें मिल गया है कि आइटम का सेट। 227 00:12:34,740 --> 00:12:37,460 और यह एक्सएमएल फॉर्मेट में यहाँ है। 228 00:12:37,460 --> 00:12:40,130 229 00:12:40,130 --> 00:12:42,210 और यह भी हो गया है फ़ायरफ़ॉक्स द्वारा prettified। 230 00:12:42,210 --> 00:12:45,850 यह वास्तव में इन सभी के पास नहीं है थोड़ा और करार का विस्तार 231 00:12:45,850 --> 00:12:47,880 यहाँ doohickeys। 232 00:12:47,880 --> 00:12:52,520 यह एक अच्छे की तरह है संस्करण तरह से इसे देखो। 233 00:12:52,520 --> 00:12:57,040 >> लेकिन क्या यह हमें बता रहा है है मैं सभी आइटम का अनुरोध किया है। 234 00:12:57,040 --> 00:13:03,120 तो 13,289,475 आइटम हैं। 235 00:13:03,120 --> 00:13:06,150 और मैं पहली बार देख रहा हूँ स्थिति शून्य पर शुरू में 10, 236 00:13:06,150 --> 00:13:09,760 कंप्यूटर विज्ञान के क्षेत्र में, क्योंकि हम हमेशा शून्य से शुरू। 237 00:13:09,760 --> 00:13:15,150 और मैं यहाँ क्या है, मैं सिर्फ पतन अगर यह आपको मैं 10 आइटम मिल गया है देखेंगे। 238 00:13:15,150 --> 00:13:20,410 239 00:13:20,410 --> 00:13:25,210 >> मैं एक आइटम पर एक नज़र रखना और, अगर मैं कर सकता हूँ मैं इसके बारे में जानकारी मिली है कि देखते हैं। 240 00:13:25,210 --> 00:13:27,400 और इस MODS फार्म क्या कहा जाता है में है। 241 00:13:27,400 --> 00:13:30,860 और इसलिए मैं स्विच करने के लिए जा रहा हूँ यहाँ वापस एक पल के लिए। 242 00:13:30,860 --> 00:13:33,750 ठीक है। 243 00:13:33,750 --> 00:13:37,447 >> तो चलो में कुछ के लिए खोज करते हैं विशिष्ट पहला आइटम है कि क्योंकि 244 00:13:37,447 --> 00:13:40,030 जब आप देखेंगे तब आने के लिए होता है पूरे संग्रह के माध्यम से 245 00:13:40,030 --> 00:13:41,750 यादृच्छिक, परिभाषा के द्वारा, है। 246 00:13:41,750 --> 00:13:44,550 तो चलो कुछ डोनट्स के लिए देखते हैं। 247 00:13:44,550 --> 00:13:46,830 ओह। 248 00:13:46,830 --> 00:13:49,190 >> ठीक है। 249 00:13:49,190 --> 00:13:49,940 तो डोनट्स। 250 00:13:49,940 --> 00:13:55,360 इसलिए हम 80 मदों में कर रहे हैं पाया डोनट्स कि संदर्भ संग्रह। 251 00:13:55,360 --> 00:13:57,150 हम उनमें से पहले 10 पर देख रहे हैं। 252 00:13:57,150 --> 00:14:01,890 अब, आप जिस तरह से यहाँ देख सकते हैं कि मुझे लगता है मैं डोनट्स के लिए देख रहा हूँ ने कहा, 253 00:14:01,890 --> 00:14:04,400 मैं बस के लिए कुछ जोड़ा यूआरएल के क्वेरी स्ट्रिंग। 254 00:14:04,400 --> 00:14:09,680 तो क्यू जो आप कर सकते हैं, डोनट्स के बराबर होती है एक छोटे से अधिक आसानी से यहाँ देखें। 255 00:14:09,680 --> 00:14:12,131 >> और यह मूल रूप से वहाँ का मतलब एपीआई, के लिए एक युक्ति है जो 256 00:14:12,131 --> 00:14:13,880 क्या सब से परिभाषित करता है इन मानकों मतलब है। 257 00:14:13,880 --> 00:14:17,150 और यह हम करने जा रहे हैं इसका मतलब डोनट्स के लिए सब कुछ खोज। 258 00:14:17,150 --> 00:14:24,910 >> हम हैं यहां पहला आइटम तो यदि आप शीर्षक डोनट्स है देख सकते हैं 259 00:14:24,910 --> 00:14:29,310 और एक नामक एक उपशीर्षक नहीं है अमेरिकी जुनून है, जो मुझे लगता है, 260 00:14:29,310 --> 00:14:31,610 उपयुक्त। 261 00:14:31,610 --> 00:14:36,134 Different-- की एक बहुत हैं 262 00:14:36,134 --> 00:14:38,050 आप बात करने के लिए एक बार डेटा प्राप्त करने की, 263 00:14:38,050 --> 00:14:41,020 अलग से एक बहुत कुछ कर रहे आप इसे में प्राप्त कर सकते हैं कि प्रारूपों। 264 00:14:41,020 --> 00:14:44,050 और अलग अलग शक्तियों रहे हैं और उन सभी के लिए कमजोरियों। 265 00:14:44,050 --> 00:14:49,000 तो यह एक है, जैसा कि आप देख सकते हैं यहाँ, यह रूप बहुत समृद्ध है। 266 00:14:49,000 --> 00:14:51,946 और यह मानकीकृत है। 267 00:14:51,946 --> 00:14:55,040 >> तो एक विशिष्ट शीर्षक नहीं है क्षेत्र, एक उपशीर्षक क्षेत्र। 268 00:14:55,040 --> 00:14:58,950 एक वैकल्पिक नहीं है शीर्षक, एक अमेरिकी जुनून। 269 00:14:58,950 --> 00:15:01,650 इसके साथ जुड़े नाम नहीं है। 270 00:15:01,650 --> 00:15:03,120 संसाधन के प्रकार पाठ है। 271 00:15:03,120 --> 00:15:06,070 जानकारी का एक बहुत कुछ है यहाँ इस प्रारूप में। 272 00:15:06,070 --> 00:15:09,480 >> लेकिन एक गुच्छा रहे हैं के विभिन्न स्वरूपों। 273 00:15:09,480 --> 00:15:11,920 तो हम बस क्या थे पर देख एक स्वरूप है 274 00:15:11,920 --> 00:15:17,700 के लिए खड़ा है, जो कहा जाता है, Mods, मेटाडाटा वस्तु विवरण सर्विस, 275 00:15:17,700 --> 00:15:18,250 संभवतः। 276 00:15:18,250 --> 00:15:23,030 मैं वास्तव में के बारे में काफी यकीन नहीं है एस लेकिन यह एक काफी जटिल स्वरूप है। 277 00:15:23,030 --> 00:15:24,240 यह डिफ़ॉल्ट स्वरूप है। 278 00:15:24,240 --> 00:15:30,260 >> लेकिन यह रहता है कि एक है सभी डेटा की समृद्धि 279 00:15:30,260 --> 00:15:33,820 पुस्तकालय क्योंकि है कि यह करने के लिए बहुत करीब है क्या 280 00:15:33,820 --> 00:15:35,110 पुस्तकालय आंतरिक रूप से उपयोग करता है। 281 00:15:35,110 --> 00:15:39,030 ऐसा नहीं है कि एक मानक है देश भर में इस्तेमाल किया, 282 00:15:39,030 --> 00:15:40,944 शैक्षिक पुस्तकालयों में दुनिया भर में। 283 00:15:40,944 --> 00:15:42,110 और यह बहुत अंतर-संचालित है। 284 00:15:42,110 --> 00:15:44,852 आप किसी दस्तावेज़ मिल गया है तो अगर कि, Mods प्रारूप में है 285 00:15:44,852 --> 00:15:47,560 आप किसी और के लिए है कि दे सकता है जिसका सिस्टम, Mods को समझने 286 00:15:47,560 --> 00:15:48,518 और वे इसे आयात कर सकते हैं। 287 00:15:48,518 --> 00:15:50,840 तो यह एक मानक है। 288 00:15:50,840 --> 00:15:54,250 यह बहुत अच्छी तरह से बहुत विशिष्ट, परिभाषित कर रहा है। 289 00:15:54,250 --> 00:15:58,980 और वह यह है क्या करता है interoperable, कोई कहता है, क्योंकि अगर 290 00:15:58,980 --> 00:16:04,930 इस एक के वैकल्पिक शीर्षक है रिकॉर्ड, हर कोई इसका मतलब है कि क्या जानता है। 291 00:16:04,930 --> 00:16:07,740 दूसरा पहलू पर, यह बहुत जटिल है। 292 00:16:07,740 --> 00:16:13,160 >> तो आप एक बार देख ले यहां इस रिकॉर्ड पर, 293 00:16:13,160 --> 00:16:15,320 मैं तो बस प्राप्त करना चाहते हैं इस दस्तावेज का शीर्षक, 294 00:16:15,320 --> 00:16:21,150 शायद डोनट्स है जो इस पुस्तक की, एक अमेरिकी जुनून, इसे बाहर पार्स करने 295 00:16:21,150 --> 00:16:22,940 एक छोटे से शामिल है। 296 00:16:22,940 --> 00:16:27,380 वहाँ एक और है, जबकि डबलिन कोर बुलाया प्रारूप, 297 00:16:27,380 --> 00:16:29,730 जो एक बहुत, बहुत सरल स्वरूप है। 298 00:16:29,730 --> 00:16:33,764 >> और इसलिए तुम वहाँ कोई नहीं है, यहाँ देखें शीर्षक, उपशीर्षक, वैकल्पिक शीर्षक। 299 00:16:33,764 --> 00:16:35,930 सिर्फ शीर्षक है, डोनट्स, एक अमेरिकी जुनून, 300 00:16:35,930 --> 00:16:38,780 और एक अन्य शीर्षक, अमेरिकी जुनून। 301 00:16:38,780 --> 00:16:42,907 आप किस रूप में देख रहे हैं तो जब यदि आप के बाहर डेटा प्राप्त करना चाहते हैं 302 00:16:42,907 --> 00:16:44,740 एक बहुत पर निर्भर करता है आप इसे उपयोग करने के लिए जा रहे हैं। 303 00:16:44,740 --> 00:16:46,573 आप के लिए इस्तेमाल कर रहे हैं अंर्तकार्यकारी या आप करते हैं 304 00:16:46,573 --> 00:16:49,970 सरल है कि कुछ करना चाहते हैं साथ काम करने के लिए आसान हो सकता है? 305 00:16:49,970 --> 00:16:56,002 >> दूसरा पहलू पर, का एक बहुत विवरण की तरह नीचे squished मिलता है। 306 00:16:56,002 --> 00:16:58,460 आप की बारीकियों को खो सकता है क्या एक विशेष क्षेत्र साधन 307 00:16:58,460 --> 00:17:02,960 आप डबलिन कोर के साथ काम कर रहे हैं, जो आप mods के साथ नहीं मिलेगा। 308 00:17:02,960 --> 00:17:06,462 तो उन स्वरूपों में से दो हैं आप एपीआई के बाहर निकल सकते हैं। 309 00:17:06,462 --> 00:17:08,920 और असल में, हम रख रहे हैं यह mods में पर्दे के पीछे। 310 00:17:08,920 --> 00:17:14,179 लेकिन हम mods में आप दे सकते हैं और डबलिन कोर और साथ ही कुछ और है। 311 00:17:14,179 --> 00:17:16,470 अन्य विचार जब आप डेटा में देख रहे हैं 312 00:17:16,470 --> 00:17:21,210 आप या तो JSON, के रूप में इसे प्राप्त कर सकते है जो , जावास्क्रिप्ट वस्तु संकेतन के लिए खड़ा है 313 00:17:21,210 --> 00:17:24,720 जिसके लिए खड़ा है या एक्सएमएल, एक्सटेंसिबल मार्कअप लैंग्वेज। 314 00:17:24,720 --> 00:17:30,080 और इन आंकड़ों अभ्यावेदन दोनों वास्तव में, वास्तव में एक ही डेटा है 315 00:17:30,080 --> 00:17:31,080 एक ही क्षेत्र। 316 00:17:31,080 --> 00:17:33,644 लेकिन वे बस रहे हैं वाक्य रचना से अलग है। 317 00:17:33,644 --> 00:17:40,401 >> इसलिए इस a-- है 318 00:17:40,401 --> 00:17:41,400 खैर, चलो बस स्विच करते हैं। 319 00:17:41,400 --> 00:17:47,490 तो यह हमारे क्वेरी के लिए है एक्सएमएल फॉर्मेट में डोनट्स। 320 00:17:47,490 --> 00:17:53,470 मैं सिर्फ इस JSON के होने के लिए स्विच, मैं यह अलग लग रहा है देख सकते हैं। 321 00:17:53,470 --> 00:17:58,580 तो अब यह एक ही सामग्री है, लेकिन एक अलग संरचना। 322 00:17:58,580 --> 00:18:00,080 कम कोण कोष्ठक कर रहे हैं। 323 00:18:00,080 --> 00:18:02,530 कम वाचाल नहीं है। 324 00:18:02,530 --> 00:18:06,440 >> और यह एक स्वरूप है कि, अगर आप वेब वातावरण में काम कर रहे हैं, 325 00:18:06,440 --> 00:18:09,680 आप सबसे अधिक संभावना जा रहे हैं क्योंकि एक का उपयोग करना चाहते करने के लिए 326 00:18:09,680 --> 00:18:12,630 अच्छी बातें की JSON के बारे में यह जावास्क्रिप्ट के साथ संगत है। 327 00:18:12,630 --> 00:18:17,680 मैं वेब अनुप्रयोग लिख रहा हूँ तो, अगर मैं खींच सकते हैं JSON में और बस सीधे इसके साथ काम करते हैं। 328 00:18:17,680 --> 00:18:20,187 एक्सएमएल के साथ जबकि, यह एक है थोड़ा और अधिक जटिल। 329 00:18:20,187 --> 00:18:21,520 तो फिर, इन दोनों से उपयोगी हैं। 330 00:18:21,520 --> 00:18:26,387 वे सिर्फ अलग मामलों का उपयोग कर रहे हैं जहां लोग उन्हें उपयोग करने के लिए चाहते हो सकता है। 331 00:18:26,387 --> 00:18:26,886 ठीक है। 332 00:18:26,886 --> 00:18:29,810 333 00:18:29,810 --> 00:18:31,680 तो वापस एपीआई के लिए। 334 00:18:31,680 --> 00:18:32,900 इसलिए हम for-- खोज कर सकते हैं 335 00:18:32,900 --> 00:18:36,220 >> मैं का एक उदाहरण दे डोनट्स के लिए खोज। 336 00:18:36,220 --> 00:18:39,330 हम यह भी एक बस में खोज कर सकते हैं यहां के भीतर विशेष क्षेत्र। 337 00:18:39,330 --> 00:18:41,310 तो बजाय खोज के पूरे रिकॉर्ड, 338 00:18:41,310 --> 00:18:43,870 मैं सिर्फ शीर्षक क्षेत्र खोज कर सकते हैं। 339 00:18:43,870 --> 00:18:48,810 और इसलिए अब 25 बातें कर रहे हैं कि शीर्षक में डोनट्स है, जिनमें से एक 340 00:18:48,810 --> 00:18:52,430 बहाल करने के बारे में है प्रबंधन में झीलों 341 00:18:52,430 --> 00:18:54,990 डोनट में छेद की जो शायद प्रोग्राम, 342 00:18:54,990 --> 00:18:58,970 जरूरी नहीं कि हम क्या देख रहे हैं हम डोनट्स के लिए खोज रहे हैं के लिए। 343 00:18:58,970 --> 00:19:02,790 344 00:19:02,790 --> 00:19:05,490 >> आप आप कर रहे हैं, जब भी कर सकते हैं एक API-- के साथ काम 345 00:19:05,490 --> 00:19:08,827 >> एक एपीआई होने का एक हिस्सा दे रहा है लोग बड़े डेटा सेट करने के लिए उपयोग। 346 00:19:08,827 --> 00:19:11,410 और अलग एक जोड़े हैं उपकरण आपको लगता है कि ऐसा करने के लिए उपयोग कर सकते हैं। 347 00:19:11,410 --> 00:19:14,170 एक तुम, बहुत ही सरलता है, आंकड़ों के माध्यम से कर सकते हैं पृष्ठ। 348 00:19:14,170 --> 00:19:17,340 इसलिए यदि आप एक क्वेरी कर बस के रूप में यदि एक वेब इंटरफेस के माध्यम से, 349 00:19:17,340 --> 00:19:19,470 यदि आप एक पृष्ठ पर देख सकते हैं पेज दो, पेज तीन। 350 00:19:19,470 --> 00:19:22,040 आप वही कर सकता है एपीआई के माध्यम से बात। 351 00:19:22,040 --> 00:19:24,150 तुम बस करने की आवश्यकता है आप इसे कैसे करते हैं में स्पष्ट। 352 00:19:24,150 --> 00:19:29,511 >> तो उदाहरण के लिए, मैं देख रहा हूँ कि अगर यहाँ मेरा पहला प्रश्न पर, 353 00:19:29,511 --> 00:19:32,510 मैं चीजों के लिए एक खोज कर रहा हूँ जहाँ शीर्षक में डोनट्स के साथ, मैं कह सकता हूँ 354 00:19:32,510 --> 00:19:35,415 और सीमा, जिसका मतलब है 20 के बराबर होती है , मुझे पहली बार 20 रिकॉर्ड नहीं दे 355 00:19:35,415 --> 00:19:38,540 डिफ़ॉल्ट है, जो पहले 10, मैं एक समय में 20 को देखने के लिए चाहते हैं। 356 00:19:38,540 --> 00:19:43,435 या मैं सेट, कह सकते हैं 20 और सीमा के बराबर शुरू 357 00:19:43,435 --> 00:19:47,150 जो दे देंगे, 20 के बराबर मुझे 40 के माध्यम से 21 रिकॉर्ड करता है। 358 00:19:47,150 --> 00:19:52,680 >> तो मैं बात अनुमान यहां दूर ले जाता है 359 00:19:52,680 --> 00:19:57,290 हम क्वेरी तार का उपयोग कर रहे हैं कि क्वेरी पर मानकों सेट करने के लिए। 360 00:19:57,290 --> 00:20:02,760 और यह आप नियंत्रित कर सकते हैं तुम वापस मिलता है। 361 00:20:02,760 --> 00:20:05,980 >> आप उपयोग कर सकते हैं कि एक अन्य उपकरण, - 362 00:20:05,980 --> 00:20:09,250 >> और इस में वास्तव में मददगार है डेटा की खोज की दृष्टि से। 363 00:20:09,250 --> 00:20:10,840 >> Faceting बुलाया कुछ --is। 364 00:20:10,840 --> 00:20:15,530 इसलिए अवधि Faceting है जरूरी आम नहीं। 365 00:20:15,530 --> 00:20:16,880 लेकिन आप सब से पहले यह देखा है। 366 00:20:16,880 --> 00:20:18,630 आप पर एक नज़र रखना अमेज़न, उदाहरण के लिए, 367 00:20:18,630 --> 00:20:20,870 और आप एक खोज के लिए करते हैं किताबों में डोनट्स, 368 00:20:20,870 --> 00:20:27,080 यहाँ वे पुस्तकों की एक श्रृंखला मिल गया है, और वे श्रेणी के आधार पर वर्गीकृत किया है रहे हैं, 369 00:20:27,080 --> 00:20:30,470 और आप विभिन्न श्रेणियों मिलता है, और कितने प्रत्येक श्रेणी में किताबें 370 00:20:30,470 --> 00:20:31,330 दिखा। 371 00:20:31,330 --> 00:20:33,420 >> तो यह मूल रूप से एक पहलू है। 372 00:20:33,420 --> 00:20:37,570 तुम्हें पता है, 1800 को अपने सभी किताबें ले अमेज़न पर डोनट्स कि मैच किताबें। 373 00:20:37,570 --> 00:20:39,820 उनमें से 12 में हैं नाश्ता श्रेणी। 374 00:20:39,820 --> 00:20:43,100 पेस्ट्री और पाक में 21, और इतने पर और आगे। 375 00:20:43,100 --> 00:20:47,670 >> तो यह वास्तव में एक उपयोगी है सामग्री की खोज के लिए उपकरण 376 00:20:47,670 --> 00:20:53,260 पुस्तकालय के भीतर के रूप में अच्छी तरह से यदि आप एक पहलू पर जब देखो, क्योंकि 377 00:20:53,260 --> 00:20:56,520 यह आप विषयों की एक विचार देता है विषयों की क्या प्रकार की तरह मौजूद है, 378 00:20:56,520 --> 00:20:58,510 आपकी क्वेरी सेट के भीतर सबसे अधिक लोकप्रिय हैं। 379 00:20:58,510 --> 00:21:00,950 और यह आप से दूर ड्राइव और पता लगाने में मदद करता है। 380 00:21:00,950 --> 00:21:02,770 इसलिए हम एक ही बात कर सकते हैं। 381 00:21:02,770 --> 00:21:05,940 >> हम उपयोग करना चाहते हैं एपीआई और पहलुओं को देखो, 382 00:21:05,940 --> 00:21:08,950 हम अन्य पैरामीटर को जोड़ने हमारे दोस्त क्वेरी स्ट्रिंग। 383 00:21:08,950 --> 00:21:12,540 पहलुओं तो अलग कर एक अल्पविराम के बराबर होती है हम पर पहलू क्या चाहते हैं की सूची। 384 00:21:12,540 --> 00:21:14,790 तो पहलुओं में से एक विषय हो सकता है। 385 00:21:14,790 --> 00:21:16,565 अन्य भाषा हो सकती है। 386 00:21:16,565 --> 00:21:19,665 हम चाहते हैं कि क्वेरी चलाते हैं और अगर हां, तो हम get-- 387 00:21:19,665 --> 00:21:23,372 388 00:21:23,372 --> 00:21:24,830 यह बहुत ज्यादा यहाँ एक ही लग रहा है। 389 00:21:24,830 --> 00:21:29,010 लेकिन हम अंत करने के लिए जोड़ दिया है पहलुओं की सूची का एक सेट। 390 00:21:29,010 --> 00:21:34,060 इसलिए हम इस विषय नामक एक पहलू है। 391 00:21:34,060 --> 00:21:40,250 तो यह है कि मैं देखने के लिए कि अगर हमें बता रहा है डोनट क्वेरी से मेरी 80 परिणामों में, 392 00:21:40,250 --> 00:21:42,100 उनमें से 13 संयुक्त राज्य अमेरिका के अधीन। 393 00:21:42,100 --> 00:21:43,684 तीन विषय डोनट्स है। 394 00:21:43,684 --> 00:21:45,600 तीन विषय है आर्द्रभूमि बहाली की, 395 00:21:45,600 --> 00:21:47,720 जो डोनट में हमारे छेद हो सकता है। 396 00:21:47,720 --> 00:21:51,780 उनमें से दो, द सिम्पसंस, और इतने पर और आगे। 397 00:21:51,780 --> 00:21:59,211 >> तो इसका मतलब है आप अगर उपयोगी हो सकता है अपनी खोज को कम करना चाहते हैं। 398 00:21:59,211 --> 00:22:00,210 यह आप ऐसा करने में सहायता कर सकते हैं। 399 00:22:00,210 --> 00:22:03,580 खास तौर पर अगर आपके पास अधिक, 80 से परिणाम है, का कहना है। 400 00:22:03,580 --> 00:22:05,980 >> इसी तरह, हम भी पूछा भाषा पर पहलुओं के लिए। 401 00:22:05,980 --> 00:22:14,790 हम अपने परिणामों को देखने तो, अगर हम 76 देखना उनमें से फ्रेंच में अंग्रेजी, चार में हैं, 402 00:22:14,790 --> 00:22:19,620 स्पेनिश, दो में दो, मुझे लगता है कि लगता है कि अपरिभाषित या अज्ञात, डच और लैटिन। 403 00:22:19,620 --> 00:22:22,830 इसलिए मैं लैटिन लगता है डोनट परिणाम, फिर से, 404 00:22:22,830 --> 00:22:24,922 पके हुए माल के साथ कुछ नहीं करना है। 405 00:22:24,922 --> 00:22:25,630 लेकिन वहाँ तुम जाओ। 406 00:22:25,630 --> 00:22:31,420 407 00:22:31,420 --> 00:22:38,630 >> तो इस तरह की आपको दिखा रहा है कैसे आप सामग्री वापस खींच सकते हैं 408 00:22:38,630 --> 00:22:41,270 एपीआई बस के माध्यम से जो महान है वेब ब्राउज़र,। 409 00:22:41,270 --> 00:22:44,320 लेकिन यह सच नहीं है कि तुम क्या होगा सामान्य रूप से इसके लिए एपीआई में उपयोग किया। 410 00:22:44,320 --> 00:22:48,710 आप कैसे की तो एक उदाहरण वास्तव में यह है कि मैं दिया है कर सकता है 411 00:22:48,710 --> 00:22:54,720 एक सुपर छोटे से कार्यक्रम में लिखा है, जो, फिर से, मेरे डोनट खोज करता है 412 00:22:54,720 --> 00:22:59,010 और एक जोड़ी क्षेत्रों का चयन और एक तालिका में उन्हें प्रदर्शित करता है। 413 00:22:59,010 --> 00:23:01,610 तो यह बहुत ज्यादा है एक ही सामग्री है कि हम सिर्फ 414 00:23:01,610 --> 00:23:04,830 कुछ क्षेत्रों के साथ देखा बाहर खींच लिया। 415 00:23:04,830 --> 00:23:12,090 खिताब की सूची, तो क्या किताब के स्थान 416 00:23:12,090 --> 00:23:15,120 के बारे में है, भाषा, और इतने पर और आगे। 417 00:23:15,120 --> 00:23:20,480 >> तो यह वास्तव में के बाद से, कैसे हुआ मैं, हम कुछ कोड को देखने के लिए है लगता है 418 00:23:20,480 --> 00:23:22,420 होती हे-- 419 00:23:22,420 --> 00:23:28,060 >> क्या हम यहाँ है एक सरल HTML है पाठ को प्रदर्शित करता है जो पृष्ठ 420 00:23:28,060 --> 00:23:32,900 पुस्तकालय बादल का स्वागत करते हैं और तो परिणामों की एक तालिका प्रदर्शित करता है। 421 00:23:32,900 --> 00:23:37,790 और जाहिर है कोई परिणाम में कर रहे हैं पेज लोड हो जाता है जब मेज। 422 00:23:37,790 --> 00:23:41,380 लेकिन हम क्या कर रहे हैं हम, सब से पहले है 423 00:23:41,380 --> 00:23:46,290 कहा जाता है एक पुस्तकालय लोड कर रहे हैं जो मूल रूप से jQuery के, 424 00:23:46,290 --> 00:23:52,030 यह बनाता है जो एक जावास्क्रिप्ट पुस्तकालय, जावास्क्रिप्ट हेरफेर करने के लिए बहुत आसान 425 00:23:52,030 --> 00:23:58,780 नेटिव रूप, एचटीएमएल, और वेब पेज बनाने, क्लाइंट-साइड तर्क और वेब पृष्ठों की है। 426 00:23:58,780 --> 00:24:01,595 >> तो क्या हम यहाँ है jQuery का है मिलता है, एक विधि बुलाया है 427 00:24:01,595 --> 00:24:05,270 जो अनिवार्य रूप से करने के लिए जाना जाएगा एक यूआरएल, जो इस मामले में, 428 00:24:05,270 --> 00:24:09,070 इस परिचित लग रही यूआरएल है। 429 00:24:09,070 --> 00:24:14,440 और फिर से सामग्री प्राप्त करेंगे फिर उस यूआरएल और उस पर एक समारोह चलाते हैं। 430 00:24:14,440 --> 00:24:19,240 इसलिए हम api.lib.harvard / edu के लिए जाना था। 431 00:24:19,240 --> 00:24:20,060 डोनट्स के लिए खोजें। 432 00:24:20,060 --> 00:24:21,300 हमें 20 रिकॉर्ड दीजिए। 433 00:24:21,300 --> 00:24:28,590 और फिर इस समारोह में, जो चलाने मैं यह डेटा गुजर रहा है, का चयन किया है। 434 00:24:28,590 --> 00:24:34,430 और डेटा JSON है कि एपीआई से लौटा दिया गया। 435 00:24:34,430 --> 00:24:40,120 >> और फिर हम उस भीतर, कह रहे हैं डेटा आइटम नामक एक क्षेत्र है। 436 00:24:40,120 --> 00:24:48,117 और मुझे लगता है पर एक नज़र वापस ले जाने के लिए अगर यहाँ है कि इन परिणामों से एक है, 437 00:24:48,117 --> 00:24:49,200 वहाँ कुछ called-- 438 00:24:49,200 --> 00:24:50,220 >> खैर, यह आइटम कहा जाता है। 439 00:24:50,220 --> 00:24:53,520 तो यह है कि हो सकता है कि। 440 00:24:53,520 --> 00:25:01,840 और यह क्या करता है यह है प्रत्येक मद के माध्यम से चला जाता है 441 00:25:01,840 --> 00:25:05,300 और फिर एक और कॉल प्रत्येक आइटम पर कार्य करते हैं। 442 00:25:05,300 --> 00:25:08,440 और उस समारोह मूल रूप से मूल्य ले जा रहा है 443 00:25:08,440 --> 00:25:12,010 जो आइटम की अनिवार्य रूप से व्यक्तिगत रिकॉर्ड 444 00:25:12,010 --> 00:25:18,220 और हमें शीर्षक बाहर खींचने के लिए अनुमति देता है, कवरेज और भाषा। 445 00:25:18,220 --> 00:25:21,640 >> इसलिए हम हर पर एक समारोह कॉल हम वापस एपीआई से मिला है कि आइटम। 446 00:25:21,640 --> 00:25:25,397 और तुम सिर्फ एक नज़र रखना अगर यहीं इस टुकड़े पर, 447 00:25:25,397 --> 00:25:27,230 क्या हम क्या कर रहे है हम एक स्ट्रिंग बना रहे हैं, 448 00:25:27,230 --> 00:25:31,810 जो अनिवार्य रूप से कुछ HTML मार्कअप है एक मेज के चारों ओर, value.title साथ, 449 00:25:31,810 --> 00:25:35,790 जो का शीर्षक है वस्तु, value.coverage, 450 00:25:35,790 --> 00:25:36,790 जो कवरेज, है - 451 00:25:36,790 --> 00:25:38,225 >> और हम एक जाँच कर रहे हैं यहाँ जो अपरिभाषित है को देखने के लिए 452 00:25:38,225 --> 00:25:40,570 और यह अपरिभाषित का कहना है कि अगर यह छुपा हम वास्तव में कोई दिलचस्पी नहीं कर रहे हैं, क्योंकि 453 00:25:40,570 --> 00:25:41,600 उस में। 454 00:25:41,600 --> 00:25:42,939 >> चार प्रकार तो भाषा। 455 00:25:42,939 --> 00:25:44,730 और फिर हम क्या कर रहे हैं कि appending कर 456 00:25:44,730 --> 00:25:48,510 है कि मेज पर यहाँ इस स्ट्रिंग द्वारा की पहचान की। 457 00:25:48,510 --> 00:25:50,790 और jQuery कैसे काम करता है यह कह रहा है क्या है 458 00:25:50,790 --> 00:25:56,420 इस विचार के साथ तालिका के लिए लग रही है परिणाम यह करने के लिए इस पाठ को जोड़ने और। 459 00:25:56,420 --> 00:25:59,380 और इस विचार के परिणाम के साथ तालिका है। 460 00:25:59,380 --> 00:26:04,998 तो तुम क्या अंत साथ यहाँ इस पृष्ठ है। 461 00:26:04,998 --> 00:26:06,206 और क्रम में source-- देखने के लिए 462 00:26:06,206 --> 00:26:11,310 463 00:26:11,310 --> 00:26:13,810 खैर, स्रोत वास्तव में नहीं है हुआ है कि जब अपडेट किया गया। 464 00:26:13,810 --> 00:26:18,740 तो आप वास्तविक देख सकते हैं हालांकि यहाँ तालिका का परिणाम है। 465 00:26:18,740 --> 00:26:24,770 >> इसलिए इस बात का सिर्फ एक सरल उदाहरण है एपीआई के खिलाफ एक बहुत ही बुनियादी क्वेरी कर 466 00:26:24,770 --> 00:26:29,020 और कुछ अन्य में जानकारी प्रदर्शित फार्म, और भी फैंसी कुछ भी नहीं कर रही है। 467 00:26:29,020 --> 00:26:36,370 अब, एक और उदाहरण एक की तरह है डेविड Weinberger द्वारा लिखित आवेदन 468 00:26:36,370 --> 00:26:39,120 इस का एक डेमो के रूप में, जो अनिवार्य रूप से आप से पता चलता है 469 00:26:39,120 --> 00:26:44,620 क्या आप कर रहे हैं परिणामों को मैश कैसे कर सकते हैं पुस्तकालय बादल एपीआई से हो रही है 470 00:26:44,620 --> 00:26:46,250 साथ, गूगल बुक्स का कहना है। 471 00:26:46,250 --> 00:26:52,225 >> और यहाँ सोच मैं कर सकते हैं गूगल बुक्स के खिलाफ एक क्वेरी चलाते हैं, 472 00:26:52,225 --> 00:26:56,060 कुछ परिणाम मिलता है, एक पूर्ण पाठ खोज मिल पीठ, यह पता लगाने के लिए उन वस्तुओं में से जो 473 00:26:56,060 --> 00:27:01,180 वास्तव में होलिस में मौजूद हैं, पुस्तकालय प्रणाली, 474 00:27:01,180 --> 00:27:03,200 और फिर मुझे लिंक दे वापस उन वस्तुओं से। 475 00:27:03,200 --> 00:27:12,730 मैं के लिए खोज तो, अगर यह था एक काले और तूफानी रात, मैं 476 00:27:12,730 --> 00:27:16,210 परिणामों का एक गुच्छा वापस पाने के लिए गूगल, और फिर एक परिणाम से 477 00:27:16,210 --> 00:27:19,460 जो समय में एक शिकन है। 478 00:27:19,460 --> 00:27:29,330 और ये है कि अस्तित्व में पुस्तकों के लिए संपर्क कर रहे हैं हार्वर्ड पुस्तकालय प्रणाली के भीतर। 479 00:27:29,330 --> 00:27:32,160 >> इसलिए मैं यहां मुद्दा यह नहीं लगता है इतना है कि इस साल मई या नहीं कर सकते 480 00:27:32,160 --> 00:27:34,118 आप चाहते हैं कि जिस तरह से किया लाइब्रेरी की खोज करने के लिए, 481 00:27:34,118 --> 00:27:38,310 लेकिन यह एक पूरी तरह से अलग है जिस तरह से आप के लिए उपलब्ध नहीं था कि 482 00:27:38,310 --> 00:27:42,884 इससे पहले, आप की तरह करने का कोई रास्ता नहीं था पूरा पाठ पुस्तकों पर खोजता है कि यहां तक ​​कि 483 00:27:42,884 --> 00:27:44,550 हार्वर्ड पुस्तकालय प्रणाली का हिस्सा थे। 484 00:27:44,550 --> 00:27:46,870 तो अब यह एक तरीका है आप ऐसा कर सकते हैं। 485 00:27:46,870 --> 00:27:51,930 और तुम में उन्हें प्रदर्शित कर सकते हैं जो कुछ भी प्रारूप में आप चाहते हैं। 486 00:27:51,930 --> 00:27:55,990 यहाँ तो बात है, मूल रूप से है हम लोगों के लिए नए तरीके खोल रहे हैं 487 00:27:55,990 --> 00:27:59,080 डेटा के साथ काम करने के लिए। 488 00:27:59,080 --> 00:28:07,925 >> पुस्तकालय बादल का एक टुकड़ा है कि यह उपयोग डेटा के कुछ पर्दाफाश में मदद करता है 489 00:28:07,925 --> 00:28:08,800 पुस्तकालय है कि। 490 00:28:08,800 --> 00:28:12,630 तो अगर आप पुस्तकालय में जाना है, तो और आप पुस्तकों के लिए देख रहे हैं, 491 00:28:12,630 --> 00:28:15,770 आप जरूरी नहीं है वास्तव में की एक विचार है, 492 00:28:15,770 --> 00:28:19,080 एक में सभी मदों के लिए विशेष विषय, क्या 493 00:28:19,080 --> 00:28:21,200 लोगों में हैं समुदाय है, यह है कि क्या 494 00:28:21,200 --> 00:28:24,890 हार्वर्ड या के रूप में परिभाषित देश या अपने वर्ग, 495 00:28:24,890 --> 00:28:26,421 वे सबसे अधिक उपयोगी पाया क्या है? 496 00:28:26,421 --> 00:28:28,920 और पुस्तकालय वास्तव में है एक के बारे में जानकारी के टन क्या 497 00:28:28,920 --> 00:28:32,999 सबसे अधिक उपयोगी है एक बहुत क्योंकि अगर लोगों को एक किताब की जाँच कर रहे हैं की, 498 00:28:32,999 --> 00:28:34,040 कि आप कुछ बताता है। 499 00:28:34,040 --> 00:28:36,498 कोई कारण रहा होगा वे इसे बाहर की जाँच करना चाहते हैं। 500 00:28:36,498 --> 00:28:38,270 बहुत सारे लोग आरक्षित पर डाल दिया। 501 00:28:38,270 --> 00:28:42,520 >> यह एक बहुत कुछ के लिए आरक्षित सूची पर है वर्गों की, कि आप कुछ बताता है। 502 00:28:42,520 --> 00:28:45,960 संकाय सदस्यों को यह जाँच कर रहे हैं एक बहुत है और स्नातक से नीचे नहीं कर रहे हैं बाहर, 503 00:28:45,960 --> 00:28:47,200 कि मुझे कुछ बताता है। 504 00:28:47,200 --> 00:28:49,280 इसके विपरीत, वह भी आप कुछ बताता है। 505 00:28:49,280 --> 00:28:54,680 तो यह करने के लिए वास्तव में दिलचस्प होगा वहाँ से बाहर है कि जानकारी डाल दो और 506 00:28:54,680 --> 00:28:59,969 लोग उन्हें खोजने में मदद करने के लिए इसका इस्तेमाल करते हैं पुस्तकालय प्रणाली के भीतर काम करता है। 507 00:28:59,969 --> 00:29:02,260 इस का दूसरा पहलू भी है कुछ गंभीर गोपनीयता रहे हैं 508 00:29:02,260 --> 00:29:07,854 चिंताओं में से एक है क्योंकि पुस्तकालय के मूल सिद्धांतों 509 00:29:07,854 --> 00:29:10,770 हम कह रही हो नहीं जा रहे है अन्य लोगों को क्या पढ़ रहे हैं लोग। 510 00:29:10,770 --> 00:29:17,360 और आप यह कह रहे हैं, भले ही पुस्तक में चार बार बाहर की जाँच की गई थी 511 00:29:17,360 --> 00:29:20,070 एक विशेष महीने में, कि इस्तेमाल किया जा सकता है 512 00:29:20,070 --> 00:29:25,252 एक खास करने के लिए वापस लिंक करने के लिए डे-anonymizing डेटा से व्यक्ति 513 00:29:25,252 --> 00:29:26,710 और इसे बाहर की जाँच की है जो बाहर ढूँढने। 514 00:29:26,710 --> 00:29:30,792 तो जिस तरह से हम avoid-- कर सकते हैं 515 00:29:30,792 --> 00:29:33,750 हम निकालने के लिए कोशिश कर सकते हैं कि जिस तरह से सभी जानकारी से कुछ संकेत 516 00:29:33,750 --> 00:29:36,740 उल्लंघन के बिना किसी की गोपनीयता चिंताओं 517 00:29:36,740 --> 00:29:42,150 हम पर देखने के लिए अनिवार्य है उपयोग डेटा के 10 साल, - 518 00:29:42,150 --> 00:29:43,930 >> तो यह समय की एक लंबी अवधि खत्म हो चुका है। 519 00:29:43,930 --> 00:29:50,639 >> चार प्रकार ठीक है, चलो देखते हैं कैसे कहते हैं, इस काम के लिए इस्तेमाल किया गया था, कई बार, 520 00:29:50,639 --> 00:29:52,930 और इस अवधि में जो द्वारा समय की है, और फिर मूल रूप से 521 00:29:52,930 --> 00:29:56,300 हम जो एक फोन नंबर, वापस दे एक ढेर स्कोर, जो मूल रूप से 522 00:29:56,300 --> 00:29:59,910 यह प्रयोग किया गया है कितना प्रतिनिधित्व करता है। 523 00:29:59,910 --> 00:30:01,084 और कहा कि number-- 524 00:30:01,084 --> 00:30:03,250 अलग गणना का एक बहुत उस नंबर में चलते हैं। 525 00:30:03,250 --> 00:30:05,150 --but यह एक बहुत ही कठिन है आपको देता है कि मीट्रिक 526 00:30:05,150 --> 00:30:11,300 कैसे के कुछ विचार समुदाय है कि काम को महत्व हो सकता है। 527 00:30:11,300 --> 00:30:16,772 >> यहां तक ​​की और इसलिए एक और प्रकार अधिक आवेदन बाहर fleshed 528 00:30:16,772 --> 00:30:18,480 कि लाभ लेता है इस बारे में कुछ है 529 00:30:18,480 --> 00:30:24,000 वास्तव में जो कहा जाता है Stacklife, मुख्य हार्वर्ड के माध्यम से उपलब्ध 530 00:30:24,000 --> 00:30:24,880 लाइब्रेरी पोर्टल। 531 00:30:24,880 --> 00:30:26,700 तो अगर आप library.harvard.edu के पास जाओ। 532 00:30:26,700 --> 00:30:29,360 आप अलग अलग की एक संख्या देखेंगे पुस्तकालय खोज के तरीके। 533 00:30:29,360 --> 00:30:32,300 और उनमें से एक Stacklife कहा जाता है। 534 00:30:32,300 --> 00:30:38,980 >> और यह एक आवेदन पत्र है कि , पुस्तकालय की सामग्री ब्राउज़ 535 00:30:38,980 --> 00:30:43,490 लेकिन पूरी तरह से बनाया गया है इन एपीआई के शीर्ष पर। 536 00:30:43,490 --> 00:30:46,910 तो कोई विशेष सामान है पर्दे के पीछे चल रहा है। 537 00:30:46,910 --> 00:30:49,570 करने के लिए पहुँच नहीं है तुम नहीं है कि डेटा। 538 00:30:49,570 --> 00:30:54,090 यह आपको प्रदान करने के लिए एपीआई का उपयोग कर रहा है एक पूरी तरह से अलग ब्राउज़िंग के साथ 539 00:30:54,090 --> 00:30:55,480 अनुभव। 540 00:30:55,480 --> 00:30:58,570 >> मैं ऐलिस के लिए खोज तो अगर इस मामले में वंडरलैंड में, 541 00:30:58,570 --> 00:31:02,600 मैं की तरह लग रहा है कि एक परिणाम मिलता है सुंदर much-- है जो इस, 542 00:31:02,600 --> 00:31:05,430 543 00:31:05,430 --> 00:31:10,870 >> यह किसी भी अन्य खोज करने के लिए बहुत समान है आप इस मामले में छोड़कर कर सकता है 544 00:31:10,870 --> 00:31:15,730 हम से आइटम रैंकिंग रहे हैं आप जो देता है stackscore, 545 00:31:15,730 --> 00:31:19,850 कैसे लोकप्रिय इनमें से कुछ विचार आइटम समुदाय के भीतर थे। 546 00:31:19,850 --> 00:31:25,610 और तो जाहिर है, ऐलिस में वंडरलैंड वॉल्ट डिज्नी द्वारा अत्यधिक लोकप्रिय है। 547 00:31:25,610 --> 00:31:36,570 लेकिन तुम भी शीर्ष चार देख सकते हैं यहाँ आप actually-- नहीं हो सकता है लोग कर रहे हैं 548 00:31:36,570 --> 00:31:39,220 >> अत्यधिक उपयोग किया जाता है कि हालात, लेकिन आप तुरंत नहीं हो सकता 549 00:31:39,220 --> 00:31:41,240 एलिस इन वंडरलैंड के साथ कनेक्ट। 550 00:31:41,240 --> 00:31:44,650 इसलिए हमारे पुराने दोस्त एनोटेट ऐलिस यहाँ है। 551 00:31:44,650 --> 00:31:46,350 इसलिए मैं इस पर एक नज़र ले जा सकते हैं। 552 00:31:46,350 --> 00:31:52,010 और अब मैं क्या देख रहा हूँ मूल रूप से एक of-- सेट किया जाता है पर 553 00:31:52,010 --> 00:31:53,760 मैं एनोटेट हो सकता है यहीं ऐलिस। 554 00:31:53,760 --> 00:31:56,700 मैं इसके बारे में जानकारी नहीं है। 555 00:31:56,700 --> 00:32:00,230 और मैं यह भी एक stackscore है की, इस मामले में, 26 में। 556 00:32:00,230 --> 00:32:03,169 और इस के लिए मोटे तौर पर क्रमबद्ध मुझसे कहता है हम इस stackscore को कैसे मिल गया, 557 00:32:03,169 --> 00:32:05,835 जैसे जो कैसे की तरह, यह बाहर की जाँच इसे बाहर की जाँच की थी कई बार, 558 00:32:05,835 --> 00:32:08,440 संकाय या undergrads, कैसे की तरह पुस्तकालय है कई प्रतियां, 559 00:32:08,440 --> 00:32:11,300 और इतने पर और आगे। 560 00:32:11,300 --> 00:32:16,460 >> और तुम, भी कर सकते हैं काफी दिलचस्प यहाँ, लगभग ढेर ब्राउज़ करें। 561 00:32:16,460 --> 00:32:19,550 यहाँ तो डेटा, इस क्रमबद्ध आपको दिखा रहा है 562 00:32:19,550 --> 00:32:23,547 एक आभासी प्रतिनिधित्व की क्या शेल्फ पराक्रम का 563 00:32:23,547 --> 00:32:25,880 आप ले रहे थे की तरह लग रहे सभी पुस्तकालय जोत 564 00:32:25,880 --> 00:32:28,940 और उन्हें एक साथ रखा एक अनंत शेल्फ पर। 565 00:32:28,940 --> 00:32:30,990 और अच्छी बात यह है कि हम can-- यह है कि 566 00:32:30,990 --> 00:32:33,380 >> सबसे पहले, इन पुस्तकों के बारे में मेटाडाटा 567 00:32:33,380 --> 00:32:35,627 इसे प्रकाशित किया गया था जब अक्सर आपको बताता है। 568 00:32:35,627 --> 00:32:37,085 वह यह है कि कितने पृष्ठों में बताता है। 569 00:32:37,085 --> 00:32:38,459 यह आप आयाम बता सकता है। 570 00:32:38,459 --> 00:32:42,930 तो आपको लगता है कि यहाँ परिलक्षित होता है देख सकते हैं पुस्तकों के आकार के संदर्भ में। 571 00:32:42,930 --> 00:32:46,740 >> और फिर हम उपयोग कर सकते हैं उजागर करने के लिए स्कोर ढेर 572 00:32:46,740 --> 00:32:49,170 उच्च स्टैक स्कोर है कि किताबें। 573 00:32:49,170 --> 00:32:54,930 यह गहरा है तो, अगर यह मतलब है कि, शायद, यह अधिक बार प्रयोग किया जाता है। 574 00:32:54,930 --> 00:32:57,040 तो इस मामले में, मैं कर रहा हूँ इसका अर्थ है कि लगता जा रहा 575 00:32:57,040 --> 00:33:03,226 एलिस इन वंडरलैंड के संस्करण है लगता है कि बहुत अधिक इस्तेमाल किया जाता है और सबसे 576 00:33:03,226 --> 00:33:05,100 पहुँचा, पुस्तकालय के सबसे प्रतियां है। 577 00:33:05,100 --> 00:33:06,975 आप देख रहे हैं तो एलिस इन वंडरलैंड के लिए, 578 00:33:06,975 --> 00:33:10,220 इस शुरू करने के लिए एक अच्छी जगह हो सकती है। 579 00:33:10,220 --> 00:33:13,500 >> और फिर यहाँ तुम भी बाहर लिंक कर सकते हैं कहने के लिए, अमेज़न, पुस्तक खरीदने के लिए 580 00:33:13,500 --> 00:33:15,182 और इतने पर और आगे। 581 00:33:15,182 --> 00:33:17,140 यहां मुद्दा यह है, फिर से, नहीं यह है कि इतना है 582 00:33:17,140 --> 00:33:25,030 पुस्तकालय ब्राउज़ करने के लिए सबसे अच्छा तरीका है या हर अवसर के लिए सही उपकरण। 583 00:33:25,030 --> 00:33:28,400 लेकिन यह इसे करने का एक और तरीका है। 584 00:33:28,400 --> 00:33:31,359 और डेटा बनाकर एक एपीआई, के माध्यम से उपलब्ध है, जो 585 00:33:31,359 --> 00:33:34,650 बहुत ही साधारण इमारत ब्लॉकों से बना है, जो आप सामग्री खोज करने के लिए अनुमति देता है, 586 00:33:34,650 --> 00:33:39,420 आप कुछ का निर्माण कर सकते हैं इस तरह से कर सकते हैं कि 587 00:33:39,420 --> 00:33:41,520 असाधारण हो कुछ लोगों के लिए मूल्यवान। 588 00:33:41,520 --> 00:33:46,640 589 00:33:46,640 --> 00:33:51,860 >> तो यह है कि, की तरह मैं चाहता हूँ के रूप में ज्यादा है एपीआई क्या है के बारे में वास्तव में कहने के लिए 590 00:33:51,860 --> 00:33:56,070 यह उजागर करता है और क्या, एक पूरी वहाँ परदे के पीछे सामान का गुच्छा जो 591 00:33:56,070 --> 00:33:59,480 मैं तो बस संक्षेप पर स्पर्श करने के लिए जा रहा हूँ यह एक तरह से इस पर आता है, सिर्फ इसलिए कि 592 00:33:59,480 --> 00:34:03,720 एक पूरी तरह से अलग कोण में से कुछ इस तरह करता है कि कैसे की शर्तें 593 00:34:03,720 --> 00:34:04,580 जगह में डाल दिया हो? 594 00:34:04,580 --> 00:34:10,820 >> तो एक एपीआई के लिए एक मानक है इस सामग्री के सभी के लिए इंटरफ़ेस। 595 00:34:10,820 --> 00:34:13,820 लेकिन वहाँ है, इसे पाने के लिए पहली बात यह है कि हम क्या करने के लिए किया था 596 00:34:13,820 --> 00:34:17,260 जानकारी के साथ मिलकर काम करना किया गया था किताबें और छवियों की 597 00:34:17,260 --> 00:34:21,580 और ढूँढने एड्स, संग्रह विभिन्न हार्वर्ड सिस्टम से दस्तावेज़। 598 00:34:21,580 --> 00:34:23,929 Aleph, माध्यम से, और नखलिस्तान हैं सिस्टम के नाम। 599 00:34:23,929 --> 00:34:28,820 और वे अनिवार्य रूप से एक में जाने पाइप लाइन, एक प्रसंस्करण पाइप लाइन। 600 00:34:28,820 --> 00:34:33,230 >> तो सब से पहले, हम निर्यात मिल इन प्रणालियों के सभी से फ़ाइलें। 601 00:34:33,230 --> 00:34:35,130 हम अलग-अलग मदों में उन्हें अलग। 602 00:34:35,130 --> 00:34:39,360 इसलिए हम एक गीगाबाइट है जो एक फाइल है, जो उस में एक लाख रिकॉर्ड है। 603 00:34:39,360 --> 00:34:42,290 इसलिए हम अलग-अलग आइटम में अलग। 604 00:34:42,290 --> 00:34:45,374 फिर, प्रत्येक आइटम के लिए, हम इसे बदलने MODS में, इनमें से कुछ की वजह 605 00:34:45,374 --> 00:34:47,040 नेटिव रूप MODS हैं, उनमें से कुछ नहीं कर रहे हैं। 606 00:34:47,040 --> 00:34:49,204 इसलिए हम उन सब को मिल एक ही प्रारूप में होना। 607 00:34:49,204 --> 00:34:51,120 तो फिर वहाँ विभिन्न संवर्धन कदम है, जहां 608 00:34:51,120 --> 00:34:55,969 हम डेटा में अधिक जानकारी जोड़ने से पुस्तकालय में उपलब्ध था। 609 00:34:55,969 --> 00:34:59,750 इसलिए हम सब से पहले, जोड़ने की जरूरत पुस्तकालयों इसे पकड़ हम क्या कर सकते है। 610 00:34:59,750 --> 00:35:02,250 हम एक कदम के माध्यम से जाना stackscore की गणना। 611 00:35:02,250 --> 00:35:07,112 हम में से एक और कदम के माध्यम से जाना मामले में अधिक मेटाडाटा जोड़ने 612 00:35:07,112 --> 00:35:10,730 क्या संग्रह से लोगों को this-- जोड़ लिया है हो सकता है 613 00:35:10,730 --> 00:35:12,532 >> लोग पैदा कर रहे हैं आइटम का संग्रह। 614 00:35:12,532 --> 00:35:13,990 क्या संग्रह यह करने के लिए संबंधित है? 615 00:35:13,990 --> 00:35:17,220 कैसे लोगों को टैग किया अतीत में इस सामग्री? 616 00:35:17,220 --> 00:35:20,750 तो फिर तुम बाहर फिल्टर, और आप को सीमित रिकॉर्ड, मैं उल्लेख किया है, क्योंकि 617 00:35:20,750 --> 00:35:24,120 कुछ रिकॉर्ड है कि वहाँ की वजह से कॉपीराइट कारणों, हम प्रदर्शन नहीं कर सकते। 618 00:35:24,120 --> 00:35:26,700 और फिर हम उन्हें लोड कहा जाता है कुछ में 619 00:35:26,700 --> 00:35:31,680 एक गलत वर्तनी नहीं है जो Solr, लेकिन सॉफ्टवेयर का एक टुकड़ा का नाम है 620 00:35:31,680 --> 00:35:35,710 कि खोज अनुक्रमण, जो करता है एपीआई के पीछे सभी खोज चलाता है। 621 00:35:35,710 --> 00:35:40,110 और फिर इसे करने के लिए उपलब्ध हो जाता है एपीआई, और लोग इसका इस्तेमाल कर सकते हैं। 622 00:35:40,110 --> 00:35:44,640 >> तो यह एक काफी की तरह है सीधी प्रक्रिया। 623 00:35:44,640 --> 00:35:47,230 दिलचस्प में से एक यह है के बारे में बातें 624 00:35:47,230 --> 00:35:50,990 हम काम कर रहे हैं कि 13 लाख के रिकॉर्ड के साथ 625 00:35:50,990 --> 00:35:53,820 और हम काम कर रहे हैं या अधिक होने जा रहे हैं। 626 00:35:53,820 --> 00:36:01,260 और हम संभाल करने में सक्षम होना चाहता हूँ एक अपेक्षाकृत तेजी से फैशन में इन। 627 00:36:01,260 --> 00:36:03,630 यह एक लंबे समय के लिए ले जाता है 13 लाख के रिकॉर्ड की प्रक्रिया। 628 00:36:03,630 --> 00:36:09,529 >> इसलिए इस पाइपलाइन है कैसे सेट अप आप can-- यह है कि 629 00:36:09,529 --> 00:36:12,070 मैं का लाभ अनुमान पाइप लाइन, हम कर रहे हैं कि समस्या 630 00:36:12,070 --> 00:36:15,580 यहाँ हल करने के लिए कोशिश कर रहा है कि, सभी परिवर्तनों, सभी 631 00:36:15,580 --> 00:36:18,729 इस में इन चरणों पाइपलाइन वियोज्य हैं। 632 00:36:18,729 --> 00:36:19,645 कोई निर्भरता नहीं है। 633 00:36:19,645 --> 00:36:22,146 आप प्रसंस्करण कर रहे हैं एक पुस्तक की एक रिकार्ड है, 634 00:36:22,146 --> 00:36:24,270 कोई निर्भरता में नहीं है एक और किताब के बीच है। 635 00:36:24,270 --> 00:36:27,760 >> तो हम क्या कर सकते हैं, मूल रूप से है पाइप लाइन में हर कदम पर, 636 00:36:27,760 --> 00:36:30,470 हम बादल में एक कतार में डाल दिया। 637 00:36:30,470 --> 00:36:32,250 मैं अमेज़न वेब सेवाओं पर होने का क्या हुआ। 638 00:36:32,250 --> 00:36:35,140 तो की एक सूची है, 10,000 आइटम, का कहना है कि 639 00:36:35,140 --> 00:36:38,100 सामान्यीकृत होने की जरूरत है और MODS स्वरूप में परिवर्तित। 640 00:36:38,100 --> 00:36:41,620 और हम के रूप में कई सर्वरों को स्पिन हम चाहते हैं के रूप में, शायद 10 सर्वर। 641 00:36:41,620 --> 00:36:44,860 और उन लोगों के सर्वर के प्रत्येक बस , वहाँ बैठता है कि कतार में लग रहा है 642 00:36:44,860 --> 00:36:46,730 की जरूरत है कि वहाँ एक है कि देखता है संसाधित किया, कतार इसे बंद खींचती है, 643 00:36:46,730 --> 00:36:48,740 यह प्रक्रिया, और लाठी यह अगले कतार पर। 644 00:36:48,740 --> 00:36:54,200 >> और कहा कि हमें की अनुमति देता है तो क्या हुआ लागू किया जाता है ऐसा करने के लिए, अनिवार्य रूप से, 645 00:36:54,200 --> 00:36:58,110 ज्यादा हार्डवेयर के रूप में हम यह करने के लिए चाहते हैं के रूप में समय की एक बहुत ही कम अवधि के लिए समस्या 646 00:36:58,110 --> 00:37:02,970 के रूप में जल्दी के रूप में डेटा की प्रक्रिया संभव है, जो कुछ है कि केवल, 647 00:37:02,970 --> 00:37:08,220 अब क्लाउड कंप्यूटिंग की दुनिया में अनिवार्य रूप से हम कर सकते प्रावधान सर्वर 648 00:37:08,220 --> 00:37:09,890 तत्क्षण, कि उपयोगी है। 649 00:37:09,890 --> 00:37:12,260 तो हम एक के लिए नहीं है आसपास बैठे विशाल सर्वर 650 00:37:12,260 --> 00:37:16,700 सभी समय प्रोसेसिंग करने के लिए कि एक सप्ताह में सिर्फ एक बार हो सकता है। 651 00:37:16,700 --> 00:37:21,440 >> तो यह है कि यह ज्यादातर है। 652 00:37:21,440 --> 00:37:27,590 उपलब्ध दस्तावेज नहीं है लाइब्रेरी बादल आइटम एपीआई के लिए 653 00:37:27,590 --> 00:37:31,960 इस URL पर, जो होगा बाद में उपलब्ध हो। 654 00:37:31,960 --> 00:37:36,730 और पर एक नज़र रखना कृपया जाओ अगर वहाँ कुछ भी है, यह देखने के लिए 655 00:37:36,730 --> 00:37:37,579 आप किसी भी विचार है। 656 00:37:37,579 --> 00:37:38,120 इसके साथ खेलते हैं। 657 00:37:38,120 --> 00:37:38,830 चारों ओर मूर्ख। 658 00:37:38,830 --> 00:37:42,800 और उम्मीद है कि आप आ सकते हैं महान कुछ के साथ। 659 00:37:42,800 --> 00:37:44,740 धन्यवाद। 660 00:37:44,740 --> 00:37:45,899