JEFFREY LICHT: वहाँ हाय। मैं जेफरी लिच हूँ। और मैं के बारे में बात करने के लिए यहाँ हूँ हार्वर्ड पुस्तकालय और इमारत कल की पुस्तकालय आज, मुझे लगता है। तो यहाँ पृष्ठभूमि, इस सत्र के लिए पिच अनिवार्य रूप से यह है कि वहाँ ग्रंथ सूची डेटा का एक बहुत हार्वर्ड पुस्तकालयों में उपलब्ध है। और वहाँ एक अवसर है, उपकरणों में से कुछ के माध्यम से और विकसित किया जा रहा है कि एक परियोजना, जानकारी तक पहुँच पाने के लिए और स्थानों के लिए इसे ले कि हार्वर्ड लाइब्रेरी, अभी नहीं कर रही है इसके साथ नए सामान करना, प्रयोग और इसके साथ खेलने के आसपास। तो इस में प्रवेश बिंदु एक एपीआई है हार्वर्ड लाइब्रेरी बादल, जो बुलाया एक खुला मेटाडाटा सर्वर है, जो मैं के बारे में बात करेंगे। तो पृष्ठभूमि एक यह है कि वहाँ हार्वर्ड पुस्तकालय में सामान की बहुत। हम 13 लाख ग्रंथ सूची से अधिक है रिकॉर्ड, छवियों के लाखों, खोजने एड्स की और हजारों, जो वर्णन कर अनिवार्य रूप से दस्तावेज हैं संग्रह, कह रही है क्या कागजात के बक्से, उन में है और इतना आगे से अधिक का प्रतिनिधित्व करते हैं कि एक लाख व्यक्ति दस्तावेजों। और यह भी की एक बहुत कुछ है पुस्तकालय है कि जानकारी सामग्री है कि प्रयोग किया जाता है के बारे में कैसे लोगों के हित के लिए हो सकता है जो उसके साथ काम करने के लिए चाहते हो सकता है। 

तो जानकारी के सभी पुस्तकालय मेटाडाटा है। तो मेटाडाटा डेटा के बारे में डेटा है। इसलिए हम के बारे में बात करते हैं जानकारी है कि पुस्तकालय के माध्यम से उपलब्ध उपलब्ध है कि बादल, यह जरूरी नहीं है वास्तविक दस्तावेज खुद को, जरूरी नहीं भरा किताबें या पूर्ण छवियों का पाठ, हालांकि कि वास्तव में मामला हो सकता है। लेकिन यह सच है डेटा के बारे में जानकारी। 

तो तुम सूचीबद्ध करने के बारे में सोच सकते हैं जानकारी, फोन नंबर, विषयों, कितने की प्रतियां किताब कर रहे हैं, क्या संस्करणों रहे हैं, क्या कर रहे हैं इतना आगे प्रारूपों, लेखकों, और। तो सूचना के बारे में बहुत कुछ नहीं है संग्रह में जानकारी है कि, अपने आप में, एक तरह से स्वाभाविक रूप से उपयोगी है। और अगर आप कर रहे हैं, हालांकि में गहराई से अनुसंधान कर रही है, आप स्पष्ट रूप से वास्तविक को प्राप्त करना चाहते हैं खुद सामग्री और आंकड़ों पर नजर डालें, मेटाडाटा के संदर्भ में उपयोगी है दोनों एक पूरे के रूप में कोष का विश्लेषण, जैसे संग्रह में क्या बातें कर रहे हैं। वे कैसे संबंधित हैं? यह आप वास्तव में अन्य सामान मिल में मदद करता है जो इसके बारे में वास्तव में मुख्य उद्देश्य है। के बिंदु मेटाडाटा और सूची आप सभी को खोजने में मदद करने के लिए है जानकारी है कि संग्रह के भीतर उपलब्ध। 

तो इस मेटाडाटा का एक उदाहरण है हार्वर्ड पुस्तकालय में एक किताब के लिए। तो यह वहाँ है। और अगर आप इसे देख सकते हैं वास्तव में मामूली जटिल। और मेटाडाटा के मूल्य का हिस्सा हार्वर्ड पुस्तकालय प्रणाली के भीतर यह की तरह किया गया है कि के catalogers द्वारा निर्मित और आवेदन करने वाले लोगों द्वारा इकट्ठा विशेषज्ञता और कौशल का एक बहुत और, समय के साथ यह करने के लिए सोचा जो मूल्य का एक बहुत कुछ है। 

तो क्या आप के लिए इस रिकॉर्ड पर एक नज़र रखना अगर एनोटेट ऐलिस, आप पता कर सकते हैं आप शीर्षक, जो इसे लिखा था, मिल गया है लेखक, और सभी विभिन्न विषयों जो लोगों में यह सूचीबद्ध किया है। और आप देख में, वहाँ भी कर सकते हैं अच्छी जानकारी का एक बहुत कुछ करने के अलावा यहाँ, कुछ दोहराव नहीं है। है कि जटिलता का एक बहुत कुछ है मेटाडाटा के माध्यम से परिलक्षित आपको लगता है कि। 

तो इस किताब की एक शीर्षक है एलिस इन वंडरलैंड के एडवेंचर्स। तो यह एक एनोटेट है उस किताब का संस्करण। लेकिन यह भी एनोटेट कहा जाता है ऐलिस ऐलिस एडवेंचर्स वंडरलैंड क्योंकि यह कुछ ऐसा है जो मार्टिन गार्डनर ने लिखा है और किताब एनोटेट। और महान जानकारी का एक बहुत कुछ है तर्क पहेलियाँ और चीजों के बारे में ऐलिस के भीतर आपको लगता है कि शायद के बारे में पता नहीं था। इसलिए यदि आप इसे पढ़ जाना चाहिए। 

लेकिन अगर आप वहाँ देख सकते हैं यहां विस्तार का एक बहुत, , जब यह पहचानकर्ता सहित बनाया गया था, यह कहाँ से आया हार्वर्ड के मामले में प्रणाली है, और बहुत आगे है। तो इस का एक नमूना है मेटाडाटा के प्रकार आप एक किताब में करने के लिए देख सकते हैं कि हार्वर्ड पुस्तकालय संग्रह। 

यह पूरी तरह से कुछ अलग है। इसलिए कहा जाता है वहाँ एक प्रणाली है के माध्यम से हार्वर्ड, मूल रूप से जो छवियों और कला की वस्तुओं को सूचीबद्ध किया गया है और हार्वर्ड भर दृश्य बातें, और कुछ मेटाडाटा जोड़ने उन्हें, उन्हें वर्गीकृत करने, और, कुछ मामलों में, प्रदान छोटे थंबनेल छवियों तुम एक ले जा सकते हैं अगर आप चाहें तो देखो। 

तो इस का एक उदाहरण है यदि आप एक थाली के लिए है कि मेटाडाटा शायद, से, एलिस इन वंडरलैंड। और तुम वहाँ देख सकते हैं यहां कम मेटाडाटा। यह वस्तु का सिर्फ एक अलग तरह का है। और इसलिए कम जानकारी है। 

आप ज्यादातर तथ्य है, एक फोन है कि संख्या, अनिवार्य रूप से, जो इसे बनाया - 

इसे बनाया गया था जब हम नहीं जानते। 

एक शीर्षक के चार। 

एक अन्य उदाहरण है। यह एक खोज सहायता है। तो लुईस का एक संग्रह नहीं है हार्वर्ड में कैरोल के कागजात। तो यह क्या वर्णन किया गया है उस संग्रह में है। तो किसी के माध्यम से चला गया है और सभी बक्से के माध्यम से देखा और, कुछ पृष्ठभूमि को देखते हुए यह सूचीबद्ध यहाँ क्या है की एक सारांश लिखा है। और अगर तुम थे देखने के लिए आगे इस पर, इस पृष्ठों और पन्नों के लिए पर चला जाता है और पृष्ठों, लेकिन आपको बता देगा क्या पत्रों और क्या क्या बक्से से तारीखें संग्रह में ही अस्तित्व में। लेकिन यह कुछ है कि, आप हार्वर्ड में कर रहे हैं, तुम जाओ और वास्तव में शारीरिक रूप से देख सकते हैं ऊपर और, शायद, पर एक नज़र रखना। 

तो क्या यह सब बहुत अच्छा है। इस मेटाडाटा की उपयोगी है। यह हार्वर्ड पुस्तकालय प्रणाली में है। उपकरण ऑनलाइन, जहाँ आप कर रहे हैं जाओ और इस पर एक नज़र ले जा सकते हैं, और यह देखते हैं, और यह खोज। और अगर आप इसे और पासा टुकड़ा कर सकते हैं यह अलग अलग तरीकों की बहुत सारी में। 

लेकिन यह अगर सच में ही उपलब्ध है आप नीचे बैठे एक इंसान हैं कृपया अपने वेब ब्राउज़र या कुछ या कम अपने फोन को और इसके माध्यम से नेविगेट। यह वास्तव में उपलब्ध नहीं है प्रयोग करने योग्य फैशन की किसी भी तरह अन्य प्रणालियों के लिए या अन्य कंप्यूटर, उपयोग करने के लिए नहीं भीतर सिस्टम के साथ हार्वर्ड लाइब्रेरी, लेकिन बाहर की दुनिया में सिस्टम, सामान्य रूप में सिर्फ दूसरे लोग। सवाल यह है तो, हम कैसे कर सकते हैं कंप्यूटर के लिए उपलब्ध करना हम और अधिक दिलचस्प कर सकते हैं ताकि बस की तुलना में इसके साथ सामान ब्राउज़िंग यह अपने आप? 

तो क्यों आप ऐसा करना चाहते है? संभावनाओं का एक बहुत हैं। एक है कि आप पूरी तरह से एक का निर्माण कर सकता है ब्राउज़िंग का अलग तरीका है कि उपलब्ध सामग्री हार्वर्ड पुस्तकालयों के माध्यम से। मैं तुम्हें एक दिखाता हूँ बाद में, Stacklife बुलाया एक पूरी तरह से अलग है, जो सामग्री के लिए देख ले। 

आप एक सिफारिश इंजन का निर्माण कर सकता। तो हार्वर्ड लाइब्रेरी में नहीं है कहने का व्यापार, आप इस किताब की तरह। तो इन 17 अन्य पर एक नज़र रखना जाना आप में रुचि हो सकती है कि किताबें या इन 18 अन्य छवियों। लेकिन वह निश्चित रूप से कर सकता है एक मूल्यवान सुविधा हो। मेटाडाटा दिया जाता है और, यह हो सकता है एक साथ रखा है कि संभव हो सकता है। आप में अलग अलग की जरूरत हो सकता है सामग्री खोज की दृष्टि से, जैसे शायद उपकरण के बावजूद कि पुस्तकालय में आता है कि उपलब्ध हैं उपलब्ध है, तुम चाहते हो सकता है एक अलग तरह से खोज करने के लिए या एक विशेष उपयोग के मामले के लिए अनुकूलित, जो हो सकता है यह बहुत विशेष है। शायद ही कुछ कर रहे हैं दुनिया में जो लोग सामग्री खोज करना चाहते हैं इस तरह, यह है, लेकिन बहुत अच्छा होगा अगर हम उन्हें ऐसा करते हैं सकता है। Analytics का एक बहुत कुछ है बस कैसे लोगों में सच होगा कि सामग्री का उपयोग पता लगाने के बारे में पता करने के लिए दिलचस्प क्या किताबें इस्तेमाल किया जा रहा है, क्या नहीं कर रहे हैं, और बहुत आगे है। और फिर से एक बहुत कुछ है एकीकृत करने के लिए अवसर अन्य जानकारी के साथ कि वेब पर वहाँ से बाहर है। इसलिए हम have-- 

उदाहरण के लिए, एनपीआर है एक किताब की समीक्षा खंड, वे साक्षात्कार जहां पुस्तकों के बारे में लेखक। अगर तुम थे और इसलिए यह बहुत अच्छा होगा हार्वर्ड में एक किताब की तलाश में लाइब्रेरी, और आप ठीक है, वहाँ है, का कहना है लेखक के साथ एक साक्षात्कार किया गया। उस पर एक नज़र रखना चलते हैं। या फिर एक विकिपीडिया पृष्ठ एक के रूप में, वहाँ है आधिकारिक, विद्वानों के संदर्भ इस पुस्तक के बारे में है कि आप पर एक नज़र रखना चाहते हो सकता है। 

सूत्रों का कहना है की इन प्रकार के होते हैं वेब भर में बिखरे हुए। और उन्हें एक साथ लाने एक महान उपयोग किया जा सकता है किसी के लिए पर देख रहे हैं सामग्री, कुछ के लिए देख रहे हैं। लेकिन यह भी नहीं है बात की तरह आप चाहते हैं पुस्तकालय जिम्मेदार होना चाहता हूँ नीचे जा रहा है और नीचे शिकार के लिए इन सभी विभिन्न स्रोतों और उन्हें एक साथ plugging वे लगातार बदल रहे हैं क्योंकि। और क्या उन्हें लगता है कि महत्वपूर्ण हो सकता है क्या आपको लगता है कि महत्वपूर्ण है नहीं हो। 

और उससे भी ज्यादा, मूल रूप से वहाँ एक हम अभी तक के बारे में सोचा नहीं है सामान की बहुत। इसलिए हम इस खोल सकते हैं, तो अधिक एक आधा दर्जन या तो इसके अलावा लोगों को, जो एक पर इस पर देख रहे हैं विचारों के बारे में सोच सकते हैं नियमित आधार और डेटा की मालिश, और वे इसके साथ क्या करना चाहते हैं। 

इसलिए हम इस बनाना चाहते दुनिया के लिए उपलब्ध डेटा। खैर, एक जोड़ी उलझने हैं। एक इस मेटाडाटा यह है कि विभिन्न प्रणालियों में है। यह विभिन्न स्वरूपों में है। तो कुछ सामान्यीकरण नहीं है होने की जरूरत है, जो जो सामान्य बनाने की प्रक्रिया की जा रही है विभिन्न स्वरूपों से चीजों को लाने और एक भी प्रारूप करने के लिए उन्हें मानचित्रण इसलिए क्षेत्रों अप मैच होगा। 

कुछ कॉपीराइट प्रतिबंध है। ताज्जुब है, सूची प्रविष्टि के बारे में एक पुस्तक कॉपीराइट के लिए उत्तरदायी है। तो भी यह सिर्फ यद्यपि किताब से ली गई जानकारी, यह कॉपीराइट है। और वास्तव में जो के आधार पर कि मेटाडाटा बनाई गई हैं, जो पर प्रतिबंध नहीं हो सकता है इसे वितरित कर सकते हैं, इसी तरह to-- 

मुझे नहीं पता। यह हो सकता है या करने के लिए समान नहीं हो सकता गाने के बोल की स्थिति, उदाहरण के लिए। इसलिए हम सभी को लगता है कि बाहर धूपदान कैसे पता है। तो आपको लगता है कि इस मुद्दे के आसपास पाने की जरूरत है। 

और फिर एक और टुकड़ा है उस डेटा का एक बहुत कुछ है। मैं काम करना चाहता है कोई है जो कर रहा हूँ तो अगर डेटा के साथ या एक अच्छा विचार है, 14 लाख के साथ काम अपने लैपटॉप पर अभिलेख समस्याग्रस्त हो सकता है और मुश्किल का प्रबंधन करने के लिए। इसलिए हम कम करना चाहते हैं लोगों के लिए बाधाओं डेटा के साथ काम करने में सक्षम हो। 

तो दृष्टिकोण है कि उम्मीद है कि पतों इन चिंताओं के सभी दो भागों है। एक लेता है कि एक मंच का निर्माण होता है इन सभी असमान स्रोतों से डेटा और, normalizes, यह aggravates यह समृद्ध करती है, और बनावट यह एक ही स्थान में उपलब्ध है। और इसके माध्यम से यह उपलब्ध बनाता है लोगों को कॉल कर सकते हैं कि एक सार्वजनिक API। 

तो एक एपीआई एक आवेदन पत्र है प्रोग्रामिंग इंटरफेस। और यह मूल रूप से एक को संदर्भित करता है समापन बिंदु एक प्रणाली है कि या तकनीक कॉल और डेटा वापस मिल सकता है एक तरह से एक संरचित प्रारूप इसका इस्तेमाल किया जा सकता है। तो यह निर्भर नहीं है एक वेबसाइट के लिए जा रहा पर और बंद डेटा scraping इसके बारे में, उदाहरण के लिए। 

इसलिए इस बात का होम पेज है लाइब्रेरी बादल आइटम एपीआई, जो अनिवार्य रूप से अपने संस्करण दो है। तो यह की दूसरी यात्रा है इस डेटा के सभी बनाने की कोशिश दुनिया के लिए उपलब्ध है। तो यह है http://api.lib.harvard.edu/v2/items। और बस इसी को तोड़ने के लिए एक छोटा सा है, क्या इसका मतलब यह है इस एपीआई के संस्करण के दो है। एक संस्करण एक, वहाँ जो मैं इस बारे में बात करने के लिए नहीं जा रहा हूँ। लेकिन एक संस्करण नहीं है। 

और तुम इस बुला रहे हैं एपीआई, आप आइटम हो रही है। और एक के विचार का हिस्सा एपीआई एक एपीआई एक अनुबंध है। ऐसा नहीं है कि कुछ है बदलने नहीं जा रहा। उदाहरण के लिए, - 

और कारण यह है कि अगर मैं प्रणाली के कुछ प्रकार है कि निर्माण एक पुस्तकालय बादल एपीआई का उपयोग करने के लिए जा रहा है पुस्तकें प्रदर्शित या लोगों को खोजने में मदद करने के लिए अनूठे तरीके में जानकारी, हम ऐसा करने के लिए क्या नहीं करना चाहती कैसे बदलने के लिए हमें जाने के लिए है कि एपीआई काम करता है, और अचानक सब कुछ अंत उपयोगकर्ता पक्ष पर टूट जाता है। आप एपीआई बना रहे हैं तो हिस्सा दुनिया के लिए उपलब्ध है, यह है अच्छा अभ्यास एक डाल करने के लिए इसमें संस्करण संख्या लोग तो वे साथ काम कर रहे हैं जो संस्करण पता है। 

हम चुनते हैं तो हम एक बेहतर तरीका खोजने इस जानकारी उपलब्ध कराने के, हम करने के लिए कि बदल सकता है उस संस्करण तीन कहते हैं। का उपयोग करते हुए अब भी है, जो तो हर कोई संस्करण दो, कि अभी भी काम करेंगे। लेकिन संस्करण तीन होगा सभी नए सामान है। 

तो यह है कि यह एक एपीआई है, लेकिन वास्तव में एक यूआरएल की तरह लग रहा है। और तो क्या यह है एक का उदाहरण दिया गया है क्या है उपलब्ध है जो एक बाकी एपीआई कहा जाता है, सिर्फ एक नियमित रूप से वेब कनेक्शन पर। और आप वास्तव में कर सकते हैं एक ब्राउज़र में इसे करने के लिए जाना। 

तो यहाँ मैं सिर्फ फ़ायरफ़ॉक्स खोल दिया है और api.lib.harvard.edu/v2/items के लिए चला गया। और तो क्या मैं यहाँ मिलता है मूल रूप से प्रथम पृष्ठ पूरे से परिणामों की हमें मिल गया है कि आइटम का सेट। और यह एक्सएमएल फॉर्मेट में यहाँ है। और यह भी हो गया है फ़ायरफ़ॉक्स द्वारा prettified। यह वास्तव में इन सभी के पास नहीं है थोड़ा और करार का विस्तार यहाँ doohickeys। यह एक अच्छे की तरह है संस्करण तरह से इसे देखो। 

लेकिन क्या यह हमें बता रहा है है मैं सभी आइटम का अनुरोध किया है। तो 13,289,475 आइटम हैं। और मैं पहली बार देख रहा हूँ स्थिति शून्य पर शुरू में 10, कंप्यूटर विज्ञान के क्षेत्र में, क्योंकि हम हमेशा शून्य से शुरू। और मैं यहाँ क्या है, मैं सिर्फ पतन अगर यह आपको मैं 10 आइटम मिल गया है देखेंगे। 

मैं एक आइटम पर एक नज़र रखना और, अगर मैं कर सकता हूँ मैं इसके बारे में जानकारी मिली है कि देखते हैं। और इस MODS फार्म क्या कहा जाता है में है। और इसलिए मैं स्विच करने के लिए जा रहा हूँ यहाँ वापस एक पल के लिए। ठीक है। 

तो चलो में कुछ के लिए खोज करते हैं विशिष्ट पहला आइटम है कि क्योंकि जब आप देखेंगे तब आने के लिए होता है पूरे संग्रह के माध्यम से यादृच्छिक, परिभाषा के द्वारा, है। तो चलो कुछ डोनट्स के लिए देखते हैं। ओह। 

ठीक है। तो डोनट्स। इसलिए हम 80 मदों में कर रहे हैं पाया डोनट्स कि संदर्भ संग्रह। हम उनमें से पहले 10 पर देख रहे हैं। अब, आप जिस तरह से यहाँ देख सकते हैं कि मुझे लगता है मैं डोनट्स के लिए देख रहा हूँ ने कहा, मैं बस के लिए कुछ जोड़ा यूआरएल के क्वेरी स्ट्रिंग। तो क्यू जो आप कर सकते हैं, डोनट्स के बराबर होती है एक छोटे से अधिक आसानी से यहाँ देखें। 

और यह मूल रूप से वहाँ का मतलब एपीआई, के लिए एक युक्ति है जो क्या सब से परिभाषित करता है इन मानकों मतलब है। और यह हम करने जा रहे हैं इसका मतलब डोनट्स के लिए सब कुछ खोज। 

हम हैं यहां पहला आइटम तो यदि आप शीर्षक डोनट्स है देख सकते हैं और एक नामक एक उपशीर्षक नहीं है अमेरिकी जुनून है, जो मुझे लगता है, उपयुक्त। Different-- की एक बहुत हैं आप बात करने के लिए एक बार डेटा प्राप्त करने की, अलग से एक बहुत कुछ कर रहे आप इसे में प्राप्त कर सकते हैं कि प्रारूपों। और अलग अलग शक्तियों रहे हैं और उन सभी के लिए कमजोरियों। तो यह एक है, जैसा कि आप देख सकते हैं यहाँ, यह रूप बहुत समृद्ध है। और यह मानकीकृत है। 

तो एक विशिष्ट शीर्षक नहीं है क्षेत्र, एक उपशीर्षक क्षेत्र। एक वैकल्पिक नहीं है शीर्षक, एक अमेरिकी जुनून। इसके साथ जुड़े नाम नहीं है। संसाधन के प्रकार पाठ है। जानकारी का एक बहुत कुछ है यहाँ इस प्रारूप में। 

लेकिन एक गुच्छा रहे हैं के विभिन्न स्वरूपों। तो हम बस क्या थे पर देख एक स्वरूप है के लिए खड़ा है, जो कहा जाता है, Mods, मेटाडाटा वस्तु विवरण सर्विस, संभवतः। मैं वास्तव में के बारे में काफी यकीन नहीं है एस लेकिन यह एक काफी जटिल स्वरूप है। यह डिफ़ॉल्ट स्वरूप है। 

लेकिन यह रहता है कि एक है सभी डेटा की समृद्धि पुस्तकालय क्योंकि है कि यह करने के लिए बहुत करीब है क्या पुस्तकालय आंतरिक रूप से उपयोग करता है। ऐसा नहीं है कि एक मानक है देश भर में इस्तेमाल किया, शैक्षिक पुस्तकालयों में दुनिया भर में। और यह बहुत अंतर-संचालित है। आप किसी दस्तावेज़ मिल गया है तो अगर कि, Mods प्रारूप में है आप किसी और के लिए है कि दे सकता है जिसका सिस्टम, Mods को समझने और वे इसे आयात कर सकते हैं। तो यह एक मानक है। यह बहुत अच्छी तरह से बहुत विशिष्ट, परिभाषित कर रहा है। और वह यह है क्या करता है interoperable, कोई कहता है, क्योंकि अगर इस एक के वैकल्पिक शीर्षक है रिकॉर्ड, हर कोई इसका मतलब है कि क्या जानता है। दूसरा पहलू पर, यह बहुत जटिल है। 

तो आप एक बार देख ले यहां इस रिकॉर्ड पर, मैं तो बस प्राप्त करना चाहते हैं इस दस्तावेज का शीर्षक, शायद डोनट्स है जो इस पुस्तक की, एक अमेरिकी जुनून, इसे बाहर पार्स करने एक छोटे से शामिल है। वहाँ एक और है, जबकि डबलिन कोर बुलाया प्रारूप, जो एक बहुत, बहुत सरल स्वरूप है। 

और इसलिए तुम वहाँ कोई नहीं है, यहाँ देखें शीर्षक, उपशीर्षक, वैकल्पिक शीर्षक। सिर्फ शीर्षक है, डोनट्स, एक अमेरिकी जुनून, और एक अन्य शीर्षक, अमेरिकी जुनून। आप किस रूप में देख रहे हैं तो जब यदि आप के बाहर डेटा प्राप्त करना चाहते हैं एक बहुत पर निर्भर करता है आप इसे उपयोग करने के लिए जा रहे हैं। आप के लिए इस्तेमाल कर रहे हैं अंर्तकार्यकारी या आप करते हैं सरल है कि कुछ करना चाहते हैं साथ काम करने के लिए आसान हो सकता है? 

दूसरा पहलू पर, का एक बहुत विवरण की तरह नीचे squished मिलता है। आप की बारीकियों को खो सकता है क्या एक विशेष क्षेत्र साधन आप डबलिन कोर के साथ काम कर रहे हैं, जो आप mods के साथ नहीं मिलेगा। तो उन स्वरूपों में से दो हैं आप एपीआई के बाहर निकल सकते हैं। और असल में, हम रख रहे हैं यह mods में पर्दे के पीछे। लेकिन हम mods में आप दे सकते हैं और डबलिन कोर और साथ ही कुछ और है। अन्य विचार जब आप डेटा में देख रहे हैं आप या तो JSON, के रूप में इसे प्राप्त कर सकते है जो , जावास्क्रिप्ट वस्तु संकेतन के लिए खड़ा है जिसके लिए खड़ा है या एक्सएमएल, एक्सटेंसिबल मार्कअप लैंग्वेज। और इन आंकड़ों अभ्यावेदन दोनों वास्तव में, वास्तव में एक ही डेटा है एक ही क्षेत्र। लेकिन वे बस रहे हैं वाक्य रचना से अलग है। 

इसलिए इस a-- है खैर, चलो बस स्विच करते हैं। तो यह हमारे क्वेरी के लिए है एक्सएमएल फॉर्मेट में डोनट्स। मैं सिर्फ इस JSON के होने के लिए स्विच, मैं यह अलग लग रहा है देख सकते हैं। तो अब यह एक ही सामग्री है, लेकिन एक अलग संरचना। कम कोण कोष्ठक कर रहे हैं। कम वाचाल नहीं है। 

और यह एक स्वरूप है कि, अगर आप वेब वातावरण में काम कर रहे हैं, आप सबसे अधिक संभावना जा रहे हैं क्योंकि एक का उपयोग करना चाहते करने के लिए अच्छी बातें की JSON के बारे में यह जावास्क्रिप्ट के साथ संगत है। मैं वेब अनुप्रयोग लिख रहा हूँ तो, अगर मैं खींच सकते हैं JSON में और बस सीधे इसके साथ काम करते हैं। एक्सएमएल के साथ जबकि, यह एक है थोड़ा और अधिक जटिल। तो फिर, इन दोनों से उपयोगी हैं। वे सिर्फ अलग मामलों का उपयोग कर रहे हैं जहां लोग उन्हें उपयोग करने के लिए चाहते हो सकता है। ठीक है। तो वापस एपीआई के लिए। इसलिए हम for-- खोज कर सकते हैं 

मैं का एक उदाहरण दे डोनट्स के लिए खोज। हम यह भी एक बस में खोज कर सकते हैं यहां के भीतर विशेष क्षेत्र। तो बजाय खोज के पूरे रिकॉर्ड, मैं सिर्फ शीर्षक क्षेत्र खोज कर सकते हैं। और इसलिए अब 25 बातें कर रहे हैं कि शीर्षक में डोनट्स है, जिनमें से एक बहाल करने के बारे में है प्रबंधन में झीलों डोनट में छेद की जो शायद प्रोग्राम, जरूरी नहीं कि हम क्या देख रहे हैं हम डोनट्स के लिए खोज रहे हैं के लिए। 

आप आप कर रहे हैं, जब भी कर सकते हैं एक API-- के साथ काम 

एक एपीआई होने का एक हिस्सा दे रहा है लोग बड़े डेटा सेट करने के लिए उपयोग। और अलग एक जोड़े हैं उपकरण आपको लगता है कि ऐसा करने के लिए उपयोग कर सकते हैं। एक तुम, बहुत ही सरलता है, आंकड़ों के माध्यम से कर सकते हैं पृष्ठ। इसलिए यदि आप एक क्वेरी कर बस के रूप में यदि एक वेब इंटरफेस के माध्यम से, यदि आप एक पृष्ठ पर देख सकते हैं पेज दो, पेज तीन। आप वही कर सकता है एपीआई के माध्यम से बात। तुम बस करने की आवश्यकता है आप इसे कैसे करते हैं में स्पष्ट। 

तो उदाहरण के लिए, मैं देख रहा हूँ कि अगर यहाँ मेरा पहला प्रश्न पर, मैं चीजों के लिए एक खोज कर रहा हूँ जहाँ शीर्षक में डोनट्स के साथ, मैं कह सकता हूँ और सीमा, जिसका मतलब है 20 के बराबर होती है , मुझे पहली बार 20 रिकॉर्ड नहीं दे डिफ़ॉल्ट है, जो पहले 10, मैं एक समय में 20 को देखने के लिए चाहते हैं। या मैं सेट, कह सकते हैं 20 और सीमा के बराबर शुरू जो दे देंगे, 20 के बराबर मुझे 40 के माध्यम से 21 रिकॉर्ड करता है। 

तो मैं बात अनुमान यहां दूर ले जाता है हम क्वेरी तार का उपयोग कर रहे हैं कि क्वेरी पर मानकों सेट करने के लिए। और यह आप नियंत्रित कर सकते हैं तुम वापस मिलता है। 

आप उपयोग कर सकते हैं कि एक अन्य उपकरण, - 

और इस में वास्तव में मददगार है डेटा की खोज की दृष्टि से। 

Faceting बुलाया कुछ --is। इसलिए अवधि Faceting है जरूरी आम नहीं। लेकिन आप सब से पहले यह देखा है। आप पर एक नज़र रखना अमेज़न, उदाहरण के लिए, और आप एक खोज के लिए करते हैं किताबों में डोनट्स, यहाँ वे पुस्तकों की एक श्रृंखला मिल गया है, और वे श्रेणी के आधार पर वर्गीकृत किया है रहे हैं, और आप विभिन्न श्रेणियों मिलता है, और कितने प्रत्येक श्रेणी में किताबें दिखा। 

तो यह मूल रूप से एक पहलू है। तुम्हें पता है, 1800 को अपने सभी किताबें ले अमेज़न पर डोनट्स कि मैच किताबें। उनमें से 12 में हैं नाश्ता श्रेणी। पेस्ट्री और पाक में 21, और इतने पर और आगे। 

तो यह वास्तव में एक उपयोगी है सामग्री की खोज के लिए उपकरण पुस्तकालय के भीतर के रूप में अच्छी तरह से यदि आप एक पहलू पर जब देखो, क्योंकि यह आप विषयों की एक विचार देता है विषयों की क्या प्रकार की तरह मौजूद है, आपकी क्वेरी सेट के भीतर सबसे अधिक लोकप्रिय हैं। और यह आप से दूर ड्राइव और पता लगाने में मदद करता है। इसलिए हम एक ही बात कर सकते हैं। 

हम उपयोग करना चाहते हैं एपीआई और पहलुओं को देखो, हम अन्य पैरामीटर को जोड़ने हमारे दोस्त क्वेरी स्ट्रिंग। पहलुओं तो अलग कर एक अल्पविराम के बराबर होती है हम पर पहलू क्या चाहते हैं की सूची। तो पहलुओं में से एक विषय हो सकता है। अन्य भाषा हो सकती है। हम चाहते हैं कि क्वेरी चलाते हैं और अगर हां, तो हम get-- यह बहुत ज्यादा यहाँ एक ही लग रहा है। लेकिन हम अंत करने के लिए जोड़ दिया है पहलुओं की सूची का एक सेट। इसलिए हम इस विषय नामक एक पहलू है। तो यह है कि मैं देखने के लिए कि अगर हमें बता रहा है डोनट क्वेरी से मेरी 80 परिणामों में, उनमें से 13 संयुक्त राज्य अमेरिका के अधीन। तीन विषय डोनट्स है। तीन विषय है आर्द्रभूमि बहाली की, जो डोनट में हमारे छेद हो सकता है। उनमें से दो, द सिम्पसंस, और इतने पर और आगे। 

तो इसका मतलब है आप अगर उपयोगी हो सकता है अपनी खोज को कम करना चाहते हैं। यह आप ऐसा करने में सहायता कर सकते हैं। खास तौर पर अगर आपके पास अधिक, 80 से परिणाम है, का कहना है। 

इसी तरह, हम भी पूछा भाषा पर पहलुओं के लिए। हम अपने परिणामों को देखने तो, अगर हम 76 देखना उनमें से फ्रेंच में अंग्रेजी, चार में हैं, स्पेनिश, दो में दो, मुझे लगता है कि लगता है कि अपरिभाषित या अज्ञात, डच और लैटिन। इसलिए मैं लैटिन लगता है डोनट परिणाम, फिर से, पके हुए माल के साथ कुछ नहीं करना है। लेकिन वहाँ तुम जाओ। 

तो इस तरह की आपको दिखा रहा है कैसे आप सामग्री वापस खींच सकते हैं एपीआई बस के माध्यम से जो महान है वेब ब्राउज़र,। लेकिन यह सच नहीं है कि तुम क्या होगा सामान्य रूप से इसके लिए एपीआई में उपयोग किया। आप कैसे की तो एक उदाहरण वास्तव में यह है कि मैं दिया है कर सकता है एक सुपर छोटे से कार्यक्रम में लिखा है, जो, फिर से, मेरे डोनट खोज करता है और एक जोड़ी क्षेत्रों का चयन और एक तालिका में उन्हें प्रदर्शित करता है। तो यह बहुत ज्यादा है एक ही सामग्री है कि हम सिर्फ कुछ क्षेत्रों के साथ देखा बाहर खींच लिया। खिताब की सूची, तो क्या किताब के स्थान के बारे में है, भाषा, और इतने पर और आगे। 

तो यह वास्तव में के बाद से, कैसे हुआ मैं, हम कुछ कोड को देखने के लिए है लगता है होती हे-- 

क्या हम यहाँ है एक सरल HTML है पाठ को प्रदर्शित करता है जो पृष्ठ पुस्तकालय बादल का स्वागत करते हैं और तो परिणामों की एक तालिका प्रदर्शित करता है। और जाहिर है कोई परिणाम में कर रहे हैं पेज लोड हो जाता है जब मेज। लेकिन हम क्या कर रहे हैं हम, सब से पहले है कहा जाता है एक पुस्तकालय लोड कर रहे हैं जो मूल रूप से jQuery के, यह बनाता है जो एक जावास्क्रिप्ट पुस्तकालय, जावास्क्रिप्ट हेरफेर करने के लिए बहुत आसान नेटिव रूप, एचटीएमएल, और वेब पेज बनाने, क्लाइंट-साइड तर्क और वेब पृष्ठों की है। 

तो क्या हम यहाँ है jQuery का है मिलता है, एक विधि बुलाया है जो अनिवार्य रूप से करने के लिए जाना जाएगा एक यूआरएल, जो इस मामले में, इस परिचित लग रही यूआरएल है। और फिर से सामग्री प्राप्त करेंगे फिर उस यूआरएल और उस पर एक समारोह चलाते हैं। इसलिए हम api.lib.harvard / edu के लिए जाना था। डोनट्स के लिए खोजें। हमें 20 रिकॉर्ड दीजिए। और फिर इस समारोह में, जो चलाने मैं यह डेटा गुजर रहा है, का चयन किया है। और डेटा JSON है कि एपीआई से लौटा दिया गया। 

और फिर हम उस भीतर, कह रहे हैं डेटा आइटम नामक एक क्षेत्र है। और मुझे लगता है पर एक नज़र वापस ले जाने के लिए अगर यहाँ है कि इन परिणामों से एक है, वहाँ कुछ called-- 

खैर, यह आइटम कहा जाता है। तो यह है कि हो सकता है कि। और यह क्या करता है यह है प्रत्येक मद के माध्यम से चला जाता है और फिर एक और कॉल प्रत्येक आइटम पर कार्य करते हैं। और उस समारोह मूल रूप से मूल्य ले जा रहा है जो आइटम की अनिवार्य रूप से व्यक्तिगत रिकॉर्ड और हमें शीर्षक बाहर खींचने के लिए अनुमति देता है, कवरेज और भाषा। 

इसलिए हम हर पर एक समारोह कॉल हम वापस एपीआई से मिला है कि आइटम। और तुम सिर्फ एक नज़र रखना अगर यहीं इस टुकड़े पर, क्या हम क्या कर रहे है हम एक स्ट्रिंग बना रहे हैं, जो अनिवार्य रूप से कुछ HTML मार्कअप है एक मेज के चारों ओर, value.title साथ, जो का शीर्षक है वस्तु, value.coverage, जो कवरेज, है - 

और हम एक जाँच कर रहे हैं यहाँ जो अपरिभाषित है को देखने के लिए और यह अपरिभाषित का कहना है कि अगर यह छुपा हम वास्तव में कोई दिलचस्पी नहीं कर रहे हैं, क्योंकि उस में। 

चार प्रकार तो भाषा। और फिर हम क्या कर रहे हैं कि appending कर है कि मेज पर यहाँ इस स्ट्रिंग द्वारा की पहचान की। और jQuery कैसे काम करता है यह कह रहा है क्या है इस विचार के साथ तालिका के लिए लग रही है परिणाम यह करने के लिए इस पाठ को जोड़ने और। और इस विचार के परिणाम के साथ तालिका है। तो तुम क्या अंत साथ यहाँ इस पृष्ठ है। और क्रम में source-- देखने के लिए खैर, स्रोत वास्तव में नहीं है हुआ है कि जब अपडेट किया गया। तो आप वास्तविक देख सकते हैं हालांकि यहाँ तालिका का परिणाम है। 

इसलिए इस बात का सिर्फ एक सरल उदाहरण है एपीआई के खिलाफ एक बहुत ही बुनियादी क्वेरी कर और कुछ अन्य में जानकारी प्रदर्शित फार्म, और भी फैंसी कुछ भी नहीं कर रही है। अब, एक और उदाहरण एक की तरह है डेविड Weinberger द्वारा लिखित आवेदन इस का एक डेमो के रूप में, जो अनिवार्य रूप से आप से पता चलता है क्या आप कर रहे हैं परिणामों को मैश कैसे कर सकते हैं पुस्तकालय बादल एपीआई से हो रही है साथ, गूगल बुक्स का कहना है। 

और यहाँ सोच मैं कर सकते हैं गूगल बुक्स के खिलाफ एक क्वेरी चलाते हैं, कुछ परिणाम मिलता है, एक पूर्ण पाठ खोज मिल पीठ, यह पता लगाने के लिए उन वस्तुओं में से जो वास्तव में होलिस में मौजूद हैं, पुस्तकालय प्रणाली, और फिर मुझे लिंक दे वापस उन वस्तुओं से। मैं के लिए खोज तो, अगर यह था एक काले और तूफानी रात, मैं परिणामों का एक गुच्छा वापस पाने के लिए गूगल, और फिर एक परिणाम से जो समय में एक शिकन है। और ये है कि अस्तित्व में पुस्तकों के लिए संपर्क कर रहे हैं हार्वर्ड पुस्तकालय प्रणाली के भीतर। 

इसलिए मैं यहां मुद्दा यह नहीं लगता है इतना है कि इस साल मई या नहीं कर सकते आप चाहते हैं कि जिस तरह से किया लाइब्रेरी की खोज करने के लिए, लेकिन यह एक पूरी तरह से अलग है जिस तरह से आप के लिए उपलब्ध नहीं था कि इससे पहले, आप की तरह करने का कोई रास्ता नहीं था पूरा पाठ पुस्तकों पर खोजता है कि यहां तक ​​कि हार्वर्ड पुस्तकालय प्रणाली का हिस्सा थे। तो अब यह एक तरीका है आप ऐसा कर सकते हैं। और तुम में उन्हें प्रदर्शित कर सकते हैं जो कुछ भी प्रारूप में आप चाहते हैं। यहाँ तो बात है, मूल रूप से है हम लोगों के लिए नए तरीके खोल रहे हैं डेटा के साथ काम करने के लिए। 

पुस्तकालय बादल का एक टुकड़ा है कि यह उपयोग डेटा के कुछ पर्दाफाश में मदद करता है पुस्तकालय है कि। तो अगर आप पुस्तकालय में जाना है, तो और आप पुस्तकों के लिए देख रहे हैं, आप जरूरी नहीं है वास्तव में की एक विचार है, एक में सभी मदों के लिए विशेष विषय, क्या लोगों में हैं समुदाय है, यह है कि क्या हार्वर्ड या के रूप में परिभाषित देश या अपने वर्ग, वे सबसे अधिक उपयोगी पाया क्या है? और पुस्तकालय वास्तव में है एक के बारे में जानकारी के टन क्या सबसे अधिक उपयोगी है एक बहुत क्योंकि अगर लोगों को एक किताब की जाँच कर रहे हैं की, कि आप कुछ बताता है। कोई कारण रहा होगा वे इसे बाहर की जाँच करना चाहते हैं। बहुत सारे लोग आरक्षित पर डाल दिया। 

यह एक बहुत कुछ के लिए आरक्षित सूची पर है वर्गों की, कि आप कुछ बताता है। संकाय सदस्यों को यह जाँच कर रहे हैं एक बहुत है और स्नातक से नीचे नहीं कर रहे हैं बाहर, कि मुझे कुछ बताता है। इसके विपरीत, वह भी आप कुछ बताता है। तो यह करने के लिए वास्तव में दिलचस्प होगा वहाँ से बाहर है कि जानकारी डाल दो और लोग उन्हें खोजने में मदद करने के लिए इसका इस्तेमाल करते हैं पुस्तकालय प्रणाली के भीतर काम करता है। इस का दूसरा पहलू भी है कुछ गंभीर गोपनीयता रहे हैं चिंताओं में से एक है क्योंकि पुस्तकालय के मूल सिद्धांतों हम कह रही हो नहीं जा रहे है अन्य लोगों को क्या पढ़ रहे हैं लोग। और आप यह कह रहे हैं, भले ही पुस्तक में चार बार बाहर की जाँच की गई थी एक विशेष महीने में, कि इस्तेमाल किया जा सकता है एक खास करने के लिए वापस लिंक करने के लिए डे-anonymizing डेटा से व्यक्ति और इसे बाहर की जाँच की है जो बाहर ढूँढने। तो जिस तरह से हम avoid-- कर सकते हैं हम निकालने के लिए कोशिश कर सकते हैं कि जिस तरह से सभी जानकारी से कुछ संकेत उल्लंघन के बिना किसी की गोपनीयता चिंताओं हम पर देखने के लिए अनिवार्य है उपयोग डेटा के 10 साल, - 

तो यह समय की एक लंबी अवधि खत्म हो चुका है। 

चार प्रकार ठीक है, चलो देखते हैं कैसे कहते हैं, इस काम के लिए इस्तेमाल किया गया था, कई बार, और इस अवधि में जो द्वारा समय की है, और फिर मूल रूप से हम जो एक फोन नंबर, वापस दे एक ढेर स्कोर, जो मूल रूप से यह प्रयोग किया गया है कितना प्रतिनिधित्व करता है। और कहा कि number-- अलग गणना का एक बहुत उस नंबर में चलते हैं। --but यह एक बहुत ही कठिन है आपको देता है कि मीट्रिक कैसे के कुछ विचार समुदाय है कि काम को महत्व हो सकता है। 

यहां तक ​​की और इसलिए एक और प्रकार अधिक आवेदन बाहर fleshed कि लाभ लेता है इस बारे में कुछ है वास्तव में जो कहा जाता है Stacklife, मुख्य हार्वर्ड के माध्यम से उपलब्ध लाइब्रेरी पोर्टल। तो अगर आप library.harvard.edu के पास जाओ। आप अलग अलग की एक संख्या देखेंगे पुस्तकालय खोज के तरीके। और उनमें से एक Stacklife कहा जाता है। 

और यह एक आवेदन पत्र है कि , पुस्तकालय की सामग्री ब्राउज़ लेकिन पूरी तरह से बनाया गया है इन एपीआई के शीर्ष पर। तो कोई विशेष सामान है पर्दे के पीछे चल रहा है। करने के लिए पहुँच नहीं है तुम नहीं है कि डेटा। यह आपको प्रदान करने के लिए एपीआई का उपयोग कर रहा है एक पूरी तरह से अलग ब्राउज़िंग के साथ अनुभव। 

मैं ऐलिस के लिए खोज तो अगर इस मामले में वंडरलैंड में, मैं की तरह लग रहा है कि एक परिणाम मिलता है सुंदर much-- है जो इस, 

यह किसी भी अन्य खोज करने के लिए बहुत समान है आप इस मामले में छोड़कर कर सकता है हम से आइटम रैंकिंग रहे हैं आप जो देता है stackscore, कैसे लोकप्रिय इनमें से कुछ विचार आइटम समुदाय के भीतर थे। और तो जाहिर है, ऐलिस में वंडरलैंड वॉल्ट डिज्नी द्वारा अत्यधिक लोकप्रिय है। लेकिन तुम भी शीर्ष चार देख सकते हैं यहाँ आप actually-- नहीं हो सकता है लोग कर रहे हैं 

अत्यधिक उपयोग किया जाता है कि हालात, लेकिन आप तुरंत नहीं हो सकता एलिस इन वंडरलैंड के साथ कनेक्ट। इसलिए हमारे पुराने दोस्त एनोटेट ऐलिस यहाँ है। इसलिए मैं इस पर एक नज़र ले जा सकते हैं। और अब मैं क्या देख रहा हूँ मूल रूप से एक of-- सेट किया जाता है पर मैं एनोटेट हो सकता है यहीं ऐलिस। मैं इसके बारे में जानकारी नहीं है। और मैं यह भी एक stackscore है की, इस मामले में, 26 में। और इस के लिए मोटे तौर पर क्रमबद्ध मुझसे कहता है हम इस stackscore को कैसे मिल गया, जैसे जो कैसे की तरह, यह बाहर की जाँच इसे बाहर की जाँच की थी कई बार, संकाय या undergrads, कैसे की तरह पुस्तकालय है कई प्रतियां, और इतने पर और आगे। 

और तुम, भी कर सकते हैं काफी दिलचस्प यहाँ, लगभग ढेर ब्राउज़ करें। यहाँ तो डेटा, इस क्रमबद्ध आपको दिखा रहा है एक आभासी प्रतिनिधित्व की क्या शेल्फ पराक्रम का आप ले रहे थे की तरह लग रहे सभी पुस्तकालय जोत और उन्हें एक साथ रखा एक अनंत शेल्फ पर। और अच्छी बात यह है कि हम can-- यह है कि 

सबसे पहले, इन पुस्तकों के बारे में मेटाडाटा इसे प्रकाशित किया गया था जब अक्सर आपको बताता है। वह यह है कि कितने पृष्ठों में बताता है। यह आप आयाम बता सकता है। तो आपको लगता है कि यहाँ परिलक्षित होता है देख सकते हैं पुस्तकों के आकार के संदर्भ में। 

और फिर हम उपयोग कर सकते हैं उजागर करने के लिए स्कोर ढेर उच्च स्टैक स्कोर है कि किताबें। यह गहरा है तो, अगर यह मतलब है कि, शायद, यह अधिक बार प्रयोग किया जाता है। तो इस मामले में, मैं कर रहा हूँ इसका अर्थ है कि लगता जा रहा एलिस इन वंडरलैंड के संस्करण है लगता है कि बहुत अधिक इस्तेमाल किया जाता है और सबसे पहुँचा, पुस्तकालय के सबसे प्रतियां है। आप देख रहे हैं तो एलिस इन वंडरलैंड के लिए, इस शुरू करने के लिए एक अच्छी जगह हो सकती है। 

और फिर यहाँ तुम भी बाहर लिंक कर सकते हैं कहने के लिए, अमेज़न, पुस्तक खरीदने के लिए और इतने पर और आगे। यहां मुद्दा यह है, फिर से, नहीं यह है कि इतना है पुस्तकालय ब्राउज़ करने के लिए सबसे अच्छा तरीका है या हर अवसर के लिए सही उपकरण। लेकिन यह इसे करने का एक और तरीका है। और डेटा बनाकर एक एपीआई, के माध्यम से उपलब्ध है, जो बहुत ही साधारण इमारत ब्लॉकों से बना है, जो आप सामग्री खोज करने के लिए अनुमति देता है, आप कुछ का निर्माण कर सकते हैं इस तरह से कर सकते हैं कि असाधारण हो कुछ लोगों के लिए मूल्यवान। 

तो यह है कि, की तरह मैं चाहता हूँ के रूप में ज्यादा है एपीआई क्या है के बारे में वास्तव में कहने के लिए यह उजागर करता है और क्या, एक पूरी वहाँ परदे के पीछे सामान का गुच्छा जो मैं तो बस संक्षेप पर स्पर्श करने के लिए जा रहा हूँ यह एक तरह से इस पर आता है, सिर्फ इसलिए कि एक पूरी तरह से अलग कोण में से कुछ इस तरह करता है कि कैसे की शर्तें जगह में डाल दिया हो? 

तो एक एपीआई के लिए एक मानक है इस सामग्री के सभी के लिए इंटरफ़ेस। लेकिन वहाँ है, इसे पाने के लिए पहली बात यह है कि हम क्या करने के लिए किया था जानकारी के साथ मिलकर काम करना किया गया था किताबें और छवियों की और ढूँढने एड्स, संग्रह विभिन्न हार्वर्ड सिस्टम से दस्तावेज़। Aleph, माध्यम से, और नखलिस्तान हैं सिस्टम के नाम। और वे अनिवार्य रूप से एक में जाने पाइप लाइन, एक प्रसंस्करण पाइप लाइन। 

तो सब से पहले, हम निर्यात मिल इन प्रणालियों के सभी से फ़ाइलें। हम अलग-अलग मदों में उन्हें अलग। इसलिए हम एक गीगाबाइट है जो एक फाइल है, जो उस में एक लाख रिकॉर्ड है। इसलिए हम अलग-अलग आइटम में अलग। फिर, प्रत्येक आइटम के लिए, हम इसे बदलने MODS में, इनमें से कुछ की वजह नेटिव रूप MODS हैं, उनमें से कुछ नहीं कर रहे हैं। इसलिए हम उन सब को मिल एक ही प्रारूप में होना। तो फिर वहाँ विभिन्न संवर्धन कदम है, जहां हम डेटा में अधिक जानकारी जोड़ने से पुस्तकालय में उपलब्ध था। इसलिए हम सब से पहले, जोड़ने की जरूरत पुस्तकालयों इसे पकड़ हम क्या कर सकते है। हम एक कदम के माध्यम से जाना stackscore की गणना। हम में से एक और कदम के माध्यम से जाना मामले में अधिक मेटाडाटा जोड़ने क्या संग्रह से लोगों को this-- जोड़ लिया है हो सकता है 

लोग पैदा कर रहे हैं आइटम का संग्रह। क्या संग्रह यह करने के लिए संबंधित है? कैसे लोगों को टैग किया अतीत में इस सामग्री? तो फिर तुम बाहर फिल्टर, और आप को सीमित रिकॉर्ड, मैं उल्लेख किया है, क्योंकि कुछ रिकॉर्ड है कि वहाँ की वजह से कॉपीराइट कारणों, हम प्रदर्शन नहीं कर सकते। और फिर हम उन्हें लोड कहा जाता है कुछ में एक गलत वर्तनी नहीं है जो Solr, लेकिन सॉफ्टवेयर का एक टुकड़ा का नाम है कि खोज अनुक्रमण, जो करता है एपीआई के पीछे सभी खोज चलाता है। और फिर इसे करने के लिए उपलब्ध हो जाता है एपीआई, और लोग इसका इस्तेमाल कर सकते हैं। 

तो यह एक काफी की तरह है सीधी प्रक्रिया। दिलचस्प में से एक यह है के बारे में बातें हम काम कर रहे हैं कि 13 लाख के रिकॉर्ड के साथ और हम काम कर रहे हैं या अधिक होने जा रहे हैं। और हम संभाल करने में सक्षम होना चाहता हूँ एक अपेक्षाकृत तेजी से फैशन में इन। यह एक लंबे समय के लिए ले जाता है 13 लाख के रिकॉर्ड की प्रक्रिया। 

इसलिए इस पाइपलाइन है कैसे सेट अप आप can-- यह है कि मैं का लाभ अनुमान पाइप लाइन, हम कर रहे हैं कि समस्या यहाँ हल करने के लिए कोशिश कर रहा है कि, सभी परिवर्तनों, सभी इस में इन चरणों पाइपलाइन वियोज्य हैं। कोई निर्भरता नहीं है। आप प्रसंस्करण कर रहे हैं एक पुस्तक की एक रिकार्ड है, कोई निर्भरता में नहीं है एक और किताब के बीच है। 

तो हम क्या कर सकते हैं, मूल रूप से है पाइप लाइन में हर कदम पर, हम बादल में एक कतार में डाल दिया। मैं अमेज़न वेब सेवाओं पर होने का क्या हुआ। तो की एक सूची है, 10,000 आइटम, का कहना है कि सामान्यीकृत होने की जरूरत है और MODS स्वरूप में परिवर्तित। और हम के रूप में कई सर्वरों को स्पिन हम चाहते हैं के रूप में, शायद 10 सर्वर। और उन लोगों के सर्वर के प्रत्येक बस , वहाँ बैठता है कि कतार में लग रहा है की जरूरत है कि वहाँ एक है कि देखता है संसाधित किया, कतार इसे बंद खींचती है, यह प्रक्रिया, और लाठी यह अगले कतार पर। 

और कहा कि हमें की अनुमति देता है तो क्या हुआ लागू किया जाता है ऐसा करने के लिए, अनिवार्य रूप से, ज्यादा हार्डवेयर के रूप में हम यह करने के लिए चाहते हैं के रूप में समय की एक बहुत ही कम अवधि के लिए समस्या के रूप में जल्दी के रूप में डेटा की प्रक्रिया संभव है, जो कुछ है कि केवल, अब क्लाउड कंप्यूटिंग की दुनिया में अनिवार्य रूप से हम कर सकते प्रावधान सर्वर तत्क्षण, कि उपयोगी है। तो हम एक के लिए नहीं है आसपास बैठे विशाल सर्वर सभी समय प्रोसेसिंग करने के लिए कि एक सप्ताह में सिर्फ एक बार हो सकता है। 

तो यह है कि यह ज्यादातर है। उपलब्ध दस्तावेज नहीं है लाइब्रेरी बादल आइटम एपीआई के लिए इस URL पर, जो होगा बाद में उपलब्ध हो। और पर एक नज़र रखना कृपया जाओ अगर वहाँ कुछ भी है, यह देखने के लिए आप किसी भी विचार है। इसके साथ खेलते हैं। चारों ओर मूर्ख। और उम्मीद है कि आप आ सकते हैं महान कुछ के साथ। धन्यवाद।