ג'פרי ליכט: היי. אני ג'פרי ליכט. ואני כאן כדי לדבר איתך על ספריית אוניברסיטת הרווארד ובנייה של מחר היום ספרייה, אני מניח. אז הרקע כאן, את המגרש לפגישה זו הוא למעשה שיש הרבה נתונים ביבליוגרפיים זמין בספריות של אוניברסיטת הרווארד. ויש הזדמנות, באמצעות כמה הכלים ופרויקט שהוא בשלבי פיתוח, כדי לקבל גישה למידע ולקחת אותו למקומות ש ספריית אוניברסיטת הרווארד לא עושה עכשיו, לעשות דברים חדשים עם זה, ניסוי ולשחק עם זה. אז נקודת הכניסה לתוך זה הוא API נקרא הרווארד הספרייה Cloud, ש הוא שרת metadata פתוח, שאני אדבר על עכשיו. אז הרקע הוא שיש הרבה דברים בספרייה של אוניברסיטת הרווארד. יש לנו מעל 13 מ'ביבליוגרפי רשומות, מיליונים תמונות, ואלפי עזרי מציאת, ש הם בעצם מסמכים המתארים אוספים, אומרים את מה ש הוא בהם, קופסות מסמכים וכן הלאה, שמייצגים מעל מיליון מסמכים בודדים. ויש גם הרבה מידע שיש בספרייה על איך התוכן משמש ש יכול להיות עניין של אנשים שאולי כדאי לך לעבוד עם זה. 

אז את כל המידע יש הספרייה מטה. אז metadata הוא נתונים על נתונים. לכן, כאשר אנחנו מדברים על המידע זה זמין דרך הספרייה ענן זה זמין, זה לא בהכרח המסמכים בפועל את עצמם, לא בהכרח מלאים טקסט של ספרים או תמונות מלאים, למרות שלמעשה יכול להיות במקרה. אבל זה באמת מידע על הנתונים. 

אז אתה יכול לחשוב על קיטלוג מידע, שיחת מספרים, נושאים, כמה עותקים של ספר יש, מה הם המהדורות, מה הם פורמטים, המחברים, וכן הלאה. אז יש הרבה מידע על המידע באוסף ש, בעצמו, הוא סוג של מטבע שימושי. ולמרות שאם אתה עושה מחקר המעמיק ב, ברור שאתה רוצה להגיע לבפועל תוכן עצמו ולהסתכל על הנתונים, מטה-נתונים הוא שימושיים במונחים של שניהם ניתוח קורפוס בכללותו, כמו מה דברים נמצאים באוסף. איך הם מתייחסים? זה עוזר לך באמת למצוא דברים אחרים, וזה באמת המטרה העיקרית שלו. הנקודה מטה-נתונים והקטלוג הוא לעזור לך למצוא את כל המידע זה זמין באוספים. 

אז זה הוא דוגמא של מטה עבור ספר בספרייה של אוניברסיטת הרווארד. אז זה שם. ואתה יכול לראות שזה למעשה מורכב בינוני. וחלק מהערך של מטה במערכת ספריית אוניברסיטת הרווארד הוא שזה היה סוג של נבנה על ידי מקטלג ונאסף על ידי אנשים פונים הרבה מומחיות ומיומנות וחשבתי לזה לאורך זמן, שבו יש הרבה ערך. 

אז אם אתה תסתכל על האלבום הזה ל המוער אליס, אתה יכול לגלות יש לך את הכותרת, שכתב אותו, המחבר, וכל נושאים השונים שאנשים קטלגו אותו ל. ואתה יכול לראות שיש גם, ב בנוסף להרבה מידע טוב כאן, יש כמה כפילויות. יש הרבה מורכבות זה בא לידי ביטוי באמצעות מטה שיש לך. 

אז כותרת אחד של ספר זה היא הרפתקאות אליס בארץ הפלאות. אז זה מוער גרסה של ספר זה. אבל זה גם נקרא מוער אליס, הרפתקאות אליס בארץ הפלאות, כי זה משהו ש מרטין גרדנר כתב ומבואר בספר. ויש הרבה מאוד מידע על חידות היגיון ודברים בתוך אליס ש כנראה לא ידע על. אז אתה צריך ללכת לקרוא אותו. 

אבל אתה יכול לראות שיש הרבה פרטים כאן, כולל מזהים, כאשר הוא נוצר, מאיפה זה בא, במונחים של הרווארד מערכת, וכן הלאה. אז זה מדגם של הסוג של מטה שאולי אתה רואה לספר ב אוסף הספרייה של אוניברסיטת הרווארד. 

זה משהו אחר לגמרי. אז יש מערכת בשם VIA הרווארד, אשר בעצם הוא מקטלג תמונות וחפצי אמנות ודברים חזותיים לאורך הרווארד, והוספתי כמה metadata להם, סיווגם, ו, במקרים מסוימים, מתן תמונות ממוזערות קטנות כי אתה יכול לקחת מסתכל אם אתה כל כך רוצה. 

אז זה הוא דוגמא ל מטה-נתונים שיש לך לצלחת מ, ככל הנראה, אליס בארץ הפלאות. ואתה יכול לראות שיש פחות metadata כאן. זה פשוט סוג של אובייקט אחר. וכך יש פחות מידע. 

יש לך בעיקר את העובדה ש, שיחה מספר, המהות שיצר אותו, - 

אנחנו לא יודעים מתי הוא נוצר. 

--and כותרת. 

דוגמא נוספת. זהו סיוע ממצא. אז יש אוסף של לואיס הניירות של קרול באוניברסיטת הרווארד. אז זה מתאר את מה ש באוסף זה. אז מישהו עבר ו הסתכל דרך כל התיבות ותקטלג אותו, נתן קצת רקע, נכתב סיכום של מה כאן. ואם היית מסתכל נוסף בשלב זה, זה ממשיך לעמודים על גבי עמודים ודפים, אבל יגידו לך מה אותיות ומה תאריכים ממה תיבות קיים בכל האוסף. אבל זה משהו ש כי, אם אתה באוניברסיטת הרווארד, אתה יכול ללכת וממש פיזי נראה ו, ככל הנראה, תסתכל. 

אז זה כל גדול. של מטה-נתונים שימושיים זה. זה במערכת ספריית אוניברסיטת הרווארד. ישנם כלים מקוונים שבו אתה יכול ללכת ותסתכל על זה, ורואה את זה, ולחפש אותו. ואתה יכול לחתוך אותו לקוביות זה בהרבה דרכים שונות. 

אבל זה ממש זמין רק אם אתה אדם לשבת בדפדפן האינטרנט שלך או משהו או הטלפון שלך ולנווט אותו. זה לא ממש זמין ב כל סוג של אופנה שמישה למערכות אחרות או מחשבים אחרים לשימוש, לא עם מערכות בתוך ספריית אוניברסיטת הרווארד, אבל מערכות בעולם שבחוץ, רק אנשים אחרים באופן כללי. אז השאלה היא, איך אנחנו יכולים להפוך אותו לזמין למחשבים כדי שנוכל לעשות יותר מעניין דברים עם זה מאשר רק גלישה זה בעצמנו? 

אז למה אתה רוצה לעשות את זה? יש הרבה אפשרויות. אחת מהן הוא שאתה יכול לבנות לחלוטין דרך של גלישה שונה התוכן זה זמין דרך הספריות של אוניברסיטת הרווארד. אני אראה לך אחד מאוחר יותר נקרא Stacklife, שבו יש שונה לחלוטין לקחת על מחפש תוכן. 

אתה יכול לבנות מנוע המלצה. אז ספריית אוניברסיטת הרווארד היא לא ב עסק של אומר, שאתה אוהב את הספר הזה. ואז ללכת תסתכל על 17 אחרים אלה ספרים שאתה עשוי להיות מעוניין ב או 18 תמונות אחרות אלה. אבל זה בהחלט יכול להיות תכונה רבת ערך. ובהתחשב במטה, רשאי הוא ניתן יהיה לשים את זה ביחד. אולי יש לך צרכי שונים ב מונחים של חיפוש התוכן, כמו אולי למרות הכלים ש זמינים שהספרייה עושה זמין, ייתכן שתרצה כדי לחפש בצורה שונה או לייעל למקרה לשימוש מסוים, שאולי זה מיוחד מאוד. אולי יש רק כמה אנשים בעולם ש רוצה לחפש התוכן בדרך זו, אבל זה יהיה נהדר אם יכל לתת להם לעשות את זה. יש הרבה ניתוחים בכמה אנשים להשתמש בתוכן שיהיה ממש מעניין לדעת עליהם, לגלות איזה ספרים נמצאים בשימוש, מה הם לא, וכן הלאה. ואז יש הרבה הזדמנות לשלב עם מידע אחר שיש שם בחוץ באינטרנט. אז אנחנו have-- 

לדוגמא, יש NPR קטע ביקורת על ספר, שבו הם לראיין מחברים על ספרים. וכך זה יהיה נהדר אם היית מחפש את ספר באוניברסיטת הרווארד ספרייה, ואתה אומר, בסדר, יש היה ראיון עם המחבר. בואו נלך תסתכל על זה. או שיש דף ויקיפדיה, כ התייחסות סמכותית, מחקרית על הספר הזה שאתה אולי כדאי לך להעיף מבט על. 

ישנם סוגים אלה של מקורות פזורים בכל רחבי האינטרנט. ולהביא אותם יחד יכול להיות שימוש רב למישהו מסתכל על תוכן, מחפש משהו. אבל זה גם לא מסוג הדברים שהיית רוצה הספרייה להיות אחראית ליורד ולצוד כל מקורות שונים אלה וחיבורם יחד בגלל שהם משתנים ללא הרף. ומה שהם חושבים הוא במאי החשוב לא מה שאתה חושב חשוב. 

ועוד יותר מכך, בעצם יש הרבה דברים שאנחנו לא חשבנו על עדיין. אז אם אנחנו יכולים לפתוח את זה, יותר אנשים מלבד חצי תריסר, שמסתכלים על זה ב בסיס קבוע יכול לחשוב על רעיונות ולעסות את הנתונים, ו לעשות מה שהם רוצים עם זה. 

אז אנחנו רוצים לעשות את זה נתונים הקיימים בעולם. ובכן, יש כמה סיבוכים. אחת הוא שזה metadata הוא במערכות שונות. זה בפורמטים שונים. אז יש כמה נורמליזציה שצריך לקרות, שנורמליזציה להיות התהליך מביא דברים מפורמטים שונים ומיפוי אותם לפורמט אחד כך שהשדות יתאימו. 

יש כמה מגבלות של זכויות יוצרים. למרבה הפלא, כניסת הקטלוג על ספר הוא אחראי לזכויות יוצרים. אז למרות שזה רק מידע ההופק מהספר, זה copyrightable. ותלוי מי בעצם נוצר metadata ש, ייתכנו הגבלות על ש יכול להפיץ אותו, to-- דומה 

אֲנִי לֹא יוֹדֵעַ. זה יכול או לא יכול להיות דומה ל המצב של מילות השיר, לדוגמא. אז כולנו יודעים איך זה יצליח. אז אתה צריך לעקוף את הבעיה. 

ואז עוד חתיכה היא שיש הרבה נתונים. אז אם אני מישהו שרוצה לעבוד עם נתונים או שיש רעיון מגניב, התמודדות עם 14 מ' רשומות על המחשב הנייד שלי יכול להיות בעייתי וקשה לניהול. אז אנחנו רוצים להפחית המחסומים לאנשים להיות מסוגל לעבוד עם נתונים. 

אז הגישה בתקווה כי כתובות כל החששות האלה הוא שני חלקים. אחד בונה פלטפורמה שלוקחת נתונים מכל המקורות השונים אלה ומדרדר אותה, מנרמל, מעשיר אותו, והופך את זה זמין במקום אחד. והוא עושה את זה זמין דרך API ציבורי שאנשים יכולים לקרוא. 

אז API הוא יישום ממשק תכנות. וזה בעצם מתייחס ל נקודת סיום שמערכת או טכנולוגיה יכול להתקשר ולקבל נתונים בחזרה ב פורמט מובנה בדרך שניתן להשתמש בו. אז זה לא תלוי על מעבר לאתר אינטרנט ומגרד את הנתונים שלו, למשל. 

אז זה בדף הבית של API פריט ספריית הענן, שהוא בעצם הגרסה שלה לשתיים. אז זה החזרה השניה של מנסה להפוך את כל הנתונים הללו זמין לעולם. אז זה http://api.lib.harvard.edu/v2/items. ורק כדי לשבור את זה קצת, מה זה אומר הוא שזה גרסה של שתי API. יש גרסה אחת, ש אני לא הולך לדבר עליו. אבל יש גרסה אחת. 

ואם אתה קורא את זה API, אתה מקבל פריטים. וחלק מהרעיון של API הוא ה- API הוא חוזה. זה משהו שהוא לא הולך להשתנות. כך למשל, - 

והסיבה לכך היא שאם אני לבנות איזה מערכת ש הוא הולך להשתמש API ענן ספרייה להצגת ספרים או לעזור לאנשים למצוא מידע בדרכים ייחודיות, מה שאנחנו לא רוצים שנקרה הוא לנו ללכת לשנות את אופן ש API זה עובד, ופתאום כל מה ששובר בצד משתמש קצה. אז חלק מאם אתה עושה API זמין לעולם, זה תרגול טוב לשים מספר גרסה בזה כדי שאנשים יודע עם איזו גרסה שהם עוסקים. 

אז אם אנחנו מחליטים שאנו מוצאים דרך טובה יותר של הפיכת מידע זה זמין, אנו עשויים לשנות את זה ל קורא גרסה כי שלוש. אז כל מי שעדיין משתמשים ב גרסה שתי, שעדיין עובדים. אבל שלוש היית גרסה יש את כל הדברים החדשים. 

אז זה API, אבל זה באמת נראה כמו כתובת אתר. ואז מה זה דוגמא היא מה נקרא API שאר, אשר זמינות מעל רק באינטרנט חיבור רגיל. ואתה באמת יכול ללכת אליו בדפדפן. 

אז הנה אני עתה נפתחתי בפיירפוקס ו הלכתי לapi.lib.harvard.edu/v2/items. ואז מה שאני מקבל כאן הוא בעצם העמוד הראשון תוצאות מכל קבוצה של פריטים שיש לנו. וזה כאן בפורמט XML. וזה גם היה להתייפייף על ידי פיירפוקס. זה לא באמת צריך את כל אלה מתרחב ומתכווץ קטנים doohickeys כאן. זה סוג של נחמד גרסת דרך להסתכל על זה. 

אבל מה זה אומר לנו הוא אני כבר ביקשתי את כל הפריטים. אז יש 13289475 פריטים. ואני מסתכל על ראשון 10, החל משעת העמדה אפס כי במדעי מחשב אנחנו תמיד מתחילים באפס. ומה יש לי כאן, אם אני פשוט תקרוס זה, תראה שיש לי 10 פריטים. 

ואם אני נסתכל על פריט, שאני יכול רואה שיש לי מידע על זה. וזה מה שנקרא בצורת MODS. ואז אני הולך לעבור אחזור לכאן לרגע. OK. 

אז בואו לחפש משהו ב ספציפי כיוון שהפריט הראשון ש קורה לבוא כאשר אתה מסתכל דרך האוסף כולו הוא, בהגדרה, אקראי. אז בואו נסתכל לכמה סופגניות. אה. 

OK. אז סופגניות. כך מצאנו שיש 80 פריטים ב האוסף הכולל הפניות לסופגניות. אנחנו מסתכלים על 10 הראשונים שלהם. עכשיו, אתם יכולים לראות כאן את הדרך שבי אמרתי שאני מחפש סופגניות, אני רק הוספתי משהו ל מחרוזת השאילתה של כתובת האתר. אז q שווה סופגניות, שבו אתה יכול לראות קצת יותר בקלות כאן. 

וזה בעצם אומר שיש מפרט לAPI, ש מגדיר מה כל פרמטרים אלה מתכוונים. וזה אומר שאנחנו הולכים לחפש כל דבר לסופגניות. 

אז את הפריט הראשון שיש לנו כאן אתה יכול לראות את הכותרת היא סופגניות, ויש כתוביות בשם פסיון אמריקאי, שהוא, אני מניח, מתאים. יש הרבה של different-- ברגע שאתה מגיע לנקודה לקבל את הנתונים, יש הרבה שונה פורמטים שאתה יכול לקבל אותו לתוך. ויש עוצמות שונות וחולשות של כולם. אז זה אחד, אתה יכול לראות כאן, בטופס זה הוא מאוד עשיר. וזה טופל. 

אז יש כותרת ספציפית שדה, שדה כתובית. יש חלופי כותרת, פסיון אמריקאי. יש שם ששויך לו. סוג של המשאב הוא טקסט. יש הרבה מידע כאן בפורמט זה. 

אבל יש חבורה פורמטים שונים של. אז מה היינו רק מסתכל עליו בפורמט MODS נקרא, אשר מייצג שירות תיאור אובייקט Metadata, פוטנציאל. אני בעצם לא ממש בטוח לגבי ס 'אבל זה פורמט מורכב למדי. זה פורמט ברירת המחדל. 

אבל זה אחד שמחזיק העושר של כל הנתונים שהספרייה יש משום זה קרוב מאוד למה ש הספרייה משתמשת באופן פנימי. זה סטנדרטי שהוא משמש בכל רחבי הארץ, ברחבי העולם בספריות אקדמיות. וזה מאוד יכולת פעולה הדדית. אז אם יש לך מסמך כי הוא בפורמט MODS, אתה יכול לתת את זה למישהו אחר מערכות שמבינות MODS, והם יכולים לייבא אותו. אז זה סטנדרטי. הוא מוגדר היטב, מאוד ספציפי. וזה מה שעושה את זה יכולת פעולה הדדית, כי אם מישהו אומר, זו הכותרת החלופית של שיא, כולם יודע מה זה אומר. מצד השני, זה מאוד מסובך. 

אז אם אתה תסתכל בתקליט הזה כאן, אם אני רק רוצה לקבל את כותרתו של מסמך זה, בספר זה, שהוא כנראה סופגניות, פסיון אמריקאי, ניתוח אותו הוא מעט מעורב. הואיל ויש עוד פורמט שנקרא Dublin Core, שהוא הרבה פורמט, הרבה יותר פשוט. 

ואז אתה רואה כאן, אין כותרת, כותרת משנה, כותרת חלופית. יש רק את הכותרת, סופגניות, פסיון אמריקאי, ועוד כותרת, פסיון אמריקאי. לכן, כאשר אתה מסתכל על מה טופס אתה רוצה לקבל את הנתונים מ, הרבה תלוי באופן ש אתה הולך להשתמש בו. האם אתה משתמש ל יכולת פעולה הדדית או שאתה רוצה משהו פשוט ש יכול להיות קל יותר לעבוד איתו? 

מצד השני, הרבה פרטים לקבל נמעכו את הסוג של. אתה עלול לאבד את הדקויות של מה אמצעי תחום מסוים עם Dublin Core אם יש לך עסק, שלא היית מקבל בMODS. אז אלה הם שני הפורמטים אתה יכול לצאת מAPI. ובעצם, אנחנו שומרים זה מאחורי הקלעים בMODS. אבל אנחנו יכולים לתת לך את זה בMODS ו Dublin Core וכל דבר אחר גם כן. השיקול האחר כש אתה מחפש בנתונים הוא שאתה יכול לקבל את זה כמו גם JSON, ש עומד לסימון אובייקט JavaScript, או XML, העומד ל Extensible Markup Language. וייצוגי נתונים אלה שני יש בדיוק את אותם נתונים, בדיוק אותו השדות. אבל הם פשוט שונה מבחינה תחבירית. 

אז זה a-- ובכן, בואו פשוט לעבור. אז זה השאילתה שלנו ל סופגניות בפורמט XML. אם אני רק לעבור את זה כדי להיות JSON, אני יכול לראות את זה נראה אחר. אז עכשיו זה אותו התוכן, אבל מבנה שונה. יש סוגריים זווית פחות. יש פחות מפורט. 

וזה פורמט ש, אם אתה עובדים בסביבת האינטרנט, אתה כנראה הולך לרוצה להשתמש כי אחד הדברים היפים על JSON הוא זה תואם עם JavaScript. אז אם אני כותב יישום אינטרנט, אני יכול למשוך בJSON צודק ולעבוד עם זה באופן ישיר. ואילו עם XML, זה קצת יותר מסובך. אז שוב, אלה שניהם שימושיים. הם פשוט מקרים שימוש שונים שבו אנשים אולי כדאי לך להשתמש בם. OK. אז בחזרה לAPI. אז אנחנו יכולים לחפש for-- 

אני נותן דוגמא של מחפש סופגניות. אנחנו יכולים גם לחפש רק ב שדה מסוים בתוך כאן. אז במקום לחפש השיא כל, אני רק יכול לחפש את שדה הכותרת. ואז עכשיו יש 25 דברים ש יש סופגניות בכותרת, שאחד מהם הוא על שחזור ביצות בניהול של החור בסופגנייה תכנית, שהוא כנראה לא בהכרח מה שאנחנו מחפשים כאשר אנחנו מחפשים סופגניות. 

גם אתה יכול, כשאתה התמודדות עם API-- 

חלק שיש API נותן לאנשי גישה לערכות נתונים גדולים. ויש כמה שונה כלים שאתה יכול להשתמש בו כדי לעשות את זה. אחת מהן הוא, מאוד פשוט, אתה יכול לדפדף בנתונים. אז בדיוק כמו שאם אתה עושה את שאילתא באמצעות ממשק אינטרנט, אתה יכול להסתכל בדף אחד, דף שני, עמוד שלוש. אתה יכול לעשות את אותו הדבר דבר באמצעות API. אתה רק צריך להיות מפורש באיך אתה עושה את זה. 

כך למשל, אם אני מחפש בשאילתה הראשונה שלי כאן, שבו אני עושה את חיפוש עבור דברים עם סופגניות בכותרת, אני יכול לומר, והגבול שווה 20, מה שאומר ש תן לי 20 הרשומות הראשון, לא 10 הראשונים, שהוא ברירת המחדל, כי אני רוצה להסתכל על 20 בכל פעם. או שאני יכול לומר, שנקבע להתחיל השווה ל- 20 וגבול שווה 20, אשר ייתן לי שלי רושם 21 עד 40. 

אז אני מניח שהדבר לקחת כאן הוא שבו אנו משתמשים בחוטי השאילתה לפרמטרים שנקבע בשאילתה. וזה מאפשר לך שליטה מה שאתה מקבל בחזרה. 

כלי נוסף שניתן להשתמש בי, - 

וזה באמת מועיל ב מבחינת לחקור את הנתונים. 

--is משהו שנקרא faceting. אז faceting הטווח הוא לא בהכרח משותף. אבל שכולכם ראית את זה לפני. אם תסתכל אמזון, למשל, ואתה עושה את חיפוש עבור סופגניות בספרים, כאן יש להם סדרה של ספרים, והם מקובצים לפי קטגוריה, ואתה מקבל את הקטגוריות השונות, וכמה ספרים בכל קטגוריה להופיע. 

אז זה בעצם פן. אתה לוקח את כל הספרים שלהם, 1,800 ספרים התואמים את הסופגניות באמזון. 12 מהם נמצאים ב קטגוריה ארוחת בוקר. 21 בבצק ואפייה, וכן הלאה וכן הלאה. 

אז זה באמת שימושי כלי לחקר התוכן בתוך הספרייה, כמו גם כי כשאתה מסתכל על פן, זה נותן לך מושג על מה מכפיף קיים, כמו איזה סוג של נושאים הפופולריים ביותר בתוך סט השאילתה שלך. וזה עוזר לך נוסע ולחקור. אז אנחנו יכולים לעשות את אותו הדבר. 

אם אנחנו רוצים להשתמש ב API ומסתכלים על היבטים, אנו מוסיפים פרמטר נוסף ל ידידנו מחרוזת השאילתה. אז היבטים שווים מופרד בפסיקים רשימה של מה שאנחנו רוצים פן ב. אז אחת מההיבטים עשוי להיות כפוף. נוסף עשוי להיות שפה. ולכן אם אנחנו רצים שאילתא ש, אנחנו get-- זה נראה פחות או יותר אותו הדבר כאן. אבל הוספנו לסוף רשימת סט של היבטים. אז יש לנו פן נקרא נושא. אז זה אומר לנו שאם אני מסתכל בגיל 80 את התוצאות שלי משאילתא הסופגנייה, 13 מהם יש לי להכפיף את ארצות הברית. שלוש יש לי סופגניות הנושא. שלוש יש את הנושא של שיקום בתי גידול לח, אשר עשוי להיות החור שלנו בסופגנייה. שניים מהם, משפחת סימפסון, וכן הלאה וכן הלאה. 

אז זה יכול להיות שימושי אם אתה רוצה לצמצם את החיפוש שלך. זה יכול לעזור לך לעשות את זה. במיוחד אם יש לך יותר מאשר, למשל, 80 תוצאות. 

בדומה לכך, אנחנו גם ביקשנו להיבטים בשפה. אז אם אנחנו מסתכלים על התוצאות שלנו, אנו רואים 76 מהם נמצאים באנגלית, בצרפתית ארבע, שתי בספרדית, שתי, אני חושב שזה לא מוגדר או לא ידוע, הולנדי ולטיני. אז אני חושב לטיני תוצאת סופגנייה, שוב, יש מה לעשות עם דברי מאפה. אבל הנה לך. 

אז זה סוג של מראה לך איך אתה יכול למשוך את התוכן חזרה מAPI רק דרך דפדפן אינטרנט, וזה נהדר. אבל זה לא באמת מה שהיית עושה בדרך כלל ישתמש בAPI לזה. אז דוגמא אחת לאופן שבי באמת יכול לעשות את זה הוא לי נכתבה תכנית סופר קטנה, אשר, שוב, עושה חיפוש הסופגנייה שלי ובוחר בני זוג שדות ומציג אותם בטבלה. אז זה מאוד אותו תוכן שרק ראיתי עם כמה שדות שלף. אז רשימה של כותרות, מיקום של מה הספר הוא על, השפה, וכן הלאה וכן הלאה. 

אז איך בעצם זה קרה, מאז אני מניח שאנחנו צריכים להסתכל על כמה קוד, is-- 

מה יש לנו כאן הוא HTML פשוט דף, שמציג את הטקסט, ברוכים הבאים לענן ספרייה ו לאחר מכן מציג טבלה של תוצאות. ויש כמובן אין תוצאות ב השולחן כאשר הדף נטען מקבל. אבל מה שאנחנו עושים הוא, קודם כל, אנחנו טוענים ספרייה שנקראת jQuery, שהוא בעצם ספריית JavaScript, שהופך אותו קל מאוד לתפעל JavaScript באופן מקורי, HTML, וליצור דפי אינטרנט, היגיון בצד הלקוח ודפי אינטרנט. 

אז מה יש לנו כאן הוא jQuery יש שיטה הנקראת קבל, אשר למעשה ילך ל כתובת אתר, אשר, במקרה זה, היא URL מחפשת המוכר הזה. אז ותקבל את התוכן מ כי כתובת אתר ולאחר מכן להפעיל פונקציה על זה. אז אמר תלכו לapi.lib.harvard / edu. לחפש את סופגניות. תן לנו 20 רשומות. ולאחר מכן להפעיל פונקציה, זה ש אני כבר נבחר, העברתו נתונים. והנתונים הוא JSON ש יש חזר מAPI. 

ואז אנחנו אומרים, בתוך ש הנתונים שיש שדה שנקרא פריט. ואם אני הולך להעיף מבט לאחור ב אחד מתוצאות אלה שנמצאים כאן, יש משהו called-- 

ובכן, זה נקרא פריט. כך שיכול להיות ש. ומה שהיא עושה זה עובר כל פריט ואז קורא עוד פונקציה על כל פריט. ופונקציה שבעצם הוא לוקח את הערך של הפריט, שהוא במהות השיא האישי ומאפשר לנו לשלוף את הכותרת, הכיסוי והשפה. 

אז אנחנו קוראים לפונקציה בכל פריט שחזרנו מAPI. ואם אתה רק תסתכל בקטע זה ממש כאן, מה שאנחנו עושים הוא אנו יוצרים מחרוזת, שהוא למעשה חלק סימון HTML סביב שולחן, עם value.title, שהוא השם של אובייקט, value.coverage, המהווה את הכיסוי, - 

ואנחנו עושים בדיקה כאן כדי לראות מי לא מוגדר ומסתיר את זה אם זה אומר לא מוגדר, בגלל שאנחנו לא באמת מעוניינים שב. 

--and אז השפה. ואז מה שאנחנו עושה הוא צירוף ש לשולחן שהוא זוהה על ידי מחרוזת זו כאן. ואיך jQuery עובד זה מה שזה אומר הוא מחפש את הטבלה עם רעיון תוצאות ולהוסיף טקסט זה לזה. וזה השולחן עם תוצאות רעיון. אז מה אתה בסופו של עם זה הוא דף כאן. ועל מנת להציג source-- ובכן, המקור הוא לא ממש מתעדכן בעת ​​שקרה. אז אתה יכול לראות את עצמו תוצאות של הטבלה כאן אף. 

אז זה רק דוגמא פשוטה של עושה שאילתא בסיסית מאוד נגד API והצגת מידע בחלק אחר יוצר, ולא עושה שום דבר מפואר מדי. עכשיו, דוגמא נוספת היא כמו יישום נכתב על ידי דוד וינברגר כהדגמה לכך, ש במהות מראה לך איך אתה יכול לכתוש את התוצאות שאתה מקבל מAPI ענן הספרייה עם, אומר, Google Books. 

והחשיבה כאן היא שאני יכול להריץ שאילתא נגד Google Books, לקבל חיפוש טקסט מלא, תקבל כמה תוצאות בחזרה, לברר מי מהם הפריטים למעשה קיים בהוליס, מערכת הספרייה, ולאחר מכן לתת לי קישורים חזרה לפריטים אלה. אז אם אני מחפש, זה היה לילה חשוך וסוער, אני לחזור חבורה של תוצאות מ- Google, ולאחר מכן תוצאה אחת שהוא קמט בזמן. ואלה הם קישורים לספרים שקיימות במערכת ספריית אוניברסיטת הרווארד. 

אז אני מניח שהנקודה כאן היא לא עד כדי כך שיכול או לא יכול זה להיות הדרך שאתה רוצה כדי לחפש בספרייה, אבל זה שונה לגמרי דרך שלא היה זמין לך לפני, כמוך לא הייתה לו דרך לעשות טקסט מלא חיפושים על ספרים שאפילו היו חלק ממערכת ספריית אוניברסיטת הרווארד. אז עכשיו זו דרך שאתה יכול לעשות את זה. ואתה יכול להציג אותם ב כל פורמט שאתה רוצה. אז הנקודה כאן היא, בעצם, אנחנו פותחים דרכים חדשות לאנשים לעבוד עם נתונים. 

פיסת ענן ספרייה נוספת היא ש זה עוזר לחשוף חלק מנתוני השימוש שהספרייה יש. אז אם אתה הולך לספרייה, ושאתה מחפש ספרים, אתה לא בהכרח למעשה יש רעיון, לכל הפריטים ב נושא מסוים, מה ש אנשים ב קהילה, בין אם זה מוגדר כהרווארד או בכיתה שלך למדינה או, מה יש להם מצאו שימושי ביותר? והספרייה בעצם יש המון מידע על מה ש שימושי ביותר, כי אם הרבה אנשים בודקים את ספר, זה אומר לך משהו. בוודאי הייתה סיבה כלשהי הם רוצים לבדוק את זה. הרבה אנשים לשים אותו על מילואים. 

אם זה ברשימת העתודה להרבה של כיתות, שאומר לך משהו. אם חברי הסגל בודקים את זה יוצא המון לסטודנטים לתואר הראשון הם לא, זה אומר לי משהו. להיפך, שגם אומר לך משהו. אז זה יהיה ממש מעניין לשים את המידע שבחוץ ולתת לי אנשים להשתמש בו כדי לעזור להם למצוא עובד בתוך מערכת הספרייה. הצד השני של המטבע הזה הוא יש כמה רצינית פרטיות חששות כי אחד עיקרי ליבה של הספרייה הוא שאנחנו לא הולכים להיות אומרים לי אנשים מה שאנשים אחרים קוראים. וגם אם אתה אומר את זה הספר בדק ארבע פעמים בחודש מסוים, שיכול לשמש כדי לקשר בחזרה לבפרט אדם על ידי נתונים דה-anonymizing ולגלות שבדק את זה. אז הדרך שאנחנו יכולים avoid-- אופן שבו אנחנו יכולים לנסות לחלץ כמה אותות מכל המידע מבלי לפגוע חששות בנושאי הפרטיות של אף אחד הוא למעשה אנחנו מסתכלים על 10 שנים של נתוני שימוש, - 

אז זה על פני תקופה ארוכה של זמן. 

--and אומר, בסדר, בואו נראה איך פעמים רבות עבודה זו הייתה בשימוש, ועל ידי שבמשך תקופה זו זמן, ולאחר מכן בעצם להחזיר מספר, שאנו מכנים ציון ערימה, אשר בעצם מייצג כמה זה היה בשימוש. וnumber-- ש הרבה חישובים שונים ללכת למספר הזה. --but זה קשה מאוד מדד שנותן לך קצת מושג איך קהילה עשויה להעריך שעבודה. 

וכך נוסף גם סוג של יותר בשר החוצה יישום שמנצל זה משהו Stacklife נקרא, שהוא למעשה זמין דרך הרווארד הראשית פורטל ספרייה. אז אתה הולך לlibrary.harvard.edu. אתה תראה מספר שונה דרכים שונות לחיפוש בספרייה. ואחד מהם נקרא Stacklife. 

ואת זה הוא יישום ש גולש בתוכן של הספרייה, אבל בנוי לחלוטין על גבי ממשקי API אלה. כך שאין דברים מיוחדים קורה מאחורי הקלעים. אין גישה ל נתונים שאין לך. זה שימוש בממשקים API כדי לספק לך עם גלישה שונה לחלוטין ניסיון. 

אז אם אני מחפש את אליס בארץ הפלאות במקרה זה, אני מקבל תוצאה שנראית כמו זה, וזה די much-- 

זה מאוד דומה לכל חיפוש אחר אתה יכול לעשות, מלבד במקרה זה אנחנו דירוג הפריטים על ידי stackscore, אשר נותנת לך קצת מושג איך פופולרי אלה פריטים היו בתוך הקהילה. וכך באופן ברור, בארץ הפלאות אליס על ידי וולט דיסני הוא פופולרי ביותר. אבל אתה גם יכול לראות את ארבעה העליונים כאן הם אלה שאתה לא יכול actually-- 

דברים שנמצאים בשימוש ביותר, אבל אתה לא יכול באופן מיידי להתחבר עם אליס בארץ הפלאות. אז ידידנו הוותיק המוער אליס היא כאן. אז אני יכול להעיף מבט בזה. ועכשיו מה שאני מחפש ביסודו של דבר נקבע של-- אני יכול להיות מוער אליס ממש כאן. יש לי מידע על זה. ויש לי גם stackscore של, במקרה זה, 26. וזה אומר לי סוג של בערך איך הגיע לזה stackscore, כמו שבדק את זה, כמו איך פעמים רבות זה היה בדק, כמו סגל או undergrads, איך עותקים רבים יש הספרייה, וכן הלאה וכן הלאה. 

ואתה גם יכול, מעניין מספיק כאן, לגלוש בערימות כמעט. כך שהנתונים כאן, זו הוא מראה לך סוג של ייצוג וירטואלי של מה כוח המדף נראה כמו אם היית לוקח כל אחזקותיה של הספרייה ולשים אותם ביחד על מדף אחד אינסופי. והדבר נחמד הוא שאנחנו can-- 

קודם כל, מטה-נתונים על ספרים אלה לעתים קרובות אומר לך כאשר פורסם. זה אומר לך כמה דפים יש לו. זה יכול להגיד לך את הממדים. אז אתה יכול לראות שהוא בא לידי ביטוי כאן במונחים של הגודל של הספרים. 

ואז אנחנו יכולים להשתמש ב מחסנית ציון כדי להדגיש הספרים שיש להם ציונים גבוהים יותר ערימה. אז אם זה כהה יותר, זה אומר ש, ככל הנראה, הוא משמש בתדירות גבוהה יותר. אז במקרה הזה, אני הולך לנחש שזה היא הגרסה של אליס בארץ הפלאות שמאוד נפוץ ורוב גישה, הספרייה יש רוב העותקים של. אז אם אתה מחפש לאליס בארץ הפלאות, זה יכול להיות מקום טוב להתחיל בו. 

ולאחר מכן גם כאן אתה יכול לקשר את ל, אומר, אמזון לרכוש את הספר, וכן הלאה וכן הלאה. הנקודה כאן, שוב, לא כל כך הרבה שזה היא הדרך הטובה ביותר כדי לגלוש בספרייה או את הכלי הנכון לכל אירוע. אבל זה בדרך אחרת לעשות את זה. ועל ידי ביצוע נתונים זמין דרך ה- API, ש עשוי מאובניים בניין פשוט מאוד, המאפשר לך לחפש התוכן, אתה יכול לבנות משהו כי ככה יכול להיות יוצא דופן חשוב לאנשים מסוימים. 

אז זה סוג של, כמו שאני רוצה לומר באמת על מה הוא API ומה שהוא חושף, יש כל חבורה של דברים מאחורי הקלעים, ש אני רק הולך לגעת בבקצרה רק בגלל שזה סוג של מגיע בשלב זה מזווית שונה לחלוטין ב מונחים של איך עושה דבר כזה לקבל הכניס לתוך המקום? 

אז API הוא סטנדרטי ממשק לכל התוכן הזה. אבל כדי לקבל אותו שם, דבר הראשון שהיינו צריך לעשות היה למשוך יחד מידע ספרים ותמונות ועזרי מציאת, האוסף מסמך מהמערכות שונות של אוניברסיטת הרווארד. א ', VIA, וOASIS הם השמות של המערכות. והם בעצם נכנסו ל צינור, צינור עיבוד. 

אז קודם כל, אנחנו מקבלים יצוא קבצים מכל המערכות הללו. לפצל אותם לפריטים בודדים. אז יש לנו קובץ, שהוא ג 'יגה, שבו יש מיליון תקליטים בזה. אז אנחנו לפצל אותו לפריטים בודדים. לאחר מכן, עבור כל פריט, נוכל להמיר אותו לMODS, כי חלק מאלה הם MODS מקורי, חלקם לא. אז אנחנו מקבלים את כולם ל להיות באותה המתכונת. אז יש שונים צעדי העשרה, בי אנו מוסיפים מידע נוסף לנתונים ממה שהיה זמין בספרייה. אז אנחנו צריכים להוסיף, קודם כל יש לנו את מה שספריות להחזיק אותו. אנחנו עוברים שלב של חישוב stackscore. אנחנו עוברים שלב נוסף של הוספת metadata יותר במונחים של מה שאנשים אוספים ייתכן שהוסיפו זה-- 

אנשים יוצרים אוספים של פריטים. מה אוספים זה שייך? איך יש לי אנשים מתויגים תוכן זה בעבר? אז אתה לסנן, ואתה מגביל הרשומות כי, כפי שציינתי, יש כמה תקליטים ש, בגלל סיבות זכויות יוצרים, אנחנו לא יכולים להציג. ואז אנחנו מעלים אותם למשהו שנקרא Solr, שאינו שגיאת כתיב, אבל הוא השם של פיסת התוכנה שעושה אינדקס חיפוש, ש מניע את כל החיפוש מאחורי API. ואז הוא הופך להיות זמין ל API, והאנשים יכולים להשתמש בו. 

אז זה כמו למדי תהליך פשוט. אחד המעניין דברים על זה הוא שיש לנו עסק עם 13 מ'רשומות ואנחנו הולכים להיות התמודדות או יותר. ואנחנו רוצים להיות מסוגלים להתמודד עם אלה באופן יחסי מהיר. זה לוקח זמן ארוך לעבד 13 מ'רשומות. 

אז איך צינור זה הקים הוא שאתה can-- אני מניח שהיתרון של צינור, הבעיה שאנחנו מנסה לפתור כאן, הוא ש כל השינויים, כל השלבים הבאים בזה הצינור ניתן להפרדה. אין תלות. אם אתה עיבוד שיאו של ספר אחד, אין תלות ב שבין ספר אחר. 

אז מה אנחנו יכולים לעשות הוא בעצם, בכל שלב בצנרת, אנחנו שמים אותו לתוך תור בענן. יצאתי לי להיות בשירותי האינטרנט של אמזון. אז יש רשימה של, אומר, 10,000 פריטים ש צריך להיות מנורמל ו מרה לפורמט MODS. ואנחנו להסתובב שרתים רבים כפי שאנו רוצים, אולי 10 שרתים. וכל אחד מהשרתים האלה פשוט יושב שם, נראה שבתור, רואה שיש אחד שצריך להיות מעובד, מושך אותו מהתור, מעבד אותו, ומקלות זה בתור הבא. 

ואז מה שמאפשר לנו לעשות הוא להחיל, במהות, ככל חומרה כפי שאנו רוצים זה בעיה לתקופה קצרה מאוד של זמן כדי לעבד את הנתונים במהירות אפשרי, שזה משהו שרק, עכשיו בעולם של מחשוב ענן אנחנו יכולים שרתי הוראה במהות באופן מיידי, הוא ששימושי. אז אנחנו לא צריכים שנהיה לי שרת ענק יושב סביב כל הזמן לעשות את העיבוד שעלול לקרות רק פעם בשבוע. 

אז זה בעיקר זה. יש תיעוד זמין לAPI פריט ספריית הענן בכתובת זו, אשר תהיה יהיה זמין מאוחר יותר. ובבקשה תלכו להעיף מבט ב שלו כדי לראות אם יש משהו, יש לכם רעיונות. לשחק עם זה. להתעסק. ואני מקווה שאתה יכול לבוא עם משהו גדול. תודה לך.