לוקאַס פרעיטאַס: היי. באַגריסן אַלעמען. מייַן נאָמען איז לוקאַס פרעיטאַס. איך בין אַ יינגער אין [ינאָדאַבאַל] געלערנט קאָמפּיוטער וויסנשאַפֿט מיט אַ פאָקוס אין קאַמפּיוטיישאַנאַל לינגוויסטיק. אַזוי מיין צווייטיק איז אין שפּראַך און לינגגוויסטיק טעאָריע. איך בין טאַקע יקסייטאַד צו לערנען איר גייז אַ קליין ביסל וועגן די פעלד. עס ס אַ זייער יקסייטינג געגנט צו לערנען. אויך מיט אַ פּלאַץ פון פּאָטענציעל פֿאַר דער צוקונפֿט. אַזוי, איך בין טאַקע יקסייטאַד אַז איר גייז זענען קאַנסידערינג פראיעקטן אין קאַמפּיוטיישאַנאַל לינגוויסטיק. און איך וועט זיין מער ווי צופרידן צו רעקאָמענדירן קיין פון איר אויב איר באַשליסן צו נאָכגיין איינער פון די. אַזוי ערשטער פון אַלע וואָס זענען קאַמפּיוטיישאַנאַל לינגוויסטיק? אַזוי קאַמפּיוטיישאַנאַל לינגוויסטיק איז די ינטערסעקשאַן צווישן לינגוויסטיק און קאָמפּיוטער וויסנשאַפֿט. אַזוי, וואָס איז לינגוויסטיק? וואָס איז קאָמפּיוטער וויסנשאַפֿט? גוט פון לינגוויסטיק, וואָס מיר נעמען זענען די שפּראַכן. אַזוי לינגוויסטיק איז פאקטיש די לערנען פון נאַטירלעך שפּראַך אין אַלגעמיין. אַזוי נאַטירלעך שפּראַך - מיר רעדן וועגן שפּראַך אַז מיר פאקטיש נוצן צו יבערגעבן מיט יעדער אנדערער. אַזוי מיר ניטאָ ניט פּונקט גערעדט וועגן C אָדער דזשאַוואַ. מיר ניטאָ גערעדט מער וועגן ענגליש און כינעזיש און אנדערע שפּראַכן וואָס מיר נוצן צו יבערגעבן מיט יעדער אנדערער. די טשאַלאַנדזשינג זאַך וועגן אַז איז אַז רעכט איצט מיר האָבן כּמעט 7000 שפּראַכן אין דער וועלט. אַזוי עס זענען גאַנץ אַ הויך פאַרשיידנקייַט פון שפּראַכן אַז מיר קענען לערנען. און דעמאָלט איר טראַכטן אַז עס ס מיסטאָמע זייער שווער צו טאָן, פֿאַר בייַשפּיל, איבערזעצונג פון איין שפּראַך צו די אנדערע, קאָנסידערינג אַז איר האָבן כּמעט 7,000 פון זיי. אַזוי, אויב איר טראַכטן פון טאן איבערזעצונג פון איין שפּראַך צו די אנדערע איר האָבן כּמעט מער ווי אַ מיליאָן פאַרשידענע קאַמבאַניישאַנז אַז איר קענען האָבן פון שפּראַך צו שפּראַך. אַזוי עס ס טאַקע טשאַלאַנדזשינג צו טאָן עטלעכע טיפּ פון בייַשפּיל איבערזעצונג סיסטעם פֿאַר יעדער איין שפּראַך. אַזוי, לינגוויסטיק טריץ מיט סינטאַקס, סימאַנטיקס, פּראַגמאַטיקס. איר גייז טאָן ניט פּונקט דאַרפֿן צו וויסן וואָס זענען זיי זענען. אבער די זייער טשיקאַווע זאַך איז אַז ווי אַ געבוירן רעדנער, ווען איר לערנען שפּראַך ווי קינד, איר פאקטיש לערנען אַלע פון ​​די זאכן - סינטאַקס סימאַנטיקס און פּראַגמאַטיקס - דורך זיך. און קיינער האט צו לערנען איר סינטאַקס פֿאַר איר צו פֿאַרשטיין ווי זאצן זענען סטראַקטשערד. אַזוי, עס ס טאַקע טשיקאַווע ווייַל עס ס עפּעס אַז קומט זייער ינטויטיוולי. און וואָס זענען איר גענומען פון די קאָמפּיוטער וויסנשאַפֿט? נו, די מערסט וויכטיק זאַך אַז מיר האָבן אין קאָמפּיוטער וויסנשאַפֿט איז ערשטער פון אַלע, קינסטלעך סייכל און מאַשין לערנען. אַזוי, וואָס מיר ניטאָ טריינג צו טאן קאַמפּיוטיישאַנאַל לינגוויסטיק איז לערנען דיין קאָמפּיוטער ווי צו טאָן עפּעס מיט שפּראַך. אַזוי, למשל, אין מאַשין איבערזעצונג. איך בין טריינג צו לערנען מיין קאָמפּיוטער ווי צו וויסן ווי צו יבערגאַנג פון איין שפּראַך צו די אנדערע. אַזוי, בייסיקלי ווי לערנען אַ קאָמפּיוטער צוויי שפּראַכן. אויב איך טאָן נאַטירלעך שפּראַך פּראַסעסינג, וואָס איז די קאַסטן פֿאַר בייַשפּיל פון פאַסעבאָאָק ס גראַף זוכן, איר לערנען דיין קאָמפּיוטער ווי צו פֿאַרשטיין קוויריז געזונט. אַזוי, אויב איר זאָגן "די פאָטאָס פון מיין פריינט. "פאַסעבאָאָק טוט ניט מייַכל אַז ווי אַ גאַנץ שטריקל וואָס האט נאָר אַ בינטל פון ווערטער. עס פאקטיש פארשטייט די באַציונג צווישן "פאָטאָס" און "מיין פריינט" און פארשטייט אַז "פאָטאָס" זענען פאַרמאָג פון "מיין פריינט." אַזוי, אַז ס טייל פון, למשל, נאַטירלעך שפּראַך פּראַסעסינג. עס ס טריינג צו פֿאַרשטיין וואָס איז די באַציונג צווישן די ווערטער אין אַ זאַץ. און די גרויס קשיא איז, קענען איר לערנען אַ קאָמפּיוטער ווי צו רעדן אַ שפּראַך אין אַלגעמיין? וואָס איז אַ זייער טשיקאַווע קשיא צו טראַכטן, ווי אויב אפֿשר אין די צוקונפֿט, איר ניטאָ געגאנגען צו קענען צו רעדן צו אייער טרייַבל. טיפּ פון ווי וואָס מיר טאָן מיט סירי אָבער עפּעס מער ווי, איר קענען פאקטיש זאָגן וועלכער איר ווילן און די טעלעפאָנירן איז געגאנגען צו פֿאַרשטיין אַלץ. און עס קענען האָבן נאָכפאָלגן אַרויף שאלות און האַלטן גערעדט. אַז ס עפּעס טאַקע יקסייטינג, אין מיין מיינונג. אַזוי, עפּעס וועגן נאַטירלעך שפּראַכן. עפּעס טאַקע טשיקאַווע וועגן נאַטירלעך שפּראַכן איז אַז, און דעם איז קרעדיט צו מיין לינגוויסטיק פּראָפעסאָר, מאַריאַ פּאַלינסקי. זי גיט אַ בייַשפּיל און איך טראַכטן עס ס טאַקע טשיקאַווע. ווייַל מיר לערנען שפּראַך פון ווען מיר ניטאָ געבוירן און דעריבער אונדזער געבוירן שפּראַך טיפּ פון וואקסט אויף אונדז. און בייסיקלי איר לערנען שפּראַך פון מינימאַל אַרייַנשרייַב, רעכט? איר ניטאָ פּונקט געטינג אַרייַנשרייַב פון דיין עלטערן פון וואָס דיין שפּראַך סאָונדס ווי און איר נאָר לערן עס. אַזוי, עס ס טשיקאַווע ווייַל אויב איר קוק אין די זאצן, פֿאַר בייַשפּיל. איר קוק, "מר לייגט אויף אַ מאַנטל יעדער צייַט זי בלעטער דעם הויז. " אין דעם פאַל, עס ס מעגלעך צו האָבן די וואָרט "זי" אָפּשיקן צו מרים, רעכט? איר קענען זאָגן "מרים לייגט אויף אַ מאַנטל יעדער צייַט מרים בלעטער די הויז. "אַזוי אַז ס פייַן. אבער דעמאָלט אויב איר קוק בייַ די זאַץ "זי לייגט אויף אַ מאַנטל יעדער צייַט מרים בלעטער די הויז. "איר וויסן עס ס אוממעגלעך צו זאָגן אַז "זי" איז ריפערינג צו מר. עס ס קיין וועג פון זאגן אַז "מר לייגט אויף אַ מאַנטל יעדער צייַט מרים בלעטער די הויז. "אזוי עס ס טשיקאַווע ווייַל דעם איז דער מין פון ינטוישאַן אַז יעדער געבוירן רעדנער האט. און קיינער איז געלערנט אַז דעם איז די וועג אַז די סינטאַקס אַרבעט. און אַז איר קענען נאָר האָבן דעם "זי" ריפערינג צו מרים אין דעם ערשטער פאַל, און פאקטיש אין דעם אנדערע אויך, אָבער ניט אין דעם איין. אבער אַלעמען טיפּ פון געץ צו דער זעלביקער ענטפֿערן. אַלעמען אַגריז אויף אַז. אַזוי עס ס טאַקע טשיקאַווע ווי כאָטש איר טאָן ניט וויסן אַלע די כּללים אין דיין שפּראַך איר מין פון פאַרשטיין ווי די שפּראַך אַרבעט. אַזוי די טשיקאַווע זאַך וועגן נאַטירלעך שפּראַך איז אַז איר טאָן ניט האָבן צו וויסן קיין סינטאַקס צו וויסן אויב אַ זאַץ איז גראַמאַטאַקאַל אָדער ונגראַממאַטיקאַל פֿאַר רובֿ קאַסעס. וואָס מאכט איר טראַכטן אַז אפֿשר וואָס כאַפּאַנז איז אַז דורך דיין לעבן, איר נאָר האַלטן געטינג מער און מער זאצן דערציילט צו איר. און דעמאָלט איר האַלטן מעמערייזינג אַלע פון ​​די זאצן. און דעמאָלט ווען עמעצער דערציילט איר עפּעס, איר הערן אַז זאַץ און איר קוק אין דיין וואָקאַבולאַרי פון זאצן און זען אויב אַז זאַץ איז עס. און אויב עס איז עס איר זאָגן עס ס גראַמאַטאַקאַל. אויב עס ס ניט איר זאָגן עס ס ונגראַממאַטיקאַל. אַזוי, אין אַז פאַל, איר וואָלט זאָגן, טאַקע, אַזוי איר האָבן אַ ריזיק רשימה פון אַלע מעגלעך זאצן. און דעמאָלט ווען איר הערן אַ זאַץ, איר וויסן אויב עס ס גראַמאַטאַקאַל אָדער ניט באזירט אויף אַז. די זאַך איז אַז אויב איר קוק בייַ אַ זאַץ, למשל, "די פינף-כעדאַד קס50 טפס האַלב די בלינד ספּרוט ניצן אַ דאַפּאַ באַפאַלן. "עס ס באשטימט ניט אַ זאַץ אַז איר געהערט פריער. אבער אין דער זעלביקער צייַט איר וויסן עס ס שיין פיל גראַמאַטאַקאַל, רעכט? עס זענען ניט גראַמאַטיקאַל מיסטייקס און איר קענען זאָגן אַז עס ס אַ מעגלעך זאַץ. אַזוי עס מאכט אונדז טראַכטן אַז פאקטיש די וועג אַז מיר לערנען שפּראַך איז ניט בלויז דורך בעת אַ ריזיק דאַטאַבאַסע פון ​​מעגלעך ווערטער אָדער זאצן, אָבער מער פון פארשטאנד די באַציונג צווישן ווערטער אין די זאצן. טוט וואָס מאַכן זינען? אַזוי, דעמאָלט דער קשיא איז, קענען קאָמפּיוטערס לערנען שפּראַכן? קענען מיר לערנען שפּראַך צו קאָמפּיוטערס? אַזוי, לאָזן ס טראַכטן פון די חילוק צווישן אַ געבוירענער רעדנער פון אַ שפּראַך און אַ קאָמפּיוטער. אַזוי, וואָס כאַפּאַנז צו די רעדנער? נו, די געבוירן רעדנער לערנז אַ שפּראַך פון ויסשטעלן צו עס. וסואַללי זייַן פרי קינדשאַפט יאָרן. אַזוי, בייסיקלי, איר נאָר האָבן אַ בייבי, און איר האַלטן גערעדט צו עס, און עס נאָר לערנז ווי צו רעדן די שפּראַך, רעכט? אַזוי, איר ניטאָ בייסיקלי געבן אַרייַנשרייַב צו די בייבי. אַזוי, דעמאָלט איר קענען טייַנען אַז אַ קאָמפּיוטער קענען טאָן די זעלבע זאַך, רעכט? איר קענען נאָר געבן שפּראַך ווי אַרייַנשרייַב צו די קאָמפּיוטער. ווי פֿאַר בייַשפּיל אַ בינטל פון טעקעס וואָס האָבן ספר אין ענגליש. אפֿשר אַז ס איין וועג אַז איר קען עפשער לערנען אַ קאָמפּיוטער ענגליש, רעכט? און אין פאַקט, אויב איר טראַכטן וועגן אים, עס נעמט איר אפֿשר אַ פּאָר טעג צו לייענען אַ בוך. פֿאַר אַ קאָמפּיוטער עס נעמט אַ רגע צו קוקן בייַ אַלע די ווערטער אין אַ בוך. אַזוי איר קענען טראַכטן אַז קען זיין פּונקט דעם אַרגומענט פון אַרייַנשרייַב פון אַרום איר, אַז ס ניט גענוג צו זאָגן אַז אַז ס עפּעס אַז בלויז יומאַנז קענען טאָן. איר קענען טראַכטן קאָמפּיוטערס אויך קענען באַקומען אַרייַנשרייַב. די רגע זאַך איז אַז געבוירן ספּיקערז אויך האָבן אַ מאַרך אַז האט שפּראַך לערנען פיייקייַט. אבער אויב איר טראַכטן וועגן אים, אַ מאַרך איז אַ האַרט זאַך. ווען איר זענען געבוירן, עס ס שוין שטעלן - דעם איז דיין מאַרך. און ווי איר וואַקסן אַרויף, איר נאָר באַקומען מער אַרייַנשרייַב פון שפּראַך און אפֿשר נוטריאַנץ און אנדערע שטאָפּן. אבער שיין פיל דיין מאַרך איז אַ האַרט זאַך. אַזוי איר קענען זאָגן, נו, אפֿשר איר קענען בויען אַ קאָמפּיוטער וואָס האט אַ בינטל פון פאַנגקשאַנז און מעטהאָדס אַז פּונקט נאָכקרימען שפּראַך לערנען פיייקייַט. אַזוי אין אַז טאָלק, איר געקענט זאָגן, נו, איך קענען האָבן אַ קאָמפּיוטער וואָס האט אַלע די דאס איך דאַרפֿן צו לערנען שפּראַך. און די לעצטע זאַך איז אַז אַ געבוירענער רעדנער לערנז פון פּראָצעס און טעות. אַזוי בייסיקלי אן אנדער וויכטיק זאַך אין שפּראַך לערנען איז אַז איר מין פון לערנען זאכן דורך מאכן גענעראַליזאַטיאָנס פון וואָס איר הערן. אַזוי ווי איר זענען גראָוינג אַרויף איר לערנען אַז עטלעכע ווערטער זענען מער ווי נאַונז, עטלעכע אנדערע אָנעס זענען אַדדזשעקטיוועס. און איר טאָן ניט האָבן צו האָבן קיין וויסן פון לינגוויסטיק צו פֿאַרשטיין אַז. אָבער איר נאָר וויסן עס ס עטלעכע ווערטער זענען פּאַזישאַנד אין עטלעכע טייל פון די זאַץ און עטלעכע אנדערע אין אנדערע טיילן פון דער זאַץ. און אַז ווען איר טאָן עפּעס וואס איז ווי אַ זאַץ וואס איז ניט ריכטיק - אפֿשר ווייַל פון אַ איבער דזשענראַליזיישאַן פֿאַר בייַשפּיל. אפֿשר ווען איר ניטאָ גראָוינג אַרויף, איר באַמערקן אַז די מערצאָל איז יוזשאַוואַלי געשאפן דורך פּאַטינג אַ ז אין די סוף פון די וואָרט. און דעמאָלט איר פּרובירן צו טאָן די מערצאָל פון "הירש" ווי "דעערס" אָדער "צאָן" ווי "טאָאָטהס." אַזוי דעמאָלט דיין עלטערן אָדער עמעצער קערעקץ איר און זאגט, ניט, די PLURAL פון "הירש" איז "הירש," און די PLURAL פון "צאָן" איז "ציין." און דעמאָלט איר לערנען די זאכן. אַזוי איר לערנען פון פּראָצעס און טעות. אבער איר קענען אויך טאָן אַז מיט אַ קאָמפּיוטער. איר קענען האָבן עפּעס גערופן ריינפאָרסמאַנט לערנען. וואָס איז בייסיקלי ווי געבן אַ קאָמפּיוטער אַ באַלוינונג ווען עס טוט עפּעס ריכטיק. און געבן עס די פאַרקערט פון אַ באַלוינונג און ווען עס טוט עפּעס פאַלש. איר קענען פאקטיש זען אַז אויב איר גיין צו Google זעץ און איר פּרובירן צו איבערזעצן אַ זאַץ, עס פרעגט איר פֿאַר באַמערקונגען. אַזוי אויב איר זאָגן, טאַקע, עס ס אַ בעסער איבערזעצונג פֿאַר דעם זאַץ. איר קענען טיפּ עס אַרויף און דעמאָלט אויב אַ פּלאַץ פון מענטשן האַלטן זאגן אַז איז אַ בעסער איבערזעצונג, עס פּונקט לערנז אַז עס זאָל נוצן אַז איבערזעצונג אַנשטאָט פון דער איינער עס איז געווען געבן. אַזוי, עס ס אַ זייער פילאַסאַפיקאַל קשיא צו זען אויב קאָמפּיוטערס זענען געגאנגען צו זיין קענען צו רעדן אָדער ניט אין דער צוקונפֿט. אבער איך האָבן הויך האפענונגען אַז זיי קענען נאָר באזירט אויף די טענות. אבער עס ס נאָר מער פון אַ פילאַסאַפיקאַל קשיא. אַזוי בשעת קאָמפּיוטערס נאָך קענען ניט רעדן, וואָס זענען די זאכן אַז מיר קענען טאָן? עטלעכע טאַקע קיל זאכן זענען דאַטן קלאַסאַפאַקיישאַן. אַזוי, למשל, איר גייז וויסן אַז email באַדינונגען טאָן, פֿאַר למשל, ספּאַם פֿילטריר. אַזוי ווען איר באַקומען ספּאַם, עס פרוווט צו פילטער צו אנדערן קאַסטן. אַזוי ווי טוט עס טאָן אַז? עס ס ניט ווי די קאָמפּיוטער נאָר ווייסט וואָס email ווענדט זענען שיקט ספּאַם. אַזוי עס ס מער באזירט אויף די צופרידן פון דער אָנזאָג, אָדער אפֿשר דעם טיטל, אָדער אפֿשר עטלעכע מוסטער אַז איר האָבן. אַזוי, בייסיקלי, וואָס איר קענען טאָן איז באַקומען אַ פּלאַץ פון דאַטן פון ימיילז אַז זענען ספּאַם, ימיילז אַז ביסט נישט ספּאַם, און לערן וואָס טיפּ פון פּאַטערנז איר האָבן אין די אָנעס אַז זענען ספּאַם. און דעם איז טייל פון קאַמפּיוטיישאַנאַל לינגוויסטיק. עס ס גערופן דאַטן קלאַסאַפאַקיישאַן. און מיר ניטאָ אַקטשאַוואַלי געגאנגען צו זען אַ בייַשפּיל פון אַז אין דער ווייַטער סליידז. די רגע זאַך איז נאַטירלעך שפּראַך פּראַסעסינג וואָס איז די זאַך אַז די גראַפיק זוכן איז טאן פון לעטינג איר שרייַבן אַ זאַץ. און עס טראַסץ איר פֿאַרשטיין וואָס איז דער טייַטש און גיט איר אַ בעסער רעזולטאַט. פאקטיש, אויב איר גיין צו גוגל אָדער בינג און איר זוכן עפּעס ווי לאַדי גאַגאַ ס הייך, איר ניטאָ פאקטיש געגאנגען צו באַקומען 5 '1 "אַנשטאָט פון אינפֿאָרמאַציע פון איר ווייַל עס פאקטיש פארשטייט וואָס איר ניטאָ גערעדט וועגן. אַזוי אַז ס טייל פון נאַטירלעך שפּראַך פּראַסעסינג. אָדער אויך ווען איר ניטאָ ניצן סירי, ערשטער איר האָבן אַ אַלגערידאַם אַז פרוווט צו איבערזעצן וואָס איר ניטאָ זאגן אין ווערטער, אין טעקסט. און דעמאָלט עס פרוווט צו זעץ אַז אין טייַטש. אַזוי אַז ס אַלע טייל פון נאַטירלעך שפּראַך פּראַסעסינג. דעמאָלט איר האָבן מאַשין איבערזעצונג - וואָס איז פאקטיש איינער פון מיין פאַוואָריטעס - וואָס איז נאָר איבערזעצן פון אַ שפּראַך צו אנדערן. אַזוי איר קענען טראַכטן אַז ווען איר ניטאָ טאן מאַשין איבערזעצונג, איר האָבן ינפאַנאַט פּאַסאַבילאַטיז פון זאצן. אַזוי עס ס קיין וועג פון פּונקט סטאָרינג יעדער איין איבערזעצונג. אַזוי איר האָבן צו קומען אַרויף מיט טשיקאַווע אַלגערידאַמז צו קענען צו איבערזעצן יעדער איין זאַץ אין עטלעכע וועג. איר גייז האָבן קיין שאלות אַזוי ווייַט? ניט קיין? גוט. אַזוי וואָס זענען מיר געגאנגען צו זען הייַנט? ערשטער פון אַלע, איך בין געגאנגען צו רעדן וועגן די קלאַסאַפאַקיישאַן פּראָבלעם. אַזוי דער איינער אַז איך איז געווען זאגן וועגן ספּאַם. וואָס איך בין געגאנגען צו טאָן איז, געגעבן ליריקס צו אַ ליד, קענען איר פּרובירן צו רעכענען אויס מיט הויך מאַשמאָעס וואס איז דער זינגער? זאל ס זאָגן אַז איך האָבן לידער פון לאַדי גאַגאַ און קאַטי פּערי, אויב איך געבן איר אַ נייַ ליד, קענען איר געשטאַלט אויס אויב עס ס קאַטי פּערי אָדער לאַדי גאַגאַ? די רגע איינער, איך בין נאָר געגאנגען צו רעדן וועגן די סעגמאַנטיישאַן פּראָבלעם. אַזוי איך טאָן ניט וויסן אויב איר גייז וויסן, אָבער כינעזיש, יאַפּאַניש, אנדערע מזרח אַסיאַן שפּראַכן, און אנדערע שפּראַכן אין אַלגעמיין, טאָן ניט האָבן ספּייסאַז צווישן ווערטער. און דעריבער אויב איר טראַכטן וועגן די וועג אַז דיין קאָמפּיוטער טיפּ פון פרוווט צו פֿאַרשטיין נאַטירלעך שפּראַך פּראַסעסינג, עס קוקט בייַ די ווערטער און פרוווט צו פֿאַרשטיין די באַציונגען צווישן זיי, רעכט? אבער דעמאָלט אויב איר האָבן כינעזיש, און איר האָבן נול ספּייסאַז, עס ס טאַקע שווער צו געפינען אויס וואָס איז די באַציונג צווישן ווערטער, ווייַל זיי טאָן ניט האָבן קיין ווערטער אין ערשטער. אַזוי איר האָבן צו טאָן עפּעס גערופן סעגמאַנטיישאַן וואָס נאָר מיטל פּאַטינג ספּייסאַז צווישן וואָס מיר 'ד רופן ווערטער אין די שפּראַכן. מאַכן זינען? און דעמאָלט מיר ניטאָ געגאנגען צו רעדן וועגן סינטאַקס. אַזוי נאָר אַ קליין ביסל וועגן נאַטירלעך שפּראַך פּראַסעסינג. עס ס געגאנגען צו זיין נאָר אַ איבערבליק. אַזוי הייַנט, בייסיקלי וואָס איך ווילן צו טאָן איז געבן איר גויס אַ קליין ביסל פון אַ ין פון וואָס זענען די פּאַסאַבילאַטיז אַז איר קענען טאָן מיט קאַמפּיוטיישאַנאַל לינגוויסטיק. און דעמאָלט איר קענען זען וואָס איר טראַכטן איז קיל צווישן די זאכן. און אפֿשר איר קענען טראַכטן פון אַ פּרויעקט און קומען רעדן צו מיר. און איך קענען געבן איר עצה אויף ווי צו מאַכשער עס. אַזוי סינטאַקס איז געגאנגען צו זיין אַ קליין ביסל וועגן גראַף זוכן און מאַשין איבערזעצונג. איך בין נאָר געגאנגען צו געבן אַ בייַשפּיל פון ווי איר געקענט, למשל, איבערזעצן עפּעס פון פּאָרטוגעזיש צו ענגליש. סאָונדס גוט? אַזוי ערשטער, די קלאַסאַפאַקיישאַן פּראָבלעם. איך וועט זאָגן אַז דעם טייל פון די סעמינאַר איז געגאנגען צו זיין דעם רובֿ טשאַלאַנדזשינג איינער נאָר ווייַל עס ס געגאנגען צו זיין עטלעכע קאָודינג. אבער עס ס געגאנגען צו זיין פּיטהאָן. איך וויסן איר גייז טאָן ניט וויסן פּיטהאָן, אַזוי איך בין נאָר געגאנגען צו דערקלערן אויף די הויך מדרגה וואָס איך בין טאן. און איר טאָן ניט האָבן צו טאַקע זאָרגן אויך פיל וועגן דעם סינטאַקס ווייַל אַז ס עפּעס איר גייז קענען לערנען. גוט? סאָונדס גוט. אַזוי וואָס איז די קלאַסאַפאַקיישאַן פּראָבלעם? אַזוי איר ניטאָ געגעבן עטלעכע ליריקס צו אַ ליד, און איר ווילן צו טרעפן וואס איז געזאַנג עס. און דעם קענען זיין פֿאַר קיין טיפּ פון אנדערע פּראָבלעמס. אַזוי עס קענען זיין, למשל, איר האָבן אַ פּרעזאַדענטשאַל קאמפאניע און איר האָבן אַ רייד, און איר ווילן צו געפינען אויס אויב עס איז געווען, למשל, אבאמא אָדער מיט ראַמני. אָדער איר קענען האָבן אַ בינטל פון ימיילז און איר ווילן צו רעכענען אויס אויב זיי זענען ספּאַם אָדער ניט. אַזוי עס ס נאָר קלאַססיפיינג עטלעכע דאַטן באזירט אויף די ווערטער אַז איר האָבן עס. אַזוי צו טאָן אַז, איר האָבן צו מאַכן עטלעכע אַסאַמפּשאַנז. אַזוי אַ פּלאַץ וועגן קאַמפּיוטיישאַנאַל לינגוויסטיק איז געמאכט אַסאַמפּשאַנז, יוזשאַוואַלי קלוג אַסאַמפּשאַנז, אַזוי אַז איר קענען באַקומען גוט רעזולטאַטן. טריינג צו שאַפֿן אַ מאָדעל פֿאַר עס. און דעמאָלט פּרובירן עס אויס און זען אויב עס אַרבעט, אויב עס גיט איר גוט פּינטלעכקייַט. און אויב עס טוט, דעמאָלט איר פּרובירן צו פֿאַרבעסערן עס. אויב עס טוט ניט, איר ניטאָ ווי, גוט, אפֿשר איך זאָל מאַכן אַ אַנדערש האַשאָרע. אַזוי די האַשאָרע אַז מיר ניטאָ געגאנגען צו מאַכן איז אַז אַ קינסטלער יוזשאַוואַלי סינגס וועגן אַ טעמע קייפל מאל, און אפֿשר ניצט ווערטער קייפל מאל נאָר ווייַל זיי ניטאָ געניצט צו עס. איר קענען נאָר טראַכטן פון דיין פרייַנד. איך בין זיכער איר גייז אַלע האָבן פריינט אַז זאָגן זייער כסימע פראַזע, ממש פֿאַר יעדער איין זאַץ - ווי עטלעכע ספּעציפיש וואָרט אָדער עטלעכע ספּעציפיש פראַזע אַז זיי זאָגן פֿאַר יעדער איין זאַץ. און וואָס איר קענען זאָגן איז אַז אויב איר זען אַ זאַץ וואָס האט אַ כסימע פראַזע, איר קענען טרעפן אַז מיסטאָמע דיין פרייַנד איז די איינער געזאגט עס, רעכט? אַזוי איר מאַכן אַז האַשאָרע און דעמאָלט אַז ס ווי איר מאַכן אַ מאָדעל. די בייַשפּיל אַז איך בין געגאנגען צו געבן איז אויף ווי לאַדי גאַגאַ, למשל, מענטשן זאָגן אַז זי ניצט "בעיבי" פֿאַר אַלע איר נומער איינער לידער. און פאקטיש דעם איז אַ ווידעא וואס ווייזט איר געזאגט די וואָרט "בעיבי" פֿאַר פאַרשידענע לידער. [ווידעא פּלייבאַק] - (געזאַנג) בייבי. בייבי. בייבי. בייבי. בייבי. באַבע. בייבי. בייבי. בייבי. בייבי. [סוף ווידעא פּלייבאַק- לוקאַס פרעיטאַס: אזוי עס זענען, איך טראַכטן, 40 לידער דאָ אין וואָס זי זאגט די וואָרט "בעיבי". אַזוי איר קענען בייסיקלי טרעפן אַז אויב איר זען אַ ליד וואָס האט די וואָרט "בעיבי," עס ס עטלעכע הויך מאַשמאָעס אַז עס ס לאַדי גאַגאַ. אבער לאָזן ס פּרובירן צו אַנטוויקלען דעם ווייַטערדיק מער פאָרמאַלי. אַזוי די ביסט ליריקס צו לידער דורך דאַמע גאַגאַ און קאַטי פּערי. אַזוי איר קוק בייַ לאַדי גאַגאַ, איר זען זיי האָבן אַ פּלאַץ פון פֿאַלן פון "בעיבי," אַ פּלאַץ פון פֿאַלן פון "וועג." און דעמאָלט קאַטי פּערי האט אַ פּלאַץ פון פֿאַלן פון "די," אַ פּלאַץ פון פֿאַלן פון "פייַער." אַזוי בייסיקלי וואָס מיר ווילן צו טאָן איז, איר באַקומען אַ ליריק. זאל ס זאָגן אַז איר באַקומען אַ ליריק פֿאַר אַ ליד וואָס איז "בעיבי," נאָר "בעיבי". אַז איר נאָר באַקומען די וואָרט "בעיבי," און דעם איז אַלע די דאַטע אַז איר האָבן פון דאַמע גאַגאַ און קאַטי פּערי, וואס וואָלט איר טרעפן איז דער מענטש וואס סינגס דעם ליד? דאַמע גאַגאַ אָדער קאַטי פּערי? דאַמע גאַגאַ, רעכט? ווייַל זי ס די נאָר איינער וואס זאגט "בעיבי". דעם סאָונדס נאַריש, רעכט? גוט, דעם איז טאַקע גרינג. איך בין פּונקט קוקן בייַ די צוויי לידער און פון קורס, זי ס די נאָר איינער וואס האט "בעיבי". אבער וואָס אויב איר האָבן אַ בינטל פון ווערטער? אויב איר האָבן אַ פאַקטיש ליריק, עפּעס ווי, "בעיבי, איך נאָר געגאנגען צו זען אַ [? קפט?] לעקציע, "אָדער עפּעס ווי אַז, און דעמאָלט איר פאקטיש האָבן צו רעכענען אויס - באזירט אויף אַלע די ווערטער - וואס איז דער קינסטלער וואס מיסטאָמע סאַנג דעם ליד? אַזוי לאָזן ס פּרובירן צו אַנטוויקלען דעם אַ ביסל ווייַטער. גוט, אַזוי באזירט נאָר אויף די דאַטע אַז מיר גאַט, עס מיינט אַז גאַגאַ איז מיסטאָמע דער זינגער. אבער ווי קענען מיר שרייַבן דעם מער פאָרמאַלי? און עס ס געגאנגען צו זיין אַ ביסל ביסל פון סטאַטיסטיק. אַזוי אויב איר באַקומען פאַרפאַלן, נאָר פּרובירן צו פֿאַרשטיין די באַגריף. עס טוט ניט ענין אויב איר פֿאַרשטיין די יקווייזשאַנז בישליימעס געזונט. דעם איז אַלע געגאנגען צו זיין אָנליין. אַזוי בייסיקלי וואָס איך בין קאַלקיאַלייטינג איז די מאַשמאָעס אַז דעם ליד איז דורך דאַמע גאַגאַ געגעבן אַז - אַזוי דעם באַר מיטל געגעבן אַז - איך געזען די וואָרט "בעיבי". טוט וואָס מאַכן זינען? אַזוי איך בין טריינג צו רעכענען אַז מאַשמאָעס. אַזוי עס איז דעם טעאָרעם גערופן די בייז טעאָרעם אַז זאגט אַז די מאַשמאָעס פון אַ געגעבן ב, איז די מאַשמאָעס פון ב געגעבן א, מאל די מאַשמאָעס פון א, איבער די מאַשמאָעס פון בי דעם איז אַ לאַנג יקווייזשאַן. אבער וואָס איר האָבן צו פֿאַרשטיין פון וואס איז אַז דעם איז וואָס איך ווילן צו רעכענען, רעכט? אַזוי די מאַשמאָעס אַז אַז ליד איז דורך דאַמע גאַגאַ געגעבן אַז איך געזען די וואָרט "בעיבי". און איצט וואָס איך בין געטינג איז די מאַשמאָעס פון די וואָרט "בעיבי" געגעבן אַז איך האָבן לאַדי גאַגאַ. און וואָס איז אַז בייסיקלי? וואָס אַז מיטל איז, וואָס איז דער מאַשמאָעס פון געזען די וואָרט "בעיבי" אין גאַגאַ ליריקס? אויב איך ווילן צו רעכענען אַז אין אַ זייער פּשוט וועג, עס ס נאָר די נומער פון מאל איך זען "בעיבי" איבער די גאַנץ נומער פון ווערטער אין גאַגאַ ליריקס, רעכט? וואָס איז די אָפטקייַט אַז איך זען אַז וואָרט אין גאַגאַ ס אַרבעט? מאַכן זינען? די רגע טערמין איז דער מאַשמאָעס פון גאַגאַ. וואָס טוט אַז מיינען? אַז בייסיקלי מיטל, וואָס איז די מאַשמאָעס פון קלאַססיפיינג עטלעכע ליריקס ווי גאַגאַ? און וואָס איז מין פון טשודנע, אָבער זאל ס טראַכטן פון אַ בייַשפּיל. אַזוי לאָזן ס זאָגן אַז די מאַשמאָעס פון בעת "בעיבי" אין אַ ליד איז דער זעלביקער פֿאַר גאַגאַ און בריטניי ספּעאַרס. אבער בריטניי ספּעאַרס האט צוויי מאָל מער לידער ווי לאַדי גאַגאַ. אַזוי אויב עמעצער נאָר ראַנדאַמלי גיט איר ליריקס פון "בעיבי," דער ערשטער זאַך איר קוק בייַ איז, וואָס איז די מאַשמאָעס פון בעת "בעיבי" אין אַ גאַגאַ ליד, "בעיבי" אין אַ בריטניי ליד? און עס ס די זעלבע זאַך. אַזוי די רגע זאַך אַז איר וועט זען איז, נו, וואָס איז די מאַשמאָעס פון דעם ליריק דורך זיך זייַענדיק אַ גאַגאַ ליריק, און וואָס איז די מאַשמאָעס פון זייַענדיק אַ בריטניי ליריק? אַזוי זינט בריטניי האט אַזוי פילע מער ליריקס ווי גאַגאַ, איר וואָלט מיסטאָמע זאָגן, נו, דעם איז מיסטאָמע אַ בריטניי ליריק. אַזוי אַז ס וואָס מיר האָבן דעם טערמין רעכט דאָ. מאַשמאָעס פון גאַגאַ. מאכט זינען? טוט עס? גוט. און די לעצטע איינער איז פּונקט די מאַשמאָעס פון "בעיבי" וואָס טוט ניט טאַקע ענין אַז פיל. אבער עס ס די מאַשמאָעס פון געזען "בעיבי" אין ענגליש. מיר יוזשאַוואַלי טאָן ניט זאָרגן אַז פיל וועגן אַז טערמין. טוט וואָס מאַכן זינען? אַזוי די מאַשמאָעס פון גאַגאַ איז גערופן די פריערדיק מאַשמאָעס פון די סאָרט גאַגאַ. ווייַל עס נאָר מיטל אַז, וואָס איז די מאַשמאָעס פון בעת ​​אַז קלאַס - וואָס איז גאַגאַ - נאָר אין אַלגעמיין, נאָר מיט קיין באדינגונגען. און דעמאָלט ווען איך האָבן מאַשמאָעס פון גאַגאַ געגעבן "בייבי," מיר רופן עס פּלוס טירי אַ מאַשמאָעס ווייַל עס ס די מאַשמאָעס פון בעת גאַגאַ געגעבן עטלעכע זאָגן. אזוי איך בין געבן איר די זאָגן אַז איך געזען די וואָרט בייבי און די ליד מאַכן זינען? גוט. אַזוי אויב איך קאַלקיאַלייטיד אַז פֿאַר יעדער פון די לידער פֿאַר לאַדי גאַגאַ, וואָס אַז וואָלט זיין - משמעות, איך קענען ניט רירן דעם. די מאַשמאָעס פון גאַגאַ וועט זיין עפּעס ווי, 2 איבער 24, מאל 1/2, איבער 2 איבער 53. עס טוט ניט ענין אויב איר וויסן וואָס די נומערן זענען קומען פון. אבער עס ס נאָר אַ נומער וואס איז געגאנגען צו זיין מער ווי 0, רעכט? און דעמאָלט ווען איך טאָן קאַטי פּערי, די מאַשמאָעס פון "בעיבי" געגעבן קאַטי איז שוין 0, רעכט? ווייַל עס ס ניט "בעיבי" אין קאַטי פּערי. אַזוי דעמאָלט דעם ווערט 0, און גאַגאַ ווינס, וואָס מיטל אַז גאַגאַ איז מיסטאָמע די זינגער. טוט וואָס מאַכן זינען? גוט. אַזוי אויב איך ווילן צו מאַכן דעם מער באַאַמטער, איך קענען פאקטיש טאָן אַ מאָדעל פֿאַר קייפל ווערטער. אַזוי לאָזן ס זאָגן אַז איך האָבן עפּעס ווי, "בעיבי, איך בין אויף פייַער, "אָדער עפּעס. אַזוי עס האט קייפל ווערטער. און אין דעם פאַל, איר קענען זען אַז "בעיבי" איז אין גאַגאַ, אָבער עס ס ניט אין קאַטי. און "פייַער" איז אין קאַטי, אָבער עס ס ניט אין גאַגאַ, רעכט? אַזוי עס ס געטינג טריקקיער, רעכט? ווייַל עס מיינט אַז איר כּמעט האָבן אַ בונד צווישן די צוויי. אַזוי וואָס איר האָבן צו טאָן איז יבערנעמען ינדעפּענדענסי צווישן די ווערטער. אַזוי בייסיקלי וואָס אַז מיטל איז אַז איך בין פּונקט קאַלקיאַלייטינג וואָס איז די מאַשמאָעס פון געזען "בעיבי," וואָס איז די מאַשמאָעס פון געזען "איך," און "בין", און "אויף," און "פייַער," אַלע סעפּראַטלי. דעמאָלט איך בין מאַלטאַפּלייינג אַלע פון ​​זיי. און איך בין געזען וואָס איז די מאַשמאָעס פון געזען די גאנצע זאַץ. מאַכן זינען? אַזוי בייסיקלי, אויב איך האָבן נאָר איין וואָרט, וואָס איך ווילן צו געפינען איז די אַרג מאַקס, וואָס מיטל, וואָס איז די סאָרט וואָס איז געבן מיר דעם העכסטן מאַשמאָעס? אַזוי וואָס איז די סאָרט וואָס איז געבן מיר דעם העכסטן מאַשמאָעס פֿאַר מאַשמאָעס פון קלאַס געגעבן וואָרט. אַזוי אין דעם פאַל, גאַגאַ געגעבן "בייבי." אָדער קאַטי געגעבן "בייבי." מאַכן זינען? און פּונקט פון בייז, אַז יקווייזשאַן אַז איך געוויזן, מיר מאַכן דעם בראָכצאָל. דער בלויז זאַך איז אַז איר זען אַז די מאַשמאָעס פון וואָרט געגעבן די סאָרט ענדערונגען דיפּענדינג אויף די סאָרט, רעכט? די נומער פון "בעיבי" ס אַז איך האָבן אין גאַגאַ איז אַנדערש פון קאַטי. די מאַשמאָעס פון די סאָרט אויך ענדערונגען ווייַל עס ס נאָר די נומער פון לידער יעדער פון זיי האט. אבער די מאַשמאָעס פון דעם וואָרט זיך איז געגאנגען צו זיין דער זעלביקער פֿאַר אַלע די קינסטלער, רעכט? אַזוי די מאַשמאָעס פון דעם וואָרט איז נאָר, וואָס איז די מאַשמאָעס פון געזען אַז וואָרט אין די ענגליש שפּראַך? אַזוי עס ס די זעלבע פֿאַר אַלע פון ​​זיי. אַזוי זינט דעם איז קעסיידערדיק, מיר קענען נאָר פאַלן דעם און ניט זאָרגן וועגן עס. אַזוי דעם וועט זיין אַקטשאַוואַלי די יקווייזשאַן מיר 'רע איר זוכט פֿאַר. און אויב איך האָבן קייפל ווערטער, איך בין נאָך געגאנגען צו האָבן די פריערדיק מאַשמאָעס דאָ. דער בלויז זאַך איז אַז איך בין מאַלטאַפּלייינג די מאַשמאָעס פון אַלע די אנדערע ווערטער. אַזוי איך בין מאַלטאַפּלייינג אַלע פון ​​זיי. מאַכן זינען? עס קוקט טשודנע אָבער בייסיקלי מיטל, רעכענען די פריערדיק פון די סאָרט, און דעמאָלט מערן דורך די מאַשמאָעס פון יעדער פון די ווערטער זייַענדיק אין אַז קלאַס. און איר וויסן אַז די מאַשמאָעס פון אַ וואָרט געגעבן אַ סאָרט איז געגאנגען צו זיין דער נומער פון מאל איר זען אַז וואָרט אין אַז קלאַס, צעטיילט דורך די נומער פון ווערטער איר האָבן אין אַז סאָרט אין אַלגעמיין. מאַכן זינען? עס ס פּונקט ווי "בעיבי" איז 2 איבער די נומער פון ווערטער אַז איך האט אין די ליריקס. אַזוי נאָר די אָפטקייַט. אבער עס איז איין זאַך. געדענקען ווי איך איז געווען ווייַזונג אַז די מאַשמאָעס פון "בעיבי" זייַענדיק ליריקס פון קאַטי פּערי איז 0 נאָר ווייַל קאַטי פּערי האט ניט האָבן "בעיבי" בייַ אַלע? אבער עס סאָונדס אַ ביסל האַרב צו נאָר פשוט זאָגן אַז ליריקס קענען ניט זיין פון אַ קינסטלער נאָר ווייַל זיי טאָן ניט האָבן אַז וואָרט אין באַזונדער אין קיין צייַט. אַזוי איר געקענט נאָר זאָגן, נו, אויב איר טאָן ניט האָבן דעם וואָרט, איך בין געגאנגען צו געבן איר אַ נידעריקער מאַשמאָעס, אָבער איך בין נאָר ניט געגאנגען צו געבן איר 0 רעכט אַוועק. ווייַל אפֿשר עס איז געווען עפּעס ווי, "פייַער, פייַער, פייַער, פייַער," וואָס איז טאָוטאַלי קאַטי פּערי. און דעמאָלט "בעיבי," און עס פּונקט גייט צו 0 רעכט אַוועק ווייַל עס איז געווען איינער "בעיבי". אַזוי בייסיקלי וואָס מיר טאָן איז עפּעס גערופן לאַפּלאַסע סמודינג. און דעם נאָר מיטל אַז איך בין געבן עטלעכע מאַשמאָעס אפילו צו די ווערטער אַז טאָן ניט עקסיסטירן. אַזוי וואָס איך טאָן איז אַז ווען איך בין קאַלקיאַלייטינג דעם, איך שטענדיק לייגן 1 צו די נומעראַטאָר. אַזוי אפילו אויב די וואָרט טוט נישט עקסיסטירן, אין דעם פאַל, אויב דאָס איז 0, איך בין נאָך קאַלקיאַלייטינג דעם ווי 1 איבער די גאַנץ נומער פון ווערטער. אַנדערש, איך באַקומען ווי פילע ווערטער איך האב און איך לייגן 1. אַזוי איך בין קאַונטינג פֿאַר ביידע קאַסעס. מאַכן זינען? אַזוי איצט לאָזן ס טאָן עטלעכע קאָודינג. איך בין געגאנגען צו האָבן צו טאָן עס שיין פעסט, אָבער עס ס נאָר וויכטיק אַז איר גויס פֿאַרשטיין די קאַנסעפּס. אַזוי וואָס מיר ניטאָ טריינג צו טאָן איז פּונקט ינסטרומענט דעם זאַך אַז איך נאָר געזאגט - איך ווילן איר צו לייגן ליריקס פון דאַמע גאַגאַ און קאַטי פּערי. און דער פּראָגראַם איז געגאנגען צו קענען צו זאָגן אויב די נייַ ליריקס זענען פון גאַגאַ אָדער קאַטי פּערי. מאַכן זינען? גוט. אַזוי איך האָבן דעם פּראָגראַם איך בין געגאנגען צו רופן classify.py. אַזוי דעם איז פּיטהאָן. עס ס אַ נייַ פּראָגראַממינג שפּראַך. עס איז זייער ענלעך אין עטלעכע וועגן צו C און פפּ. עס ס ענלעך ווייַל אויב איר ווילן צו לערנען פּיטהאָן נאָך ווייסט C, עס ס טאַקע ניט אַז פיל פון אַ אַרויסרופן נאָר ווייַל פּיטהאָן איז פיל גרינגער ווי C, ערשטער פון אַלע. און אַ פּלאַץ פון זאכן זענען שוין ימפּלאַמענטאַד פֿאַר איר. אַזוי פּונקט ווי ווי פפּ האט פאַנגקשאַנז אַז סאָרט אַ רשימה, אָדער צוגעבן עפּעס צו אַ מענגע, אָדער בלאַ, בלאַ, בלאַ. פּיטהאָן האט אַלע פון ​​די ווי געזונט. אַזוי איך בין נאָר געגאנגען צו דערקלערן געשווינד ווי מיר קען טאָן די קלאַסאַפאַקיישאַן פּראָבלעם פֿאַר דאָ. אַזוי לאָזן ס זאָגן אַז אין דעם פאַל, איך האָבן ליריקס פון גאַגאַ און קאַטי פּערי. די וועג אַז איך האָבן די ליריקס איז אַז דער ערשטער וואָרט פון די ליריקס איז די נאָמען פון די קינסטלער, און די מנוחה איז די ליריקס. אַזוי לאָזן ס זאָגן אַז איך האָבן דעם רשימה אין וואָס דער ערשטער איינער איז ליריקס דורך גאַגאַ. אַזוי דאָ איך בין אויף די רעכט שפּור. און די ווייַטער איינער איז קאַטי, און עס האט אויך די ליריקס. אזוי דעם איז ווי איר דערקלערן אַ בייַטעוודיק אין פּיטהאָן. איר טאָן ניט האָבן צו געבן די דאַטן טיפּ. איר נאָר שרייַבן "ליריקס," טיפּ פון ווי אין פפּ. מאַכן זינען? אַזוי וואָס זענען די זאכן וואס איך האָבן צו רעכענען צו קענען צו רעכענען די פּראַבאַבילאַטיז? איך האָבן צו רעכענען די "פּריאָרס" פון יעדער פון די פאַרשידענע קלאסן אַז איך האָבן. איך האָבן צו רעכענען די "פּאָסטעריאָרס," אָדער שיין פיל די פּראַבאַבילאַטיז פון יעדער פון די פאַרשידענע ווערטער אַז איך קענען האָבן פֿאַר יעדער קינסטלער. אַזוי ין גאַגאַ, למשל, איך בין געגאנגען צו האָבן אַ רשימה פון ווי פילע מאל איך זען יעדער פון די ווערטער. מאַכן זינען? און לעסאָף, איך בין נאָר געגאנגען צו האָבן אַ רשימה גערופן "ווערטער" וואס איז נאָר געגאנגען צו האָבן ווי פילע ווערטער איך האָבן פֿאַר יעדער קינסטלער. אַזוי פֿאַר גאַגאַ, למשל, ווען איך קוק צו די ליריקס, איך האט, איך טראַכטן, 24 ווערטער אין גאַנץ. אַזוי דעם רשימה איז נאָר געגאנגען צו האָבן גאַגאַ 24, און קאַטי אנדערן נומער. מאַכן זינען? גוט. אַזוי איצט, פאקטיש, לאָזן ס גיין צו די קאָודינג. אַזוי אין פּיטהאָן, איר קענען פאקטיש קריק אַ בינטל פון פאַרשידענע דאס פון אַ פֿונקציע. אַזוי איך בין געגאנגען צו שאַפֿן דעם פונקציאָנירן גערופן "קאַנדישאַנאַל," וואָס איז געגאנגען צו צוריקקומען אַלע פון ​​די זאכן, די "פּריאָרס," די "פּראַבאַבילאַטיז," און די "ווערטער." אַזוי "קאַנדישאַנאַל," און עס ס געגאנגען צו זיין פאַך אין "ליריקס." אַזוי איצט איך ווילן איר צו פאקטיש שרייַבן דעם פֿונקציע. אַזוי די וועג אַז איך קענען שרייַבן דעם פונקציע איז איך נאָר דיפיינד דעם פונקציאָנירן מיט "דעף." אַזוי איך האט "דעף קאַנדישאַנאַל, "און עס ס גענומען "ליריקס." און וואָס דאָס איז געגאנגען צו טאָן איז, ערשטער פון אַלע, איך האב מיין פּריאָרס אַז איך ווילן צו רעכענען. אַזוי די וועג אַז איך קענען טאָן דעם איז שאַפֿן אַ ווערטערבוך אין פּיטהאָן, וואָס איז שיין פיל דער זעלביקער זאַך ווי אַ האַש טיש, אָדער עס ס ווי אַ יטערייטיוו מענגע אין פפּ. דעם איז ווי איך דערקלערן אַ ווערטערבוך. און בייסיקלי וואָס דעם מיטל איז אַז פּריאָרס פון גאַגאַ איז 0.5, למשל, אויב 50% פון די ליריקס זענען פון גאַגאַ, 50% זענען פון קאַטי. מאַכן זינען? אַזוי איך האָבן צו רעכענען אויס ווי צו רעכענען די פּריאָרס. דער ווייַטער אָנעס אַז איך האָבן צו טאָן, אויך, זענען די פּראַבאַבילאַטיז און די ווערטער. אַזוי די פּראַבאַבילאַטיז פון גאַגאַ איז די רשימה פון אַלע די פּראַבאַבילאַטיז אַז איך האָבן פֿאַר יעדער פון די ווערטער פֿאַר גאַגאַ. אַזוי אויב איך גיין צו פּראַבאַבילאַטיז פון גאַגאַ "בעיבי," פֿאַר בייַשפּיל, עס וועט געבן מיר עפּעס ווי 2 איבער 24 אין אַז פאַל. מאַכן זינען? אזוי איך גיין צו "פּראַבאַבילאַטיז," גיין צו די "גאַגאַ" עמער אַז האט אַ רשימה פון אַלע די גאַגאַ ווערטער, דעריבער איך גיין צו "בעיבי," און איך זען די מאַשמאָעס. און לעסאָף איך האָבן דעם "ווערטער" ווערטערבוך. אַזוי דאָ, "פּראַבאַבילאַטיז." און דעמאָלט "ווערטער." אַזוי אויב איך טאָן "ווערטער," "גאַגאַ," וואָס איז געגאנגען צו פּאַסירן איז אַז עס ס געגאנגען צו געבן מיר 24, געזאגט אַז איך האָבן 24 ווערטער ין ליריקס פון גאַגאַ. מאכט זינען? אַזוי דאָ, "ווערטער" יקוואַלז דאַ-דאַ-דאַ. גוט אַזוי וואָס איך בין געגאנגען צו טאָן איז איך בין געגאנגען צו יטעראַטע איבער יעדער פון די ליריקס, אַזוי יעדער פון די סטרינגס אַז איך האב אין די רשימה. און איך בין געגאנגען צו רעכענען די זאכן פֿאַר יעדער פון די קאַנדאַדייץ. מאכט זינען? אַזוי איך האָבן צו טאָן אַ פֿאַר שלייף. אַזוי אין פּיטהאָן וואָס איך קענען טאָן איז "פֿאַר שורה אין ליריקס. "דער זעלביקער זאַך ווי אַ "פֿאַר יעדער" דערקלערונג אין פפּ. געדענקען ווי אויב עס איז געווען פפּ איך קען זאָגן "פֿאַר יעדער ליריקס ווי שורה. "מייקס זינען? אַזוי איך בין גענומען יעדער פון די שורות, אין דעם פאַל, דעם שטריקל און די ווייַטער שטריקל אַזוי פֿאַר יעדער פון די שורות וואָס איך בין געגאנגען צו טאָן איז ערשטער, איך בין געגאנגען צו שפּאַלטן דעם שורה אין אַ רשימה פון ווערטער אפגעשיידט דורך ספּייסיז. אַזוי די קיל זאַך וועגן פּיטהאָן איז אַז איר קען נאָר גוגל ווי "ווי קענען איך שפּאַלטן אַ שטריקל אין ווערטער? "און עס ס געגאנגען צו זאָגן איר ווי צו טאָן עס. און די וועג צו טאָן עס, עס ס נאָר "שורה = לינע.ספּליט () "און עס ס בייסיקלי געגאנגען צו געבן איר אַ רשימה מיט יעדער פון די ווערטער דאָ. מאכט זינען? אַזוי איצט אַז איך האט אַז איך ווילן צו וויסן וואס איז דער זינגער פון אַז ליד. און צו טאָן אַז איך נאָר האָבן צו באַקומען די ערשטער עלעמענט פון די מענגע, רעכט? אַזוי איך קענען נאָר זאָגן אַז איך "זינגער = שורה (0) "מייקס זינען? און דעמאָלט וואָס איך דאַרפֿן צו טאָן איז, ערשטער פון אַלע, איך בין געגאנגען צו דערהייַנטיקן ווי פילע ווערטער איך האב אונטער "גאַגאַ." אַזוי איך בין פּונקט געגאנגען צו רעכענען ווי פילע ווערטער איך האָבן אין דעם רשימה, רעכט? ווייַל דעם איז ווי פילע ווערטער איך האָבן אין די ליריקס און איך בין נאָר געגאנגען צו לייג עס צו די "גאַגאַ" מענגע. טוט וואָס מאַכן זינען? טאָן ניט פאָקוס צו פיל אויף די סינטאַקס. טראַכטן מער וועגן דער קאַנסעפּס. אַז ס די מערסט וויכטיק טייל. גוט. אַזוי וואָס איך קענען טאָן עס איז אויב "גאַגאַ" איז שוין אין אַז רשימה, אַזוי "אויב זינגער אין ווערטער "וואָס מיטל אַז איך שוין האָבן ווערטער דורך גאַגאַ. איך נאָר ווילן צו לייגן די נאָך ווערטער צו אַז. אַזוי וואָס איך טאָן איז "ווערטער (זינגער) + = לען (שורה) - 1 ". און דעמאָלט איך קענען נאָר טאָן די לענג פון די שורה. אַזוי ווי פילע עלעמענטן איך האָבן אין די מענגע. און איך האָבן צו טאָן מינוס 1 נאָר ווייַל דער ערשטער עלעמענט פון די מענגע איז פּונקט אַ זינגער און די זענען ניט ליריקס. מאכט זינען? גוט. "אַנדערש," עס מיטל אַז איך ווילן צו פאקטיש אַרייַנלייגן גאַגאַ אין די רשימה. אַזוי איך נאָר טאָן "ווערטער (זינגער) = לען (שורה) - 1, "נעבעכדיק. אַזוי דער בלויז חילוק צווישן די צוויי שורות איז אַז דעם איינער, עס טוט ניט עקסיסטירן נאָך, אַזוי איך בין פּונקט יניטיאַליזינג עס. דעם איינער איך בין פאקטיש אַדינג. גוט. אַזוי דעם איז אַדינג צו ווערטער. איצט איך ווילן צו לייגן צו די פּריאָרס. אַזוי ווי טאָן איך רעכענען די פּריאָרס? די פּריאָרס קענען זיין קאַלקיאַלייטיד דורך ווי פילע מאל. אַזוי ווי פילע מאל איר זען אַז זינגער צווישן אַלע פון ​​די זינגערס אַז איר האָבן, רעכט? אַזוי פֿאַר גאַגאַ און קאַטי פּערי, אין דעם פאַל, איך זען גאַגאַ אַמאָל, קאַטי פּערי אַמאָל. אַזוי בייסיקלי די פּריאָרס פֿאַר גאַגאַ און פֿאַר קאַטי פּערי וואָלט נאָר זיין איינער, רעכט? איר פּונקט ווי פילע מאל איך זען די קינסטלער. אזוי דעם איז זייער גרינג צו רעכענען. איך קענען נאָר עפּעס ענלעך ווי ווי "אויב זינגער אין פּריאָרס, "איך בין נאָר געגאנגען צו לייגן 1 צו זייער פּריאָרס קאַסטן. אַזוי, "פּריאָרס (זינגען)" + = 1 "און דעמאָלט" אַנדערש " איך בין געגאנגען צו טאָן "פּריאָרס (זינגער) = 1. "מייקס זינען? אַזוי אויב עס טוט נישט עקסיסטירן איך נאָר שטעלן ווי 1, אַנדערש איך פּונקט לייגן 1. גוט, אַזוי איצט אַלע אַז איך האָבן לינק צו טאָן איז אויך לייגן יעדער פון די ווערטער צו די פּראַבאַבילאַטיז. אַזוי איך האָבן צו רעכענען ווי פילע מאל איך זען יעדער פון די ווערטער. אַזוי איך נאָר האָבן צו טאָן אנדערן פֿאַר שלייף אין די שורה. אַזוי ערשטער זאַך אַז איך בין געגאנגען צו טאָן איז טשעק אויב דער זינגער שוין האט אַ פּראַבאַבילאַטיז מענגע. אַזוי איך בין טשעק אויב די זינגער טוט ניט האָבן אַ פּראַבאַבילאַטיז מענגע, איך בין נאָר געגאנגען צו ינישאַלייז איינער פֿאַר זיי. עס ס ניט אפילו אַ מענגע, נעבעכדיק, עס ס אַ ווערטערבוך. אַזוי די פּראַבאַבילאַטיז פון זינגער איז געגאנגען צו זיין אַ עפענען ווערטערבוך, אַזוי איך בין נאָר יניטיאַליזינג אַ ווערטערבוך פֿאַר עס. גוט? און איצט איך קענען פאקטיש טאָן אַ פֿאַר שלייף צו רעכענען יעדער פון די ווערטער ' פּראַבאַבילאַטיז. גוט. אַזוי וואָס איך קענען טאָן איז אַ פֿאַר שלייף. אַזוי איך בין נאָר געגאנגען צו יטעראַטע איבער די מענגע. אַזוי די וועג אַז איך קענען טאָן אַז אין פּיטהאָן איז "פֿאַר איך אין קייט." פון 1 ווייַל איך ווילן צו אָנהייב אין די רגע עלעמענט ווייַל דער ערשטער איינער איז די זינגער נאָמען. אַזוי פון איין אַרויף צו די לענג פון די שורה. און ווען איך טאָן קייט עס פאקטיש גיין פון ווי דאָ פון 1 צו לען פון די שורה מינוס 1. אַזוי עס שוין טוט אַז זאַך פון טאן N מינוס 1 פֿאַר ערייז וואָס איז זייער באַקוועם. מאכט זינען? אַזוי פֿאַר יעדער פון די, וואָס איך בין געגאנגען צו טאָן איז, פּונקט ווי אין די אנדערע איינער, איך בין געגאנגען צו קאָנטראָלירן אויב די וואָרט אין דעם שטעלע אין דער שורה איז שוין אין פּראַבאַבילאַטיז. און דעמאָלט ווי איך געזאגט דאָ, פּראַבאַבילאַטיז ווערטער, ווי אין איך שטעלן "פּראַבאַבילאַטיז (זינגער)". אַזוי די נאָמען פון די זינגער. אַזוי אויב עס ס שוין אין "פּראָבאַביליט (זינגער)", עס מיטל אַז איך ווילן צו לייגן 1 צו עס, אַזוי איך בין געגאנגען צו טאָן "פּראַבאַבילאַטיז (זינגער)", און די וואָרט איז גערופן "שורה (איך)". איך בין געגאנגען צו לייגן 1 און "אַנדערש" איך בין נאָר געגאנגען צו ינישאַלייז עס צו 1. "שורה (איך)". מאכט זינען? אַזוי, איך קאַלקיאַלייטיד אַלע פון ​​די ערייז. אַזוי, איצט אַלע אַז איך האָבן צו טאָן פֿאַר דעם איינער איז פּונקט "צוריקקומען פּריאָרס, פּראַבאַבילאַטיז און ווערטער. "זאל ס זען אויב עס זענען קיין, גוט. עס מיינט אַלץ איז ארבעטן אַזוי ווייַט. אַזוי, וואָס מאכט זינען? אין עטלעכע וועג? גוט. אַזוי איצט איך האָבן אַלע די פּראַבאַבילאַטיז. אַזוי איצט דער בלויז זאַך איך האָבן לינק איז נאָר צו האָבן אַז זאַך אַז קאַלקיאַלייץ די פּראָדוקט פון אַלע די פּראַבאַבילאַטיז ווען איך באַקומען די ליריקס. אַזוי לאָזן ס זאָגן אַז איך ווילן צו איצט רופן דעם פונקציאָנירן "קלאַסיפיצירן ()" און די זאַך אַז פונקציאָנירן נעמט איז נאָר אַ אַרגומענט. זאל ס זאָגן "בעיבי, איך בין אויף פייַער" און עס ס געגאנגען צו רעכענען אויס וואָס איז די מאַשמאָעס אַז דעם איז גאַגאַ? וואָס איז די מאַשמאָעס אַז דאָס איז קאַטיע? סאָונדס גוט? אַזוי איך בין נאָר געגאנגען צו האָבן צו מאַכן אַ נייַ פונקציאָנירן גערופן "קלאַסיפיצירן ()" און עס ס געגאנגען צו נעמען עטלעכע ליריקס ווי געזונט. און אויסערדעם די ליריקס איך אויך האָבן צו שיקן די פּריאָרס, די פּראַבאַבילאַטיז און די ווערטער. אַזוי איך בין געגאנגען צו שיקן ליריקס, פּריאָרס, פּראַבאַבילאַטיז, ווערטער. אַזוי דעם איז גענומען ליריקס, פּריאָרס, פּראַבאַבילאַטיז, ווערטער. אַזוי, וואָס טוט עס טאָן? עס בייסיקלי איז געגאנגען צו גיין דורך אַלע די מעגלעך קאַנדאַדייץ אַז איר האָבן ווי אַ זינגער. און ווו זענען די קאַנדאַדייץ? זיי ניטאָ אין די פּריאָרס, רעכט? אַזוי איך האָבן אַלע פון ​​די עס. אַזוי איך בין געגאנגען צו האָבן אַ ווערטערבוך פון אַלע מעגלעך קאַנדאַדייץ. און דעמאָלט פֿאַר יעדער קאַנדידאַט אין די פּריאָרס, אַזוי עס מיטל אַז עס ס געגאנגען צו זיין גאַגאַ, קאַטיע אויב איך האט מער עס וואָלט זיין מער. איך בין געגאנגען צו אָנהייבן קאַלקיאַלייטינג דעם מאַשמאָעס. די מאַשמאָעס ווי מיר געזען אין די פּאָווערפּאָינט איז די פריערדיק מאל די פּראָדוקט פון יעדער פון די אנדערע פּראַבאַבילאַטיז. אַזוי איך קענען טאָן די זעלבע דאָ. איך קענען נאָר טאָן מאַשמאָעס איז טכילעס נאָר די פריערדיק. אַזוי פּריאָרס פון די קאַנדידאַט. רעכט? און איצט איך האָבן צו יטעראַטע איבער אַלע די ווערטער אַז איך האָבן אין די ליריקס צו זיין קענען צו לייגן די מאַשמאָעס פֿאַר יעדער פון זיי, גוט? אַזוי, "פֿאַר וואָרט אין ליריקס" וואָס איך בין געגאנגען צו טאָן איז, אויב די וואָרט איז אין "פּראַבאַבילאַטיז (קאַנדידאַט)", וואָס מיטל אַז עס ס אַ וואָרט אַז דער קאַנדידאַט האט אין זייער ליריקס - למשל, "בעיבי" פֿאַר גאַגאַ - וואָס איך בין געגאנגען צו טאָן איז אַז די מאַשמאָעס איז געגאנגען צו זיין געמערט דורך 1 פּלוס די פּראַבאַבילאַטיז פון די קאַנדידאַט פֿאַר אַז וואָרט. און עס ס גערופן "וואָרט". דעם צעטיילט דורך די נומער פון ווערטער אַז איך האָבן פֿאַר אַז קאַנדידאַט. די גאַנץ נומער פון ווערטער אַז איך האָבן פֿאַר די זינגער אַז איך בין קוקן בייַ. "אַנדערש." עס מיטל עס ס אַ נייַ וואָרט אַזוי עס 'ד זיין ווי למשל "פייַער" פֿאַר לאַדי גאַגאַ. אַזוי איך נאָר ווילן צו טאָן 1 איבער "וואָרט (קאַנדידאַט)". אַזוי איך טאָן ניט וועלן צו שטעלן דעם טערמין דאָ. אַזוי עס ס געגאנגען צו זיין בייסיקלי קאַפּיינג און פּאַסטינג דעם. אָבער איך בין געגאנגען צו ויסמעקן דעם טייל. אַזוי עס ס נאָר געגאנגען צו זיין 1 איבער אַז. סאָונדס גוט? און איצט אין די סוף, איך בין נאָר געגאנגען צו דרוק די נאָמען פון די קאַנדידאַט און די מאַשמאָעס אַז איר האָבן פון בעת די ד אויף זייער ליריקס. מאכט זינען? און איך אַקטשאַוואַלי טאָן ניט אפילו דאַרפֿן דעם ווערטערבוך. מאכט זינען? אַזוי, לאָזן ס זען אויב דעם פאקטיש אַרבעט. אַזוי אויב איך לויפן דעם, עס האט ניט אַרבעט. וואַרטן איין סעקונדע. "ווערטער (קאַנדידאַט)", "ווערטער (קאַנדידאַט)", אַז ס די נאָמען פון די מענגע. גוט אזוי, עס זאגט עס ס עטלעכע זשוק פֿאַר קאַנדידאַט אין פּריאָרס. זאל מיר נאָר ציטער אַ קליין ביסל. גוט. זאל ס פּרובירן. גוט. אַזוי עס גיט קאַטי פּערי האט דעם מאַשמאָעס פון דעם מאָל 10 צו די מינוס 7, און גאַגאַ האט דעם מאל 10 צו די מינוס 6. אַזוי איר זען עס ווייזט אַז גאַגאַ האט אַ העכער מאַשמאָעס. אַזוי "בעיבי, איך בין אויף פייער" איז מיסטאָמע אַ גאַגאַ ליד. מאכט זינען? אזוי דעם איז וואָס מיר האבן. דעם קאָד איז געגאנגען צו זיין אַרייַנגעשיקט אָנליין, אַזוי איר גייז קענען קאָנטראָלירן עס אויס. אפֿשר נוצן עטלעכע פון ​​עס פֿאַר אויב איר ווילן צו טאָן אַ פּרויעקט אָדער עפּעס ענלעך. גוט. דעם איז געווען נאָר צו ווייַזן וואָס קאַמפּיוטיישאַנאַל לינגוויסטיק קאָד קוקט ווי. אבער איצט לאָזן ס גיין צו מער הויך מדרגה שטאָפּן. גוט. אַזוי די אנדערע פּראָבלעמס איך איז גערעדט וועגן - די סעגמאַנטיישאַן פּראָבלעם איז דער ערשטער פון זיי. אַזוי איר האָבן דאָ יאַפּאַניש. און דעמאָלט איר זען אַז עס זענען ניט ספּייסיז. אַזוי דעם איז בייסיקלי מיטל אַז עס ס די שפּיץ פון די שטול, רעכט? איר רעדן יאַפּאַניש? עס ס די שפּיץ פון די שטול, רעכט? תּלמיד: איך טאָן ניט וויסן וואָס די קאַנדזשי איבער עס איז. לוקאַס פרעיטאַס: עס ס [גערעדט יאַפּאַניש] גוט. אַזוי עס בייסיקלי מיטל שטול פון שפּיץ. אַזוי אויב איר האט צו שטעלן אַ פּלאַץ עס וואָלט זיין דאָ. און דעמאָלט איר האָבן [? וועדאַ-סאַן. ?] וואָס בייסיקלי מיטל הער וועדאַ. און איר זען אַז "וועדאַ" און איר האָבן אַ פּלאַץ און דעמאָלט "סאַן." אַזוי איר זען אַז דאָ איר "וע" איז ווי דורך זיך. און דאָ עס האט אַ העלד ווייַטער צו עס. אַזוי עס ס ניט ווי אין די שפּראַכן אותיות טייַטש אַ וואָרט עס אַזוי איר נאָר שטעלן אַ פּלאַץ פון ספּייסיז. אותיות פאַרבינדן צו יעדער אנדערער. און זיי קענען זיין צוזאַמען ווי צוויי, דרייַ, איינער. אַזוי איר פאקטיש האָבן צו מאַכן עטלעכע טיפּ פון וועג פון פּאַטינג די ספּייסיז. און דעם זאַך איז אַז ווען איר באַקומען דאַטן פון די אַסיאַן שפּראַכן, אַלץ קומט ונסעגמענטעד. ווייַל קיין איינער וואס שרייבט יאַפּאַניש אָדער כינעזיש שרייבט מיט ספּייסיז. ווען איר ניטאָ שרייבט כינעזיש, יאַפּאַניש איר נאָר שרייַבן אַלץ מיט קיין ספּייסיז. עס טוט ניט אפילו מאַכן זינען צו שטעלן ספּייסיז. אַזוי דעמאָלט ווען איר באַקומען דאַטן פון, עטלעכע מזרח אַסיאַן שפּראַך, אויב איר ווילן צו פאקטיש טאָן עפּעס מיט אַז איר האָבן צו אָפּשניט ערשטער. טראַכטן פון טאן דעם בייַשפּיל פון די ליריקס אָן ספּייסיז. אַזוי דער בלויז ליריקס אַז איר האָבן וועט זיין זאצן, רעכט? אפגעשיידט דורך פּיריאַדז. אבער דעמאָלט בעת נאָר די זאַץ וועט ניט טאַקע העלפן אויף געבן אינפֿאָרמאַציע פון וואס די ליריקס זענען דורך. רעכט? אַזוי איר זאָל לייגט ספּייסאַז ערשטער. אַזוי ווי קענען איר טאָן אַז? אַזוי דעמאָלט קומט דער געדאַנק פון אַ שפּראַך מאָדעל וואָס איז עפּעס טאַקע וויכטיק פֿאַר קאַמפּיוטיישאַנאַל לינגוויסטיק. אַזוי אַ שפּראַך מאָדעל איז בייסיקלי אַ טיש פון פּראַבאַבילאַטיז אַז ווייזט ערשטער פון אַלע וואָס איז די מאַשמאָעס פון בעת ​​די וואָרט אין אַ שפּראַך? אַזוי ווייַזונג ווי אָפט אַ וואָרט איז. און דעמאָלט אויך ווייַזונג די באַציונג צווישן די ווערטער אין אַ זאַץ. אַזוי די הויפּט געדאַנק איז, אויב אַ פרעמדער געקומען צו איר און האט אַ זאַץ צו איר, וואָס איז די מאַשמאָעס אַז, פֿאַר למשל, "דאָס איז מיין שוועסטער [? גטף"?] איז געווען דער זאַץ אַז דער מענטש האט? אַזוי דאָך עטלעכע זאצן זענען מער געוויינטלעך ווי אנדערע. למשל, "גוט מאָרגן," אָדער "גוט נאַכט, "אָדער" היי עס, "איז פיל מער פּראָסט ווי רובֿ זאצן אַז מיר האָבן אַ ענגליש. אזוי וואָס זענען די זאצן מער אָפט? ערשטער פון אַלע, עס ס מחמת איר האָבן ווערטער וואָס זענען מער אָפט. אַזוי, למשל, אויב איר זאָגן, די הונט איז גרויס, און דער הונט איז דזשייגאַניק, איר יוזשאַוואַלי מיסטאָמע הערן די הונט איז גרויס מער אָפֿט ווייַל "גרויס" איז מער אָפט אין ענגליש ווי "דזשייגאַניק." אַזוי, איינער פון די דאס איז די וואָרט אָפטקייַט. די רגע זאַך וואָס איז טאַקע וויכטיק איז בלויז די סדר פון די ווערטער. אַזוי, עס ס פּראָסט צו זאָגן "די קאַץ איז ין די קאַסטן. "אָבער איר טאָן ניט יוזשאַוואַלי זען אין "די קאַסטן ין איז די קאַץ." אַזוי איר זען אַז עס איז עטלעכע וויכטיקייט אין די סדר פון די ווערטער. איר קענען ניט נאָר זאָגן אַז די צוויי זאצן האָבן די זעלבע מאַשמאָעס נאָר ווייַל זיי האָבן די זעלבע ווערטער. איר פאקטיש האָבן צו זאָרג וועגן סדר ווי געזונט. מאַכן זינען? אַזוי וואָס טוט מיר טאָן? אַזוי וואָס איך זאל פּרובירן צו באַקומען איר? איך בין טריינג צו באַקומען איר וואָס מיר רופן די n-גראַם מאָדעלס. אַזוי n-גראַם מאָדעלס בייסיקלי יבערנעמען אַז פֿאַר יעדער וואָרט אַז איר האָבן אין אַ זאַץ. עס ס די מאַשמאָעס פון בעת ​​אַז וואָרט עס דעפּענדס ניט בלויז אויף די אָפטקייַט פון אַז וואָרט אין דער שפּראַך, אָבער אויך אויף די ווערטער אַז זענען אַרומיק עס. אַזוי פֿאַר בייַשפּיל, יוזשאַוואַלי ווען איר זען עפּעס ווי אויף אָדער בייַ איר ניטאָ מיסטאָמע געגאנגען צו זען אַ נאָון נאָך עס, רעכט? ווייַל ווען איר האָבן אַ פּרעפּאָזיציע יוזשאַוואַלי עס נעמט אַ נאָון נאָך עס. אָדער אויב איר האָבן אַ ווערב וואָס איז טראַנסיטיווע איר יוזשאַוואַלי זענען געגאנגען צו האָבן אַ נאַון פֿראַזע. אַזוי עס ס געגאנגען צו האָבן אַ נאָון ערגעץ אַרום עס. אַזוי, בייסיקלי, וואָס עס טוט איז אַז עס האלט די מאַשמאָעס פון בעת ווערטער ווייַטער צו יעדער אנדערער, ​​ווען איר ניטאָ קאַלקיאַלייטינג די מאַשמאָעס פון אַ זאַץ. און אַז ס וואָס אַ שפּראַך מאָדעל איז בייסיקלי. נאָר זאגן וואָס ס די מאַשמאָעס פון בעת ​​אַ ספּעציפיש זאַץ אין אַ שפּראַך? אזוי וואָס איז אַז נוציק, בייסיקלי? און ערשטער פון אַלע וואָס איז אַ n-גראַם מאָדעל, דעמאָלט? אַזוי אַ n-גראַם מאָדעל מיטל אַז יעדער וואָרט דעפּענדס אויף די ווייַטער ען מינוס 1 ווערטער. אַזוי, בייסיקלי, עס מיטל אַז אויב איך קוק, פֿאַר בייַשפּיל, אין די קס50 טף ווען איך בין קאַלקיאַלייטינג די מאַשמאָעס פון דעם זאַץ, איר וועט זיין ווי "די מאַשמאָעס פון בעת ​​די וואָרט "די" מאל די מאַשמאָעס פון בעת ​​"די קס50 "מאל די מאַשמאָעס פון בעת "די קס50 טף." אַזוי, בייסיקלי, איך ציילן אַלע מעגלעך וועגן פון סטרעטשינג עס. און דעמאָלט יוזשאַוואַלי ווען איר ניטאָ טאן דעם, ווי אין אַ פּרויעקט, איר שטעלן ען צו זיין אַ נידעריק ווערט. אַזוי, יוזשאַוואַלי האָבן ביגראַמס אָדער טריגראַמס. אַזוי אַז איר נאָר ציילן צוויי ווערטער, אַ גרופּע פון ​​צוויי ווערטער, אָדער דרייַ ווערטער, נאָר פֿאַר פאָרשטעלונג ישוז. און אויך ווייַל אפֿשר אויב איר האָבן עפּעס ווי "די קס50 טף." ווען איר האָבן "טף," עס ס זייער וויכטיק אַז "קס50" איז ווייַטער צו עס, רעכט? די צוויי זאכן זענען יוזשאַוואַלי ווייַטער צו יעדער אנדערער. אויב איר טראַכטן פון "טף," עס ס מיסטאָמע געגאנגען צו האָבן וואָס סאָרט עס ס טפ'ינג פֿאַר. אויך "די" איז טאַקע וויכטיק פֿאַר קס50 טף. אבער אויב איר האָבן עפּעס ווי "די קס50 טף געגאנגען צו קלאַס און האט זייער סטודענטן עטלעכע זיסוואַרג. "" זיסוואַרג "און" די " האָבן קיין באַציונג טאַקע, רעכט? זיי ניטאָ אַזוי ווייַט פון יעדער אנדערע אַז עס טוט ניט טאַקע ענין וואָס ווערטער איר האָבן. אַזוי דורך טאן אַ ביגראַם אָדער אַ טריגראַם, עס נאָר מיטל אַז איר ניטאָ לימאַטינג זיך צו עטלעכע ווערטער וואָס זענען אַרום. מאַכן זינען? אַזוי ווען איר ווילן צו טאָן סעגמאַנטיישאַן, באַסיקאַללי, וואָס איר ווילן צו טאָן איז זען וואָס זענען אַלע די מעגלעך וועגן אַז איר קענען אָפּשניט דעם זאַץ. אַזאַ אַז איר זען וואָס איז די מאַשמאָעס פון יעדער פון די זאצן שאַפֿן אין די שפּראַך? אַזוי וואָס איר טאָן איז ווי, נו, לאָזן מיר פּרובירן צו שטעלן אַ פּלאַץ דאָ. אַזוי איר שטעלן אַ פּלאַץ עס און איר זען וואָס איז די מאַשמאָעס פון אַז זאַץ? דעמאָלט איר זענען ווי, גוט, אפֿשר אַז איז ניט אַז גוט. אַזוי איך שטעלן אַ פּלאַץ עס און אַ פּלאַץ עס, און איר רעכענען די מאַשמאָעס איצט, און איר זען אַז עס ס אַ העכער מאַשמאָעס. אַזוי דעם איז אַ אַלגערידאַם גערופן די טאַנגאָ סעגמאַנטיישאַן אַלגערידאַם, וואָס איז פאקטיש עפּעס אַז וואָלט זיין טאַקע קיל פֿאַר אַ פּרויעקט, וואָס בייסיקלי נעמט ונסעגמענטעד טעקסט וואָס קענען זיין יאַפּאַניש אָדער כינעזיש אָדער אפֿשר ענגליש אָן ספּייסאַז און פרוווט צו שטעלן ספּייסאַז צווישן ווערטער און עס טוט אַז דורך ניצן אַ שפּראַך מאָדעל און טריינג צו זען וואָס איז די העכסטן מאַשמאָעס איר קענען באַקומען. גוט. אַזוי דעם איז סעגמאַנטיישאַן. איצט סינטאַקס. אַזוי, סינטאַקס איז זייַענדיק געניצט פֿאַר אַזוי פילע זאכן רעכט איצט. אַזוי פֿאַר גראַף זוכן, פֿאַר סירי פֿאַר שיין פיל קיין טיפּ פון נאַטירלעך שפּראַך פּראַסעסינג איר האָבן. אַזוי וואָס זענען די וויכטיק זאכן וועגן סינטאַקס? אַזוי, זאצן אין אַלגעמיין האָבן וואָס מיר רופן קאַנסטיטשואַנץ. וואָס זענען מין פון ווי גרופּעס פון ווערטער וואָס האָבן אַ פֿונקציע אין די זאַץ. און זיי קענען ניט טאַקע זיין באַזונדער פון יעדער אנדערער. אַזוי, אויב איך זאָגן, פֿאַר בייַשפּיל, "לאָראַן ליב מילאָ. "איך וויסן אַז" לאָראַן "איז אַ וויילער און דעמאָלט "ליב מילאָ "איז אויך אן אנדער איינער. ווייַל איר קענען ניט זאָגן ווי "לאָראַן מילאָ ליב "צו האָבן די זעלבע טייַטש. עס ס ניט געגאנגען צו האָבן דער זעלביקער טייַטש. אָדער איך קענען ניט זאָגן ווי "מילאָ לאָראַן ליב. "ניט אַלץ האט דער זעלביקער טייַטש טאן אַז. אַזוי די צוויי מער וויכטיק זאכן וועגן סינטאַקס זענען די לעקסיש טייפּס וואָס איז בייסיקלי די פֿונקציע אַז איר האָבן פֿאַר ווערטער דורך זיך. אַזוי איר האָבן צו וויסן אַז "לאָראַן" און "מילאָ" זענען נאָונס. "ליבע" איז אַ ווערב. און די רגע וויכטיק זאַך איז אַז זיי ניטאָ פראַסאַל טייפּס. אַזוי איר וויסן אַז "ליב מילאָ" איז פאקטיש אַ מינדלעך פראַזע. אַזוי ווען איך זאָגן "לאָראַן," איך וויסן אַז לאָראַן איז טאן עפּעס. וואָס איז זי טאן? זי ס לאַווינג מילאָ. אַזוי עס ס אַ גאַנץ זאַך. אָבער זייַן קאַמפּאָונאַנץ זענען אַ נאָון און אַ ווערב. אבער צוזאַמען, זיי מאַכן אַ ווערב פראַזע. אַזוי, וואָס קענען מיר פאקטיש טאָן מיט קאַמפּיוטיישאַנאַל לינגוויסטיק? אַזוי, אויב איך האָבן עפּעס פֿאַר בייַשפּיל "פריינט פון אַליסאַן." איך זען אויב איך נאָר האט אַ סינטאַקטיק בוים איך וואָלט וויסן אַז "פריינט" איז אַ נאַון פֿראַזע עס איז אַ נאָון און דעמאָלט "פון אַליסאַן" איז אַ פּרעפּאָסיטיאָנאַל פראַזע אין וואָס "פון" איז אַ פאָרלייג און "אַליסאַן" איז אַ נאָון. וואָס איך קען טאָן איז לערנען מיין קאָמפּיוטער אַז ווען איך האָבן אַ נאַון פֿראַזע איין און דעמאָלט אַ פּרעפּאָסיטיאָנאַל פראַזע. אַזוי אין דעם פאַל, "פריינט" און דעמאָלט "פון מילאָ "איך וויסן אַז דעם מיטל אַז נפּ2, די צווייט איינער, אָונז נפּ1. אַזוי איך קענען מאַכן עטלעכע טיפּ פון באַציונג, עטלעכע מין פון פֿונקציע פֿאַר עס. אַזוי ווען איך זען דעם ביניען, וואָס שוועבעלעך פּונקט מיט "פריינט פון אַליסאַן, "איך וויסן אַז אַליסאַן אָונז די פריינט. אַזוי די פריינט זענען עפּעס אַז אַליסאַן האט. מאכט זינען? אַזוי דעם איז בייסיקלי וואָס גראַפיק זוכן טוט. עס נאָר קריייץ כּללים פֿאַר אַ פּלאַץ פון זאכן. אַזוי "פריינט פון אַליסאַן", "מיין פריינט וואס לעבן אין קיימברידזש, "" מיין פריינט וואס גיין צו האַרוואַרד. "עס קריייץ כּללים פֿאַר אַלע פון ​​די זאכן. איצט מאַשין איבערזעצונג. אַזוי, מאַשין איבערזעצונג איז אויך עפּעס סטאַטיסטיש. און פאקטיש אויב איר באַקומען ינוואַלווד אין קאַמפּיוטיישאַנאַל לינגוויסטיק, אַ פּלאַץ פון אייער שטאָפּן איז געגאנגען צו זיין סטאַטיסטיק. אַזוי ווי איך איז געווען טאן דעם בייַשפּיל מיט אַ פּלאַץ פון פּראַבאַבילאַטיז אַז איך איז געווען קאַלקיאַלייטינג, און דעמאָלט איר באַקומען צו דעם זייער קליין נומער אַז ס די לעצט מאַשמאָעס, און אַז ס וואָס גיט איר די ענטפער. מאַשין איבערזעצונג אויך ניצט אַ סטאַטיסטיש מאָדעל. און אויב איר ווילן צו טראַכטן פון מאַשין איבערזעצונג אין די סימפּלאַסט מעגלעך וועג, וואָס איר קענען טראַכטן איז פּונקט איבערזעצן וואָרט דורך וואָרט, רעכט? ווען איר ניטאָ לערנען אַ שפּראַך פֿאַר די ערשטער מאָל, אַז ס יוזשאַוואַלי וואָס איר טאָן, רעכט? אויב איר ווילן איר איבערזעצן אַ זאַץ אין דיין שפּראַך צו די שפּראַך איר ניטאָ וויסן, יוזשאַוואַלי ערשטער, איר איבערזעצן יעדער פון די ווערטער ינדיווידזשואַלי, און דעמאָלט איר פּרובירן צו שטעלן די ווערטער אין פּלאַץ. אַזוי אויב איך געוואלט צו זעץ דעם, [גערעדט פּאָרטוגעזיש] וואָס מיטל "די ווייַס קאַץ געלאפן אַוועק." אויב איך געוואלט צו זעץ עס פון פּאָרטוגעזיש צו ענגליש, וואָס איך קען טאָן איז, ערשטער, איך נאָר איבערזעצן וואָרט דורך וואָרט. אַזוי "אָ" איז "די", "גאַטאָ", "קאַץ", "בראַנקאָ", "ווייַס," און דעמאָלט "פוגיאָ" איז "געלאפן אַוועק." אַזוי דעמאָלט איך האָבן אַלע די ווערטער דאָ, אָבער זיי ניטאָ ניט אין סדר. עס ס ווי "די קאַץ ווייַס געלאפן אַוועק" וואָס איז ונגראַממאַטיקאַל. אַזוי, דעמאָלט איך קענען האָבן אַ צווייט שריט, וואָס איז געגאנגען צו זיין געפונען די ידעאַל פּאָזיציע פֿאַר יעדער פון די ווערטער. אַזוי איך וויסן אַז איך פאקטיש ווילן צו האָבן "ווייַס קאַץ" אַנשטאָט פון "קאַץ ווייַס." אַזוי וואָס איך קענען טאָן איז, די מערסט נאַיוו אופֿן וואָלט זיין צו שאַפֿן אַלע די מעגלעך פּערמיוטיישאַנז פון ווערטער, פון שטעלעס. און דעמאָלט זען וואָס איינער האט די העכסטן מאַשמאָעס לויט צו מיין שפּראַך מאָדעל. און דעמאָלט ווען איך געפינען די איינער וואס האט דעם העכסטן מאַשמאָעס עס, וואָס איז מיסטאָמע "די ווייַס קאַץ געלאפן אַוועק," אַז ס מיין איבערזעצונג. און דעם איז אַ פּשוט וועג פון יקספּליינינג ווי אַ פּלאַץ פון מאַשין איבערזעצונג אַלגערידאַמז אַרבעט. טוט וואָס מאַכן זינען? דעם איז אויך עפּעס טאַקע יקסייטינג אַז איר גייז קענען אפֿשר ויספאָרשן פֿאַר אַ לעצט פּרויעקט, יאָ? תּלמיד: גוט, איר האט עס איז געווען די נאַיוו וועג, אַזוי וואָס ס די ניט-נאַיוו וועג? לוקאַס פרעיטאַס: די ניט-נאַיוו וועג? גוט. אַזוי דער ערשטער זאַך אַז איז שלעכט וועגן דעם אופֿן איז אַז איך נאָר איבערגעזעצט ווערטער, וואָרט דורך וואָרט. אבער מאל איר האָבן ווערטער אַז קענען האָבן קייפל איבערזעצונגען. איך בין געגאנגען צו פּרובירן צו טראַכטן פון עפּעס. למשל, "מאַנגאַ" אין פּאָרטוגעזיש קענען אָדער זיין "מאַנגגאַל" אָדער "אַרבל." אַזוי ווען איר ניטאָ טריינג צו זעץ וואָרט דורך וואָרט, עס זאל זיין געבן איר עפּעס וואס מאכט קיין זינען. אַזוי איר פאקטיש ווילן צו איר קוק בייַ אַלע די מעגלעך איבערזעצונגען פון די ווערטער און זען, ערשטער פון אַלע, וואָס איז די סדר. מיר זענען גערעדט וועגן פּערמוטאַטינג די זאכן? צו זען אַלע די מעגלעך אָרדערס און קלייַבן די איינער מיט דעם העכסטן מאַשמאָעס? איר קענען אויך קלייַבן אַלע די מעגלעך איבערזעצונגען פֿאַר יעדער וואָרט און דעמאָלט זען - קאַמביינד מיט די פּערמיוטיישאַנז - וואָס איינער האט דעם העכסטן מאַשמאָעס. פּלוס, איר קענען אויך קוק בייַ ניט בלויז ווערטער אָבער פראַסעס. אַזוי איר קענען פונאַנדערקלייַבן די באַציונגען צווישן די ווערטער און דעמאָלט באַקומען אַ בעסער איבערזעצונג. אויך עפּעס אַנדערש, אַזוי דעם זמאַן איך בין אַקטשאַוואַלי טאן פאָרשונג אין כינעזיש-ענגליש מאַשין איבערזעצונג, אַזוי איבערזעצן פון כינעזיש אין ענגליש. און עפּעס מיר טאָן איז, אויסערדעם ניצן אַ סטאַטיסטיש מאָדעל, וואָס איז נאָר געזען די פּראַבאַבילאַטיז פון געזען עטלעכע שטעלע אין אַ זאַץ, איך בין פאקטיש אויך אַדינג עטלעכע סינטאַקס צו מיין מאָדעל, און געזאגט, טאַקע, אויב איך זען דעם מין פון קאַנסטראַקשאַן, דעם איז וואָס איך ווילן צו טוישן עס צו ווען איך איבערזעצן. אַזוי איר קענען אויך שטעלן עטלעכע מין פון עלעמענט פון סינטאַקס צו מאַכן די איבערזעצונג מער עפעקטיוו און מער גענוי. גוט. אַזוי ווי קענען איר באַקומען סטאַרטעד, אויב איר ווילן צו טאָן עפּעס אין קאַמפּיוטיישאַנאַל לינגוויסטיק? ערשטער, איר קלייַבן אַ פּרויעקט אַז ינוואַלווז שפּראַכן. אַזוי, עס ס אַזוי פילע אויס דאָרט. עס ס אַזוי פילע זאכן איר קענען טאָן. און דעמאָלט קענען טראַכטן פון אַ מאָדעל אַז איר קענען נוצן. וסואַללי אַז מיטל טראכטן פון אַסאַמפּשאַנז, ווי ווי, טאַקע, ווען איך איז געווען ווי טראכטן פון די ליריקס. איך איז געווען ווי, נו, אויב איך ווילן צו רעכענען אויס אַ וואס געשריבן דעם, איך מיסטאָמע ווילן צו קוקן בייַ די ווערטער דער מענטש געוויינט און זען וואס ניצט אַז וואָרט זייער אָפֿט. אַזוי פּרובירן צו מאַכן אַסאַמפּשאַנז און פּרובירן צו טראַכטן פון מאָדעלס. און דעמאָלט איר קענען אויך זוכן אָנליין פֿאַר דער מין פון פּראָבלעם אַז איר האָבן, און עס ס געגאנגען צו פֿאָרשלאָגן צו איר מאָדעלס אַז אפֿשר מאַדאַלד אַז זאַך געזונט. און אויך איר קענען שטענדיק בליצפּאָסט מיר. me@lfreitas.com. און איך קענען נאָר ענטפֿערן אייערע פראגעס. מיר קענען אפילו זאל טרעפן אַרויף אַזוי איך קענען געבן פֿירלייגן אויף וועגן פון ימפּלאַמענינג אייער פּרויעקט. און איך מיינען אויב איר באַקומען ינוואַלווד מיט קאַמפּיוטיישאַנאַל לינגוויסטיק, עס ס געגאנגען צו זיין גרויס. איר ניטאָ געגאנגען צו זען עס איז אַזוי פיל פּאָטענציעל. און די אינדוסטריע וויל צו דינגען איר אַזוי שלעכט ווייַל פון אַז. אַזוי איך האָפֿן איר גייז ינדזשויד דעם. אויב איר גייז האָבן קיין פראגעס, איר קענען פרעגן מיר נאָך דעם. אבער דאַנקען איר.