1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> LUCAS FREITAS: يا. 3 00:00:08,870 --> 00:00:09,980 نرحب بالجميع. 4 00:00:09,980 --> 00:00:11,216 اسمي لوكاس فريتاس. 5 00:00:11,216 --> 00:00:15,220 أنا شابة في [غير مسموع] دراسة علم الحاسوب مع التركيز في 6 00:00:15,220 --> 00:00:16,410 اللغويات الحاسوبية. 7 00:00:16,410 --> 00:00:19,310 حتى بلدي الثانوي في اللغة ونظرية لغوية. 8 00:00:19,310 --> 00:00:21,870 أنا متحمس حقا ليعلمك الرجال قليلا عن الميدان. 9 00:00:21,870 --> 00:00:24,300 انها منطقة مثيرة جدا للدراسة. 10 00:00:24,300 --> 00:00:27,260 أيضا مع الكثير من الامكانات للمستقبل. 11 00:00:27,260 --> 00:00:30,160 لذلك، وأنا متحمس حقا أن يا رفاق تفكر في المشاريع 12 00:00:30,160 --> 00:00:31,160 اللغويات الحاسوبية. 13 00:00:31,160 --> 00:00:35,460 وسأكون أكثر من سعيدة لتقديم المشورة أي واحد منكم إذا قررت 14 00:00:35,460 --> 00:00:37,090 متابعة واحدة من تلك. 15 00:00:37,090 --> 00:00:40,010 >> أولا حتى من كل ما هي الحسابية اللسانيات؟ 16 00:00:40,010 --> 00:00:44,630 اللغويات الحاسوبية وذلك هو التقاطع بين علم اللغة و 17 00:00:44,630 --> 00:00:46,390 علوم الكمبيوتر. 18 00:00:46,390 --> 00:00:47,415 لذلك، ما هو علم اللغة؟ 19 00:00:47,415 --> 00:00:48,490 ما هو علوم الحاسب؟ 20 00:00:48,490 --> 00:00:51,580 كذلك من اللسانيات، ما نأخذ هي اللغات. 21 00:00:51,580 --> 00:00:54,960 حتى اللسانيات هو في الواقع دراسة اللغة الطبيعية بشكل عام. 22 00:00:54,960 --> 00:00:58,330 اللغة الطبيعية لذلك - ونحن نتحدث عن اللغة التي نحن فعلا استخدام ل 23 00:00:58,330 --> 00:00:59,770 التواصل مع بعضهم البعض. 24 00:00:59,770 --> 00:01:02,200 لذلك نحن لا نتحدث بالضبط حول C أو جافا. 25 00:01:02,200 --> 00:01:05,900 نحن نتحدث أكثر عن اللغة الإنجليزية و اللغات الصينية وغيرها من أننا 26 00:01:05,900 --> 00:01:07,780 استخدامها للاتصال مع بعضها البعض. 27 00:01:07,780 --> 00:01:12,470 >> الشيء تحديا في ذلك هو أن الآن لدينا تقريبا 7،000 28 00:01:12,470 --> 00:01:14,260 اللغات في العالم. 29 00:01:14,260 --> 00:01:19,520 لذلك هناك مجموعة متنوعة جدا عالية اللغات التي يمكننا دراسة. 30 00:01:19,520 --> 00:01:22,600 ثم كنت تعتقد أنه من المحتمل من الصعب جدا القيام به، على سبيل المثال، 31 00:01:22,600 --> 00:01:26,960 الترجمة من لغة واحدة إلى الأخرى، معتبرا أن لديك 32 00:01:26,960 --> 00:01:28,240 تقريبا 7،000 منهم. 33 00:01:28,240 --> 00:01:31,450 لذلك، إذا كنت تفكر في القيام الترجمة من لغة إلى أخرى لك 34 00:01:31,450 --> 00:01:35,840 ما يقرب من أكثر من مليون تركيبات مختلفة التي يمكنك 35 00:01:35,840 --> 00:01:37,330 لديهم من لغة إلى أخرى. 36 00:01:37,330 --> 00:01:40,820 حتى انها حقا صعبة للقيام ببعض نوع من نظام الترجمة سبيل المثال ل 37 00:01:40,820 --> 00:01:43,540 كل لغة واحدة. 38 00:01:43,540 --> 00:01:47,120 >> لذلك، واللسانيات يعامل مع بناء الجملة، دلالات، البراغماتية. 39 00:01:47,120 --> 00:01:49,550 يا رفاق لا تحتاج بالضبط لمعرفة ما هي عليه. 40 00:01:49,550 --> 00:01:55,090 لكن الشيء المثير للاهتمام للغاية هو أن باعتبارها اللغة الأم، عندما تتعلم 41 00:01:55,090 --> 00:01:59,010 اللغة كما الطفل، هل تعلم فعلا كل تلك الأشياء - دلالات الجملة 42 00:01:59,010 --> 00:02:00,500 والبراغماتية - 43 00:02:00,500 --> 00:02:01,430 من قبل نفسك. 44 00:02:01,430 --> 00:02:04,820 لا أحد لديه ويعلمك بناء الجملة من أجل لك أن نفهم كيف الجمل 45 00:02:04,820 --> 00:02:05,290 منظم. 46 00:02:05,290 --> 00:02:07,980 لذلك، انها مثيرة للاهتمام حقا ل انها شيء يأتي جدا 47 00:02:07,980 --> 00:02:10,389 حدسي. 48 00:02:10,389 --> 00:02:13,190 >> وماذا أخذ من علم الكمبيوتر؟ 49 00:02:13,190 --> 00:02:16,700 حسنا، أهم شيء أننا يكون في علم الحاسوب هو الأول من 50 00:02:16,700 --> 00:02:19,340 كل شيء، الذكاء الاصطناعي وتعلم الآلة. 51 00:02:19,340 --> 00:02:22,610 لذلك، ما نحاول القيام ل اللغويات الحاسوبية هو تعليم 52 00:02:22,610 --> 00:02:26,990 جهاز الكمبيوتر الخاص بك كيفية القيام بشيء ما مع اللغة. 53 00:02:26,990 --> 00:02:28,630 >> لذلك، على سبيل المثال، في الجهاز الترجمة. 54 00:02:28,630 --> 00:02:32,490 أحاول لتعليم الكمبيوتر الخاص بي كيف لمعرفة كيفية الانتقال من واحدة 55 00:02:32,490 --> 00:02:33,310 لغة إلى أخرى. 56 00:02:33,310 --> 00:02:35,790 لذلك، أحب التدريس في الأساس كمبيوتر لغتين. 57 00:02:35,790 --> 00:02:38,870 إذا كنت تفعل معالجة اللغة الطبيعية، كما هو الحال على سبيل المثال من 58 00:02:38,870 --> 00:02:41,810 الفيسبوك في الرسم البياني البحث، يمكنك تعليم الكمبيوتر كيفية فهم 59 00:02:41,810 --> 00:02:42,730 استفسارات جيدا. 60 00:02:42,730 --> 00:02:48,130 >> لذلك، إذا أنت تقول "صور من بلادي الأصدقاء. "الفيسبوك لا يعامل أن 61 00:02:48,130 --> 00:02:51,130 كسلسلة كله أن لديها مجرد حفنة من الكلمات. 62 00:02:51,130 --> 00:02:56,020 فعلا يفهم العلاقة بين "الصور" و "أصدقائي" و 63 00:02:56,020 --> 00:02:59,620 يدرك أن "صور" هي ممتلكات "أصدقائي". 64 00:02:59,620 --> 00:03:02,350 >> لذلك، وهذا جزء من، على سبيل المثال، معالجة اللغة الطبيعية. 65 00:03:02,350 --> 00:03:04,790 انها محاولة لفهم ما هي العلاقة بين 66 00:03:04,790 --> 00:03:07,520 الكلمات في الجملة. 67 00:03:07,520 --> 00:03:11,170 والسؤال الكبير هو، يمكنك تعليم الكمبيوتر كيف يتكلم 68 00:03:11,170 --> 00:03:12,650 لغة بشكل عام؟ 69 00:03:12,650 --> 00:03:17,810 وهو سؤال مهم جدا ل أعتقد، كما لو ربما في المستقبل، 70 00:03:17,810 --> 00:03:19,930 وأنت تسير لتكون قادرة على التحدث على الهاتف الخليوي الخاص بك. 71 00:03:19,930 --> 00:03:23,290 نوع من مثل ما نقوم به مع سيري ولكن شيء أشبه، يمكنك فعلا 72 00:03:23,290 --> 00:03:25,690 تقول ما تريد والهاتف سوف تفهم كل شيء. 73 00:03:25,690 --> 00:03:28,350 ويمكن أن يكون لها متابعة الأسئلة والاستمرار في الحوار. 74 00:03:28,350 --> 00:03:30,880 هذا شيء مثير حقا، في رأيي. 75 00:03:30,880 --> 00:03:33,070 >> لذلك، شيئا عن اللغات الطبيعية. 76 00:03:33,070 --> 00:03:36,220 شيء مثير للاهتمام حقا حول اللغات الطبيعية هو أنه، وهذا هو 77 00:03:36,220 --> 00:03:38,470 الائتمان إلى بلدي اللغويات أستاذ، ماريا Polinsky. 78 00:03:38,470 --> 00:03:40,830 انها تعطي مثالا وأعتقد انها مثيرة للاهتمام حقا. 79 00:03:40,830 --> 00:03:47,060 لأننا نتعلم اللغة من عند نحن نولد ثم الأم لدينا 80 00:03:47,060 --> 00:03:49,170 اللغة النوع من ينمو علينا. 81 00:03:49,170 --> 00:03:52,570 >> وأساسا تتعلم اللغة من الحد الأدنى من المدخلات، أليس كذلك؟ 82 00:03:52,570 --> 00:03:56,700 كنت مجرد الحصول على مدخلات من هاتفك آباء ما يبدو لغتك 83 00:03:56,700 --> 00:03:58,770 تحب وتتعلم فقط. 84 00:03:58,770 --> 00:04:02,240 لذلك، انها مثيرة للاهتمام لأنه إذا نظرتم في تلك الأحكام، على سبيل المثال. 85 00:04:02,240 --> 00:04:06,980 نظرتم، "ماري يضع على كل معطف الوقت تغادر المنزل ". 86 00:04:06,980 --> 00:04:10,650 >> في هذه الحالة، فمن الممكن أن يكون كلمة "هي" إشارة إلى مريم، أليس كذلك؟ 87 00:04:10,650 --> 00:04:13,500 يمكنك أن تقول "ماري يضع على معطف في كل مرة يغادر مريم 88 00:04:13,500 --> 00:04:14,960 المنزل. "لذلك هذا شيء طيب. 89 00:04:14,960 --> 00:04:19,370 ولكن بعد ذلك إذا نظرتم الجملة "وقالت انها يضع على معطف كل مرة مريم 90 00:04:19,370 --> 00:04:22,850 يترك المنزل. "كنت أعلم أنه من المستحيل أن أقول "هي" هو 91 00:04:22,850 --> 00:04:24,260 في اشارة الى مريم. 92 00:04:24,260 --> 00:04:27,070 >> ليس هناك طريقة للقول أن "ماري يضع على معطف في كل مرة يترك ماري 93 00:04:27,070 --> 00:04:30,790 البيت ". حتى انها مثيرة للاهتمام لأن هذا هو نوع من الحدس 94 00:04:30,790 --> 00:04:32,890 أن كل اللغة الأصلية لديه. 95 00:04:32,890 --> 00:04:36,370 وكان يدرس أحد أن هذا هو الطريقة التي يعمل بناء الجملة. 96 00:04:36,370 --> 00:04:41,930 والتي يمكن أن يكون لديك فقط هذه "هي" في اشارة الى مريم في هذه الحالة الأولى، 97 00:04:41,930 --> 00:04:44,260 وفعلا في هذا الأخرى أيضا، ولكن ليس في هذا واحد. 98 00:04:44,260 --> 00:04:46,500 ولكن الجميع نوع من يحصل على نفس الجواب. 99 00:04:46,500 --> 00:04:48,580 يتفق الجميع على ذلك. 100 00:04:48,580 --> 00:04:53,280 لذلك فمن المثير للاهتمام حقا كيف على الرغم من كنت لا تعرف كل القواعد 101 00:04:53,280 --> 00:04:55,575 في لغتك التي نوع من فهم كيف تعمل اللغة. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> وبالتالي فإن الشيء المثير للاهتمام حول الطبيعية اللغة هو ان لم يكن لديك ل 104 00:05:01,530 --> 00:05:06,970 تعرف أي بناء الجملة لمعرفة ما إذا كان الجملة هو النحوية أو غير قواعدي ل 105 00:05:06,970 --> 00:05:08,810 معظم الحالات. 106 00:05:08,810 --> 00:05:13,220 الذي يجعلك تعتقد أنه ربما ما يحدث هو أنه من خلال حياتك، وكنت 107 00:05:13,220 --> 00:05:17,410 تبقي فقط الحصول على المزيد والمزيد وقال الجمل لك. 108 00:05:17,410 --> 00:05:19,800 ثم عليك أن تبقي الحفظ كل من الجمل. 109 00:05:19,800 --> 00:05:24,230 ثم عندما يقوم شخص ما يخبرك شيء، تسمع هذه الجملة و 110 00:05:24,230 --> 00:05:27,040 نظرتم مفرداتك الأحكام ومعرفة ما إذا كان 111 00:05:27,040 --> 00:05:28,270 هذه الجملة هو هناك. 112 00:05:28,270 --> 00:05:29,830 وإذا كان هناك ل نقول انها النحوية. 113 00:05:29,830 --> 00:05:31,740 إذا لم تكن أنت تقول انها غير قواعدي. 114 00:05:31,740 --> 00:05:35,150 >> لذلك، في هذه الحالة، وكنت أقول، يا، بحيث يكون لديك قائمة كبيرة من جميع 115 00:05:35,150 --> 00:05:36,140 الجمل ممكن. 116 00:05:36,140 --> 00:05:38,240 وبعد ذلك عندما تسمع الجملة، كنت أعرف ما اذا كان النحوية أو 117 00:05:38,240 --> 00:05:39,450 لا تعتمد على ذلك. 118 00:05:39,450 --> 00:05:42,360 الشيء هو أنه إذا نظرتم حكم قضائي، على سبيل المثال، "و 119 00:05:42,360 --> 00:05:47,540 ترأس خمس سنوات CS50 TFS المطبوخة المكفوفين الأخطبوط باستخدام القدح ضبا ". انها 120 00:05:47,540 --> 00:05:49,630 بالتأكيد ليست الجملة التي يسمع بها من قبل. 121 00:05:49,630 --> 00:05:52,380 ولكن في نفس الوقت كنت أعلم أنه الى حد كبير النحوية، أليس كذلك؟ 122 00:05:52,380 --> 00:05:55,570 لا توجد أخطاء نحوية ويمكنك القول بأن 123 00:05:55,570 --> 00:05:57,020 انها الجملة ممكن. 124 00:05:57,020 --> 00:06:01,300 >> لذلك يجعلنا نعتقد أن الواقع الطريقة التي نتعلم اللغة ليست فقط 125 00:06:01,300 --> 00:06:07,090 من خلال وجود قاعدة بيانات ضخمة من الممكن الكلمات أو الجمل، ولكن أكثر من 126 00:06:07,090 --> 00:06:11,490 فهم العلاقة بين كلمات في تلك الأحكام. 127 00:06:11,490 --> 00:06:14,570 فهل هذا يعقل؟ 128 00:06:14,570 --> 00:06:19,370 لذلك، فإن السؤال هو، يمكن أجهزة الكمبيوتر تعلم لغات؟ 129 00:06:19,370 --> 00:06:21,490 يمكننا تعليم اللغة لأجهزة الكمبيوتر؟ 130 00:06:21,490 --> 00:06:24,230 >> لذلك، دعونا نفكر في الفرق بين اللغة الأصلية للغة 131 00:06:24,230 --> 00:06:25,460 وجهاز كمبيوتر. 132 00:06:25,460 --> 00:06:27,340 لذلك، فإن ما يحدث للمتكلم؟ 133 00:06:27,340 --> 00:06:30,430 جيدا، واللغة الأم يتعلم اللغة من التعرض له. 134 00:06:30,430 --> 00:06:34,200 عادة سنواتها في مرحلة الطفولة المبكرة. 135 00:06:34,200 --> 00:06:38,570 لذلك، في الأساس، لديك مجرد طفل، وعليك أن تبقي التحدث إليها، وذلك 136 00:06:38,570 --> 00:06:40,540 فقط يتعلم كيف يتكلم اللغة، أليس كذلك؟ 137 00:06:40,540 --> 00:06:42,660 لذلك، أنت تعطي أساسا المدخلات للطفل. 138 00:06:42,660 --> 00:06:45,200 لذلك، ثم يمكنك القول بأن جهاز كمبيوتر يمكن أن تفعل الشيء نفسه، أليس كذلك؟ 139 00:06:45,200 --> 00:06:49,510 يمكنك فقط إعطاء اللغة كمدخل إلى الكمبيوتر. 140 00:06:49,510 --> 00:06:53,410 >> وعلى سبيل المثال مجموعة من الملفات التي لديها الكتب باللغة الإنجليزية. 141 00:06:53,410 --> 00:06:56,190 وربما هذا هو أحد السبل التي ربما يمكن تعليم 142 00:06:56,190 --> 00:06:57,850 الكمبيوتر الإنجليزية، أليس كذلك؟ 143 00:06:57,850 --> 00:07:01,000 وفي الواقع، إذا كنت تفكر في ذلك، يأخذك ربما بضعة 144 00:07:01,000 --> 00:07:02,680 أيام لقراءة الكتاب. 145 00:07:02,680 --> 00:07:05,760 لجهاز كمبيوتر فإنه يأخذ ثانية ل ننظر في كل الكلمات في كتاب. 146 00:07:05,760 --> 00:07:10,810 لذلك يمكن ان يخطر لك أن هذا قد يكون مجرد حجة مدخلات من حولك، 147 00:07:10,810 --> 00:07:15,440 هذا لا يكفي أن نقول إن هذا هو شيء أن البشر فقط يمكن القيام به. 148 00:07:15,440 --> 00:07:17,680 يمكنك أن تفكر أجهزة الكمبيوتر كما يمكن الحصول على المدخلات. 149 00:07:17,680 --> 00:07:21,170 >> الشيء الثاني هو أن الناطقين بها كما أن لديه الدماغ التي 150 00:07:21,170 --> 00:07:23,870 القدرة تعلم اللغة. 151 00:07:23,870 --> 00:07:27,020 ولكن إذا كنت تفكر في ذلك، الدماغ هو شيء صلب. 152 00:07:27,020 --> 00:07:30,450 عندما يولد لك، انها بالفعل تعيين - 153 00:07:30,450 --> 00:07:31,320 هذا هو الدماغ. 154 00:07:31,320 --> 00:07:34,660 وكما تكبر، كنت فقط الحصول على مزيد من إدخال اللغة وربما المغذيات 155 00:07:34,660 --> 00:07:35,960 وغيرها من الاشياء. 156 00:07:35,960 --> 00:07:38,170 ولكن الى حد كبير الخاصة بك الدماغ هو شيء صلب. 157 00:07:38,170 --> 00:07:41,290 >> لذلك يمكنك أن تقول، حسنا، ربما يمكنك بناء جهاز كمبيوتر يحتوي على مجموعة من 158 00:07:41,290 --> 00:07:45,890 وظائف والأساليب التي تحاكي فقط القدرة تعلم اللغة. 159 00:07:45,890 --> 00:07:49,630 حتى في هذا المعنى، يمكن القول، حسنا، أنا يمكن أن يكون جهاز كمبيوتر يحتوي على جميع 160 00:07:49,630 --> 00:07:52,270 الأشياء التي كنت بحاجة إلى أن نتعلم اللغة. 161 00:07:52,270 --> 00:07:56,200 وآخر شيء هو أن الأم يتعلم المتكلم من التجربة والخطأ. 162 00:07:56,200 --> 00:08:01,090 وذلك أساسا شيء آخر مهم في تعلم اللغة هو أنك النوع 163 00:08:01,090 --> 00:08:05,340 من تعلم أشياء بجعل التعميمات ما تسمع. 164 00:08:05,340 --> 00:08:10,280 >> حتى وأنت تنمو فأنت تعلم أن بعض الكلمات هي أشبه الأسماء، 165 00:08:10,280 --> 00:08:11,820 بعض منها هي الصفات الأخرى. 166 00:08:11,820 --> 00:08:14,250 وليس لديك لديك أي علم اللغويات 167 00:08:14,250 --> 00:08:15,040 لفهم ذلك. 168 00:08:15,040 --> 00:08:18,560 لكنك تعلم فقط هناك بعض الكلمات وتتمركز في جزء من 169 00:08:18,560 --> 00:08:22,570 الجملة والبعض الآخر في أخرى أجزاء من الجملة. 170 00:08:22,570 --> 00:08:26,110 >> وأنه عندما كنت تفعل شيئا وهذا هو مثل الجملة التي ليست صحيحة - 171 00:08:26,110 --> 00:08:28,770 ربما بسبب وجود أكثر من التعميم على سبيل المثال. 172 00:08:28,770 --> 00:08:32,210 ربما عندما كنت أشب عن الطوق، لاحظت أن الجمع عادة 173 00:08:32,210 --> 00:08:35,809 التي شكلتها وضع S في في نهاية الكلمة. 174 00:08:35,809 --> 00:08:40,042 ثم حاولت القيام صيغة الجمع من "الغزلان" كما "الغزلان" أو "الأسنان"، كما 175 00:08:40,042 --> 00:08:44,780 "tooths". حتى ذلك الحين والديك أو شخص ما يصحح لك ويقول: لا، 176 00:08:44,780 --> 00:08:49,020 الجمع "الغزلان" هو "الغزلان"، و الجمع "الأسنان" هو "الأسنان". ثم 177 00:08:49,020 --> 00:08:50,060 تتعلم هذه الأشياء. 178 00:08:50,060 --> 00:08:51,520 حتى تتعلم من التجربة والخطأ. 179 00:08:51,520 --> 00:08:53,100 >> ولكن يمكنك أن تفعل أيضا أن مع جهاز الكمبيوتر. 180 00:08:53,100 --> 00:08:55,310 هل يمكن أن يكون ما يسمى تعزيز التعلم. 181 00:08:55,310 --> 00:08:58,560 التي هي في الأساس مثل إعطاء الكمبيوتر مكافأة كلما كان يفعل 182 00:08:58,560 --> 00:08:59,410 شيء بشكل صحيح. 183 00:08:59,410 --> 00:09:04,710 ويعطيها عكس مكافأة وعندما يفعل شيئا خاطئا. 184 00:09:04,710 --> 00:09:07,410 يمكنك ان ترى في الواقع أن إذا ذهبت لترجمة غوغل ومحاولة 185 00:09:07,410 --> 00:09:10,220 ترجمة الجملة، فإنه يسألك عن ردود الفعل. 186 00:09:10,220 --> 00:09:13,240 حتى إذا كنت أقول، يا، وهناك أفضل ترجمة لهذه الجملة. 187 00:09:13,240 --> 00:09:18,140 يمكنك كتابة عنه ثم إذا كان الكثير من يحتفظ الناس قائلا هذا هو أفضل 188 00:09:18,140 --> 00:09:21,560 الترجمة، فإنه يتعلم مجرد أنه يجب أن تستخدم بدلا من أن الترجمة 189 00:09:21,560 --> 00:09:22,960 واحد كان العطاء. 190 00:09:22,960 --> 00:09:28,830 >> لذلك، انها مسألة فلسفية جدا لمعرفة ما إذا أجهزة الكمبيوتر ستكون 191 00:09:28,830 --> 00:09:30,340 قادرا على التحدث أم لا في المستقبل. 192 00:09:30,340 --> 00:09:34,440 ولكن لدي آمال كبيرة في أن ما في وسعهم تستند فقط على تلك الحجج. 193 00:09:34,440 --> 00:09:38,570 لكنه أكثر من مجرد الفلسفية السؤال. 194 00:09:38,570 --> 00:09:43,460 >> وذلك في حين لا تزال أجهزة الكمبيوتر لا يمكن الحديث، ما هي الأشياء التي يمكننا القيام به؟ 195 00:09:43,460 --> 00:09:47,070 بعض الأشياء باردة حقا هي تصنيف البيانات. 196 00:09:47,070 --> 00:09:53,210 لذلك، على سبيل المثال، أنت تعرف الرجال أن خدمات البريد الإلكتروني القيام به، ل 197 00:09:53,210 --> 00:09:55,580 سبيل المثال، فلترة البريد المزعج. 198 00:09:55,580 --> 00:09:59,070 لذلك كلما كنت تلقي البريد المزعج، و يحاول تصفية لمربع آخر. 199 00:09:59,070 --> 00:10:00,270 فكيف يفعل ذلك؟ 200 00:10:00,270 --> 00:10:06,080 انها ليست مثل الكمبيوتر يعرف فقط عناوين البريد الإلكتروني ما يتم إرسال البريد المزعج. 201 00:10:06,080 --> 00:10:09,130 حتى انها أكثر استنادا إلى محتوى الرسالة، أو ربما العنوان، أو 202 00:10:09,130 --> 00:10:11,310 ربما بعض النمط الذي لديك. 203 00:10:11,310 --> 00:10:15,690 >> لذلك، في الأساس، ما يمكنك القيام به هو الحصول على الكثير من البيانات من رسائل البريد الإلكتروني التي هي البريد المزعج، 204 00:10:15,690 --> 00:10:19,980 رسائل البريد الإلكتروني التي لا البريد المزعج، ومعرفة ما نوع من أنماط لديك في 205 00:10:19,980 --> 00:10:21,000 تلك التي هي غير مرغوب فيها. 206 00:10:21,000 --> 00:10:23,260 وهذا هو جزء من الحسابية اللغويات. 207 00:10:23,260 --> 00:10:24,720 انه دعا تصنيف البيانات. 208 00:10:24,720 --> 00:10:28,100 ونحن في طريقنا لرؤية الواقع مثال على ذلك في الشرائح القادمة. 209 00:10:28,100 --> 00:10:32,910 >> الشيء الثاني هو اللغة الطبيعية تجهيز وهو الشيء الذي 210 00:10:32,910 --> 00:10:36,580 الرسم البياني بحث يقوم به من السماح أن تكتب الجملة. 211 00:10:36,580 --> 00:10:38,690 وأنه يثق أنك تفهم ما هو معنى ويعطي 212 00:10:38,690 --> 00:10:39,940 لك نتيجة أفضل. 213 00:10:39,940 --> 00:10:43,880 في الواقع، إذا ذهبت إلى غوغل أو بنج وكنت ابحث شيئا مثل سيدة 214 00:10:43,880 --> 00:10:47,060 ارتفاع غاغا، وأنت تسير في الواقع للحصول على 5 '1 "بدلا من المعلومات 215 00:10:47,060 --> 00:10:50,170 من وظيفتها لأنه يفهم الواقع ما نتحدث عنه. 216 00:10:50,170 --> 00:10:52,140 لذلك هذا جزء من الطبيعية معالجة اللغة. 217 00:10:52,140 --> 00:10:57,000 >> أو أيضا عندما كنت تستخدم سيري، الأولى لديك خوارزمية الذي يحاول 218 00:10:57,000 --> 00:11:01,130 ترجمة ما تقوله في الكلمات، في النص. 219 00:11:01,130 --> 00:11:03,690 وبعد ذلك يحاول ان يترجم ذلك في المعنى. 220 00:11:03,690 --> 00:11:06,570 ذلك أن كل جزء من الطبيعية معالجة اللغة. 221 00:11:06,570 --> 00:11:08,320 >> ثم لديك الترجمة الآلية - 222 00:11:08,320 --> 00:11:10,300 الذي هو في الواقع واحد من المفضلة - 223 00:11:10,300 --> 00:11:14,060 الذي هو مجرد ترجمة من لغة إلى أخرى. 224 00:11:14,060 --> 00:11:17,950 لذلك يمكن ان يخطر لك أنه عندما تفعلونه الترجمة الآلية، لديك 225 00:11:17,950 --> 00:11:19,750 الاحتمالات لا حصر له من الجمل. 226 00:11:19,750 --> 00:11:22,960 لذلك ليس هناك طريقة لتخزين فقط كل الترجمة احد. 227 00:11:22,960 --> 00:11:27,440 ولذلك عليك أن تأتي مع اهتمام خوارزميات لتكون قادرة على 228 00:11:27,440 --> 00:11:30,110 ترجمة كل واحد الجملة بطريقة أو بأخرى. 229 00:11:30,110 --> 00:11:32,483 >> يا رفاق لديك أي أسئلة حتى الآن؟ 230 00:11:32,483 --> 00:11:34,450 لا؟ 231 00:11:34,450 --> 00:11:34,830 موافق. 232 00:11:34,830 --> 00:11:36,900 >> وذلك ما نحن ذاهبون لرؤية اليوم؟ 233 00:11:36,900 --> 00:11:39,300 أولا، انا ذاهب الى الحديث عن المشكلة التصنيف. 234 00:11:39,300 --> 00:11:41,440 حتى تلك التي كنت يقولون عن البريد المزعج. 235 00:11:41,440 --> 00:11:46,820 ما أنا بصدد القيام به هو، كلمات معين إلى أغنية، يمكنك محاولة لمعرفة 236 00:11:46,820 --> 00:11:49,810 مع احتمال كبير من هو المغني؟ 237 00:11:49,810 --> 00:11:53,590 دعنا نقول أن لدي أغنيات من سيدة غاغا وكاتي بيري، وإذا أعطي لك و 238 00:11:53,590 --> 00:11:58,130 أغنية جديدة، يمكنك معرفة ما اذا كان انها كاتي بيري أو سيدة غاغا؟ 239 00:11:58,130 --> 00:12:01,490 >> ثانية واحدة، وأنا ذاهب لمجرد الحديث حول المشكلة تجزئة. 240 00:12:01,490 --> 00:12:05,780 لذلك أنا لا أعرف إذا كنت تعرف الرجال، ولكن الصينية واليابانية وغيرها من شرق آسيا 241 00:12:05,780 --> 00:12:08,090 اللغات، وغيرها من اللغات بشكل عام، لم يكن لديك 242 00:12:08,090 --> 00:12:09,830 المسافات بين الكلمات. 243 00:12:09,830 --> 00:12:13,540 ثم إذا كنت تفكر في الطريقة التي الكريمة الكمبيوتر من يحاول 244 00:12:13,540 --> 00:12:18,600 فهم معالجة اللغة الطبيعية، يبدو في الكلمات و 245 00:12:18,600 --> 00:12:21,500 يحاول فهم العلاقات بينهما، أليس كذلك؟ 246 00:12:21,500 --> 00:12:25,440 ولكن بعد ذلك إذا كان لديك الصينية، وكنت لديها مساحات الصفر، انها حقا من الصعب 247 00:12:25,440 --> 00:12:28,360 معرفة ما هي العلاقة بين الكلمات، لأنهم ليس لديهم أي 248 00:12:28,360 --> 00:12:29,530 كلمات في البداية. 249 00:12:29,530 --> 00:12:32,600 ولذلك عليك أن تفعل شيئا يسمى تجزئة مما يعني مجرد وضع 250 00:12:32,600 --> 00:12:36,490 المسافات بين ما كنا ندعو الكلمات في هذه اللغات. 251 00:12:36,490 --> 00:12:37,740 معنى؟ 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> ثم نحن في طريقنا لل الحديث عن بناء الجملة. 254 00:12:41,540 --> 00:12:44,050 حتى قليلا عن الطبيعي معالجة اللغة. 255 00:12:44,050 --> 00:12:45,420 انها سوف تكون مجرد لمحة عامة. 256 00:12:45,420 --> 00:12:50,700 حتى اليوم، وأساسا ما أريد القيام به وتعطيك الرجال قليلا ل 257 00:12:50,700 --> 00:12:53,930 داخل ما هي الاحتمالات ما يمكنك القيام به مع حسابية 258 00:12:53,930 --> 00:12:54,960 اللغويات. 259 00:12:54,960 --> 00:13:00,410 ثم يمكنك ان ترى ما هو رأيك هو بارد بين تلك الأشياء. 260 00:13:00,410 --> 00:13:02,270 وربما يمكنك التفكير في المشروع ويأتي الحديث معي. 261 00:13:02,270 --> 00:13:05,260 وأستطيع أن أعطي لكم المشورة بشأن كيفية تنفيذ ذلك. 262 00:13:05,260 --> 00:13:09,060 >> لذلك جملة سيكون قليلا حول الرسم البياني آلة البحث و 263 00:13:09,060 --> 00:13:09,670 الترجمة. 264 00:13:09,670 --> 00:13:13,650 أنا ذاهب لمجرد إعطاء مثال عن كيفية هل يمكن، على سبيل المثال، ترجمة 265 00:13:13,650 --> 00:13:16,020 شيء من البرتغالية إلى الإنجليزية. 266 00:13:16,020 --> 00:13:17,830 يبدو جيدا؟ 267 00:13:17,830 --> 00:13:19,293 >> لذلك أولا، مشكلة التصنيف. 268 00:13:19,293 --> 00:13:23,590 أنا أقول أن هذا الجزء من الندوة ستكون أصعب 269 00:13:23,590 --> 00:13:27,560 واحد فقط لأن هناك يحدث أن تكون بعض الترميز. 270 00:13:27,560 --> 00:13:29,470 لكنها ستكون بيثون. 271 00:13:29,470 --> 00:13:34,380 وأنا أعلم يا رفاق لا أعرف بيثون، لذلك أنا فقط ذاهب إلى شرح على ارتفاع 272 00:13:34,380 --> 00:13:35,750 مستوى ما أفعله. 273 00:13:35,750 --> 00:13:40,900 وليس لديك لرعاية حقا جدا الكثير حول بناء الجملة لأن هذا هو 274 00:13:40,900 --> 00:13:42,140 شيء يمكنك معرفة الرجال. 275 00:13:42,140 --> 00:13:42,540 موافق؟ 276 00:13:42,540 --> 00:13:43,580 يبدو جيدا. 277 00:13:43,580 --> 00:13:46,020 >> فما هي المشكلة التصنيف؟ 278 00:13:46,020 --> 00:13:49,140 لذلك كنت أعطيت بعض كلمات ل أغنية، وتريد أن يخمن 279 00:13:49,140 --> 00:13:50,620 الذي يغني عليه. 280 00:13:50,620 --> 00:13:54,045 وهذا يمكن أن يكون في أي نوع من المشاكل الأخرى. 281 00:13:54,045 --> 00:13:59,980 لذلك يمكن، على سبيل المثال، لديك حملة الانتخابات الرئاسية وكان لديك 282 00:13:59,980 --> 00:14:02,610 الكلام، وأنت تريد أن تجد ما إذا كان، على سبيل المثال، 283 00:14:02,610 --> 00:14:04,470 أوباما أو ميت رومني. 284 00:14:04,470 --> 00:14:07,700 أو هل يمكن أن يكون حفنة من رسائل البريد الإلكتروني و تريد معرفة إذا كانت 285 00:14:07,700 --> 00:14:08,890 الرسائل غير المرغوب فيها أو لا. 286 00:14:08,890 --> 00:14:11,440 حتى انها مجرد تصنيف بعض البيانات استنادا إلى كلمات 287 00:14:11,440 --> 00:14:13,790 أن يكون لديك هناك. 288 00:14:13,790 --> 00:14:16,295 >> حتى أن تفعل ذلك، لديك ل جعل بعض الافتراضات. 289 00:14:16,295 --> 00:14:20,570 لذلك الكثير حول اللغويات الحاسوبية هو جعل الافتراضات، 290 00:14:20,570 --> 00:14:24,100 الافتراضات عادة الذكية، بحيث يمكنك الحصول على نتائج جيدة. 291 00:14:24,100 --> 00:14:26,670 في محاولة لخلق نموذج لذلك. 292 00:14:26,670 --> 00:14:31,290 ومن ثم محاولة الخروج منها ونرى ما اذا كان يعمل، إذا أنها تعطيك الدقة جيدة. 293 00:14:31,290 --> 00:14:33,940 وإذا فعلت ذلك، فإنك محاولة تحسينه. 294 00:14:33,940 --> 00:14:37,640 إذا لم يحدث ذلك، كنت مثل، حسنا، ربما أنا ينبغي أن افتراض مختلفة. 295 00:14:37,640 --> 00:14:44,030 >> حتى على افتراض أننا ذاهبون الى جعل هو أن الفنان يغني عادة 296 00:14:44,030 --> 00:14:49,220 حول موضوع عدة مرات، وربما يستخدم الكلمات عدة مرات فقط 297 00:14:49,220 --> 00:14:50,270 لأنهم معتادون على ذلك. 298 00:14:50,270 --> 00:14:51,890 يمكنك مجرد التفكير صديقك. 299 00:14:51,890 --> 00:14:57,350 أنا متأكد يا رفاق جميعا أصدقاء تقول العبارة بالتوقيع عليها، 300 00:14:57,350 --> 00:14:59,260 حرفيا لكل جملة واحدة - 301 00:14:59,260 --> 00:15:02,660 مثل بعض كلمة معينة أو بعض محددة العبارة التي يقولون لل 302 00:15:02,660 --> 00:15:04,020 كل جملة واحدة. 303 00:15:04,020 --> 00:15:07,920 >> وماذا يمكن أن أقوله هو أنه إذا كنت ترى الجملة التي لديها توقيع 304 00:15:07,920 --> 00:15:11,450 العبارة، يمكنك أن تحزر ذلك ربما صديقك هو 305 00:15:11,450 --> 00:15:13,310 أحد يقول ذلك، أليس كذلك؟ 306 00:15:13,310 --> 00:15:18,410 لذلك يمكنك كسب هذا الافتراض ثم هذه هي الطريقة التي خلق نموذج. 307 00:15:18,410 --> 00:15:24,440 >> المثال الذي أنا ذاهب لإعطاء على كيف ليدي غاغا، على سبيل المثال، والناس 308 00:15:24,440 --> 00:15:27,430 تقول إنها تستخدم "طفل" ل جميع أغانيها رقم واحد. 309 00:15:27,430 --> 00:15:32,270 وفعلا هذا هو الفيديو الذي يظهر لها قول كلمة "طفل" ل 310 00:15:32,270 --> 00:15:33,410 أغنيات مختلفة. 311 00:15:33,410 --> 00:15:33,860 >> [تشغيل الفيديو] 312 00:15:33,860 --> 00:15:34,310 >> - (الغناء) طفل. 313 00:15:34,310 --> 00:15:36,220 الطفل. 314 00:15:36,220 --> 00:15:37,086 الطفل. 315 00:15:37,086 --> 00:15:37,520 الطفل. 316 00:15:37,520 --> 00:15:37,770 الطفل. 317 00:15:37,770 --> 00:15:38,822 فاتنة. 318 00:15:38,822 --> 00:15:39,243 الطفل. 319 00:15:39,243 --> 00:15:40,085 الطفل. 320 00:15:40,085 --> 00:15:40,510 الطفل. 321 00:15:40,510 --> 00:15:40,850 الطفل. 322 00:15:40,850 --> 00:15:41,090 >> [END تشغيل الفيديو- 323 00:15:41,090 --> 00:15:44,020 >> LUCAS FREITAS: لذلك هناك، كما أعتقد، 40 أغنية هنا تقول فيها لل 324 00:15:44,020 --> 00:15:48,690 كلمة "طفل". بحيث يمكنك تخمين أساسا إذا كنت ترى أن الأغنية التي لديها 325 00:15:48,690 --> 00:15:52,180 كلمة "طفل" هناك بعض عالية احتمال أنه من سيدة غاغا. 326 00:15:52,180 --> 00:15:56,450 ولكن دعونا نحاول تطوير هذا مزيد من أكثر رسميا. 327 00:15:56,450 --> 00:16:00,470 >> لذلك فان هذه هي كلمات لأغنيات سيدة غاغا وكاتي بيري. 328 00:16:00,470 --> 00:16:04,120 لذا تبدو في يدي غاغا، ترى أنها لديهم الكثير من الحوادث من "طفل"، وهو 329 00:16:04,120 --> 00:16:07,710 الكثير من الحوادث من "الطريق". ثم كاتي بيري لديها الكثير من الحوادث من 330 00:16:07,710 --> 00:16:10,360 "على" الكثير من الحوادث من "النار". 331 00:16:10,360 --> 00:16:14,560 >> وذلك أساسا ما نريد القيام به هو، وتحصل على غنائي. 332 00:16:14,560 --> 00:16:20,480 دعنا نقول أن تحصل على غنائي ل الأغنية التي هي "الطفل" عادل "طفل". إذا 333 00:16:20,480 --> 00:16:24,750 كنت مجرد الحصول على كلمة "طفل"، وهذا هو كل البيانات التي لديك من 334 00:16:24,750 --> 00:16:27,880 سيدة غاغا وكاتي بيري، والذين كنت أخمن هو الشخص 335 00:16:27,880 --> 00:16:29,370 الذي يغني أغنية؟ 336 00:16:29,370 --> 00:16:32,360 سيدة غاغا كاتي بيري أو؟ 337 00:16:32,360 --> 00:16:33,150 سيدة غاغا، أليس كذلك؟ 338 00:16:33,150 --> 00:16:37,400 لأنها هي الشخص الوحيد الذي يقول "الطفل". هذا يبدو غبيا، أليس كذلك؟ 339 00:16:37,400 --> 00:16:38,760 حسنا، هذا هو السهل حقا. 340 00:16:38,760 --> 00:16:41,860 أنا مجرد النظر في أغنيتين و بطبيعة الحال، انها الشخص الوحيد الذي لديه 341 00:16:41,860 --> 00:16:42,660 "الطفل". 342 00:16:42,660 --> 00:16:44,740 >> ولكن ماذا لو كان لديك حفنة من الكلمات؟ 343 00:16:44,740 --> 00:16:50,900 إذا كان لديك غنائي الفعلية، شيء مثل، "الطفل، وأنا فقط 344 00:16:50,900 --> 00:16:51,610 ذهبت لرؤية [؟ وتمويل الإرهاب؟] 345 00:16:51,610 --> 00:16:54,020 محاضرة "، أو شيء من هذا القبيل، و ثم لديك لمعرفة الواقع - 346 00:16:54,020 --> 00:16:55,780 بناء على كل تلك الكلمات - 347 00:16:55,780 --> 00:16:58,350 من هو الفنان الذي ربما غنت هذه الأغنية؟ 348 00:16:58,350 --> 00:17:01,860 لذلك دعونا نحاول تطوير هذا أبعد قليلا. 349 00:17:01,860 --> 00:17:05,630 >> موافق، مستندا في ذلك فقط على البيانات التي نحن حصلت، يبدو أن غاغا هو على الارجح 350 00:17:05,630 --> 00:17:06,260 المغني. 351 00:17:06,260 --> 00:17:07,904 ولكن كيف يمكن أن نكتب هذا أكثر رسميا؟ 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 وهناك سيكون قليلا قليلا من الإحصاءات. 354 00:17:13,140 --> 00:17:15,880 لذلك إذا كنت تضيع، مجرد محاولة لفهم هذا المفهوم. 355 00:17:15,880 --> 00:17:18,700 لا يهم إذا كنت فهم المعادلات جيدا. 356 00:17:18,700 --> 00:17:22,150 هذا هو كل شيء سيكون على الانترنت. 357 00:17:22,150 --> 00:17:25,490 >> وذلك أساسا ما أنا هو حساب احتمال أن هذه الأغنية هي 358 00:17:25,490 --> 00:17:28,040 سيدة غاغا بالنظر إلى أن - 359 00:17:28,040 --> 00:17:30,660 لذلك هذا يعني بالنظر إلى أن شريط - 360 00:17:30,660 --> 00:17:33,680 رأيت كلمة "طفل". فهل هذا يعقل؟ 361 00:17:33,680 --> 00:17:35,540 لذلك أنا أحاول أن حساب هذا الاحتمال. 362 00:17:35,540 --> 00:17:38,540 >> حتى لا يكون هناك نظرية تسمى هذه نظرية بايز التي تقول أن 363 00:17:38,540 --> 00:17:43,330 احتمال A B معين، هو احتمال B يعطى، أضعاف 364 00:17:43,330 --> 00:17:47,660 احتمال A، أكثر من احتمال من B. هذا هو معادلة طويلة. 365 00:17:47,660 --> 00:17:51,970 ولكن ما يجب أن نفهم من ذلك أن هذا هو ما أريد أن 366 00:17:51,970 --> 00:17:52,830 حساب، أليس كذلك؟ 367 00:17:52,830 --> 00:17:56,570 وبالتالي فإن احتمال أن تلك الأغنية هي سيدة غاغا بالنظر إلى أن رأيت كلمة 368 00:17:56,570 --> 00:17:58,230 "الطفل". 369 00:17:58,230 --> 00:18:02,960 >> والآن ماذا انني اتلقى هو احتمال كلمة "طفل" نظرا 370 00:18:02,960 --> 00:18:04,390 أن لدي ليدي غاغا. 371 00:18:04,390 --> 00:18:07,220 وما هو الأساس الذي؟ 372 00:18:07,220 --> 00:18:10,500 ما يعنيه ذلك هو، ما هو احتمال رؤية كلمة "طفل" 373 00:18:10,500 --> 00:18:12,130 في كلمات غاغا؟ 374 00:18:12,130 --> 00:18:16,240 إذا أريد لحساب أنه في غاية طريقة بسيطة، انها مجرد عدد 375 00:18:16,240 --> 00:18:23,640 مرة أرى "طفل" على العدد الكلي الكلمات في كلمات غاغا، أليس كذلك؟ 376 00:18:23,640 --> 00:18:27,600 ما هو التردد الذي أراه تلك الكلمة في العمل غاغا؟ 377 00:18:27,600 --> 00:18:30,530 معنى؟ 378 00:18:30,530 --> 00:18:33,420 >> المصطلح الثاني هو احتمال غاغا. 379 00:18:33,420 --> 00:18:34,360 ماذا يعني ذلك؟ 380 00:18:34,360 --> 00:18:38,550 وهذا يعني في الأساس، ما هو احتمال تصنيف 381 00:18:38,550 --> 00:18:40,690 بعض كلمات كما غاغا؟ 382 00:18:40,690 --> 00:18:45,320 وهذا هو نوع غريب، ولكن دعونا نفكر على سبيل المثال. 383 00:18:45,320 --> 00:18:49,230 لذلك دعونا نقول أن احتمال وجود "طفل" في أغنية هو نفسه 384 00:18:49,230 --> 00:18:51,760 لغاغا وبريتني سبيرز. 385 00:18:51,760 --> 00:18:54,950 ولكن بريتني سبيرز لديها مرتين المزيد من الأغاني من سيدة غاغا. 386 00:18:54,950 --> 00:19:00,570 لذلك إذا كان شخص ما يعطي فقط لك عشوائيا كلمات "بيبي"، وأول شيء يجب 387 00:19:00,570 --> 00:19:04,710 ننظر هو، ما هو احتمال وجود "طفل" في أغنية غاغا، "طفل" 388 00:19:04,710 --> 00:19:05,410 في أغنية بريتني؟ 389 00:19:05,410 --> 00:19:06,460 وانها نفس الشيء. 390 00:19:06,460 --> 00:19:10,040 >> وبالتالي فإن الشيء الثاني أن عليك أن تراه هو، حسنا، ما هو احتمال 391 00:19:10,040 --> 00:19:13,770 هذه غنائي في حد ذاته كونه غنائي غاغا، وما هو احتمال 392 00:19:13,770 --> 00:19:15,380 كونه غنائي بريتني؟ 393 00:19:15,380 --> 00:19:18,950 منذ ذلك بريتني لديها الكثير من كلمات أكثر من غاغا، وربما تفعل 394 00:19:18,950 --> 00:19:21,470 ويقول، أيضا، وربما هذا هو بريتني غنائي. 395 00:19:21,470 --> 00:19:23,340 ولهذا السبب لدينا هذا مصطلح الحق هنا. 396 00:19:23,340 --> 00:19:24,670 احتمال غاغا. 397 00:19:24,670 --> 00:19:26,950 من المنطقي؟ 398 00:19:26,950 --> 00:19:28,660 أليس كذلك؟ 399 00:19:28,660 --> 00:19:29,370 موافق. 400 00:19:29,370 --> 00:19:33,500 >> وآخر واحد هو مجرد احتمال من "طفل" التي لا 401 00:19:33,500 --> 00:19:34,810 حقا يهم كثيرا. 402 00:19:34,810 --> 00:19:39,940 ولكن هذا احتمال رؤية "طفل" في اللغة الإنجليزية. 403 00:19:39,940 --> 00:19:42,725 ونحن عادة لا يهمني أن الكثير عن هذا المصطلح. 404 00:19:42,725 --> 00:19:44,490 فهل هذا يعقل؟ 405 00:19:44,490 --> 00:19:48,110 وبالتالي فإن احتمال غاغا هو دعا احتمال مسبق 406 00:19:48,110 --> 00:19:49,530 من غاغا الطبقة. 407 00:19:49,530 --> 00:19:53,840 لأن ذلك يعني فقط أن، ما هو احتمال وجود تلك الفئة - 408 00:19:53,840 --> 00:19:55,520 وهو غاغا - 409 00:19:55,520 --> 00:19:59,350 فقط في العام، فقط بدون شروط. 410 00:19:59,350 --> 00:20:02,560 >> ومن ثم عندما يكون لدي احتمال نظرا غاغا "الطفل"، ونحن نسميها زائد 411 00:20:02,560 --> 00:20:06,160 الدموع تنهمر احتمال لأنه احتمال وجود 412 00:20:06,160 --> 00:20:08,300 غاغا إعطاء بعض الأدلة. 413 00:20:08,300 --> 00:20:11,050 لذلك أنا أقدم لك الأدلة رأيت أن الطفل كلمة و 414 00:20:11,050 --> 00:20:12,690 الأغنية معنى؟ 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 موافق. 417 00:20:16,410 --> 00:20:22,400 >> حتى إذا كنت تحسب أن لكل من الأغاني ليدي غاغا، 418 00:20:22,400 --> 00:20:25,916 ما من شأنه أن يكون - 419 00:20:25,916 --> 00:20:27,730 على ما يبدو، وأنا لا يمكن أن تتحرك هذه. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 فإن احتمال أن تكون غاغا شيء من هذا القبيل، 2 أكثر من 24 مرات 1/2، 422 00:20:36,920 --> 00:20:38,260 أكثر من 2 على 53. 423 00:20:38,260 --> 00:20:40,640 لا يهم إذا كنت تعرف ما هذه الأرقام تأتي من. 424 00:20:40,640 --> 00:20:44,750 ولكن انها مجرد الرقم الذي يجري إلى أن يكون أكثر من 0، أليس كذلك؟ 425 00:20:44,750 --> 00:20:48,610 >> ثم عندما أفعل كاتي بيري، و احتمال "طفل" نظرا كاتي 426 00:20:48,610 --> 00:20:49,830 0 بالفعل، أليس كذلك؟ 427 00:20:49,830 --> 00:20:52,820 لأنه ليس هناك "طفل" في كاتي بيري. 428 00:20:52,820 --> 00:20:56,360 لذلك فإن هذا يصبح 0، وغاغا انتصارات، وهو ما يعني أن غاغا هو 429 00:20:56,360 --> 00:20:57,310 ربما المغني. 430 00:20:57,310 --> 00:20:58,560 فهل هذا يعقل؟ 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 موافق. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> حتى لو كنت تريد أن تجعل هذا الأمر أكثر رسمية، يمكنني القيام به في الواقع نموذجا 435 00:21:11,750 --> 00:21:12,700 للكلمات متعددة. 436 00:21:12,700 --> 00:21:14,610 لذلك دعونا نقول أن لدي شيئا مثل، "الطفل، وأنا 437 00:21:14,610 --> 00:21:16,030 على النار "، أو شيء من هذا. 438 00:21:16,030 --> 00:21:17,760 لذلك لديه كلمات متعددة. 439 00:21:17,760 --> 00:21:20,880 وفي هذه الحالة، يمكنك أن ترى أن "الطفل" هو في غاغا، 440 00:21:20,880 --> 00:21:21,710 ولكنها ليست في كاتي. 441 00:21:21,710 --> 00:21:24,940 و "النار" في كاتي، ولكن انها ليست في غاغا، أليس كذلك؟ 442 00:21:24,940 --> 00:21:27,200 لذلك يزداد اصعب، أليس كذلك؟ 443 00:21:27,200 --> 00:21:31,440 لأنه يبدو أنك تقريبا وجود علاقات بين البلدين. 444 00:21:31,440 --> 00:21:36,980 >> وذلك ما عليك القيام به هو افتراض الاستقلالية بين الكلمات. 445 00:21:36,980 --> 00:21:41,210 وذلك أساسا ما يعنيه ذلك هو أن أنا فقط حساب ما هو 446 00:21:41,210 --> 00:21:44,330 احتمال رؤية "طفل"، ما هو احتمال رؤية "أنا"، و 447 00:21:44,330 --> 00:21:46,670 "أنا"، و "على"، و "النار"، كل على حدة. 448 00:21:46,670 --> 00:21:48,670 ثم أنا ضرب كل منهم. 449 00:21:48,670 --> 00:21:52,420 واراه ما هو احتمال لرؤية الجملة كلها. 450 00:21:52,420 --> 00:21:55,210 معنى؟ 451 00:21:55,210 --> 00:22:00,270 >> ذلك أساسا، إذا كان لدي كلمة واحدة فقط، ما أريد أن تجد هي وسيطة كحد أقصى، 452 00:22:00,270 --> 00:22:05,385 وهو ما يعني، ما هي الطبقة التي هي إعطائي أعلى احتمال؟ 453 00:22:05,385 --> 00:22:10,010 فما هي الطبقة التي تعطي لي أعلى احتمال لل 454 00:22:10,010 --> 00:22:11,940 احتمال فئة معينة كلمة. 455 00:22:11,940 --> 00:22:17,610 حتى في هذه الحالة، نظرا غاغا "طفل". أو كاتي نظرا "طفل". معنى؟ 456 00:22:17,610 --> 00:22:21,040 >> وفقط من بايز، التي المعادلة التي عرضتها، 457 00:22:21,040 --> 00:22:24,780 نخلق هذا الكسر. 458 00:22:24,780 --> 00:22:28,750 الشيء الوحيد هو أن ترى أن احتمال الكلمة نظرا ل 459 00:22:28,750 --> 00:22:31,370 تغييرات الطبقة تبعا على الطبقة، أليس كذلك؟ 460 00:22:31,370 --> 00:22:34,260 عدد ليالي "طفل" أن لدي في غاغا يختلف من كاتي. 461 00:22:34,260 --> 00:22:37,640 احتمال الطبقة أيضا التغييرات لأنه مجرد رقم 462 00:22:37,640 --> 00:22:39,740 من الأغاني لكل منهما. 463 00:22:39,740 --> 00:22:43,980 >> ولكن احتمال الكلمة نفسها سوف تكون هي نفسها بالنسبة لجميع 464 00:22:43,980 --> 00:22:44,740 الفنانين، أليس كذلك؟ 465 00:22:44,740 --> 00:22:47,150 وبالتالي فإن احتمال للكلمة هو فقط، ما هو احتمال 466 00:22:47,150 --> 00:22:49,820 رؤية تلك الكلمة في اللغة الإنجليزية؟ 467 00:22:49,820 --> 00:22:51,420 لذلك فمن نفس عن كل منهم. 468 00:22:51,420 --> 00:22:55,790 ذلك لأن هذا هو ثابت، ويمكننا فقط وإسقاط هذا لا يهتمون بها. 469 00:22:55,790 --> 00:23:00,230 ولذلك فإن هذا سيكون فعلا المعادلة نحن نبحث عن. 470 00:23:00,230 --> 00:23:03,360 >> وإذا كان لدي عدة كلمات، وأنا لا تزال جارية لديهم قبل 471 00:23:03,360 --> 00:23:04,610 الاحتمال هنا. 472 00:23:04,610 --> 00:23:06,980 الشيء الوحيد هو أنني ضرب احتمال 473 00:23:06,980 --> 00:23:08,490 كل الكلمات الأخرى. 474 00:23:08,490 --> 00:23:10,110 لذلك أنا بضرب كل منهم. 475 00:23:10,110 --> 00:23:12,610 معنى؟ 476 00:23:12,610 --> 00:23:18,440 انها تبدو غريبة ولكنها تعني في الأساس، حساب قبل الطبقة، و 477 00:23:18,440 --> 00:23:22,100 ثم ضرب من قبل احتمال كل من الكلمات يجري في تلك الفئة. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> وأنت تعرف أن احتمال حدوث كلمة معينة فئة وستكون 480 00:23:29,150 --> 00:23:34,520 عدد المرات التي نرى أن الكلمة في تلك الفئة، مقسوما على عدد من 481 00:23:34,520 --> 00:23:37,020 الكلمات لديك في هذا الطبقة بشكل عام. 482 00:23:37,020 --> 00:23:37,990 معنى؟ 483 00:23:37,990 --> 00:23:41,680 انها مجرد كيف "الطفل" كان أكثر من 2 عدد الكلمات التي 484 00:23:41,680 --> 00:23:43,020 كان لي في كلمات. 485 00:23:43,020 --> 00:23:45,130 حتى مجرد التردد. 486 00:23:45,130 --> 00:23:46,260 >> ولكن هناك شيء واحد. 487 00:23:46,260 --> 00:23:51,250 أتذكر كيف كنت تبين أن احتمال "طفل" كونها كلمات 488 00:23:51,250 --> 00:23:56,350 من كاتي بيري 0 كان لمجرد كاتي لم يكن لديك بيري "طفل" في كل شيء؟ 489 00:23:56,350 --> 00:24:04,900 ولكن يبدو قاسية قليلا لمجرد أقول ببساطة أن كلمات لا يمكن أن يكون من 490 00:24:04,900 --> 00:24:10,040 فنان لمجرد أنهم لا يملكون هذه الكلمة على وجه الخصوص في أي وقت. 491 00:24:10,040 --> 00:24:13,330 >> لذلك يمكن أن نقول فقط، حسنا، إذا كنت لم يكن لديك هذه الكلمة، وانا ذاهب ل 492 00:24:13,330 --> 00:24:15,640 أعطيك احتمال أقل، ولكن أنا فقط لن 493 00:24:15,640 --> 00:24:17,420 أعطيك 0 على الفور. 494 00:24:17,420 --> 00:24:21,040 لأنه ربما كان شيء من هذا القبيل، "النار، النار، النار، النار،" والذي هو 495 00:24:21,040 --> 00:24:21,990 تماما كاتي بيري. 496 00:24:21,990 --> 00:24:26,060 ثم "طفل"، ويذهب فقط ل 0 على الفور لأنه لم يكن هناك واحد 497 00:24:26,060 --> 00:24:27,250 "الطفل". 498 00:24:27,250 --> 00:24:31,440 >> وذلك أساسا ما نقوم به هو شيء ودعا لابلاس تجانس. 499 00:24:31,440 --> 00:24:36,260 وهذا يعني فقط أن أنا أقدم بعض الاحتمالات حتى إلى كلمات 500 00:24:36,260 --> 00:24:37,850 التي لا وجود لها. 501 00:24:37,850 --> 00:24:43,170 ذلك ما أقوم به هو أنه عندما أنا حساب هذا، وأنا دائما إضافة 1 ل 502 00:24:43,170 --> 00:24:44,180 البسط. 503 00:24:44,180 --> 00:24:48,060 لذلك حتى لو لم يكن موجودا، كلمة، في هذه الحالة، إذا كان هذا هو 0، وأنا ما زلت 504 00:24:48,060 --> 00:24:51,250 حساب هذا ك 1 على العدد الكلي للكلمات. 505 00:24:51,250 --> 00:24:55,060 خلاف ذلك، كيف يمكنني الحصول على العديد من الكلمات لدي وأود أن أضيف 1. 506 00:24:55,060 --> 00:24:58,300 لذلك أنا أعول لكلتا الحالتين. 507 00:24:58,300 --> 00:25:00,430 معنى؟ 508 00:25:00,430 --> 00:25:03,060 >> حتى الآن دعونا نفعل بعض الترميز. 509 00:25:03,060 --> 00:25:06,440 انا ذاهب الى ان تفعل ذلك بسرعة جدا، ولكن انها مجرد المهم أن 510 00:25:06,440 --> 00:25:08,600 الرجال فهم المفاهيم. 511 00:25:08,600 --> 00:25:13,450 ذلك ما نحاول القيام به يتم تنفيذ هذا بالضبط 512 00:25:13,450 --> 00:25:14,330 الشيء الذي قلت للتو - 513 00:25:14,330 --> 00:25:19,110 أريدك أن تضع كلمات من سيدة غاغا وكاتي بيري. 514 00:25:19,110 --> 00:25:22,980 والبرنامج هو ذاهب لتكون قادرة على ويقول إذا كانت هذه هي كلمات جديدة من غاغا 515 00:25:22,980 --> 00:25:24,170 أو كاتي بيري. 516 00:25:24,170 --> 00:25:25,800 معنى؟ 517 00:25:25,800 --> 00:25:27,530 موافق. 518 00:25:27,530 --> 00:25:30,710 >> وذلك لدي هذا البرنامج سأقوم للاتصال classify.py. 519 00:25:30,710 --> 00:25:31,970 لذلك هذا هو بيثون. 520 00:25:31,970 --> 00:25:34,210 انها لغة برمجة جديدة. 521 00:25:34,210 --> 00:25:38,020 وهو مشابه جدا في بعض طرق لC و PHP. 522 00:25:38,020 --> 00:25:43,180 انها مماثلة لأنه إذا كنت تريد أن تعلم بايثون بعد معرفة C، انها 523 00:25:43,180 --> 00:25:46,270 الحقيقة ليست أن الكثير من التحدي لمجرد بيثون هو أسهل بكثير 524 00:25:46,270 --> 00:25:47,520 من C، أولا وقبل كل شيء. 525 00:25:47,520 --> 00:25:49,370 والكثير من الأمور بالفعل نفذت بالنسبة لك. 526 00:25:49,370 --> 00:25:56,820 حتى مجرد كيف مثل PHP ديه الوظائف التي فرز قائمة، أو إلحاق شيء 527 00:25:56,820 --> 00:25:58,780 لصفيف، أو كذا وكذا وكذا. 528 00:25:58,780 --> 00:26:00,690 الثعبان لديه كل تلك أيضا. 529 00:26:00,690 --> 00:26:05,960 >> لذلك أنا مجرد الذهاب الى شرح بسرعة كيف يمكننا أن نفعل تصنيف 530 00:26:05,960 --> 00:26:07,860 المشكلة لهنا. 531 00:26:07,860 --> 00:26:13,230 لذلك دعونا نقول أنه ليس لدي في هذه الحالة كلمات من غاغا وكاتي بيري. 532 00:26:13,230 --> 00:26:21,880 الطريقة التي لدي هي أن تلك الأغاني الكلمة الأولى من كلمات هو 533 00:26:21,880 --> 00:26:25,250 اسم الفنان، و والباقي هو كلمات. 534 00:26:25,250 --> 00:26:29,470 لذلك دعونا نقول أن لدي هذه القائمة في والتي تعد الأولى من نوعها هي كلمات غاغا. 535 00:26:29,470 --> 00:26:31,930 حتى هنا وأنا على الطريق الصحيح. 536 00:26:31,930 --> 00:26:35,270 والمرحلة التالية هي كاتي، و كما أن لديها كلمات. 537 00:26:35,270 --> 00:26:38,040 >> لذلك هذا هو كيف تقوم بتعريف متغير في بيثون. 538 00:26:38,040 --> 00:26:40,200 لم يكن لديك لإعطاء نوع البيانات. 539 00:26:40,200 --> 00:26:43,150 تكتب مجرد "كلمات" نوع من مثل في PHP. 540 00:26:43,150 --> 00:26:44,890 معنى؟ 541 00:26:44,890 --> 00:26:47,770 >> فما هي الأشياء التي لدي ل حساب لتكون قادرة على حساب 542 00:26:47,770 --> 00:26:49,360 الاحتمالات؟ 543 00:26:49,360 --> 00:26:55,110 لدي لحساب "مقدمو الاديره" كل من مختلفة 544 00:26:55,110 --> 00:26:56,710 الفئات التي لدي. 545 00:26:56,710 --> 00:27:06,680 لدي لحساب "مؤخرات" أو الى حد كبير احتمالات 546 00:27:06,680 --> 00:27:12,150 كل من الكلمات المختلفة التي أنا يمكن أن يكون لكل فنان. 547 00:27:12,150 --> 00:27:17,210 حتى داخل غاغا، على سبيل المثال، انا ذاهب لديك قائمة من عدد المرات التي أرى 548 00:27:17,210 --> 00:27:19,250 كل من الكلمات. 549 00:27:19,250 --> 00:27:20,760 معنى؟ 550 00:27:20,760 --> 00:27:25,370 >> وأخيرا، أنا فقط ستكون لدينا قائمة تسمى "الكلمات" التي هو مجرد الذهاب 551 00:27:25,370 --> 00:27:29,780 لدينا العديد من الكلمات كيف أنا يكون لكل فنان. 552 00:27:29,780 --> 00:27:33,760 وذلك لغاغا، على سبيل المثال، عندما ننظر إلى كلمات، وكنت قد، كما أعتقد، 24 553 00:27:33,760 --> 00:27:34,750 كلمات في المجموع. 554 00:27:34,750 --> 00:27:38,970 حتى هذه القائمة فقط ستكون لدينا غاغا 24، وكاتي رقم آخر. 555 00:27:38,970 --> 00:27:40,130 معنى؟ 556 00:27:40,130 --> 00:27:40,560 موافق. 557 00:27:40,560 --> 00:27:42,530 >> وحتى الآن، في الواقع، دعونا انتقل إلى الترميز. 558 00:27:42,530 --> 00:27:45,270 حتى في بيثون، يمكنك فعلا العودة حفنة من مختلف 559 00:27:45,270 --> 00:27:46,630 الأشياء من وظيفة. 560 00:27:46,630 --> 00:27:50,810 لذلك أنا ذاهب لإنشاء هذه الدالة ودعا "المشروطة"، والتي يجري 561 00:27:50,810 --> 00:27:53,890 للعودة كل تلك الأشياء، و "مقدمو الاديره"، و "الاحتمالات"، و 562 00:27:53,890 --> 00:28:05,690 "كلمات". حتى "المشروطة"، وانها ستكون الدعوة الى "كلمات". 563 00:28:05,690 --> 00:28:11,510 >> وحتى الآن أريدك أن الواقع إرسال هذه الوظيفة. 564 00:28:11,510 --> 00:28:17,750 وبالتالي فإن الطريقة التي أستطيع أن أكتب هذا وأنا تعريف الدالة فقط هذا 565 00:28:17,750 --> 00:28:20,620 تعمل مع "صفر". هكذا فعلت "مواطنه المشروط "، وانه أخذ 566 00:28:20,620 --> 00:28:28,700 "كلمات". وهذا ما يجري القيام به و، أولا وقبل كل شيء، لدي مقدمو الاديره بلدي 567 00:28:28,700 --> 00:28:31,030 الذي أريد أن حساب. 568 00:28:31,030 --> 00:28:34,330 >> وبالتالي فإن الطريقة التي يمكنني القيام به وهذا هو خلق قاموس في بيثون، الذي 569 00:28:34,330 --> 00:28:37,320 هو الى حد كبير نفس الشيء كما تجزئة الطاولة، أو انها مثل تكرارية 570 00:28:37,320 --> 00:28:40,480 مجموعة في PHP. 571 00:28:40,480 --> 00:28:44,150 هذه هي الطريقة التي أعلن القاموس. 572 00:28:44,150 --> 00:28:53,580 وأساسا ما يعنيه هذا هو أن مقدمو الاديره من غاغا هو 0.5، على سبيل المثال، إذا 573 00:28:53,580 --> 00:28:57,200 50٪ من كلمات هي من غاغا، 50٪ منهم من كاتي. 574 00:28:57,200 --> 00:28:58,450 معنى؟ 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 لذلك لا بد لي من معرفة كيفية لحساب مقدمو الاديره. 577 00:29:03,680 --> 00:29:07,120 >> تلك التالية التي يجب أن أقوم به، أيضا، هي احتمالات والكلمات. 578 00:29:07,120 --> 00:29:17,100 وبالتالي فإن احتمالات غاغا لائحة جميع الاحتمالات بأنني 579 00:29:17,100 --> 00:29:19,160 يكون لكل من الكلمات لغاغا. 580 00:29:19,160 --> 00:29:23,880 حتى إذا ذهبت إلى احتمالات غاغا "الطفل"، على سبيل المثال، وأنها سوف تعطيني 581 00:29:23,880 --> 00:29:28,750 شيء من هذا القبيل 2 أكثر من 24 في هذه الحالة. 582 00:29:28,750 --> 00:29:30,070 معنى؟ 583 00:29:30,070 --> 00:29:36,120 لذلك أذهب إلى "احتمالات"، انتقل إلى "غاغا" دلو يحتوي على قائمة بجميع 584 00:29:36,120 --> 00:29:40,550 الكلمات غاغا، ثم أذهب إلى "طفل" وأرى أن الاحتمال. 585 00:29:40,550 --> 00:29:45,940 >> وأخيرا لدي هذا "كلمات" القاموس. 586 00:29:45,940 --> 00:29:53,620 حتى هنا، "الاحتمالات". ثم "كلمات". حتى لو كنت تفعل "كلمات"، "غاغا" 587 00:29:53,620 --> 00:29:58,330 ما سيحدث هو أنه سوف تعطيني 24، قائلا بأنني 588 00:29:58,330 --> 00:30:01,990 لديك 24 كلمات داخل كلمات من غاغا. 589 00:30:01,990 --> 00:30:04,110 من المنطقي؟ 590 00:30:04,110 --> 00:30:07,070 حتى هنا، "كلمات" يساوي الداه الداه--الداه. 591 00:30:07,070 --> 00:30:07,620 حسنا 592 00:30:07,620 --> 00:30:12,210 >> ذلك ما أنا بصدد القيام به هو أنا ذاهب ل تكرار عبر كل من كلمات، وذلك 593 00:30:12,210 --> 00:30:14,490 كل من السلاسل التي لدي في القائمة. 594 00:30:14,490 --> 00:30:18,040 وانا ذاهب لحساب تلك الأشياء لكل من المرشحين. 595 00:30:18,040 --> 00:30:19,950 من المنطقي؟ 596 00:30:19,950 --> 00:30:21,700 لذلك يجب أن أقوم به لحلقة. 597 00:30:21,700 --> 00:30:26,300 >> حتى في بيثون ما يمكنني القيام به هو "للخط في كلمات. "الشيء نفسه باعتباره 598 00:30:26,300 --> 00:30:28,000 "لكل" بيان في PHP. 599 00:30:28,000 --> 00:30:33,420 أتذكر كيف لو كان بوسعي PHP ويقول "لكل كلمات كما 600 00:30:33,420 --> 00:30:35,220 الخط. "من المنطقي؟ 601 00:30:35,220 --> 00:30:38,900 لذلك أنا أخذ كل بند من بنود، في هذا الحالة، هذه السلسلة والقادمة 602 00:30:38,900 --> 00:30:44,540 سلسلة ذلك لكل من خطوط ما أنا بصدد القيام به هو أولا، أنا ذاهب ل 603 00:30:44,540 --> 00:30:49,150 تقسيم هذا الخط في قائمة الكلمات مفصولة بمسافات. 604 00:30:49,150 --> 00:30:53,730 >> ذلك الشيء باردة حول بيثون هو أن هل يمكن أن مجرد جوجل مثل "كيف يمكنني 605 00:30:53,730 --> 00:30:58,220 تقسيم السلسلة إلى الكلمات؟ "وانها ذاهب لاقول لكم كيف نفعل ذلك. 606 00:30:58,220 --> 00:31:04,890 والسبيل لتحقيق ذلك، انها مجرد "الخط = line.split () "وانها في الاساس 607 00:31:04,890 --> 00:31:08,640 ذاهب الى ان نعطيكم قائمة مع كل من الكلمات هنا. 608 00:31:08,640 --> 00:31:09,620 من المنطقي؟ 609 00:31:09,620 --> 00:31:15,870 حتى الآن أن فعلت ذلك أريد أن أعرف من هو مغني هذه الأغنية. 610 00:31:15,870 --> 00:31:20,130 وعلى ذلك لدي فقط للحصول على العنصر الأول من الصفيف، أليس كذلك؟ 611 00:31:20,130 --> 00:31:26,390 لذلك أستطيع أن أقول فقط أنني "المغني = سطر (0) "من المنطقي؟ 612 00:31:26,390 --> 00:31:32,010 >> ثم ما عليك القيام به هو، أولا وقبل كل شيء، انا ذاهب لتحديث وكم 613 00:31:32,010 --> 00:31:36,130 الكلمات لدي تحت عنوان "غاغا". لذلك أنا فقط الذهاب لحساب عدد الكلمات أنا 614 00:31:36,130 --> 00:31:38,690 يكون في هذه القائمة، أليس كذلك؟ 615 00:31:38,690 --> 00:31:41,910 لأن هذه هي الطريقة العديد من الكلمات لدي في كلمات وأنا ذاهب لمجرد 616 00:31:41,910 --> 00:31:44,120 إضافته إلى "غاغا" مجموعة. 617 00:31:44,120 --> 00:31:47,090 فهل هذا يعقل؟ 618 00:31:47,090 --> 00:31:49,010 لا تركز كثيرا على بناء الجملة. 619 00:31:49,010 --> 00:31:50,430 نفكر أكثر المفاهيم. 620 00:31:50,430 --> 00:31:52,400 هذا هو الجزء الأكثر أهمية. 621 00:31:52,400 --> 00:31:52,720 موافق. 622 00:31:52,720 --> 00:32:00,260 >> ذلك ما يمكنني القيام به هو إذا "غاغا" هو بالفعل في تلك القائمة، وذلك "إذا مغنية في 623 00:32:00,260 --> 00:32:03,190 عبارة "مما يعني أنني بالفعل لديك الكلمات التي كتبها غاغا. 624 00:32:03,190 --> 00:32:06,640 أريد فقط أن إضافة إضافية الكلمات لذلك. 625 00:32:06,640 --> 00:32:15,810 فما أقوم به هو "كلمات (المغني) + = ليون (خط) - 1 ". 626 00:32:15,810 --> 00:32:18,250 ومن ثم يمكن أن أفعله فقط طول الخط. 627 00:32:18,250 --> 00:32:21,860 فكيف العديد من العناصر I يكون في الصفيف. 628 00:32:21,860 --> 00:32:27,060 ويجب أن أقوم به لمجرد ناقص 1 العنصر الأول من المصفوفة هو مجرد 629 00:32:27,060 --> 00:32:29,180 مغنية وهذه ليست كلمات. 630 00:32:29,180 --> 00:32:31,420 من المنطقي؟ 631 00:32:31,420 --> 00:32:32,780 موافق. 632 00:32:32,780 --> 00:32:35,820 >> "آخر،" فهذا يعني أنني أريد أن الواقع إدراج غاغا في القائمة. 633 00:32:35,820 --> 00:32:45,990 لذلك أنا مجرد القيام "بعبارة (المغني) = ليون (خط) - 1، "آسف. 634 00:32:45,990 --> 00:32:49,200 وبالتالي فإن الفرق الوحيد بين الاثنين خطوط هو أن هذا واحد، فإنه لا 635 00:32:49,200 --> 00:32:51,080 موجودة حتى الآن، لذلك أنا فقط تهيئة ذلك. 636 00:32:51,080 --> 00:32:53,820 هذا واحد أنا مضيفا الواقع. 637 00:32:53,820 --> 00:32:55,570 موافق. 638 00:32:55,570 --> 00:32:59,480 لذلك هذا كان يضيف إلى الكلمات. 639 00:32:59,480 --> 00:33:03,040 >> الآن أريد أن أضيف إلى مقدمو الاديره. 640 00:33:03,040 --> 00:33:05,480 فكيف يمكنني حساب مقدمو الاديره؟ 641 00:33:05,480 --> 00:33:11,580 يمكن حساب مقدمو الاديره من قبل كيف مرات عديدة. 642 00:33:11,580 --> 00:33:15,340 فكيف مرات عديدة ترى أن المغني بين كل من المطربين التي 643 00:33:15,340 --> 00:33:16,380 لديهم، أليس كذلك؟ 644 00:33:16,380 --> 00:33:18,810 وذلك لغاغا وكاتي بيري، في هذه الحالة، أرى غاغا 645 00:33:18,810 --> 00:33:20,570 مرة واحدة، مرة واحدة كاتي بيري. 646 00:33:20,570 --> 00:33:23,320 >> ذلك أساسا مقدمو الاديره لغاغا وكاتي بيري سوف 647 00:33:23,320 --> 00:33:24,390 يكون مجرد واحدة، أليس كذلك؟ 648 00:33:24,390 --> 00:33:26,500 أنت فقط عدد المرات أرى أن الفنان. 649 00:33:26,500 --> 00:33:28,740 لذلك هذا هو السهل جدا لحساب. 650 00:33:28,740 --> 00:33:34,100 استطيع مجرد شيء مماثل كما مثل "إذا المغني في مقدمو الاديره، "أنا ذاهب فقط 651 00:33:34,100 --> 00:33:38,970 إضافة 1 إلى مربع مقدمو الاديره بهم. 652 00:33:38,970 --> 00:33:51,000 لذلك، "مقدمو الاديره (الغناء)" + = 1 "ثم" آخر " انا ذاهب الى القيام به "مقدمو الاديره (المغني) 653 00:33:51,000 --> 00:33:55,000 = 1 ". من المنطقي؟ 654 00:33:55,000 --> 00:34:00,080 >> حتى إذا لم يكن موجودا أنا فقط وضعت ك 1، وإلا أنا فقط إضافة 1. 655 00:34:00,080 --> 00:34:11,280 موافق، وحتى الآن كل ما تركت للقيام وأيضا إضافة كل من الكلمات ل 656 00:34:11,280 --> 00:34:12,290 الاحتمالات. 657 00:34:12,290 --> 00:34:14,889 وذلك لدي لحساب عدد المرات أرى كل من الكلمات. 658 00:34:14,889 --> 00:34:18,780 لذلك أنا فقط يجب أن تفعل شيئا آخر لحلقة في السطر. 659 00:34:18,780 --> 00:34:25,190 >> أولا حتى الشيء الذي أنا بصدد القيام به هو معرفة ما اذا كان المغني لديها بالفعل 660 00:34:25,190 --> 00:34:26,969 مجموعة الاحتمالات. 661 00:34:26,969 --> 00:34:31,739 لذلك أنا التحقق إذا كان المغني لا لديها مجموعة والاحتمالات، أنا فقط 662 00:34:31,739 --> 00:34:34,480 الذهاب الى تهيئة احد بالنسبة لهم. 663 00:34:34,480 --> 00:34:36,400 انها ليست حتى صفيف، آسف، انها القاموس. 664 00:34:36,400 --> 00:34:43,080 وبالتالي فإن احتمالات المغني يجري أن يكون القاموس مفتوحة، لذلك أنا 665 00:34:43,080 --> 00:34:45,830 مجرد تهيئة القاموس لذلك. 666 00:34:45,830 --> 00:34:46,820 موافق؟ 667 00:34:46,820 --> 00:34:58,330 >> والآن يمكنني القيام به في الواقع لحلقة لحساب كل من الكلمات ' 668 00:34:58,330 --> 00:35:00,604 الاحتمالات. 669 00:35:00,604 --> 00:35:01,540 موافق. 670 00:35:01,540 --> 00:35:04,160 ذلك ما يمكنني القيام به هو للحلقة. 671 00:35:04,160 --> 00:35:06,590 لذلك أنا ذاهب لمجرد تكرار أكثر من مجموعة. 672 00:35:06,590 --> 00:35:15,320 وبالتالي فإن الطريقة التي أستطيع أن أفعل ذلك في بايثون هو "لأنني في النطاق." من 1 673 00:35:15,320 --> 00:35:19,200 لأنني أريد أن تبدأ في الثانية لأن العنصر الأول هو 674 00:35:19,200 --> 00:35:20,260 اسم المغني. 675 00:35:20,260 --> 00:35:24,990 لذلك من واحدة حتى طول الخط. 676 00:35:24,990 --> 00:35:29,760 وعندما لا يذهب في الواقع تتراوح من مثل هنا من 1 إلى ليون لل 677 00:35:29,760 --> 00:35:30,740 خط ناقص 1. 678 00:35:30,740 --> 00:35:33,810 لذلك لا بالفعل هذا الشيء من القيام ن ناقص 1 للصفائف الذي هو غاية 679 00:35:33,810 --> 00:35:35,500 مريحة. 680 00:35:35,500 --> 00:35:37,850 من المنطقي؟ 681 00:35:37,850 --> 00:35:42,770 >> لذلك لكل من هذه، ما أنا ذاهب ل القيام به هو، مثلما هو الحال في غيرها من واحد، 682 00:35:42,770 --> 00:35:50,320 انا ذاهب للتحقق مما إذا كلمة في هذا موقف في الخط هو بالفعل في 683 00:35:50,320 --> 00:35:51,570 الاحتمالات. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 ثم كما قلت هنا، والاحتمالات الكلمات، كما هو الحال في أضع 686 00:35:57,260 --> 00:35:58,400 "الاحتمالات (المغني)". 687 00:35:58,400 --> 00:35:59,390 حتى اسم المغني. 688 00:35:59,390 --> 00:36:03,450 حتى لو كان بالفعل في "probabilit (المغني)"، وهذا يعني أنني 689 00:36:03,450 --> 00:36:11,960 تريد إضافة 1 إلى ذلك، لذلك أنا ذاهب ل تفعل "الاحتمالات (المغني)"، و 690 00:36:11,960 --> 00:36:14,100 ويطلق كلمة "خط (ط)". 691 00:36:14,100 --> 00:36:22,630 انا ذاهب لإضافة 1 و"آخر" أنا فقط الذهاب الى تهيئة إلى 1. 692 00:36:22,630 --> 00:36:23,880 "الخط (ط)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 من المنطقي؟ 695 00:36:28,420 --> 00:36:30,180 >> لذلك، وأنا حسبت كل من المصفوفات. 696 00:36:30,180 --> 00:36:36,580 لذلك، والآن كل ما يجب أن أقوم به ل هذا هو واحد فقط "العودة مقدمو الاديره، 697 00:36:36,580 --> 00:36:43,230 الاحتمالات والكلمات. "دعونا معرفة ما إذا كان هناك أي، موافق. 698 00:36:43,230 --> 00:36:45,690 يبدو كل شيء يعمل حتى الآن. 699 00:36:45,690 --> 00:36:46,900 لذلك، أن من المنطقي؟ 700 00:36:46,900 --> 00:36:47,750 في بعض الطريق؟ 701 00:36:47,750 --> 00:36:49,280 موافق. 702 00:36:49,280 --> 00:36:51,980 وحتى الآن لدي كل الاحتمالات. 703 00:36:51,980 --> 00:36:55,100 وحتى الآن الشيء الوحيد الذي لم يقم هو فقط أن يكون هذا الشيء الذي 704 00:36:55,100 --> 00:36:58,650 يحسب للمنتج من جميع الاحتمالات عندما أحصل على كلمات. 705 00:36:58,650 --> 00:37:06,270 >> لذلك دعونا نقول أنني أريد أن الكلمة الآن هذه الوظيفة "تصنيف ()" و 706 00:37:06,270 --> 00:37:08,880 شيء أن يأخذ وظيفة هو مجرد حجة. 707 00:37:08,880 --> 00:37:13,170 دعونا نقول "بيبي، وأنا على النار" وانها الذهاب لمعرفة ما هو 708 00:37:13,170 --> 00:37:14,490 احتمال أن هذا هو غاغا؟ 709 00:37:14,490 --> 00:37:16,405 ما هو احتمال أن هذا هو كاتي؟ 710 00:37:16,405 --> 00:37:19,690 يبدو جيدا؟ 711 00:37:19,690 --> 00:37:25,750 لذلك أنا فقط ستكون لدينا لخلق وظيفة جديدة تسمى "تصنيف ()" و 712 00:37:25,750 --> 00:37:29,180 انها سوف يستغرق بعض كلمات أيضا. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 وإلى جانب كلمات وأود أيضا يجب أن ترسل مقدمو الاديره، و 715 00:37:36,160 --> 00:37:37,700 الاحتمالات والكلمات. 716 00:37:37,700 --> 00:37:44,000 لذلك أنا ذاهب لإرسال كلمات، مقدمو الاديره، الاحتمالات، والكلمات. 717 00:37:44,000 --> 00:37:51,840 >> لذلك هذا هو أخذ كلمات، مقدمو الاديره، الاحتمالات، والكلمات. 718 00:37:51,840 --> 00:37:53,530 لذلك، ماذا يفعل؟ 719 00:37:53,530 --> 00:37:57,180 انها في الأساس هو الذهاب الى الذهاب من خلال جميع المرشحين المحتمل أنك 720 00:37:57,180 --> 00:37:58,510 يكون كمغنية. 721 00:37:58,510 --> 00:37:59,425 وأين هي تلك المرشحين؟ 722 00:37:59,425 --> 00:38:01,020 انهم في مقدمو الاديره، أليس كذلك؟ 723 00:38:01,020 --> 00:38:02,710 وذلك لدي كل تلك هناك. 724 00:38:02,710 --> 00:38:07,870 لذلك أنا ذاهب لديها القاموس جميع المرشحين المحتملين. 725 00:38:07,870 --> 00:38:14,220 ثم لكل مرشح في مقدمو الاديره، لذلك يعني أنه سيكون ل 726 00:38:14,220 --> 00:38:17,740 تكون غاغا، وكاتي إذا كان لي أكثر سيكون أكثر من ذلك. 727 00:38:17,740 --> 00:38:20,410 أنا ذاهب لبدء حساب هذا الاحتمال. 728 00:38:20,410 --> 00:38:28,310 احتمال كما رأينا في باور بوينت هو مرات قبل و 729 00:38:28,310 --> 00:38:30,800 المنتج من كل من الاحتمالات الأخرى. 730 00:38:30,800 --> 00:38:32,520 >> حتى أستطيع أن تفعل الشيء نفسه هنا. 731 00:38:32,520 --> 00:38:36,330 يمكنني القيام به فقط هو احتمال في البداية فقط قبل. 732 00:38:36,330 --> 00:38:40,340 لذلك مقدمو الاديره للمرشح. 733 00:38:40,340 --> 00:38:40,870 أليس كذلك؟ 734 00:38:40,870 --> 00:38:45,360 والآن لا بد لي من تكرار عبر جميع الكلمات التي لدي في أن تكون كلمات 735 00:38:45,360 --> 00:38:48,820 قادرا على إضافة احتمال لكل منهم، موافق؟ 736 00:38:48,820 --> 00:38:57,900 لذلك، "لكلمة في كلمات" ما أنا ذاهب القيام به هو، إذا كانت الكلمة في 737 00:38:57,900 --> 00:39:01,640 "الاحتمالات (مرشح)"، والتي يعني أنه كلمة واحدة أن 738 00:39:01,640 --> 00:39:03,640 لديها مرشح في كلمات لهم - 739 00:39:03,640 --> 00:39:05,940 على سبيل المثال، "طفل" لغاغا - 740 00:39:05,940 --> 00:39:11,710 ما أنا بصدد القيام به هو أن الاحتمال هو ذاهب الى أن تتضاعف 741 00:39:11,710 --> 00:39:22,420 بنسبة 1 بالإضافة إلى احتمالات المرشح لتلك الكلمة. 742 00:39:22,420 --> 00:39:25,710 وهذا يدعى "كلمة". 743 00:39:25,710 --> 00:39:32,440 هذا مقسوما على عدد الكلمات الذي أكنه لذلك المرشح. 744 00:39:32,440 --> 00:39:37,450 إجمالي عدد الكلمات التي لدي للمغني أن أنا أبحث في. 745 00:39:37,450 --> 00:39:40,290 >> "آخر." فهذا يعني انها كلمة جديدة ذلك انها تريد ان تكون مثل على سبيل المثال 746 00:39:40,290 --> 00:39:41,860 "النار" ليدي غاغا. 747 00:39:41,860 --> 00:39:45,760 لذلك أنا فقط تريد أن تفعل أكثر من 1 "كلمة (مرشح)". 748 00:39:45,760 --> 00:39:47,710 لذلك أنا لا أريد أن أضع هذا المصطلح هنا. 749 00:39:47,710 --> 00:39:50,010 >> لذلك سيكون أساسا نسخ ولصق هذا. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 ولكن أنا ذاهب إلى حذف هذا الجزء. 752 00:39:56,000 --> 00:39:57,610 حتى انها مجرد ستكون أكثر من 1 ذلك. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 يبدو جيدا؟ 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 والآن في نهاية، وأنا ذاهب لمجرد طباعة اسم المرشح و 757 00:40:09,700 --> 00:40:15,750 احتمال أن يكون لديك ل وجود أحد في كلمات لهم. 758 00:40:15,750 --> 00:40:16,200 من المنطقي؟ 759 00:40:16,200 --> 00:40:18,390 وأنا في الواقع لا حتى بحاجة إلى هذا القاموس. 760 00:40:18,390 --> 00:40:19,510 من المنطقي؟ 761 00:40:19,510 --> 00:40:21,810 >> لذلك، دعونا نرى ما اذا كان هذا يعمل بالفعل. 762 00:40:21,810 --> 00:40:24,880 حتى لو كنت تشغيل هذا، فإنه لم تنجح. 763 00:40:24,880 --> 00:40:26,130 الانتظار ثانية واحدة. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "كلمات (مرشح)"، "كلمات (مرشح)"، هذا 766 00:40:31,720 --> 00:40:33,750 اسم مجموعة. 767 00:40:33,750 --> 00:40:41,435 موافق لذلك، فإنه يقول هناك بعض الشوائب لمرشح في مقدمو الاديره. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 اسمحوا لي فقط هدئ قليلا. 770 00:40:48,760 --> 00:40:50,360 موافق. 771 00:40:50,360 --> 00:40:51,305 دعونا نحاول. 772 00:40:51,305 --> 00:40:51,720 موافق. 773 00:40:51,720 --> 00:40:58,710 >> لذلك يعطي كاتي بيري لديها هذه احتمال هذه الأوقات إلى 10 774 00:40:58,710 --> 00:41:02,200 ناقص 7، وغاغا لديه هذا مرات 10 إلى ناقص 6. 775 00:41:02,200 --> 00:41:05,610 لذلك ترى أنه يبين أن غاغا لديها أعلى احتمال. 776 00:41:05,610 --> 00:41:09,260 حتى "بيبي، وأنا على النار" و ربما أغنية غاغا. 777 00:41:09,260 --> 00:41:10,580 من المنطقي؟ 778 00:41:10,580 --> 00:41:12,030 لذلك هذا هو ما فعلناه. 779 00:41:12,030 --> 00:41:16,010 >> هذا الرمز سوف يتم نشرها على الإنترنت، لذلك يا رفاق يمكن التحقق من ذلك. 780 00:41:16,010 --> 00:41:20,720 ربما تستخدم بعض من ذلك لأنه إذا كنت تريد أن قيام المشروع أو شيئا من هذا القبيل. 781 00:41:20,720 --> 00:41:22,150 موافق. 782 00:41:22,150 --> 00:41:25,930 كان هذا فقط لاظهار ما الحسابية 783 00:41:25,930 --> 00:41:27,230 كود اللسانيات يبدو. 784 00:41:27,230 --> 00:41:33,040 ولكن الآن دعونا نذهب إلى أكثر الاشياء مستوى عال. 785 00:41:33,040 --> 00:41:33,340 موافق. 786 00:41:33,340 --> 00:41:35,150 >> وبالتالي فإن مشاكل أخرى أنا كان يتحدث عن - 787 00:41:35,150 --> 00:41:37,550 مشكلة تجزئة هو أول واحد منهم. 788 00:41:37,550 --> 00:41:40,820 لذلك عليك هنا اليابانية. 789 00:41:40,820 --> 00:41:43,420 ومن ثم ترى أن لا توجد مسافات. 790 00:41:43,420 --> 00:41:49,110 لذلك هذا هو يعني أساسا أنه من أعلى كرسي، أليس كذلك؟ 791 00:41:49,110 --> 00:41:50,550 تتكلم اليابانية؟ 792 00:41:50,550 --> 00:41:52,840 انها أعلى كرسي، أليس كذلك؟ 793 00:41:52,840 --> 00:41:54,480 >> الطالب: أنا لا أعرف ما كانجي أكثر من هناك. 794 00:41:54,480 --> 00:41:57,010 >> LUCAS FREITAS: انها [يتكلم اليابانية] 795 00:41:57,010 --> 00:41:57,950 موافق. 796 00:41:57,950 --> 00:42:00,960 لذلك يعني أساسا كرسي من أعلى. 797 00:42:00,960 --> 00:42:03,620 حتى إذا كان لديك لوضع مسافة سيكون هنا. 798 00:42:03,620 --> 00:42:05,970 ثم لديك [؟ اويدا سان. ؟] 799 00:42:05,970 --> 00:42:09,040 وهو ما يعني أساسا السيد اويدا. 800 00:42:09,040 --> 00:42:13,180 وترى أن "اويدا" وكان لديك الفضاء ثم "سان". لذلك ترى أن 801 00:42:13,180 --> 00:42:15,470 هنا أنت "رق" هو ​​مثل في حد ذاته. 802 00:42:15,470 --> 00:42:17,750 وهنا كان لديه شخصية لأنها المقبل. 803 00:42:17,750 --> 00:42:21,720 >> حتى انها ليست مثل في تلك اللغات حرف بمعنى الكلمة ذلك حتى تتمكن 804 00:42:21,720 --> 00:42:23,980 فقط وضعت الكثير من المساحات. 805 00:42:23,980 --> 00:42:25,500 أحرف تتصل بعضها البعض. 806 00:42:25,500 --> 00:42:28,680 وأنها يمكن أن نكون معا مثل اثنان، ثلاثة، واحد. 807 00:42:28,680 --> 00:42:34,520 بحيث يكون لديك فعلا لخلق نوع من طريقة لوضع تلك الأماكن. 808 00:42:34,520 --> 00:42:38,850 >> وهذا الشيء هو أنه كلما تحصل البيانات من تلك اللغات الآسيوية، 809 00:42:38,850 --> 00:42:40,580 كل شيء يأتي unsegmented. 810 00:42:40,580 --> 00:42:45,940 لأن لا أحد يكتب اليابانية أو الصينية يكتب بمسافات. 811 00:42:45,940 --> 00:42:48,200 كلما كنت تكتب الصينية، كنت للتو اليابانية كتابة كل شيء 812 00:42:48,200 --> 00:42:48,710 مع عدم وجود مسافات. 813 00:42:48,710 --> 00:42:52,060 بل لا معنى له لوضع مسافات. 814 00:42:52,060 --> 00:42:57,960 حتى ذلك الحين عندما تحصل على البيانات من بعض اللغات الشرق آسيوية، إذا كنت ترغب في 815 00:42:57,960 --> 00:43:00,760 في الواقع تفعل شيئا مع أن عليك أن الجزء الأول. 816 00:43:00,760 --> 00:43:05,130 >> التفكير في القيام مثال كلمات بدون مسافات. 817 00:43:05,130 --> 00:43:07,950 وبالتالي فإن كلمات فقط أن لديك سوف تكون الجمل، أليس كذلك؟ 818 00:43:07,950 --> 00:43:09,470 مفصولة بنقاط. 819 00:43:09,470 --> 00:43:13,930 ولكن بعد ذلك مجرد وجود الحكم سوف لا تساعد حقا على إعطاء المعلومات 820 00:43:13,930 --> 00:43:17,760 من هم هؤلاء كلمات هي من قبل. 821 00:43:17,760 --> 00:43:18,120 أليس كذلك؟ 822 00:43:18,120 --> 00:43:20,010 لذلك يجب عليك يضع مسافات الأول. 823 00:43:20,010 --> 00:43:21,990 فكيف يمكنك أن تفعل ذلك؟ 824 00:43:21,990 --> 00:43:24,920 >> حتى ذلك الحين تأتي فكرة لغة النموذج الذي هو شيء حقا 825 00:43:24,920 --> 00:43:26,870 المهم بالنسبة الحسابية اللغويات. 826 00:43:26,870 --> 00:43:32,790 ذلك نموذج اللغة هو في الأساس جدول الاحتمالات أن يظهر 827 00:43:32,790 --> 00:43:36,260 أولا وقبل كل ما هو احتمال وجود الكلمة في اللغة؟ 828 00:43:36,260 --> 00:43:39,590 بحيث تبين كيفية المتكرر كلمة هو. 829 00:43:39,590 --> 00:43:43,130 ثم تظهر أيضا العلاقة بين الكلمات في الجملة. 830 00:43:43,130 --> 00:43:51,500 >> وبالتالي فإن الفكرة الرئيسية هي، إذا جاء شخص غريب لك وقال الجملة ل 831 00:43:51,500 --> 00:43:55,600 لك، ما هو احتمال أن، ل سبيل المثال، "وهذا هو أختي [؟ GTF"؟] 832 00:43:55,600 --> 00:43:57,480 كانت الجملة أن الشخص المذكور؟ 833 00:43:57,480 --> 00:44:00,380 لذلك من الواضح بعض الجمل هي أكثر شيوعا من غيرها. 834 00:44:00,380 --> 00:44:04,450 على سبيل المثال، "صباح الخير" أو "جيدة ليلة "، أو" يا هناك، "هو أكثر من ذلك بكثير 835 00:44:04,450 --> 00:44:08,260 مشترك من معظم الأحكام ان لدينا الإنجليزية. 836 00:44:08,260 --> 00:44:11,060 فلماذا هي تلك الجمل أكثر تواترا؟ 837 00:44:11,060 --> 00:44:14,060 >> في المقام الأول، انها لأنه لديك الكلمات التي هي أكثر تواترا. 838 00:44:14,060 --> 00:44:20,180 لذلك، على سبيل المثال، إذا كنت أقول، والكلب هو كبيرة، والكلب هو العملاق، كنت 839 00:44:20,180 --> 00:44:23,880 ربما نسمع عادة الكلب هو كبير في كثير من الأحيان بسبب "الكبير" هو أكثر 840 00:44:23,880 --> 00:44:27,260 متكررة في اللغة الإنجليزية من "عملاقة". لذلك، واحدة من 841 00:44:27,260 --> 00:44:30,100 الأشياء هو تكرار الكلمة. 842 00:44:30,100 --> 00:44:34,490 >> الشيء الثاني الذي هو في الحقيقة المهم هو فقط 843 00:44:34,490 --> 00:44:35,490 ترتيب الكلمات. 844 00:44:35,490 --> 00:44:39,500 لذلك، فإنه من الشائع أن نقول "القط داخل منطقة الجزاء. "ولكنك لا عادة 845 00:44:39,500 --> 00:44:44,250 نرى في "مربع داخل هو القط." هكذا ترى أن هناك بعض الأهمية 846 00:44:44,250 --> 00:44:46,030 في ترتيب الكلمات. 847 00:44:46,030 --> 00:44:50,160 لا يمكنك أن تقول فقط أن هذين جمل لها نفس الاحتمال 848 00:44:50,160 --> 00:44:53,010 فقط لأن لديهم نفس الكلمات. 849 00:44:53,010 --> 00:44:55,550 لديك فعلا لرعاية حول النظام كذلك. 850 00:44:55,550 --> 00:44:57,650 معنى؟ 851 00:44:57,650 --> 00:44:59,490 >> فماذا نفعل؟ 852 00:44:59,490 --> 00:45:01,550 ذلك ما كنت قد تحاول الحصول على لك؟ 853 00:45:01,550 --> 00:45:04,400 أنا أحاول أن تحصل على ما نحن استدعاء نماذج ن غرام. 854 00:45:04,400 --> 00:45:09,095 من النماذج ن غرام تفترض أساسا ان كل كلمة 855 00:45:09,095 --> 00:45:10,960 لديك في الجملة. 856 00:45:10,960 --> 00:45:15,020 انها احتمال وجود هذا كلمة هناك لا يتوقف فقط على 857 00:45:15,020 --> 00:45:18,395 تردد هذه الكلمة في اللغة، ولكن أيضا على الكلمات التي 858 00:45:18,395 --> 00:45:19,860 يتم المحيطة به. 859 00:45:19,860 --> 00:45:25,810 >> ذلك على سبيل المثال، عادة عندما ترى شيء من هذا القبيل أو في كنت 860 00:45:25,810 --> 00:45:28,040 ربما سنشهد إسم بعد ذلك، أليس كذلك؟ 861 00:45:28,040 --> 00:45:31,750 لأنه عندما يكون لديك حرف الجر وعادة ما يستغرق اسما بعد ذلك. 862 00:45:31,750 --> 00:45:35,540 أو إذا كان لديك الفعل التي هي متعدية كنت عادة ما يتم الانتقال إلى 863 00:45:35,540 --> 00:45:36,630 يكون عبارة اسما. 864 00:45:36,630 --> 00:45:38,780 لذلك ستكون لدينا اسما في مكان ما حوله. 865 00:45:38,780 --> 00:45:44,950 >> لذلك، أساسا، ما يفعله هو أنه يعتبر احتمال وجود 866 00:45:44,950 --> 00:45:47,960 الكلمات بجانب بعضها البعض، عندما كنت حساب 867 00:45:47,960 --> 00:45:49,050 احتمال عقوبة. 868 00:45:49,050 --> 00:45:50,960 وهذا ما للغة النموذج هو الأساس. 869 00:45:50,960 --> 00:45:54,620 فقط أقول ما هو احتمال وجود محددة 870 00:45:54,620 --> 00:45:57,120 الجملة في اللغة؟ 871 00:45:57,120 --> 00:45:59,110 فلماذا هو أن من المفيد، في الأساس؟ 872 00:45:59,110 --> 00:46:02,390 وأولا وقبل كل ما هو نموذج ن غرام، ثم؟ 873 00:46:02,390 --> 00:46:08,850 >> ذلك نموذج ن غرام يعني أن كل كلمة يعتمد على 874 00:46:08,850 --> 00:46:12,700 N المقبل ناقص 1 الكلمات. 875 00:46:12,700 --> 00:46:18,150 لذلك، في الأساس، وهذا يعني أنه إذا أنا أنظر، على سبيل المثال، في حين TF CS50 876 00:46:18,150 --> 00:46:21,500 أنا حساب احتمال الجملة، عليك أن تكون مثل " 877 00:46:21,500 --> 00:46:25,280 احتمال وجود كلمة "على" مرات من احتمال وجود "ل 878 00:46:25,280 --> 00:46:31,720 CS50 "أضعاف احتمال وجود "إن TF CS50." لذلك، في الأساس، وأنا أعول 879 00:46:31,720 --> 00:46:35,720 جميع السبل الممكنة لتمتد عليه. 880 00:46:35,720 --> 00:46:41,870 >> ثم عادة عندما كنت تفعل هذا، كما هو الحال في مشروع، كنت وضعت لتكون N 881 00:46:41,870 --> 00:46:42,600 قيمة منخفضة. 882 00:46:42,600 --> 00:46:45,930 لذلك، وعادة ما يكون bigrams أو باقوا. 883 00:46:45,930 --> 00:46:51,090 بحيث يمكنك الاعتماد فقط كلمتين، و مجموعة من كلمتين أو ثلاث كلمات، 884 00:46:51,090 --> 00:46:52,620 فقط لمشاكل الأداء. 885 00:46:52,620 --> 00:46:56,395 وأيضا لأنه ربما إذا كان لديك شيء من هذا القبيل "وTF CS50." عند 886 00:46:56,395 --> 00:47:00,510 ديك "TF"، فإنه من المهم جدا أن "CS50" بجانب ذلك، أليس كذلك؟ 887 00:47:00,510 --> 00:47:04,050 تلك أمرين وعادة ما تكون بجانب بعضها البعض. 888 00:47:04,050 --> 00:47:06,410 >> إذا كنت تفكر في "TF" انها على الارجح ستكون لدينا ما 889 00:47:06,410 --> 00:47:07,890 الطبقة انها TF'ing ل. 890 00:47:07,890 --> 00:47:11,330 أيضا "" من المهم حقا لCS50 TF. 891 00:47:11,330 --> 00:47:14,570 ولكن إذا كان لديك شيء من هذا القبيل "وCS50 ذهب TF لفئة، وقدم لهم 892 00:47:14,570 --> 00:47:20,060 الطلاب بعض الحلوى "." كاندي "و" " لا علاقة حقا، أليس كذلك؟ 893 00:47:20,060 --> 00:47:23,670 انهم بعيدة جدا عن بعضها البعض التي فإنه لا يهم ما حقا 894 00:47:23,670 --> 00:47:25,050 الكلمات التي لديك. 895 00:47:25,050 --> 00:47:31,210 >> ذلك عن طريق القيام bigram أو trigram، فإنه يعني فقط ان كنت الحد 896 00:47:31,210 --> 00:47:33,430 نفسك لبعض الكلمات التي حولها. 897 00:47:33,430 --> 00:47:35,810 معنى؟ 898 00:47:35,810 --> 00:47:40,630 لذلك عندما تريد أن تفعل تجزئة، أساسا، ما تريد القيام به هو معرفة 899 00:47:40,630 --> 00:47:44,850 ما هي كل السبل الممكنة التي يمكنك قطاع الجملة. 900 00:47:44,850 --> 00:47:49,090 >> بحيث ترى ما هو احتمال كل من هذه الجمل 901 00:47:49,090 --> 00:47:50,880 القائمة في اللغة؟ 902 00:47:50,880 --> 00:47:53,410 لذلك ما عليك فعله هو مثل، حسنا، دعونا لي في محاولة لوضع مسافة هنا. 903 00:47:53,410 --> 00:47:55,570 لذلك يمكنك وضع مسافة هناك وترى ما هو 904 00:47:55,570 --> 00:47:57,590 احتمال أن الجملة؟ 905 00:47:57,590 --> 00:48:00,240 ثم كنت مثل، حسنا، ربما لم يكن ذلك جيدا. 906 00:48:00,240 --> 00:48:03,420 لذلك أنا وضعت الفضاء هناك مساحة و هناك، وعلى حساب 907 00:48:03,420 --> 00:48:06,240 الاحتمال الآن، وترى أن انها احتمال أكبر. 908 00:48:06,240 --> 00:48:12,160 >> لذلك هذا هو خوارزمية تسمى تانغو خوارزمية تجزئة، والتي هي 909 00:48:12,160 --> 00:48:14,990 فعلا شيء من شأنه أن يكون حقا بارد لمشروع، والتي 910 00:48:14,990 --> 00:48:20,860 يأخذ أساسا النص الذي unsegmented يمكن أن يكون اليابانية أو الصينية أو ربما 911 00:48:20,860 --> 00:48:26,080 الانجليزية بدون مسافات، ويحاول أن يضع المسافات بين الكلمات وأنه لا 912 00:48:26,080 --> 00:48:29,120 أنه باستخدام نموذج اللغة و في محاولة لمعرفة ما هو أعلى 913 00:48:29,120 --> 00:48:31,270 احتمال يمكنك الحصول عليها. 914 00:48:31,270 --> 00:48:32,230 موافق. 915 00:48:32,230 --> 00:48:33,800 لذلك هذا هو تجزئة. 916 00:48:33,800 --> 00:48:35,450 >> الآن في بناء الجملة. 917 00:48:35,450 --> 00:48:40,940 لذلك، يتم استخدام بناء جملة الكثير من الأشياء في الوقت الحالي. 918 00:48:40,940 --> 00:48:44,880 وذلك لبحث الرسم البياني، لسيري ل الى حد كبير أي نوع من الطبيعية 919 00:48:44,880 --> 00:48:46,490 معالجة اللغة لديك. 920 00:48:46,490 --> 00:48:49,140 فما هي أهمية أشياء حول بناء جملة؟ 921 00:48:49,140 --> 00:48:52,390 لذلك، الأحكام بصفة عامة لديها ما نسميه المكونات. 922 00:48:52,390 --> 00:48:57,080 التي هي نوع من مثل مجموعات من الكلمات التي لديها وظيفة في الجملة. 923 00:48:57,080 --> 00:49:02,220 وأنها لا يمكن أن يكون حقا وبصرف النظر عن بعضها البعض. 924 00:49:02,220 --> 00:49:07,380 >> لذلك، إذا قلت، على سبيل المثال، "لورين يحب ميلو. "أنا أعرف أن" لورين "هو 925 00:49:07,380 --> 00:49:10,180 التأسيسية ثم "يحب ميلو "هي أيضا واحدة أخرى. 926 00:49:10,180 --> 00:49:16,860 لأنك لا يمكن أن يقول مثل "لورين ميلو يحب "أن يكون لها نفس المعنى. 927 00:49:16,860 --> 00:49:18,020 انها ليست ستكون لدينا نفس المعنى. 928 00:49:18,020 --> 00:49:22,500 أو لا أستطيع أن أقول مثل "ميلو لورين يحب. "ليس كل شيء له نفس 929 00:49:22,500 --> 00:49:25,890 يعني ذلك. 930 00:49:25,890 --> 00:49:31,940 >> وبالتالي فإن أمرين أكثر أهمية حول جملة هي أنواع المعجمية التي هي 931 00:49:31,940 --> 00:49:35,390 أساسا الدالة التي قمت يكون للكلمات من تلقاء انفسهم. 932 00:49:35,390 --> 00:49:39,180 ولذلك عليك أن تعرف أن "لورين" و "ميلو" هي الأسماء. 933 00:49:39,180 --> 00:49:41,040 "الحب" هو الفعل. 934 00:49:41,040 --> 00:49:45,660 والشيء الثاني المهم هو انهم أنواع الجمل الفعلية. 935 00:49:45,660 --> 00:49:48,990 حتى تعرف أن "يحب ميلو" هو في الواقع عبارة لفظية. 936 00:49:48,990 --> 00:49:52,390 لذلك عندما أقول "لورين،" أعرف أن لورين تفعل شيئا. 937 00:49:52,390 --> 00:49:53,620 ما هو أنها تفعل؟ 938 00:49:53,620 --> 00:49:54,570 انها المحبة ميلو. 939 00:49:54,570 --> 00:49:56,440 لذلك هو كل شيء. 940 00:49:56,440 --> 00:50:01,640 ولكن مكوناته هي اسما والفعل. 941 00:50:01,640 --> 00:50:04,210 ولكن معا، لأنها تجعل العبارة الفعل. 942 00:50:04,210 --> 00:50:08,680 >> لذلك، ما يمكننا القيام به في الواقع مع اللغويات الحاسوبية؟ 943 00:50:08,680 --> 00:50:13,810 لذلك، إذا كان لدي شيء على سبيل المثال "أصدقاء أليسون". أرى إذا أنا فقط 944 00:50:13,810 --> 00:50:17,440 لم شجرة النحوية وأود أن تعرف أن "أصدقاء" هي العبارة اسما هو 945 00:50:17,440 --> 00:50:21,480 إسم ثم "لأليسون" هو عبارة الجر التي "من" هو 946 00:50:21,480 --> 00:50:24,810 اقتراح و"أليسون" اسما. 947 00:50:24,810 --> 00:50:30,910 ما يمكن أن تفعله هو تعليم الكمبيوتر أن عندما يكون لدي عبارة إسم واحد و 948 00:50:30,910 --> 00:50:33,080 ثم عبارة الجر. 949 00:50:33,080 --> 00:50:39,020 حتى في هذه الحالة، "أصدقاء" ثم "ل ميلو "أنا أعلم أن هذا يعني أن 950 00:50:39,020 --> 00:50:43,110 NP2، ثانية واحدة، وتملك NP1. 951 00:50:43,110 --> 00:50:47,680 >> حتى أتمكن من خلق نوع من العلاقة، نوعا من وظيفة لذلك. 952 00:50:47,680 --> 00:50:52,370 لذلك كلما أرى هذا الهيكل، الذي يطابق تماما مع "أصدقاء 953 00:50:52,370 --> 00:50:56,030 أليسون، "أعرف أن أليسون تمتلك الأصدقاء. 954 00:50:56,030 --> 00:50:58,830 وبالتالي فإن الأصدقاء هم شيء أليسون التي لديها. 955 00:50:58,830 --> 00:50:59,610 من المنطقي؟ 956 00:50:59,610 --> 00:51:01,770 لذلك هذا هو أساسا ما الرسم البياني البحث لا. 957 00:51:01,770 --> 00:51:04,360 انها مجرد يخلق قواعد لكثير من الأشياء. 958 00:51:04,360 --> 00:51:08,190 حتى "أصدقاء أليسون"، "أصدقائي الذين يعيشون في كامبريدج "،" أصدقائي 959 00:51:08,190 --> 00:51:12,970 الذين يذهبون إلى جامعة هارفارد ". يخلق قواعد لجميع تلك الأشياء. 960 00:51:12,970 --> 00:51:14,930 >> الآن ترجمة الآلة. 961 00:51:14,930 --> 00:51:18,850 لذلك، والترجمة الآلية هو أيضا شيء الإحصائية. 962 00:51:18,850 --> 00:51:21,340 وفعلا إذا كنت الانخراط في اللغويات الحاسوبية، والكثير من 963 00:51:21,340 --> 00:51:23,580 الاشياء الخاصة بك ستكون الإحصاءات. 964 00:51:23,580 --> 00:51:26,670 حتى كنت أفعله مع المثال الكثير من الاحتمالات التي كنت 965 00:51:26,670 --> 00:51:30,540 حساب، ومن ثم تحصل على هذا عدد قليل جدا هذا هو النهائي 966 00:51:30,540 --> 00:51:33,180 الاحتمالات، وهذا ما يعطيك الجواب. 967 00:51:33,180 --> 00:51:37,540 يستخدم الترجمة الآلية أيضا نموذج إحصائي. 968 00:51:37,540 --> 00:51:44,790 وإذا كنت ترغب في التفكير في آلة الترجمة في أبسط ممكن 969 00:51:44,790 --> 00:51:48,970 الطريق، ما يمكن ان يخطر لك هو مجرد ترجمة كلمة كلمة، أليس كذلك؟ 970 00:51:48,970 --> 00:51:52,150 >> عندما كنت تعلم لغة ل المرة الأولى، وهذا عادة ما 971 00:51:52,150 --> 00:51:52,910 كنت تفعل، أليس كذلك؟ 972 00:51:52,910 --> 00:51:57,050 إذا كنت تريد ترجمة الجملة في لغتك إلى اللغة 973 00:51:57,050 --> 00:52:00,060 كنت تعلم، وعادة الأولى، ترجمة كل من الكلمات 974 00:52:00,060 --> 00:52:03,180 بشكل فردي، ثم محاولة لوضع الكلمات في مكانها. 975 00:52:03,180 --> 00:52:07,100 >> لذلك إذا أردت أن يترجم هذا، [الناطقة بالبرتغالية] 976 00:52:07,100 --> 00:52:10,430 وهو ما يعني "القط الأبيض هربت." إذا أردت أن ترجمته من 977 00:52:10,430 --> 00:52:13,650 البرتغالية إلى الإنجليزية، ما يمكن القيام به هو، أولا، أنا فقط 978 00:52:13,650 --> 00:52:14,800 ترجمة كلمة بكلمة. 979 00:52:14,800 --> 00:52:20,570 حتى "س" هو "،" "غاتو"، "القط" "برانكو"، "الأبيض"، ثم "fugio" هو 980 00:52:20,570 --> 00:52:21,650 "هربت". 981 00:52:21,650 --> 00:52:26,130 >> حتى ذلك الحين لدي كل الكلمات هنا، لكنها ليست في النظام. 982 00:52:26,130 --> 00:52:29,590 انها مثل "القط الأبيض هربت" وهو غير قواعدي. 983 00:52:29,590 --> 00:52:34,490 لذلك، ثم أنا يمكن أن يكون خطوة الثانية، التي سوف يتم العثور على مثالية 984 00:52:34,490 --> 00:52:36,610 موقف لكل من الكلمات. 985 00:52:36,610 --> 00:52:40,240 لذلك أنا أعلم أنني في الواقع تريد أن يكون "القط الأبيض" بدلا من "القط الأبيض". هكذا 986 00:52:40,240 --> 00:52:46,050 ما يمكنني القيام به هو، والأسلوب الأكثر السذاجة سيكون لتهيئة جميع 987 00:52:46,050 --> 00:52:49,720 التباديل الممكنة لل الكلمات، المواقف. 988 00:52:49,720 --> 00:52:53,300 ومن ثم معرفة أي واحد لديه أعلى احتمال وفقا 989 00:52:53,300 --> 00:52:54,970 إلى نموذج لغتي. 990 00:52:54,970 --> 00:52:58,390 وبعد ذلك عندما أجد واحدة لديها أعلى احتمال، والذي هو 991 00:52:58,390 --> 00:53:01,910 على الارجح "القط الأبيض ركض بعيدا،" هذا هو بلدي الترجمة. 992 00:53:01,910 --> 00:53:06,710 >> وهذا هو وسيلة بسيطة لشرح كيف الكثير من الترجمة الآلية 993 00:53:06,710 --> 00:53:07,910 العمل الخوارزميات. 994 00:53:07,910 --> 00:53:08,920 فهل هذا يعقل؟ 995 00:53:08,920 --> 00:53:12,735 وهذا هو أيضا شيء مثير حقا أن يا رفاق يمكن استكشاف ربما ل 996 00:53:12,735 --> 00:53:13,901 المشروع النهائي، نعم؟ 997 00:53:13,901 --> 00:53:15,549 >> الطالب: حسنا، قلت كان طريقة ساذجة، لذلك ما هو 998 00:53:15,549 --> 00:53:17,200 الطريق غير ساذجة؟ 999 00:53:17,200 --> 00:53:18,400 >> LUCAS FREITAS: الطريقة غير ساذجة؟ 1000 00:53:18,400 --> 00:53:19,050 موافق. 1001 00:53:19,050 --> 00:53:22,860 وبالتالي فإن أول شيء ما هو سيء عن هذا الأسلوب هو أن قمت بترجمة فقط 1002 00:53:22,860 --> 00:53:24,330 الكلمات، كلمة كلمة. 1003 00:53:24,330 --> 00:53:30,570 لكن في بعض الأحيان لديك الكلمات التي يمكن أن يكون لها ترجمات متعددة. 1004 00:53:30,570 --> 00:53:32,210 انا ذاهب الى محاولة للتفكير لشيء ما. 1005 00:53:32,210 --> 00:53:37,270 على سبيل المثال، "المانجا" في علبة البرتغالية إما أن يكون "فسد" أو "كم". هكذا 1006 00:53:37,270 --> 00:53:40,450 عندما كنت في محاولة لترجمة كلمة بكلمة، قد تكون مما يتيح لك 1007 00:53:40,450 --> 00:53:42,050 شيء لا معنى له. 1008 00:53:42,050 --> 00:53:45,770 >> لذلك كنت فعلا تريد ان نظرتم الى كل الترجمات المحتملة لل 1009 00:53:45,770 --> 00:53:49,840 الكلمات ونرى، أولا وقبل كل شيء، ما هو النظام. 1010 00:53:49,840 --> 00:53:52,000 كنا نتحدث عن permutating الأشياء؟ 1011 00:53:52,000 --> 00:53:54,150 لمعرفة جميع الاوامر ممكن و اختيار واحد وفقا لأعلى 1012 00:53:54,150 --> 00:53:54,990 الاحتمال؟ 1013 00:53:54,990 --> 00:53:57,860 يمكنك أيضا اختيار كل ما هو ممكن الترجمات لكل 1014 00:53:57,860 --> 00:54:00,510 كلمة ونرى بعد ذلك - 1015 00:54:00,510 --> 00:54:01,950 جنبا إلى جنب مع التباديل - 1016 00:54:01,950 --> 00:54:03,710 أي واحد لديها أعلى احتمال. 1017 00:54:03,710 --> 00:54:08,590 >> بالإضافة إلى ذلك، يمكنك ايضا ان ننظر في لا فقط الكلمات ولكن العبارات. 1018 00:54:08,590 --> 00:54:11,700 حتى تتمكن من تحليل العلاقات بين الكلمات ومن ثم الحصول على 1019 00:54:11,700 --> 00:54:13,210 ترجمة أفضل. 1020 00:54:13,210 --> 00:54:16,690 أيضا شيء آخر، لذلك هذا الفصل الدراسي أفعله في الواقع البحث في 1021 00:54:16,690 --> 00:54:19,430 الصينية الانجليزية الترجمة الآلية، لذلك من ترجمة 1022 00:54:19,430 --> 00:54:20,940 الصينية إلى الإنجليزية. 1023 00:54:20,940 --> 00:54:26,760 >> وشيء نقوم به هو، إلى جانب استخدام نموذج إحصائي، الذي هو مجرد 1024 00:54:26,760 --> 00:54:30,570 رؤية الاحتمالات في رؤية بعض الموقف في الجملة، وأنا 1025 00:54:30,570 --> 00:54:35,360 في الواقع أيضا إضافة بعض بناء الجملة لبلدي نموذج قائلا، أوه، إذا رأيت هذا النوع 1026 00:54:35,360 --> 00:54:39,420 البناء، وهذا هو ما أريد لتغييره إلى عندما أترجم. 1027 00:54:39,420 --> 00:54:43,880 بحيث يمكنك أيضا إضافة بعض نوع من عنصر في بناء الجملة لجعل 1028 00:54:43,880 --> 00:54:47,970 ترجمة أكثر كفاءة وأكثر دقة. 1029 00:54:47,970 --> 00:54:48,550 موافق. 1030 00:54:48,550 --> 00:54:51,010 >> فكيف يمكن أن تبدأ، إذا كنت تريد أن تفعل شيئا في الحسابية 1031 00:54:51,010 --> 00:54:51,980 اللسانيات؟ 1032 00:54:51,980 --> 00:54:54,560 >> الأولى، اخترت مشروع التي تنطوي على لغات. 1033 00:54:54,560 --> 00:54:56,310 لذلك، هناك الكثير من هناك. 1034 00:54:56,310 --> 00:54:58,420 هناك الكثير من الأشياء التي يمكن القيام به. 1035 00:54:58,420 --> 00:55:00,510 ومن ثم يمكن التفكير في نموذج التي يمكنك استخدامها. 1036 00:55:00,510 --> 00:55:04,710 وهذا يعني عادة التفكير من الافتراضات، كما مثل، أوه، عندما كان عمري 1037 00:55:04,710 --> 00:55:05,770 مثل التفكير في كلمات. 1038 00:55:05,770 --> 00:55:09,510 كنت مثل، حسنا، إذا كنت تريد معرفة خارجا الذي كتب هذا، وأنا ربما تريد 1039 00:55:09,510 --> 00:55:15,400 أن ننظر إلى كلام شخص يستخدم و معرفة من الذي يستخدم هذه الكلمة في كثير من الأحيان. 1040 00:55:15,400 --> 00:55:18,470 وذلك في محاولة لجعل الافتراضات و في محاولة للتفكير من النماذج. 1041 00:55:18,470 --> 00:55:21,395 ثم يمكنك أيضا البحث على الانترنت ل هذا النوع من المشكلة التي لديك، 1042 00:55:21,395 --> 00:55:24,260 وانها سوف تشير إليكم النماذج التي ربما 1043 00:55:24,260 --> 00:55:26,560 على غرار هذا الشيء جيدا. 1044 00:55:26,560 --> 00:55:29,080 >> وأيضا يمكنك البريد الالكتروني لي دائما. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 وأستطيع الإجابة على الأسئلة الخاصة بك فقط. 1047 00:55:34,940 --> 00:55:38,600 يمكننا حتى يمكن تلبية تصل حتى يمكنني تقديم الاقتراحات بشأن سبل 1048 00:55:38,600 --> 00:55:41,490 تنفيذ المشروع. 1049 00:55:41,490 --> 00:55:45,610 وأعني إذا كنت التورط مع اللغويات الحاسوبية، انه سيكون 1050 00:55:45,610 --> 00:55:46,790 أن تكون كبيرة. 1051 00:55:46,790 --> 00:55:48,370 وأنت تسير أن نرى هناك هو محتمل كثيرا. 1052 00:55:48,370 --> 00:55:52,060 وصناعة يرغب في توظيف كنت سيئا للغاية بسبب ذلك. 1053 00:55:52,060 --> 00:55:54,720 لذلك آمل أن يتمتع هذا يا رفاق. 1054 00:55:54,720 --> 00:55:57,030 إذا يا رفاق لديك أي أسئلة، يمكنك أن تطلب مني بعد ذلك. 1055 00:55:57,030 --> 00:55:58,280 لكن شكرا لك. 1056 00:55:58,280 --> 00:56:00,150