1 00:00:00,000 --> 00:00:08,364 2 00:00:08,364 --> 00:00:08,870 >> लुकास Freitas: सुनो. 3 00:00:08,870 --> 00:00:09,980 हर किसी का स्वागत है. 4 00:00:09,980 --> 00:00:11,216 मेरा नाम लुकास Freitas है. 5 00:00:11,216 --> 00:00:15,220 मैं पढ़ाई [सुनाई] में एक जूनियर हूँ में ध्यान देने के साथ कंप्यूटर विज्ञान 6 00:00:15,220 --> 00:00:16,410 कम्प्यूटेशनल भाषा विज्ञान. 7 00:00:16,410 --> 00:00:19,310 तो मेरा माध्यमिक भाषा में है और भाषाई सिद्धांत. 8 00:00:19,310 --> 00:00:21,870 मैं सच में तुम लोगों को पढ़ाने के लिए उत्साहित हूँ क्षेत्र के बारे में थोड़ा सा. 9 00:00:21,870 --> 00:00:24,300 यह अध्ययन करने के लिए एक बहुत ही रोमांचक क्षेत्र है. 10 00:00:24,300 --> 00:00:27,260 इसके अलावा बहुत सी संभावनाएँ साथ भविष्य के लिए. 11 00:00:27,260 --> 00:00:30,160 तो, मैं बहुत उत्साहित हूँ कि तुम लोग परियोजनाओं में विचार कर रहे हैं 12 00:00:30,160 --> 00:00:31,160 कम्प्यूटेशनल भाषा विज्ञान. 13 00:00:31,160 --> 00:00:35,460 और मुझे सलाह देने के लिए खुश से अधिक हो जाएगा आप में से किसी भी आप के लिए तय है 14 00:00:35,460 --> 00:00:37,090 उन में से एक को आगे बढ़ाने. 15 00:00:37,090 --> 00:00:40,010 >> कम्प्यूटेशनल क्या कर रहे हैं तो सब से पहले भाषा विज्ञान? 16 00:00:40,010 --> 00:00:44,630 तो कम्प्यूटेशनल भाषा विज्ञान है भाषा विज्ञान और बीच चौराहे 17 00:00:44,630 --> 00:00:46,390 कंप्यूटर विज्ञान. 18 00:00:46,390 --> 00:00:47,415 तो, भाषा विज्ञान क्या है? 19 00:00:47,415 --> 00:00:48,490 कंप्यूटर विज्ञान क्या है? 20 00:00:48,490 --> 00:00:51,580 खैर भाषा विज्ञान से, क्या हम भाषाएं हैं ले. 21 00:00:51,580 --> 00:00:54,960 तो भाषा विज्ञान वास्तव में अध्ययन है सामान्य रूप में प्राकृतिक भाषा की. 22 00:00:54,960 --> 00:00:58,330 इसलिए प्राकृतिक भाषा - हम इस बारे में बात हम वास्तव में करने के लिए उपयोग किए जाने वाले भाषा 23 00:00:58,330 --> 00:00:59,770 एक दूसरे के साथ संवाद. 24 00:00:59,770 --> 00:01:02,200 इसलिए हम वास्तव में बात नहीं कर रहे सी या जावा के बारे में. 25 00:01:02,200 --> 00:01:05,900 हम अंग्रेजी के बारे में अधिक बात कर रहे हैं चीनी और अन्य भाषाओं कि हम 26 00:01:05,900 --> 00:01:07,780 एक दूसरे के साथ संवाद करने के लिए उपयोग करें. 27 00:01:07,780 --> 00:01:12,470 >> उस के बारे में चुनौतीपूर्ण बात है कि अभी हम लगभग 7,000 28 00:01:12,470 --> 00:01:14,260 दुनिया में भाषा. 29 00:01:14,260 --> 00:01:19,520 इसलिए काफी एक उच्च किस्म है हम अध्ययन कर सकते हैं कि भाषा की. 30 00:01:19,520 --> 00:01:22,600 और फिर आप यह शायद लगता है कि ऐसा करने के लिए बहुत मुश्किल है, उदाहरण के लिए, 31 00:01:22,600 --> 00:01:26,960 एक भाषा से अनुवाद अन्य, है कि आप पर विचार 32 00:01:26,960 --> 00:01:28,240 लगभग 7,000 उनमें से. 33 00:01:28,240 --> 00:01:31,450 तो, आप अनुवाद करने की सोच भी अगर एक भाषा से अन्य के लिए आप 34 00:01:31,450 --> 00:01:35,840 लगभग एक लाख से अधिक विभिन्न संयोजनों कि आप कर सकते हैं 35 00:01:35,840 --> 00:01:37,330 भाषा से भाषा के लिए है. 36 00:01:37,330 --> 00:01:40,820 तो यह वास्तव में कुछ करने की चुनौती दे रहा है उदाहरण: अनुवाद प्रणाली की तरह के लिए 37 00:01:40,820 --> 00:01:43,540 हर एक भाषा. 38 00:01:43,540 --> 00:01:47,120 >> तो, वाक्य रचना के साथ भाषा विज्ञान मानते हैं, अर्थ विज्ञान, pragmatics. 39 00:01:47,120 --> 00:01:49,550 तुम लोग बिल्कुल जरूरत नहीं है वे क्या कर रहे हैं पता करने के लिए. 40 00:01:49,550 --> 00:01:55,090 लेकिन बहुत ही दिलचस्प बात यह है कि जब तुम सीख एक देशी वक्ता के रूप में 41 00:01:55,090 --> 00:01:59,010 बच्चे के रूप में भाषा, तुम वास्तव में सीखना उन चीजों के सभी - वाक्यविन्यास अर्थ विज्ञान 42 00:01:59,010 --> 00:02:00,500 और उपयोगितावाद - 43 00:02:00,500 --> 00:02:01,430 अपने आप से. 44 00:02:01,430 --> 00:02:04,820 और कोई नहीं के लिए आप वाक्यविन्यास सिखाने के लिए है आप वाक्य हैं समझने के लिए कैसे 45 00:02:04,820 --> 00:02:05,290 संरचित. 46 00:02:05,290 --> 00:02:07,980 इसलिए, यह वाकई दिलचस्प है क्योंकि यह बहुत आता है कि कुछ है 47 00:02:07,980 --> 00:02:10,389 intuitively. 48 00:02:10,389 --> 00:02:13,190 >> और तुम से क्या ले जा रहे हैं कंप्यूटर विज्ञान? 49 00:02:13,190 --> 00:02:16,700 खैर, सबसे महत्वपूर्ण बात यह है कि हम कंप्यूटर विज्ञान में है पहली की है 50 00:02:16,700 --> 00:02:19,340 सभी, कृत्रिम बुद्धि और मशीन सीखने. 51 00:02:19,340 --> 00:02:22,610 तो, हम ऐसा करने के लिए कोशिश कर रहे हैं कम्प्यूटेशनल भाषा विज्ञान सिखाने 52 00:02:22,610 --> 00:02:26,990 कुछ करने के लिए कैसे अपने कंप्यूटर भाषा के साथ. 53 00:02:26,990 --> 00:02:28,630 >> तो, उदाहरण के लिए, मशीन में अनुवाद. 54 00:02:28,630 --> 00:02:32,490 मैं अपने कंप्यूटर कैसे सिखाने की कोशिश कर रहा हूँ एक से संक्रमण के लिए कैसे पता करने के लिए 55 00:02:32,490 --> 00:02:33,310 दूसरे से भाषा. 56 00:02:33,310 --> 00:02:35,790 तो, मूल रूप से शिक्षण की तरह एक कंप्यूटर दो भाषाओं. 57 00:02:35,790 --> 00:02:38,870 मैं प्राकृतिक भाषा प्रसंस्करण करते हैं, उदाहरण के लिए मामला है जो 58 00:02:38,870 --> 00:02:41,810 फेसबुक का ग्राफ खोज, आप सिखाना समझने के लिए कैसे अपने कंप्यूटर 59 00:02:41,810 --> 00:02:42,730 प्रश्नों अच्छी तरह से. 60 00:02:42,730 --> 00:02:48,130 >> तो, आप "की तस्वीरें कहते हैं मेरे मित्रों. "फेसबुक का इलाज नहीं करता 61 00:02:48,130 --> 00:02:51,130 है कि एक पूरी स्ट्रिंग के रूप में सिर्फ शब्दों का एक गुच्छा. 62 00:02:51,130 --> 00:02:56,020 यह वास्तव में संबंध समझता "तस्वीरें" और "मेरे दोस्त" और के बीच 63 00:02:56,020 --> 00:02:59,620 "तस्वीरें" समझता है कि की संपत्ति "मेरे दोस्त." 64 00:02:59,620 --> 00:03:02,350 >> तो, कि, उदाहरण के लिए, का हिस्सा है प्राकृतिक भाषा संसाधन. 65 00:03:02,350 --> 00:03:04,790 यह समझने की कोशिश कर रहा है बीच का रिश्ता है 66 00:03:04,790 --> 00:03:07,520 एक वाक्य में शब्दों. 67 00:03:07,520 --> 00:03:11,170 और बड़ा सवाल, आप यह कर सकते है बात करने के लिए कैसे एक कंप्यूटर सिखाने 68 00:03:11,170 --> 00:03:12,650 सामान्य रूप में एक भाषा? 69 00:03:12,650 --> 00:03:17,810 एक बहुत ही दिलचस्प सवाल है जो , यदि आप हो सकता है भविष्य में, लगता है 70 00:03:17,810 --> 00:03:19,930 आप करने के लिए सक्षम होने के लिए जा रहे हैं अपने सेल फोन से बात करो. 71 00:03:19,930 --> 00:03:23,290 एक तरह से हम सिरी साथ क्या करना पसंद है लेकिन अधिक कुछ पसंद है, तुम वास्तव में कर सकते हैं 72 00:03:23,290 --> 00:03:25,690 तुम जो चाहो कह और फोन सब कुछ समझने के लिए जा रहा है. 73 00:03:25,690 --> 00:03:28,350 और यह सवाल अप का पालन कर सकते हैं और बात कर रखो. 74 00:03:28,350 --> 00:03:30,880 यही है, वास्तव में रोमांचक कुछ है मेरी राय में. 75 00:03:30,880 --> 00:03:33,070 >> तो, प्राकृतिक भाषा के बारे में कुछ. 76 00:03:33,070 --> 00:03:36,220 के बारे में वास्तव में कुछ दिलचस्प प्राकृतिक भाषा है, और यह है 77 00:03:36,220 --> 00:03:38,470 मेरी भाषा विज्ञान के प्रोफेसर के लिए क्रेडिट, मारिया Polinsky. 78 00:03:38,470 --> 00:03:40,830 वह एक उदाहरण देता है और मुझे लगता है कि यह वाकई दिलचस्प है. 79 00:03:40,830 --> 00:03:47,060 हम जब से भाषा सीखने क्योंकि हम अपने देशी तब पैदा हुआ था और कर रहे हैं 80 00:03:47,060 --> 00:03:49,170 भाषा प्रकार का हम पर बढ़ता है. 81 00:03:49,170 --> 00:03:52,570 >> और मूल रूप से आप भाषा सीख न्यूनतम इनपुट से, सही? 82 00:03:52,570 --> 00:03:56,700 तुम बस से इनपुट हो रही है आपके अपनी भाषा क्या लगता है की माता पिता 83 00:03:56,700 --> 00:03:58,770 पसंद है और आप सिर्फ यह जानने. 84 00:03:58,770 --> 00:04:02,240 अगर तुम देखो इसलिए, क्योंकि यह दिलचस्प है उन वाक्यों में, उदाहरण के लिए. 85 00:04:02,240 --> 00:04:06,980 तुम देखो, "मेरी हर एक कोट पर डालता है समय वह घर छोड़ देता है. " 86 00:04:06,980 --> 00:04:10,650 >> इस मामले में, यह संभव है शब्द "वह" सही, मरियम को देखें? 87 00:04:10,650 --> 00:04:13,500 आप "मेरी एक कोट पर डालता कह सकते हैं मैरी छोड़ देता है हर बार 88 00:04:13,500 --> 00:04:14,960 घर. "तो ठीक है. 89 00:04:14,960 --> 00:04:19,370 लेकिन तब तुम वाक्य को देखो "वह मेरी एक कोट पर हर बार कहते हैं 90 00:04:19,370 --> 00:04:22,850 घर छोड़ देता है. "आप यह जानते हैं "वह" है कि कहने के लिए असंभव 91 00:04:22,850 --> 00:04:24,260 मैरी का जिक्र है. 92 00:04:24,260 --> 00:04:27,070 >> "मेरी डालता है कि कहने का कोई रास्ता नहीं है एक कोट पर मैरी छोड़ देता है हर बार 93 00:04:27,070 --> 00:04:30,790 घर. "तो यह दिलचस्प है क्योंकि इस अंतर्ज्ञान की तरह है 94 00:04:30,790 --> 00:04:32,890 हर देशी वक्ता है कि. 95 00:04:32,890 --> 00:04:36,370 और कोई भी यह है कि सिखाया था वाक्यविन्यास काम करता है जिस तरह से. 96 00:04:36,370 --> 00:04:41,930 और आप केवल इस "वह" हो सकता है कि , इस पहले मामले में मैरी की चर्चा करते हुए 97 00:04:41,930 --> 00:04:44,260 और वास्तव में यह दूसरी में भी, लेकिन नहीं इस एक में. 98 00:04:44,260 --> 00:04:46,500 लेकिन हर तरह से हो जाता है एक ही जवाब देने के लिए. 99 00:04:46,500 --> 00:04:48,580 हर कोई उस पर सहमत हैं. 100 00:04:48,580 --> 00:04:53,280 तो यह कैसे हालांकि वाकई दिलचस्प है आप सभी नियमों को नहीं जानता 101 00:04:53,280 --> 00:04:55,575 अपनी भाषा में आप की तरह समझते हैं भाषा कैसे काम करता है. 102 00:04:55,575 --> 00:04:59,020 103 00:04:59,020 --> 00:05:01,530 >> तो प्राकृतिक के बारे में दिलचस्प बात यह है कि भाषा आप के लिए नहीं है यह है कि 104 00:05:01,530 --> 00:05:06,970 पता करने के लिए किसी भी वाक्यविन्यास पता है अगर एक वाक्य के लिए व्याकरण या ungrammatical है 105 00:05:06,970 --> 00:05:08,810 ज्यादातर मामलों. 106 00:05:08,810 --> 00:05:13,220 आपको लगता है जो कि शायद क्या ऐसा होता है कि आप अपने जीवन के माध्यम से है 107 00:05:13,220 --> 00:05:17,410 बस अधिक से अधिक हो रही रखने वाक्य आप करने के लिए कहा. 108 00:05:17,410 --> 00:05:19,800 और फिर तुम याद रखना रखना वाक्य के सब. 109 00:05:19,800 --> 00:05:24,230 और फिर किसी ने तुम्हें बताता है जब कुछ है, तुम उस वाक्य में सुना है और 110 00:05:24,230 --> 00:05:27,040 आप अपनी शब्दावली को देखो वाक्य की और देखो अगर 111 00:05:27,040 --> 00:05:28,270 उस वाक्य है. 112 00:05:28,270 --> 00:05:29,830 और यह वहाँ आप अगर यह व्याकरण है कहना. 113 00:05:29,830 --> 00:05:31,740 यदि ऐसा नहीं है कि आप यह कहते हैं कि ungrammatical. 114 00:05:31,740 --> 00:05:35,150 >> तो, उस मामले में, तुम, ओह, कहेंगे इसलिए आप सभी का एक विशाल सूची है 115 00:05:35,150 --> 00:05:36,140 संभव वाक्य. 116 00:05:36,140 --> 00:05:38,240 और फिर आप एक वाक्य सुना है, यह व्याकरण है या यदि आप जानते हैं 117 00:05:38,240 --> 00:05:39,450 उस पर आधारित नहीं है. 118 00:05:39,450 --> 00:05:42,360 बात यह है कि अगर तुम देखो एक वाक्य, उदाहरण के लिए, " 119 00:05:42,360 --> 00:05:47,540 पांच अध्यक्षता CS50 TFS अंधा पकाया एक DAPA मग का उपयोग कर ऑक्टोपस. "यह 120 00:05:47,540 --> 00:05:49,630 निश्चित रूप से नहीं एक वाक्य आप पहले सुना कि. 121 00:05:49,630 --> 00:05:52,380 लेकिन एक ही समय में आप यह जानते हैं सही, व्याकरण बहुत ज्यादा? 122 00:05:52,380 --> 00:05:55,570 कोई व्याकरण की गलती कर रहे हैं और आप कह सकते हैं कि 123 00:05:55,570 --> 00:05:57,020 यह एक संभव वाक्य है. 124 00:05:57,020 --> 00:06:01,300 >> तो यह है हमें लगता है कि वास्तव में हम भाषा सीखने तरीका है कि न केवल 125 00:06:01,300 --> 00:06:07,090 संभव का एक विशाल डाटाबेस होने से शब्दों या वाक्यों, लेकिन के अधिक 126 00:06:07,090 --> 00:06:11,490 के बीच संबंध को समझने उन वाक्यों में शब्दों. 127 00:06:11,490 --> 00:06:14,570 कि मतलब? 128 00:06:14,570 --> 00:06:19,370 तो, फिर सवाल कर सकते है कंप्यूटर भाषा सीखना? 129 00:06:19,370 --> 00:06:21,490 हम कंप्यूटर के लिए भाषा सिखा सकते हो? 130 00:06:21,490 --> 00:06:24,230 >> तो, चलो अंतर के बारे में सोचो एक भाषा की एक देशी वक्ता के बीच 131 00:06:24,230 --> 00:06:25,460 और एक कंप्यूटर. 132 00:06:25,460 --> 00:06:27,340 तो, क्या वक्ता के लिए होता है? 133 00:06:27,340 --> 00:06:30,430 खैर, देशी वक्ता एक सीखता यह करने के लिए जोखिम से भाषा. 134 00:06:30,430 --> 00:06:34,200 आमतौर पर अपने बचपन के वर्षों. 135 00:06:34,200 --> 00:06:38,570 तो, मूलतः, तुम सिर्फ एक बच्चा है और आप इसे करने के लिए बात कर रखो, और यह 136 00:06:38,570 --> 00:06:40,540 सिर्फ बात करने के लिए कैसे सीखता भाषा, है ना? 137 00:06:40,540 --> 00:06:42,660 तो, आप मूल रूप से दे रहे हैं बच्चे के लिए इनपुट. 138 00:06:42,660 --> 00:06:45,200 तो, तो आप बहस कर सकते हैं कि एक कंप्यूटर ठीक है, एक ही बात कर सकते हैं? 139 00:06:45,200 --> 00:06:49,510 तुम सिर्फ भाषा दे सकते हैं कंप्यूटर के लिए निवेश के रूप में. 140 00:06:49,510 --> 00:06:53,410 >> उदाहरण के लिए के रूप में फ़ाइलों का एक गुच्छा अंग्रेजी में किताबें हैं कि. 141 00:06:53,410 --> 00:06:56,190 हो सकता है कि एक ही रास्ता है कि आप उस संभवतः एक सिखा सकते हैं 142 00:06:56,190 --> 00:06:57,850 कंप्यूटर अंग्रेजी, सही? 143 00:06:57,850 --> 00:07:01,000 और वास्तव में, यदि आप इसके बारे में सोचते हैं, यह शायद एक जोड़े को ले जाता है 144 00:07:01,000 --> 00:07:02,680 एक किताब को पढ़ने के लिए दिन. 145 00:07:02,680 --> 00:07:05,760 एक कंप्यूटर के लिए यह एक दूसरा लेता है एक किताब के सभी शब्द पर दिखेगा. 146 00:07:05,760 --> 00:07:10,810 तो आपको लगता है कि हो सकता है सोच सकते हैं बस इस आप चारों ओर से इनपुट के तर्क, 147 00:07:10,810 --> 00:07:15,440 वह यह है कि कहना है कि पर्याप्त नहीं है केवल मनुष्य कर सकता है कुछ. 148 00:07:15,440 --> 00:07:17,680 आप कंप्यूटर में सोच सकते हैं भी इनपुट मिल सकती है. 149 00:07:17,680 --> 00:07:21,170 >> दूसरी बात यह है कि देशी वक्ताओं यह भी है कि एक मस्तिष्क है 150 00:07:21,170 --> 00:07:23,870 भाषा सीखने की क्षमता. 151 00:07:23,870 --> 00:07:27,020 लेकिन अगर आप इसके बारे में सोचते हैं, एक मस्तिष्क एक ठोस बात है. 152 00:07:27,020 --> 00:07:30,450 आप पैदा होते हैं, यह पहले से ही तय है - 153 00:07:30,450 --> 00:07:31,320 यह आपका मस्तिष्क है. 154 00:07:31,320 --> 00:07:34,660 तुम बड़े हो और, जैसा कि आप बस अधिक मिलता है भाषा के इनपुट और शायद पोषक तत्वों 155 00:07:34,660 --> 00:07:35,960 और अन्य सामान. 156 00:07:35,960 --> 00:07:38,170 लेकिन बहुत ज्यादा अपने मस्तिष्क एक ठोस बात है. 157 00:07:38,170 --> 00:07:41,290 >> तो आप अच्छी तरह से, शायद आप कर सकते हैं, कह सकते हैं एक गुच्छा की है कि एक कंप्यूटर का निर्माण 158 00:07:41,290 --> 00:07:45,890 कार्यों और सिर्फ नकल तरीकों भाषा सीखने की क्षमता. 159 00:07:45,890 --> 00:07:49,630 तो उस अर्थ में, आप मुझे अच्छी तरह से कह सकते हैं, सब है कि एक कंप्यूटर हो सकता है 160 00:07:49,630 --> 00:07:52,270 मैं भाषा सीखने की जरूरत है बातें. 161 00:07:52,270 --> 00:07:56,200 और आखिरी बात है कि एक देशी स्पीकर परीक्षण और त्रुटि से सीखता है. 162 00:07:56,200 --> 00:08:01,090 तो बुनियादी तौर पर एक और महत्वपूर्ण बात में भाषा सीखने की है कि आप की तरह 163 00:08:01,090 --> 00:08:05,340 का बनाकर चीजें सीख आप क्या सुनना की सामान्यीकरण. 164 00:08:05,340 --> 00:08:10,280 >> आप बड़े हो रहे हैं तो जैसा कि आप सीखना है कि कुछ शब्द अधिक संज्ञाओं की तरह हैं, 165 00:08:10,280 --> 00:08:11,820 कुछ अन्य लोगों के विशेषण हैं. 166 00:08:11,820 --> 00:08:14,250 और अगर आप किसी के लिए नहीं है भाषा विज्ञान का ज्ञान 167 00:08:14,250 --> 00:08:15,040 समझने की है कि. 168 00:08:15,040 --> 00:08:18,560 लेकिन तुम सिर्फ कुछ शब्दों को जानते हैं कि वहाँ के कुछ हिस्से में तैनात हैं 169 00:08:18,560 --> 00:08:22,570 वाक्य और अन्य में कुछ अन्य लोगों वाक्य के कुछ हिस्सों. 170 00:08:22,570 --> 00:08:26,110 >> और कि आप है कि कुछ करने के लिए जब सही नहीं है कि एक वाक्य की तरह - 171 00:08:26,110 --> 00:08:28,770 हो सकता है क्योंकि एक से अधिक सामान्यीकरण की उदाहरण के लिए. 172 00:08:28,770 --> 00:08:32,210 आप ऊपर बढ़ रहे हैं जब हो सकता है, तुम नोटिस बहुवचन आमतौर पर है कि 173 00:08:32,210 --> 00:08:35,809 पर एक एस डाल द्वारा गठित शब्द के अंत. 174 00:08:35,809 --> 00:08:40,042 और फिर आप का बहुवचन करने की कोशिश "हिरणों" या "दाँत" के रूप में "हिरण" 175 00:08:40,042 --> 00:08:44,780 "Tooths." तो फिर अपने माता पिता या किसी को आप ठीक हो जाती है और कहते हैं, नहीं, 176 00:08:44,780 --> 00:08:49,020 "हिरण" का बहुवचन ", हिरण" है और "दाँत" का बहुवचन "दांत है." और फिर 177 00:08:49,020 --> 00:08:50,060 आप उन चीजों को सीखते हैं. 178 00:08:50,060 --> 00:08:51,520 तो आप परीक्षण और त्रुटि से सीखते हैं. 179 00:08:51,520 --> 00:08:53,100 >> लेकिन अगर आप भी ऐसा कर सकते हैं एक कंप्यूटर के साथ. 180 00:08:53,100 --> 00:08:55,310 आप बुलाया कुछ हो सकता है सुदृढीकरण सीखने. 181 00:08:55,310 --> 00:08:58,560 एक देने की तरह है, जो मूलतः यह करता है जब भी कंप्यूटर एक इनाम 182 00:08:58,560 --> 00:08:59,410 सही ढंग से कुछ. 183 00:08:59,410 --> 00:09:04,710 और यह एक इनाम के विपरीत दे और यह गलत कुछ भी करता है. 184 00:09:04,710 --> 00:09:07,410 आप वास्तव में देख सकते हैं कि अगर तुम जाओ गूगल अनुवाद और आप के लिए प्रयास करने के लिए 185 00:09:07,410 --> 00:09:10,220 एक वाक्य का अनुवाद, यह प्रतिक्रिया के लिए पूछता है. 186 00:09:10,220 --> 00:09:13,240 अगर आप कहते हैं तो, ओह, एक बेहतर है इस वाक्य के लिए अनुवाद. 187 00:09:13,240 --> 00:09:18,140 तब आप इसे टाइप कर सकते हैं और यदि का एक बहुत लोगों को लगता है कि एक बेहतर है कह रहो 188 00:09:18,140 --> 00:09:21,560 अनुवाद, यह सिर्फ सीखता है कि यह बजाय कि अनुवाद का उपयोग करना चाहिए 189 00:09:21,560 --> 00:09:22,960 यह दे रहा था एक. 190 00:09:22,960 --> 00:09:28,830 >> इसलिए, यह एक बहुत ही दार्शनिक सवाल है कंप्यूटर होने जा रहे हैं देखने के लिए 191 00:09:28,830 --> 00:09:30,340 भविष्य में बात करने या नहीं करने के लिए सक्षम. 192 00:09:30,340 --> 00:09:34,440 लेकिन मैं उच्च उम्मीद है कि वे कर सकते सिर्फ उन तर्कों पर आधारित है. 193 00:09:34,440 --> 00:09:38,570 लेकिन यह एक दार्शनिक की अभी और भी है प्रश्न. 194 00:09:38,570 --> 00:09:43,460 >> कंप्यूटर अभी भी बात नहीं कर सकते तो, जबकि हम क्या कर सकते हैं कि चीजें हैं? 195 00:09:43,460 --> 00:09:47,070 कुछ वास्तव में अच्छा काम कर रहे हैं डेटा वर्गीकरण. 196 00:09:47,070 --> 00:09:53,210 तो, उदाहरण के लिए, आप लोगों को पता है उस ईमेल सेवाओं के लिए करते हैं, 197 00:09:53,210 --> 00:09:55,580 उदाहरण के लिए, स्पैम फ़िल्टर. 198 00:09:55,580 --> 00:09:59,070 आप स्पैम प्राप्त तो, जब भी यह एक और बॉक्स को फिल्टर करने के लिए प्रयास करता है. 199 00:09:59,070 --> 00:10:00,270 तो कैसे यह है कि क्या करता है? 200 00:10:00,270 --> 00:10:06,080 यह कंप्यूटर सिर्फ जानता है की तरह नहीं है क्या ईमेल पते स्पैम भेज रहे हैं. 201 00:10:06,080 --> 00:10:09,130 तो यह और अधिक की सामग्री पर आधारित है संदेश, या शायद शीर्षक, या 202 00:10:09,130 --> 00:10:11,310 शायद है कि आप कुछ पैटर्न. 203 00:10:11,310 --> 00:10:15,690 >> तो, मूलतः, तुम क्या कर सकते हैं मिलता है एक स्पैम होते हैं कि ईमेल के डेटा के बहुत है, 204 00:10:15,690 --> 00:10:19,980 स्पैम नहीं कर रहे हैं, और जानने के लिए कि ईमेल क्या आप में है पैटर्न की तरह 205 00:10:19,980 --> 00:10:21,000 स्पैम होते हैं कि लोगों को. 206 00:10:21,000 --> 00:10:23,260 और इस कम्प्यूटेशनल का हिस्सा है भाषा विज्ञान. 207 00:10:23,260 --> 00:10:24,720 यह डेटा वर्गीकरण कहा जाता है. 208 00:10:24,720 --> 00:10:28,100 और हम वास्तव में देखने जा रहे हैं एक अगले स्लाइड्स में इस बात का उदाहरण है. 209 00:10:28,100 --> 00:10:32,910 >> दूसरी बात यह है कि प्राकृतिक भाषा है बात है जो प्रसंस्करण कि 210 00:10:32,910 --> 00:10:36,580 ग्राफ़ खोजने की अनुमति की कोशिश कर रही है आप एक वाक्य लिखना. 211 00:10:36,580 --> 00:10:38,690 और यह आप समझ में भरोसा करता है क्या अर्थ है और देता है 212 00:10:38,690 --> 00:10:39,940 आप एक बेहतर परिणाम. 213 00:10:39,940 --> 00:10:43,880 असल में, आप गूगल या बिंग के पास जाओ अगर और तुम औरत की तरह कुछ खोज 214 00:10:43,880 --> 00:10:47,060 गागा की ऊंचाई, तुम वास्तव में जा रहे हैं जानकारी के बजाय 5 '1 "पाने के लिए 215 00:10:47,060 --> 00:10:50,170 यह वास्तव में समझता है क्योंकि उसे से आप के बारे में बात कर रहे हैं. 216 00:10:50,170 --> 00:10:52,140 इसलिए स्वाभाविक है कि का हिस्सा है भाषा संसाधन. 217 00:10:52,140 --> 00:10:57,000 >> या फिर भी आप पहली बार, सिरी उपयोग कर रहे हैं जब आप करने की कोशिश करता है कि एक एल्गोरिथ्म है 218 00:10:57,000 --> 00:11:01,130 आप क्या कह रहे हैं अनुवाद शब्दों में, पाठ में. 219 00:11:01,130 --> 00:11:03,690 और फिर यह अनुवाद करने के लिए कोशिश करता है उस अर्थ में. 220 00:11:03,690 --> 00:11:06,570 तो यह है कि सभी प्राकृतिक का हिस्सा है भाषा संसाधन. 221 00:11:06,570 --> 00:11:08,320 >> तो फिर तुम मशीन अनुवाद है - 222 00:11:08,320 --> 00:11:10,300 वास्तव में एक है जो मेरे पसंदीदा में - 223 00:11:10,300 --> 00:11:14,060 बस से अनुवाद कर रहा है जो दूसरे करने के लिए एक भाषा. 224 00:11:14,060 --> 00:11:17,950 तो तुम क्या कर रहे हैं जब आपको लगता है कि कर सकते हैं मशीन अनुवाद, आपके पास 225 00:11:17,950 --> 00:11:19,750 वाक्य की अनंत संभावनाओं. 226 00:11:19,750 --> 00:11:22,960 तो बस के संचय के लिए कोई रास्ता नहीं है हर एक अनुवाद. 227 00:11:22,960 --> 00:11:27,440 तो आप दिलचस्प के साथ आने के लिए है एल्गोरिदम करने के लिए सक्षम होने के लिए 228 00:11:27,440 --> 00:11:30,110 हर एक अनुवाद किसी तरह से वाक्य. 229 00:11:30,110 --> 00:11:32,483 >> तुम लोग अब तक किसी भी प्रश्न हैं? 230 00:11:32,483 --> 00:11:34,450 नहीं? 231 00:11:34,450 --> 00:11:34,830 ठीक है. 232 00:11:34,830 --> 00:11:36,900 >> तो क्या हम आज देखने के लिए जा रहे हैं? 233 00:11:36,900 --> 00:11:39,300 सबसे पहले, मैं इस बारे में बात करने जा रहा हूँ वर्गीकरण समस्या. 234 00:11:39,300 --> 00:11:41,440 तो मैं था कि एक स्पैम के बारे में कह रही है. 235 00:11:41,440 --> 00:11:46,820 मैं क्या करने जा रहा हूँ दी बोल, है एक गीत के लिए, आप यह पता लगाने की कोशिश कर सकते हैं 236 00:11:46,820 --> 00:11:49,810 उच्च संभावना के साथ गायक कौन है? 237 00:11:49,810 --> 00:11:53,590 कहते हैं कि मैं लेडी से गीत है कि हम कहते हैं गागा और कैटी पेरी, मैं तुम्हें एक दे 238 00:11:53,590 --> 00:11:58,130 नया गीत, आप समझ सकते हैं यह कैटी पेरी या लेडी गागा? 239 00:11:58,130 --> 00:12:01,490 >> दूसरा एक, मैं सिर्फ बात करने के लिए जा रहा हूँ विभाजन समस्या के बारे में. 240 00:12:01,490 --> 00:12:05,780 तो मैं तुम लोगों को पता है कि अगर पता नहीं है, लेकिन चीनी, जापानी, अन्य पूर्व एशियाई 241 00:12:05,780 --> 00:12:08,090 भाषा, और अन्य भाषाओं सामान्य रूप में नहीं है, 242 00:12:08,090 --> 00:12:09,830 शब्दों के बीच रिक्त स्थान. 243 00:12:09,830 --> 00:12:13,540 और फिर आप उस तरह के बारे में अगर आपको लगता है कोशिश करता है की अपने कंप्यूटर तरह करने के लिए 244 00:12:13,540 --> 00:12:18,600 प्राकृतिक भाषा संसाधन समझते हैं, यह शब्द को देखता है और 245 00:12:18,600 --> 00:12:21,500 संबंधों को समझने की कोशिश उन दोनों के बीच, है ना? 246 00:12:21,500 --> 00:12:25,440 लेकिन तब क्या आप चीनी हैं, और अगर शून्य रिक्त स्थान है, यह करने के लिए वास्तव में मुश्किल है 247 00:12:25,440 --> 00:12:28,360 बीच का रिश्ता क्या है पता शब्द, क्योंकि वे किसी भी नहीं है 248 00:12:28,360 --> 00:12:29,530 पहली बार में शब्दों. 249 00:12:29,530 --> 00:12:32,600 तो तुम्हें बुलाया कुछ करना है बस डालने का मतलब है जो विभाजन 250 00:12:32,600 --> 00:12:36,490 हम क्या कहते होता बीच रिक्त स्थान उन भाषाओं में शब्दों. 251 00:12:36,490 --> 00:12:37,740 भावना करें? 252 00:12:37,740 --> 00:12:39,680 253 00:12:39,680 --> 00:12:41,540 >> और फिर हम करने जा रहे हैं वाक्य रचना के बारे में बात करते हैं. 254 00:12:41,540 --> 00:12:44,050 प्राकृतिक के बारे में तो बस थोड़ा सा भाषा संसाधन. 255 00:12:44,050 --> 00:12:45,420 यह सिर्फ एक सिंहावलोकन होने जा रहा है. 256 00:12:45,420 --> 00:12:50,700 तो आज, बुनियादी तौर पर मैं क्या करना चाहते हैं लोगों को आप एक का एक छोटा सा दे रहा है 257 00:12:50,700 --> 00:12:53,930 संभावनाओं क्या कर रहे हैं के अंदर आप कम्प्यूटेशनल के साथ क्या कर सकते हैं 258 00:12:53,930 --> 00:12:54,960 भाषा विज्ञान. 259 00:12:54,960 --> 00:13:00,410 और फिर आप क्या सोचते हैं देख सकते हैं उन बातों के अलावा शांत है. 260 00:13:00,410 --> 00:13:02,270 और हो सकता है कि आप एक परियोजना के बारे में सोच सकते हैं और मुझसे बात आते हैं. 261 00:13:02,270 --> 00:13:05,260 और मैं आपको सलाह दे सकते हैं इसे लागू करने के बारे में. 262 00:13:05,260 --> 00:13:09,060 >> तो वाक्यविन्यास एक छोटा सा होने जा रहा है ग्राफ़ खोज और मशीन के बारे में 263 00:13:09,060 --> 00:13:09,670 अनुवाद. 264 00:13:09,670 --> 00:13:13,650 मैं बस का एक उदाहरण देने जा रहा हूँ तुम, उदाहरण के लिए, अनुवाद कर सकते हैं 265 00:13:13,650 --> 00:13:16,020 अंग्रेजी पुर्तगाली से कुछ. 266 00:13:16,020 --> 00:13:17,830 अच्छा लगता है? 267 00:13:17,830 --> 00:13:19,293 >> तो सबसे पहले, वर्गीकरण समस्या. 268 00:13:19,293 --> 00:13:23,590 मैं कहता हूँ कि संगोष्ठी के इस भाग सबसे चुनौतीपूर्ण होने जा रहा है 269 00:13:23,590 --> 00:13:27,560 वहाँ जा रहा है, सिर्फ इसलिए कि कुछ कोडिंग हो. 270 00:13:27,560 --> 00:13:29,470 लेकिन यह अजगर होने जा रहा है. 271 00:13:29,470 --> 00:13:34,380 मैं तुम लोगों को अजगर पता है, इसलिए नहीं है मैं सिर्फ उच्च पर समझा जा रहा हूँ 272 00:13:34,380 --> 00:13:35,750 मैं क्या कर रहा हूँ स्तर. 273 00:13:35,750 --> 00:13:40,900 और तुम भी वास्तव में परवाह करने की जरूरत नहीं वजह है कि वाक्य रचना के बारे में ज्यादा 274 00:13:40,900 --> 00:13:42,140 तुम लोग कुछ सीख सकते. 275 00:13:42,140 --> 00:13:42,540 ठीक है? 276 00:13:42,540 --> 00:13:43,580 अच्छा लगता है. 277 00:13:43,580 --> 00:13:46,020 >> इसलिए वर्गीकरण समस्या क्या है? 278 00:13:46,020 --> 00:13:49,140 तो आप को कुछ बोल दिया हो एक गीत, और आप अनुमान करना चाहते हैं 279 00:13:49,140 --> 00:13:50,620 जो इसे गा रहा है. 280 00:13:50,620 --> 00:13:54,045 और यह किसी भी तरह के लिए किया जा सकता है अन्य समस्याओं की. 281 00:13:54,045 --> 00:13:59,980 तो यह, उदाहरण के लिए, आप एक है किया जा सकता है राष्ट्रपति पद के अभियान और आप एक है 282 00:13:59,980 --> 00:14:02,610 भाषण, और आप पता लगाना चाहते हैं यह था बाहर हैं, उदाहरण के लिए, 283 00:14:02,610 --> 00:14:04,470 ओबामा या मिट रोमनी. 284 00:14:04,470 --> 00:14:07,700 या फिर आप ईमेल का एक गुच्छा है और कर सकते हैं आप अगर वे बाहर आंकड़ा करना चाहते हैं 285 00:14:07,700 --> 00:14:08,890 स्पैम या नहीं. 286 00:14:08,890 --> 00:14:11,440 तो यह सिर्फ कुछ वर्गीकृत है शब्दों के आधार पर डेटा 287 00:14:11,440 --> 00:14:13,790 तुम वहाँ है कि. 288 00:14:13,790 --> 00:14:16,295 >> तो यह है कि ऐसा करने के लिए, आप के लिए है कुछ मान्यताओं करना. 289 00:14:16,295 --> 00:14:20,570 तो कम्प्यूटेशनल भाषा विज्ञान के बारे में एक बहुत मान्यताओं बना रही है, 290 00:14:20,570 --> 00:14:24,100 आमतौर पर स्मार्ट मान्यताओं, इतना है कि आप अच्छे परिणाम प्राप्त कर सकते हैं. 291 00:14:24,100 --> 00:14:26,670 इसके लिए एक मॉडल बनाने के लिए कोशिश कर रहा है. 292 00:14:26,670 --> 00:14:31,290 और फिर, यह बाहर की कोशिश करो और देखो अगर यह काम यह आपको अच्छा परिशुद्धता देता है. 293 00:14:31,290 --> 00:14:33,940 और अगर यह होता है, तो आप इसे सुधारने की कोशिश. 294 00:14:33,940 --> 00:14:37,640 यह, आप, ठीक है, की तरह हो नहीं करता, तो शायद मैं एक अलग धारणा बनाना चाहिए. 295 00:14:37,640 --> 00:14:44,030 >> तो हम करने जा रहे हैं कि इस धारणा बनाने के एक कलाकार आमतौर पर गाती है 296 00:14:44,030 --> 00:14:49,220 शायद के बारे में एक विषय कई बार, और शब्द कई बार उपयोग करता है बस 297 00:14:49,220 --> 00:14:50,270 वे इसे करने के लिए इस्तेमाल कर रहे हैं. 298 00:14:50,270 --> 00:14:51,890 तुम बस अपने दोस्त के बारे में सोच सकते हैं. 299 00:14:51,890 --> 00:14:57,350 मैं तुम लोगों के सारे दोस्त हैं यकीन उनके हस्ताक्षर वाक्यांश कहना है कि 300 00:14:57,350 --> 00:14:59,260 सचमुच हर एक वाक्य के लिए - 301 00:14:59,260 --> 00:15:02,660 कुछ विशिष्ट शब्द या कुछ विशिष्ट तरह वे के लिए कहना है कि वाक्यांश 302 00:15:02,660 --> 00:15:04,020 हर एक वाक्य. 303 00:15:04,020 --> 00:15:07,920 >> और क्या आप कह सकते है कि आप देखते हैं एक हस्ताक्षर है कि एक वाक्य 304 00:15:07,920 --> 00:15:11,450 वाक्यांश, आप अनुमान लगा सकते हैं कि शायद अपने दोस्त है 305 00:15:11,450 --> 00:15:13,310 एक सही, यह कह रही है? 306 00:15:13,310 --> 00:15:18,410 तो क्या आप फिर धारणा है कि और कि आप एक मॉडल बनाने के लिए है. 307 00:15:18,410 --> 00:15:24,440 >> मैं देने के लिए जा रहा हूँ कि उदाहरण पर है कैसे लेडी गागा, उदाहरण के लिए, लोग 308 00:15:24,440 --> 00:15:27,430 वह के लिए "बेबी" का उपयोग करता है का कहना है कि उसके सारे नंबर एक गाने. 309 00:15:27,430 --> 00:15:32,270 और वास्तव में यह एक वीडियो है कि शो उसके शब्द "बेबी" के लिए कह रही है 310 00:15:32,270 --> 00:15:33,410 अलग गाने. 311 00:15:33,410 --> 00:15:33,860 >> [वीडियो प्लेबैक] 312 00:15:33,860 --> 00:15:34,310 >> - (गायन) बेबी. 313 00:15:34,310 --> 00:15:36,220 बेबी. 314 00:15:36,220 --> 00:15:37,086 बेबी. 315 00:15:37,086 --> 00:15:37,520 बेबी. 316 00:15:37,520 --> 00:15:37,770 बेबी. 317 00:15:37,770 --> 00:15:38,822 बेबे. 318 00:15:38,822 --> 00:15:39,243 बेबी. 319 00:15:39,243 --> 00:15:40,085 बेबी. 320 00:15:40,085 --> 00:15:40,510 बेबी. 321 00:15:40,510 --> 00:15:40,850 बेबी. 322 00:15:40,850 --> 00:15:41,090 >> [अंत वीडियो प्लेबैक 323 00:15:41,090 --> 00:15:44,020 >> लुकास Freitas: तो, मुझे लगता है, वहाँ रहे हैं वे कहती हैं, जिसमें यहां 40 गाने 324 00:15:44,020 --> 00:15:48,690 शब्द "बेबी." तो आप मूल रूप से अनुमान लगा सकते हैं कि तुम है कि एक गाना देखते हैं 325 00:15:48,690 --> 00:15:52,180 शब्द "बच्चे," कुछ उच्च वहाँ यह लेडी गागा की संभावना है कि. 326 00:15:52,180 --> 00:15:56,450 लेकिन इस विकसित करने की कोशिश करते हैं इसके अलावा अधिक औपचारिक रूप से. 327 00:15:56,450 --> 00:16:00,470 >> तो इन से गाने के लिए गीत हैं लेडी गागा और कैटी पेरी. 328 00:16:00,470 --> 00:16:04,120 तो तुम लेडी गागा को देखो, तुम वे देखते हैं की घटनाओं का एक बहुत कुछ है "बच्चे," एक 329 00:16:04,120 --> 00:16:07,710 की घटनाओं की बहुत "तरीका है." और फिर कैटी पेरी की घटनाओं का एक बहुत है 330 00:16:07,710 --> 00:16:10,360 "," की घटनाओं का एक बहुत "आग." 331 00:16:10,360 --> 00:16:14,560 >> तो बुनियादी तौर पर हम क्या चाहते हैं क्या आप एक गीत मिलता है. 332 00:16:14,560 --> 00:16:20,480 मान लीजिए कि आप एक के लिए एक गीत मिलता है कि हम कहते हैं "बेबी" सिर्फ "बेबी" है. कि गीत अगर 333 00:16:20,480 --> 00:16:24,750 तुम सिर्फ शब्द "बच्चे," और इस मिल आप से है कि सभी डेटा है 334 00:16:24,750 --> 00:16:27,880 लेडी गागा और कैटी पेरी, जो होगा आपको लगता है व्यक्ति 335 00:16:27,880 --> 00:16:29,370 जो गीत गाती है? 336 00:16:29,370 --> 00:16:32,360 लेडी गागा या कैटी पेरी? 337 00:16:32,360 --> 00:16:33,150 लेडी गागा, सही? 338 00:16:33,150 --> 00:16:37,400 वह कहते हैं, जो केवल एक ही है क्योंकि "बेबी." यह ठीक है, बेवकूफ लग रहा है? 339 00:16:37,400 --> 00:16:38,760 ठीक है, यह वास्तव में आसान है. 340 00:16:38,760 --> 00:16:41,860 मैं सिर्फ दो गीतों में और की चाहत है जाहिर है, वह केवल एक है जो है 341 00:16:41,860 --> 00:16:42,660 "बेबी." 342 00:16:42,660 --> 00:16:44,740 >> लेकिन अगर आप शब्दों का एक गुच्छा क्या है? 343 00:16:44,740 --> 00:16:50,900 आप एक वास्तविक गीत, कुछ है जैसे, "बच्चे, मैं बस 344 00:16:50,900 --> 00:16:51,610 एक [देखने के लिए चला गया? सीएफटी?] 345 00:16:51,610 --> 00:16:54,020 व्याख्यान, "या ऐसा कुछ है, और तो आप वास्तव में यह पता लगाने की है - 346 00:16:54,020 --> 00:16:55,780 उन सभी शब्दों के आधार पर - 347 00:16:55,780 --> 00:16:58,350 जो कलाकार है जो शायद यह गीत गाया? 348 00:16:58,350 --> 00:17:01,860 तो चलो विकसित करने की कोशिश करते हैं एक छोटे से आगे इस. 349 00:17:01,860 --> 00:17:05,630 >> ठीक है, तो सिर्फ आंकड़ों पर आधारित है कि हम मिल गया, यह बेहूदा शायद लगता है कि 350 00:17:05,630 --> 00:17:06,260 गायक. 351 00:17:06,260 --> 00:17:07,904 लेकिन हम कैसे लिख सकते हैं यह और अधिक औपचारिक रूप से? 352 00:17:07,904 --> 00:17:10,579 353 00:17:10,579 --> 00:17:13,140 और एक छोटे से होने जा रहा है आँकड़ों के सा. 354 00:17:13,140 --> 00:17:15,880 तो अगर तुम चले जाओ, बस कोशिश अवधारणा को समझने की. 355 00:17:15,880 --> 00:17:18,700 आप समझते हैं कि अगर यह बात नहीं है समीकरण पूरी तरह से अच्छी तरह से. 356 00:17:18,700 --> 00:17:22,150 यह सब ऑनलाइन होने जा रहा है. 357 00:17:22,150 --> 00:17:25,490 >> तो बुनियादी तौर पर क्या मैं गणना कर रहा हूँ है इस गीत से है कि संभावना 358 00:17:25,490 --> 00:17:28,040 लेडी गागा दिया है कि - 359 00:17:28,040 --> 00:17:30,660 इसलिए इस बार यह देखते हुए कि इसका मतलब है - 360 00:17:30,660 --> 00:17:33,680 मैं शब्द देखा "बेबी." कि मतलब? 361 00:17:33,680 --> 00:17:35,540 तो मुझे लगता है की गणना करने के लिए कोशिश कर रहा हूँ संभावना है कि. 362 00:17:35,540 --> 00:17:38,540 >> इसलिए कहा जाता है इस प्रमेय है का कहना है कि कि Bayes प्रमेय 363 00:17:38,540 --> 00:17:43,330 एक दिया बी की संभावना है ए, टाइम्स दिए बी की संभावना 364 00:17:43,330 --> 00:17:47,660 संभावना खत्म ए की संभावना, बी की यह एक लंबा समीकरण है. 365 00:17:47,660 --> 00:17:51,970 लेकिन क्या आप से समझना होगा कि यह है कि मैं चाहता हूँ कि है 366 00:17:51,970 --> 00:17:52,830 सही गणना? 367 00:17:52,830 --> 00:17:56,570 उस गाने से है कि तो संभावना लेडी गागा मैं शब्द देखा कि दी 368 00:17:56,570 --> 00:17:58,230 "बेबी." 369 00:17:58,230 --> 00:18:02,960 >> और अब क्या मैं हो रही है दिए गए शब्द 'बेबी' की संभावना 370 00:18:02,960 --> 00:18:04,390 मैं लेडी गागा है कि. 371 00:18:04,390 --> 00:18:07,220 और कहा कि असल में क्या है? 372 00:18:07,220 --> 00:18:10,500 इसका मतलब यह है क्या, क्या है शब्द "बेबी" को देखने का संभावना 373 00:18:10,500 --> 00:18:12,130 गागा गीत में? 374 00:18:12,130 --> 00:18:16,240 मैं एक बहुत में है कि गणना करने के लिए चाहते हैं सरल तरीका है, इसके बारे में अभी नंबर 375 00:18:16,240 --> 00:18:23,640 कई बार मैं कुल संख्या से अधिक 'बेबी' देखने गागा गीत में शब्दों की, है ना? 376 00:18:23,640 --> 00:18:27,600 मैं देख रहा हूँ कि आवृत्ति क्या है गागा के काम में वह शब्द? 377 00:18:27,600 --> 00:18:30,530 भावना करें? 378 00:18:30,530 --> 00:18:33,420 >> दूसरा शब्द है गागा की संभावना. 379 00:18:33,420 --> 00:18:34,360 इसका क्या मतलब है? 380 00:18:34,360 --> 00:18:38,550 वह मूल रूप से मतलब है, क्या है वर्गीकृत करने की संभावना 381 00:18:38,550 --> 00:18:40,690 गागा के रूप में कुछ बोल? 382 00:18:40,690 --> 00:18:45,320 और उस तरह की अजीब है, लेकिन चलो एक उदाहरण के बारे में सोचो. 383 00:18:45,320 --> 00:18:49,230 तो हम कहते हैं कि की संभावना एक गीत में 'बेबी' होने में ही है 384 00:18:49,230 --> 00:18:51,760 गागा और ब्रिटनी स्पीयर्स के लिए. 385 00:18:51,760 --> 00:18:54,950 लेकिन ब्रिटनी स्पीयर्स दो बार है लेडी गागा से भी ज्यादा गाने. 386 00:18:54,950 --> 00:19:00,570 तो किसी को सिर्फ बेतरतीब ढंग से आप देता है पहली बात, "बेबी" के गीत आप 387 00:19:00,570 --> 00:19:04,710 पर देखो, की संभावना क्या है एक गागा गीत में 'बेबी' होने, "बेबी" 388 00:19:04,710 --> 00:19:05,410 एक ब्रिटनी गीत में? 389 00:19:05,410 --> 00:19:06,460 और यह एक ही बात है. 390 00:19:06,460 --> 00:19:10,040 >> तो आप देखेंगे कि दूसरी बात यह है, ठीक है, की संभावना क्या है 391 00:19:10,040 --> 00:19:13,770 अपने आप में इस गीत, एक गागा गीत जा रहा है और की संभावना क्या है 392 00:19:13,770 --> 00:19:15,380 एक ब्रिटनी गीत जा रहा है? 393 00:19:15,380 --> 00:19:18,950 तो ब्रिटनी इतने अधिक गीत है के बाद से गागा की तुलना में, आप शायद होगा 394 00:19:18,950 --> 00:19:21,470 कहते हैं, ठीक है, यह शायद है एक ब्रिटनी गीत. 395 00:19:21,470 --> 00:19:23,340 हम यह है तो इसलिए यहीं शब्द. 396 00:19:23,340 --> 00:19:24,670 गागा की संभावना है. 397 00:19:24,670 --> 00:19:26,950 समझ में आता है? 398 00:19:26,950 --> 00:19:28,660 यह क्या? 399 00:19:28,660 --> 00:19:29,370 ठीक है. 400 00:19:29,370 --> 00:19:33,500 >> और पिछले एक बस संभावना है "बेबी" का जो नहीं करता है 401 00:19:33,500 --> 00:19:34,810 सच बात है कि ज्यादा. 402 00:19:34,810 --> 00:19:39,940 लेकिन यह की संभावना है अंग्रेजी में 'बेबी' को देखकर. 403 00:19:39,940 --> 00:19:42,725 हम आम तौर पर कोई परवाह नहीं है कि उस अवधि के बारे में बहुत कुछ. 404 00:19:42,725 --> 00:19:44,490 कि मतलब? 405 00:19:44,490 --> 00:19:48,110 इसलिए गागा की संभावना है पूर्व संभाव्यता बुलाया 406 00:19:48,110 --> 00:19:49,530 वर्ग गागा की. 407 00:19:49,530 --> 00:19:53,840 यह सिर्फ मतलब है कि क्योंकि, क्या है उस वर्ग के होने की संभावना - 408 00:19:53,840 --> 00:19:55,520 गागा जो है - 409 00:19:55,520 --> 00:19:59,350 सिर्फ सामान्य में, बस कोई शर्तों के साथ. 410 00:19:59,350 --> 00:20:02,560 >> और फिर मैं की संभावना है जब "बच्चे," हम यह कह प्लस दी गागा 411 00:20:02,560 --> 00:20:06,160 क्योंकि यह एक संभावना teary होने की संभावना 412 00:20:06,160 --> 00:20:08,300 गागा कुछ सबूत दिया. 413 00:20:08,300 --> 00:20:11,050 तो मैं आपको सबूत दे रहा हूँ मैं शब्द बच्चे को देखा और कहा कि 414 00:20:11,050 --> 00:20:12,690 गीत समझ बनाने के? 415 00:20:12,690 --> 00:20:15,960 416 00:20:15,960 --> 00:20:16,410 ठीक है. 417 00:20:16,410 --> 00:20:22,400 >> मैं गणना की तो है कि प्रत्येक के लिए लेडी गागा के लिए गाने की, 418 00:20:22,400 --> 00:20:25,916 कि क्या होगा - 419 00:20:25,916 --> 00:20:27,730 जाहिर है, मैं इस कदम नहीं कर सकते. 420 00:20:27,730 --> 00:20:31,850 421 00:20:31,850 --> 00:20:36,920 गागा की संभावना हो जाएगा कुछ की तरह, 2 पर 24, गुना 1/2, 422 00:20:36,920 --> 00:20:38,260 53 से अधिक से अधिक 2. 423 00:20:38,260 --> 00:20:40,640 यदि आप जानते हैं यह बात नहीं है क्या इन नंबरों से आ रहे हैं. 424 00:20:40,640 --> 00:20:44,750 लेकिन यह जा रहा है कि सिर्फ एक संख्या है ठीक है, 0 से अधिक होना करने के लिए? 425 00:20:44,750 --> 00:20:48,610 >> और फिर मैं कैटी पेरी, करते हैं कैटी दिया "बेबी" की संभावना है 426 00:20:48,610 --> 00:20:49,830 पहले से ही 0, सही है? 427 00:20:49,830 --> 00:20:52,820 कोई 'बेबी' क्योंकि वहाँ कैटी पेरी में. 428 00:20:52,820 --> 00:20:56,360 तो फिर इस 0 हो जाता है, और गागा जीतता है, जो गागा का मतलब है कि 429 00:20:56,360 --> 00:20:57,310 शायद गायक. 430 00:20:57,310 --> 00:20:58,560 कि मतलब? 431 00:20:58,560 --> 00:21:00,700 432 00:21:00,700 --> 00:21:01,950 ठीक है. 433 00:21:01,950 --> 00:21:04,160 434 00:21:04,160 --> 00:21:11,750 >> इसलिए मैं इस अधिक अधिकारी बनाना चाहते हैं, मैं वास्तव में एक मॉडल कर सकते हैं 435 00:21:11,750 --> 00:21:12,700 कई शब्दों के लिए. 436 00:21:12,700 --> 00:21:14,610 तो चलो मैं कुछ है कि हम कहते हैं जैसे, "बेबी, मैं हूँ 437 00:21:14,610 --> 00:21:16,030 आग पर, "या कुछ और. 438 00:21:16,030 --> 00:21:17,760 इसलिए यह कई शब्द है. 439 00:21:17,760 --> 00:21:20,880 और इस मामले में, आप देख सकते हैं कि 'बेबी', गागा में है 440 00:21:20,880 --> 00:21:21,710 लेकिन यह कैटी में नहीं है. 441 00:21:21,710 --> 00:21:24,940 और "आग" कैटी में है, लेकिन यह सही, गागा में नहीं है? 442 00:21:24,940 --> 00:21:27,200 तो यह ठीक है, पेचीदा मामला हो रही है? 443 00:21:27,200 --> 00:21:31,440 क्योंकि यह लगता है कि आप लगभग दोनों के बीच एक टाई है. 444 00:21:31,440 --> 00:21:36,980 >> तो क्या तुम्हें क्या करना है की कल्पना है शब्दों के बीच आज़ादी. 445 00:21:36,980 --> 00:21:41,210 तो बुनियादी तौर पर मतलब है कि क्या यह है कि मैं बस है क्या गणना कर रहा हूँ 446 00:21:41,210 --> 00:21:44,330 देखने की संभावना "बच्चे," क्या है देखने की संभावना "मैं," और 447 00:21:44,330 --> 00:21:46,670 "आग" "हूँ", और "पर," और सब अलग. 448 00:21:46,670 --> 00:21:48,670 तब मैं उन सभी को गुणा कर रहा हूँ. 449 00:21:48,670 --> 00:21:52,420 और मैं संभावना है क्या देख रहा हूँ के पूरे वाक्य को देखकर. 450 00:21:52,420 --> 00:21:55,210 भावना करें? 451 00:21:55,210 --> 00:22:00,270 >> तो बुनियादी तौर पर, मैं सिर्फ एक शब्द है, क्या मैं मिल चाहते ARG अधिकतम है, 452 00:22:00,270 --> 00:22:05,385 जिसका मतलब है, है कि वर्ग क्या है मुझे सबसे अधिक संभावना दे रही है? 453 00:22:05,385 --> 00:22:10,010 इसलिए दे रहा है कि क्लास में क्या है मेरे लिए सबसे अधिक संभावना 454 00:22:10,010 --> 00:22:11,940 वर्ग की संभावना शब्द दिया. 455 00:22:11,940 --> 00:22:17,610 तो इस मामले में, बेहूदा "बेबी." दिया या कैटी "बेबी." दिया भावना करें? 456 00:22:17,610 --> 00:22:21,040 >> और बस Bayes से, कि मैं पता चला है कि समीकरण, 457 00:22:21,040 --> 00:22:24,780 हम इस अंश बना. 458 00:22:24,780 --> 00:22:28,750 केवल एक चीज आप देखते हैं कि यह है कि दिए शब्द की संभावना 459 00:22:28,750 --> 00:22:31,370 आधार पर कक्षा परिवर्तन वर्ग पर, सही? 460 00:22:31,370 --> 00:22:34,260 मुझे लगता है कि 'बेबी' एस की संख्या गागा में कैटी से अलग है. 461 00:22:34,260 --> 00:22:37,640 वर्ग की संभावना भी यह सिर्फ संख्या में परिवर्तन की वजह से 462 00:22:37,640 --> 00:22:39,740 उनमें से गाने से प्रत्येक. 463 00:22:39,740 --> 00:22:43,980 >> लेकिन शब्द ही की संभावना सभी के लिए समान होने जा रहा है 464 00:22:43,980 --> 00:22:44,740 कलाकारों, सही? 465 00:22:44,740 --> 00:22:47,150 तो शब्द की संभावना है बस, की संभावना क्या है 466 00:22:47,150 --> 00:22:49,820 में उस शब्द को देखकर अंग्रेजी भाषा? 467 00:22:49,820 --> 00:22:51,420 तो यह उन सभी के लिए एक ही है. 468 00:22:51,420 --> 00:22:55,790 यह निरंतर है तो के बाद से, हम कर सकते हैं बस इस गिरावट और इसके बारे में परवाह नहीं. 469 00:22:55,790 --> 00:23:00,230 तो यह वास्तव में हो जाएगा हम देख रहे हैं समीकरण. 470 00:23:00,230 --> 00:23:03,360 >> मैं कई शब्द है, तो मैं कर रहा हूँ अभी भी पहले की है जा 471 00:23:03,360 --> 00:23:04,610 यहाँ संभावना. 472 00:23:04,610 --> 00:23:06,980 केवल एक चीज मैं गुणा रहा है की संभावना 473 00:23:06,980 --> 00:23:08,490 अन्य सभी शब्द. 474 00:23:08,490 --> 00:23:10,110 इसलिए मैं उन सभी को गुणा कर रहा हूँ. 475 00:23:10,110 --> 00:23:12,610 भावना करें? 476 00:23:12,610 --> 00:23:18,440 यह अजीब लगता है, लेकिन मूल रूप से मतलब वर्ग के पहले, और गणना 477 00:23:18,440 --> 00:23:22,100 तब प्रत्येक की संभावना से गुणा उस वर्ग में किया जा रहा है शब्दों की. 478 00:23:22,100 --> 00:23:24,620 479 00:23:24,620 --> 00:23:29,150 >> और आप जानते हैं कि एक की संभावना एक वर्ग दिए गए शब्द होने जा रहा है 480 00:23:29,150 --> 00:23:34,520 आप में उस शब्द को देखने के अवसरों की संख्या की संख्या से विभाजित है कि वर्ग, 481 00:23:34,520 --> 00:23:37,020 शब्दों को आप उस में है सामान्य रूप में वर्ग. 482 00:23:37,020 --> 00:23:37,990 भावना करें? 483 00:23:37,990 --> 00:23:41,680 यह 2 से अधिक बस कैसे "बेबी" था शब्दों की संख्या कि 484 00:23:41,680 --> 00:23:43,020 मैं गीत में था. 485 00:23:43,020 --> 00:23:45,130 तो बस आवृत्ति. 486 00:23:45,130 --> 00:23:46,260 >> लेकिन एक बात है. 487 00:23:46,260 --> 00:23:51,250 मैं दिखा रहा था कि कैसे याद रखें कि "बेबी" होने के बोल की संभावना 488 00:23:51,250 --> 00:23:56,350 कैटी पेरी से 0 था सिर्फ इसलिए कैटी पेरी सब पर "बेबी" नहीं था? 489 00:23:56,350 --> 00:24:04,900 लेकिन यह सिर्फ करने के लिए थोड़ा कठोर लगता है बस के बोल से नहीं किया जा सकता का कहना है कि 490 00:24:04,900 --> 00:24:10,040 वे नहीं है सिर्फ इसलिए कि एक कलाकार किसी भी समय विशेष रूप से उस शब्द. 491 00:24:10,040 --> 00:24:13,330 >> तुम तो अगर आप बस, अच्छी तरह से कह सकते हैं, इस शब्द नहीं है, मैं जा रहा हूँ 492 00:24:13,330 --> 00:24:15,640 आप एक कम संभावना दे, लेकिन मैं अभी नहीं जा रहा हूँ 493 00:24:15,640 --> 00:24:17,420 आप अभी 0 दे. 494 00:24:17,420 --> 00:24:21,040 शायद यह कुछ की तरह था, क्योंकि है जो "आग, आग, आग, आग," 495 00:24:21,040 --> 00:24:21,990 पूरी तरह से कैटी पेरी. 496 00:24:21,990 --> 00:24:26,060 और फिर "बच्चे," और यह सिर्फ करने के लिए चला जाता है 0 सही दूर नहीं था क्योंकि 497 00:24:26,060 --> 00:24:27,250 "बेबी." 498 00:24:27,250 --> 00:24:31,440 >> तो बुनियादी तौर पर हम क्या कुछ है लाप्लास समरेखण कहा जाता है. 499 00:24:31,440 --> 00:24:36,260 और यह सिर्फ मैं देने हूँ कि इसका मतलब यहां तक ​​कि शब्दों को कुछ संभावना 500 00:24:36,260 --> 00:24:37,850 कि अस्तित्व में नहीं है. 501 00:24:37,850 --> 00:24:43,170 तो मैं क्या है कि मैं कर रहा हूँ जब इस गणना के, मैं हमेशा के लिए 1 जोड़ें 502 00:24:43,170 --> 00:24:44,180 अंश. 503 00:24:44,180 --> 00:24:48,060 शब्द में मौजूद नहीं है, तो भी अगर इस 0 है, तो इस मामले में, मैं अब भी हूँ 504 00:24:48,060 --> 00:24:51,250 1 से अधिक के रूप में इस की गणना शब्दों की कुल संख्या. 505 00:24:51,250 --> 00:24:55,060 अन्यथा, मैं कितने शब्द मेरे पास है और मैं 1 जोड़ें. 506 00:24:55,060 --> 00:24:58,300 इसलिए मैं दोनों ही मामलों के लिए भरोसा कर रहा हूँ. 507 00:24:58,300 --> 00:25:00,430 भावना करें? 508 00:25:00,430 --> 00:25:03,060 >> तो अब चलो कुछ कोडिंग करते हैं. 509 00:25:03,060 --> 00:25:06,440 मैं बहुत तेजी से यह करने के लिए किया जा रहा हूँ लेकिन यह सिर्फ महत्वपूर्ण है आपको लगता है कि 510 00:25:06,440 --> 00:25:08,600 लोग अवधारणाओं को समझने में. 511 00:25:08,600 --> 00:25:13,450 तो क्या हम ऐसा करने की कोशिश कर रहे हैं वास्तव में यह लागू है 512 00:25:13,450 --> 00:25:14,330 मैं सिर्फ इतना कहा कि बात - 513 00:25:14,330 --> 00:25:19,110 मैं आप से बोल डाल करना चाहते हैं लेडी गागा और कैटी पेरी. 514 00:25:19,110 --> 00:25:22,980 और कार्यक्रम के लिए सक्षम होने जा रहा है इन नए गीत गागा से कर रहे हैं, तो कहते हैं 515 00:25:22,980 --> 00:25:24,170 या कैटी पेरी. 516 00:25:24,170 --> 00:25:25,800 भावना करें? 517 00:25:25,800 --> 00:25:27,530 ठीक है. 518 00:25:27,530 --> 00:25:30,710 >> इसलिए मुझे लगता है मैं जा रहा हूँ इस कार्यक्रम है classify.py कॉल करने के लिए. 519 00:25:30,710 --> 00:25:31,970 तो यह अजगर है. 520 00:25:31,970 --> 00:25:34,210 यह एक नई प्रोग्रामिंग भाषा है. 521 00:25:34,210 --> 00:25:38,020 यह कुछ में बहुत समान है सी और PHP के लिए तरीके. 522 00:25:38,020 --> 00:25:43,180 आप करना चाहते हैं क्योंकि अगर यह इसी तरह है सी जानने के बाद अजगर जानने के लिए, यह है 523 00:25:43,180 --> 00:25:46,270 एक चुनौती के सच है कि बहुत नहीं अजगर बहुत आसान है, सिर्फ इसलिए कि 524 00:25:46,270 --> 00:25:47,520 की तुलना में सी, सब से पहले. 525 00:25:47,520 --> 00:25:49,370 और चीजों की एक बहुत पहले से ही कर रहे हैं आप के लिए लागू किया है. 526 00:25:49,370 --> 00:25:56,820 तो बस कैसे PHP की तरह कार्य करता है कि एक सूची तरह, या कुछ और संलग्न 527 00:25:56,820 --> 00:25:58,780 एक सरणी, या बकवास, बकवास, बकवास करने के लिए. 528 00:25:58,780 --> 00:26:00,690 अजगर के रूप में अच्छी तरह से उन सभी है. 529 00:26:00,690 --> 00:26:05,960 >> तो मैं बस जल्दी से समझा जा रहा हूँ हम वर्गीकरण कैसे कर सकता है 530 00:26:05,960 --> 00:26:07,860 यहाँ के लिए समस्या है. 531 00:26:07,860 --> 00:26:13,230 तो चलो इस मामले में, मुझे लगता है कि हम कहते हैं गागा और कैटी पेरी से बोल. 532 00:26:13,230 --> 00:26:21,880 मैं उन गीत है कि जिस तरह से है कि गीत का पहला शब्द है 533 00:26:21,880 --> 00:26:25,250 कलाकार का नाम, और बाकी गीत है. 534 00:26:25,250 --> 00:26:29,470 तो चलो मैं में इस सूची में है कि हम कहते हैं जो पहले एक गागा ने गीत है. 535 00:26:29,470 --> 00:26:31,930 तो यहाँ मैं सही रास्ते पर हूँ. 536 00:26:31,930 --> 00:26:35,270 और अगले एक कैटी है, और यह भी गीत है. 537 00:26:35,270 --> 00:26:38,040 >> तो यह आप की घोषणा कैसे है पायथन में एक चर. 538 00:26:38,040 --> 00:26:40,200 आप डेटा प्रकार देने की जरूरत नहीं है. 539 00:26:40,200 --> 00:26:43,150 तुम बस "बोल" लिखने एक तरह से PHP में पसंद है. 540 00:26:43,150 --> 00:26:44,890 भावना करें? 541 00:26:44,890 --> 00:26:47,770 >> तो मुझे लगता है कि चीजों को क्या कर रहे हैं गणना करने में सक्षम होने की गणना 542 00:26:47,770 --> 00:26:49,360 संभावनाओं? 543 00:26:49,360 --> 00:26:55,110 मैं "priors" की गणना करने के लिए है अलग से प्रत्येक की 544 00:26:55,110 --> 00:26:56,710 मुझे लगता है कि कक्षाओं. 545 00:26:56,710 --> 00:27:06,680 मैं "कूल्हे," गणना करने के लिए है या बहुत ज्यादा संभावनाओं की 546 00:27:06,680 --> 00:27:12,150 विभिन्न शब्दों की प्रत्येक कि मैं प्रत्येक कलाकार के लिए हो सकता है. 547 00:27:12,150 --> 00:27:17,210 इसलिए गागा के भीतर, उदाहरण के लिए, मैं जा रहा हूँ मैं देख रहा हूँ कि कितने समय की एक सूची है 548 00:27:17,210 --> 00:27:19,250 शब्दों का प्रत्येक. 549 00:27:19,250 --> 00:27:20,760 भावना करें? 550 00:27:20,760 --> 00:27:25,370 >> और अंत में, मैं अभी किया जा रहा हूँ एक बस जा रहा है कि "शब्द" नामक सूची 551 00:27:25,370 --> 00:27:29,780 है की कितने शब्द मैं प्रत्येक कलाकार के लिए है. 552 00:27:29,780 --> 00:27:33,760 इसलिए गागा के लिए, उदाहरण के लिए, जब मैं देखो गीत के लिए, मैं, मुझे लगता था, 24 553 00:27:33,760 --> 00:27:34,750 कुल शब्द. 554 00:27:34,750 --> 00:27:38,970 तो यह सूची अभी किया जा रहा है गागा 24, और कैटी दूसरे नंबर. 555 00:27:38,970 --> 00:27:40,130 भावना करें? 556 00:27:40,130 --> 00:27:40,560 ठीक है. 557 00:27:40,560 --> 00:27:42,530 >> तो अब, वास्तव में, चलो कोडिंग के पास जाओ. 558 00:27:42,530 --> 00:27:45,270 तो पायथन में, तुम वास्तव में कर सकते हैं अलग से एक गुच्छा लौटने 559 00:27:45,270 --> 00:27:46,630 एक समारोह से बातें. 560 00:27:46,630 --> 00:27:50,810 तो मैं इस समारोह बनाने के लिए जा रहा हूँ जा रहा है जो "सशर्त" कहा जाता है 561 00:27:50,810 --> 00:27:53,890 , उन सब बातों के वापस जाने के लिए "Priors," "संभावनाओं," और 562 00:27:53,890 --> 00:28:05,690 "शब्द." तो, "सशर्त" और यह बात है में बुला होने जा रही "गीत." 563 00:28:05,690 --> 00:28:11,510 >> तो अब मैं आप वास्तव में करना चाहते हैं इस समारोह में लिखें. 564 00:28:11,510 --> 00:28:17,750 मैं यह लिख सकते हैं कि तो रास्ता समारोह मैं सिर्फ यह परिभाषित किया गया है 565 00:28:17,750 --> 00:28:20,620 साथ समारोह "डेफ." इसलिए मैं डेफ "किया सशर्त, "और यह ले जा रहा है 566 00:28:20,620 --> 00:28:28,700 "बोल." और क्या यह करने के लिए जा रहा है , सब से पहले, मैं अपने priors है है 567 00:28:28,700 --> 00:28:31,030 मैं गणना करना चाहते हैं. 568 00:28:31,030 --> 00:28:34,330 >> इसलिए मैं यह कर सकते हैं कि जिस तरह से बना है अजगर, में एक शब्दकोश जो 569 00:28:34,330 --> 00:28:37,320 एक हैश के रूप में बहुत ज्यादा एक ही बात है तालिका, या यह एक चलने की तरह है 570 00:28:37,320 --> 00:28:40,480 PHP में सरणी. 571 00:28:40,480 --> 00:28:44,150 यह मैं एक शब्दकोश की घोषणा कैसे है. 572 00:28:44,150 --> 00:28:53,580 और असल में क्या इसका मतलब यह है कि गागा की priors हैं, उदाहरण के लिए, 0.5 है 573 00:28:53,580 --> 00:28:57,200 गीत के 50% से कर रहे हैं गागा, 50% कैटी से कर रहे हैं. 574 00:28:57,200 --> 00:28:58,450 भावना करें? 575 00:28:58,450 --> 00:29:00,680 576 00:29:00,680 --> 00:29:03,680 इसलिए मैं यह पता लगाने की है कि कैसे priors गणना करने के लिए. 577 00:29:03,680 --> 00:29:07,120 >> मुझे क्या करना है कि अगले लोगों को, भी, संभावनाओं और शब्द हैं. 578 00:29:07,120 --> 00:29:17,100 इसलिए गागा की संभावनाओं सूची है सभी संभावनाओं की कि मैं 579 00:29:17,100 --> 00:29:19,160 गागा के लिए शब्दों से प्रत्येक के लिए है. 580 00:29:19,160 --> 00:29:23,880 मैं गागा की संभावनाओं को जाना तो अगर "बच्चे," उदाहरण के लिए, यह मुझे दे देंगे 581 00:29:23,880 --> 00:29:28,750 2 उस मामले में 24 से अधिक की तरह कुछ. 582 00:29:28,750 --> 00:29:30,070 भावना करें? 583 00:29:30,070 --> 00:29:36,120 तो मैं "संभावनाओं," करने के लिए जाने के लिए जाना सभी की एक सूची है कि "बेहूदा" बाल्टी 584 00:29:36,120 --> 00:29:40,550 गागा शब्दों, तो मैं ", बेबी" के लिए जाना और मैं संभावना देखते हैं. 585 00:29:40,550 --> 00:29:45,940 >> और अंत में मैं यह है "शब्द" शब्दकोश. 586 00:29:45,940 --> 00:29:53,620 तो यहाँ, "संभावनाओं." और फिर "शब्द." तो मैं "शब्द," "गागा," करते हैं 587 00:29:53,620 --> 00:29:58,330 क्या होने वाला है यह है कि , मुझे 24 देने जा कह रही है कि मैं 588 00:29:58,330 --> 00:30:01,990 गागा से बोल भीतर 24 शब्द हैं. 589 00:30:01,990 --> 00:30:04,110 समझ में आता है? 590 00:30:04,110 --> 00:30:07,070 तो यहाँ, "शब्द" दाह-दाह-दाह बराबर होती है. 591 00:30:07,070 --> 00:30:07,620 अच्छा 592 00:30:07,620 --> 00:30:12,210 >> तो मैं क्या करने जा रहा हूँ मैं जा रहा हूँ तो, बोल के प्रत्येक पर पुनरावृति 593 00:30:12,210 --> 00:30:14,490 तार के प्रत्येक कि मैं इस सूची में है. 594 00:30:14,490 --> 00:30:18,040 और मैं उन चीजों की गणना करने के लिए जा रहा हूँ उम्मीदवारों में से प्रत्येक के लिए. 595 00:30:18,040 --> 00:30:19,950 समझ में आता है? 596 00:30:19,950 --> 00:30:21,700 तो मैं एक पाश के लिए क्या करना है. 597 00:30:21,700 --> 00:30:26,300 >> तो पायथन में मैं क्या कर सकता लाइन के लिए "है गीत में. "एक के रूप में एक ही बात 598 00:30:26,300 --> 00:30:28,000 PHP में बयान "प्रत्येक के लिए". 599 00:30:28,000 --> 00:30:33,420 यह PHP था अगर मैं कैसे कर सकता याद रखें के रूप में प्रत्येक गीत के लिए कहते हैं " 600 00:30:33,420 --> 00:30:35,220 लाइन. "समझ में आता है? 601 00:30:35,220 --> 00:30:38,900 इसलिए मैं इस में, लाइनों के प्रत्येक ले जा रहा हूँ मामला है, इस स्ट्रिंग और अगले 602 00:30:38,900 --> 00:30:44,540 स्ट्रिंग तो मैं क्या कर रहा हूँ लाइनों में से प्रत्येक के लिए क्या करने जा मैं करने जा रहा हूँ, पहला है 603 00:30:44,540 --> 00:30:49,150 की एक सूची में इस लाइन विभाजित रिक्त स्थान के द्वारा अलग शब्द. 604 00:30:49,150 --> 00:30:53,730 >> तो अजगर के बारे में अच्छी बात यह है कि आप गूगल की तरह "कैसे कर सकते हैं सकता है मैं 605 00:30:53,730 --> 00:30:58,220 शब्द में एक स्ट्रिंग विभाजन? "और यह बात है यह कैसे करना है आपको बताने जा रहा. 606 00:30:58,220 --> 00:31:04,890 और ऐसा करने का तरीका है, यह सिर्फ "रेखा है = Line.split () "और यह मूल रूप से है 607 00:31:04,890 --> 00:31:08,640 आप के साथ एक सूची देने के लिए जा रहा यहाँ शब्दों की प्रत्येक. 608 00:31:08,640 --> 00:31:09,620 समझ में आता है? 609 00:31:09,620 --> 00:31:15,870 तो अब मैं मैं जानना चाहता था कि कि उस गाने के गायक कौन है. 610 00:31:15,870 --> 00:31:20,130 और मैं सिर्फ पाने के लिए है कि ऐसा करने के लिए सरणी के पहले तत्व, सही? 611 00:31:20,130 --> 00:31:26,390 तो मैं सिर्फ कह सकते हैं कि मैं "गायक = रेखा (0) "समझ में आता है? 612 00:31:26,390 --> 00:31:32,010 >> और फिर क्या मैं क्या करने की जरूरत पहले की है, सभी, मैं अद्यतन करने के लिए जा रहा हूँ कि कितने 613 00:31:32,010 --> 00:31:36,130 शब्दों मैं नीचे है "गागा." तो मैं कर रहा हूँ बस गणना करने के लिए जा रहा है कि कितने शब्द मैं 614 00:31:36,130 --> 00:31:38,690 ठीक है, इस सूची में है? 615 00:31:38,690 --> 00:31:41,910 इस मेरे पास कितने शब्द है क्योंकि गीत में है और मैं अभी जा रहा हूँ 616 00:31:41,910 --> 00:31:44,120 "बेहूदा" सरणी में जोड़ें. 617 00:31:44,120 --> 00:31:47,090 कि मतलब? 618 00:31:47,090 --> 00:31:49,010 वाक्यविन्यास पर बहुत ज्यादा ध्यान मत करो. 619 00:31:49,010 --> 00:31:50,430 अवधारणाओं के बारे में अधिक लगता है. 620 00:31:50,430 --> 00:31:52,400 यही सबसे महत्वपूर्ण हिस्सा है. 621 00:31:52,400 --> 00:31:52,720 ठीक है. 622 00:31:52,720 --> 00:32:00,260 >> "बेहूदा" अगर ऐसा है तो क्या मैं यह कर सकता है पहले से ही उस सूची में है, तो "गायक में अगर 623 00:32:00,260 --> 00:32:03,190 शब्द "जिसका अर्थ है कि मैं पहले से ही गागा हुए शब्द है. 624 00:32:03,190 --> 00:32:06,640 मैं सिर्फ अतिरिक्त जोड़ना चाहते हैं उस के लिए शब्द. 625 00:32:06,640 --> 00:32:15,810 तो मैं क्या "शब्द (गायक) है + = लेन (लाइन) - 1 ". 626 00:32:15,810 --> 00:32:18,250 और फिर मैं अभी क्या कर सकते हैं रेखा की लंबाई. 627 00:32:18,250 --> 00:32:21,860 तो कितने तत्वों मैं सरणी में है. 628 00:32:21,860 --> 00:32:27,060 और मुझे क्या करना है 1 शून्य से सिर्फ इसलिए सरणी के पहले तत्व बस है 629 00:32:27,060 --> 00:32:29,180 एक गायक और उन के बोल नहीं हैं. 630 00:32:29,180 --> 00:32:31,420 समझ में आता है? 631 00:32:31,420 --> 00:32:32,780 ठीक है. 632 00:32:32,780 --> 00:32:35,820 >> "वरना," यह मैं चाहता हूँ कि इसका मतलब करने के लिए वास्तव में सूची में गागा डालें. 633 00:32:35,820 --> 00:32:45,990 इसलिए मैं सिर्फ शब्द (गायक) "करना = लेन (लाइन) - 1, "क्षमा करें. 634 00:32:45,990 --> 00:32:49,200 इसलिए दोनों के बीच फर्क सिर्फ इतना है लाइनों यह एक है, यह नहीं है 635 00:32:49,200 --> 00:32:51,080 अभी तक अस्तित्व में है, तो मैं कर रहा हूँ बस यह आरंभ. 636 00:32:51,080 --> 00:32:53,820 यह एक मैं वास्तव में जोड़ रहा हूँ. 637 00:32:53,820 --> 00:32:55,570 ठीक है. 638 00:32:55,570 --> 00:32:59,480 इसलिए इस शब्द को जोड़ने था. 639 00:32:59,480 --> 00:33:03,040 >> अब मैं priors को जोड़ना चाहते हैं. 640 00:33:03,040 --> 00:33:05,480 तो कैसे मैं priors गणना कैसे करते हैं? 641 00:33:05,480 --> 00:33:11,580 priors गणना की जा सकती कितनी बार से. 642 00:33:11,580 --> 00:33:15,340 आपको लगता है कि गायक देखते तो कितनी बार कि तुम गायकों के सभी के बीच 643 00:33:15,340 --> 00:33:16,380 ठीक है, है ना? 644 00:33:16,380 --> 00:33:18,810 , गागा और कैटी पेरी के लिए तो इस मामले में, मैं गागा देखना 645 00:33:18,810 --> 00:33:20,570 एक बार, कैटी पेरी एक बार. 646 00:33:20,570 --> 00:33:23,320 >> गागा के लिए तो बुनियादी तौर पर priors और कैटी पेरी के लिए होगा 647 00:33:23,320 --> 00:33:24,390 बस सही, एक हो? 648 00:33:24,390 --> 00:33:26,500 तुम बस कितनी बार मैं कलाकार देखते हैं. 649 00:33:26,500 --> 00:33:28,740 तो यह गणना करने के लिए बहुत आसान है. 650 00:33:28,740 --> 00:33:34,100 मैं कर सकता हूँ समान सिर्फ कुछ की तरह "के रूप में अगर priors में गायक, "मैं अभी जा रहा हूँ 651 00:33:34,100 --> 00:33:38,970 उनके priors बॉक्स को 1 जोड़ने के लिए. 652 00:33:38,970 --> 00:33:51,000 "तो," और फिर "" priors (गाना) "+ = 1 बाकी मैं "priors (गायक) क्या करने जा रहा हूँ 653 00:33:51,000 --> 00:33:55,000 = 1. "समझ में आता है? 654 00:33:55,000 --> 00:34:00,080 >> तो यह अस्तित्व में नहीं है, तो मैं सिर्फ डाला 1 के रूप में, नहीं तो मैं सिर्फ 1 जोड़ें. 655 00:34:00,080 --> 00:34:11,280 ठीक है, तो अब सब मुझे क्या करना छोड़ दिया है कि भी करने के लिए शब्दों का प्रत्येक जोड़ रहा है 656 00:34:11,280 --> 00:34:12,290 संभावनाओं. 657 00:34:12,290 --> 00:34:14,889 इसलिए मैं गिनती करने के लिए कितनी बार मैं शब्दों के प्रत्येक देखते हैं. 658 00:34:14,889 --> 00:34:18,780 तो मैं बस एक और क्या करना है लाइन में पाश के लिए. 659 00:34:18,780 --> 00:34:25,190 >> मैं क्या करने जा रहा हूँ तो यह है कि पहली बात यह है गायक पहले से ही एक है की जाँच 660 00:34:25,190 --> 00:34:26,969 संभावनाओं सरणी. 661 00:34:26,969 --> 00:34:31,739 गायक नहीं करता है तो अगर मैं जाँच कर रहा हूँ एक संभावनाओं सरणी है, मैं अभी कर रहा हूँ 662 00:34:31,739 --> 00:34:34,480 उनके लिए एक को प्रारंभ करने जा रहा. 663 00:34:34,480 --> 00:34:36,400 यह भी एक सरणी नहीं है, माफ करना, यह एक शब्दकोश है. 664 00:34:36,400 --> 00:34:43,080 तो गायक की संभावनाओं जा रहा है एक खुला शब्दकोश होने के लिए है, तो मैं कर रहा हूँ 665 00:34:43,080 --> 00:34:45,830 बस इसके लिए एक शब्दकोश आरंभ. 666 00:34:45,830 --> 00:34:46,820 ठीक है? 667 00:34:46,820 --> 00:34:58,330 >> और अब मैं वास्तव में एक पाश के लिए क्या कर सकते हैं शब्दों के प्रत्येक 'की गणना करने के लिए 668 00:34:58,330 --> 00:35:00,604 संभावनाओं. 669 00:35:00,604 --> 00:35:01,540 ठीक है. 670 00:35:01,540 --> 00:35:04,160 तो मैं क्या कर सकता हूँ पाश के लिए एक है. 671 00:35:04,160 --> 00:35:06,590 तो मैं बस पुनरावृति करने के लिए जा रहा हूँ सरणी पर. 672 00:35:06,590 --> 00:35:15,320 मैं पायथन में ऐसा कर सकते हैं तो यह है कि जिस तरह से "श्रृंखला में मैं के लिए है." 1 से 673 00:35:15,320 --> 00:35:19,200 मैं दूसरे में शुरू करना चाहते हैं क्योंकि पहले एक तत्व है क्योंकि 674 00:35:19,200 --> 00:35:20,260 गायक का नाम. 675 00:35:20,260 --> 00:35:24,990 तो एक से करने के लिए ऊपर रेखा की लंबाई. 676 00:35:24,990 --> 00:35:29,760 और मैं सीमा है जब यह वास्तव में से जाना यहाँ की तरह 1 से की लेन करने के लिए 677 00:35:29,760 --> 00:35:30,740 रेखा शून्य से 1. 678 00:35:30,740 --> 00:35:33,810 तो यह पहले से ही कर रही है कि बात करता है बहुत है जो सरणियों के लिए एन शून्य से 1 679 00:35:33,810 --> 00:35:35,500 सुविधाजनक. 680 00:35:35,500 --> 00:35:37,850 समझ में आता है? 681 00:35:37,850 --> 00:35:42,770 >> इसलिए इनमें से प्रत्येक के लिए, क्या मैं करने जा रहा हूँ करो, बस एक दूसरे में, जैसे है 682 00:35:42,770 --> 00:35:50,320 मैं जाँच करने के लिए जा रहा हूँ अगर इस में शब्द लाइन में स्थिति में पहले से ही है 683 00:35:50,320 --> 00:35:51,570 संभावनाओं. 684 00:35:51,570 --> 00:35:53,400 685 00:35:53,400 --> 00:35:57,260 और फिर मैं संभावनाओं, यहाँ के रूप में कहा शब्दों के रूप में, मैं डाल 686 00:35:57,260 --> 00:35:58,400 "संभावनाओं (गायक)". 687 00:35:58,400 --> 00:35:59,390 तो गायक का नाम. 688 00:35:59,390 --> 00:36:03,450 तो यह पहले से ही है अगर "Probabilit (गायक)", इसका मतलब है कि मैं 689 00:36:03,450 --> 00:36:11,960 यह करने के लिए 1 जोड़ना चाहते हैं, तो मैं करने जा रहा हूँ "संभावनाओं (गायक)", और कर 690 00:36:11,960 --> 00:36:14,100 शब्द "रेखा (मैं)" कहा जाता है. 691 00:36:14,100 --> 00:36:22,630 मैं 1 जोड़ने के लिए जा रहा हूँ और "और" मैं कर रहा हूँ बस 1 को आरंभ करने के लिए जा रहा है. 692 00:36:22,630 --> 00:36:23,880 "रेखा (मैं)". 693 00:36:23,880 --> 00:36:26,920 694 00:36:26,920 --> 00:36:28,420 समझ में आता है? 695 00:36:28,420 --> 00:36:30,180 >> तो, मैं सरणियों के सभी गणना की. 696 00:36:30,180 --> 00:36:36,580 तो, अब सब मैं के लिए क्या करना है कि यह सिर्फ एक ", priors वापसी है 697 00:36:36,580 --> 00:36:43,230 संभावनाओं और शब्द. "चलो ठीक है, कोई भी देख रहे हैं. 698 00:36:43,230 --> 00:36:45,690 यह सब कुछ अब तक काम कर रहा है लगता है. 699 00:36:45,690 --> 00:36:46,900 तो, कि समझ में आता है? 700 00:36:46,900 --> 00:36:47,750 किसी तरह से? 701 00:36:47,750 --> 00:36:49,280 ठीक है. 702 00:36:49,280 --> 00:36:51,980 तो अब मैं सभी संभावनाओं है. 703 00:36:51,980 --> 00:36:55,100 तो अब मुझे छोड़ दिया है केवल बात बस उस बात के लिए है कि 704 00:36:55,100 --> 00:36:58,650 सभी के उत्पाद की गणना करता है मैं बोल पाने जब संभावनाओं. 705 00:36:58,650 --> 00:37:06,270 >> तो चलो मैं अब कॉल करना चाहते हैं कि हम कहते हैं इस समारोह में ") (वर्गीकृत" और 706 00:37:06,270 --> 00:37:08,880 बात यह है कि समारोह लेता है सिर्फ एक तर्क है. 707 00:37:08,880 --> 00:37:13,170 के "बेबी, मैं आग पर हूँ" हम कहते हैं और यह बात है क्या है यह पता लगाने के लिए जा रहा 708 00:37:13,170 --> 00:37:14,490 यह बेहूदा है कि संभावना? 709 00:37:14,490 --> 00:37:16,405 क्या है संभावना इस केटी है कि? 710 00:37:16,405 --> 00:37:19,690 अच्छा लगता है? 711 00:37:19,690 --> 00:37:25,750 तो मैं बस बनाने के लिए किया जा रहा हूँ एक कहा जाता नई समारोह ") (वर्गीकृत" और 712 00:37:25,750 --> 00:37:29,180 यह कुछ ले जा रहा है गीत के रूप में अच्छी तरह से. 713 00:37:29,180 --> 00:37:31,790 714 00:37:31,790 --> 00:37:36,160 और गीत के अलावा मैं भी priors भेज दिया है, 715 00:37:36,160 --> 00:37:37,700 संभावनाओं और शब्द. 716 00:37:37,700 --> 00:37:44,000 तो मैं बोल, priors भेजने के लिए जा रहा हूँ, संभावनाओं के शब्दों. 717 00:37:44,000 --> 00:37:51,840 >> तो यह गीत, priors ले जा रहा है, संभावनाओं के शब्दों. 718 00:37:51,840 --> 00:37:53,530 तो, यह क्या करता है? 719 00:37:53,530 --> 00:37:57,180 यह मूल रूप से सभी के माध्यम से जाना जा रहा है संभावित उम्मीदवारों है कि आप 720 00:37:57,180 --> 00:37:58,510 एक गायक के रूप में है. 721 00:37:58,510 --> 00:37:59,425 और जहां उन उम्मीदवारों कर रहे हैं? 722 00:37:59,425 --> 00:38:01,020 वे priors में हैं, सही? 723 00:38:01,020 --> 00:38:02,710 तो मैं वहाँ उन सभी को है. 724 00:38:02,710 --> 00:38:07,870 तो मैं एक शब्दकोश है जा रहा हूँ सभी संभावित उम्मीदवारों की. 725 00:38:07,870 --> 00:38:14,220 और उसके बाद में प्रत्येक उम्मीदवार के लिए priors, यह करने के लिए जा रहा है तो इसका मतलब है 726 00:38:14,220 --> 00:38:17,740 अगर मैं था गागा, केटी हो अधिक इसे और अधिक हो जाएगा. 727 00:38:17,740 --> 00:38:20,410 मैं गणना शुरू करने जा रहा हूँ इस संभावना. 728 00:38:20,410 --> 00:38:28,310 हम में देखा संभावना PowerPoint पिछले बार है 729 00:38:28,310 --> 00:38:30,800 में से प्रत्येक के उत्पाद अन्य संभावनाओं. 730 00:38:30,800 --> 00:38:32,520 >> इसलिए मैं यहां वही कर सकता है. 731 00:38:32,520 --> 00:38:36,330 मैं सिर्फ संभावना है क्या कर सकते हैं शुरू में सिर्फ पहले. 732 00:38:36,330 --> 00:38:40,340 उम्मीदवार की तो priors. 733 00:38:40,340 --> 00:38:40,870 है ना? 734 00:38:40,870 --> 00:38:45,360 और अब मैं सब से अधिक पुनरावृति करने के लिए है मैं होने के लिए गीत में है कि शब्द 735 00:38:45,360 --> 00:38:48,820 संभावना जोड़ने के लिए सक्षम ठीक है, उनमें से प्रत्येक के लिए? 736 00:38:48,820 --> 00:38:57,900 तो, "गीत में शब्द के लिए" क्या मैं जा रहा हूँ शब्द में है, तो क्या करना है 737 00:38:57,900 --> 00:39:01,640 "संभावनाओं (उम्मीदवार)", जो यह एक शब्द है कि इसका मतलब है कि 738 00:39:01,640 --> 00:39:03,640 उम्मीदवार अपने गीत में है - 739 00:39:03,640 --> 00:39:05,940 गागा के लिए उदाहरण के लिए, "बेबी" - 740 00:39:05,940 --> 00:39:11,710 मैं क्या करने जा रहा हूँ है कि संभावना गुणा किया जा रहा है 741 00:39:11,710 --> 00:39:22,420 प्लस संभावनाओं का 1 से उस शब्द के लिए उम्मीदवार. 742 00:39:22,420 --> 00:39:25,710 और यह "शब्द" कहा जाता है. 743 00:39:25,710 --> 00:39:32,440 यह शब्दों की संख्या से विभाजित मुझे लगता है कि उम्मीदवार के लिए है कि. 744 00:39:32,440 --> 00:39:37,450 मुझे लगता है कि शब्दों की कुल संख्या मैं देख रहा हूँ कि गायक के लिए. 745 00:39:37,450 --> 00:39:40,290 >> "नहीं." यह यह एक नया शब्द है इसका मतलब तो यह उदाहरण के लिए की तरह होगा 746 00:39:40,290 --> 00:39:41,860 लेडी गागा के लिए "आग". 747 00:39:41,860 --> 00:39:45,760 तो मैं बस पर 1 क्या करना चाहते हैं "शब्द (उम्मीदवार)". 748 00:39:45,760 --> 00:39:47,710 इसलिए मैं यहाँ इस अवधि डाल नहीं करना चाहती. 749 00:39:47,710 --> 00:39:50,010 >> तो यह मूल रूप से किया जा रहा है कॉपी करने और इस चिपकाने. 750 00:39:50,010 --> 00:39:54,380 751 00:39:54,380 --> 00:39:56,000 लेकिन मैं इस हिस्से को हटाने के लिए जा रहा हूँ. 752 00:39:56,000 --> 00:39:57,610 तो यह है कि बस पर 1 होने जा रहा है. 753 00:39:57,610 --> 00:40:00,900 754 00:40:00,900 --> 00:40:02,150 अच्छा लगता है? 755 00:40:02,150 --> 00:40:03,980 756 00:40:03,980 --> 00:40:09,700 और अब अंत में, मैं अभी जा रहा हूँ उम्मीदवार का नाम और मुद्रित 757 00:40:09,700 --> 00:40:15,750 आप की है कि संभावना उनके गीत पर होने. 758 00:40:15,750 --> 00:40:16,200 समझ में आता है? 759 00:40:16,200 --> 00:40:18,390 और मैं वास्तव में नहीं भी करते हैं इस शब्दकोश की जरूरत है. 760 00:40:18,390 --> 00:40:19,510 समझ में आता है? 761 00:40:19,510 --> 00:40:21,810 >> तो, यह वास्तव में काम करता है, तो चलो देखते हैं. 762 00:40:21,810 --> 00:40:24,880 मैं इस दौड़ तो, अगर यह काम नहीं किया. 763 00:40:24,880 --> 00:40:26,130 एक मिनट रुको. 764 00:40:26,130 --> 00:40:28,870 765 00:40:28,870 --> 00:40:31,720 "शब्द (उम्मीदवार)", "शब्द (उम्मीदवार)", कि 766 00:40:31,720 --> 00:40:33,750 सरणी का नाम. 767 00:40:33,750 --> 00:40:41,435 ठीक है तो, यह कुछ बग है कहते हैं priors में उम्मीदवार के लिए. 768 00:40:41,435 --> 00:40:46,300 769 00:40:46,300 --> 00:40:48,760 मुझे बस थोड़ा सा ठंडा करते हैं. 770 00:40:48,760 --> 00:40:50,360 ठीक है. 771 00:40:50,360 --> 00:40:51,305 चलो कोशिश करते हैं. 772 00:40:51,305 --> 00:40:51,720 ठीक है. 773 00:40:51,720 --> 00:40:58,710 >> तो यह कैटी पेरी इस है देता है करने के लिए इस बार 10 की संभावना 774 00:40:58,710 --> 00:41:02,200 शून्य से 7, और गागा यह है बार शून्य से 6 10. 775 00:41:02,200 --> 00:41:05,610 तो आप यह पता चलता है कि देखने गागा एक उच्च संभावना है. 776 00:41:05,610 --> 00:41:09,260 ऐसा है "बेबी, मैं आग पर हूँ" शायद एक गागा गीत. 777 00:41:09,260 --> 00:41:10,580 समझ में आता है? 778 00:41:10,580 --> 00:41:12,030 तो यह है कि हम क्या किया है. 779 00:41:12,030 --> 00:41:16,010 >> इस कोड को ऑनलाइन पोस्ट कर दिया जा रहा है, तो तुम लोग इसे बाहर की जाँच कर सकते हैं. 780 00:41:16,010 --> 00:41:20,720 यदि आप चाहते हैं शायद के लिए यह कुछ का उपयोग एक परियोजना या कुछ इसी तरह की. 781 00:41:20,720 --> 00:41:22,150 ठीक है. 782 00:41:22,150 --> 00:41:25,930 यह सिर्फ दिखाने के लिए था क्या कम्प्यूटेशनल 783 00:41:25,930 --> 00:41:27,230 भाषाविज्ञान कोड की तरह दिखता है. 784 00:41:27,230 --> 00:41:33,040 लेकिन अब और अधिक करने के लिए जाओ उच्च स्तर के सामान. 785 00:41:33,040 --> 00:41:33,340 ठीक है. 786 00:41:33,340 --> 00:41:35,150 >> तो अन्य समस्याओं मैं के बारे में बात कर रहा था - 787 00:41:35,150 --> 00:41:37,550 विभाजन समस्या उनमें से पहला है. 788 00:41:37,550 --> 00:41:40,820 तो तुम यहाँ जापानी है. 789 00:41:40,820 --> 00:41:43,420 और फिर आप देखते हैं कि कोई स्थान नहीं है. 790 00:41:43,420 --> 00:41:49,110 तो यह मूल रूप से यह है कि इसका मतलब है कुर्सी के ऊपर, ठीक है? 791 00:41:49,110 --> 00:41:50,550 तुम जापानी बात की? 792 00:41:50,550 --> 00:41:52,840 यह ठीक है, कुर्सी के ऊपर है? 793 00:41:52,840 --> 00:41:54,480 >> छात्र: मैं नहीं जानता कि क्या कांजी वहाँ पर है. 794 00:41:54,480 --> 00:41:57,010 >> लुकास Freitas: यह [जापानी बोल रही है] है 795 00:41:57,010 --> 00:41:57,950 ठीक है. 796 00:41:57,950 --> 00:42:00,960 तो यह मूल रूप से शीर्ष की कुर्सी का मतलब है. 797 00:42:00,960 --> 00:42:03,620 आप एक अंतरिक्ष लगा दिया था तो अगर यह यहां होगा. 798 00:42:03,620 --> 00:42:05,970 और फिर तुम [है? Ueda-सान. ?] 799 00:42:05,970 --> 00:42:09,040 जो मूल रूप से श्री Ueda मतलब है. 800 00:42:09,040 --> 00:42:13,180 और आपको लगता है कि "Ueda" देखते हैं और आपके पास एक अंतरिक्ष और फिर "सान." तो आप देखते हैं कि 801 00:42:13,180 --> 00:42:15,470 यहाँ आप "Ue" से ही की तरह है. 802 00:42:15,470 --> 00:42:17,750 और यहाँ यह एक चरित्र है यह करने के लिए अगले. 803 00:42:17,750 --> 00:42:21,720 >> तो यह उन भाषाओं में पसंद नहीं है एक शब्द है यह तो आप अर्थ वर्ण 804 00:42:21,720 --> 00:42:23,980 बस रिक्त स्थान की एक बहुत डाल दिया. 805 00:42:23,980 --> 00:42:25,500 वर्ण एक दूसरे से संबंधित हैं. 806 00:42:25,500 --> 00:42:28,680 और वे एक साथ किया जा सकता है जैसे दो, तीन, एक. 807 00:42:28,680 --> 00:42:34,520 तो आप वास्तव में किसी तरह का बनाने के लिए है के रास्ते से उन स्थानों लगा. 808 00:42:34,520 --> 00:42:38,850 >> और यह बात है कि आप जब भी उन एशियाई भाषाओं से डेटा, 809 00:42:38,850 --> 00:42:40,580 सब कुछ unsegmented आता है. 810 00:42:40,580 --> 00:42:45,940 क्योंकि जापानी लिखते हैं, जो कोई नहीं या चीनी रिक्त स्थान के साथ लिखते हैं. 811 00:42:45,940 --> 00:42:48,200 आप चीनी लिख रहे हैं जब भी, जापानी आपको बस सब कुछ लिखने 812 00:42:48,200 --> 00:42:48,710 कोई रिक्त स्थान के साथ. 813 00:42:48,710 --> 00:42:52,060 यह भी मतलब नहीं है रिक्त स्थान डाल दिया. 814 00:42:52,060 --> 00:42:57,960 तो फिर तुम कुछ, से डेटा प्राप्त जब पूर्व एशियाई भाषा, अगर तुम चाहते हो 815 00:42:57,960 --> 00:43:00,760 वास्तव में उस के साथ कुछ करना आप पहले खंड के लिए है. 816 00:43:00,760 --> 00:43:05,130 >> उदाहरण के कर के बारे में सोचो रिक्त स्थान के बिना गीत. 817 00:43:05,130 --> 00:43:07,950 तो है कि आप केवल बोल सही, वाक्य होगा? 818 00:43:07,950 --> 00:43:09,470 समय से अलग. 819 00:43:09,470 --> 00:43:13,930 लेकिन तब सिर्फ वाक्य रहा होगा वास्तव में जानकारी देने पर मदद नहीं 820 00:43:13,930 --> 00:43:17,760 के उन गीतों से जो कर रहे हैं. 821 00:43:17,760 --> 00:43:18,120 है ना? 822 00:43:18,120 --> 00:43:20,010 इसलिए आपका पहला रिक्त स्थान रखता है. 823 00:43:20,010 --> 00:43:21,990 आप तो यह है कि कैसे कर सकते हैं? 824 00:43:21,990 --> 00:43:24,920 >> तो फिर एक भाषा का विचार आता है वास्तव में कुछ है जो मॉडल 825 00:43:24,920 --> 00:43:26,870 कम्प्यूटेशनल के लिए महत्वपूर्ण भाषा विज्ञान. 826 00:43:26,870 --> 00:43:32,790 तो एक भाषा मॉडल मूल रूप से एक संभावनाओं की मेज कि शो 827 00:43:32,790 --> 00:43:36,260 संभावना है क्या सब से पहले की एक भाषा में शब्द आ रहा है? 828 00:43:36,260 --> 00:43:39,590 तो एक शब्द है कितनी देर में दिखा. 829 00:43:39,590 --> 00:43:43,130 और फिर भी संबंध दिखा एक वाक्य में शब्दों के बीच. 830 00:43:43,130 --> 00:43:51,500 >> एक अजनबी आया तो मुख्य विचार है, आप और एक वाक्य को कहा 831 00:43:51,500 --> 00:43:55,600 तुम, संभावना है कि, के लिए क्या है उदाहरण के लिए, "यह मेरी बहन है [? GTF"?] 832 00:43:55,600 --> 00:43:57,480 व्यक्ति ने कहा कि वाक्य था? 833 00:43:57,480 --> 00:44:00,380 तो जाहिर है कुछ वाक्य हैं दूसरों की तुलना में अधिक सामान्य. 834 00:44:00,380 --> 00:44:04,450 उदाहरण के लिए, "सुप्रभात" या "अच्छा रात, "या" वहाँ अरे, "बहुत अधिक है 835 00:44:04,450 --> 00:44:08,260 सबसे वाक्य से आम हम एक अंग्रेजी है कि. 836 00:44:08,260 --> 00:44:11,060 तो क्यों उन वाक्यों हैं अधिक लगातार? 837 00:44:11,060 --> 00:44:14,060 >> क्योंकि तुम सब से पहले, यह है अधिक पाये जाते हैं कि शब्द. 838 00:44:14,060 --> 00:44:20,180 अगर आप कहते हैं तो, उदाहरण के लिए, कुत्ता है बड़ा, और कुत्ते को आप, विशाल है 839 00:44:20,180 --> 00:44:23,880 आमतौर पर शायद कुत्ता बड़ा है सुना "बड़े" अधिक है और अधिक बार क्योंकि 840 00:44:23,880 --> 00:44:27,260 "विशाल." से अंग्रेजी में लगातार तो, एक 841 00:44:27,260 --> 00:44:30,100 चीजें शब्द आवृत्ति है. 842 00:44:30,100 --> 00:44:34,490 >> सच है, जो दूसरी बात महत्वपूर्ण है बस 843 00:44:34,490 --> 00:44:35,490 शब्दों के आदेश. 844 00:44:35,490 --> 00:44:39,500 तो, यह "बिल्ली का कहना है कि आम है . बॉक्स के अंदर "लेकिन आप ऐसा नहीं कर आमतौर पर 845 00:44:39,500 --> 00:44:44,250 में देखने के लिए "बॉक्स के अंदर बिल्ली है." इतना आप कुछ महत्व है कि वहाँ देखना 846 00:44:44,250 --> 00:44:46,030 शब्दों के क्रम में. 847 00:44:46,030 --> 00:44:50,160 तुम सिर्फ यह नहीं कह सकते कि उन दो वाक्य ही संभावना है 848 00:44:50,160 --> 00:44:53,010 वे एक ही शब्द है सिर्फ इसलिए. 849 00:44:53,010 --> 00:44:55,550 तुम वास्तव में परवाह है आदेश के बारे में के रूप में अच्छी तरह से. 850 00:44:55,550 --> 00:44:57,650 भावना करें? 851 00:44:57,650 --> 00:44:59,490 >> तो हम क्या करें? 852 00:44:59,490 --> 00:45:01,550 तो क्या मैं तुम्हें पाने के लिए कोशिश कर सकते हैं? 853 00:45:01,550 --> 00:45:04,400 मैं तुम्हें क्या हम पाने के लिए कोशिश कर रहा हूँ N-ग्राम मॉडल को बुलाओ. 854 00:45:04,400 --> 00:45:09,095 तो N-ग्राम मॉडल मूल रूप से ग्रहण कि प्रत्येक शब्द के लिए कि 855 00:45:09,095 --> 00:45:10,960 आप एक वाक्य में है. 856 00:45:10,960 --> 00:45:15,020 यह होने की संभावना है कि शब्द पर न केवल वहाँ निर्भर करता है 857 00:45:15,020 --> 00:45:18,395 भाषा में उस शब्द की आवृत्ति, लेकिन यह भी शब्दों पर कि 858 00:45:18,395 --> 00:45:19,860 यह आस कर रहे हैं. 859 00:45:19,860 --> 00:45:25,810 >> तो उदाहरण के लिए, आम तौर पर जब आप देखते हैं पर या आप कर रहे हैं पर जैसे कुछ 860 00:45:25,810 --> 00:45:28,040 शायद एक को देखने के लिए जा रहा इसके बाद संज्ञा, सही? 861 00:45:28,040 --> 00:45:31,750 क्योंकि आप एक वाक्य है जब आमतौर पर यह बाद यह एक संज्ञा लेता है. 862 00:45:31,750 --> 00:45:35,540 या फिर आप संक्रामक है कि एक क्रिया है अगर आप आमतौर पर करने जा रहे हैं 863 00:45:35,540 --> 00:45:36,630 एक संज्ञा वाक्यांश है. 864 00:45:36,630 --> 00:45:38,780 तो यह एक संज्ञा है जा रहा है यह आसपास कहीं. 865 00:45:38,780 --> 00:45:44,950 >> तो, मूलतः, यह क्या करता है कि यह होने की संभावना पर विचार करता है 866 00:45:44,950 --> 00:45:47,960 शब्द एक दूसरे के बगल में, जब आप गणना कर रहे हैं 867 00:45:47,960 --> 00:45:49,050 एक वाक्य की संभावना. 868 00:45:49,050 --> 00:45:50,960 और क्या है कि एक भाषा है मॉडल मूल रूप से है. 869 00:45:50,960 --> 00:45:54,620 बस संभावना है क्या कह की एक विशिष्ट होने 870 00:45:54,620 --> 00:45:57,120 एक भाषा में वाक्य? 871 00:45:57,120 --> 00:45:59,110 तो यही कारण है कि मूल रूप से उपयोगी है? 872 00:45:59,110 --> 00:46:02,390 और सब से पहले क्या है एक एन ग्राम मॉडल, तो? 873 00:46:02,390 --> 00:46:08,850 >> तो एक एन ग्राम मॉडल का मतलब है कि प्रत्येक शब्द पर निर्भर करता है 874 00:46:08,850 --> 00:46:12,700 अगले एन शून्य से 1 शब्द. 875 00:46:12,700 --> 00:46:18,150 तो, मूलतः, यह मैं देखो अगर इसका मतलब है कि उदाहरण के लिए, CS50 TF पर जब 876 00:46:18,150 --> 00:46:21,500 मैं की संभावना की गणना कर रहा हूँ वाक्य, आप की तरह हो जाएगा " 877 00:46:21,500 --> 00:46:25,280 शब्द "" होने की संभावना होने के समय संभावना " 878 00:46:25,280 --> 00:46:31,720 होने के CS50 "टाइम्स संभावना "CS50 TF." तो, मूलतः, मैं भरोसा 879 00:46:31,720 --> 00:46:35,720 यह खींच के सभी संभव तरीके से. 880 00:46:35,720 --> 00:46:41,870 >> और फिर आम तौर पर आप यह कर रहे हैं जब एक परियोजना के रूप में, आप होना एन डाल 881 00:46:41,870 --> 00:46:42,600 एक कम मूल्य. 882 00:46:42,600 --> 00:46:45,930 तो, आमतौर पर bigrams या trigrams है. 883 00:46:45,930 --> 00:46:51,090 आप सिर्फ दो शब्द, एक गिनती तो यह है कि दो शब्द, या तीन शब्दों का समूह, 884 00:46:51,090 --> 00:46:52,620 सिर्फ प्रदर्शन के मुद्दों के लिए. 885 00:46:52,620 --> 00:46:56,395 और इसलिए भी कि शायद अगर आपके पास जैसे कुछ "CS50 TF." जब आप 886 00:46:56,395 --> 00:47:00,510 है "TF," यह बहुत महत्वपूर्ण है कि "CS50" ठीक है, यह करने के लिए अगले है? 887 00:47:00,510 --> 00:47:04,050 उन दो बातें आम तौर पर कर रहे हैं एक दूसरे के बगल में. 888 00:47:04,050 --> 00:47:06,410 >> आप के बारे में सोच "TF," यह शायद है के लिए जा रहा है क्या 889 00:47:06,410 --> 00:47:07,890 इसके लिए TF'ing की क्लास. 890 00:47:07,890 --> 00:47:11,330 इसके अलावा "" वास्तव में महत्वपूर्ण है CS50 TF के लिए. 891 00:47:11,330 --> 00:47:14,570 लेकिन आप "CS50 की तरह कुछ है TF क्लास में गया और दिया उनके 892 00:47:14,570 --> 00:47:20,060 छात्रों कुछ कैंडी. "" कैंडी "और" " ठीक है, वास्तव में कोई रिश्ता नहीं है? 893 00:47:20,060 --> 00:47:23,670 वे एक दूसरे से बहुत दूर हो कि यह वास्तव में क्या कोई फर्क नहीं पड़ता 894 00:47:23,670 --> 00:47:25,050 शब्द तुम्हारे पास है. 895 00:47:25,050 --> 00:47:31,210 >> तो एक बाइग्राम या एक trigram करने से, यह बस आप को सीमित कर रहे हैं इसका मतलब है कि 896 00:47:31,210 --> 00:47:33,430 अपने आप को कुछ शब्दों को चारों ओर हैं. 897 00:47:33,430 --> 00:47:35,810 भावना करें? 898 00:47:35,810 --> 00:47:40,630 तो आप विभाजन करना चाहते हैं, असल में, आप क्या करना चाहते हैं देखना है 899 00:47:40,630 --> 00:47:44,850 सभी संभव तरीके क्या हैं आप खंड वाक्य कर सकते हैं. 900 00:47:44,850 --> 00:47:49,090 >> आप क्या देखते हैं कि इस तरह के उन वाक्यों में से प्रत्येक की संभावना 901 00:47:49,090 --> 00:47:50,880 भाषा में मौजूदा? 902 00:47:50,880 --> 00:47:53,410 तो तुम्हें क्या पसंद है, ठीक है, चलो है मुझे यहाँ एक अंतरिक्ष रखने की कोशिश. 903 00:47:53,410 --> 00:47:55,570 तो तुम वहाँ एक अंतरिक्ष डाल और तुम क्या है देखने 904 00:47:55,570 --> 00:47:57,590 उस वाक्य की संभावना? 905 00:47:57,590 --> 00:48:00,240 तो फिर तुम ठीक है, की तरह, शायद कर रहे हैं कि कि अच्छा नहीं था. 906 00:48:00,240 --> 00:48:03,420 तो मैं एक अंतरिक्ष वहाँ एक अंतरिक्ष डाल दिया है और वहाँ, और आप की गणना 907 00:48:03,420 --> 00:48:06,240 संभावना अब, और आप देखेंगे कि यह संभावना अधिक है. 908 00:48:06,240 --> 00:48:12,160 >> तो इस टैंगो नामक एक एल्गोरिथ्म है विभाजन एल्गोरिथ्म, जो है 909 00:48:12,160 --> 00:48:14,990 वास्तव में सच होगा कि कुछ एक परियोजना के लिए शांत जो 910 00:48:14,990 --> 00:48:20,860 मूल रूप से unsegmented पाठ लेता है जो जापानी या चीनी या शायद हो सकता है 911 00:48:20,860 --> 00:48:26,080 अंग्रेजी रिक्त स्थान के बिना और डाल करने की कोशिश करता है शब्दों और यह करता है के बीच रिक्त स्थान 912 00:48:26,080 --> 00:48:29,120 एक भाषा है कि मॉडल का उपयोग करके और उच्चतम क्या है यह देखने की कोशिश कर रहा 913 00:48:29,120 --> 00:48:31,270 आपको मिल सकता है संभावना. 914 00:48:31,270 --> 00:48:32,230 ठीक है. 915 00:48:32,230 --> 00:48:33,800 तो इस विभाजन है. 916 00:48:33,800 --> 00:48:35,450 >> अब वाक्यविन्यास. 917 00:48:35,450 --> 00:48:40,940 तो, वाक्य रचना के लिए इस्तेमाल किया जा रहा है अभी तो बहुत सी बातें. 918 00:48:40,940 --> 00:48:44,880 ग्राफ़ खोज के लिए, सिरी के लिए के लिए तो प्राकृतिक की बहुत ज़्यादा किसी भी तरह 919 00:48:44,880 --> 00:48:46,490 भाषा संसाधन तुम्हारे पास है. 920 00:48:46,490 --> 00:48:49,140 तो क्या महत्वपूर्ण हैं वाक्य रचना के बारे में बातें? 921 00:48:49,140 --> 00:48:52,390 तो, सामान्य रूप में वाक्य है हम घटक क्या कहते हैं. 922 00:48:52,390 --> 00:48:57,080 किस तरह के शब्दों के समूह की तरह हैं वाक्य में एक समारोह है कि. 923 00:48:57,080 --> 00:49:02,220 और वे वास्तव में नहीं किया जा सकता एक दूसरे से अलग. 924 00:49:02,220 --> 00:49:07,380 >> अगर मैं कहूँ तो, उदाहरण के लिए, "लॉरेन प्यार करता है मिलो. लॉरेन "है," मैं जानती हूँ कि "एक 925 00:49:07,380 --> 00:49:10,180 घटक और फिर "प्यार करता है मिलो "भी एक और एक है. 926 00:49:10,180 --> 00:49:16,860 आप "लॉरेन मिलो की तरह यह नहीं कह सकते क्योंकि एक ही अर्थ है "प्यार करता है. 927 00:49:16,860 --> 00:49:18,020 यह है नहीं जा रहा है एक ही अर्थ. 928 00:49:18,020 --> 00:49:22,500 या मैं "मिलो लॉरेन की तरह नहीं कह सकता प्यार करता है. "नहीं सब कुछ एक ही है 929 00:49:22,500 --> 00:49:25,890 कर रही है कि अर्थ. 930 00:49:25,890 --> 00:49:31,940 >> के बारे में तो दो अधिक महत्वपूर्ण बातें वाक्य रचना है जो शाब्दिक प्रकार हैं 931 00:49:31,940 --> 00:49:35,390 मूल रूप से समारोह है कि आप स्वयं द्वारा शब्द के लिए है. 932 00:49:35,390 --> 00:49:39,180 तो आप को पता है कि "लॉरेन" और "मिलो" संज्ञाएं हैं. 933 00:49:39,180 --> 00:49:41,040 "प्यार" एक क्रिया है. 934 00:49:41,040 --> 00:49:45,660 और दूसरी महत्वपूर्ण बात यह है वे phrasal प्रकार परेशानी न हो. 935 00:49:45,660 --> 00:49:48,990 तो आप "मिलो प्यार करता है" कि पता वास्तव में एक मौखिक वाक्यांश है. 936 00:49:48,990 --> 00:49:52,390 जब मैं कहता हूँ तो "लॉरेन," मुझे पता है कि लॉरेन कुछ कर रही है. 937 00:49:52,390 --> 00:49:53,620 वह क्या कर रहा है? 938 00:49:53,620 --> 00:49:54,570 वह मिलो प्यार है. 939 00:49:54,570 --> 00:49:56,440 तो यह एक पूरी बात है. 940 00:49:56,440 --> 00:50:01,640 लेकिन इसके घटक हैं एक संज्ञा और क्रिया. 941 00:50:01,640 --> 00:50:04,210 लेकिन साथ में, वे एक क्रिया वाक्यांश बनाते हैं. 942 00:50:04,210 --> 00:50:08,680 >> तो, हम वास्तव में साथ क्या कर सकते हैं कम्प्यूटेशनल भाषा विज्ञान? 943 00:50:08,680 --> 00:50:13,810 तो, मैं उदाहरण के लिए कुछ है "एलीसन के दोस्तों से." मैं देख रहा हूँ अगर मैं सिर्फ 944 00:50:13,810 --> 00:50:17,440 एक वाक्यात्मक पेड़ मुझे पता होता था कि 'दोस्त' यह एक संज्ञा वाक्यांश है एक 945 00:50:17,440 --> 00:50:21,480 "एलीसन की" तब संज्ञा और एक है "का" जिसमें पूर्वसर्गीय वाक्यांश है 946 00:50:21,480 --> 00:50:24,810 एक प्रस्ताव और "एलीसन" एक संज्ञा है. 947 00:50:24,810 --> 00:50:30,910 क्या मैं कर सकता है मेरे कंप्यूटर सिखाना है कि मैं एक संज्ञा वाक्यांश एक है और जब 948 00:50:30,910 --> 00:50:33,080 फिर एक पूर्वसर्गीय वाक्यांश. 949 00:50:33,080 --> 00:50:39,020 की "तो फिर इस मामले में," दोस्त "तो और मिलो "मैं इस का मतलब है कि पता है कि 950 00:50:39,020 --> 00:50:43,110 NP2, दूसरा एक, NP1 का मालिक है. 951 00:50:43,110 --> 00:50:47,680 >> इसलिए मैं संबंध में किसी तरह का बना सकते हैं, इसके लिए समारोह में किसी तरह का. 952 00:50:47,680 --> 00:50:52,370 इसलिए मैं इस संरचना दिखाई देता है तो जो के मित्र "से बिल्कुल मेल खाता है 953 00:50:52,370 --> 00:50:56,030 एलीसन, "मुझे पता है कि एलीसन मित्रों का मालिक है. 954 00:50:56,030 --> 00:50:58,830 तो दोस्तों के कुछ कर रहे हैं एलीसन है कि. 955 00:50:58,830 --> 00:50:59,610 समझ में आता है? 956 00:50:59,610 --> 00:51:01,770 तो यह असल में क्या है ग्राफ़ खोज करता है. 957 00:51:01,770 --> 00:51:04,360 यह सिर्फ नियम बनाता है बहुत सारी चीज़ें के लिए. 958 00:51:04,360 --> 00:51:08,190 तो "एलीसन के दोस्त हैं," "मेरे दोस्त "", कैम्ब्रिज में अपने दोस्तों के रहने वाले 959 00:51:08,190 --> 00:51:12,970 हार्वर्ड के लिए जाना था. "यह नियम बनाता है उन सब बातों के लिए. 960 00:51:12,970 --> 00:51:14,930 >> अब मशीन अनुवाद. 961 00:51:14,930 --> 00:51:18,850 तो, मशीन अनुवाद भी है सांख्यिकीय कुछ. 962 00:51:18,850 --> 00:51:21,340 और वास्तव में आप में शामिल हो कम्प्यूटेशनल भाषा विज्ञान, का एक बहुत 963 00:51:21,340 --> 00:51:23,580 अपना सामान आंकड़े होने जा रहा है. 964 00:51:23,580 --> 00:51:26,670 मैं साथ उदाहरण कर रहा था तो रूप मैं था कि संभावनाओं का एक बहुत 965 00:51:26,670 --> 00:51:30,540 की गणना, और उसके बाद आप इस के लिए मिल आखिरी फैसला है कि बहुत छोटी संख्या 966 00:51:30,540 --> 00:51:33,180 संभावना है, और वह है क्या आप का जवाब देता है. 967 00:51:33,180 --> 00:51:37,540 मशीन अनुवाद भी उपयोग करता है एक सांख्यिकीय मॉडल. 968 00:51:37,540 --> 00:51:44,790 और आप मशीन के बारे में सोचना चाहते हैं सरल संभव में अनुवाद 969 00:51:44,790 --> 00:51:48,970 इस तरह, क्या आप सोच सकते हैं बस है सही, शब्द से शब्द का अनुवाद? 970 00:51:48,970 --> 00:51:52,150 >> आप के लिए एक भाषा सीख रहे हैं पहली बार, कि आम तौर पर क्या है 971 00:51:52,150 --> 00:51:52,910 आप सही, क्या? 972 00:51:52,910 --> 00:51:57,050 यदि आप चाहते हैं कि आप एक वाक्य का अनुवाद भाषा को अपनी भाषा में 973 00:51:57,050 --> 00:52:00,060 यदि आप आमतौर पर पहले, सीख रहे हैं शब्दों का प्रत्येक अनुवाद 974 00:52:00,060 --> 00:52:03,180 व्यक्तिगत रूप से, और फिर आप कोशिश जगह में शब्दों को डाल. 975 00:52:03,180 --> 00:52:07,100 >> , मैं इस का अनुवाद करना चाहते थे तो [बोल पुर्तगाली] 976 00:52:07,100 --> 00:52:10,430 "सफेद बिल्ली भाग गई." जिसका अर्थ है मैं से अनुवाद करना चाहता था 977 00:52:10,430 --> 00:52:13,650 अंग्रेजी पुर्तगाली, क्या मैं कर सकता है मैं सिर्फ पहला, है 978 00:52:13,650 --> 00:52:14,800 शब्द द्वारा शब्द का अनुवाद. 979 00:52:14,800 --> 00:52:20,570 तो "ओ" "," "गातो," "बिल्ली" है "ब्रांको," "सफेद," और फिर "fugio" है 980 00:52:20,570 --> 00:52:21,650 "दूर भाग गया." 981 00:52:21,650 --> 00:52:26,130 >> तो फिर मैं यहाँ सभी शब्दों है लेकिन वे क्रम में नहीं कर रहे हैं. 982 00:52:26,130 --> 00:52:29,590 "बिल्ली सफेद भाग गया" की तरह है जो ungrammatical है. 983 00:52:29,590 --> 00:52:34,490 तो, तो मैं एक दूसरा कदम है, जो हो सकता है आदर्श को खोजने जा रहा है 984 00:52:34,490 --> 00:52:36,610 शब्दों में से प्रत्येक के लिए स्थिति. 985 00:52:36,610 --> 00:52:40,240 इसलिए मुझे लगता है कि मैं वास्तव में है चाहता हूँ कि पता के बजाय "सफेद बिल्ली" "बिल्ली सफेद." इतना 986 00:52:40,240 --> 00:52:46,050 क्या मैं कर सकता सबसे अनुभवहीन विधि है, बनाने के लिए किया जाएगा सब 987 00:52:46,050 --> 00:52:49,720 के संभव permutations पदों के शब्दों,. 988 00:52:49,720 --> 00:52:53,300 और फिर एक है जो देखने सबसे अधिक संभावना अनुसार 989 00:52:53,300 --> 00:52:54,970 मेरी भाषा मॉडल के लिए. 990 00:52:54,970 --> 00:52:58,390 और फिर मैं एक है कि लगता है जब है जो सबसे अधिक संभावना यह, 991 00:52:58,390 --> 00:53:01,910 शायद "सफेद बिल्ली, दूर भाग गया" कि मेरे अनुवाद है. 992 00:53:01,910 --> 00:53:06,710 >> और यह समझाने का एक सरल तरीका है कैसे मशीन अनुवाद का एक बहुत 993 00:53:06,710 --> 00:53:07,910 एल्गोरिदम काम करते हैं. 994 00:53:07,910 --> 00:53:08,920 कि मतलब? 995 00:53:08,920 --> 00:53:12,735 यह भी वास्तव में रोमांचक कुछ है तुम लोग शायद एक के लिए तलाश कर सकते हैं कि 996 00:53:12,735 --> 00:53:13,901 अंतिम परियोजना, हाँ? 997 00:53:13,901 --> 00:53:15,549 >> छात्र: ठीक है, तुम यह कहा था कि भोली रास्ता है, तो क्या है 998 00:53:15,549 --> 00:53:17,200 गैर अनुभवहीन तरीका है? 999 00:53:17,200 --> 00:53:18,400 >> लुकास Freitas: गैर अनुभवहीन तरीका है? 1000 00:53:18,400 --> 00:53:19,050 ठीक है. 1001 00:53:19,050 --> 00:53:22,860 के बारे में बुरा है कि तो पहली बात इस विधि मैं सिर्फ अनुवाद किया है 1002 00:53:22,860 --> 00:53:24,330 शब्द, शब्द से शब्द. 1003 00:53:24,330 --> 00:53:30,570 लेकिन कभी कभी आप शब्दों है कि कई अनुवाद कर सकते हैं. 1004 00:53:30,570 --> 00:53:32,210 मुझे लगता है की कोशिश करने जा रहा हूँ कुछ की. 1005 00:53:32,210 --> 00:53:37,270 पुर्तगाली में कर सकते हैं उदाहरण के लिए, "मंगा" हो "वध" या "आस्तीन." या तो इतना 1006 00:53:37,270 --> 00:53:40,450 आप शब्द का अनुवाद करने की कोशिश कर रहे हैं शब्द से, यह आपको दे रही हो सकता 1007 00:53:40,450 --> 00:53:42,050 नहीं समझ में आता है कि कुछ और. 1008 00:53:42,050 --> 00:53:45,770 >> तुम सब पर देखने के लिए तो आप वास्तव में चाहते हैं के संभव अनुवादों 1009 00:53:45,770 --> 00:53:49,840 शब्द और देखो, सब से पहले, क्रम क्या है. 1010 00:53:49,840 --> 00:53:52,000 हम permutating के बारे में बात कर रहे थे बातें? 1011 00:53:52,000 --> 00:53:54,150 सभी संभव आदेश देखने के लिए उच्चतम साथ एक का चयन 1012 00:53:54,150 --> 00:53:54,990 संभावना? 1013 00:53:54,990 --> 00:53:57,860 आप भी हर संभव चुन सकते हैं प्रत्येक के लिए अनुवाद 1014 00:53:57,860 --> 00:54:00,510 तो शब्द और देखते - 1015 00:54:00,510 --> 00:54:01,950 क्रमपरिवर्तन के साथ संयुक्त - 1016 00:54:01,950 --> 00:54:03,710 जो एक सबसे अधिक संभावना है. 1017 00:54:03,710 --> 00:54:08,590 >> इसके अलावा, आप भी नहीं पर देख सकते हैं केवल शब्दों लेकिन वाक्यांशों. 1018 00:54:08,590 --> 00:54:11,700 इसलिए यदि आप के बीच संबंधों का विश्लेषण कर सकते हैं शब्द और उसके बाद एक मिल 1019 00:54:11,700 --> 00:54:13,210 बेहतर अनुवाद. 1020 00:54:13,210 --> 00:54:16,690 इसके अलावा कुछ और ही है, इसलिए इस सेमेस्टर मैं वास्तव में शोध कर रहा हूँ 1021 00:54:16,690 --> 00:54:19,430 चीनी, अंग्रेजी, मशीन अनुवाद, इतने से अनुवाद 1022 00:54:19,430 --> 00:54:20,940 अंग्रेजी में चीनी. 1023 00:54:20,940 --> 00:54:26,760 >> और हम ऐसा कुछ का उपयोग कर के अलावा, है बस है जो एक सांख्यिकीय मॉडल, 1024 00:54:26,760 --> 00:54:30,570 देखने की संभावनाओं को देखकर एक वाक्य में कुछ की स्थिति, मैं हूँ 1025 00:54:30,570 --> 00:54:35,360 वास्तव में यह भी करने के लिए कुछ वाक्य रचना जोड़ने मेरी मैं इस तरह देख अगर मॉडल,, ओह, कह रही है 1026 00:54:35,360 --> 00:54:39,420 निर्माण की, यह मैं क्या चाहता है मैं अनुवाद करने के लिए जब इसे बदलने के लिए. 1027 00:54:39,420 --> 00:54:43,880 तो अगर आप भी किसी तरह की जोड़ सकते हैं बनाने के लिए वाक्यविन्यास के तत्व 1028 00:54:43,880 --> 00:54:47,970 अनुवाद अधिक कुशल और अधिक सटीक. 1029 00:54:47,970 --> 00:54:48,550 ठीक है. 1030 00:54:48,550 --> 00:54:51,010 >> अगर आप चाहते हैं तो आप कैसे शुरू कर सकते हैं कम्प्यूटेशनल में कुछ करने के लिए 1031 00:54:51,010 --> 00:54:51,980 भाषा विज्ञान? 1032 00:54:51,980 --> 00:54:54,560 >> सबसे पहले, आप एक परियोजना का चयन उस भाषा शामिल है. 1033 00:54:54,560 --> 00:54:56,310 तो, वहाँ बहुत सारे हैं. 1034 00:54:56,310 --> 00:54:58,420 आप कर सकते हैं तो वहाँ बहुत सी बातें है. 1035 00:54:58,420 --> 00:55:00,510 और फिर एक मॉडल के बारे में सोच सकते हैं आप उपयोग कर सकते हैं. 1036 00:55:00,510 --> 00:55:04,710 आम तौर पर उस के बारे में सोच का मतलब मान्यताओं, जब मैं था, ओह, तरह के रूप में 1037 00:55:04,710 --> 00:55:05,770 गीत के बारे में सोच की तरह. 1038 00:55:05,770 --> 00:55:09,510 मैं आंकड़ा करना चाहते हैं, अगर मैं अच्छी तरह से, जैसा था यह लिखा था, जो एक बाहर, मैं शायद चाहते हैं 1039 00:55:09,510 --> 00:55:15,400 शब्दों को देखने के लिए व्यक्ति का इस्तेमाल किया और बहुत बार उस शब्द का उपयोग करता है जो देखते हैं. 1040 00:55:15,400 --> 00:55:18,470 तो मान्यताओं बनाने के लिए कोशिश करते हैं और मॉडल की सोचने की कोशिश करें. 1041 00:55:18,470 --> 00:55:21,395 और फिर तुम भी के लिए ऑनलाइन खोज कर सकते हैं आप यह है कि समस्या की तरह, 1042 00:55:21,395 --> 00:55:24,260 और यह सुझाव जा रहा है आप मॉडल के लिए है कि हो सकता है 1043 00:55:24,260 --> 00:55:26,560 अच्छी तरह बात यह है कि मॉडलिंग की. 1044 00:55:26,560 --> 00:55:29,080 >> और भी तुम हमेशा मुझे ईमेल कर सकते हैं. 1045 00:55:29,080 --> 00:55:31,140 me@lfreitas.com. 1046 00:55:31,140 --> 00:55:34,940 और मैं सिर्फ अपने सवालों का जवाब कर सकते हैं. 1047 00:55:34,940 --> 00:55:38,600 हम भी तो मैं कर सकता हूँ ऊपर पूरा हो सकता है सकते हैं के तरीकों पर सुझाव देने 1048 00:55:38,600 --> 00:55:41,490 अपनी परियोजना को लागू करने. 1049 00:55:41,490 --> 00:55:45,610 आप के साथ शामिल हो और अगर मेरा मतलब कम्प्यूटेशनल भाषा विज्ञान, यह हो रहा है 1050 00:55:45,610 --> 00:55:46,790 महान होने के लिए. 1051 00:55:46,790 --> 00:55:48,370 तुम वहाँ देखने जा रहे हैं इतनी क्षमता है. 1052 00:55:48,370 --> 00:55:52,060 और उद्योग किराया चाहता है उसकी वजह से आप इतना बुरा. 1053 00:55:52,060 --> 00:55:54,720 तो मैं तुम लोगों को इस मजा उम्मीद है. 1054 00:55:54,720 --> 00:55:57,030 आप लोग किसी भी प्रश्न हैं, आप इस के बाद मुझसे पूछ सकते हैं. 1055 00:55:57,030 --> 00:55:58,280 लेकिन धन्यवाद. 1056 00:55:58,280 --> 00:56:00,150