1 00:00:00,000 --> 00:00:00,750 2 00:00:00,750 --> 00:00:09,800 >> [عزف الموسيقى] 3 00:00:09,800 --> 00:00:13,014 4 00:00:13,014 --> 00:00:13,680 داستن TRAN: مرحبا. 5 00:00:13,680 --> 00:00:14,980 داستن اسمي. 6 00:00:14,980 --> 00:00:18,419 ولذا فإنني سوف يتم إهداء تحليل البيانات في R. 7 00:00:18,419 --> 00:00:19,710 فقط قليلا عن نفسي. 8 00:00:19,710 --> 00:00:24,320 أنا حاليا طالب دراسات عليا في العلوم الهندسية والتطبيقية. 9 00:00:24,320 --> 00:00:28,330 ادرس في تقاطع التعلم وإحصاءات الجهاز 10 00:00:28,330 --> 00:00:31,375 حتى تحليل البيانات في R هو جوهرية حقا أن ما 11 00:00:31,375 --> 00:00:33,790 أفعل على أساس يومي. 12 00:00:33,790 --> 00:00:35,710 >> وR هي خاصة جيدة لتحليل البيانات 13 00:00:35,710 --> 00:00:39,310 لأنه جيد جدا لالنماذج. 14 00:00:39,310 --> 00:00:43,590 وعادة، عندما كنت تفعل نوعا لتحليل البيانات، والكثير من المشاكل 15 00:00:43,590 --> 00:00:44,920 ذاهبون إلى المعرفية. 16 00:00:44,920 --> 00:00:48,700 وهكذا كنت ترغب فقط في أن يكون بعض لغة جيدة حقا أن 17 00:00:48,700 --> 00:00:53,770 هو مجرد جيدة للقيام المدمج في وظائف، في مقابل 18 00:00:53,770 --> 00:00:57,430 إلى الاضطرار إلى التعامل مع الأشياء مستوى منخفض. 19 00:00:57,430 --> 00:01:01,040 لذلك في البداية، انا فقط لتقديم ما هو R، لماذا 20 00:01:01,040 --> 00:01:04,540 كنت ترغب في استخدامه، و ثم يذهب أكثر إلى بعض العرض، 21 00:01:04,540 --> 00:01:07,060 واذهبوا من هناك. 22 00:01:07,060 --> 00:01:08,150 >> فما هو R؟ 23 00:01:08,150 --> 00:01:11,180 هو مجرد لغة وضعت R للحوسبة الإحصائية 24 00:01:11,180 --> 00:01:12,450 والتصور. 25 00:01:12,450 --> 00:01:16,000 وذلك ما يعنيه هذا هو أن انها لغة ممتازة جدا 26 00:01:16,000 --> 00:01:22,400 لأي نوع من الشيء الذي يتعامل مع عدم اليقين أو التصور البيانات. 27 00:01:22,400 --> 00:01:24,850 بحيث يكون لديك كل هذه التوزيعات الاحتمالية. 28 00:01:24,850 --> 00:01:27,140 هناك سوف يكون المدمج في وظائف. 29 00:01:27,140 --> 00:01:31,650 سيكون لديك أيضا ممتازة بالتآمر الحزم. 30 00:01:31,650 --> 00:01:34,110 >> الثعبان هو المتنافسة آخر لغة البيانات. 31 00:01:34,110 --> 00:01:40,020 والشيء الوحيد الذي أجد أن R هو أفضل بكثير في غير المرئي. 32 00:01:40,020 --> 00:01:45,200 وذلك ما سترى في العرض كما كذلك هو مجرد لغة بديهية جدا 33 00:01:45,200 --> 00:01:48,050 أن مجرد يعمل بشكل جيد للغاية. 34 00:01:48,050 --> 00:01:53,140 بل هو أيضا حر ومفتوح المصدر، كما هو أي لغة أخرى جيدة اعتقد. 35 00:01:53,140 --> 00:01:55,440 >> وهنا، وحفنة من مجرد كلمات القيت عليك. 36 00:01:55,440 --> 00:02:00,450 انها ديناميكية، وهذا يعني إذا كان لديك نوع معين تعيينه إلى كائن 37 00:02:00,450 --> 00:02:02,025 مما سوف فقط تغييره على الطاير. 38 00:02:02,025 --> 00:02:05,670 انها كسول حتى انها ذكية حول كيف يفعل الحسابات. 39 00:02:05,670 --> 00:02:12,250 وظيفية مما يعني أنها يمكن أن تعمل حقا القائم قبالة من الوظائف حتى anything-- 40 00:02:12,250 --> 00:02:16,910 أي نوع من التلاعب كنت به، وسوف تستند تشغيله الوظائف. 41 00:02:16,910 --> 00:02:20,162 >> مشغلي الثنائية هكذا، على سبيل المثال، هي وظائف فقط بطبيعتها. 42 00:02:20,162 --> 00:02:21,870 وكل ما وأنت تسير القيام به هو 43 00:02:21,870 --> 00:02:24,690 الذهاب ليتم تشغيلها قبالة وظائف نفسه. 44 00:02:24,690 --> 00:02:27,140 ثم وجوه المنحى أيضا. 45 00:02:27,140 --> 00:02:30,930 >> حتى هنا هو مؤامرة XKCD. 46 00:02:30,930 --> 00:02:34,350 ليس فقط لأنني أشعر مثل XKCD أمر أساسي لأي نوع 47 00:02:34,350 --> 00:02:37,770 العرض، ولكن ل أشعر هذا حقا 48 00:02:37,770 --> 00:02:42,160 المطارق درجة أن الكثير من الوقت عندما كنت تفعل بعض نوع من البيانات 49 00:02:42,160 --> 00:02:46,570 التحليل، والمشكلة ليست كثيرا مدى سرعة تشغيله، 50 00:02:46,570 --> 00:02:49,850 ولكن كم من الوقت سيكون ل يأخذك لبرمجة هذه المهمة. 51 00:02:49,850 --> 00:02:54,112 حتى هنا هو مجرد تحليل ما إذا كانت استراتيجية أو ب هو أكثر كفاءة. 52 00:02:54,112 --> 00:02:55,820 هذا سيكون الشيء الذي كنت 53 00:02:55,820 --> 00:02:58,290 الذهاب إلى تتعامل مع الكثير في نوع من اللغات على مستوى منخفض 54 00:02:58,290 --> 00:03:03,440 حيث كنت تتعامل مع أخطاء SEG، تخصيص الذاكرة، التهيئة، 55 00:03:03,440 --> 00:03:05,270 حتى جعل وظائف المضمنة. 56 00:03:05,270 --> 00:03:09,920 ويتم التعامل مع كل هذه الاشياء جدا، أنيق جدا في R. 57 00:03:09,920 --> 00:03:12,839 >> حتى مجرد أن تدق هذه نقطة، وهو أكبر عنق الزجاجة 58 00:03:12,839 --> 00:03:13,880 سيكون المعرفية. 59 00:03:13,880 --> 00:03:17,341 حتى تحليل البيانات هي مشكلة صعبة للغاية. 60 00:03:17,341 --> 00:03:19,340 سواء كنت تفعل تعلم الآلة أو كنت 61 00:03:19,340 --> 00:03:22,550 مجرد القيام نوعا من التنقيب عن البيانات الأساسية، 62 00:03:22,550 --> 00:03:25,290 كنت لا تريد أن يكون لاتخاذ وثيقة 63 00:03:25,290 --> 00:03:27,440 وتجميع ثم شيء في كل مرة كنت 64 00:03:27,440 --> 00:03:31,010 نريد أن نرى ما يبدو عمود مثل، ما وجه الخصوص الإدخالات في مصفوفة 65 00:03:31,010 --> 00:03:32,195 يبدو. 66 00:03:32,195 --> 00:03:34,320 لذلك أردت فقط أن يكون بعض اجهة جميلة حقا 67 00:03:34,320 --> 00:03:37,740 يمكنك تشغيل وظيفة بسيطة أن المؤشرات على كل ما 68 00:03:37,740 --> 00:03:41,870 كنت ترغب فقط وتشغيلها من هناك. 69 00:03:41,870 --> 00:03:44,190 وتحتاج للنطاق لغات معينة لهذا الغرض. 70 00:03:44,190 --> 00:03:51,750 وسوف R تساعد حقا لكم تحديد مشكلة وحلها بهذه الطريقة. 71 00:03:51,750 --> 00:03:58,690 >> حتى هنا هو إظهار البرمجة مؤامرة شعبية R كما انها ذهبت مع مرور الوقت. 72 00:03:58,690 --> 00:04:04,060 ذلك كما ترون، مثل 2013 أو لذلك مهب للتو بشكل هائل. 73 00:04:04,060 --> 00:04:09,570 وهذا كان فقط بسبب ذلك الاتجاه ضخمة في صناعة التكنولوجيا 74 00:04:09,570 --> 00:04:10,590 بيانات حول كبيرة. 75 00:04:10,590 --> 00:04:13,010 أيضا، وليس فقط التكنولوجيا الصناعة، ولكن في الحقيقة 76 00:04:13,010 --> 00:04:16,490 أي that-- الصناعة ل الكثير من الصناعات 77 00:04:16,490 --> 00:04:20,589 هي نوع من أساسية ل محاولة حل هذه المشاكل. 78 00:04:20,589 --> 00:04:24,590 وعادة، يمكن أن يكون لديك بعض الخير طريقة لقياس هذه المشاكل 79 00:04:24,590 --> 00:04:29,720 أو حتى تعريفها أو حل لهم باستخدام البيانات. 80 00:04:29,720 --> 00:04:35,430 لذلك أعتقد أن الحق الآن R هو 11TH معظم لغة شعبية على TIOBE 81 00:04:35,430 --> 00:04:38,200 وانه تم المتزايدة منذ ذلك الحين. 82 00:04:38,200 --> 00:04:40,740 83 00:04:40,740 --> 00:04:43,080 >> حتى هنا بعض أكثر ملامح R. له 84 00:04:43,080 --> 00:04:46,900 عدد هائل من الحزم و لجميع هذه الأشياء مختلفة. 85 00:04:46,900 --> 00:04:52,470 لذلك أي وقت لديك مشكلة معينة، ومعظم 86 00:04:52,470 --> 00:04:55,060 فإن الوقت يكون R أن وظيفة لك. 87 00:04:55,060 --> 00:04:58,520 حتى ما إذا كنت تريد بناء نوع من آلة 88 00:04:58,520 --> 00:05:02,770 تعلم خوارزمية تسمى عشوائية الغابات أو الأشجار القرار، 89 00:05:02,770 --> 00:05:07,530 أو حتى يحاول أن يأخذ متوسط وظيفة أو أي من هذه الاشياء، 90 00:05:07,530 --> 00:05:10,000 سوف R ديك ذلك. 91 00:05:10,000 --> 00:05:14,190 >> وإذا كنت لا يهمك التحسين، والشيء الوحيد الذي هو القاسم المشترك 92 00:05:14,190 --> 00:05:17,430 وأنه بعد الانتهاء من ذلك النماذج نوعا من لغة عالية المستوى، 93 00:05:17,430 --> 00:05:19,810 سوف رمي in-- شئت ميناء مجرد أن أكثر من 94 00:05:19,810 --> 00:05:21,550 لبعض اللغات على مستوى منخفض. 95 00:05:21,550 --> 00:05:26,090 ما هو جيد عن R هو أنه بمجرد كنت فعلت النماذج، يمكنك تشغيل C ++، 96 00:05:26,090 --> 00:05:29,510 أو فورتران، أو أي من هذه منها المستوى الأدنى مباشرة إلى R. 97 00:05:29,510 --> 00:05:32,320 حتى أن أحد حقا سمة باردة حول R، 98 00:05:32,320 --> 00:05:35,930 إذا كنت تهتم حقا حول النقطة الأمثل. 99 00:05:35,930 --> 00:05:39,490 >> وكما انها جيدة حقا لتصورات شبكة الإنترنت. 100 00:05:39,490 --> 00:05:43,530 حتى D3.js، على سبيل المثال، هو أعتقد ندوة أخرى 101 00:05:43,530 --> 00:05:45,130 التي قدمناها اليوم. 102 00:05:45,130 --> 00:05:48,510 وهذا رائع حقا ل القيام تصورات التفاعلية. 103 00:05:48,510 --> 00:05:54,460 وD3.js يفترض أن يكون لديك نوع من البيانات التي يتم تآمر 104 00:05:54,460 --> 00:05:58,080 وR هو وسيلة رائعة لتكون قادرة على القيام تحليل البيانات قبل تصديره 105 00:05:58,080 --> 00:06:04,220 أكثر من D3.js أو حتى تشغيل فقط أوامر D3.js إلى R نفسها، 106 00:06:04,220 --> 00:06:08,240 فضلا عن كل هذه المكتبات الأخرى كذلك. 107 00:06:08,240 --> 00:06:13,041 >> لذلك كان ذلك مجرد إدخال ما هو R وماذا قد استخدامها. 108 00:06:13,041 --> 00:06:14,790 لذلك نأمل، لقد أقنع لك شيئا 109 00:06:14,790 --> 00:06:18,460 عن مجرد محاولة لمعرفة ما هو عليه. 110 00:06:18,460 --> 00:06:23,930 لذلك أنا ذاهب إلى المضي قدما وخلال ذهاب بعض الأساسيات حول الكائنات R 111 00:06:23,930 --> 00:06:26,150 وما يمكن أن تفعله حقا. 112 00:06:26,150 --> 00:06:29,690 >> حتى هنا هو مجرد مجموعة من الأوامر الرياضيات. 113 00:06:29,690 --> 00:06:35,000 لذلك نقول you're-- كنت ترغب في بناء نفسك باللغة وكنت ترغب فقط 114 00:06:35,000 --> 00:06:38,080 لديك مجموعة من أدوات مختلفة. 115 00:06:38,080 --> 00:06:42,520 أي نوع من العمل كنت تعتقد كنت نريده هو الذهاب الى حد كبير أن يكون في R. 116 00:06:42,520 --> 00:06:44,150 >> حتى هنا هو 2 زائد 2. 117 00:06:44,150 --> 00:06:46,090 هنا هو 2 مرات بي. 118 00:06:46,090 --> 00:06:51,870 R لديها مجموعة من الثوابت المدمج في عليك أن كثيرا ما تستخدم مثل بي، والبريد. 119 00:06:51,870 --> 00:06:56,230 >> ومن ثم، وهنا 7 زائد runif، لذلك runif من 1. 120 00:06:56,230 --> 00:07:02,450 هذه هي وظيفة هذا يولد زي واحد عشوائي من 0 إلى 1. 121 00:07:02,450 --> 00:07:04,400 وبعد ذلك هناك 3 إلى 4 قوة. 122 00:07:04,400 --> 00:07:06,430 هناك جذور مربع. 123 00:07:06,430 --> 00:07:07,270 >> هناك السجل. 124 00:07:07,270 --> 00:07:14,500 حتى تسجيل ستفعل قاعدة الأسي في حد ذاته. 125 00:07:14,500 --> 00:07:18,337 ومن ثم، إذا قمت بتحديد قاعدة، ثم يمكنك أن تفعل ما تريد القاعدة. 126 00:07:18,337 --> 00:07:19,920 ثم وهنا بعض الأوامر الأخرى. 127 00:07:19,920 --> 00:07:22,180 بحيث يكون لديك 23 وزارة الدفاع 2. 128 00:07:22,180 --> 00:07:24,910 ثم لديك ما تبقى. 129 00:07:24,910 --> 00:07:27,110 ثم لديك العلمي تدوين إذا كنت أيضا 130 00:07:27,110 --> 00:07:34,060 تريد أن تفعل أكثر عدلا و الأمور أكثر تعقيدا. 131 00:07:34,060 --> 00:07:37,320 >> حتى هنا هو الواجب. 132 00:07:37,320 --> 00:07:40,830 المهام المعهودة في ويتم R مع سهم 133 00:07:40,830 --> 00:07:43,440 لذلك فمن أقل من ثم الواصلة. 134 00:07:43,440 --> 00:07:47,250 حتى هنا أنا فقط تعيين 3 إلى فال متغير. 135 00:07:47,250 --> 00:07:50,160 >> ثم أنا طبع فال وبعد ذلك بطباعة ثلاثة. 136 00:07:50,160 --> 00:07:53,920 بشكل افتراضي في R مترجم، فإنه سيتم طباعة الامور بالنسبة لك 137 00:07:53,920 --> 00:07:57,280 لذلك لم يكن لديك لتحديد طباعة فال أي وقت تريد طباعتها شيء. 138 00:07:57,280 --> 00:08:00,200 يمكنك أن تفعل فقط فال و ثم انها سوف نفعل ذلك لك. 139 00:08:00,200 --> 00:08:04,380 >> أيضا، يمكنك استخدام يساوي من الناحية الفنية باعتبارها عامل التعيين. 140 00:08:04,380 --> 00:08:07,190 هناك الخفايا طفيفة بين استخدام السهم 141 00:08:07,190 --> 00:08:10,730 المشغل ومتساوين مشغل للمهام. 142 00:08:10,730 --> 00:08:15,470 معظمهم من الاتفاقية، الجميع ومجرد استخدام المشغل السهم. 143 00:08:15,470 --> 00:08:21,850 >> وهنا، أنا تعيين هذا دعا تدوين منحرف 1 القولون 6. 144 00:08:21,850 --> 00:08:26,010 وهذا يولد ناقل 1-6. 145 00:08:26,010 --> 00:08:29,350 وهذا لطيف حقا لأن ثم كنت مجرد تعيين ناقلات لفال 146 00:08:29,350 --> 00:08:34,270 والذي يعمل من تلقاء نفسه. 147 00:08:34,270 --> 00:08:37,799 >> لذلك هذا هو ذاهب بالفعل من single-- بيانات بديهية جدا 148 00:08:37,799 --> 00:08:41,070 هيكل مجرد ضعف نوع من نوع إلى ناقل 149 00:08:41,070 --> 00:08:45,670 والتي سوف جمع كل القيم العددية بالنسبة لك. 150 00:08:45,670 --> 00:08:50,770 حتى بعد الذهاب من العددية، أنت لديهم الأجسام R وهذا هو المتجه. 151 00:08:50,770 --> 00:08:55,610 وناقلات هو أي نوع من جمع من نفس النوع. 152 00:08:55,610 --> 00:08:58,150 حتى هنا مجموعة من ناقلات. 153 00:08:58,150 --> 00:08:59,800 >> لذلك هذا هو رقمي. 154 00:08:59,800 --> 00:09:02,440 رقمية هو الطريقة R في القول مزدوجة. 155 00:09:02,440 --> 00:09:07,390 وهكذا افتراضيا، أي سوف يكون عدد مزدوج. 156 00:09:07,390 --> 00:09:13,150 >> حتى إذا كان لديك ج 1.1، 3، 5.7 سلبية، وج هي وظيفة. 157 00:09:13,150 --> 00:09:16,760 هذا يسلسل كل ثلاثة أرقام في ناقلات. 158 00:09:16,760 --> 00:09:19,619 وهذا سوف be-- حتى إذا لاحظت 3 في حد ذاته، 159 00:09:19,619 --> 00:09:21,910 عادة يمكنك أن نفترض أن هذا هو مثل عدد صحيح، 160 00:09:21,910 --> 00:09:25,050 ولكن لأن كل نواقل هي من نفس النوع، 161 00:09:25,050 --> 00:09:28,660 هذا هو متجه الزوجي أو رقمية في هذه الحالة. 162 00:09:28,660 --> 00:09:34,920 >> rnorm هي وظيفة أن يولد variables-- عادي المعيار 163 00:09:34,920 --> 00:09:36,700 أو القيم العادية القياسية. 164 00:09:36,700 --> 00:09:38,360 وأنا تحديد اثنين منهم. 165 00:09:38,360 --> 00:09:43,840 لذلك أنا أفعل rnorm 2، وإسناد ذلك إلى المشروعات الإنمائية، ومن ثم أنا الطباعة من المشروعات الإنمائية. 166 00:09:43,840 --> 00:09:47,350 لذلك فان هذه هي اثنين فقط القيم الطبيعية عشوائية. 167 00:09:47,350 --> 00:09:50,060 >> ثم [إينتس] إذا كنت تفعل يهمك أعداد صحيحة. 168 00:09:50,060 --> 00:09:54,650 لذلك هذا هو فقط حول الذاكرة تخصيص وتوفير حجم الذاكرة. 169 00:09:54,650 --> 00:10:01,460 لذلك سيكون لديك لإلحاق الأرقام الخاصة بك عن طريق العاصمة L. 170 00:10:01,460 --> 00:10:04,170 >> بشكل عام، وهذا هو تدوين R التاريخي 171 00:10:04,170 --> 00:10:06,940 عن شيء يسمى صحيح طويل. 172 00:10:06,940 --> 00:10:09,880 لذلك معظم الوقت، عليك يكون التعامل مع الزوجي. 173 00:10:09,880 --> 00:10:15,180 واذا صح التعبير من أي وقت مضى في وقت لاحق على تحسين التعليمات البرمجية، 174 00:10:15,180 --> 00:10:18,110 يمكنك فقط إضافة هذه L'الصورة بعد ذلك أو أثناء ذلك 175 00:10:18,110 --> 00:10:22,280 إذا كنت مثل precognitive حول ما كنت تنوي القيام به هذه المتغيرات. 176 00:10:22,280 --> 00:10:25,340 177 00:10:25,340 --> 00:10:26,890 >> حتى هنا هو متجه الحرف. 178 00:10:26,890 --> 00:10:31,440 لذلك، مرة أخرى، أنا وصل ثلاث سلاسل هذا الوقت. 179 00:10:31,440 --> 00:10:36,230 لاحظ أن سلاسل مزدوجة و سلاسل واحدة هي نفسها في R. 180 00:10:36,230 --> 00:10:41,000 لذلك ليس لدي آرثر وعلى مارفن وهكذا عندما أكون الطباعة بها، كل منهم 181 00:10:41,000 --> 00:10:43,210 وسوف تظهر سلاسل مزدوجة. 182 00:10:43,210 --> 00:10:45,880 وإذا كنت تريد أيضا لتشمل سلسلة مزدوجة أو مفردة 183 00:10:45,880 --> 00:10:50,070 في شخصياتك، ثم يمكنك إما بالتناوب سلاسل الخاص بك. 184 00:10:50,070 --> 00:10:53,540 >> لذلك لمارفن ل العنصر الثاني، وهذا هو 185 00:10:53,540 --> 00:10:56,380 الذهاب إلى show-- لك يكون مجرد سلاسل مزدوجة 186 00:10:56,380 --> 00:10:59,050 ثم سلسلة واحدة لذلك هذا هو بالتناوب. 187 00:10:59,050 --> 00:11:04,040 خلاف ذلك، إذا كنت ترغب في استخدام مزدوج مشغل سلسلة في سلسلة مزدوجة 188 00:11:04,040 --> 00:11:07,090 عندما كنت معلنا ذلك، ثم كنت مجرد استخدام المشغل الهروب. 189 00:11:07,090 --> 00:11:10,600 لذلك يمكنك القيام به سلسلة مزدوجة مائل. 190 00:11:10,600 --> 00:11:13,330 >> وأخيرا، ونحن أيضا لدينا ناقلات منطقية. 191 00:11:13,330 --> 00:11:15,890 حتى logical-- صحيح جدا وFALSE، وانهم 192 00:11:15,890 --> 00:11:18,880 ستكون جميع الأحرف الكبيرة. 193 00:11:18,880 --> 00:11:22,370 وبعد ذلك، مرة أخرى، أنا وصل لهم ومن ثم تكليفهم لbools. 194 00:11:22,370 --> 00:11:24,590 حتى bools سوف تظهر كنت TRUE، FALSE، وTRUE. 195 00:11:24,590 --> 00:11:28,280 196 00:11:28,280 --> 00:11:31,620 >> حتى هنا هو فهرسة vectorized. 197 00:11:31,620 --> 00:11:34,870 لذلك في البداية، وأنا أنا أخذ function-- 198 00:11:34,870 --> 00:11:39,230 وهذا ما يسمى sequence-- تسلسل من 2 إلى 12. 199 00:11:39,230 --> 00:11:42,490 وأنا أخذ تسلسل بنسبة 2. 200 00:11:42,490 --> 00:11:46,660 حتى انها تنوي القيام به 2، 4، 6، 8، 10 و 12. 201 00:11:46,660 --> 00:11:50,080 وبعد ذلك، أنا الفهرسة للحصول على العنصر الثالث. 202 00:11:50,080 --> 00:11:55,770 >> ذلك شيء واحد أن نأخذ في الاعتبار هو أن المؤشرات R قبل ابتداء من 1. 203 00:11:55,770 --> 00:12:00,550 لذا فال 3 هو ذاهب لإعطاء لك العنصر الثالث. 204 00:12:00,550 --> 00:12:04,580 هذا هو نوع مختلف من من الآخر اللغات حيث يبدأ من الصفر. 205 00:12:04,580 --> 00:12:09,780 حتى في C أو C ++، على سبيل المثال، كنت ذاهب للحصول على العنصر الرابع. 206 00:12:09,780 --> 00:12:13,280 >> وهنا فال 3-5. 207 00:12:13,280 --> 00:12:16,030 ذلك الشيء الوحيد الذي هو حقا هو أن تبرد لك 208 00:12:16,030 --> 00:12:20,410 يمكن أن تولد المتغيرات المؤقتة داخل وبعد ذلك فقط استخدامها على الطاير. 209 00:12:20,410 --> 00:12:21,960 حتى هنا هو 3 إلى 5. 210 00:12:21,960 --> 00:12:25,070 لذلك أنا توليد متجه 3، 4، و 5 ثم 211 00:12:25,070 --> 00:12:29,700 أنا فهرسة للحصول على المركز الثالث، عناصر الرابعة، والخامسة. 212 00:12:29,700 --> 00:12:32,280 >> لذلك بالمثل، يمكنك خلاصة هذا أن تفعل فقط 213 00:12:32,280 --> 00:12:35,280 أي نوع من متجه والتي تمنحك الفهرسة. 214 00:12:35,280 --> 00:12:40,050 حتى هنا هو فال ثم العناصر الأولى والثالثة والسادسة و. 215 00:12:40,050 --> 00:12:42,800 ومن ثم، إذا كنت تريد للقيام مكمل، 216 00:12:42,800 --> 00:12:45,210 لذلك يمكنك القيام به فقط ناقص التي سوف بعد ذلك و 217 00:12:45,210 --> 00:12:48,600 تعطيك كل ما هو ليس أولا، ثالثا، أو العنصر السادس. 218 00:12:48,600 --> 00:12:51,590 ولذلك فإن هذا سوف يكون 4 و 8 و 10. 219 00:12:51,590 --> 00:12:54,380 >> وإذا كنت ترغب في الحصول على حتى أكثر تقدما، 220 00:12:54,380 --> 00:12:57,610 يمكنك سلسلة نواقل منطقية. 221 00:12:57,610 --> 00:13:05,210 لذلك هذا المؤشر هو ذاهب الى ان نعطيكم هذا ناقلات منطقي من طول 6. 222 00:13:05,210 --> 00:13:07,280 لذلك مندوب فاصلة الحقيقة 3. 223 00:13:07,280 --> 00:13:09,680 هذا وسوف أكرر الحقيقة ثلاث مرات. 224 00:13:09,680 --> 00:13:12,900 ولذلك فإن هذا سوف اعطيكم ناقلات TRUE، TRUE، TRUE. 225 00:13:12,900 --> 00:13:17,470 >> مندوب FALSE 4-- هذا هو ذاهب الى ان نعطيكم متجه من FALSE، FALSE، FALSE، FALSE. 226 00:13:17,470 --> 00:13:21,280 ثم ج يذهب لسلسلة تلك القيم المنطقية اثنين معا. 227 00:13:21,280 --> 00:13:24,090 لذلك كنت ذاهب للحصول على ثلاثة القيم TRUE ثم أربعة FALSEs. 228 00:13:24,090 --> 00:13:28,460 >> بحيث عند فال مؤشر، وكنت ذاهب للحصول على TRUE، TRUE، TRUE. 229 00:13:28,460 --> 00:13:31,420 بحيث سيكون لنقول نعم، أريد تلك العناصر الثلاثة. 230 00:13:31,420 --> 00:13:33,520 ثم FALSE، FALSE، FALSE، FALSE يجري 231 00:13:33,520 --> 00:13:37,140 ليقول لا، أنا لا أريد تلك العناصر لذلك لن إعادتها. 232 00:13:37,140 --> 00:13:41,490 >> وأعتقد أن هناك فعلا خطأ مطبعي هنا لأن هذا القول تكرار القيمة TRUE 3 233 00:13:41,490 --> 00:13:47,990 وكرر FALSE 4، وتقنيا، وكنت فقط لدينا ستة عناصر ذلك يكرر FALSE، 234 00:13:47,990 --> 00:13:50,470 ينبغي أن يكون تكرار FALSE 3. 235 00:13:50,470 --> 00:13:55,260 أعتقد R هو أيضا ذكي بما فيه الكفاية مثل أنه إذا قمت بتحديد فقط 4 هنا، ثم 236 00:13:55,260 --> 00:13:56,630 فإنه لن حتى خطأ خارج. 237 00:13:56,630 --> 00:13:58,480 وسوف أعطيكم هذه القيمة. 238 00:13:58,480 --> 00:14:00,970 لذلك سوف تجاهل مجرد أن FALSE الرابع. 239 00:14:00,970 --> 00:14:05,310 240 00:14:05,310 --> 00:14:09,270 >> حتى هنا هو التنازل vectorized. 241 00:14:09,270 --> 00:14:15,480 حتى set.seed-- هذا يحدد فقط البذور لأعداد المزيف. 242 00:14:15,480 --> 00:14:20,110 لذلك أنا وضع البذور ل 42، وهذا يعني أنه إذا كنت توليد 243 00:14:20,110 --> 00:14:22,950 ثلاثة عشوائي عادي القيم، ومن ثم إذا كنت 244 00:14:22,950 --> 00:14:27,400 شوط set.seed بنفسك الكمبيوتر باستخدام نفس القيمة 42، 245 00:14:27,400 --> 00:14:30,990 ثم يمكنك أيضا الحصول على نفس ثلاثة الأوضاع الطبيعية عشوائية. 246 00:14:30,990 --> 00:14:33,411 >> لذلك هذا هو حقا جيدة للاستنساخ. 247 00:14:33,411 --> 00:14:35,910 عادة، عندما كنت تفعل بعض نوع من التحليل العلمي، 248 00:14:35,910 --> 00:14:37,230 كنت ترغب في تعيين البذور. 249 00:14:37,230 --> 00:14:41,270 وبهذه الطريقة يمكن للعلماء الآخرين فقط إعادة إنتاج نفس رمز بالضبط كنت قد 250 00:14:41,270 --> 00:14:44,790 فعلت لأنها سوف يكون بالضبط نفس المتغيرات العشوائية that-- أو عشوائي 251 00:14:44,790 --> 00:14:47,270 القيم التي كنت قد أخرجت كذلك. 252 00:14:47,270 --> 00:14:49,870 253 00:14:49,870 --> 00:14:53,910 >> وهكذا الاحالة vectorized هنا تظهر فال 1 إلى 2. 254 00:14:53,910 --> 00:14:59,290 لذلك يأخذ أول العنصرين من فال ثم يعين لهم إلى 0. 255 00:14:59,290 --> 00:15:03,940 وبعد ذلك، يمكنك أيضا مجرد القيام شيء مماثل مع القيم المنطقية. 256 00:15:03,940 --> 00:15:09,340 >> لذا فال لا تساوي 0-- هذه الإرادة أعطيك FALSE ناقلات، FALSE، TRUE 257 00:15:09,340 --> 00:15:10,350 في هذه الحالة. 258 00:15:10,350 --> 00:15:13,770 وبعد ذلك، انها ستقول أي من تلك المؤشرات التي كانت TRUE، 259 00:15:13,770 --> 00:15:15,270 ثم انها سوف تعيين ذلك إلى 5. 260 00:15:15,270 --> 00:15:18,790 لذلك يأخذ العنصر الثالث هنا ومن ثم يسند الى 5. 261 00:15:18,790 --> 00:15:22,300 >> وهذا هو لطيف حقا مقارنة مع المستوى المنخفض لغات 262 00:15:22,300 --> 00:15:25,560 حيث لديك لاستخدامها في الحلقات للقيام بكل هذه الاشياء vectorized 263 00:15:25,560 --> 00:15:30,281 لأنها مجرد بديهية جدا وانها واحدة بطانة واحدة. 264 00:15:30,281 --> 00:15:32,030 وماذا عن عظيم تدوين vectorized 265 00:15:32,030 --> 00:15:37,020 غير أنه في R، وهذه هي نوع من المدمج في ذلك انهم تقريبا سريع كما 266 00:15:37,020 --> 00:15:42,490 كما فعل في اللغة على مستوى منخفض كما بدلا من جعل لحلقة في R 267 00:15:42,490 --> 00:15:46,317 ومن ثم وجود لها أن تفعل فهرسة ديناميكية نفسها. 268 00:15:46,317 --> 00:15:48,900 والتي سوف يكون أبطأ من القيام هذا النوع من الشيء vectorized 269 00:15:48,900 --> 00:15:55,950 حيث يمكن أن تفعل ذلك في موازاة ذلك، حيث انها تفعل ذلك في خيوط أساسا. 270 00:15:55,950 --> 00:15:58,650 >> حتى هنا هو vectorized العمليات. 271 00:15:58,650 --> 00:16:04,920 لذلك أنا توليد قيمة 1 إلى 3 تعيين هذا إلى vec1، من 3 إلى 5، vec2، 272 00:16:04,920 --> 00:16:05,950 إضافتها معا. 273 00:16:05,950 --> 00:16:11,490 وتضيف لهم، مكون من الحكمة بحيث انها 1 زائد 3، 2 و 4، وهلم جرا. 274 00:16:11,490 --> 00:16:13,330 >> vec1 مرات vec2. 275 00:16:13,330 --> 00:16:16,110 هذا يضاعف اثنين قيم عنصر الحكمة. 276 00:16:16,110 --> 00:16:21,830 لذلك فمن 1 مرات 3، 2 مرات 4 ثم 3 مرات 5. 277 00:16:21,830 --> 00:16:28,250 >> وبعد ذلك، وبالمثل يمكنك أن تفعل أيضا comparisons-- مقارنات منطقية. 278 00:16:28,250 --> 00:16:33,640 حتى انها كاذبة كاذبة الحقيقي في هذا القضية ل1 ليس أكبر من 3، 279 00:16:33,640 --> 00:16:35,920 2 ليس أكبر من 4. 280 00:16:35,920 --> 00:16:41,160 وهذا هو، وانا اعتقد، خطأ مطبعي آخر، 3 هي بالتأكيد ليست أكبر من 5. 281 00:16:41,160 --> 00:16:41,660 نعم. 282 00:16:41,660 --> 00:16:45,770 وهكذا يمكنك أن تفعل فقط كل هذه العمليات بسيطة 283 00:16:45,770 --> 00:16:48,350 لأن الموروثة من الطبقات أنفسهم. 284 00:16:48,350 --> 00:16:51,110 285 00:16:51,110 --> 00:16:52,580 >> لذلك كان هذا مجرد ناقل. 286 00:16:52,580 --> 00:16:56,530 وهذا النوع من أبسط الكائن R لإعطاء ناقلات، 287 00:16:56,530 --> 00:16:59,170 يمكنك بناء الأجسام أكثر تقدما. 288 00:16:59,170 --> 00:17:00,560 >> حتى هنا مصفوفة. 289 00:17:00,560 --> 00:17:05,030 هذا هو أساسا التجريد ما هي المصفوفة نفسها. 290 00:17:05,030 --> 00:17:10,099 حتى في هذه الحالة، فإنه من ثلاثة مختلفة ناقلات، حيث كل واحد هو عمود، 291 00:17:10,099 --> 00:17:12,710 أو يمكنك أن تنظر فيه حيث أن كل واحد هو صف واحد. 292 00:17:12,710 --> 00:17:18,250 >> لذلك أنا تخزين مصفوفة من 1 إلى 9 ثم أنا تحديد 3 الصفوف. 293 00:17:18,250 --> 00:17:23,364 حتى 1-9 سوف أعطيك ناقلات 1، 2، 3، 4، 5، 6، وعلى طول الطريق إلى 9. 294 00:17:23,364 --> 00:17:29,250 >> شيء واحد للحفاظ أيضا في الاعتبار هو أن مخازن R القيم في شكل عمود كبير. 295 00:17:29,250 --> 00:17:34,160 لذلك وبعبارة أخرى، عندما ترى 1 إلى 9، انه سيكون لتخزين them-- 296 00:17:34,160 --> 00:17:36,370 انها سوف تكون 1، 2، 3 في العمود الأول، 297 00:17:36,370 --> 00:17:38,510 وبعد ذلك سوف تفعل 4، 5، 6 في العمود الثاني، 298 00:17:38,510 --> 00:17:41,440 ثم 7، 8، 9 في العمود الثالث. 299 00:17:41,440 --> 00:17:45,570 >> وهنا بعض الآخر الوظائف الشائعة التي يمكنك استخدامها. 300 00:17:45,570 --> 00:17:49,650 حتى حصيرة قاتمة، وهذا سوف اعطيكم أبعاد المصفوفة. 301 00:17:49,650 --> 00:17:52,620 انها سوف تعود لك متجه من البعد. 302 00:17:52,620 --> 00:17:55,580 حتى في هذه الحالة، لأن مصفوفة لدينا 3 من 3، 303 00:17:55,580 --> 00:18:01,900 انها سوف تعطيك ناقلات الرقمية هذا 3 3. 304 00:18:01,900 --> 00:18:05,270 >> وهنا يظهر فقط مصفوفة الضرب. 305 00:18:05,270 --> 00:18:11,970 لذلك عادة، إذا كنت تفعل فقط asterisk-- ذلك حصيرة النجمة mat-- 306 00:18:11,970 --> 00:18:15,380 هذا سيكون عملية عنصر الحكمة 307 00:18:15,380 --> 00:18:17,300 أو ما يسمى المنتج هادامارد. 308 00:18:17,300 --> 00:18:21,310 حتى انها تنوي القيام به كل العنصر المكون من الحكمة. 309 00:18:21,310 --> 00:18:23,610 ومع ذلك، إذا كنت تريد مصفوفة multiplication-- 310 00:18:23,610 --> 00:18:29,380 لذلك بضرب مرات الصف الأول العمود الأول في المصفوفة الثانية ل 311 00:18:29,380 --> 00:18:34,510 وهكذا on-- ستستخدم هذه العملية في المئة. 312 00:18:34,510 --> 00:18:38,110 >> وطن من حصيرة هو فقط عملية لتبديل. 313 00:18:38,110 --> 00:18:42,590 لذلك أنا أقول اتخاذ تبديل في المصفوفة، اضربها المصفوفة 314 00:18:42,590 --> 00:18:43,090 نفسها. 315 00:18:43,090 --> 00:18:45,006 وبعد ذلك سيكون ل يعود لكم 3 آخر 316 00:18:45,006 --> 00:18:50,700 قبل 3 مصفوفة تبين المنتج كنت تريد. 317 00:18:50,700 --> 00:18:53,750 >> وحتى أن كان المصفوفة. 318 00:18:53,750 --> 00:18:56,020 هنا هو ما يسمى إطار البيانات. 319 00:18:56,020 --> 00:19:00,780 يؤطر البيانات يمكن ان يخطر لك كما مصفوفة، ولكن كل عمود نفسها 320 00:19:00,780 --> 00:19:02,990 سيكون من نوع مختلف. 321 00:19:02,990 --> 00:19:07,320 >> لذلك ما هو رائع حقا عن البيانات إطارات هي أنه في تحليل البيانات نفسها، 322 00:19:07,320 --> 00:19:11,260 وأنت تسير أن يكون كل هذا البيانات غير المتجانسة وجميع هذه حقا 323 00:19:11,260 --> 00:19:15,640 أشياء فوضوي حيث كل من الأعمدة أنفسهم يمكن أن تكون من أنواع مختلفة. 324 00:19:15,640 --> 00:19:21,460 حتى هنا أقوله إنشاء الإطار البيانات، والقيام [إينتس] 1-3، 325 00:19:21,460 --> 00:19:24,750 ومن ثم يكون أيضا ناقلات الحرف. 326 00:19:24,750 --> 00:19:28,470 حتى أتمكن من مؤشر من خلال كل من هذه الأعمدة 327 00:19:28,470 --> 00:19:30,930 وبعد ذلك سوف تحصل على القيم نفسها. 328 00:19:30,930 --> 00:19:34,370 ويمكنك أيضا القيام ببعض نوع العمليات على إطارات البيانات. 329 00:19:34,370 --> 00:19:38,040 وأكثر من مرة عندما كنت القيام بتحليل البيانات أو نوعا 330 00:19:38,040 --> 00:19:42,042 من تجهيزها، عليك أن تكون العمل مع هذه الهياكل البيانات 331 00:19:42,042 --> 00:19:44,250 حيث كل عمود يسير أن يكون من نوع مختلف. 332 00:19:44,250 --> 00:19:47,880 333 00:19:47,880 --> 00:19:52,970 >> وأخيرا، لذلك هذه هي أساسا فقط أربعة أشياء أساسية في قائمة R. 334 00:19:52,970 --> 00:19:55,820 سوف مجرد جمع أي الأشياء الأخرى التي تريد. 335 00:19:55,820 --> 00:20:00,130 لذلك سيتم تخزين هذا في واحد متغير التي يمكنك الوصول إليها بسهولة. 336 00:20:00,130 --> 00:20:02,370 >> حتى هنا، أنا أخذ قائمة. 337 00:20:02,370 --> 00:20:04,460 أنا أقول الاشياء يساوي 3. 338 00:20:04,460 --> 00:20:08,060 لذلك أنا ذاهب لعنصر واحد في القائمة، وهذا ما يسمى الاشياء، 339 00:20:08,060 --> 00:20:10,570 وانها ستكون لدينا قيمة 3. 340 00:20:10,570 --> 00:20:13,140 >> أنا يمكن أيضا إنشاء المصفوفة. 341 00:20:13,140 --> 00:20:17,970 لذلك هذا هو 1-4 وصف ونهاية يساوي 2، لذلك 2 من 2 مصفوفة. 342 00:20:17,970 --> 00:20:20,270 أيضا في القائمة وانه دعا حصيرة. 343 00:20:20,270 --> 00:20:24,690 moreStuff، سلسلة أحرف، وحتى قائمة أخرى في حد ذاته. 344 00:20:24,690 --> 00:20:27,710 >> لذلك هذا هو القائمة التي من 5 ودب. 345 00:20:27,710 --> 00:20:30,990 لذلك لديها قيمة 5 و لديه الدب سلسلة أحرف 346 00:20:30,990 --> 00:20:32,710 وانها قائمة داخل القائمة. 347 00:20:32,710 --> 00:20:35,965 لذلك يمكن أن يكون هذه أشياء متكررة حيث 348 00:20:35,965 --> 00:20:38,230 لديك another-- ل اكتب داخل النوع. 349 00:20:38,230 --> 00:20:41,420 لذلك بالمثل، هل يمكن أن يكون مصفوفة داخل مصفوفة آخر وهلم جرا. 350 00:20:41,420 --> 00:20:44,264 والقائمة هي مجرد وسيلة جيدة جمع وتجميع 351 00:20:44,264 --> 00:20:45,430 كل هذه أشياء مختلفة. 352 00:20:45,430 --> 00:20:50,210 353 00:20:50,210 --> 00:20:57,150 >> وأخيرا، وهنا هو مساعدة فقط في حالة هذا وقد ذهب ما يزيد قليلا بسرعة كبيرة. 354 00:20:57,150 --> 00:21:01,350 لذلك في أي وقت كنت في حيرة حول نوعا من وظيفة، 355 00:21:01,350 --> 00:21:03,510 يمكنك القيام بمساعدة تلك الوظيفة. 356 00:21:03,510 --> 00:21:07,120 لذلك يمكنك أن تفعل مساعدة مصفوفة أو مصفوفة علامة استفهام. 357 00:21:07,120 --> 00:21:11,430 والمساعدة وعلامة الاستفهام هي مجرد اختصار لنفس الشيء 358 00:21:11,430 --> 00:21:13,040 حتى انهم الأسماء المستعارة. 359 00:21:13,040 --> 00:21:16,820 >> LM هي وظيفة أن لا مجرد نموذج خطي. 360 00:21:16,820 --> 00:21:20,340 ولكن إذا كان لديك أي فكرة عن كيفية مجرد أن يعمل، يمكنك أن تفعل فقط مساعدة من LM 361 00:21:20,340 --> 00:21:24,610 والتي سوف تعطيك بعض نوع من الوثائق التي 362 00:21:24,610 --> 00:21:27,960 يبدو وكأنه نوع من الصفحة رجل في يونكس، حيث 363 00:21:27,960 --> 00:21:34,210 لديك وصفا موجزا لماذا فعلت ذلك، أيضا ما هي حججه، 364 00:21:34,210 --> 00:21:38,850 ما تعود عليه، ونصائح فقط على كيفية لاستخدامها، وبعض الأمثلة كذلك. 365 00:21:38,850 --> 00:21:41,680 366 00:21:41,680 --> 00:21:52,890 >> لذلك اسمحوا لي المضي قدما وعرض بعض تجريبي لاستخدام R. OK. 367 00:21:52,890 --> 00:21:55,470 لذلك ذهبت فوق جدا بسرعة فقط البيانات 368 00:21:55,470 --> 00:21:59,440 الهياكل ونوعا من op-- بعض العمليات. 369 00:21:59,440 --> 00:22:02,960 هنا هو بعض الوظائف. 370 00:22:02,960 --> 00:22:06,750 >> حتى هنا انا فقط لتحديد وظيفة. 371 00:22:06,750 --> 00:22:09,970 لذلك أنا باستخدام أيضا عامل التعيين هنا، 372 00:22:09,970 --> 00:22:12,610 ثم أقوله نعلن بأنها وظيفة. 373 00:22:12,610 --> 00:22:14,140 ويستغرق قيمة س. 374 00:22:14,140 --> 00:22:18,210 لذلك هذا هو أي القيمة التي تريدها وانا ذاهب الى العودة العاشر نفسها. 375 00:22:18,210 --> 00:22:20,840 لذلك هذا هو وظيفة الهوية. 376 00:22:20,840 --> 00:22:23,670 >> وما هو بارد عن هذا مقارنة مع لغات أخرى 377 00:22:23,670 --> 00:22:26,330 وعلى مستوى منخفض أخرى اللغات هي أن س 378 00:22:26,330 --> 00:22:29,350 يمكن أن يكون من أي نوع نفسها وأنه سوف يعود هذا النوع. 379 00:22:29,350 --> 00:22:35,251 حتى تتمكن من imagine-- لذلك دعونا لي فقط تشغيل هذا بسرعة. 380 00:22:35,251 --> 00:22:35,750 آسف. 381 00:22:35,750 --> 00:22:40,300 >> ذلك شيء واحد أود أن أذكر أيضا غير أن هذا المحرر أنا باستخدام 382 00:22:40,300 --> 00:22:41,380 ويسمى rstudio. 383 00:22:41,380 --> 00:22:44,389 وهذا هو ما يسمى IDE. 384 00:22:44,389 --> 00:22:46,180 والشيء الوحيد الذي هو لطيفة حقا حول هذا الموضوع 385 00:22:46,180 --> 00:22:51,500 هو أنه يتضمن الكثير من الأشياء التي تريد أن تفعل في R في حد ذاته 386 00:22:51,500 --> 00:22:53,180 فقط حدسي جدا. 387 00:22:53,180 --> 00:22:55,550 >> حتى هنا هو وحدة مترجم. 388 00:22:55,550 --> 00:23:02,160 لذلك بالمثل، يمكنك أيضا الحصول على هذا وحدة الخام فقط عن طريق القيام R. العاصمة 389 00:23:02,160 --> 00:23:05,630 وهذا هو بالضبط نفس الشيء مثل وحدة التحكم. 390 00:23:05,630 --> 00:23:12,210 لذلك يمكنني القيام به فقط معرف وظيفة س، س، س. 391 00:23:12,210 --> 00:23:16,130 وthen-- ثم أن سوف يكون على ما يرام نفسها. 392 00:23:16,130 --> 00:23:19,200 393 00:23:19,200 --> 00:23:21,740 >> حتى rstudio كبيرة لأنه يحتوي على وحدة التحكم. 394 00:23:21,740 --> 00:23:25,360 كما أن لديها وثائق كنت ترغب في تشغيلها على. 395 00:23:25,360 --> 00:23:28,629 ومن ثم فإنه لديه بعض المتغيرات تستطيع أن ترى في البيئات. 396 00:23:28,629 --> 00:23:30,420 وبعد ذلك، إذا كان لديك للقيام المؤامرات، فإنك 397 00:23:30,420 --> 00:23:33,730 يمكن أن نرى ذلك هنا فقط، خلافا ل إدارة جميع هذه النوافذ المختلفة 398 00:23:33,730 --> 00:23:35,940 في حد ذاتها. 399 00:23:35,940 --> 00:23:40,530 >> أنا فعلا استخدام شخصيا فيم، ولكن أنا يشعر وكأنه rstudio ممتازة فقط 400 00:23:40,530 --> 00:23:44,640 للحصول على فكرة جيدة كيفية استخدام R. عادة، 401 00:23:44,640 --> 00:23:47,040 عندما كنت في محاولة ل تعلم بعض المهام الجديدة، 402 00:23:47,040 --> 00:23:49,590 كنت لا تريد للتعامل مع أشياء كثيرة جدا في وقت واحد. 403 00:23:49,590 --> 00:23:53,120 حتى R هو مجرد rstudio very-- هو وسيلة جيدة جدا للتعلم R 404 00:23:53,120 --> 00:23:56,760 دون الاضطرار إلى التعامل مع كل هذه أمور أخرى. 405 00:23:56,760 --> 00:23:58,600 >> حتى هنا أنا على التوالي معرف مرحبا. 406 00:23:58,600 --> 00:24:00,090 وهذا يعود مرحبا. 407 00:24:00,090 --> 00:24:01,740 معرف 123. 408 00:24:01,740 --> 00:24:04,610 هنا هو متجه من الأعداد الصحيحة. 409 00:24:04,610 --> 00:24:08,620 لذلك بالمثل، لأنك يمكن اتخاذ أي نوع من القيمة، 410 00:24:08,620 --> 00:24:16,060 يمكنك القيام به يعود معرف س ذلك فإنها ترجع 1234 و 5. 411 00:24:16,060 --> 00:24:22,210 >> واسمحوا لي أن تظهر لك فقط أن هذا هو في الواقع صحيح. 412 00:24:22,210 --> 00:24:28,800 وبالمثل، إذا كنت تفعل الطبقة معرف العاشر، فإنه سيكون صحيحا. 413 00:24:28,800 --> 00:24:34,170 وبعد ذلك، يمكنك أيضا مقارنة بينهما وهذا صحيح. 414 00:24:34,170 --> 00:24:38,350 لذلك أنا التحقق إذا معرف س يساوي يساوي x و إشعار 415 00:24:38,350 --> 00:24:39,760 أنه يعطي لك اثنين القيم TRUE. 416 00:24:39,760 --> 00:24:44,280 لذلك هذا لا تقول هي اثنين من الكائنات متماثلة، 417 00:24:44,280 --> 00:24:46,845 ولكن هي كل من الإدخالات داخل ناقلات متطابقة. 418 00:24:46,845 --> 00:24:50,000 419 00:24:50,000 --> 00:24:52,090 >> هنا هو bounded.compare. 420 00:24:52,090 --> 00:24:58,470 لذلك هذا هو قليلا أكثر تعقيدا لأنه لديه اذا كان الشرط وآخر 421 00:24:58,470 --> 00:25:00,960 وبعد ذلك يأخذ اثنين الحجج في كل مرة. 422 00:25:00,960 --> 00:25:02,640 لذا x هو من أي نوع. 423 00:25:02,640 --> 00:25:06,280 وأنا أقول هذا الحجة الثانية هي. 424 00:25:06,280 --> 00:25:08,380 وهذا يمكن أن يكون أي شيء كذلك. 425 00:25:08,380 --> 00:25:12,490 لكن افتراضيا، فإنه سيستغرق 5 إذا لم تقم بتحديد أي شيء. 426 00:25:12,490 --> 00:25:16,730 >> حتى هنا انا ذاهب الى القول إذا كان x أكبر من أ. 427 00:25:16,730 --> 00:25:19,220 حتى لو كنت لم تحدد لذلك، يقول إذا كان x أكبر من 5، 428 00:25:19,220 --> 00:25:20,470 ثم انا ذاهب للعودة TRUE. 429 00:25:20,470 --> 00:25:23,230 آخر، وانا ذاهب للعودة FALSE. 430 00:25:23,230 --> 00:25:24,870 لذلك اسمحوا لي المضي قدما وتحديد ذلك. 431 00:25:24,870 --> 00:25:30,600 432 00:25:30,600 --> 00:25:34,550 >> والآن أنا ذاهب ل تشغيل bounded.compare 3. 433 00:25:34,550 --> 00:25:39,150 لذلك تقول ان 3 أقل than-- هي 3 أكبر من 5. 434 00:25:39,150 --> 00:25:41,830 لا، انها ليست كاذبة بذلك. 435 00:25:41,830 --> 00:25:46,550 >> وbounded.compare 3 وانا ذاهب لمقارنتها باستخدام يساوي 2. 436 00:25:46,550 --> 00:25:50,700 أنا حتى الآن أقوله نعم، وأنا الآن تريد أن تكون شيئا آخر. 437 00:25:50,700 --> 00:25:52,750 لذلك أنا ذاهب لأقول، يجب أن تكون 2. 438 00:25:52,750 --> 00:25:56,640 >> أنا يمكن أن تفعل هذا النوع من التدوين أو أقول يساوي 2. 439 00:25:56,640 --> 00:25:58,720 هذا هو أكثر قابلية للقراءة في ذلك عندما كنت 440 00:25:58,720 --> 00:26:01,450 النظر في هذه حقا وظائف معقدة 441 00:26:01,450 --> 00:26:08,110 اتخاذ arguments-- متعددة وهذا يمكن أن يكون عشرات oftentimes-- فقط يقولون 442 00:26:08,110 --> 00:26:11,140 ويساوي 2 هو أكثر قابلية للقراءة ل لك بحيث في وقت لاحق في المستقبل 443 00:26:11,140 --> 00:26:13,020 سوف تعرف ما تفعلونه. 444 00:26:13,020 --> 00:26:17,120 >> حتى في هذه الحالة، وأنا القول 3 أكبر من 2. 445 00:26:17,120 --> 00:26:18,270 نعم إنه كذلك. 446 00:26:18,270 --> 00:26:22,350 وعلى نحو مماثل، ويمكنني أن إزالة فقط هذا ويقولون، هو 3 أكبر من 2 447 00:26:22,350 --> 00:26:23,440 حيث يساوي 2. 448 00:26:23,440 --> 00:26:26,230 وهذا صحيح أيضا. 449 00:26:26,230 --> 00:26:26,730 نعم؟ 450 00:26:26,730 --> 00:26:29,670 >> الجمهور: هل أنت تنفيذ سطرا سطرا؟ 451 00:26:29,670 --> 00:26:30,670 >> داستن TRAN: نعم أنا. 452 00:26:30,670 --> 00:26:33,900 ذلك ما أفعله هنا هو أخذ هذا النص document-- 453 00:26:33,900 --> 00:26:39,825 وما هو عظيم في rstudio هو أن يمكنني فقط تشغيل short-- على مفتاح الاختصار. 454 00:26:39,825 --> 00:26:41,820 لذلك أنا أفعل-أدخل التحكم. 455 00:26:41,820 --> 00:26:44,850 >> وبعد ذلك، أنا أخذ سطر في نص الوثيقة 456 00:26:44,850 --> 00:26:46,710 ثم وضع في وحدة التحكم. 457 00:26:46,710 --> 00:26:50,800 حتى هنا أقوله، bounded.compare وأنا أفعل تحكم-X. 458 00:26:50,800 --> 00:26:52,540 حتى أستطيع أن فقط لا تعمل هنا أيضا. 459 00:26:52,540 --> 00:26:54,920 وبعد ذلك سوف تأخذ خط وثم وضعها هنا. 460 00:26:54,920 --> 00:26:57,900 ثم بالمثل، ويمكنني أن لا تشغيل هنا. 461 00:26:57,900 --> 00:27:04,630 وبعد ذلك سوف تبقي فقط تحديد خطوط في وحدة التحكم من هذا القبيل. 462 00:27:04,630 --> 00:27:10,690 >> وإذا كنت تلاحظ أيضا مجعد الأقواس موجودة مثلما هو الحال في جملة C. 463 00:27:10,690 --> 00:27:13,910 x-- إذا كان إذا كان الشرط هو أيضا الذهاب الى استخدام الأقواس ثم 464 00:27:13,910 --> 00:27:15,350 يمكنك استخدام آخر. 465 00:27:15,350 --> 00:27:17,496 آخر واحد هو آخر إذا. 466 00:27:17,496 --> 00:27:21,440 ولذلك فإن هذا سيكون س يساوي يساوي لذلك، على سبيل المثال. 467 00:27:21,440 --> 00:27:24,190 468 00:27:24,190 --> 00:27:26,350 ثم أنا ذاهب ل العودة شيء هنا. 469 00:27:26,350 --> 00:27:29,490 >> لاحظ أن هناك اثنين مختلفة أشياء هنا أن يحدث. 470 00:27:29,490 --> 00:27:34,360 واحد هو أن هنا أنا تحديد إرجاع القيمة TRUE. 471 00:27:34,360 --> 00:27:35,950 هنا أنا فقط أقول السينية. 472 00:27:35,950 --> 00:27:39,970 لذلك فإن R عادة افتراضيا اتخاذ arguments-- آخر 473 00:27:39,970 --> 00:27:43,510 أو اتخاذ السطر الأخير من رمز، والتي ستكون ما عاد عليه. 474 00:27:43,510 --> 00:27:46,920 حتى هنا هذا هو نفسه الشيء كما فعل عودة السينية. 475 00:27:46,920 --> 00:27:49,450 476 00:27:49,450 --> 00:27:50,540 >> وفقط لتظهر لك. 477 00:27:50,540 --> 00:27:54,000 478 00:27:54,000 --> 00:27:57,052 ومن ثم، وأنها ستعمل تماما مثل ذلك. 479 00:27:57,052 --> 00:27:58,260 لذلك اسمحوا لي الاستمرار مع هذا. 480 00:27:58,260 --> 00:28:00,630 >> حتى آخر إذا. 481 00:28:00,630 --> 00:28:04,060 وحقا، لا أستطيع العودة أي شيء أود. 482 00:28:04,060 --> 00:28:06,680 لذلك أنا لا تملك حتى ل عودة القيم المنطقية في كل وقت، 483 00:28:06,680 --> 00:28:08,410 يمكنني العودة فقط شيء آخر. 484 00:28:08,410 --> 00:28:10,670 لذلك أستطيع أن أفعل عودة الدب. 485 00:28:10,670 --> 00:28:12,989 >> حتى إذا كان x يساوي يساوي لذلك، انها تسير للعودة الدب. 486 00:28:12,989 --> 00:28:14,530 خلاف ذلك، وانها سوف تعود TRUE. 487 00:28:14,530 --> 00:28:19,310 أنا يمكن أيضا القيام متجه أو أي شيء حقا. 488 00:28:19,310 --> 00:28:22,210 >> وعادة في ثابت اللغات مطبوعة، 489 00:28:22,210 --> 00:28:23,840 كنت قد لتحديد نوع هنا. 490 00:28:23,840 --> 00:28:25,750 ولاحظ أنه يمكن أن يكون أي شيء فقط. 491 00:28:25,750 --> 00:28:32,400 وR هو ذكي بما فيه الكفاية أنه سوف تفعل ذلك فقط، وسوف تعمل بشكل جيد. 492 00:28:32,400 --> 00:28:33,620 >> لذلك اسمحوا لي تعريف هذه. 493 00:28:33,620 --> 00:28:39,460 494 00:28:39,460 --> 00:28:41,230 Unexpected-- يا آسف. 495 00:28:41,230 --> 00:28:44,336 وينبغي أن يكون متعرج هنا. 496 00:28:44,336 --> 00:28:44,836 موافق. 497 00:28:44,836 --> 00:28:45,336 باردة. 498 00:28:45,336 --> 00:28:52,580 499 00:28:52,580 --> 00:28:54,530 حسنا. 500 00:28:54,530 --> 00:28:58,250 حتى الآن دعونا نقارن 3 ويساوي 3. 501 00:28:58,250 --> 00:29:01,860 لذلك ينبغي أن return-- yeah-- الدب القيمة. 502 00:29:01,860 --> 00:29:06,740 >> حتى الآن شيئا أكثر عمومية مثل ماذا عن هياكل البيانات الأخرى. 503 00:29:06,740 --> 00:29:09,110 بحيث يكون لديك هذه الوظيفة. 504 00:29:09,110 --> 00:29:15,360 هذا هو الذهاب إلى العمل على أي نوع من قيمة مثل 3 أو أي رقمية، 505 00:29:15,360 --> 00:29:17,500 وبعبارة أخرى، انقر نقرا. 506 00:29:17,500 --> 00:29:19,330 >> ولكن ماذا عن شيء من هذا القبيل متجه. 507 00:29:19,330 --> 00:29:27,750 فما يحدث إذا do-- لذلك أنا الذهاب لتعيين فال، ويقول، من 4 إلى 6. 508 00:29:27,750 --> 00:29:31,640 حتى إذا أعود هذا، هذا هو متجه من 4، 5، 6. 509 00:29:31,640 --> 00:29:34,935 >> الآن دعونا نرى ما سيحدث إذا كنت تفعل bounded.compare فال. 510 00:29:34,935 --> 00:29:37,680 511 00:29:37,680 --> 00:29:42,450 لذلك هذا هو ذاهب الى ان نعطيكم 15 1251. 512 00:29:42,450 --> 00:29:46,440 لذلك وبعبارة أخرى، فإنه ما يقول اذا نظرتم الى هذا الشرط 513 00:29:46,440 --> 00:29:50,040 لذلك يقول x هو أقل من أو شيء من هذا. 514 00:29:50,040 --> 00:29:51,880 لذلك هذا هو قليلا مربكا لأنه الآن 515 00:29:51,880 --> 00:29:53,379 انك لا تعرف ما يجري. 516 00:29:53,379 --> 00:29:58,690 لذا أعتقد الشيء الوحيد الذي حقا بالرضا عن مجرد محاولة لتصحيح أخطاء 517 00:29:58,690 --> 00:30:04,600 هو ما يمكنك القيام به فقط فال اكبر من ونرى ما يحدث هناك. 518 00:30:04,600 --> 00:30:09,720 >> حتى val-- لهو افتراضيا 5 حتى دعونا فقط لا فال أكبر من 5. 519 00:30:09,720 --> 00:30:14,280 لذلك هذا هو متجه FALSE كاذبة صحيح. 520 00:30:14,280 --> 00:30:17,206 وحتى الآن عندما كنت تبحث في هذا، وانه ذاهب الى القول إذا، 521 00:30:17,206 --> 00:30:20,080 ثم انه ذاهب الى ان نعطيكم هذا هو متجه كاذبة كاذبة TRUE. 522 00:30:20,080 --> 00:30:23,450 >> وذلك عند تمرير هذا إلى R، R لا يوجد لديه فكرة ما تفعلونه. 523 00:30:23,450 --> 00:30:26,650 لأنه كان يتوقع واحد القيمة، وهي منطقية، والآن 524 00:30:26,650 --> 00:30:29,420 كنت يعطيها متجه من القيم المنطقية. 525 00:30:29,420 --> 00:30:31,970 حتى افتراضيا، R هو مجرد سأقول ما هيك، 526 00:30:31,970 --> 00:30:35,440 أنا ذاهب لنفترض أنك ذاهب الى اتخاذ العنصر الأول هنا. 527 00:30:35,440 --> 00:30:38,320 لذلك أنا ذاهب إلى say-- سأشارك لنفترض أن هذا غير صحيح. 528 00:30:38,320 --> 00:30:40,890 حتى انها ستقول لا، هذا ليس صحيحا. 529 00:30:40,890 --> 00:30:45,246 >> وبالمثل، فإنه سيكون ل يكون فال يساوي يساوي أ. 530 00:30:45,246 --> 00:30:47,244 لا، آسف 5. 531 00:30:47,244 --> 00:30:48,910 وانها تسير كما أنها كاذبة أيضا. 532 00:30:48,910 --> 00:30:52,410 لذلك سيكون لأقول لا، هذا ليس صحيحا وكذلك لذلك فمن 533 00:30:52,410 --> 00:30:53,680 سوف تعود هذه آخر واحد. 534 00:30:53,680 --> 00:30:56,420 535 00:30:56,420 --> 00:31:01,360 >> لذلك هذا هو إما شيء جيد أو سيء الشيء، اعتمادا على كيفية مشاهدته. 536 00:31:01,360 --> 00:31:05,104 لأنه عندما كنت خلق هذه الوظائف، 537 00:31:05,104 --> 00:31:06,770 كنت لا تعرف فعلا ما يحدث. 538 00:31:06,770 --> 00:31:10,210 حتى في بعض الأحيان كنت تريد خطأ، أو ربما كنت ترغب فقط في تحذير. 539 00:31:10,210 --> 00:31:12,160 في هذه الحالة، R لا تفعل ذلك. 540 00:31:12,160 --> 00:31:14,300 لذلك هو حقا ما يصل الى لك استنادا الخروج من ما 541 00:31:14,300 --> 00:31:17,310 كنت تعتقد أن اللغة ينبغي أن تفعل في هذه الحالة 542 00:31:17,310 --> 00:31:22,920 إذا كنت تمر في متجه من القيم المنطقية عندما كنت تفعل واذا كان الشرط. 543 00:31:22,920 --> 00:31:31,733 >> لذلك دعونا نقول أنه كانت لديك الأصلي واحد مع آخر إذا العودة الحقيقية، وكنت 544 00:31:31,733 --> 00:31:34,190 سوف تعود FALSE. 545 00:31:34,190 --> 00:31:39,300 حتى طريقة واحدة من التلخيص هذا هو القول الأول 546 00:31:39,300 --> 00:31:41,530 لا تحتاج حتى هذا الشيء مشروط. 547 00:31:41,530 --> 00:31:47,220 شيء آخر يمكنني القيام به هو مجرد عودة القيم نفسها. 548 00:31:47,220 --> 00:31:53,240 لذلك إذا لاحظت، إذا كنت القيام فال أكبر من 5، 549 00:31:53,240 --> 00:31:56,350 هذا هو الذهاب لإرجاع ناقلات FALSE كاذبة صحيح. 550 00:31:56,350 --> 00:31:58,850 >> ربما هذا هو ما كنت نريد لbounded.compare. 551 00:31:58,850 --> 00:32:02,940 تريد العودة متجه من القيم المنطقية حيث يقارن كل من القيم 552 00:32:02,940 --> 00:32:04,190 لأنفسهم. 553 00:32:04,190 --> 00:32:11,165 بحيث يمكنك فقط لا bounded.compare وظيفة س، وهو يساوي 5. 554 00:32:11,165 --> 00:32:13,322 555 00:32:13,322 --> 00:32:15,363 ثم بدلا من القيام هذا إذا شرط آخر، 556 00:32:15,363 --> 00:32:21,430 أنا ذاهب لمجرد العودة x هو أكبر من 5. 557 00:32:21,430 --> 00:32:23,620 حتى إذا كان هذا صحيحا، ثم انها سوف تعود TRUE. 558 00:32:23,620 --> 00:32:26,830 ثم اذا كان لا، انها سوف تعود FALSE. 559 00:32:26,830 --> 00:32:30,880 >> وهذا سوف يعمل ل أي من هذه الهياكل. 560 00:32:30,880 --> 00:32:41,450 حتى أتمكن من bounded.compare ج 1 6 أو 9 ثم أنا ذاهب لأقول يساوي 6، 561 00:32:41,450 --> 00:32:42,799 مثلا. 562 00:32:42,799 --> 00:32:44,840 وبعد ذلك سيكون ل تعطيك منطقية الصحيح 563 00:32:44,840 --> 00:32:48,240 ناقلات أنك تصميم. 564 00:32:48,240 --> 00:32:50,660 >> حتى تلك هي وظائف والآن اسمحوا لي فقط 565 00:32:50,660 --> 00:32:54,980 تظهر لك بعض صور التفاعلية. 566 00:32:54,980 --> 00:32:59,700 لا أعتقد أنا فعلا واي فاي هنا لذلك اسمحوا لي فقط على المضي قدما 567 00:32:59,700 --> 00:33:01,970 وتخطي هذا واحد اعتقد. 568 00:33:01,970 --> 00:33:05,260 >> ولكن الشيء الوحيد الذي هو بارد على الرغم من أنه إذا كنت فقط 569 00:33:05,260 --> 00:33:09,600 نريد لاختبار مجموعة من أوامر بيانات مختلفة، 570 00:33:09,600 --> 00:33:13,320 هناك مجموعة من مجموعات البيانات المختلفة التي تم تحميلها مسبقا بالفعل إلى R. 571 00:33:13,320 --> 00:33:15,770 حتى واحد منهم هو دعا مجموعة البيانات القزحية. 572 00:33:15,770 --> 00:33:18,910 هذا هو واحد من أكثر معروفة جيدا تلك الموجودة في تعلم الآلة. 573 00:33:18,910 --> 00:33:23,350 عليك أن تفعل عادة مجرد نوع من حالات الاختبار لمعرفة ما إذا تشغيل التعليمات البرمجية الخاصة بك. 574 00:33:23,350 --> 00:33:27,520 لذلك دعونا فقط تحقق ما هو القزحية. 575 00:33:27,520 --> 00:33:33,130 >> لذلك هذا شيء يسير ليكون الإطار البيانات. 576 00:33:33,130 --> 00:33:36,000 وانها نوع من فترة طويلة بسبب أنا طبعت للتو القزحية. 577 00:33:36,000 --> 00:33:38,810 انها طبع الشيء بأكمله. 578 00:33:38,810 --> 00:33:42,830 لذلك لديه كل هذه أسماء مختلفة. 579 00:33:42,830 --> 00:33:45,505 حتى القزحية هي عبارة عن مجموعة الزهور مختلفة. 580 00:33:45,505 --> 00:33:48,830 في هذه الحالة، انها تقول لك نوعا من ذلك، 581 00:33:48,830 --> 00:33:54,760 كل هذه العروض المختلفة و أطوال سيبال والبتلة. 582 00:33:54,760 --> 00:33:58,880 >> وهكذا عادة، وإذا تريد طباعتها القزحية، 583 00:33:58,880 --> 00:34:03,680 على سبيل المثال، كنت لا تريد أن يكون ذلك تفعل كل هذا لأن هذا يمكن أن يستغرق أكثر 584 00:34:03,680 --> 00:34:05,190 وحدة التحكم الخاص بك كامل. 585 00:34:05,190 --> 00:34:09,280 ذلك الشيء الوحيد الذي حقا لطيفة هي وظيفة رئيس. 586 00:34:09,280 --> 00:34:12,929 حتى إذا كنت تفعل مجرد رئيس القزحية، وهذا سوف اعطيكم 587 00:34:12,929 --> 00:34:17,389 الصفوف الخمسة الأولى، أو ستة أعتقد. 588 00:34:17,389 --> 00:34:19,909 ثم جيدا، وكنت يمكن فقط تحديد هنا. 589 00:34:19,909 --> 00:34:22,914 حتى 20-- هذا سيعطي كنت الصفوف 20 الأولى. 590 00:34:22,914 --> 00:34:24,830 وأنا في الواقع كان من نوع من الدهشة أن هذا 591 00:34:24,830 --> 00:34:28,770 أعطاني ستة لذلك اسمحوا لي المضي قدما وتحقق iris-- أو الرأس، آسف. 592 00:34:28,770 --> 00:34:31,699 593 00:34:31,699 --> 00:34:34,960 وهنا أنها ستعطي لك الوثائق 594 00:34:34,960 --> 00:34:37,960 من ما يقوم به رئيس القيمة. 595 00:34:37,960 --> 00:34:40,839 لذلك ترجع أولا أو آخر كائن. 596 00:34:40,839 --> 00:34:42,630 ثم أنا ذاهب ل ننظر إلى الإعدادات الافتراضية. 597 00:34:42,630 --> 00:34:47,340 وبعد ذلك يقول الافتراضي طريقة رئيس x و ن يساوي 6L. 598 00:34:47,340 --> 00:34:50,620 لذلك هذا إرجاع العناصر الستة الأولى. 599 00:34:50,620 --> 00:34:55,050 وبالمثل إذا لاحظت هنا، وأنا لم يكن لديك لتحديد ن يساوي 6. 600 00:34:55,050 --> 00:34:56,840 افتراضيا أنه يستخدم ستة، وانا اعتقد. 601 00:34:56,840 --> 00:35:00,130 ومن ثم، إذا كنت ترغب في تحديد بعض قيمة، ثم أنا يمكن عرض ذلك أيضا. 602 00:35:00,130 --> 00:35:02,970 603 00:35:02,970 --> 00:35:10,592 >> لذلك هذا هو بعض الأوامر البسيطة و وهنا واحد آخر هذا just-- جيدا، 604 00:35:10,592 --> 00:35:12,550 I can-- هذا هو في الواقع وأكثر تعقيدا قليلا، 605 00:35:12,550 --> 00:35:17,130 ولكن هذا سوف يستغرق سوى الطبقة كل عمود من مجموعة البيانات القزحية. 606 00:35:17,130 --> 00:35:20,910 ولذلك فإن هذا سوف تظهر لك ما كل من هذه الأعمدة هي من حيث أنواعها. 607 00:35:20,910 --> 00:35:23,665 لذلك طول SEPAL رقمية، عرض سيبال هو رقمي. 608 00:35:23,665 --> 00:35:26,540 كل هذه القيم هي مجرد الرقمية لأنه يمكن أن أقول لكم من هذه البيانات 609 00:35:26,540 --> 00:35:29,440 هيكلة هذه هي جميع الذهاب إلى رقمية. 610 00:35:29,440 --> 00:35:34,310 >> والعمود الأنواع ستكون عاملا. 611 00:35:34,310 --> 00:35:37,270 لذلك عادة، وكنت أعتقد أن هذا هو مثل سلسلة أحرف. 612 00:35:37,270 --> 00:35:48,830 لكن إذا قمت بذلك فقط irisSpecies، وبعد ذلك أنا ذاهب للقيام رئيس 5، 613 00:35:48,830 --> 00:35:51,820 وهذا هو الذهاب الى طباعة من القيم الخمسة الأولى. 614 00:35:51,820 --> 00:35:54,150 >> ومن ثم لاحظ هذه المستويات. 615 00:35:54,150 --> 00:35:58,870 لذلك هذا هو saying-- هذا هو الطريق R ل وجود المتغيرات الفئوية. 616 00:35:58,870 --> 00:36:03,765 وذلك بدلا من مجرد وجود سلاسل الأحرف، 617 00:36:03,765 --> 00:36:06,740 لديها مستويات يحدد بالضبط أي من هذه الأمور. 618 00:36:06,740 --> 00:36:12,450 >> لذلك دعونا نقول irisSpecies 1. 619 00:36:12,450 --> 00:36:17,690 وذلك ما تريد القيام به هنا هو أنا subsetting لهذا العمود الأنواع. 620 00:36:17,690 --> 00:36:21,480 لذلك هذا يأخذ العمود الأنواع وثم 621 00:36:21,480 --> 00:36:23,820 يفهرس للحصول على العنصر الأول. 622 00:36:23,820 --> 00:36:27,140 لذلك هذا يجب أن يوفر لك setosa. 623 00:36:27,140 --> 00:36:28,710 وأيضا، فهو يوفر لك مستويات هنا. 624 00:36:28,710 --> 00:36:32,812 >> بحيث يمكنك أيضا مقارنة هذا إلى setosa شخصية 625 00:36:32,812 --> 00:36:34,645 وهذا لن ليكون ذلك صحيحا لأن أحد 626 00:36:34,645 --> 00:36:37,940 هو من نوع مختلف عن الآخر. 627 00:36:37,940 --> 00:36:40,590 أو أعتقد أنه صحيح لأن R هو أكثر ذكاء من ذلك. 628 00:36:40,590 --> 00:36:45,420 ويبدو في هذه ثم يقول، وربما هذا هو ما تريد. 629 00:36:45,420 --> 00:36:51,860 حتى انها ستقول الطابع سلسلة setosa هو نفس هذا واحد. 630 00:36:51,860 --> 00:37:01,290 ثم بالمثل، يمكنك أيضا مجرد انتزاع هذه مثل هلم جرا. 631 00:37:01,290 --> 00:37:05,580 >> لذلك هذا هو مجرد نوع من أوامر سريعة من مجموعة البيانات. 632 00:37:05,580 --> 00:37:08,030 وحتى هنا بعض استكشاف البيانات. 633 00:37:08,030 --> 00:37:11,360 لذلك هذا هو أكثر من ذلك بقليل تشارك مع تحليل البيانات. 634 00:37:11,360 --> 00:37:18,340 وهذا مأخوذ من بعض بووتكمب في R لفي بيركلي. 635 00:37:18,340 --> 00:37:20,790 >> مكتبة حتى أجنبي. 636 00:37:20,790 --> 00:37:24,880 لذلك أنا ذاهب لتحميل في مكتبة يسمى أجنبي. 637 00:37:24,880 --> 00:37:32,460 لذلك هذا هو الذهاب الى تعطيني read.dta لذلك نفترض أن لدي هذه البينات. 638 00:37:32,460 --> 00:37:39,000 يتم تخزين هذه في التيار الدليل من وحدة التحكم بلدي العمل. 639 00:37:39,000 --> 00:37:42,190 لذلك دعونا نرى ما دليل العمل هو. 640 00:37:42,190 --> 00:37:44,620 >> حتى هنا بلدي دليل العمل. 641 00:37:44,620 --> 00:37:50,040 وقراءة نقطة البيانات، وهذا الشيء، يقول هذا الملف 642 00:37:50,040 --> 00:37:54,650 يقع في مجلد بيانات هذا دليل العمل الحالي. 643 00:37:54,650 --> 00:38:00,520 وread.dta هذا ليس أمر افتراضي. 644 00:38:00,520 --> 00:38:02,760 اعتقد انني تحميله في بالفعل. 645 00:38:02,760 --> 00:38:04,750 يفترض IEI أنا حملت هذا في بالفعل. 646 00:38:04,750 --> 00:38:08,115 >> ولكن ذلك لن read.dta أن يكون الأمر الافتراضي. 647 00:38:08,115 --> 00:38:11,550 وهذا هو السبب في أنك ستكون لدينا لتحميل في هذه المكتبة package-- 648 00:38:11,550 --> 00:38:14,500 هذه الحزمة دعت الخارجية. 649 00:38:14,500 --> 00:38:16,690 وإذا لم يكن لديك حزمة، وأعتقد أن 650 00:38:16,690 --> 00:38:19,180 الخارجية هي واحدة من تلك المضمنة. 651 00:38:19,180 --> 00:38:31,150 خلاف ذلك، يمكنك أيضا القيام install.packages 652 00:38:31,150 --> 00:38:33,180 وهذا من شأنه تثبيت الحزمة. 653 00:38:33,180 --> 00:38:36,878 وهذا سوف تعطيك R. اه، لا. 654 00:38:36,878 --> 00:38:39,830 655 00:38:39,830 --> 00:38:43,140 وبعد ذلك أنا ذاهب لمجرد وقف هذا لأن لدي بالفعل. 656 00:38:43,140 --> 00:38:46,920 >> ولكن ما هو لطيف حول R غير أن إدارة الحزم 657 00:38:46,920 --> 00:38:48,510 النظام هو أنيق جدا. 658 00:38:48,510 --> 00:38:52,470 لأنه سيتم تخزين كل شيء لطيف حقا بالنسبة لك. 659 00:38:52,470 --> 00:38:59,780 حتى في هذه الحالة، انه سيكون لتخزين في ذلك، على ما أعتقد، هذه المكتبة هنا. 660 00:38:59,780 --> 00:39:02,390 >> لذلك في أي وقت تريد تثبيت حزم جديدة، 661 00:39:02,390 --> 00:39:04,980 انها مجرد بسيطة مثل القيام install.packages 662 00:39:04,980 --> 00:39:07,500 وسوف R إدارة جميع حزم لك. 663 00:39:07,500 --> 00:39:12,900 لذلك لم يكن لديك لتفعل شيئا في بيثون، حيث لديك حزمة الخارجية 664 00:39:12,900 --> 00:39:15,330 مدراء مثل ورقة اناكوندا حيث كنت 665 00:39:15,330 --> 00:39:18,310 doing-- تثبيت حزم خارج بيثون 666 00:39:18,310 --> 00:39:20,940 ثم حاولت تشغيلها نفسك. 667 00:39:20,940 --> 00:39:22,210 لذلك هذا هو حقا طريقة لطيفة. 668 00:39:22,210 --> 00:39:25,590 >> وinstall.packages يتطلب الإنترنت. 669 00:39:25,590 --> 00:39:31,950 فإنه يأخذ من الخادم والمستودع الذي 670 00:39:31,950 --> 00:39:33,960 يجمع كل ويسمى حزم كرا. 671 00:39:33,960 --> 00:39:40,690 ويمكنك تحديد أي نوع من مرآة تريد تحميل حزم من. 672 00:39:40,690 --> 00:39:43,420 >> حتى هنا أنا مع هذه البينات. 673 00:39:43,420 --> 00:39:46,240 أنا أقرأ في استخدام هذه الوظيفة. 674 00:39:46,240 --> 00:39:49,360 لذلك اسمحوا لي نمضي قدما ونفعل ذلك. 675 00:39:49,360 --> 00:39:52,900 >> لذلك دعونا نفترض أن لديك هذه البينات. 676 00:39:52,900 --> 00:39:55,550 وكان لديك على الاطلاق أي فكرة ما هو عليه. 677 00:39:55,550 --> 00:39:58,560 ويأتي هذا في الواقع ما يصل في كثير من الأحيان إلى حد ما في هذه الصناعة 678 00:39:58,560 --> 00:40:00,910 حيث لديك فقط هذه أطنان وأطنان من الأشياء فوضوي 679 00:40:00,910 --> 00:40:02,890 وانهم الخالي من الملصقات بشكل لا يصدق. 680 00:40:02,890 --> 00:40:06,380 حتى هنا لدي هذا مجموعة البيانات وأنا لا أعرف 681 00:40:06,380 --> 00:40:08,400 ما هو عليه لذلك أنا فقط تبين للتحقق من ذلك. 682 00:40:08,400 --> 00:40:10,620 >> لذلك أنا ذاهب الى القيام به أول رئيس. 683 00:40:10,620 --> 00:40:14,190 ولذا فإنني تحقق الستة الأولى أعمدة من ما هو هذه البينات. 684 00:40:14,190 --> 00:40:21,730 لذلك هذا هو الدولة، pres04، ومن ثم كل هذه نوع مختلف من الأعمدة. 685 00:40:21,730 --> 00:40:25,612 وما هو مثير للاهتمام هنا، أعتقد، هو أنك 686 00:40:25,612 --> 00:40:27,945 سوف نفترض أن هذا يبدو مثل نوعا من الانتخابات. 687 00:40:27,945 --> 00:40:30,482 688 00:40:30,482 --> 00:40:32,190 وأعتقد فقط من النظر في ملف 689 00:40:32,190 --> 00:40:41,070 اسم هذا هو نوع من جمع بيانات عن المرشحين أو الناخبين 690 00:40:41,070 --> 00:40:44,920 الذين صوتوا لرؤساء محدد أو المرشحين الرئيس 691 00:40:44,920 --> 00:40:46,550 لانتخابات عام 2004. 692 00:40:46,550 --> 00:40:52,920 >> حتى هنا هو القيم 1، 2 حتى طريقة واحدة للتخزين 693 00:40:52,920 --> 00:40:56,540 المرشحين الرئيس هي أسمائهم. 694 00:40:56,540 --> 00:40:59,780 في هذه الحالة، يبدو انهم القيم فقط صحيحة. 695 00:40:59,780 --> 00:41:04,030 حتى عام 2004، كان بوش مقابل كيري على ما أعتقد. 696 00:41:04,030 --> 00:41:09,010 والآن، دعونا نقول لكم لا أعرف سواء 1 يتوافق مع بوش أو 2 697 00:41:09,010 --> 00:41:11,703 يتوافق مع كيري أو و هلم جرا وهكذا دواليك، أليس كذلك؟ 698 00:41:11,703 --> 00:41:15,860 >> وهذا هو، تماما بالنسبة لي، مشكلة شائعة إلى حد ما. 699 00:41:15,860 --> 00:41:18,230 ذلك ما يمكن أن تفعله في هذه الحالة؟ 700 00:41:18,230 --> 00:41:20,000 لذلك دعونا تحقق من كل هذه الأشياء الأخرى. 701 00:41:20,000 --> 00:41:22,790 >> الدولة، أفترض هذا يأتي من ولايات مختلفة. 702 00:41:22,790 --> 00:41:25,100 partyid والدخل. 703 00:41:25,100 --> 00:41:27,710 دعونا ننظر في partyid. 704 00:41:27,710 --> 00:41:32,800 ولذلك ربما يكون شيء واحد يمكنك القيام به هو ننظر في كل من الملاحظات 705 00:41:32,800 --> 00:41:36,250 التي لديها partyid الجمهوري أو الديمقراطي أو شيء من هذا. 706 00:41:36,250 --> 00:41:38,170 لذلك دعونا ننظر فقط في ما هو partyid. 707 00:41:38,170 --> 00:41:41,946 >> لذلك أنا ذاهب الى اتخاذ دات ثم سأشارك 708 00:41:41,946 --> 00:41:47,960 للقيام بذلك علامة الدولار المشغل أن فعلت سابقا 709 00:41:47,960 --> 00:41:50,770 وهذا هو الذهاب الى فرعية لهذا العمود. 710 00:41:50,770 --> 00:41:57,760 وبعد ذلك أنا ذاهب لرئاسة هذا في 20، لمجرد أن نرى ما يبدو هذا مثل. 711 00:41:57,760 --> 00:42:00,170 >> لذلك هذا هو مجرد حفنة من ناس. 712 00:42:00,170 --> 00:42:02,800 لذلك وبعبارة أخرى، لديك البيانات الناقصة عن هؤلاء الرجال. 713 00:42:02,800 --> 00:42:08,100 ولكن يمكنك أيضا تلاحظ هذا دات partyid هو عامل 714 00:42:08,100 --> 00:42:10,030 لذلك هذا يمنحك فئات مختلفة. 715 00:42:10,030 --> 00:42:14,170 لذلك وبعبارة أخرى، يمكن أن يستغرق partyid الديمقراطي، الجمهوري، المستقل، 716 00:42:14,170 --> 00:42:16,640 أو أي شيء آخر. 717 00:42:16,640 --> 00:42:23,940 >> لذلك دعونا المضي قدما ودعونا معرفة أي من هذه is-- أوه، OK. 718 00:42:23,940 --> 00:42:28,480 لذلك أنا ذاهب الي المجموعة الثانوية لpartyid ثم 719 00:42:28,480 --> 00:42:32,780 ننظر إلى تلك التي هي الديمقراطي، على سبيل المثال. 720 00:42:32,780 --> 00:42:37,150 هذا هو ذاهب الى ان نعطيكم قيمة منطقية، قيمة منطقية ضخمة من القيم TRUE و FALSE. 721 00:42:37,150 --> 00:42:41,630 >> والآن، دعنا نقول أريد الي المجموعة الثانوية لهؤلاء الرجال. 722 00:42:41,630 --> 00:42:47,260 لذلك هذا هو ذاهب الى اتخاذ بلدي دات و فرعية لأيهما الملاحظات 723 00:42:47,260 --> 00:42:48,910 لدينا متساوين partyid يساوي الديمقراطي. 724 00:42:48,910 --> 00:42:52,830 725 00:42:52,830 --> 00:42:55,180 وهذا هو طويل جدا ل هناك الكثير منهم. 726 00:42:55,180 --> 00:42:59,060 وحتى الآن، وانا ذاهب لرئاسة هذا في 20. 727 00:42:59,060 --> 00:43:05,690 728 00:43:05,690 --> 00:43:11,270 >> وكما لاحظت، يساوي متساوين من المثير للاهتمام في أنك 729 00:43:11,270 --> 00:43:13,250 already-- كنت أيضا بما في ذلك ناس. 730 00:43:13,250 --> 00:43:19,010 حتى في هذه الحالة، كنت لا تزال لا يمكن الحصول على أي معلومات لأن الآن لديك الوافدين الجدد 731 00:43:19,010 --> 00:43:22,650 وكنت ترغب فقط لمعرفة أي من الملاحظة تتوافق مع الديمقراطي 732 00:43:22,650 --> 00:43:24,670 وليس هذه القيم المفقودة أنفسهم. 733 00:43:24,670 --> 00:43:27,680 فكيف سيكون لك التخلص من هذه الوافدين الجدد؟ 734 00:43:27,680 --> 00:43:36,410 >> حتى هنا أنا فقط باستخدام مفتاح على بلدي بالضغط وثم قوله يتحرك. 735 00:43:36,410 --> 00:43:39,778 ثم هنا انا فقط القول is.na datpartyid. 736 00:43:39,778 --> 00:43:48,970 737 00:43:48,970 --> 00:43:52,720 لذلك هذا و، وسوف تتخذ متجهين منطقية مختلفة 738 00:43:52,720 --> 00:43:57,160 ويقولون انه سيكون من TRUE و FALSE على سبيل المثال. 739 00:43:57,160 --> 00:43:59,190 حتى انها تنوي القيام به هذا المكون من الحكمة. 740 00:43:59,190 --> 00:44:02,910 حتى هنا أنا أقول اتخاذ إطار البيانات، فرعية 741 00:44:02,910 --> 00:44:10,170 لتلك التي تتوافق مع الديمقراطيين، وإزالة أي منها التي لا NA. 742 00:44:10,170 --> 00:44:13,540 >> لذلك ينبغي هذا will-- تعطيك شيئا. 743 00:44:13,540 --> 00:44:16,540 744 00:44:16,540 --> 00:44:17,600 دعونا نرى is.na. 745 00:44:17,600 --> 00:44:24,670 746 00:44:24,670 --> 00:44:27,690 دعونا نحاول datpartyid is.na. 747 00:44:27,690 --> 00:44:36,290 748 00:44:36,290 --> 00:44:45,290 وهذا يجب أن تعطي you-- sorry-- مجرد ناقل منطقي. 749 00:44:45,290 --> 00:44:49,260 وبعد ذلك، لأنه طويل جدا، انا ذاهب الي المجموعة الثانوية إلى 20. 750 00:44:49,260 --> 00:44:49,760 موافق. 751 00:44:49,760 --> 00:44:51,570 لذلك هذا يجب أن تعمل. 752 00:44:51,570 --> 00:44:54,700 >> وهذا واحد سوف يكون أيضا القيم TRUE. 753 00:44:54,700 --> 00:45:01,830 آه، لذلك الخطأ وجودي هنا هو أن I'm-- I استخدام C ++ وR بالتبادل حتى أجعل 754 00:45:01,830 --> 00:45:03,590 هذا الخطأ في كل وقت. 755 00:45:03,590 --> 00:45:05,807 لوالمشغل في الواقع واحدة تريد. 756 00:45:05,807 --> 00:45:08,140 كنت لا تريد استخدام اثنين الوات، مجرد واحد. 757 00:45:08,140 --> 00:45:14,970 758 00:45:14,970 --> 00:45:17,010 موافق. 759 00:45:17,010 --> 00:45:18,140 >> لذلك دعونا نرى. 760 00:45:18,140 --> 00:45:20,930 761 00:45:20,930 --> 00:45:23,920 لذلك نحن subsetted ل partyid حيث انهم الديمقراطي 762 00:45:23,920 --> 00:45:25,300 وانهم لا القيم المفقودة. 763 00:45:25,300 --> 00:45:27,690 والآن دعونا ننظر في تلك التي انهم صوتوا لصالح. 764 00:45:27,690 --> 00:45:31,530 لذلك يبدو وكأنه أكثر منهم صوتوا ل1. 765 00:45:31,530 --> 00:45:36,090 لذلك أنا ذاهب إلى المضي قدما ويقول هذا هو كيري. 766 00:45:36,090 --> 00:45:39,507 >> وبالمثل، يمكنك يذهب أيضا إلى الجمهوري 767 00:45:39,507 --> 00:45:41,090 ونأمل، وهذا يجب أن تعطيك 2. 768 00:45:41,090 --> 00:45:49,730 769 00:45:49,730 --> 00:45:51,770 انها مجرد حفنة من أعمدة مختلفة. 770 00:45:51,770 --> 00:45:53,070 والواقع، انها 2. 771 00:45:53,070 --> 00:45:55,750 حتى partyid كل الجمهوري، معظمهم من التصويت لمدة 2. 772 00:45:55,750 --> 00:45:58,390 >> لذلك يبدو وكأنه، فقط من خلال النظر في هذا، 773 00:45:58,390 --> 00:46:00,600 الجمهوري سيكون وvery-- أو partyid 774 00:46:00,600 --> 00:46:02,790 وستكون جدا عامل كبير في تحديد 775 00:46:02,790 --> 00:46:05,420 أي من المرشحين انهم الذهاب الى التصويت لصالح. 776 00:46:05,420 --> 00:46:07,120 وهذا صحيح من الواضح بشكل عام. 777 00:46:07,120 --> 00:46:10,139 وهذا يطابق الخاص بك الحدس، بطبيعة الحال. 778 00:46:10,139 --> 00:46:11,930 لذلك يبدو وكأنني نفاد الوقت حتى 779 00:46:11,930 --> 00:46:17,040 اسمحوا لي فقط يجب المضي قدما وتظهر بعض الصور السريعة. 780 00:46:17,040 --> 00:46:21,120 وحتى هنا شيء أن يكون قليلا أكثر تعقيدا مع التصور. 781 00:46:21,120 --> 00:46:26,450 حتى في هذه الحالة، وهذا هو غاية تحليل بسيط للتحقق فقط ما 782 00:46:26,450 --> 00:46:28,500 رئيس '04 هو. 783 00:46:28,500 --> 00:46:33,920 >> حتى في هذه الحالة، دعونا نقول لكم أراد أن الإجابة على هذا السؤال. 784 00:46:33,920 --> 00:46:38,540 لذلك لنفترض أننا نريد أن نعرف التصويت السلوك في انتخابات رئيس عن عام 2004 785 00:46:38,540 --> 00:46:41,170 وكيف أن يختلف حسب الجنس. 786 00:46:41,170 --> 00:46:44,380 وذلك ليس فقط لا تريد رؤية السلوك الانتخابي، 787 00:46:44,380 --> 00:46:47,860 ولكن تريد فرعية من كل العرق ونوع من تلخيص ذلك. 788 00:46:47,860 --> 00:46:50,770 ويمكن أن أقول لكم فقط بواسطة هذه الرموز المعقدة 789 00:46:50,770 --> 00:46:52,580 أن هذا النوع من الحصول على ضبابي. 790 00:46:52,580 --> 00:46:56,390 >> حتى واحد من أكثر تقدما R حزم هذا أيضا نوع من الأخيرة 791 00:46:56,390 --> 00:47:00,070 ويسمى dplyr. 792 00:47:00,070 --> 00:47:03,060 لذلك هو هذا الحق واحد هنا. 793 00:47:03,060 --> 00:47:08,080 وggplot2 ggg-- هو مجرد طيف طريقة للقيام تصورات أفضل 794 00:47:08,080 --> 00:47:09,400 من واحد مدمج. 795 00:47:09,400 --> 00:47:11,108 >> لذلك أنا ذاهب لتحميل هذه المكتبات اثنين. 796 00:47:11,108 --> 00:47:13,200 797 00:47:13,200 --> 00:47:16,950 وبعد ذلك، انا ذاهب للذهاب قدما وتشغيل هذا الأمر. 798 00:47:16,950 --> 00:47:19,050 يمكنك فقط علاج هذه على شكل مربع أسود. 799 00:47:19,050 --> 00:47:23,460 >> ما يحدث هو أن هذه الأنابيب مشغل يمر في هذه الحجة 800 00:47:23,460 --> 00:47:24,110 إلى هنا. 801 00:47:24,110 --> 00:47:28,070 لذلك أنا مجموعة قائلا كتبها دات السباق ومن ثم الرئيس 04. 802 00:47:28,070 --> 00:47:31,530 وبعد ذلك، كل هذه الأوامر الأخرى يتم تصفية ثم يلخص 803 00:47:31,530 --> 00:47:34,081 حيث أفعله العد و ثم أنا بالتآمر هنا. 804 00:47:34,081 --> 00:47:39,980 805 00:47:39,980 --> 00:47:42,500 OK بارد. 806 00:47:42,500 --> 00:47:44,620 لذلك دعونا المضي قدما و ترى ما يبدو هذا مثل. 807 00:47:44,620 --> 00:47:52,280 808 00:47:52,280 --> 00:47:57,290 >> وذلك ما يحدث هنا هو أنني فقط تآمر كل من الأجناس وثم 809 00:47:57,290 --> 00:47:59,670 تلك التي انهم صوتوا لصالح. 810 00:47:59,670 --> 00:48:03,492 وهذه مختلفين قيم تتوافق مع 2 و 1. 811 00:48:03,492 --> 00:48:05,325 إذا كنت تريد أن تكون أكثر أنيقة، يمكنك أيضا 812 00:48:05,325 --> 00:48:11,770 مجرد تحديد أن 2 هو Kerry-- أو 2 هو بوش، ثم 1 غير كيري. 813 00:48:11,770 --> 00:48:13,700 ويمكن أن يكون لديك أيضا أنه في أسطورة الخاص بك. 814 00:48:13,700 --> 00:48:17,410 >> ويمكنك أيضا تقسيم هذه الرسوم البيانية. 815 00:48:17,410 --> 00:48:19,480 بسبب شيء واحد هو التي، إذا لاحظت، 816 00:48:19,480 --> 00:48:24,560 هذا ليس من السهل للغاية لتحديد أي من هذه القيم هما أكبر. 817 00:48:24,560 --> 00:48:27,920 ذلك شيء واحد كنت تريد القيام به هو اتخاذ هذه المنطقة الزرقاء 818 00:48:27,920 --> 00:48:31,855 ومجرد تحريكه أكثر من هنا حتى تتمكن ويمكن مقارنة هذه الجانبيين إلى جنب. 819 00:48:31,855 --> 00:48:34,480 وانا اعتقد ان هذا شيء أنا لم يكن لديك الوقت للقيام في الوقت الراهن، 820 00:48:34,480 --> 00:48:36,660 ولكن هذا أيضا من السهل جدا القيام به. 821 00:48:36,660 --> 00:48:40,310 يمكنك أن تبحث فقط في الصفحات رجل ggplot. 822 00:48:40,310 --> 00:48:47,170 بحيث يمكنك فقط لا ggplot مثل أن وقراءة في هذه الصفحة رجل. 823 00:48:47,170 --> 00:48:51,920 >> لذلك اسمحوا لي بسرعة فقط تظهر لك بعض الأشياء باردة. 824 00:48:51,920 --> 00:48:57,610 دعونا نمضي قدما ويذهب علي: وفقط تطبيق تعلم الآلة. 825 00:48:57,610 --> 00:49:02,450 لذلك دعونا نقول لدينا هؤلاء الثلاثة حزم لذلك أنا ذاهب لتحميل هذه في. 826 00:49:02,450 --> 00:49:05,500 827 00:49:05,500 --> 00:49:09,170 لذلك هذا يطبع للتو بعض المعلومات بعد أن تم تحميله في شيء. 828 00:49:09,170 --> 00:49:15,220 لذلك أنا أقول ذلك read.csv، هذه البينات، والآن 829 00:49:15,220 --> 00:49:18,940 انا ذاهب الى المضي قدما والبحث و ترى ما هو داخل هذه البينات. 830 00:49:18,940 --> 00:49:22,080 >> ولذلك فإن الملاحظات 20 الأولى. 831 00:49:22,080 --> 00:49:27,190 لذلك أنا فقط X1، X2، وY. لذلك يبدو مثل حفنة من هذه القيم 832 00:49:27,190 --> 00:49:31,640 وبدءا من ربما 20-80 أو نحو ذلك. 833 00:49:31,640 --> 00:49:37,700 ثم بالمثل لX2 ثم يبدو هذا Y ليكون علامة مميزة 0 و 1. 834 00:49:37,700 --> 00:49:49,500 >> للتحقق من ذلك، يمكنني مجرد القيام X1 بيانات التلخيص. 835 00:49:49,500 --> 00:49:51,660 ثم بالمثل ل كل هذه الأعمدة الأخرى. 836 00:49:51,660 --> 00:49:55,300 ذلك ملخص هو طريقة سريعة ل فقط يظهر لك القيم سريعة. 837 00:49:55,300 --> 00:49:56,330 أوه، آسف. 838 00:49:56,330 --> 00:49:58,440 وينبغي أن يكون هذا واحد Y. 839 00:49:58,440 --> 00:50:03,420 >> حتى في هذه الحالة، ويعطي quantiles، الوساطات، maxes كذلك. 840 00:50:03,420 --> 00:50:07,130 في هذه الحالة، dataY، يمكنك ان ترى أنه مجرد سيكون 0 و 1. 841 00:50:07,130 --> 00:50:10,100 كما يعني يقول 0.6، يعني فقط أنه 842 00:50:10,100 --> 00:50:13,380 يبدو أن لدي المزيد من 1S من 0S. 843 00:50:13,380 --> 00:50:16,160 >> لذلك اسمحوا لي المضي قدما وعرض لك ما يبدو هذا مثل. 844 00:50:16,160 --> 00:50:17,470 لذلك أنا ذاهب لمجرد رسم هذا. 845 00:50:17,470 --> 00:50:22,852 846 00:50:22,852 --> 00:50:24,636 دعونا نرى كيفية مسح هذا. 847 00:50:24,636 --> 00:50:30,492 848 00:50:30,492 --> 00:50:31,468 يا OK. 849 00:50:31,468 --> 00:50:35,840 850 00:50:35,840 --> 00:50:36,340 موافق. 851 00:50:36,340 --> 00:50:37,590 >> لذلك هذا هو ما يبدو. 852 00:50:37,590 --> 00:50:46,310 لذلك يبدو مثل الأصفر I محدد ك 0، ثم الأحمر I على النحو المحدد 1S. 853 00:50:46,310 --> 00:50:52,190 حتى هنا يبدو نقطة التسمية وذلك 854 00:50:52,190 --> 00:50:56,410 يبدو انك تريد فقط بعض نوع من التجميع على هذا. 855 00:50:56,410 --> 00:51:01,020 >> واسمحوا لي فقط على المضي قدما وعرض لكم بعض من هذه الوظائف المضمنة. 856 00:51:01,020 --> 00:51:03,580 حتى هنا هو ل م. 857 00:51:03,580 --> 00:51:06,060 لذلك هذا هو مجرد محاولة لتتناسب مع خط لهذا. 858 00:51:06,060 --> 00:51:08,640 إذن ما هو أفضل وسيلة أستطيع أن تناسب خط مثل 859 00:51:08,640 --> 00:51:14,020 أنه سيفصل أفضل هذا النوع من المجموعات. 860 00:51:14,020 --> 00:51:21,790 وبشكل مثالي، يمكنك ان ترى فقط أنني مجرد تشغيل جميع هذه الأوامر 861 00:51:21,790 --> 00:51:25,450 وبعد ذلك، انا ذاهب إلى الأمام وإضافة سطر. 862 00:51:25,450 --> 00:51:28,970 >> ولذلك فإن هذا يبدو وكأنه أفضل تخمين. 863 00:51:28,970 --> 00:51:34,150 انها تأخذ أفضل واحد أن يقلل الخطأ في محاولة لاحتواء هذا الخط. 864 00:51:34,150 --> 00:51:40,000 من الواضح، وهذا يبدو نوع من جيدة، ولكنها ليست الأفضل. 865 00:51:40,000 --> 00:51:43,130 والنماذج الخطية، في عموما، سوف تكون 866 00:51:43,130 --> 00:51:46,811 عظيم حقا للنظرية ومجرد نوع بناء أساسيات الجهاز 867 00:51:46,811 --> 00:51:47,310 تعلم. 868 00:51:47,310 --> 00:51:50,330 ولكن في الممارسة العملية، وأنت تسير ل تريد أن تفعل شيئا أكثر عمومية. 869 00:51:50,330 --> 00:51:54,280 >> حتى تتمكن من مجرد محاولة تشغيل شيء يسمى الشبكة العصبية. 870 00:51:54,280 --> 00:51:57,110 هذه الأمور هي على نحو متزايد أكثر شيوعا. 871 00:51:57,110 --> 00:52:00,530 وأنها مجرد عمل خيالي لمجموعات البيانات الكبيرة. 872 00:52:00,530 --> 00:52:07,080 حتى في هذه الحالة، فإننا have-- فقط دعونا see-- لدينا nrow. 873 00:52:07,080 --> 00:52:09,010 حتى nrow هو مجرد يقول عدد من الصفوف. 874 00:52:09,010 --> 00:52:11,790 حتى في هذه الحالة، وأنا لدينا 100 الملاحظات. 875 00:52:11,790 --> 00:52:15,010 >> لذلك اسمحوا لي المضي قدما و جعل الشبكة العصبية. 876 00:52:15,010 --> 00:52:18,620 لذلك هذا هو لطيف لأنني لا أستطيع أن أقول nnet 877 00:52:18,620 --> 00:52:21,767 ثم أنا تتراجع Y. لذلك Y هو أن العمود. 878 00:52:21,767 --> 00:52:23,850 ومن ثم تتراجع على الأخريين المتغيرات. 879 00:52:23,850 --> 00:52:27,360 لذلك هذا هو أقصر تدوين لX1 و X2. 880 00:52:27,360 --> 00:52:29,741 >> لذلك دعونا المضي قدما وتشغيل هذا. 881 00:52:29,741 --> 00:52:30,240 أوه، آسف. 882 00:52:30,240 --> 00:52:32,260 ولست بحاجة لتشغيل هذا كل شيء. 883 00:52:32,260 --> 00:52:37,500 وهذا هو مجرد طباعة التدوين لكيفية بسرعة أم لا سرعان ما 884 00:52:37,500 --> 00:52:38,460 المتقاربة. 885 00:52:38,460 --> 00:52:41,420 لذلك يبدو أنه لم تتلاقى. 886 00:52:41,420 --> 00:52:44,970 لذلك اسمحوا لي المضي قدما والطباعة ما يبدو هذا مثل. 887 00:52:44,970 --> 00:52:51,260 >> نرى هنا صورة وهنا كفاف تظهر مدى تناسبها. 888 00:52:51,260 --> 00:52:56,380 وهذا هو just-- ترون ذلك أن هذا هو جدا، لطيفة جدا. 889 00:52:56,380 --> 00:52:59,400 ويمكن أن يكون حتى overfitting، ولكن يمكنك أيضا 890 00:52:59,400 --> 00:53:03,390 تمثل هذه مع الآخر تقنيات مثل عبر التحقق من الصحة. 891 00:53:03,390 --> 00:53:06,180 ويتم بناؤها هذه أيضا إلى R. 892 00:53:06,180 --> 00:53:09,170 >> واسمحوا لي أن تظهر لك فقط دعم آلة ناقلات الأمراض. 893 00:53:09,170 --> 00:53:12,470 هذا هو آخر شائع حقا التقنية في تعلم الآلة. 894 00:53:12,470 --> 00:53:18,550 وهو مشابه جدا لالنماذج الخطية، ولكن ويستخدم ما يسمى طريقة النواة. 895 00:53:18,550 --> 00:53:22,790 ودعونا نرى جيدا كيف أن يفعل. 896 00:53:22,790 --> 00:53:26,430 لذلك هذا هو واحد تشبه الى حد بعيد كيف كذلك يؤدي شبكة العصبية، 897 00:53:26,430 --> 00:53:27,900 ولكن من سلاسة أكثر من ذلك بكثير. 898 00:53:27,900 --> 00:53:35,740 ويستند هذا الخروج من what-- كيف العمل SVMs. 899 00:53:35,740 --> 00:53:40,250 >> لذلك هذا هو مجرد جدا نظرة سريعة على بعض 900 00:53:40,250 --> 00:53:43,822 وظائف المدمج في يمكنك القيام به وأيضا بعض من استكشاف البيانات. 901 00:53:43,822 --> 00:53:45,905 لذلك اسمحوا لي فقط على المضي قدما ونعود إلى الشرائح. 902 00:53:45,905 --> 00:53:50,290 903 00:53:50,290 --> 00:53:53,670 >> لذلك من الواضح، وهذا هو ليس شاملا جدا. 904 00:53:53,670 --> 00:53:57,140 وهذا هو في الحقيقة مجرد دعابة يظهر لك ما يمكنك القيام به حقا في R. 905 00:53:57,140 --> 00:53:59,100 حتى إذا كنت مثل لمعرفة المزيد، هنا 906 00:53:59,100 --> 00:54:01,210 هي مجموعة من موارد مختلفة. 907 00:54:01,210 --> 00:54:06,890 >> لذلك إذا كنت مولعا الكتب المدرسية أو كنت فقط مولعا بقراءة الأشياء عبر الإنترنت، 908 00:54:06,890 --> 00:54:09,670 ثم وهذا هو رائع واحدا تلو هادلي ويكهام، 909 00:54:09,670 --> 00:54:13,010 الذي خلق كل هذه أيضا حزم باردة حقا. 910 00:54:13,010 --> 00:54:17,420 إذا كنت مولعا من أشرطة الفيديو، ثم بيركلي لديه بووتكمب رهيبة 911 00:54:17,420 --> 00:54:21,060 هذا several-- هذا النوع من فترة طويلة. 912 00:54:21,060 --> 00:54:24,210 وسوف يعلمك تقريبا كل ما تريد معرفته عن R. 913 00:54:24,210 --> 00:54:27,770 >> وبالمثل، هناك Codeacademy وجميع هذه نوع آخر 914 00:54:27,770 --> 00:54:29,414 مواقع تفاعلية. 915 00:54:29,414 --> 00:54:31,580 انهم يحصلون أيضا common-- أكثر وأكثر شيوعا. 916 00:54:31,580 --> 00:54:33,749 لذلك هذا هو مشابه جدا لCodeacademy. 917 00:54:33,749 --> 00:54:35,790 وأخيرا، إذا كنت فقط أريد المجتمع ومساعدة، 918 00:54:35,790 --> 00:54:38,800 هذه هي مجموعة من الأشياء التي يمكن أن تذهب إليه. 919 00:54:38,800 --> 00:54:40,880 من الواضح، أننا لا نزال استخدام القوائم البريدية، فقط 920 00:54:40,880 --> 00:54:44,860 مثل كل جانب تقريبا من الآخر المجتمع لغة البرمجة. 921 00:54:44,860 --> 00:54:47,880 و#rstats، وهذا هو مجتمعنا تويتر. 922 00:54:47,880 --> 00:54:49,580 وهذا في الواقع أمر شائع جدا. 923 00:54:49,580 --> 00:54:50,850 ومن ثم العضو! 924 00:54:50,850 --> 00:54:52,340 هو فقط لدينا مؤتمر. 925 00:54:52,340 --> 00:54:55,390 >> وبعد ذلك، بالطبع، يمكنك استخدام كل هذه Q & A أمور أخرى، 926 00:54:55,390 --> 00:54:57,680 مثل تجاوز المكدس، جوجل، ثم جيثب. 927 00:54:57,680 --> 00:55:00,490 لأن معظم هذه الحزم والكثير من المجتمع 928 00:55:00,490 --> 00:55:03,420 سيتم تتمحور حول تطوير كود لأنه مفتوح المصدر. 929 00:55:03,420 --> 00:55:05,856 وانها مجرد طيف على جيثب. 930 00:55:05,856 --> 00:55:08,730 وأخيرا، يمكنك الاتصال بي إذا لديك فقط أي أسئلة سريعة. 931 00:55:08,730 --> 00:55:13,530 لذلك يمكنك أن تجد لي على تويتر هنا، موقع الويب الخاص بي، ومجرد بريدي الإلكتروني. 932 00:55:13,530 --> 00:55:17,840 لذلك نأمل، وكان ذلك something-- مجرد دعابة قصيرة 933 00:55:17,840 --> 00:55:20,900 ما R قادر حقا على القيام. 934 00:55:20,900 --> 00:55:23,990 ونأمل، أنت فقط تحقق من هذه الروابط الثلاث 935 00:55:23,990 --> 00:55:25,760 ونرى ما يمكنك القيام به أكثر من ذلك. 936 00:55:25,760 --> 00:55:28,130 وانا اعتقد ان هذا مجرد حيال ذلك. 937 00:55:28,130 --> 00:55:28,630 شكر. 938 00:55:28,630 --> 00:55:30,780 >> [تصفيق] 939 00:55:30,780 --> 00:55:31,968