[پخش موسیقی] داستین ترنسپاندر: سلام. داستین نام من است. پس من ارائه تجزیه و تحلیل داده در R. فقط کمی در مورد خودم. من در حال حاضر دانشجوی کارشناسی ارشد در هستم علوم مهندسی و کاربردی. من مطالعه تقاطع یادگیری ماشین و آمار بنابراین تجزیه و تحلیل داده ها در R است واقعا اساسی به آنچه من به صورت روزانه انجام دهد. و R به ویژه خوب برای تجزیه و تحلیل داده ها زیرا این بسیار خوبی برای نمونه سازی. و معمولا، هنگامی که شما در حال انجام برخی از مرتب کردن بر اساس از تجزیه و تحلیل داده ها، بسیاری از مشکلات در حال رفتن به شناختی. و بنابراین شما فقط می خواهم به برخی از زبان واقعا خوب است که فقط برای انجام خوب ساخته شده در توابع، به عنوان مخالف به داشتن برای مقابله با چیزهایی سطح پایین. بنابراین در آغاز، من فقط رفتن به معرفی آنچه R است، چرا شما می خواهید به استفاده از آن، و پس از آن بیش از رفتن به برخی از نسخه ی نمایشی، و فقط در از وجود دارد بروید. پس چه R است؟ R فقط یک زبان توسعه یافته برای محاسبات آماری و تجسم. بنابراین این بدان معنی است که آن یک زبان بسیار عالی است برای هر نوع از چیزی که با معاملات عدم قطعیت و یا تجسم داده. بنابراین شما باید تمام این توزیع های احتمال. در حال رفتن وجود دارد به ساخته شده در توابع. شما همچنین می خواهید عالی داشته توطئه بسته. پایتون یکی دیگر از رقابت زبان برای داده ها. و یک چیز که پیدا کنم که R خیلی بهتر است در تجسم است. پس چه شما در نسخه ی نمایشی به عنوان ببینید همچنین فقط یک زبان بسیار شهودی است که فقط کار می کند بسیار خوب. این نیز رایگان و منبع باز است، به عنوان هر زبان دیگر خوب من حدس می زنم. و در اینجا، یک دسته از فقط کلمات کلیدی در شما پرتاب می شود. این پویا، به این معنی که اگر شما یک نوع خاصی اختصاص یافته به یک شی از آن فقط آن را در پرواز را تغییر دهید. این تنبل پس از آن هوشمند مورد چگونه آن را ندارد محاسبات. عملکرد معنی آن واقعا می تواند کار کردن از توابع تا anything-- هر نوع دستکاری شما انجام می دهند، از آن خواهد شد بر مبنای توابع. اپراتورهای بنابراین باینری، به عنوان مثال، توابع فقط ذاتا هستند. و هر آنچه را که شما در حال رفتن به انجام است رفتن به اجرا کردن توابع خود را. و پس از آن شیء گرا نیز هست. بنابراین در اینجا طرح XKCD است. نه تنها به خاطر من مثل احساس XKCD اساسی برای هر نوع است ارائه، اما به دلیل من این احساس واقعا چکش نقطه که بسیاری از زمانی که شما در حال انجام نوعی از داده تجزیه و تحلیل، مشکل این است که نمی خیلی با چه سرعتی آن اجرا می شود، اما چه مدت آن را به شما را به برنامه کار. بنابراین در اینجا تنها تجزیه و تحلیل اینکه آیا استراتژی A یا B کارآمد تر است. این است برای رفتن به چیزی است که شما هستید رفتن به مقابله زیادی با در مرتب کردن بر اساس زبان سطح پایین که در آن شما با خرید و فروش گسل SEG، تخصیص حافظه، initializations، حتی ساخت توابع ساخته شده در. و این مسائل است که همه به کار گرفته بسیار بسیار زیبایی در R. پس فقط به چکش این نقطه، بزرگترین تنگنا در حال رفتن به شناختی. بنابراین تجزیه و تحلیل داده ها یک مشکل بسیار سخت است. این که آیا شما در حال انجام یادگیری ماشین یا شما انجام این کار نوعی از اکتشاف داده های اولیه، شما نمی خواهید به را به یک سند و سپس کامپایل چیزی در هر زمان شما می خواهید برای دیدن آنچه که یک ستون به نظر می رسد مانند، چه مطالب خاص در یک ماتریس به نظر می رسد مانند. بنابراین شما فقط می خواهم به برخی از رابط واقعا خوب شما می توانید یک تابع ساده اجرا که شاخص به هر شما می خواهم و فقط آن را از وجود دارد را اجرا کنید. و شما نیاز دامنه زبان خاص برای این. و R واقعا کمک خواهد کرد تعریف شما مشکل و حل آن به این شیوه. بنابراین در اینجا برنامه نویسی نشان طرح است محبوبیت R به عنوان آن را در طول زمان رفته است. بنابراین همانطور که می بینید، مانند 2013 یا پس از آن فقط منفجر فوق العاده. و این است فقط به خاطر اینکه از آن بوده است روند بزرگ در صنعت فن آوری اطلاعات در مورد بزرگ است. همچنین، نه فقط تکنولوژی صنعت، اما واقعا هر that-- صنعت به دلیل بسیاری از صنایع مرتب کردن بر اساس اساسی به تلاش برای حل این مشکلات. و معمولا، شما می توانید برخی از خوب راه اندازه گیری این مشکلات و یا حتی آنها را تعریف و یا حل آنها را با استفاده از داده ها. بنابراین من فکر می کنم در حال حاضر R در 11th است ترین زبان محبوب در TIOBE و آن را از سال پس از آن در حال رشد. بنابراین در اینجا برخی بیشتر ویژگی های R. این تعداد زیادی از بسته های و برای همه این چیزها متفاوت است. بنابراین هر زمان که شما یک مشکل خاص، ترین زمان R خواهد شد که تابع را برای شما. بنابراین آیا شما می خواهید ساخت نوعی از ماشین الگوریتم یادگیری نامیده می شود تصادفی جنگل و یا درختان تصمیم گیری، و یا حتی تلاش برای گرفتن میانگین یک تابع و یا هر یک از این مسائل، R خواهد شد که. و اگر شما برای شما مهم بهینه سازی، یک چیز است که مشترک است که پس از شما نمونه سازی انجام می شود نوعی از زبان سطح بالا، شما in-- پرتاب که شما فقط پورت خواهد شد که بیش از به برخی از زبان سطح پایین. چه خوب است در مورد R است که هنگامی که شما هستید انجام نمونه سازی آن، شما می توانید C اجرا ++، و یا فرترن، و یا هر یک از این آنهایی که سطح پایین تر به طور مستقیم به R. به طوری که یکی واقعا از ویژگی های جالب در مورد R، اگر شما واقعا در مورد مراقبت نقطه بهینه سازی. و آن را نیز واقعا خوب برای تجسم وب. بنابراین D3.js، برای مثال، من حدس می زنم سمینار دیگر که ما امروز معرفی شده اند. و این است که واقعا عالی برای انجام تصویری تعاملی. و D3.js فرض می شود که شما باید نوعی از داده ها را به رسم شود و R یک راه بسیار خوبی از بودن قادر به انجام است تجزیه و تحلیل داده ها قبل از شما آن صادرات به D3.js و یا حتی فقط اجرا دستورات D3.js به R خود را، و همچنین تمام این کتابخانه های دیگر نیز هست. به طوری که فقط معرفی شد چه R و به همین دلیل شما ممکن است استفاده از آن است. بنابراین امیدوارم، من چیزی متقاعد شما درباره تنها در تلاش برای دیدن آنچه آن را مانند است. بنابراین من قصد دارم به جلو بروید و از طریق رفتن برخی از اصول در مورد اشیاء R و آنچه شما واقعا می توانید انجام دهید. بنابراین در اینجا فقط یک دسته از دستورات ریاضی. بنابراین می گویند you're-- شما می خواهید برای ایجاد خود زبان و شما فقط می خواهید به یک دسته از ابزار های مختلف. هر نوع عمل شما فکر می کنم شما می خواهم می خواهم خیلی رفتن به در آر است بنابراین در اینجا 2 به اضافه 2 است. در اینجا 2 بار PI است. R دارای یک دسته از ساخته شده است در ثابت که شما اغلب خواهید مانند PI، E استفاده کنید. و پس از آن، در اینجا 7 به علاوه است runif، بنابراین runif، از مجموع 1 این یک تابع که تولید یکی یکنواخت تصادفی از 0 به 1. و سپس 3 وجود دارد به قدرت 4. این ریشه مربع وجود دارد. در ورود وجود دارد. بنابراین ورود به سیستم خواهد پایه انجام نمایی های خود را. و پس از آن، اگر شما یک پایگاه را مشخص، و سپس شما می توانید انجام هر کاری پایه شما می خواهید. و سپس در اینجا برخی از دستورات دیگر می باشد. بنابراین شما باید 23 وزارت دفاع 2. سپس شما باید باقی مانده. سپس شما باید علمی نماد اگر شما نیز می خواهید برای انجام درست تر و همه چیز پیچیده تر است. بنابراین در اینجا تکلیف است. تکالیف پس معمولی در R است با فلش انجام پس از آن کمتر از و پس از آن خط تیره است. بنابراین در اینجا من فقط اختصاص 3 به وال متغیر. و پس از آن من چاپ کردن وال و سپس آن را چاپ سه. به طور پیش فرض در مترجم R، آن خواهد همه چیز را برای شما چاپ بنابراین شما لازم نیست که مشخص چاپ وال هر زمان که شما می خواهید برای چاپ چیزی. شما فقط می توانید انجام دهید وال و سپس آن را برای شما انجام دهد. همچنین شما می توانید معادل فنی استفاده به عنوان یک عملگر انتساب. هستند پیچیدگی های خاص اندکی وجود دارد بین با استفاده از فلش اپراتور و برابر اپراتور برای تکالیف. عمدتا توسط کنوانسیون، هر کس فقط استفاده از فلش اپراتور. و در اینجا، من اختصاص این نماد مایل به نام 1 روده بزرگ 6. این تولید یک بردار 1 تا 6. و این واقعا خوب چون شما فقط بردار به وال اختصاص و کار به خودی خود. پس این است که در حال حاضر از رفتن single-- داده بسیار شهودی ساختار فقط دو از برخی از نوع از نوع به یک بردار و که همه را جمع آوری خواهد شد ارزش عددی برای شما. بنابراین پس از رفتن از اسکالر، شما اشیاء R و این یک بردار است. بردار هر نوع است مجموعه ای از همان نوع. بنابراین در اینجا یک دسته از بردار. بنابراین این عددی است. عددی راه R از گفت دو برابر شده است. و به این ترتیب به طور پیش فرض، هر تعداد خواهد بود دو برابر شود. بنابراین اگر شما C از 1.1، 3 دارند، منفی 5.7، C یک تابع است. این concatenates هر سه تعداد به یک بردار. و این پس اگر be-- خواهد شما متوجه 3 به خودی خود، به طور معمول شما می توانید فرض که این مثل این است که یک عدد صحیح، اما به دلیل تمام بردارها همان نوع، این یک بردار از دو برابر است یا عددی در این مورد. rnorm یک تابع است که به تولید است variables-- نرمال استاندارد و یا مقادیر نرمال استاندارد. و من مشخص دو نفر از آنها. بنابراین من انجام rnorm 2، اختصاص که به سامانه رویدادهای گسسته، و پس از آن من چاپ کردن سامانه رویدادهای گسسته. بنابراین این فقط دو هستند مقادیر نرمال تصادفی. و سپس وقفه اگر شما شما در مورد اعداد صحیح مراقبت. پس این است که فقط در مورد حافظه تخصیص و صرفه جویی در اندازه حافظه. بنابراین شما مجبور به اضافه شماره های پایتخت L. به طور کلی، این است نماد تاریخی R را برای چیزی به نام عدد صحیح بلند. بنابراین بسیاری از زمان، شما خرید و فروش با دو برابر. و اگر شما همیشه بعد خواهد شد در بهینه سازی کد خود را، شما فقط می توانید اضافه کردن این L'بازدید کنندگان پس از آن و یا در طول آن اگر شما مانند وابسته به اطلاع یا الهام قبلی در مورد آنچه شما در حال رفتن برای انجام این متغیر. بنابراین در اینجا یک بردار شخصیت است. پس، دوباره، من الحاق سه رشته این زمان. توجه کنید که رشته های دو جداره و رشته های تک در همان R. هستند بنابراین من آرتور و ماروین و غیره زمانی که من آن را چاپ، همه آنها در حال رفتن به نشان رشته دو برابر شود. و اگر شما هم می خواهید که شامل رشته دو و یا تک در شخصیت خود را، و سپس شما می توانید یا رشته خود را متناوب. بنابراین ماروین برای عنصر دوم، این است که رفتن به شما show-- فقط باید رشته دو و سپس یک رشته منفرد بنابراین این متناوب است. در غیر این صورت، اگر شما می خواهید به استفاده از دو اپراتور رشته در یک رشته دو زمانی که شما آن را اعلام، و سپس شما فقط استفاده از عملگر فرار. بنابراین شما رشته دو بک اسلش. و در نهایت، ما نیز دارای بردار منطقی است. بنابراین logical-- تا TRUE و FALSE، و آنها رفتن به تمام حروف بزرگ. و پس از آن، دوباره، من الحاق آنها را و سپس آنها را اختصاص به bools. بنابراین bools است که برای نشان دادن شما درست، غلط، و درست است. بنابراین در اینجا نمایه سازی بردار است. بنابراین در ابتدا من هستم در نظر گرفتن یک function-- این است sequence-- نام دنباله 2 تا 12. و من در نظر گرفتن دنباله های 2. بنابراین آن را به انجام 2، 4، 6، 8، 10 و 12. و پس از آن، من نمایه سازی هستم برای به دست آوردن عنصر سوم. بنابراین یک چیز در ذهن داشته باشیم است که شاخص R با شروع از 1. بنابراین والس 3 است که به دادن شما عنصر سوم. این است نوع متفاوت از سایر زبان که در آن از صفر شروع می شود. بنابراین در C یا C ++، به عنوان مثال، شما رفتن به عنصر چهارم. و در اینجا والس از 3 تا 5 است. بنابراین چیزی که واقعا سرد است که شما می تواند متغیر موقت در داخل تولید و سپس فقط آنها را در پرواز استفاده کنید. بنابراین در اینجا است 3 تا 5. بنابراین من ایجاد یک بردار 3، 4، و 5 و سپس من نمایه سازی برای دریافت سوم، چهارم، و پنجم عناصر. بنابراین به طور مشابه، شما می توانید چکیده: در این فقط انجام هر نوع بردار است که به شما نمایه سازی. بنابراین در اینجا والس و سپس است عناصر اول، سوم، و ششم. و پس از آن، اگر شما می خواهید برای انجام یک مکمل، بنابراین شما فقط انجام منهای پس از آن و که خواهم شما همه چیز را که نمی دهد اول، سوم، و یا عنصر ششم. بنابراین این خواهد بود که 4، 8، و 10. و اگر شما می خواهید برای دریافت حتی پیشرفته تر، شما می توانید بردار بولی الحاق. بنابراین این شاخص در حال رفتن به شما بدهد این بردار بولی طول 6. بنابراین هرزه کاما TRUE 3. این درست سه بار تکرار کنید. پس این به شما می دهد بردار درست است، درست، درست است. هرزه FALSE 4-- این است رفتن به شما بدهد یک بردار از FALSE، FALSE، FALSE، FALSE. و پس از آن C است رفتن به الحاق این دو Booleans با هم. بنابراین شما به دریافت سه TRUEs و پس از آن چهار FALSEs. به طوری که وقتی شما والس شاخص، شما رفتن به درست است، درست، درست است. به طوری که رفتن به می گویند بله، من می خواهم آن سه عنصر. و پس از آن FALSE، FALSE، FALSE، نادرست است رفتن نه گفتن، من آن عناصر را نمی خواهم پس از آن به قصد ندارم به آنها بازگشت. و من حدس می زنم در واقع وجود دارد تایپی در اینجا چرا که این می گوید تکرار TRUE 3 و تکرار FALSE 4، و از لحاظ فنی، شما تنها شش عناصر بنابراین تکرار FALSE، باید آن را تکرار FALSE 3 باشد. من فکر می کنم R نیز به اندازه کافی از جمله هوشمند که اگر شما فقط مشخص 4 در اینجا، سپس و حتی آن را نمی خواهد خطا است. این فقط به شما این مقدار را. پس از آن فقط که FALSE چهارم را نادیده گرفت. بنابراین در اینجا انتساب بردار است. بنابراین set.seed-- این فقط مجموعه دانه برای اعداد شبه تصادفی. بنابراین من تنظیم دانه به 42، به این معنی که اگر تولید من سه تصادفی نرمال ارزش ها، و پس از آن اگر شما اجرا بر روی خود set.seed کامپیوتر با استفاده از همان مقدار 42، سپس شما نیز می توانید از همان سه نرمال تصادفی. پس این است که واقعا خوب برای تکرارپذیری. معمولا، هنگامی که شما در حال انجام برخی از مرتب کردن بر اساس تجزیه و تحلیل علمی، شما می خواهید به مجموعه ای از دانه. به این ترتیب دیگر دانشمندان فقط می توانید تولید مثل همان کد دقیق اید انجام می شود چون آنها بخصوص متغیرهای تصادفی همان that-- یا تصادفی ارزش هایی که شما گرفته اید را به عنوان به خوبی. و به این ترتیب انتساب بردار در اینجا نشان والس شماره 1 تا 2. پس از آن طول می کشد دو عنصر اول از والس و سپس آنها را به 0 اختصاص می دهد. و پس از آن، شما همچنین می توانید فقط انجام چیزی مشابه با Booleans. بنابراین والس است برابر نیست به 0-- این اراده شما FALSE بردار را، FALSE، TRUE در این مورد. و پس از آن، آن را به می گویند هر از آن شاخص که درست بود، سپس آن را به او واگذار که به 5. پس از آن طول می کشد عنصر سوم در اینجا و سپس آن را به 5 اختصاص می دهد. و این واقعا خوب در مقایسه با زبان سطح پایین که در آن شما را مجبور به استفاده از حلقه برای انجام تمام این مسائل بردار به دلیل آن را فقط بسیار شهودی و آن را یک مزاح است. و آنچه در مورد بزرگ نماد بردار این است که در R، این نوع هستند ساخته شده در به طوری که آنها تقریبا به همان سرعتی هستید به عنوان انجام در یک زبان سطح پایین به عنوان مخالف ساخت یک حلقه for در R و پس از آن داشتن آن را به انجام نمایه سازی پویا است. و این خواهید بود آهسته تر از انجام این نوع از چیزی بردار که در آن می توانید آن را به صورت موازی، که در آن انجام آن را انجام آن را در نخ اساسا. بنابراین در اینجا است عملیات بردار. بنابراین من تولید یک مقدار 1 تا 3، اختصاص که به vec1، 3 تا 5، vec2، اضافه کردن آنها را با هم. این آنها را جزء عاقلانه می افزاید تا آن 1 به علاوه 3، 2 به علاوه 4، و غیره. vec1 بار vec2. این ضرب دو ارزش جزء عاقلانه. پس از آن 1 بار 3، 2 بار 4، و سپس 3 بار 5. و پس از آن، به طور مشابه شما همچنین می توانید انجام comparisons-- مقایسه های منطقی. پس از آن کاذب واقعی در این است مورد دلیل 1 است نه بیشتر از 3، 2 نمی باشد بزرگتر از 4. این است، من حدس می زنم، تایپی دیگر، 3 قطعا بیشتر از 5. آره. و به این ترتیب شما فقط می توانید انجام تمام این عملیات ساده چون به ارث برده خود از کلاس های خود. به طوری که فقط بردار بود. و این نوعی از اساسی ترین است R شی چون با توجه به بردار، شما می توانید اشیاء پیشرفته تر ساخت. بنابراین در اینجا یک ماتریس است. این است که اساسا انتزاع از آنچه یک ماتریس خود است. بنابراین در این مورد، آن را سه مختلف بردار، که در آن هر یک ستون است، و یا شما می توانید آن را در نظر به عنوان هر یک یک ردیف است. بنابراین من ذخیره سازی یک ماتریس از 1 تا 9 و سپس من مشخص 3 ردیف. بنابراین 1 تا 9 را به شما یک بردار 1 را، 2، 3، 4، 5، 6، و تمام راه را به 9. یک چیز به ذهن نیز باشید این است که فروشگاه R ارزش ها در فرمت ستون-بزرگ. بنابراین به عبارت دیگر، هنگامی که می بینید 1 تا 9، آن را به ذخیره them-- آن را به 1، 2، 3 در ستون اول، و سپس آن را انجام 4، 5، 6 در ستون دوم، و پس از آن 7، ​​8، 9 در ستون سوم. و در اینجا برخی از دیگر هستند توابع معمول شما می توانید استفاده کنید. بنابراین حصیر کم، این شما را ابعاد ماتریس. آن را به شما بازگشت یک بردار از بعد. بنابراین در این مورد، به دلیل ماتریس ما 3 توسط 3 است، آن را به شما بدهد بردار عددی که 3 3. و در اینجا تنها نشان دادن ضرب ماتریس. بنابراین معمولا، اگر شما فقط انجام asterisk-- تا حصیر ستاره mat-- این است برای رفتن به عملیات جزء عاقلانه و یا چه چیزی به نام محصول هادامارد. بنابراین آن را به انجام هر عنصر جزء عاقلانه. با این حال، اگر شما می خواهید multiplication-- ماتریس تا ضرب بار سطر اول ستون اول ماتریس دوم و به همین ترتیب on-- شما می استفاده این درصد عملیات. و T از حصیر است فقط یک عملیات برای ترانهاده. بنابراین من ادعا را ترانهاده در ماتریس، آن ضرب ماتریس خود را. و سپس آن را به بازگشت به شما 3 دیگر 3 نمایش ماتریس محصول شما می خواهم می خواهم. و به طوری که ماتریس بود. در اینجا چیزی است که به نام یک قاب داده ها. قاب داده ها شما می توانید به عنوان فکر می کنم یک ماتریس، اما خود را هر ستون در حال رفتن به یک نوع متفاوت باشد. پس چه واقعا جالب در مورد داده فریم است که در تجزیه و تحلیل داده های خود، شما در حال رفتن به این همه داده های ناهمگون و تمام این واقعا همه چیز کثیف که در آن هر یک از ستون خود می تواند از انواع مختلف باشد. بنابراین در اینجا من گفت: ایجاد یک قاب داده ها، انجام داده int از 1 تا 3، و پس از آن نیز یک بردار شخصیت داشته باشد. بنابراین من می تواند شاخص از طریق هر یک از این ستون ها و پس از آن من ارزش خود را دریافت کنید. و شما همچنین می توانید برخی از مرتب سازی بر انجام عملیات در فریم های داده. و بیشتر از آن زمان هنگامی که شما هستید انجام تجزیه و تحلیل داده ها و یا برخی از مرتب کردن بر اساس از پیش پردازش، شما خواهید بود کار با این ساختمان داده که در آن هر ستون است که به یک نوع متفاوت باشد. در نهایت، به طوری که این اساسا فقط می چهار اشیاء ضروری در فهرست R. فقط جمع آوری هر اشیاء دیگر شما می خواهید. پس از آن خواهد این را به یکی از ذخیره متغیر است که شما به راحتی می توانید دسترسی داشته باشید. بنابراین در اینجا، من گرفتن یک لیست. من ادعا چیزهای برابر 3. بنابراین من قصد دارم به یک عنصر در لیست، و این است که به نام مسائل، و آن را به ارزش 3. من همچنین می توانید یک ماتریس ایجاد کنید. پس این 1 به 4 و ردیف پایان برابر 2 است، بنابراین 2 توسط 2 ماتریس. همچنین در لیست و آن را با حصیر پوشاندن نامیده می شود. moreStuff، یک رشته کاراکتر، و حتی یک لیست دیگر را در خود. بنابراین این یک لیست که 5 و خرس است. بنابراین از آن است که ارزش 5 و دارای خرس رشته کاراکتر و آن یک لیست در داخل یک لیست است. بنابراین شما می توانید این را دارند همه چیز بازگشتی که در آن شما another-- نوع در نوع. بنابراین به طور مشابه، شما می توانید یک ماتریس دارند در داخل ماتریس دیگر و غیره. و یک لیست فقط یک راه خوب است جمع آوری و جمع آوری تمام این اشیاء متفاوت است. و در نهایت، در اینجا فقط در مورد کمک این تنها بیش از رفته بود بسیار به سرعت. بنابراین در هر زمان شما اشتباه هستید در مورد برخی از مرتب کردن بر اساس عملکرد، شما می توانید کمک که تابع انجام دهد. بنابراین شما می توانید ماتریس کمک انجام و یا یک ماتریس علامت سوال. و کمک و علامت سوال هستند فقط برای همان چیزی که مختصر به طوری که آنها نام مستعار است. LM یک تابع است که فقط یک مدل خطی. اما اگر شما فقط هیچ ایده چگونه است که آثار، شما فقط می توانید انجام دهید کمک LM و است که شما را برخی از را مرتب کردن بر اساس اسناد و مدارک که به نظر می رسد نوع مانند صفحه مرد در یونیکس، که در آن شما یک توضیح کوتاه از آنچه آن را ندارد، همچنین آنچه استدلال آن است، آنچه در آن باز می گرداند، و فقط راهنمایی در مورد چگونگی برای استفاده از آن، و برخی از نمونه های نیز هست. بنابراین، اجازه دهید پیش رو را نشان دهد و به برخی از نسخه ی نمایشی استفاده از R. OK. بنابراین من بیش از بسیار رفت سرعت فقط داده ساختار و نوعی از op-- برخی از عملیات. در اینجا برخی از توابع است. بنابراین در اینجا من فقط رفتن برای تعریف یک تابع. بنابراین من هم با استفاده از عملگر انتساب در اینجا، و پس از آن من گفت: اعلام آن را به عنوان یک تابع. و آن طول می کشد ارزش X. پس این هر مقدار که شما می خواهید است و من قصد دارم برای بازگشت به X است. بنابراین این تابع هویت است. و چه جالب در مورد این در مقایسه با زبان های دیگر و یکی دیگر از سطح پایین زبان که X است می توانید از هر نوع خود است و آن را که از نوع بازگشت. بنابراین شما می توانید imagine-- بنابراین اجازه دهید من فقط این سرعت اجرا شود. متأسفم. بنابراین یک چیز من هم باید ذکر این است که این ویرایشگر من با استفاده از است rstudio نامیده می شود. این همان چیزی است که یک IDE نامیده می شود. و یک چیز که واقعا خوب در مورد این است که آن را شامل بسیاری از چیزهایی که می خواهید در R انجام شده توسط خود فقط بسیار به طور مستقیم. بنابراین در اینجا کنسول مترجم است. بنابراین به طور مشابه، شما همچنین می توانید از این دریافت خام کنسول فقط با انجام یک R. سرمایه و این دقیقا همان همان چیزی که به عنوان کنسول. بنابراین من فقط می توانید انجام دهید شناسه تابع X، X، X. و then-- و پس از آن که خوب خود خواهد بود. بنابراین rstudio بزرگ است به دلیل آن است که کنسول. این شهر همچنین دارای اسناد شما می خواهم به اجرا در. و سپس آن را تا به برخی از متغیرهای که شما می توانید در محیط های را ببینید. و پس از آن، اگر شما به انجام توطئه، و سپس شما فقط می توانید آن را در اینجا مشاهده کنید، به عنوان مخالف مدیریت همه این ویندوز های مختلف توسط خود. من در واقع شخصا استفاده VIM، اما من احساس می کنم مثل rstudio بسیار عالی است فقط برای گرفتن یک ایده خوب از نحوه استفاده از R. معمولا، هنگامی که شما در حال تلاش برای یادگیری برخی از کار جدید، شما نمی خواهید که مسئولیت رسیدگی به همه چیز بیش از حد بسیاری در یک بار. بنابراین R فقط یک rstudio very-- است یک راه بسیار خوبی از R یادگیری است بدون نیاز به مقابله با همه این چیزهای دیگر. بنابراین در اینجا من در حال اجرا شناسه سلام. این گرداند سلام. شناسه 123. در اینجا یک بردار از اعداد صحیح است. بنابراین به طور مشابه، زیرا شما می توانید هر نوعی از ارزش، شما می توانید انجام دهید از بازگشت شناسه X تا آن را برمی گرداند 1234 و 5. و به من اجازه فقط به شما نشان دهد که این در واقع یک عدد صحیح. و به همین ترتیب، اگر شما کلاس شناسه X، این رفتن به عدد صحیح. و پس از آن، شما همچنین می توانید مقایسه دو و درست است. بنابراین من چک کردن اگر شناسه X برابر برابر x و اطلاع که آن را به شما می دهد دو TRUEs. پس این است که نمی گویم هستند دو جسم یکسان، اما هر یک از مطالب در بردار یکسان. در اینجا bounded.compare است. پس این است که کمی پیچیده تر در آن است که اگر شرایط و دیگری و سپس آن را طول می کشد دو استدلال در یک زمان. بنابراین X است از هر نوع. و من گفت: این آرگومان دوم است. این می تواند هر چیزی نیز هست. اما به طور پیش فرض، این رفتن به 5 اگر شما هیچ چیز را مشخص نمی کند. بنابراین در اینجا من قصد دارم برای گفتن اگر x بزرگتر از است. بنابراین اگر من مشخص نیست، آن را می گوید اگر x بزرگتر از 5 باشد، سپس من قصد دارم تا به راست. دیگری، من قصد دارم به بازگشت FALSE. بنابراین، اجازه دهید به جلو و تعریف این. و در حال حاضر من قصد دارم به اجرا bounded.compare 3. بنابراین آن را می گوید است 3 کمتر than-- است 3 بیشتر از 5. نه، آن چنان FALSE نیست. و bounded.compare 3 و من قصد دارم برای مقایسه آن با استفاده از یک برابر 2. بنابراین در حال حاضر من گفت: بله، در حال حاضر من می خواهید یک به چیز دیگری. بنابراین من قصد دارم برای گفتن، شما باید 2. من هم می تواند این کار را انجام مرتب کردن بر اساس نماد یا من می گویم برابر 2. این یک خواناتر در آن هنگام شما نگاه کردن به این واقعا توابع پیچیده که را arguments-- متعدد و این می تواند ده ها oftentimes-- فقط گفت که برابر 2 خواناتر است شما به طوری که بعد ها در آینده شما می دانید آنچه شما انجام می دهند. بنابراین در این مورد، من هستم ضرب المثل است 3 بیشتر از 2. بله آن است. و به همین ترتیب، من فقط می تواند حذف این و می گویند، است 3 بیشتر از 2 که در آن یک برابر 2. و این هم درست است. بله؟ رسید: آیا شما اجرای خط به خط؟ داستین ترنسپاندر: بله من هستم. بنابراین آنچه من در اینجا انجام است مصرف این متن document-- و چه بزرگ در مورد rstudio است که من فقط می توانید یک کلید میانبر اجرا short--. بنابراین من انجام کنترل وارد کنید. و پس از آن، من می گیرم خط در متن سند و سپس قرار دادن در کنسول. بنابراین در اینجا من گفت، bounded.compare و من انجام کنترل-X. بنابراین من فقط می تواند کار اجرا در اینجا نیز هست. و پس از آن که شما را به خط و سپس آن را در اینجا. و پس از آن به طور مشابه، می توانم انجام دهم اینجا را اجرا کنید. و سپس آن را فقط حفظ تعریف خطوط به کنسول مانند آن. و اگر شما نیز متوجه مجعد پرانتز فقط مثل در نحو C وجود دارد. x-- اگر اگر شرایط نیز رفتن به استفاده از پرانتز و سپس شما می توانید دیگری استفاده کنید. یکی دیگر دیگری اگر باشد. پس این است برای رفتن به X برابر برابر، به عنوان مثال. و پس از آن من قصد دارم به چیزی به اینجا برگردید. توجه کنید که دو مختلف وجود دارد همه چیز در اینجا است که اتفاق افتاده است. یکی این است که در اینجا من مشخص بازگشت ارزش واقعی. در اینجا من فقط گفت X. بنابراین R معمولا به طور پیش فرض خواهد شد را به آخرین arguments-- و یا در آخرین خط از کد، و خواهد شد که آنچه در آن بازگشت. بنابراین در اینجا این همان است چیزی که به عنوان انجام بازگشت X. و فقط به شما نشان دهد. و پس از آن، آن را فقط می خواهم که کار خواهد کرد. بنابراین، اجازه دهید با این ادامه خواهد داد. بنابراین دیگری اگر. و واقعا، من می توانم بازگشت هر چیزی من می خواهم. بنابراین من حتی نمی به بازگشت Booleans تمام وقت، من فقط می تواند چیز دیگری گشت. بنابراین من می تواند خرس بازگشت انجام دهد. بنابراین اگر x برابر برابر، آن را به بازگشت به خرس. در غیر این صورت، آن را تا به راست. من همچنین می توانید یک بردار انجام یا واقعا هر چیزی. و به طور معمول در آماری زبان تایپ، شما می خواهم که برای مشخص کردن یک نوع در اینجا. و توجه کنید که این فقط می تواند هر چیزی باشد. و R به اندازه کافی هوشمند است که آن را فقط این کار را انجام و آن را خوب کار خواهد کرد. بنابراین اجازه دهید این تعریف من. Unexpected-- آه متاسفم. این باید یک آکولاد اینجا باشد. باشه. سرد. خیلی خوب. بنابراین در حال حاضر در مقایسه 3 اجازه و برابر 3. پس از آن باید return-- yeah-- خرس ارزش. بنابراین در حال حاضر یک چیز کلی تر است مانند آنچه در مورد دیگر ساختمان داده. بنابراین شما باید این تابع. این است که به کار بر روی هر نوع ارزش مانند 3 یا هر عددی، به عبارت دیگر، دو برابر شود. اما آنچه در مورد چیزی شبیه به یک بردار. پس چه اتفاقی می افتد اگر شما do-- بنابراین من هستم رفتن به اختصاص وال، می گویند، 4 تا 6. بنابراین اگر من بازگشت این، این یک بردار از 4، 5، 6 است. حالا ببینید چه اتفاقی می افتد اگر من bounded.compare وال. پس این است رفتن به شما 15 1251 می دهد. بنابراین به عبارت دیگر، آن را گفت اگر شما در این وضعیت نگاه بنابراین آن را می گوید X کمتر است از یک یا چیزی. پس این است که کمی گیج کننده به دلیل در حال حاضر شما فقط نمی دانم چه خبر است. بنابراین من حدس می زنم چیزی است که واقعا خوب در مورد تنها در تلاش برای اشکال زدایی این است که شما فقط می توانید انجام دهید وال بیشتر است از یک و ببینید چه چیزی وجود دارد اتفاق می افتد. بنابراین val-- است به طور پیش فرض 5 تا اجازه دهید فقط وال بیشتر از 5. پس این است که کاذب بردار درست است. بنابراین در حال حاضر زمانی که شما به دنبال در این، آن را به می گویند اگر، و سپس آن را به شما این را یک بردار کاذب درست است. بنابراین، هنگامی که شما این عبور را به R، R هیچ ایده چه چیزی شما انجام. از آنجا که آن انتظار یک تک ارزش است، که یک بولی، و در حال حاضر شما در حال دادن آن یک بردار از Booleans. بنابراین به طور پیش فرض، R است فقط رفتن به آنچه هک، من قصد دارم به فرض کنیم که شما هستید رفتن به اولین عنصر در اینجا. بنابراین من قصد دارم به say-- من قصد دارم به فرض که این غلط است. بنابراین آن را می گویند نه، این درست نیست. به طور مشابه، آن را به شود وال برابر برابر. نه، متاسفم 5. و آن را نیز رفتن به نادرست نیز هست. بنابراین آن را می گویند نه، این درست نیست و همچنین پس از آن رفتن به بازگشت این یکی از آخرین. بنابراین این یا یک چیز خوب یا بد است چیز، بسته به اینکه چگونه مشاهده آن شما. از آنجا که زمانی که شما هستید ایجاد این توابع، شما در واقع نمی دانند چه خبر است. بنابراین گاهی اوقات شما می خواهید یک خطا، یا شاید شما فقط می خواهید یک هشدار. در این مورد، R می کند انجام این کار نیست. بنابراین واقعا تا شما را از بر چه شما فکر می کنم زبان باید در این مورد انجام اگر شما در یک بردار از Booleans عبور هنگامی که شما در حال انجام در صورت وضعیت. بنابراین اجازه دهید بگویم که شما تا به حال اصلی یکی با دیگری اگر درست بازگشت و شما رفتن به بازگشت FALSE. بنابراین یکی از راه های چکیده این است که به من می گویند حتی نمی نیاز به این چیزی که مشروط. چیز دیگری که می توانید انجام دهید این است که فقط بازگشت به ارزش های خود را. بنابراین اگر شما متوجه، اگر شما انجام وال بزرگتر از 5 باشد، این است که به بازگشت بردار کاذب درست است. شاید این همان چیزی است که شما می خواهید برای bounded.compare. شما می خواهید به بازگشت بردار از Booleans که در آن هر یک از مقادیر مقایسه به خود را دارند. بنابراین شما فقط می توانید انجام bounded.compare تابع X، برابر با 5. و پس از آن به جای انجام این اگر شرایط دیگری، من فقط رفتن به بازگشت X بزرگتر از 5 باشد. بنابراین اگر این درست است، پس از آن آن را تا به راست. و سپس اگر آن را ندارد، آن را رفتن به بازگشت FALSE. و این برای کار خواهد کرد هر یک از این سازه ها. بنابراین من می توانم ج 1 6 یا 9 bounded.compare و پس از آن من قصد دارم برای گفتن برابر 6، برای مثال. و سپس آن را به شما بولی راست را بردار که شما طراحی. بنابراین کسانی که تنها توابع و در حال حاضر من اجازه فقط شما برخی از تصاویری تعاملی نشان می دهد. من فکر نمی کنم من در واقع از Wi-Fi در اینجا پس بذار پیش بروید و جست و خیز این یکی من حدس می زنم. اما یک چیز که سرد هر چند این است که اگر شما فقط می خواهم به آزمون یک دسته از دستورات داده های مختلف، است یک دسته از مجموعه داده های مختلف وجود دارد که در حال حاضر به R. قبل نصب شده بنابراین یکی از آنها است نام مجموعه داده iris. این یکی از شناخته شده ترین است آنهایی که در یادگیری ماشین. شما معمولا فقط برخی از مرتب کردن بر اساس موارد آزمون برای دیدن اگر کد شما اجرا می شود. بنابراین اجازه دهید فقط چک عنبیه است. بنابراین این چیزی است که به یک قاب داده ها. و این نوع از طولانی به دلیل من فقط چاپ عنبیه. این چاپ از تمام چیز. پس از آن تا به تمام این نام های مختلف. بنابراین عنبیه مجموعه است گل های مختلف. در این مورد، این گفتن شما گونه از آن، تمام این عرض های مختلف و طول کاسبرگ و گلبرگ. و به این ترتیب به طور معمول اگر، شما می خواهید برای چاپ عنبیه، به عنوان مثال، شما نمی خواهید به آن را دارند انجام تمام این به این دلیل است که می تواند بیش از کل کنسول خود را. بنابراین چیزی که واقعا خوب تابع سر است. بنابراین اگر شما فقط سر عنبیه، این شما را پنج ردیف اول، و یا شش من حدس می زنم. و پس از آن به خوبی شما، فقط می توانید در اینجا مشخص کنید. بنابراین 20-- این خواهد داد شما 20 ردیف اول است. و من در واقع مهربان بود از تعجب است که این به من شش تا به من اجازه پیش بروید و بررسی iris-- یا سر، متاسفم. و در اینجا آن خواهد داد شما مستندات از آنچه سر ارزش می کند. بنابراین آن را می گرداند اولین یا آخرین از یک شی. و پس از آن من قصد دارم به در صورت پیش فرض است. و سپس آن را می گوید به طور پیش فرض روش X سر و N برابر 6L. بنابراین این گرداند شش عامل اول. و به همین ترتیب اگر شما متوجه اینجا، من نداشت مشخص N برابر 6. به طور پیش فرض آن استفاده می کند شش، من حدس می زنم. و پس از آن، اگر من می خواهم برای مشخص کردن یک خاص ارزش، پس من می تواند به عنوان به خوبی مشاهده است. به طوری که برخی از دستورات ساده است و در اینجا یکی دیگر که just-- خوبی است، من can-- این است که در واقع کمی پیچیده تر، اما این فقط کلاس را از هر ستون از مجموعه داده iris. بنابراین این شما هر یک از این چه نشان می دهد ستون در نظر انواع آنها هستند. بنابراین طول کاسبرگ عددی است، عرض کاسبرگ عددی است. همه این ارزش ها فقط عددی زیرا شما می توانید از این داده ها بگویید ساختار این هستند همه به عددی رفتن. و ستون گونه در حال رفتن به یک عامل. بنابراین به طور معمول، شما فکر می کنم که این مثل این است که یک رشته کاراکتر. اما اگر شما فقط انجام irisSpecies، و پس از آن من قصد دارم به انجام سر 5، و این است که رفتن به چاپ از پنج مقدار اول. و پس از آن متوجه این سطح. پس این است که saying-- این راه R است داشتن متغیرهای قطعی. بنابراین به جای فقط داشتن رشته کاراکتر، آن را تا به سطح مشخص که از این چیزها هستند. بنابراین اجازه دهید بگویم irisSpecies 1. پس چه می خواهید انجام دهید در اینجا این است من subsetting به این ستون گونه. پس این طول می کشد ستون گونه و سپس شاخص آن برای به دست آوردن عنصر اول است. بنابراین این باید به شما setosa می دهد. و آن را نیز به شما می دهد سطح در اینجا. بنابراین شما همچنین می توانید مقایسه این به setosa شخصیت و این است که نمی درست است به خاطر یکی است از یک نوع متفاوت از دیگری است. یا من حدس می زنم آن به دلیل واقعی R است آگاهی بیشتر از آن است. و آن را در این و پس از آن به نظر می رسد می گوید، شاید این همان چیزی است که شما می خواهید. بنابراین آن را می گویند شخصیت setosa رشته همان این یکی است. و پس از آن به طور مشابه، شما می توانید همچنین فقط این شتاب مانند غیره. به طوری که فقط برخی از مرتب کردن بر اساس است دستورات سریع از مجموعه داده. بنابراین در اینجا برخی از اکتشاف داده است. پس این است که کمی بیشتر درگیر با تجزیه و تحلیل داده ها. و این از برخی گرفته Bootcamp در R برای در برکلی. بنابراین کتابخانه خارجی است. بنابراین من قصد دارم برای بار در کتابخانه که خارجی نامیده می شود. پس این است که به من می دهد read.dta بنابراین فرض کنیم که من این مجموعه داده را داشته باشد. این است که در حال حاضر ذخیره شده دایرکتوری از کنسول من کار. بنابراین اجازه دهید فقط ببینید چه دایرکتوری است. بنابراین در اینجا شاخه من است. و خواندن داده ها نقطه، این چیزی، می گوید این فایل در پوشه داده از واقع این دایرکتوری جاری. و read.dta این است که یک دستور به طور پیش فرض. من حدس می زنم که من آن را در حال حاضر لود می شود. IEI فرض من این در حال حاضر لود می شود. اما تا read.dta است که نمی به یک دستور به طور پیش فرض. و به همین دلیل شما در حال رفتن به برای بارگذاری در این کتابخانه package-- این بسته به نام خارجی است. و اگر شما لازم نیست بسته بندی شده، من فکر می کنم خارجی یکی از ساخته شده است در آنهایی است. در غیر این صورت، شما همچنین می توانید انجام install.packages هر و این بسته را نصب کنید. و این به شما R. آه، را ندارد. و پس از آن من فقط رفتن برای متوقف کردن این به این دلیل من در حال حاضر آن را داشته باشد. اما آنچه واقعا خوب در مورد R این است که مدیریت بسته سیستم بسیار ظریف است. از آنجا که آن همه چیز را ذخیره واقعا خوبی را برای شما. بنابراین در این مورد، آن را به ذخیره آن را در، به اعتقاد من، این کتابخانه در اینجا. بنابراین هر زمان که شما می خواهید نصب بسته های جدید، آن را فقط به عنوان ساده به عنوان انجام install.packages هر و R تمام مدیریت خواهد شد بسته برای شما. بنابراین شما لازم نیست برای انجام کاری در پایتون، که در آن شما باید بسته خارجی مدیران مانند کاغذ آناکوندا که در آن شما هستید doing-- شما نصب بسته های خارج از پایتون و پس از آن شما سعی می کنید به آنها را خودتان اجرا کنید. بنابراین این است که واقعا راه خوب. و install.packages هر نیاز به اینترنت. این طول می کشد از یک سرور و مخزن که جمع آوری تمام بسته نامیده می شود CRAN. و شما می توانید که مرتب سازی بر اساس آینه مشخص شما می خواهید برای دانلود بسته های از. بنابراین در اینجا من از این مجموعه داده ام. من آن را می خوانید در استفاده از این تابع. بنابراین، اجازه دهید به جلو و انجام این کار. بنابراین اجازه دهید فرض کنیم که شما این مجموعه داده و شما باید مطلقا هیچ ایده آنچه در آن است. و این در واقع می آید تا نسبتا اغلب در صنعت که در آن شما فقط این را دارند تن و تن از چیزهای کثیف و آنها فوق العاده بدون برچسب است. بنابراین در اینجا من این را دارند مجموعه داده و من نمی دانم آنچه در آن است، بنابراین من فقط هستم نشان دادن آن را به اتمام. بنابراین من قصد دارم برای اولین بار به انجام سر. بنابراین من بررسی برای اولین بار شش ستون از آنچه این مجموعه داده است. بنابراین این دولت، pres04، و پس از آن است تمام این مرتب کردن متفاوتی از ستون. و چه جالب در اینجا، من حدس می زنم، این است که شما فرض کنیم که این به نظر می رسد مانند نوعی از انتخابات. و من فقط از حدس می زنم به دنبال در فایل نام این نوعی از مجموعه است از اطلاعات در مورد نامزد یا رای دهندگان که برای رئیس جمهور خاص رای دادند یا نامزد رئيس جمهور برای انتخابات سال 2004. بنابراین در اینجا ارزش 1، 2 است بنابراین یکی از راه های ذخیره سازی نامزدهای رئيس جمهور نام خود هستند. در این مورد، آن را مانند به نظر می رسد آنها ارزش فقط عدد صحیح است. بنابراین سال 2004، آن بوش بود در مقابل کری به اعتقاد من. و در حال حاضر، اجازه دهید بگویم شما فقط نمی دانم آیا 1 مربوط به بوش و یا 2 مربوط به کری یا و به همین ترتیب و غیره، درست است؟ و این است، فقط به من، یک مشکل نسبتا رایج است. پس چه می تواند شما را در این مورد انجام دهید؟ بنابراین اجازه دهید بررسی تمام این چیزهای دیگر. دولت، من فرض این می آید از کشورهای مختلف. partyid، درآمد. بیایید در partyid نگاه کنید. بنابراین شاید یک چیز شما می توانید انجام دهید این است در هر یک از مشاهدات نگاه که یک partyid از حزب جمهوری خواه و یا دموکرات و یا چیزی. بنابراین اجازه دهید فقط در چه partyid است نگاه کنید. بنابراین من قصد دارم به DAT و سپس من قصد دارم برای انجام این علامت دلار اپراتور که من قبلا انجام و این است که رفتن به زیر مجموعه به ستون. و پس از آن من قصد دارم به سر این در 20، فقط برای دیدن آنچه که این به نظر می رسد مانند. بنابراین این فقط یک دسته از ناس است. بنابراین به عبارت دیگر، شما باید گم شده داده در مورد این بچه ها. اما شما همچنین متوجه این DAT partyid یک عامل است بنابراین این به شما می دهد دسته های مختلف. بنابراین به عبارت دیگر، partyid می کنند حزب دموکرات، جمهوری خواه، مستقل، یا چیز دیگری. بنابراین اجازه دهید پیش بروید و اجازه دهید ببینید که از این is-- آه، OK. بنابراین من قصد دارم به زیر مجموعه به partyid و سپس نگاه که در آن هستند حزب دموکرات، به عنوان مثال. این است رفتن به شما بولی را، بولی عظیمی از TRUEs و FALSEs. و در حال حاضر، اجازه دهید بگویم من می خواهم به زیر مجموعه به این بچه ها. پس این است که رفتن به DAT من و زیر مجموعه به هر کدام مشاهدات باید برابر partyid برابر دموکرات. و این است بسیار طولانی به دلیل در بسیاری از آنها وجود دارد. بنابراین در حال حاضر، من قصد دارم به سر این در 20. و به عنوان شما متوجه، برابر برابر جالب است که در شما است already-- شما نیز از جمله ناس. بنابراین در این حالت، شما هنوز هم می تواند نمی کنید هر گونه اطلاعات به دلیل در حال حاضر شما گفتار و شما فقط می خواهید برای دیدن که از مشاهده به حزب دموکرات دارد و نه این از دست رفته خود ارزش. بنابراین چگونه می خواهید می توانید از این گفتار خلاص شدن از شر؟ بنابراین در اینجا من فقط با استفاده از کلید بر روی من مکان نما و پس از آن گفت: در حال حرکت در اطراف. و سپس در اینجا من فقط رفتن می گویند is.na datpartyid. بنابراین این و و را دو بردار بولی مختلف و می گویند آن را برای رفتن به درست و نادرست به عنوان مثال. بنابراین آن را برای انجام این کار جزء عاقلانه. بنابراین در اینجا من ادعا را قاب داده ها، زیر مجموعه به آنهایی که به حزب دموکرات دارد، و حذف هر کدام از آنها که NA نیست. بنابراین این will-- باید شما چیزی را. بیایید ببینید is.na. بیایید datpartyid is.na امتحان کنید. و این باید به you-- sorry-- فقط یک بردار بولی. و پس از آن، به دلیل آن را بسیار طولانی، من قصد دارم به زیر مجموعه به 20. باشه. بنابراین این باید کار کند. و این یکی نیز TRUEs باشد. آه، پس خطا من در اینجا این است که I'm-- من استفاده از C ++ و R به جای یکدیگر، بنابراین من را این اشتباه تمام وقت. و اپراتور است در واقع یکی از شما می خواهم. شما نمی خواهید به استفاده از دو آمپرسندهای کاربردی، فقط یک واحد. باشه. بنابراین اجازه دهید. بنابراین ما به subsetted partyid جایی که آنها دموکرات هستند و آنها ارزش از دست رفته نیست. و در حال حاضر اجازه دهید نگاه آنهایی که رای دادند. بنابراین آن را مانند به نظر می رسد بیشتر از آنها برای 1 رای دادند. بنابراین من قصد دارم به جلو بروید و می گویند که کری است. و به همین ترتیب، شما می توانید همچنین به جمهوری خواه به و امیدوارم، این باید به شما 2 را. این فقط یک دسته از ستون های مختلف است. و در واقع، آن را 2. بنابراین partyid تمام جمهوریخواه، بسیاری از آنها رای دادن برای 2. بنابراین به نظر می رسد مانند، فقط با نگاه کردن به این، جمهوری خواه است برای رفتن به very-- یا partyid است برای رفتن به یک بسیار عامل مهمی در تعیین که نامزد آنها برای رفتن به رای دادن. و این واضح است که به طور کلی درست است. و این مسابقات خود را شهود، البته. بنابراین به نظر می رسد مانند من در حال اجرا خارج از زمان تا اجازه دهید من فقط باید پیش بروید و نشان می دهد برخی از تصاویر سریع است. بنابراین در اینجا چیزی است که کمی است با تجسم پیچیده است. بنابراین در این مورد، این است که بسیار تجزیه و تحلیل ساده از فقط چک کردن چه رئيس جمهور از '04 است. بنابراین در این مورد، اجازه دهید به شما می گویند می خواستم به پاسخ به این سوال. بنابراین فرض کنید ما می خواستند بدانند رای گیری رفتار در انتخابات سال 2004 رئيس جمهور و چگونه است که متفاوت است با نژاد. بنابراین نه تنها شما می خواهید رفتار رای گیری، اما شما می خواهید به زیر مجموعه ای از هر نژاد و نوع خلاصه که. و شما فقط می توانید بگویید این نماد پیچیده که این نوع از گرفتن مبهم و مه آلود. بنابراین یکی از پیشرفته تر R بسته هایی که هم نوع اخیر است dplyr نامیده می شود. پس از آن این حق در اینجا است. و ggplot2 ggg-- است فقط خوب راه انجام تصویری بهتر از ساخته شده است در یکی از. بنابراین من قصد دارم برای بار این دو کتابخانه. و پس از آن، من قصد دارم برای رفتن پیش رو و این دستور را اجرا کنید. شما فقط می توانید این درمان به عنوان یک جعبه سیاه و سفید. آنچه اتفاق می افتد این است که این لوله عملگر عبور در این بحث به اینجا. بنابراین من گروه گفت: DAT مسابقه و پس از آن رئيس جمهور 04. و پس از آن، همه این دستورات دیگر در حال فیلتر و سپس خلاصه که در آن من انجام شمارش و پس از آن من آن را توطئه در اینجا. OK سرد. بنابراین اجازه دهید پیش بروید و ببینید چه چیزی این به نظر می رسد مانند. پس چه در اینجا اتفاق می افتد که من است فقط هر یک از نژادها و سپس رسم آنهایی که رای دادند. و این دو متفاوت ارزش به 2 و 1 مطابقت دارد. اگر می خواهید به تر زیبا، شما همچنین می توانید فقط مشخص است که 2 Kerry-- یا است 2 بوش است، و پس از آن 1 کری است. و شما همچنین می توانید از که در افسانه های خود را. و شما همچنین می توانید از این گراف تقسیم می شود. از آنجا که یک چیز است که، اگر شما متوجه، این است که بسیار آسان برای شناسایی نمی کدام یک از این دو مقدار بزرگتر هستند. بنابراین یک چیز شما می خواهم می خواهم انجام شده است را به این منطقه آبی و فقط آن را حرکت بیش از اینجا، بنابراین شما می توانید از این دو در کنار هم مقایسه کنید. و من حدس می زنم که چیزی است که من را وقت ندارد برای انجام در حال حاضر، اما این نیز بسیار آسان برای انجام دهد. شما فقط می توانید به نگاه صفحات مرد از ggplot. بنابراین شما فقط می توانید مانند ggplot که و به این صفحه مرد به عنوان خوانده شده. بنابراین من اجازه فقط به سرعت شما برخی از کارهای جالب نشان می دهد. بیایید پیش بروید و to-- درست استفاده از یادگیری ماشین. بنابراین اجازه دهید بگویم که ما باید این سه بسته بنابراین من قصد دارم برای بار این در. بنابراین این فقط چاپ برخی از اطلاعات پس از من در چیزی که لود می شود. بنابراین من و گفت این read.csv، این مجموعه داده، و در حال حاضر من قصد دارم به جلو بروید و نگاه کنید و ببینید چه چیزی در داخل این مجموعه داده. بنابراین 20 مشاهدات برای اولین بار. بنابراین من فقط X1، X2، و Y. دارند پس از آن به نظر می رسد مانند یک دسته از این ارزش ها از شاید 20 تا 80 و یا پس گرفته. و پس از آن به طور مشابه برای X2 و سپس این Y به نظر می رسد برچسب 0 و 1. برای بررسی این، من می توانم فقط X1 خلاصه داده ها. و پس از آن به طور مشابه برای همه این ستون دیگر. بنابراین خلاصه یک راه سریع از است فقط به شما نشان مقادیر سریع است. آه ببخشید. این یکی باید Y. شود بنابراین در این مورد، می دهد quantiles، مادها، maxes نیز هست. در این مورد، dataY، شما می توانید ببینید که آن را فقط برای رفتن به 0 و 1. همچنین میانگین است گفت: 0.6، فقط بدان معناست که آن به نظر می رسد مثل من 1S بیشتر از 0s و. بنابراین، اجازه دهید پیش رو را نشان دهد و به شما چه این به نظر می رسد مانند. بنابراین من فقط رفتن به رسم این. بیایید ببینید که چگونه به پاک کردن این. اوه OK. باشه. پس این همان چیزی است که آن را مانند به نظر می رسد. بنابراین آن را مانند زرد من مشخص به نظر می رسد به عنوان 0، و سپس قرمز من به عنوان 1S مشخص شده است. بنابراین در اینجا آن را مانند به نظر می رسد نقاط برچسب و آن به نظر می رسد مثل شما فقط برخی از خواست مرتب کردن بر اساس خوشه بندی در این. و اجازه دهید من فقط جلو و نشان می دهد به شما برخی از این توابع ساخته شده در. بنابراین در اینجا LM است. پس این است که تنها در تلاش به جا یک خط به این. پس چه بهترین راه است که من می توانم جا یک خط مانند که آن بهترین از هم جدا خواهد شد این نوع از خوشه. و در حالت ایده آل، شما فقط می توانید ببینید که من فقط اجرا تمام این دستورات و پس از آن، من قصد دارم جلو و خط اضافه کنید. بنابراین به نظر می رسد مانند بهترین حدس. این در نظر گرفتن یکی از بهترین که به حداقل می رساند خطا در تلاش برای سازگاری این خط. بدیهی است، این به نظر می رسد نوع خوب است، اما این بهترین نیست. و مدل های خطی، در به طور کلی، در حال رفتن به واقعا بزرگ برای تئوری و فقط مرتب سازی بر اصول ساختمان ماشین یادگیری. اما در عمل، شما در حال رفتن به می خواهید برای انجام کاری به طور کلی تر. بنابراین شما فقط می توانید سعی کنید در حال اجرا چیزی به نام شبکه های عصبی. این چیزها هستند به طور فزاینده بیشتر رایج است. و آنها فقط کار فوق العاده برای مجموعه داده های بزرگ. بنابراین در این مورد، ما تنها have-- اجازه دهید see-- ما nrow. بنابراین nrow است فقط گفت تعداد سطرها. بنابراین در این مورد، من 100 مشاهدات. بنابراین، اجازه دهید پیش بروید و ایجاد یک شبکه عصبی. پس این است که واقعا خوب چرا که من فقط می توانم بگویم nnet و پس از آن من رگرسیون Y. بنابراین Y که ستون است. و سپس رگرسیون آن را در دو متغیر دیگر. بنابراین این کوتاه تر است نماد برای X1 و X2. بنابراین اجازه دهید پیش بروید و اجرای این. آه ببخشید. من نیاز به اجرای کل این چیز. و این تنها چاپ نماد برای چگونه به سرعت یا نه به سرعت آن را همگرا. بنابراین به نظر می رسد مانند آن را همگرا بود. بنابراین، اجازه دهید پیش رو و چاپ به از آنچه این به نظر می رسد مانند. مشاهده اینجا تصویر و اینجا است کانتور نشان میدهد که چگونه به خوبی آن را متناسب. و این است just-- شما می توانید ببینید این است که این بسیار، بسیار زیباست. حتی می تواند بیشبرازش، اما شما همچنین می توانید برای این با دیگر تکنیک های مانند اعتبار متقاطع. و این نیز به R. ساخته شده است و به من اجازه فقط به شما نشان دهد ماشین بردار پشتیبان. این دیگر واقعا شایع است روش در یادگیری ماشین. این بسیار شبیه به مدل خطی است، اما آن استفاده می کند چه یک روش هسته نامیده می شود. و بیایید ببینید که چگونه به خوبی نشان می دهد که. پس این یکی بسیار شبیه به چگونه است همچنین یک شبکه عصبی انجام، اما آن را خیلی بیشتر نرم و صاف. و این بر مبنای از what-- چگونه کار SVM ها. بنابراین این فقط یک بسیار دید کلی از برخی از توابع ساخته شده در شما می توانید انجام دهید و همچنین برخی از اکتشاف داده. بنابراین اجازه دهید من فقط به جلو و بازگشت به اسلاید. بنابراین بدیهی است، این است بسیار جامع نیست. و این است که واقعا فقط یک تیزر به شما نشان آنچه شما واقعا می تواند در R. انجام بنابراین اگر شما می خواهم درست مثل برای کسب اطلاعات بیشتر، اینجا یک دسته از منابع مختلف است. بنابراین اگر شما علاقه کتاب های درسی هستید و یا شما فقط علاقه به خواندن چیزهایی آنلاین، پس از آن این است که فوق العاده یک هدلی ویکهام، که او نیز ایجاد تمام این بسته های واقعا سرد. اگر شما علاقه از فیلم هستید، پس از آن برکلی دارای یک اردوی آموزشی عالی که several-- که نوع طولانی است. و آن را به شما تقریبا آموزش همه چیز شما می خواهم در مورد R. دانم و به همین ترتیب، در Codeacademy وجود دارد و همه این مرتب سازی بر دیگر وب سایت های تعاملی. آنها همچنین گرفتن common-- بیشتر و بیشتر رایج است. پس این است که بسیار شبیه به Codeacademy. و در نهایت، اگر شما فقط می خواهید جامعه و کمک به، این یک دسته از چیزهایی که شما می توانید برای رفتن. بدیهی است، ما هنوز استفاده از لیست های پستی، فقط مانند تقریبا در هر دیگر جامعه زبان های برنامه نویسی. و #rstats، این است جامعه ما توییتر. که در واقع کاملا رایج است. و پس از آن کاربر! آیا فقط کنفرانس ما. و پس از آن، البته، شما می توانید استفاده از تمام این پرسش و پاسخ چیزهای دیگر، مانند سرریز پشته، گوگل، و سپس گیتهاب. از آنجا که اکثر این بسته و بسیاری از جامعه خواهد شد در اطراف در حال توسعه محور کد چرا که آن را منبع باز است. و آن را فقط واقعا خوب در گیتهاب. و در نهایت، شما می توانید به من اگر تماس شما فقط هر گونه سوال سریع داشته باشد. بنابراین شما می توانید من در توییتر اینجا پیدا کنید، وب سایت من، و فقط ایمیل من. بنابراین امیدوارم، که بود something-- فقط یک تیزر کوتاه از آنچه R واقعا قادر به انجام است. و امیدوارم، شما فقط اتمام این سه لینک و ببینید چه چیزی شما می توانید بیشتر انجام دهد. و من حدس می زنم که فقط در مورد آن. با تشکر. [تشویق حضار]