تکنولوژی مدیریت دانش

Knowledge Management Technology

تکنولوژی مدیریت دانش
تکنولوژی مدیریت دانش
تکنولوژی مدیریت دانش

پیاده سازی هیستوگرام با استفاده از R

همانطور که در پست قبل توضیح داده شد، زبان R یک زبان برنامه نویسی متن باز آماری بسیار قدرتمند در زمینه بصری سازی داده ها، تحلیل های آماری است. در این پست به تشریح اهمیت بررسی بصری سازی پرداخته شده است.

این تصویر سازی مثال بسیار خوبی است که چگونه مصور سازی می تواند به تصمیم گیرندگان کمک کند. تصور کنید این اطلاعات را به یک سرمایه گذار از طریق یک جدول بگویید. فکر می کنید چه مدت طول می کشد که این کار را برای او توضیح دهید؟

با توجه به حجم روزافزون داده ها در جهان امروز، تفسیر داده ها بدون تجسم داده امکان پذیر نیست. اگرچه در حال حاضر ابزارهای  اختصاصی قدرتمندی مانند Tableau، QlikView و d3.js در زمینه بصری سازی و ساخت داشبورد وجود دارند ولی به منظور تحلیل هیچ چیز نمی تواند جایگزین یک ابزار مدل سازی آماری با قابلیت بصری سازی خوب بشود. این امر به شدت در انجام هر گونه تجزیه و تحلیل اکتشافی اطلاعات و همچنین مهندسی و انتخاب مشخصه ها کمک می کند. این جایی است که R به شکلی باورنکردنی کمک می کند.

R شامل یک مجموعه غنی از توابع و کتابخانه هایی مانند ggplot2، leaflet و lattice را برای مصور سازی و ارائه داده ها در اختیار می گذارد. در این پست و پست های بعد به توضیح اجمالی نحوه پیاده سازی برخی از نمودار ها با استفاده از این زبان می پردازیم.

هیستوگرام:

هیستوگرام اساسا یک نمودار ساده است که داده ها را به دسته های مختلف تجزیه می کند و توزیع این دسته ها را نشان می دهد. شما همچنین می توانید دسته ها را تغییر دهید تا تصویری که فهم پذیری دارد بیشتری دارد ایجاد کنید.

 در این بخش به منظور نمایش چند نمودار در یک صفحه از دستور par(mfrow=c(2,3)) استفاده نموده ایم.

برای ساخت این نمودار ها از مجموعه داده VADeaths که یک مانریس با 5 سطر و 4 ستون و مربوط به داده های نرخ مرگ در ویرجینیا در سال 1940 است استفاده شده. همچنین نرخ مرگ بر اساس 1000 نفر جمعیت محاسبه شده است. گروه های سنی (سطر ها) شامل دسته های 50–54, 55–59, 60–64, 65–69, 70–74 و دسته های جمعیتی (ستون ها) شامل مرد شهری، زن شهری، مرد روستایی و زن روستایی می باشد.

در مجموعه کد های زیر، دستور main مشخص کننده عنوان نمودار و دستور col مشخص کننده رنگ می باشند.

library(RColorBrewer)
data(VADeaths)
par(mfrow=c(2,3))
hist(VADeaths,breaks=10, col=brewer.pal(3,"Set3"),main="Set3 3 colors")
hist(VADeaths,breaks=3 ,col=brewer.pal(3,"Set2"),main="Set2 3 colors")
hist(VADeaths,breaks=7, col=brewer.pal(3,"Set1"),main="Set1 3 colors")
hist(VADeaths,,breaks= 2, col=brewer.pal(8,"Set3"),main="Set3 8 colors")
hist(VADeaths,col=brewer.pal(8,"Greys"),main="Greys 8 colors")
hist(VADeaths,col=brewer.pal(8,"Greens"),main="Greens 8 colors")

آشنایی با زبان R

R، یک زبان برنامه‌نویسی و محیط نرم‌افزاری برای محاسبات آماری و علم داده‌ها است، که بر اساس زبان‌های اس و اسکیم پیاده‌سازی شده است. این نرم‌افزار متن باز، تحت اجازه‌نامه عمومی همگانی گنو عرضه شده و به رایگان قابل دسترس است.

نرم‌افزار R برای اولین بار به عنوان یک پروژه تحقیقاتی توسط راس ایهاکا (Ross Ihaka) و رابرت جنتلمن (Robert Gentleman) نوشته شد، و در حال حاضر توسط گروهی از متخصصان علم آمار به نام "تیم هسته نرم‌افزار "R با صفحه ای در آدرسwww.r-project.org در حال توسعه ی فعال می باشد.

R، حاوی محدودهٔ گسترده‌ای از تکنیک‌های آماری (از جمله: مدل‌سازی خطی و غیرخطی، آزمون‌های کلاسیک آماری، تحلیل سری‌های زمانی، رده‌بندی، خوشه‌بندی و غیره) و قابلیت‌های گرافیکی است. در محیط R، کدهای C، C++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره می‌توانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.

 

R sample plot

  نمونه پیاده سازی R

 

انتخاب قلم آماری به صورت داینامیک در پاور بی آی

گاهی اوقات تمایل دارید که کاربر نهایی خودش قلم آماری یا شاخص مورد نظرش  را انتخاب کند و نمودار بر اساس آن قلم آماری نمایش داده شود . از این عمل برای ساختن گزارش های داینامیک (Report Generator) در محیط Power BI استفاده می شود .

البته چندی قبل هم در این مطلب نحوه ساختن گزارش داینامیک در کلیک ویو را بیان کردیم . برای پیاده سازی این نوع گزارش در ابتدا یک جدول موقت ایجاد می کنیم و لیست شاخص هایمان را در آن وارد می کنیم ، مثلا شاخص سود خالص ، حاشیه سود ، سود ناخالص و .... جدول فوق را در محیط Power Query  ایجاد می کنیم.

انتخاب قلم آماری به صورت داینامیک در پاور بی آی

سپس در ادامه به ازای هر آیتمی که کاربر از این جدول انتخاب می کند فرمولی را پیاده سازی می کنیم.

انتخاب قلم آماری به صورت داینامیک در پاور بی آی

برای این موضوع یک قلم آماری در محیط Power Pivot تعریف کردیم سپس از طریق دستور Switch بیان کردیم که اگر کاربر قلم آماری یک را انتخاب کرده بود این فرمول و اگر قلم آماری 2 را انتخاب کند این فرمول و.... . شایان ذکر است که تابع AllSelected مقدار شاخص انتخاب شده توسط کاربر را بر می گرداند .

انتخاب قلم آماری به صورت داینامیک در پاور بی آی