Pandas - Cleaning Empty Cells
حذف سطرها
هنگام تحلیل دادهها، به احتمال بسیار زیاد، سلولهای خالی منجر به نتیجهگیریهای نادرست خواهند شد.
یکی از راه کارهای برخورد با سلولهای خالی آن است که سطر شامل آن سلول خالی حذف شود.
معمولاً این کار اشکالی ایجاد نمیکند زیرا مجموعه دادههای ما اغلب بزرگ هستند و حذف چند سطر اثر آنچنانی روی نتیجه نهایی نخواهد داشت.
در کد زیر یک چارچوب داده جدید بدون سلول خالی برگردانده میشود.
dropna()
یک چارچوب داده جدید را برمیگرداند و چارچوب داده اصلی بدون تغییر باقی میماند. اگر میخواهید چارچوب داده اصلی تغییر کند از آرگومان inplace = True
استفاده کنید.
جایگزین کردن سلولهای خالی
راه دیگر برخورد با سلولهای خالی، قرار دادن مقادیر جدید در آنها است.
از این طریق دیگر لازم نیست به خاطر چند سلول خالی کل یک سطر را حذف کنید.
تابع شیء fillna()
به ما این امکان را میدهد که سلول خالی را با یک مقدار جایگزین کنیم.
مثلاً اگر بخواهیم سلول خالی با مقدار 130 جایگزین شود میتوانیم به صورت زیر عمل کنیم.
جایگزین کردن برای ستونهایی خاص
در مثال بالا همه سلولهای خالی در کل چارچوب داده جایگزین میشوند. اگر میخواهید که فقط برای یک ستون خاص این اتفاق بیافتد، اسم آن ستون را در چارچوب داده مشخص کنید.
جایگزینی با استفاده از میانگین، مدین یا مد
یکی از راه کارهای جایگزین کردن مقادیر خالی در یک ستون، محاسبه میانگین، مدین یا مد آن ستون است.
Pandas از توابع شیء median()
،mean()
و mod()
جهت محاسبه مقادیر مرتبط به آنها استفاده میکند.
مثلاً برای محاسبه میانگین و جایگزین کردن سلولهای خالی در یک ستون با آن میتوان به صورت زیر عمل کرد.