Pandas - Cleaning Data of Wrong Format
داده با فرمت اشتباه
اگر سلولی دارای داده با فرمت اشتباه باشد، میتواند کار تحلیل داده را بسیار پیچیده و یا حتی غیر ممکن سازد.
برای حل مشکل دو راه پیش رو دارید، یا کل سطر شامل داده با فرمت اشتباه را حذف کنید یا اینکه همه سلولهای با فرمت اشتباه داخل ستون را به فرمت درست تبدیل کنید.
تبدیل به فرمت درست
در مجموعه دادهای که در اختیار داریم، دو سلول دارای فرمت اشتباه هستند، سطرهای 22 و 26 از ستون تاریخ که باید به صورت رشتهای معرف تاریخ نوشته میشدند.
بیایید ابتدا سعی کنیم همه مقادیر ستون تاریخ را به تاریخ تبدیل کنیم.
برای انجام این کار Pandas دارای تابع شیء to_datetime()
است.
چنانکه از نتیجه مشاهده میکنید، تاریخ سطر 26ام درست شده ولی تاریخ سطر 22ام مقدار NaT مخفف Not a Time را گرفته است، به عبارت دیگر یک مقدار خالی. همانطور که میدانید یکی از راههای برخورد با سلول خالی حذف سطر مربوط به آن با استفاده از تابع شیء dropna()
است که در بخش قبلی توضیح داده شد.