Pandas - Analyzing DataFrames

مشاهده داده‌ها

یکی از پرکاربردترین توابع شیء جهت یک نگاه سریع به داده‌ها تابع شیء head() است.

تابع شیء head() سر عنوان‌ها همراه با تعداد سطرهای مشخص شده را به ترتیب از بالا به پایین برمی‌گرداند. اگر تعداد سطرها را مشخص نکنیم، 5 سطر اول را برمی‌گرداند.

در مثال‌های این بخش از فایل 'data.csv' استفاده می‌کنیم.

دانلود data.csv


import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

خروجی:

اگر بخواهید سطرهای پایانی را مشاهده کنید، می‌توانید از تابع شیء tail() استفاده کنید. در صورتی که تعداد سطرها را برای آن مشخص کنید، آن تعداد سطر پایانی را نمایش می‌دهد و در غیر اینصورت 5 سطر پایانی را به صورت پیش‌فرض نمایش می‌دهد.


import pandas as pd

df = pd.read_csv('data.csv')

print(df.tail(10))

خروجی:

کسب اطلاعات درباره داده‌ها

شیء چارچوب داده دارای تابع شیء به اسم info() است که اطلاعات بیشتری در مورد داده‌ها در اختیار ما قرار می‌دهد.


import pandas as pd

df = pd.read_csv('home/static/data.csv')

print(df.info())

خروجی:

توضیح خروجی به دست آمده

خروجی بالا به ما می‌گوید که 169 سطر و 4 ستون وجود دارد.

و اسم هر ستون همراه با نوع داده آن

مقادیر Null

تابع شیء info() همچنین به ما می‌گوید که چه تعداد مقدار غیر Null در هر ستون وجود دارد. در مجموعه داده ما به نظر می‌رسد که در ستون 'Calories' از 169 مقدار 164 مقدار غیر Null هستند. بنابراین این ستون دارای 5 مقدار Null است (5 مقدار وارد نشده‌اند). مقادیر خالی یا Null هنگام تحلیل داده‌ها بد هستند و باید قبل از انجام تحلیل چنین سطرهایی از مجموعه داده حذف شوند. این گامی در جهتی چیزی است که به آن تمیز کردن داده گفته می‌شود. در بخش بعدی در این مورد بحث خواهیم کرد.