EDA ( Exploratory Data Analysis )
. 學 Machine Learning 前… 要學會很多的縮寫.. 今天學的是 EDA Exploratory Data Analysis的縮寫
Exploratory 探索
Data 資料
Analysis 分析
其實就是一種透過 檢視、視覺化、統計工具 這三個手段來達到 了解資料、發現異常、分析關聯性 的作法。
這是網路上查來的資料. 看了一下感覺像是把資料整理完後做一些統計的分析.. 如 Power BI 讓我們能夠將日常工作自動化、建立有效率的工作流程,並作出資料驅動的決策 就在做類似的功能 (BI(Business Intelligence)
看來要把統計學回頭好好地溫習一下.. 平均,中位數等等… 除了算出數字外. 接下來就是畫圖了
推薦得工具是
https://matplotlib.org/3.2.2/gallery/index.html 恩.. 一樣得要好好摸索. 就跟寫 PPT 時, 選用哪一種圖形是很重要的. 讓人可以很快地了解.
import matplotlib.pyplot as plt plt.hist(app_train["OWN_CAR_AGE"], color="blue") plt.title('OWN_CAR_AGE') plt.xlabel('Age') plt.ylabel('Count') plt.show()
簡單幾行就可以畫圖了.. 有點雷的部分是 .. 中文的字體是沒有的. 要額外再處理..QQ 所以要注意一下
但是 Code 要給別人用. 所以反而處理了中文.. 別人要比照辦理 比如要去下載 中文 tff . 反而就不好了..
結論
當資料筆數非常多時, 此時要先整理資料, 再將其量化. 以電子商務資料來說. 就可以統計出女性 每次買商品的總價大約都落在哪個區間 , 平均值為多少, 中位數為多少. 做出一些定價的策略
reference :
http://www.hmwu.idv.tw/web/R_AI_M/AI-M4-hmwu_Stat_EDA_v3.pdf 吳漢銘 老師