Machine Learning 筆記 EDA 是什麼 Exploratory Data Analysis

EDA ( Exploratory Data Analysis )

. 學 Machine Learning 前… 要學會很多的縮寫.. 今天學的是 EDA Exploratory Data Analysis的縮寫

Exploratory 探索

Data 資料

Analysis 分析

其實就是一種透過 檢視、視覺化、統計工具 這三個手段來達到 了解資料、發現異常、分析關聯性 的作法。

這是網路上查來的資料. 看了一下感覺像是把資料整理完後做一些統計的分析.. 如 Power BI 讓我們能夠將日常工作自動化、建立有效率的工作流程,並作出資料驅動的決策 就在做類似的功能 (BI(Business Intelligence)

看來要把統計學回頭好好地溫習一下.. 平均,中位數等等… 除了算出數字外. 接下來就是畫圖了

推薦得工具是

https://matplotlib.org/3.2.2/gallery/index.html 恩.. 一樣得要好好摸索. 就跟寫 PPT 時, 選用哪一種圖形是很重要的. 讓人可以很快地了解.

import matplotlib.pyplot as plt
plt.hist(app_train["OWN_CAR_AGE"], color="blue")
plt.title('OWN_CAR_AGE')
plt.xlabel('Age')
plt.ylabel('Count')
plt.show()

簡單幾行就可以畫圖了.. 有點雷的部分是 .. 中文的字體是沒有的. 要額外再處理..QQ 所以要注意一下

但是 Code 要給別人用. 所以反而處理了中文.. 別人要比照辦理 比如要去下載 中文 tff . 反而就不好了..

結論

當資料筆數非常多時, 此時要先整理資料, 再將其量化. 以電子商務資料來說. 就可以統計出女性 每次買商品的總價大約都落在哪個區間 , 平均值為多少, 中位數為多少. 做出一些定價的策略

reference :

http://www.hmwu.idv.tw/web/R_AI_M/AI-M4-hmwu_Stat_EDA_v3.pdf 吳漢銘 老師

https://medium.com/@tobby168/%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92%E9%A6%AC%E6%8B%89%E6%9D%BE-%E4%B8%80-eda-%E6%A8%99%E6%BA%96%E5%8C%96-%E7%9B%B8%E9%97%9C%E4%BF%82%E6%95%B8-kde-%E9%9B%A2%E6%95%A3%E5%8C%96-4cf9de9b239c#:~:text=EDA%E6%98%AF%20Exploratory%20Data%20Analysis%E7%9A%84%E7%B8%AE%E5%AF%AB%EF%BC%8C%E5%85%B6%E5%AF%A6%E5%B0%B1%E6%98%AF%E4%B8%80%E7%A8%AE%E9%80%8F%E9%81%8E,%E6%AA%A2%E8%A6%96%E3%80%81%E8%A6%96%E8%A6%BA%E5%8C%96%E3%80%81%E7%B5%B1%E8%A8%88%E5%B7%A5%E5%85%B7%20%E9%80%99%E4%B8%89%E5%80%8B%E6%89%8B%E6%AE%B5%E4%BE%86%E9%81%94%E5%88%B0%20%E4%BA%86%E8%A7%A3%E8%B3%87%E6%96%99%E3%80%81%E7%99%BC%E7%8F%BE%E7%95%B0%E5%B8%B8%E3%80%81%E5%88%86%E6%9E%90%E9%97%9C%E8%81%AF%E6%80%A7%20%E7%9A%84%E4%BD%9C%E6%B3%95%E3%80%82

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *