您可以先看下列影片,有一些概念
機器學習架構
機器學習(Machine Learning)是透過演算法,使用歷史資料進行訓練,訓練完成後會產生模型。未來當有新的資料,我們可以使用訓練產生的模型進行預測。
機器學習的訓練的資料是由 features、label組成。
- features:資料的特徵,例如:濕度、風向、風速、季節、氣壓。
- label: 資料的標籤,也就是我們希望預測的目標,例如:降雨(0:不會下雨、1:會下雨)、天候( 1:晴天、2:雨天、3:陰天、4:下雪)、氣溫。
如下圖,機器學習可分為2 階段:
- 訓練階段(Training):
訓練資料是過去累積的歷史資料,可能是文字檔、資料庫、或其他來源,經過Feature
Extraction(特徵萃取),產生Feature(資料特徵)與Label(預測目標),然後經過機器學習演算法訓練後產生模型。
- 預測階段(Predict):
新輸入資料(可能文字檔、資料庫、或其他來源),經過Feature
Extraction(特徵萃取)產生Feature(資料特徵),使用訓練完成的模型進行預測,最後產生預測結果。
機器學習分類
對於監督式學習(Supervised
Learning),從現有資料我們希望預測的答案,有下列分類:
- 二元分類
我們已知:濕度、風向、風速、季節、氣壓等資料特徵,希望預測當天是否會下雨(0.不會下雨、1.會下雨)。因為希望預測的目標label,只有2種選項,這就好像非題。
- 多元分類
我們已知:濕度、風向、風速、季節、氣壓.資料特徵,希望預測當天天氣(1.晴天、2.雨天、3.陰天、4.下雪)。因為希望預測的目標label,有多個選項,就好像選擇題。
- 回歸分析
我們已知:濕度、風向、風速、季節、氣壓等資料特徵,希望預測當天氣溫。因為希望預測的目標label是連續的值,就好像是計算題。
但是對於非監督式學習(Unsupervised
Learning),從現有資料我們不知道要預測的答案,所以沒有label(預測目標)。cluster集群分析的目的是將資料分成幾個相異性最大的群組,而群組內的相似程度最高。
我們可以整理如下列表格:
分類
|
演算法
|
Features
(特徵)
|
Label
(預測目標)
|
監督式學習
|
Binary Classification
二元分類
|
濕度、風向、風速、季節、氣壓...
|
只有0與1選項(是非題)
0:不會下雨、1:會下雨
|
監督式學習
|
Multi-Class Classification
多元分類
|
濕度、風向、風速、季節、氣壓...
|
有多個選項(選擇題)
1:晴天、2:雨天、3:陰天、4:下雪
|
監督式學習
|
Regression
回歸分析
|
濕度、風向、風速、季節、氣壓...
|
值是數值(計算題)
溫度可能是 -50~50度的範圍
|
非監督式學習
|
Clustering
群集
|
濕度、風向、風速、季節、氣壓...
|
無label
Cluster集群分析;目的是將資料分成幾個相異性最大的群組,而群組內的相似程度最高
|
機器學習分類,可以整理如下圖:
以上內容節錄自這本書,很適合入門初學者:
Python+Spark 2.0+Hadoop機器學習與大數據分析實戰 http://pythonsparkhadoop.blogspot.tw/2016/10/pythonspark-20hadoop.html
露天拍賣 http://goods.ruten.com.tw/item/show?21640846068139 蝦皮拍賣
0 意見:
張貼留言