機器學習(Machine Learning) 介紹

由於機器學習技術的進步,應用相當廣泛,例如推薦引擎、定向廣告、需求預測、垃圾郵件過濾、醫學診斷、自然語言處理、搜索引擎、詐騙偵測、證券分析、視覺辨識、語音識別、手寫識別..等等。

您可以先看下列影片,有一些概念



機器學習架構
機器學習(Machine Learning)是透過演算法,使用歷史資料進行訓練,訓練完成後會產生模型。未來當有新的資料,我們可以使用訓練產生的模型進行預測。
機器學習的訓練的資料是由 featureslabel組成。
  • features資料的特徵,例如:濕度、風向、風速、季節、氣壓。
  • label 資料的標籤,也就是我們希望預測的目標例如:降雨(0:不會下雨、1:會下雨)、天候( 1:晴天、2:雨天、3:陰天、4:下雪)、氣溫。

如下圖,機器學習可分為2 階段:



  • 訓練階段(Training):


訓練資料是過去累積的歷史資料,可能是文字檔、資料庫、或其他來源,經過Feature Extraction(特徵萃取),產生Feature(資料特徵)與Label(預測目標),然後經過機器學習演算法訓練後產生模型。

  • 預測階段(Predict):
新輸入資料(可能文字檔、資料庫、或其他來源),經過Feature Extraction(特徵萃取)產生Feature(資料特徵),使用訓練完成的模型進行預測,最後產生預測結果。




機器學習分類
對於監督式學習(Supervised Learning),從現有資料我們希望預測的答案,有下列分類:
  •  二元分類
我們已知:濕度、風向、風速、季節、氣壓等資料特徵,希望預測當天是否會下雨(0.不會下雨、1.會下雨)。因為希望預測的目標label,只有2種選項,這就好像非題。
  •  多元分類
我們已知:濕度、風向、風速、季節、氣壓.資料特徵,希望預測當天天氣(1.晴天、2.雨天、3.陰天、4.下雪)。因為希望預測的目標label,有多個選項,就好像選擇題。
  •  回歸分析
我們已知:濕度、風向、風速、季節、氣壓等資料特徵,希望預測當天氣溫。因為希望預測的目標label是連續的值,就好像是計算題。

但是對於非監督式學習(Unsupervised Learning),從現有資料我們不知道要預測的答案,所以沒有label(預測目標)。cluster集群分析的目的是將資料分成幾個相異性最大的群組,而群組內的相似程度最高。

我們可以整理如下列表格:
分類
演算法
Features
(特徵)
Label
(預測目標)
監督式學習
Binary Classification
二元分類
濕度、風向、風速、季節、氣壓...
只有01選項(是非題)
0:不會下雨、1:會下雨
監督式學習
Multi-Class Classification
多元分類
濕度、風向、風速、季節、氣壓...
有多個選項(選擇題)
1:晴天、2:雨天、3:陰天、4:下雪
監督式學習
Regression
回歸分析
濕度、風向、風速、季節、氣壓...
值是數值(計算題)
溫度可能是 -5050度的範圍
非監督式學習
Clustering
群集
濕度、風向、風速、季節、氣壓...
label
Cluster集群分析;目的是將資料分成幾個相異性最大的群組,而群組內的相似程度最高
機器學習分類,可以整理如下圖:



以上內容節錄自這本書,很適合入門初學者:
  Python+Spark 2.0+Hadoop機器學習與大數據分析實戰 http://pythonsparkhadoop.blogspot.tw/2016/10/pythonspark-20hadoop.html

購買本書

 露天拍賣 http://goods.ruten.com.tw/item/show?21640846068139  蝦皮拍賣
Share on Google Plus

About kevin

This is a short description in the author block about the author. You edit it by entering text in the "Biographical Info" field in the user admin panel.
    Blogger Comment
    Facebook Comment

0 意見:

張貼留言