第13章 Python Spark MLlib 決策樹二元分類


13.4.2 下載StumbleUpon 資料
進入Kaggle 網站的StumbleUpon 頁面。
https://www.kaggle.com/c/stumbleupon/data
13.4.4 複製到專案目錄
Step1. 複製下載檔案至專案data 子目錄
cp ~/下載/train.tsv ~/pythonwork/PythonProject/data
cp ~/下載/test.tsv ~/pythonwork/PythonProject/data
ll ~/pythonwork/PythonProject/data/*.tsv
Step2. 複製到HDFS

start-all.sh
cd ~/pythonwork/PythonProject/data
hadoop fs -copyFromLocal *.tsv /user/hduser/data
hadoop fs -ls /user/hduser/data/*.tsv

13.5.1 在local 模式啟動iPython Note Book
Step1. 複製下載檔案至專案data 子目錄
cd ~/pythonwork/ipynotebook


PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark

請參考本書附錄APPENDIX A 本書範例程式下載與安裝說明 ,A.2 開啟本書iPython Note Book範例程式ch13.ipynb 範例檔案 。


 13.13 建立RunDecisionTreeBinary.py程式
請參考本書附錄APPENDIX A 本書範例程式下載與安裝說明 ,A.3 開啟eclipse PythonProject範例程式: RunDecisionTreeBinary.py
此圖出自Spark官網 https://spark.apache.org/


以上內容節錄自這本書,很適合Python程式設計師學習Spark機器學習與大數據架構,點選下列連結查看本書詳細介紹:
  Python+Spark 2.0+Hadoop機器學習與大數據分析實戰
  http://pythonsparkhadoop.blogspot.tw/2016/10/pythonspark-20hadoop.html

《購買本書 限時特價專區》
博客來網路書店: http://www.books.com.tw/products/0010730134?loc=P_007_090

天瓏網路書店: https://www.tenlong.com.tw/items/9864341537?item_id=1023658
  

露天拍賣:http://goods.ruten.com.tw/item/show?21640846068139
蝦皮拍賣:https://goo.gl/IEx13P 



Share on Google Plus

About kevin

This is a short description in the author block about the author. You edit it by entering text in the "Biographical Info" field in the user admin panel.
    Blogger Comment
    Facebook Comment

1 意見: