13.4.2 下載StumbleUpon 資料
進入Kaggle 網站的StumbleUpon 頁面。
https://www.kaggle.com/c/stumbleupon/data13.4.4 複製到專案目錄
Step1. 複製下載檔案至專案data 子目錄
cp ~/下載/train.tsv ~/pythonwork/PythonProject/data cp ~/下載/test.tsv ~/pythonwork/PythonProject/data ll ~/pythonwork/PythonProject/data/*.tsvStep2. 複製到HDFS
start-all.sh cd ~/pythonwork/PythonProject/data hadoop fs -copyFromLocal *.tsv /user/hduser/data hadoop fs -ls /user/hduser/data/*.tsv13.5.1 在local 模式啟動iPython Note Book
Step1. 複製下載檔案至專案data 子目錄
cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark
請參考本書附錄APPENDIX A 本書範例程式下載與安裝說明 ,A.2 開啟本書iPython Note Book範例程式ch13.ipynb 範例檔案 。
13.13 建立RunDecisionTreeBinary.py程式
請參考本書附錄APPENDIX A 本書範例程式下載與安裝說明 ,A.3 開啟eclipse PythonProject範例程式: RunDecisionTreeBinary.py
此圖出自Spark官網 https://spark.apache.org/
以上內容節錄自這本書,很適合Python程式設計師學習Spark機器學習與大數據架構,點選下列連結查看本書詳細介紹:
Python+Spark 2.0+Hadoop機器學習與大數據分析實戰
http://pythonsparkhadoop.blogspot.tw/2016/10/pythonspark-20hadoop.html
博客來網路書店: http://www.books.com.tw/products/0010730134?loc=P_007_090
天瓏網路書店: https://www.tenlong.com.tw/items/9864341537?item_id=1023658
露天拍賣:http://goods.ruten.com.tw/item/show?21640846068139
蝦皮拍賣:https://goo.gl/IEx13P
第352頁最上面 TN , FN 的定義顛倒了!
回覆刪除