運用近 10 年(2013~2022)內 MLB 各隊例行賽出賽球員數據,預測 2023 各隊奪冠機率。
Note
- MLB stats 爬蟲
mlb_stats_auto_crawler.ipynb
:自動爬取指定年分間的 MLB 所有隊伍例行賽出賽球員數據mlb_stats_signal_crawler.ipynb
:單一球隊球員數據爬取mlb_stats_signal_crawler.py
:單一球隊球員數據爬取mlb_stats_urls
folder:用於儲存各球隊數據網址,以便前述檔案運行
- 資料處理
data_processing.py
:用於清理爬取後的資料、加上標籤,讓資料可以餵給模型訓練
- 資料集
mlb_stats
資料夾- 進十年各隊伍所有出賽球員數據集,共 13228 筆資料,整理後按年份資料夾、球隊名稱命名為 csv 檔案格式存放
data_filter.csv
:將對於球隊影響力低的球員刪除後清理的資料,用於模型訓練data_origin.csv
:將所有資料直接清理,用於模型訓練MLB_rank.csv
:近十年各隊伍的成績排名數據
- 模型與結果
model
資料夾result
中按照模型名稱儲存,分為原始資料訓練結果與篩選資料訓練結果- txt 檔案中紀錄模型評估數據
- 圖表呈現模型效能:Q-Q Plot of Residuals、Residual Plot、Scatter Plot of True vs Predicted Values
- Regression 模型
- Gradient Boosting Regressor
- Linear Regression
- Random Forest Regressor
- SGD Regressor
- SVR