Skip to content

Latest commit

 

History

History
33 lines (21 loc) · 2.92 KB

76.機器學習基礎.md

File metadata and controls

33 lines (21 loc) · 2.92 KB

機器學習基礎

所謂“機器學習”就是利用計算機將紛繁複雜的數據處理成有用的信息,這樣就可以發掘出數據帶來的意義以及隱藏在數據背後的規律。現如今,“機器學習”和“大數據”可以說是IT行業中最熱點的兩個詞彙,而無論是“機器學習”還是“大數據”最終要解決的問題本質上是一樣的,用最爲直白的話來說就是用現有的數據去預測將來的狀況。

按照問題的“輸入”和“輸出”,我們可以將用計算機解決的問題分爲四大類:

  1. 輸入的信息是精確的,要求輸出最優解。
  2. 輸入的信息是精確的,無法找到最優解。
  3. 輸入的信息是模糊的,要求輸出最優解。
  4. 輸入的信息是模糊的,無法找到最優解。

在上面的四大類問題中,第1類問題是計算機最擅長解決的,這類問題其實就是“數值計算”和“邏輯推理”方面的問題,而傳統意義上的人工智能也就是利用邏輯推理來解決問題(如早期的“人機對弈”)。一直以來,我們都習慣於將計算機稱爲“電腦”,而基於“馮諾依曼”體系結構的“電腦”實際上只是實現了“人腦”理性思維這部分的功能,而且在這一點上“電腦”通常是優於“人腦”的,而“人腦”在處理輸入模糊信息時表現出來的強大的處理能力,在今天看來也不是“電腦”可以完全企及的。所以我們研究人工智能也好,研究機器學習也好,是希望輸入模糊信息時,計算機能夠給出滿意的甚至是最優的答案。

至此,我們可以給“機器學習”下一個定義:機器學習是一門專門研究計算機怎樣模擬或實現人類的學習行爲,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身性能的學科。機器學習目前已經廣泛的應用到生產生活的各個領域,以下列舉了一些經典的場景:

  1. 搜索引擎:根據搜索和使用習慣,優化下一次搜索的結果。
  2. 電商網站:自動推薦你可能感興趣的商品。
  3. 貸款申請:通過你最近的金融活動信息進行綜合評定。
  4. 圖像識別:自動識別圖片中有沒有不和諧的內容。

機器學習可以分爲監督學習和非監督學習。監督學習是從給定的訓練數據集中學習得到一個函數,當新的數據到來時,可以根據這個函數預測結果,監督學習的訓練集包括輸入和輸出,也可以說是特徵和目標。監督學習的目標是由人來標註的,而非監督學習的數據沒有類別信息,訓練集也沒有人爲標註結果,通過無監督學習可以減少數據特徵的維度,以便我們可以使用二維或三維圖形更加直觀地展示數據信息 。

實現機器學習的一般步驟:

  1. 數據收集
  2. 數據準備
  3. 數據分析
  4. 訓練算法
  5. 測試算法
  6. 應用算法