Skip to content

Latest commit

 

History

History
186 lines (115 loc) · 7.66 KB

癌症偵測深度學習.md

File metadata and controls

186 lines (115 loc) · 7.66 KB

癌症偵測深度學習

Agenda

Note

皮膚癌

  • 美國每年約有20%患有皮膚癌,但絕大多數是良性癌。

皮膚癌生存機率

  • 零期跟四期生存機率差異相當大。
  • 零期跟四期從皮膚表面觀察卻有相當相似(深度不同)。

363

醫學分類

  • 必須要經過非常嚴格的訓練的皮膚科醫生,才有辦法分類這些黑素瘤的不同。

364

數據

  • 收集約13萬張皮膚影像,並且都有正確分類了皮膚狀況。
  • 將皮膚疾病的粗分成下列幾項大類別。

365

圖像挑戰

  • 根据以下图像,如何找出决定病变是良性(上方)还是恶性(下方)病变的特征吗?
  • benign(良性), malignant(惡性), epidermal lseion(表皮損傷), melanocytic lesion(黑素細胞病變)

366

數據挑戰

  • 除了收集數據外,還要花大量的時間清洗數據和整合數據。
  • 在清洗這些皮膚的數據影像時,會遇到重合,分辨率改變,亮度改變等挑戰。

訓練神經網路

  • input: 皮膚狀況圖片
  • Inception V3
  • ouptut: 757種不同的皮膚疾病

367

隨機權重跟預初始化權重

  • 隨機權重:不經過transfer learning,直接隨機權重從頭訓練辨識皮膚影像。
  • 預初始化權重:經過transfer learning,拿之前訓練辨識貓狗的權重,開始訓練辨識皮膚影像。
  • 以上哪個辨識皮膚影像的結果比較好?? - Ans: 預初始化權重
  • 神經網路內部在學習辨識時,抓到了某些pattern其實是跟圖片類別沒有什麼關係。

訓練驗證

  • validation test的結果準確率約72%。
  • 接下來把這些validation test的影像給兩位不同醫生來做鑑定,發現醫生鑑定的準確率分別約為65.6%跟66%。
  • 機器觀察皮膚影像的準確率是否比醫生還準確

368

敏感性與特異性

  • 在癌症示例中,敏感性和特异性指:

    • 敏感性:在患有癌症的所有人中,诊断正确的人有多少?
    • 特异性:在未患癌症的所有人中,诊断正确的人有多少?
  • 查准率和查全率的定义如下:

    • 查准率:在被诊断患有癌症的所有人中,多少人确实得了癌症?
    • 查全率:在患有癌症的所有人中,多少人被诊断患有癌症?
  • TP, TN, FP, FN

369

  • 敏感性與特異性

370

  • 查准率和查全率

371

癌症診斷

  • 我们将 0.2、0.5 和 0.8 作为阈值。请注意:
    • 在 0.2 下,我们正确分类了每个恶性病变,但也对许多良性病变进行了进一步检查。
    • 在 0.5 下,我们未诊断出一些恶性病变(严重),对少许良性病变进行了进一步检查。
    • 在 0.8 下,我们对大部分良性病变进行了正确分类,但未诊断出许多恶性病变(非常严重)。

372

  • 在该模型中,可能会有更好的阈值。这个阈值是多少? Ans: 0.4

ROC曲線

  • 真阳性率作为水平轴,将假阳性率作为垂直轴。

373

  • 在这一节课,我将使用不同的 ROC 曲线。我使用的曲线好像是把这个曲线侧翻了一样
    • 把敏感性作为水平轴、特异性作为垂直轴

374

  • 水平轴上的值都是可能阈值。对于 0 和 1 之间的任何阈值p,模型的结论如下:“该阈值左边的所有病变都被视为良性,其右边的所有病变都被视为恶性,并会接受进一步检查。”

  • 敏感性:在所有恶性病变中,位于阈值右侧的病变(正确分类)的百分比是多少?

  • 特异性:在所有良性病变中,位于阈值左侧的病变(正确分类)的百分比是多少?

  • 我们将(敏感性,特异性)作为坐标系,绘制出这个点。如果绘制出与 0% 和 100% 之间的每个可能阈值对应的所有点,则会得到我在上面绘制的 ROC 曲线。因此,也可以将 ROC 曲线称为敏感性-特异性曲线。

375

與醫生結果相比

  • 在ROC曲線中,右上角這塊是最容易誤判的區域。

376

  • 紅點是一位皮膚科醫醫生的診斷結果。
    • 離藍色區域下面很遠。
    • 對於相同的特異性,他會比正常程序遺漏3倍。

378

  • 左側是傳統影像,右側是利用特殊的皮膚鏡裝置的影像。
  • 紅點是所有皮膚科醫醫生根據影像判斷是否有可能癌症的機率。
  • 綠點是平均值。
  • 結果是相當分散的,表示有些醫生會積極地把樣本送到實驗室進一步檢測,有利於癌症發現,但有些可能不會這樣做,進而降低診斷成本,而是否可以正確判斷出皮膚癌,取決於你所選擇的醫生。

377

可視化

  • 透過機器學習的可視化分類,發現機器的確將不同類的圖像很好聚合再一起。說明某種基礎空間跟視覺圖是有相關的。

379

神經網路關注是什麼

  • 在這些圖像中到底有哪些特徵,讓神經網路可以判斷出這樣的結果?
    • 點顏色的深淺,就是一種特徵,點越黑就越有可能。
    • 點的分佈,也是一種特徵,分布越散就越有可能。

380

混淆矩陣

  • 每個項目皆是0~1之間。
  • 每一列的合為1。

381

  • CNN跟其他兩位皮膚科醫生的混淆矩陣。
    • CNN在對於不同皮膚疾病的診斷較的判斷準確率較有一致性。(斜對角顏色較一致)
    • 皮膚科醫生在某些不同皮膚疾病的診斷可能比較容易誤判。

382