這篇發表於 2026 年《Neurology》的研究,正在重新定義阿茲海默症(AD)臨床試驗的設計邏輯 。隨着血漿 p-tau217 診斷技術趨於成熟,醫學界正在關注:它能否從輔助的「診斷工具」正式跨越為決定成敗的「試驗主要終點」 ?
此文從試驗設計角度,評估血漿 p-tau217 作為阿茲海默症臨床試驗主要終點時的效應量與樣本數估算,並討論 Aβ PET / Centiloid 條件下的受試者篩選優化策略。
重要提問
Q1:血漿 p-tau217 能不能從「探索性生物標記」升格成阿茲海默症臨床試驗的主要終點?關鍵門檻其實是樣本數與統計力嗎?
Q2:為什麼「只用 Aβ 陽性」作為納入條件,可能不是最有效率的設計?真正能讓樣本數下降的,是更精準的入組優化(enrichment)嗎?
Q3:在 Aβ 陽性族群中,CU 與 CI 的 p-tau217 年變化率真的差很多嗎?若差不多,代表「有症狀與否」不是終點效率的關鍵因子?
Q4:如果把「p-tau217 年變化下降 25%」視為藥物效果,樣本數會大到不可行嗎?哪些入組優化設定才能讓它變得可做?
Q5:為何此研究主張「中等 Aβ 負荷(Centiloid 20-40)」是最佳的受試者優化策略?
Q6:為何 p-tau217 可能不一定適合 Phase 1–2 小型試驗?
Evaluating Plasma p-tau217 as an Endpoint for Alzheimer Disease Clinical Trials
文獻出處
背景
為何血漿 p-tau217 正在被推向臨床試驗終點?
血液生物標記的角色正在從「診斷/分型輔助」走向「試驗端點與治療反應監測」。
PET 與腦脊髓液(CSF)雖是核心病理工具,但在侵入性、成本、可近性與可重複測量上存在結構性限制,促使血液端點成為可擴展解決方案。
- P-tau217 的潛力:血漿 p-tau217 作為一個新興標記,已被證明與 tau 蛋白纏結病理更為相關,並在區分 AD 與非 AD 病因的認知障礙上,展現出優於其他血液標記的診斷性能。近期臨床試驗數據也顯示,p-tau217 對於藥物治療反應具有敏感性。
研究動機與缺口:雖然早期臨床試驗(如 TRAILBLAZER-ALZ)已將血漿 p-tau217 作為探索性終點,但關於其在縱向追蹤中的效應值(Effect Size)以及作為「主要終點」所需的樣本規模,目前尚缺乏系統性評估 。
研究方法
研究對象
- 研究性質:一項回溯性研究,整合了來自四個獨立隊列的數據。
- 數據來源:
- ADNI (Alzheimer’s Disease Neuroimaging Initiative): 北美多中心觀察性研究。
- BICWALZS: 韓國的生物庫研究,針對慢性腦血管疾病與 AD。
- MYHAT-NI (Monongahela-Youghiogheny Healthy Aging Team-Neuroimaging:) 賓州社區健康老化研究。
- WRAP (Wisconsin Registry for Alzheimer’s Prevention): 針對無症狀高風險中年成人的縱向研究。
- 納入標準:共 716 名參與者被納入最終分析,他們必須滿足:
- 至少有兩個時間點的血漿 p-tau217 測量值。
- 擁有基線的 Aβ-PET 成像數據。
- 完成了基線臨床評估。
- 臨床分組:
- 認知正常 (Cognitively Unimpaired, CU): 臨床失智評分(CDR)為 0。
- 認知受損 (Cognitively Impaired, CI): CDR ≥ 0.5,此組包含了輕度認知障礙(MCI)與 AD 失智症患者(CDR >0.5 且符合 NIA-AA probable AD dementia)
- 功能受損程度:CI 群體進一步依據 CDR-SB 分數分為 0.5-2.5、3.0-4.0 及 4.5-9.0 三個分段 。
Aβ-PET 影像量化
- 測量方法:使用多種 Aβ-PET 示蹤劑,包括 [¹⁸F]Florbetapir, [¹⁸F]Flutemetamol, 和 [¹¹C]PiB。
- 標準化:為了跨隊列比較,所有 PET 測量值(標準化攝取值比率, SUVR)均被轉換為統一的 Centiloid (CL) 量表。
- 分組定義:
- Aβ 陽性 (Aβ-positive): 基線 CL > 20。
- Aβ 陰性 (Aβ-negative): 基線 CL ≤ 20。
- 中等 Aβ 水平 (Intermediate Aβ levels): CL 值介於 20 至 40 之間,中等類澱粉負荷;用於區間型受試者篩選優化。
Plasma p-tau217 量化
- 檢測平台:使用 ALZpath 檢測法,在單分子陣列(Simoa)HD-X 平台上進行定量分析。
- 檢測特異性:該檢測利用一種專有的單株抗體,特異性地捕獲在蘇氨酸-217位點磷酸化的 tau 蛋白,而檢測抗體則靶向 tau 蛋白的 N 端。
- 執行地點:ADNI 樣本在 Foundation for the NIH (FNIH) 生物標記聯盟進行檢測;其餘樣本則在匹茲堡大學的臨床神經化學實驗室完成。
統計分析
- 主要變量:計算每位參與者的 p-tau217 年均變化率。
- 數據標準化:為消除隊列間的批次效應,各隊列的 p-tau217 值被轉換為 Z-分數,以同隊列中的 CU 且 Aβ 陰性組作為參照組。
- 統計模型:採用線性混合效應模型 (Linear Mixed-Effects Models),評估 p-tau217 縱向變化與基線認知功能(MMSE)、認知功能變化之間的關聯,並將來自不同的世代研究群組作為共變量納入模型。
- 效應大小 (Effect Size):定義為 p-tau217 的年均變化率除以其在特定組別中的標準差(SD)。此指標用於衡量變化的相對幅度。
- 樣本量估算:基於計算出的效應大小,估算在一項假設性臨床試驗中,若要檢測出 25% 的藥物治療效應(在 80% 統計效力和 5% 的 第 1 型錯誤率下),每個治療組所需的參與者數量。
研究結果
參與者特徵
- 總體樣本:共納入 716 名參與者,平均追蹤時間約 2.2 年。
- 認知正常組 (CU, n=413):
- 平均年齡 70.6 歲,58.6% 為女性。
- 平均教育年限 16.2 年,基線 MMSE 分數為 28.9。
- Aβ 狀態:26.4% (109人) 為 Aβ 陽性。
- 認知受損組 (CI, n=303):
- 平均年齡 73.2 歲,54.7% 為女性。
- 平均教育年限 12.5 年,基線 MMSE 分數為 25.9。
- Aβ 狀態:48.5% (147人) 為 Aβ 陽性。
- 組成:此組中 85.5% 為輕度認知障礙 (MCI),14.5% 為 AD 失智症。
血漿 p-tau217 長期追縱的縱向變化
- 總體趨勢:在超過兩年的追蹤期內,無論是 CU 組還是 CI 組,p-tau217 水平均呈現顯著的增長。
- 與基線的關聯:基線的 p-tau217 水平是預測其後續變化的最重要因素,兩者高度相關 (p < 0.0001),表明其變化具有可預測性。
- 性別差異:研究未發現 p-tau217 的年均變化率在男性與女性之間存在顯著差異。
p-tau217 與認知功能關聯
在 CI 群體中,p-tau217 的增加速率與 MMSE 分數下降顯著相關 。
在 CU 群體中,則未觀察到與 MMSE 的顯著關聯。
年變化與效應量(effect size:endpoint 的核心)
年變化率(pg/mL/年;95% CI 不跨 0 表示顯著):
全體:CU 0.03;CI 0.04
Aβ 陽性:CU 0.07;CI 0.08
Centiloid 20–40:CU 0.06;CI 0.05
性別:年變化無顯著差異。
效應量(mean/SD):
全體:CU 0.43;CI 0.33
Aβ 陽性:CU 0.64;CI 0.62
Centiloid 20–40:CU 0.85;CI 0.72
臨床試驗樣本量估算
偵測 25% 藥效所需每組樣本數:
Aβ 陽性:CU 610;CI 664
Centiloid 20–40:CU 342;CI 492
成本效益分析 (Cost Analysis)
成本假設:PET $3,000;血漿生物標記 $200;招募/同意/臨床評估 $1,000;基線+追蹤共 2 timepoints;attrition 10%。
總成本(以血漿 p-tau217 作主要終點):
CU Aβ 陽性:約 $22.4M;若改 Centiloid 20–40 → $10.3M(-54%)
CI Aβ 陽性:約 $13.8M;若改 Centiloid 20–40 → $10.2M(-26%)
討論
- 核心發現與臨床連結:研究確認,基線血漿 p-tau217 濃度較高的個體,其後續的縱向增長也更為顯著,且此變化與認知能力下降相關。這表明 p-tau217 不僅反映了潛在的 AD 病理生理學,也與臨床症狀惡化有關。
- 優化策略的價值:本研究最重要的貢獻是量化了「人群優化策略」的巨大潛力。透過篩選具有中等 Aβ 負荷(intermediate Aβ burden)的參與者,能夠獲得更大的效應值(effect sizes),進而顯著減少臨床試驗所需的樣本量。此策略在認知正常(CU)組中可節省高達 54% 的成本,在認知受損(CI)組中也可節省 26%,為優化試驗設計與成本效益提供了實戰藍圖。
- 對臨床試驗設計的意涵:
- Phase 3 試驗的可行性:研究結果顯示,p-tau217 的縱向變化足以有效監測大型三期臨床試驗的藥物反應。相較於先前研究顯示 p-tau181 需要超過 2000 人的大型試驗,p-tau217 僅需約 600 人的樣本量即可達到足夠的統計功效,大幅提升了可行性。
- 早期試驗的挑戰:儘管 p-tau217 在大型試驗中表現優異,但研究也指出,對於規模較小的一、二期臨床試驗,其統計功效可能不足以檢測到藥物效應。這暗示在疾病最早期的微小變化,可能需要開發靈敏度更高的檢測方法。
- 與現有研究的比較
- 呼應:本研究的發現與 TRAILBLAZER-ALZ 等近期臨床試驗的結果一致,後者已將 p-tau217 作為探索性終點,並觀察到治療組的生物標記濃度下降。
- 差異:與一些 tau-PET 研究發現 tau 蛋白積累存在性別差異不同,本研究並未在血漿 p-tau217 的變化軌跡中觀察到顯著的性別差異,這暗示了 tau-PET 與血漿 p-tau 所反映的病理生理學可能存在不同之處。
- 研究的優勢與局限:
- 優勢:整合了來自專門記憶門診與社區隊列的數據,並涵蓋了白人與亞洲背景的參與者,增加了結果的廣泛適用性。
- 局限:黑人與西班牙裔的代表性不足;「中等 Aβ 濃度」的亞組樣本量較小;追蹤時間相對較短;以及所有計算均基於「25% 藥物效應」的通用假設。
Table : Centiloid 20–40 中等類澱粉量使用ptau-217的優化效果比較表
| 評估項目 | 受試者族群 | Aβ 陽性組 (CL > 20) | 中等 Aβ 負荷組 (CL 20–40) | 優化效益 / 差異 |
|---|---|---|---|---|
| p-tau217 年度變化率 | 認知正常 (CU) | 0.07 pg/mL/y | 0.06 pg/mL/y | 變化率相近 |
| 認知障礙 (CI) | 0.08 pg/mL/y | 0.05 pg/mL/y | - | |
| 效應值 (Effect Size) | 認知正常 (CU) | 0.64 | 0.85 | 提升 32.8% |
| 認知障礙 (CI) | 0.62 | 0.72 | 提升 16.1% | |
| 每組所需樣本數 (n) | 認知正常 (CU) | 610 人 | 342 人 | 減少 44.0% |
| 認知障礙 (CI) | 664 人 | 492 人 | 減少 25.9% | |
| 估算總成本 (USD) | 認知正常 (CU) | 2,240 萬 | 1,030 萬 | 節省 54.0% |
| 認知障礙 (CI) | 1,380 萬 | 1,020 萬 | 節省 26.1% |
重點問答
Q1:血漿 p-tau217 能不能從「探索性生物標記」升格成阿茲海默症臨床試驗的主要終點?關鍵門檻其實是樣本數與統計力嗎?
是。本研究關鍵不在「p-tau217 是否能反映病理」,而在「縱向效應量(annual change/SD)是否足以支撐試驗統計力」。作者把 p-tau217 端點工程化:用多隊列縱向資料與線性混合模型估計年變化,再以固定假設(25% 藥效、80% power、α=0.05)推算樣本數,直接回答 p-tau217 作為主要終點在不同入組條件下是否可行。
Q2:為什麼「只用 Aβ 陽性」作為納入條件,可能不是最有效率的設計?真正能讓樣本數下降的,是更精準的入組優化(enrichment)嗎?
此研究亮點是把「受試者篩檢優化」從二元的 Aβ 陽性/陰性,推進到連續尺度的 Centiloid 區間最佳化。當入組條件從「Aβ 陽性(CL≥20)」進一步優化到 Centiloid 20–40(中等類澱粉)**時,p-tau217 效應量上升(CU 0.85;CI 0.72),樣本數下降(CU 每組 342;CI 每組 492),且成本可量化下降(CU -54%、CI -26%)。這等於把試驗效率的主控鈕從「有沒有病理」改成「病理落在哪個最有利的區間」。
Q3:在 Aβ 陽性族群中,CU 與 CI 的 p-tau217 年變化率真的差很多嗎?若差不多,代表「有症狀與否」不是終點效率的關鍵因子?
在 Aβ 陽性人群中,CU 與 CI 的年變化率幾乎重疊(0.07 vs 0.08 pg/mL/年),效應量也接近(0.64 vs 0.62)。這暗示:若以 p-tau217 作主要終點,終點效率不一定由「有無症狀」主導;更可能由納入條件的優化程度(例如 Centiloid 區間)、基線 p-tau217 濃度與變異度決定。
Q4:如果把「p-tau217 年變化下降 25%」視為藥物效果,樣本數會大到不可行嗎?哪些入組優化設定才能讓它變得可做?
若僅用 Aβ 陽性作為入組優化條件:CU 每組約 610、CI 每組約 664,明顯偏向大型 Phase 3;若把入組條件進一步優化至 Centiloid 20–40**:CU 每組約 342、CI 每組約 492,試驗規模顯著下降。作者也提供不同 power、不同藥效假設與不同分派比例下的樣本數變化,讓設計者可把 p-tau217 終點直接應用到可執行的試驗。
Q5:為何此研究主張「中等 Aβ 負荷(Centiloid 20-40)」是最佳的受試者優化策略?
這是一個高度精準的臨床策略 。傳統試驗傾向納入所有 Aβ 陽性者,但研究發現處於病理「加速窗口」的個體(CL 20-40),其 p-tau217 的效應值最高(認知正常組達 0.85) 。原因在於此階段 Tau 病理正處於觸發期,變異度最小且增長斜率最陡 。透過這種族群篩選優化,認知正常組所需樣本量可從 610 人驟降至 342 人,顯著提升了試驗的敏感度 。
Q6:為何 p-tau217 可能不一定適合 Phase 1–2 小型試驗?
A:因為作者把結論建立在統計硬指標:在合理藥效假設與追蹤設計下,p-tau217 的縱向變化更適合大型 Phase 3;對小型 Phase 1–2 可能缺乏足夠 power。且作者指出早期病理階段 p-tau217 變化較溫和,暗示若要在更早期階段抓藥效,可能需要更敏感或更適配早期變化的血液檢測,或搭配其他終點策略。