血漿 p-tau217 可以取代 Aβ PET 或腦脊髓液（CSF）當阿茲海默症臨床試驗終點嗎？

本研究重點不是直接主張血漿 p-tau217 取代 Aβ PET 或腦脊髓液（CSF），而是把 p-tau217 的縱向變化轉譯為可用於試驗設計的效應量與樣本數估算框架。作者也指出，若要更明確定位其端點價值，未來仍需要與既有端點進行 formal non-inferiority 或 superiority 的比較。

以血漿 p-tau217 作為阿茲海默症臨床試驗主要終點（primary endpoint），Phase 3 試驗大概需要多少樣本數？

本研究以偵測 25% 藥效、80% power、α=0.05 進行樣本數估算。若僅採 Aβ 陽性（Centiloid ≥20）富集：CU 每組約 610、CI 每組約 664。若進一步採 Centiloid 20–40（中等類澱粉）富集：CU 每組約 342、CI 每組約 492，試驗規模可顯著下降。

為什麼 Centiloid 20–40（中等類澱粉）富集策略，能提升血漿 p-tau217 的效應量並降低樣本數與成本？

研究顯示在 Centiloid 20–40（中等類澱粉）區間，血漿 p-tau217 的縱向效應量更高（例如 CU 約 0.85、CI 約 0.72），因此樣本數下降（CU 每組約 342、CI 每組約 492）。作者指出，這個優勢與個體間變異度較低（尤其 CU）相關，效應量變大、樣本數自然減少，並在成本估算上帶來可量化的節省。

在 Aβ 陽性族群中，認知正常（CU）與認知受損（CI）的血漿 p-tau217 年變化差很多嗎？這對試驗設計有何意義？

在 Aβ 陽性族群中，CU 與 CI 的血漿 p-tau217 年變化率相近（CU 約 0.07 pg/mL/年；CI 約 0.08 pg/mL/年），效應量也接近（約 0.64 vs 0.62）。這提示若把 p-tau217 當主要終點，是否有症狀未必是決定端點效能的主軸；類澱粉負荷層級、基線 p-tau217 水位與變異度可能更直接影響效應量與樣本數。

血漿 p-tau217 的縱向變化與認知量表（例如 MMSE）有一致的臨床連動性嗎？

本研究顯示 p-tau217 的縱向變化與 Aβ 病理在 CU 與 CI 皆高度相關；但與 MMSE 的縱向關聯主要出現在 CI（基線 MMSE×time 與 p-tau217 變化顯著相關），CU 則不顯著。整體解讀是：p-tau217 更像是病理進展或治療反應端點；在最早期（CU）階段，與臨床認知變化的連動性可能仍受限。

血漿 p-tau217 適合用於 Phase 1–2 小型阿茲海默症試驗嗎？為何作者對早期期別較保守？

作者結論指出：血漿 p-tau217 的縱向變化可有效監測大型 Phase 3，但可能缺乏偵測小型 Phase 1–2 藥效的統計力。原因在於早期病理階段的 p-tau217 變化較溫和，加上變異度與追蹤密度等因素，可能使小型試驗難以在可行樣本數下檢出藥效；作者也提示未來可能需要其他 blood tests/assays 來追蹤更早期進展。

血漿 p-tau217 能當阿茲海默症臨床試驗主要終點嗎？樣本數、Centiloid 20–40 優化策略與 Phase 3 可行性解析

這篇發表於 2026 年《Neurology》的研究，正在重新定義阿茲海默症（AD）臨床試驗的設計邏輯。隨着血漿 p-tau217 診斷技術趨於成熟，醫學界正在關注：它能否從輔助的「診斷工具」正式跨越為決定成敗的「試驗主要終點」？

此文從試驗設計角度，評估血漿 p-tau217 作為阿茲海默症臨床試驗主要終點時的效應量與樣本數估算，並討論 Aβ PET / Centiloid 條件下的受試者篩選優化策略。

重要提問

Q1：血漿 p-tau217 能不能從「探索性生物標記」升格成阿茲海默症臨床試驗的主要終點？關鍵門檻其實是樣本數與統計力嗎？

Q2：為什麼「只用 Aβ 陽性」作為納入條件，可能不是最有效率的設計？真正能讓樣本數下降的，是更精準的入組優化（enrichment）嗎？

Q3：在 Aβ 陽性族群中，CU 與 CI 的 p-tau217 年變化率真的差很多嗎？若差不多，代表「有症狀與否」不是終點效率的關鍵因子？

Q4：如果把「p-tau217 年變化下降 25%」視為藥物效果，樣本數會大到不可行嗎？哪些入組優化設定才能讓它變得可做？

Q5：為何此研究主張「中等 Aβ 負荷（Centiloid 20-40）」是最佳的受試者優化策略？

Q6：為何 p-tau217 可能不一定適合 Phase 1–2 小型試驗？

Evaluating Plasma p-tau217 as an Endpoint for Alzheimer Disease Clinical Trials

文獻出處

Ferreira PCL, Bellaver B, Povala G, Bauer-Negrini G, Aguzzoli CS, Ferrari-Souza JP, Leffa DT, Soares C, Lussier FZ, Medeiros MS, Felix C, Ruppert E, Rohden F, Borelli WV, Karim HT, Langhough R, Christian BT, Wilson R, Hong CH, Roh HW, Patira R, Tudorascu DL, Zimmer ER, Betthauser TJ, Karikari TK, Snitz BE, Johnson SC, Son SJ, Pascoal TA. Evaluating Plasma p-tau217 as an Endpoint for Alzheimer Disease Clinical Trials. Neurology. 2026 Jan 13;106(1):e214441. doi: 10.1212/WNL.0000000000214441. Epub 2025 Dec 9. PMID: 41364889; PMCID: PMC12699484.

背景

為何血漿 p-tau217 正在被推向臨床試驗終點？

血液生物標記的角色正在從「診斷/分型輔助」走向「試驗端點與治療反應監測」。
PET 與腦脊髓液（CSF）雖是核心病理工具，但在侵入性、成本、可近性與可重複測量上存在結構性限制，促使血液端點成為可擴展解決方案。
P-tau217 的潛力：血漿 p-tau217 作為一個新興標記，已被證明與 tau 蛋白纏結病理更為相關，並在區分 AD 與非 AD 病因的認知障礙上，展現出優於其他血液標記的診斷性能。近期臨床試驗數據也顯示，p-tau217 對於藥物治療反應具有敏感性。
研究動機與缺口：雖然早期臨床試驗（如 TRAILBLAZER-ALZ）已將血漿 p-tau217 作為探索性終點，但關於其在縱向追蹤中的效應值（Effect Size）以及作為「主要終點」所需的樣本規模，目前尚缺乏系統性評估。

研究方法

研究對象

研究性質：一項回溯性研究，整合了來自四個獨立隊列的數據。
數據來源：
- ADNI (Alzheimer’s Disease Neuroimaging Initiative): 北美多中心觀察性研究。
- BICWALZS: 韓國的生物庫研究，針對慢性腦血管疾病與 AD。
- MYHAT-NI (Monongahela-Youghiogheny Healthy Aging Team-Neuroimaging:）賓州社區健康老化研究。
- WRAP (Wisconsin Registry for Alzheimer’s Prevention): 針對無症狀高風險中年成人的縱向研究。
納入標準：共 716 名參與者被納入最終分析，他們必須滿足：
- 至少有兩個時間點的血漿 p-tau217 測量值。
- 擁有基線的 Aβ-PET 成像數據。
- 完成了基線臨床評估。
臨床分組：
- 認知正常 (Cognitively Unimpaired, CU): 臨床失智評分（CDR）為 0。
- 認知受損 (Cognitively Impaired, CI): CDR ≥ 0.5，此組包含了輕度認知障礙（MCI）與 AD 失智症患者（CDR >0.5 且符合 NIA-AA probable AD dementia）
  - 功能受損程度：CI 群體進一步依據 CDR-SB 分數分為 0.5-2.5、3.0-4.0 及 4.5-9.0 三個分段。

Aβ-PET 影像量化

測量方法：使用多種 Aβ-PET 示蹤劑，包括 [¹⁸F]Florbetapir, [¹⁸F]Flutemetamol, 和 [¹¹C]PiB。
標準化：為了跨隊列比較，所有 PET 測量值（標準化攝取值比率, SUVR）均被轉換為統一的 Centiloid (CL) 量表。
分組定義：
- Aβ 陽性 (Aβ-positive): 基線 CL > 20。
- Aβ 陰性 (Aβ-negative): 基線 CL ≤ 20。
- 中等 Aβ 水平 (Intermediate Aβ levels): CL 值介於 20 至 40 之間，中等類澱粉負荷；用於區間型受試者篩選優化。

Plasma p-tau217 量化

檢測平台：使用 ALZpath 檢測法，在單分子陣列（Simoa）HD-X 平台上進行定量分析。
檢測特異性：該檢測利用一種專有的單株抗體，特異性地捕獲在蘇氨酸-217位點磷酸化的 tau 蛋白，而檢測抗體則靶向 tau 蛋白的 N 端。
執行地點：ADNI 樣本在 Foundation for the NIH (FNIH) 生物標記聯盟進行檢測；其餘樣本則在匹茲堡大學的臨床神經化學實驗室完成。

統計分析

主要變量：計算每位參與者的 p-tau217 年均變化率。
數據標準化：為消除隊列間的批次效應，各隊列的 p-tau217 值被轉換為 Z-分數，以同隊列中的 CU 且 Aβ 陰性組作為參照組。
統計模型：採用線性混合效應模型 (Linear Mixed-Effects Models)，評估 p-tau217 縱向變化與基線認知功能（MMSE）、認知功能變化之間的關聯，並將來自不同的世代研究群組作為共變量納入模型。
效應大小 (Effect Size)：定義為 p-tau217 的年均變化率除以其在特定組別中的標準差（SD）。此指標用於衡量變化的相對幅度。
樣本量估算：基於計算出的效應大小，估算在一項假設性臨床試驗中，若要檢測出 25% 的藥物治療效應（在 80% 統計效力和 5% 的第 1 型錯誤率下），每個治療組所需的參與者數量。

研究結果

參與者特徵

總體樣本：共納入 716 名參與者，平均追蹤時間約 2.2 年。
認知正常組 (CU, n=413)：
- 平均年齡 70.6 歲，58.6% 為女性。
- 平均教育年限 16.2 年，基線 MMSE 分數為 28.9。
- Aβ 狀態：26.4% (109人) 為 Aβ 陽性。
認知受損組 (CI, n=303)：
- 平均年齡 73.2 歲，54.7% 為女性。
- 平均教育年限 12.5 年，基線 MMSE 分數為 25.9。
- Aβ 狀態：48.5% (147人) 為 Aβ 陽性。
- 組成：此組中 85.5% 為輕度認知障礙 (MCI)，14.5% 為 AD 失智症。

血漿 p-tau217 長期追縱的縱向變化

總體趨勢：在超過兩年的追蹤期內，無論是 CU 組還是 CI 組，p-tau217 水平均呈現顯著的增長。
與基線的關聯：基線的 p-tau217 水平是預測其後續變化的最重要因素，兩者高度相關 (p < 0.0001)，表明其變化具有可預測性。
性別差異：研究未發現 p-tau217 的年均變化率在男性與女性之間存在顯著差異。

p-tau217 與認知功能關聯

在 CI 群體中，p-tau217 的增加速率與 MMSE 分數下降顯著相關。
在 CU 群體中，則未觀察到與 MMSE 的顯著關聯。

年變化與效應量（effect size：endpoint 的核心）

年變化率（pg/mL/年；95% CI 不跨 0 表示顯著）：
- 全體：CU 0.03；CI 0.04
- Aβ 陽性：CU 0.07；CI 0.08
- Centiloid 20–40：CU 0.06；CI 0.05
性別：年變化無顯著差異。
效應量（mean/SD）：
- 全體：CU 0.43；CI 0.33
- Aβ 陽性：CU 0.64；CI 0.62
- Centiloid 20–40：CU 0.85；CI 0.72

臨床試驗樣本量估算

偵測 25% 藥效所需每組樣本數：
- Aβ 陽性：CU 610；CI 664
- Centiloid 20–40：CU 342；CI 492

成本效益分析 (Cost Analysis)

成本假設：PET $3,000；血漿生物標記 $200；招募/同意/臨床評估 $1,000；基線+追蹤共 2 timepoints；attrition 10%。
總成本（以血漿 p-tau217 作主要終點）：
- CU Aβ 陽性：約 $22.4M；若改 Centiloid 20–40 → $10.3M（-54%）
- CI Aβ 陽性：約 $13.8M；若改 Centiloid 20–40 → $10.2M（-26%）

討論

核心發現與臨床連結：研究確認，基線血漿 p-tau217 濃度較高的個體，其後續的縱向增長也更為顯著，且此變化與認知能力下降相關。這表明 p-tau217 不僅反映了潛在的 AD 病理生理學，也與臨床症狀惡化有關。

優化策略的價值：本研究最重要的貢獻是量化了「人群優化策略」的巨大潛力。透過篩選具有中等 Aβ 負荷（intermediate Aβ burden）的參與者，能夠獲得更大的效應值（effect sizes），進而顯著減少臨床試驗所需的樣本量。此策略在認知正常（CU）組中可節省高達 54% 的成本，在認知受損（CI）組中也可節省 26%，為優化試驗設計與成本效益提供了實戰藍圖。
對臨床試驗設計的意涵：
- Phase 3 試驗的可行性：研究結果顯示，p-tau217 的縱向變化足以有效監測大型三期臨床試驗的藥物反應。相較於先前研究顯示 p-tau181 需要超過 2000 人的大型試驗，p-tau217 僅需約 600 人的樣本量即可達到足夠的統計功效，大幅提升了可行性。
- 早期試驗的挑戰：儘管 p-tau217 在大型試驗中表現優異，但研究也指出，對於規模較小的一、二期臨床試驗，其統計功效可能不足以檢測到藥物效應。這暗示在疾病最早期的微小變化，可能需要開發靈敏度更高的檢測方法。

與現有研究的比較
- 呼應：本研究的發現與 TRAILBLAZER-ALZ 等近期臨床試驗的結果一致，後者已將 p-tau217 作為探索性終點，並觀察到治療組的生物標記濃度下降。
- 差異：與一些 tau-PET 研究發現 tau 蛋白積累存在性別差異不同，本研究並未在血漿 p-tau217 的變化軌跡中觀察到顯著的性別差異，這暗示了 tau-PET 與血漿 p-tau 所反映的病理生理學可能存在不同之處。

研究的優勢與局限：
- 優勢：整合了來自專門記憶門診與社區隊列的數據，並涵蓋了白人與亞洲背景的參與者，增加了結果的廣泛適用性。
- 局限：黑人與西班牙裔的代表性不足；「中等 Aβ 濃度」的亞組樣本量較小；追蹤時間相對較短；以及所有計算均基於「25% 藥物效應」的通用假設。

Table : Centiloid 20–40 中等類澱粉量使用ptau-217的優化效果比較表

評估項目	受試者族群	Aβ 陽性組 (CL > 20)	中等 Aβ 負荷組 (CL 20–40)	優化效益 / 差異
p-tau217 年度變化率	認知正常 (CU)	0.07 pg/mL/y	0.06 pg/mL/y	變化率相近
p-tau217 年度變化率	認知障礙 (CI)	0.08 pg/mL/y	0.05 pg/mL/y	-
效應值 (Effect Size)	認知正常 (CU)	0.64	0.85	提升 32.8%
效應值 (Effect Size)	認知障礙 (CI)	0.62	0.72	提升 16.1%
每組所需樣本數 (n)	認知正常 (CU)	610 人	342 人	減少 44.0%
每組所需樣本數 (n)	認知障礙 (CI)	664 人	492 人	減少 25.9%
估算總成本 (USD)	認知正常 (CU)	2,240 萬	1,030 萬	節省 54.0%
估算總成本 (USD)	認知障礙 (CI)	1,380 萬	1,020 萬	節省 26.1%

重點問答

Q1：血漿 p-tau217 能不能從「探索性生物標記」升格成阿茲海默症臨床試驗的主要終點？關鍵門檻其實是樣本數與統計力嗎？

是。本研究關鍵不在「p-tau217 是否能反映病理」，而在「縱向效應量（annual change/SD）是否足以支撐試驗統計力」。作者把 p-tau217 端點工程化：用多隊列縱向資料與線性混合模型估計年變化，再以固定假設（25% 藥效、80% power、α=0.05）推算樣本數，直接回答 p-tau217 作為主要終點在不同入組條件下是否可行。

Q2：為什麼「只用 Aβ 陽性」作為納入條件，可能不是最有效率的設計？真正能讓樣本數下降的，是更精準的入組優化（enrichment）嗎？

此研究亮點是把「受試者篩檢優化」從二元的 Aβ 陽性/陰性，推進到連續尺度的 Centiloid 區間最佳化。當入組條件從「Aβ 陽性（CL≥20）」進一步優化到 Centiloid 20–40（中等類澱粉）**時，p-tau217 效應量上升（CU 0.85；CI 0.72），樣本數下降（CU 每組 342；CI 每組 492），且成本可量化下降（CU -54%、CI -26%）。這等於把試驗效率的主控鈕從「有沒有病理」改成「病理落在哪個最有利的區間」。

Q3：在 Aβ 陽性族群中，CU 與 CI 的 p-tau217 年變化率真的差很多嗎？若差不多，代表「有症狀與否」不是終點效率的關鍵因子？

在 Aβ 陽性人群中，CU 與 CI 的年變化率幾乎重疊（0.07 vs 0.08 pg/mL/年），效應量也接近（0.64 vs 0.62）。這暗示：若以 p-tau217 作主要終點，終點效率不一定由「有無症狀」主導；更可能由納入條件的優化程度（例如 Centiloid 區間）、基線 p-tau217 濃度與變異度決定。

Q4：如果把「p-tau217 年變化下降 25%」視為藥物效果，樣本數會大到不可行嗎？哪些入組優化設定才能讓它變得可做？

若僅用 Aβ 陽性作為入組優化條件：CU 每組約 610、CI 每組約 664，明顯偏向大型 Phase 3；若把入組條件進一步優化至 Centiloid 20–40**：CU 每組約 342、CI 每組約 492，試驗規模顯著下降。作者也提供不同 power、不同藥效假設與不同分派比例下的樣本數變化，讓設計者可把 p-tau217 終點直接應用到可執行的試驗。

Q5：為何此研究主張「中等 Aβ 負荷（Centiloid 20-40）」是最佳的受試者優化策略？

這是一個高度精準的臨床策略。傳統試驗傾向納入所有 Aβ 陽性者，但研究發現處於病理「加速窗口」的個體（CL 20-40），其 p-tau217 的效應值最高（認知正常組達 0.85）。原因在於此階段 Tau 病理正處於觸發期，變異度最小且增長斜率最陡。透過這種族群篩選優化，認知正常組所需樣本量可從 610 人驟降至 342 人，顯著提升了試驗的敏感度。

Q6：為何 p-tau217 可能不一定適合 Phase 1–2 小型試驗？

A：因為作者把結論建立在統計硬指標：在合理藥效假設與追蹤設計下，p-tau217 的縱向變化更適合大型 Phase 3；對小型 Phase 1–2 可能缺乏足夠 power。且作者指出早期病理階段 p-tau217 變化較溫和，暗示若要在更早期階段抓藥效，可能需要更敏感或更適配早期變化的血液檢測，或搭配其他終點策略。