如今,臨床研究結果層出不窮,“史上最佳”們頻繁出沒,給臨床醫生造成困擾,以至於面對眼花繚亂的選擇,會衍生出來無助感、迷茫感,面對這些“史上最佳”不知道如何做出選擇。那麼,什麼樣的研究資料才能榮膺“史上最佳”這一光榮稱號呢?
首先,我們的總路線、總方針是明確的、一貫的、堅定不移的,那就是:所有基於間接比較而宣稱史上最佳的,都是耍流氓;所有基於探索性終點宣稱得到陽性結果的,也都是耍流氓。
敢於標榜自己是史上最佳,只有一條金標準,即:與當前標準治療相比,在頭對頭的臨床試驗中,在主要研究終點上得到統計學陽性結果,僅此,無他。如果你的“史上最佳”不僅僅得到了統計學陽性結果,而且同時得到有臨床意義的終點水平的提升,那恭喜你,這是一個“有氣質”的史上最佳(當然,什麼叫有臨床意義,只能具體情況具體分析了)。
為什麼基於間接比較無法得出確認性結論?因為每一項研究的研究背景都是不完全一樣的,而這些研究背景的差異對臨床試驗結果將會造成一定的影響,總體來說包括以下幾個方面:
1、入排標準:例如,有些研究允許腦轉移患者入組,有些則是排除標準,即使是無症狀患者也不允許入組;有些研究允許IIIb期等區域性晚期患者入組,有些不允許,這些入排標準的差異會導致研究結果有所不同。
2、評估週期:尤其是以PFS作為主要研究終點的研究,評估週期導致的偏倚更是如此。例如,有的研究每6周進行一次療效評估,而有的研究是每8周進行一次評估,顯然,後者評估的間隔會導致PFS更長,因為如果患者在6周以前進展,就意味著患者此時多了2周的PFS時間,畢竟疾病進展的準確時間難以界定;
3、檢查方式:如針對腦轉移,某些研究會定期(如6個月)對患者進行評估,但是,有些研究的規定是待患者出現症狀後,根據臨床情況決定是否進行相應的評估,而基於症狀出現後才進行評估的研究,由於判斷的滯後性,必然導致資料偏於樂觀;
4、研究設計:是單中心還是多中心?是開放標籤還是盲法設計?這些均會對療效評估造成影響。為什麼研究中心會對療效造成影響呢?舉個簡單的例子,如果鄉鎮級衛生院與大型三甲醫院相比,誰的水平相對更高一些?這種醫療技術的差異及干預的及時性與否必然會對患者的預後造成影響;此外,對於開放標籤的設計,由於研究者已經知道患者口服的是何種研究藥物,因此,不可避免的引入評估偏倚的產生。
5、研究分析人群:在臨床試驗中,意向性分析人群(ITT)是最常用的最終療效分析人群,該人群納入所有簽署知情後進入研究的患者,由於部分患者可能存在方案違背、首次療效評估前的脫落等因素,ITT分析雖然客觀,但並不完全合理。這種情況下,需要對某些患者進行剔除以組建一個新的療效分析集合——符合方案集(PP分析)。而由ITT分析轉為PP分析過程中,需要遵循怎樣的原則進行剔除,不同的研究所遵循的準則不完全一樣。通常,剔除標準會事先寫在研究方案中,並在最終鎖庫及資料揭盲之前,由研究專家、統計師等共同商議決定。
因此,頭對頭研究之所以如此可信,就是因為它把兩款藥物放在了同一個研究環境中,將上述因素完全平衡掉,得到的結果才會比較可信。當然,如果在研究背景類似(是類似)的情況下,某一款藥物具有明顯優勢,尤其是有其他外部證據證實的情況下,間接比較仍然具有很高的可信度(但結論仍然不是確認性的)。
為什麼基於探索性終點無法得到確認性結論呢?首先,我們需要明確一點,只有當某個療效終點參與了樣本含量計算的時候,得到的結論才是確認性結論。因為在一項臨床研究中,所有的研究設計,包括樣本含量計算均是圍繞著主要終點進行,如果在研究中涉及了多個主要終點,那麼就需要對相應的I類錯誤進行校正,從而得到一個新的顯著性水準,最終的P值需要跟這個新的顯著性水準進行比較,而這個新的顯著性水準已經不是通常認為的0.05。如果這個研究終點沒有納入樣本含量計算,即使最終的P值是0.01或者0.02甚至更小的一個值,那又能如何呢?由於沒有參與到樣本含量計算,已經不知道要比較的標杆是多少了。可能有同行會有疑問,此時在把這個終點納入樣本含量計算可以嗎?肯定是不可以的,因為這種重大的研究方案修訂必須要有充分的理由,對於註冊研究而言,還需要與監管部門能溝通並得到批准。更重要的是,在已經看到研究資料的情況下,後續為這個研究量身定製一個統計方法,這種“人為”做出來陽性的研究,可信度又有多少呢?
總之,在“史上最佳”已經“亂花漸欲迷人眼”的時代,非頭對頭的直接比較,尤其是同一類藥物非常有限時間的提高,並不能得到確認性結論,甚至這種差異有可能是抽樣誤差本身導致的,此時宣稱“史上最佳”是不嚴謹的。