Cox回帰でHazard ratioが非常に大きくなる場合について

ono_snin · 2020 年 9 月 14 日午前 7:24

Cox回帰で生存モデルの解析を行っています。
生存期間、イベントの入力をして、説明変数を3つ入力しました。
n=25です。

モデルは構築できたのですが、イベント総数は4で、イベントが起きたのはすべて説明変数Xが1(True)のときとなり、Xのstd Error = 20000, P value = 0.999, Hazard ratio = 1.2x10^9と他の説明変数と比較して非常に大きな値となっています。

統計的にこちらは有効な解析であるといっていいかどうかお聞きできましたら幸いです。

sugiaki · 2020 年 9 月 17 日午後 2:13

@ono_snin

有効な解析かどうかは、分野や分析者の判断によると思いますので、なんとも決めづらいかと思いますが、「モデルの仮定」と「モデル内容」から考えるのはいかがでしょうか。

まずは、ハザード比などよりも先に、Cox回帰のモデルの仮定である「比例ハザード性」が満たされているかどうかを確認されるのはどうでしょうか。カプランマイヤー法で推定された生存関数の二重対数をとったものが、時間によらずグラフの間隔が一定であれば「比例ハザード性」の仮定は満たせているので、その点では有効な解析といえる材料の1つが手に入るかと思います。満たされない場合、「変数×時間」の交互作用を含んでモデル化したり、「層化」する方法などで対処することになるかと思います。

とのことなので、「共変量がイベントの起こりやすさにどの程度影響するのか(ハザード率の時間的な変化には注目しない)」ということを目的に分析されているかと思いますが、頂いた情報を見る限り「4つのイベントの発生」は「すべて説明変数Xが1のとき」と書かれているので、私の認識に誤りがなければですが・・・

そもそもモデル化する前に、データを見た段階の解釈として「変数X=1のときにイベントが発生し、変数X=0のときはイベントが発生しない」ということになるかと思います。つまり、このデータの状況であれば、変数X=1のときはイベントが必ず起こり、イベントと変数Xは非常に強い関係性があると考えられます。クロス集計したら対角にだけ値が入る状態です。

このようなデータの状況なので、必然的に変数Xのハザード比が高くなるのは予想できます。また線形回帰モデルでいうところの線形結合(linear combination)の問題で解をうまく求められていないように思えます(Cox回帰のパラメタは部分尤度推定法で求められますが、そこまで私も数理的に強くないので、明言できません・・・すいません。)。

Hazard ratioにしても、std Errorにしても、あまりにも高すぎるので、個人的にこのモデルからどうこう言うのはあまりよろしくない印象です。私であれば、サンプルサイズを増やすか、Cox回帰を使わず、クロス集計で変数との関連性を説明するかで対処します。