篮彩让分胜负预测|篮球让分胜负算不算加时
about

企業生存概率如何預測?Cox回歸分析或可告訴你

2018-11-29 11:36 來源:未知 作者:admin

企業生存風險如何預測?

——

最近譽存科技的數據科學家們在模型開發中又取得了一項新的進展。通過引進Cox回歸分析,進一步優化了企業失信、破產預測模型,使得我們對企業風險變化的預測,可以隨時間的變化而相應變化,最終獲得更為科學動態的預測結果。

Cox回歸分析

一、為什么選擇Cox回歸分析?

Cox回歸模型,又稱比例風險回歸模型(Proportional hazards model)。1972年,由英國統計學家D.R.Cox提出,是一種半參數回歸模型。

該模型以生存結局和生存時間為應變量,可同時分析眾多因素對生存期的影響。它不僅考慮事件是否發生,也考慮事件發生出現的時間,能分析帶有截尾生存時間的數據,且不要求估計數據的生存分布類型。自問世以來,Cox回歸在醫學隨訪研究中受到廣泛應用,是迄今生存分析中應用最多的多因素分析方法。
 

Cox回歸分析

綜上所述,我們可以很清晰的明了,醫學隨訪研究與企業風險預測其實在本質上是相通的,都是關于主體生存資料的分析。

同時,我們也發現,那些基于常規分析模型所做的企業風險預測,往往會存在兩個問題:

1、歷史數據的標簽一般基于當前狀態來判斷,沒有考慮時間的變量;

2、模型輸出值僅為當前發生風險的概率,不涉及未來一段時間內的風險概率。

所以,如果引入Cox回歸分析構建關于企業生存的分析模型,我們就能加入更多基于時間的變量因素,預測出未來一段時間內企業發生失信、破產等風險的概率。
 

二、Cox回歸模型的理論推導

Cox回歸模型的基本原理

生存分析是將結局或終點事件和出現這一結局所經歷的時間結合起來分析的一種統計方法。
 

Cox回歸模型

首先,我們需要明確生存分析中常用的6個術語,如下:

(1)起始事件:反應研究對象開始生存過程的起始特征事件。         

(2)終點事件:出現研究者所關心的特定結局。

(3)觀察時間:從研究開始觀察到研究觀察結束的時間。

(4)生存時間:觀察到的存活時間。

(5)完全數據:從觀察起點到死亡事件所經歷的時間,生存時間是完整的。

(6)截尾數據:觀察時間不是由于終點事件而結束的,而是由于失訪、死于非研究因素、觀察結束以上三種原因結束而對象仍存活的。
 

Cox回歸分析的一般條件

①比例風險假定:即PH假定,常通過觀察自變量分組的Kaplan-Meier生存曲線。若曲線無明顯的交叉,則提示滿足PH假定。

②樣本含量:一般需要協變量的15~20倍的陽性結局事件數。
 

Cox回歸的風險函數公式

Cox回歸的風險函數公式

其中,Cox回歸分析是線性模型的系數(未知參數),Cox回歸分析是基準風險函數,exp(...)這個式子描述了企業主體觀察到回歸變量Cox回歸分析的破產風險比例;式中h(t)是具有協變量x的個體在時刻t的風險函數,t表示生存時間。∀i∈N,βi>0,表示該協變量是危險因素,越大使得生存時間越短。∀i∈N,βi<0表示該協變量是保護因素,越大使得生存時間越長。
 

三、Cox回歸模型的應用案例

我們的模型研究以企業發生失信或破產為結局,各類風險參數為主要研究因素,欲了解哪個參數對企業主體的生存影響更大,即可應用Cox比例風險模型進行分析。

下面,以企業破產風險預測為例:

>>> 預測某公司在未來時間段的破產概率

1. 樣本

正樣本:2W個 (隨機抽取的未破產公司)

負樣本:3707個 (從破產公告中解析出來)

2. 提取特征

包含司法類、股東類、法人類、工商類等數十個特征

3. 訓練模型

模型的數據預處理流程跟一般的模型分析類似,如下圖所示:

Cox回歸分析

本次模型構建最優訓練步長為0.05, 得到模型的綜合評價指標Concordance =0.756,表明具有較好的區分度。同時,從模型的輸出結果可以看出最終有14個特征具有統計學上顯著意義。比如,一個企業作為被告身份涉及的訴訟次數(defendant_judgedoc_cnt),法人的關聯企業涉及的執行次數(network_fr_zhixing_cnt)對企業風險影響較大。

Cox回歸分析

進一步地,利用Cox模型我們還可以考察單一因素對企業風險的影響,例如:

(1)“成立年限”對破產預測模型的影響:成立年限越長,其相對的風險越大。

Cox回歸分析

(2)“股東變更次數”對企業破產風險的影響:股東變更次數越多對企業風險影響也越大。

Cox回歸分析

此外,需了解一點。在實際應用中,Cox回歸的結局不一定就是破產或者失信,還可能表現為跑路、行政處罰、工商吊銷等,不同的時間周期會表現出不一樣的結果。

四、備注


在進行Cox回歸分析前,如果樣本不多而變量較多,建議先通過單變量分析考察所有自變量與因變量之間的關系,篩掉一些可能無意義的變量,再進行多因素分析,以保證結果更加可靠。另外,即使樣本足夠大,也不建議把所有的變量放入方程直接分析,一定要先弄清楚各個變量之間的相互關系,確定自變量進入方程的形式,這樣才能進行有效的分析。

 

— END —

譽存科技

關注我們
關注我們
winxi
篮彩让分胜负预测