Minh hoạ về các loại quan sát

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng mô hình phân tích sống sót trong đo lường rủi ro tín dụng khách hàng cá nhân tại ngân hàng TMCP ngoại thương việt nam tại TP HCM (Trang 27)

Nguồn: R.man, Survival analysis in credit scoring, 2014 Đối với hồi quy logisgic để ước lượng xác suất vỡ nợ trong 1 năm, thì các quan sát phải tờn tại ít nhất là 1 năm. Phân tích sóng sót ước lượng hàm sống sót xuyên suốt khoảng thời gian mà ta quan sát được trọn vẹn. Nếu đối tượng nghiên cứu, mà người đó rời bỏ khỏi danh mục vay, thì đối tượng đó sẽ bị loại bỏ do đó số lượng quan sát trong tập dữ liệu sẽ giảm đi đáng kể. Vì vậy, việc mơ hình bao phải gờm tất cả quan sát là điều rất quan trọng, nó phải bao gờm cả các quan sát bị cắt, các quan sát rời bỏ hoặc tiếp tục sống sót trong danh mục trong giai đoạn nghiên cứu.

Một giả thiết quan trọng trong việc sử dụng dữ liệu bị cắt là tại thời điểm ta khơng quan sát được dữ liệu (censoring) thì nó khơng cung cấp thơng tin cần thiết cho nghiên cứu tại thời điểm không quan sát được (non-informative Censoring). Giả thiết này phát biểu rằng các quan sát bị cắt thì có cùng mức độ rủi ro vỡ nợ giống

như những quan sát cịn sống và quan sát được. Hoặc nói cách khác, các quan sát rời khỏi danh mục thì được lý giải bởi các lý do không liên quan tới vấn đề cần nghiên cứu. Trong luận văn này, việc áp dụng giả thiết này là điều bắt buộc. Các đối tượng nghiên cứu trong danh mục tại một thời điểm bất kỳ đều đại diện cho tất cả các đối tượng khác tại cùng thời điểm.

2.4.2.2 Dữ liệu bị chặn (truncated data)

Dữ liệu bị chặn là một loại bị mất dữ liệu khác, trong đó dữ liệu bị chặn trái là hay gặp phải nhất.

Một ví dụ trong y khoa, đó là thời gian tử vong của những cư dân lớn tuổi trong cộng đồng những người nghỉ hưu. Thời gian từ lúc một người bước vào độ tuổi nghỉ hưu cho đến lúc chết được nghiên cứu. Chỉ những người có một độ tuổi nhất định mới được vào cộng đồng trên. Những người chết trước tuổi này không thể quan sát. Như vậy, chúng ta đã bỏ qua các quan sát những người đã nghỉ hưu đã tử vong nhưng chưa đạt đến tuổi để chọn mẫu quan sát, tuy nhiên về định nghĩa họ vẫn là người lớn tuổi trong công đồng người nghỉ hưu.

Thơng thường sẽ có sự nhầm lẫn giữa dữ liệu bị cắt và dữ liệu bị chặn. Nói một cách chặt chẽ, dữ liệu bị cắt là trường hợp khi các quan sát được cho rằng sẽ bị vỡ nợ trong một thời gian nhất định nhưng thời điểm chính xác diễn ra thì khơng ta có thơng tin. Dữ liệu bị chặn là khi quan sát không nằm trong bộ dữ liệu bởi vì chúng khơng quan sát được. Việc hợp nhất các dữ liệu bị chặn sẽ không được đưa vào nghiên cứu trong luận văn này.

2.4.3 Các loại mơ hình phân tích sống sót

Để mơ hình hóa các dữ liệu phân tích, có rất nhiều mơ hình có thể áp dụng. Trong các phần tiếp theo, tác giả sẽ giới thiệu các mơ hình phổ biến như phi tham số, bán tham số và đầu đủ tham số. Theo đó, mơ hình Kaplan-Meier là mơ hình phi tham số, mơ hình gia tốc thời gian mơ hình tỷ lệ nguy cơ (proportional Hazards models) là mơ hình đầy đủ tham số và cuối cùng là mơ hình bán tham số Cox (proportional hazards).

2.4.3.1 Mơ hình Kaplan – Meier

Trong trường hợp dữ liệu bị cắt, nếu ta ước lượng sẽ không cho ra kết quả tốt. Để xác định hàm phân phối cho các dữ liệu này, ta có thể áp dụng kỹ thuật Kaplan-Meier (sau đây gọi tắt là ước lượng KM). Ước lượng KM ước lượng hàm phân phối trung vị sống sót (The median Survival Distribution function). Ưu điểm của Kaplan-Meier là đưa các dữ liệu bị cắt vào tính tốn. Nó là giới hạn của ước lượng bảng sống sót khi các khoảng thời gian được chia nhỏ sao cho nhiều nhất một quan sát khác biệt xuất hiện trong một khoảng thời gian.

Giả sử r cá nhân trải qua các sự kiện trong một mẫu quan sát. Cho các thời điểm xảy ra sự kiện là 0 ≤ t(1) ≤ t(2) ≤…≤ t(r) ≤ ∞. Đặt ni là số cá nhân trong tình trạng rủi ro (quan sát được và vẫn cịn tờn tại) trước thời điểm ti. Và đặt di là số các quan sát chết (xảy ra sự kiện) tại thời điểm ti. Hàm ước lượng sống sót S(t) theo KM được định nghĩa như sau:

𝐾𝑀(𝑡) = 𝑆̂(𝑡) = ∏(1 −𝑑(𝑥) 𝑛(𝑥)

𝑥<𝑡

)

Kế đến ước lượng Λ(𝑡) bởi Λ𝐾𝑀̂(𝑡) = -log [KM(t)]. Phương sai được ước lượng bởi: 𝑉𝑎𝑟̂ {Λ𝐾𝑀̂ } = ∑ [(𝑡) 𝑑𝑁(𝑥) [𝑌(𝑥) −𝑤(𝑥)2 ] [𝑌(𝑥) − 𝑑𝑁(𝑥) −𝑤(𝑥)2 ] ] 𝑥<𝑡 𝑠𝑒{Λ𝐾𝑀̂ } = √𝑉𝑎𝑟(𝑡) ̂ {Λ𝐾𝑀̂ } (𝑡)

Khoảng tin cậy của ước lượng KM được cho bởi:

𝐶𝐼[𝑆(𝑡)] = 𝐾𝑀(𝑡) ∗ 𝑒±𝑧𝛼 2⁄ ∗𝑠𝑒[Λ𝐾𝑀̂ ](𝑡)

Trong đó:

d(x) là số sự kiện xảy ra tại thời điểm x, d(x) ≥ 0 n(x) là số đối tượng đang gặp rủi ro tại thời điểm x,

Λ𝐾𝑀̂(𝑡) là ước lượng khơng chệch của tỷ lệ nguy cơ tích lũy tại t dN(x) là số quan sát xảy ra sự kiện xuất hiện trong khoảng [x; x+ ∆t] Y(x) là số đối tượng rủi ro tại thời điểm x,

w(x) là số quan sát bị cắt tại thời điểm x,

Lưu ý rằng hàm ước lượng KM là một hàm bậc thang, khơng có sự thay đổi giữa việc người thứ nhất vỡ nợ và người thứ hai vỡ nợ, cũng như tại thời điểm xuất hiện việc dữ liệu bị cắt, nó chỉ thay đổi tại các thời điểm xảy ra sự kiện. Ước lượng sống sót KM được trình bày tại bảng … X tại trục hồn là thời điểm xảy ra sự kiện và O là thời điểm xuất hiện tượng cắt dữ liệu.

Hình 2.2 thể hiện ước lượng hàm Kaplan Meier

Nguồn: R.man, Survival analysis in credit scoring, 2014 Ước lượng KM trong trường hợp dùng để mô tả sự kiện vỡ nợ, khi đó nj bằng với số người vay trong danh mục và dj là số các quan sát bị vỡ nợ tại thời điểm j. Khi sử dụng mơ hình ước lượng này để xử lý vấn đề, mục tiêu là phải hiểu được nj thay đổi như thế nào khi đặt trong mối liên quan đến việc cắt dữ liệu và chặn dữ liệu. Ví dụ, nếu như một người vay rời khỏi danh mục, điều đó sẽ tác động vào số lượng nguy cơ nhưng không tác động vào các quan sát đã bị vỡ nợ. Tương tự như việc một số người bắt đầu bước vào danh mục vào thời điểm t, thì họ sẽ được thiết lập vào mơ hình rủi ro tại thời điểm t+1.

Ước lượng KM cũng được sử dụng cho các biến phân tầng. Khái niệm này ám chỉ việc chia mẫu thành hai hay nhiều nhóm theo một số tiêu chuẩn. Ví dụ như

theo mục đích vay vốn: vay thế chấp hoặc khác. Việc vẽ đồ thị ước lượng KM cho các nhóm khác nhau giúp chúng ta có cái nhìn trực quan hơn, dễ nhận biết nhóm này có xác suất sống sót cao hơn.

Mơ hình ước lượng KM có một số ưu điểm chính, đầu tiên là rất dễ tính tốn. Hơn nữa là khả năng hợp nhất các nhân tố phân tầng để tính các xác suất sống sót cho các nhóm khác nhau. Khuyết điểm của ước lượng KM là nó chỉ ước lượng mơ tả là chủ yếu và chưa kiểm soát được các đồng tham số. Thêm nữa là không làm sáng tỏ nguyên nhân khi so sánh rủi ro giữ các nhóm.

2.4.3.2. Mơ hình tham số

Mặc dù ước lượng KM là một công cụ dễ sử dụng để ước lượng hàm sống sót, đơi khi chúng ta muốn mơ hình có nhiều thơng tin hơn. Một trong giải pháp là sử dụng mơ hình tham số. Đờ thị hàm phân phối ước lượng sống sót phổ biến là hàm mũ, Weibull và phân phối log-logistic. Để ước lượng S(t), ước lượng maximum likelihood được sử dụng.

Hàm phân phố mũ với tham số 𝜆 được cho như sau:

𝐹(𝑡) = 1 − 𝑒−𝜆𝑡 𝑓(𝑡) = 𝜆𝑒−𝜆𝑡

ℎ(𝑡) = 𝜆

Hàm phân phối Weibull với tham số cân bằng 𝜆 và tham số định dạng k được cho bởi

𝐹(𝑡) = 1 − 𝑒−(𝜆𝑡)𝑘 𝑓(𝑡) = 𝑘𝜆𝑘𝑡𝑘−1𝑒−(𝜆𝑡)

ℎ(𝑡) = 𝑘𝜆𝑘𝑡𝑘−1

Đưa dữ liệu vào phân phối tham số có một số ưu điểm. Thứ nhất, hàm sống sót S(t) và hàm phân phối tích lũy h(t) được hiệu chỉnh đầy đủ. Việc sử dụng các hàm ước lượng này dễ dàng để tính các hàm phân phối tích lũy nghịch đảo và các kiểm định sự khác nhau giữ các tham số sẽ chính xác hơn.

2.4.3.3. Hàm gia tốc thời gian thất bại (Accelerated failure time)

Hàm gia tốc thời gian thất bại (gọi tắt là AFT) đưa ra giả thiết rằng có sự tác động của các đồng tham số trong việc gia tăng hoặc giảm đi thời gian dẫn tới việc xảy ra sự kiện của một quan sát thông qua một số hằng số, theo Kalbfleisch và Prentice (1980). Hàm AFT phát biểu rằng mối quan hệ giữa 2 hàm sống sót S1(t) và S2(t) được cho bởi:

S1(t) = S2(ct), tất cả t ≥ 0 và hằng số c >0

Hàm AFT bao hàm cả việc tỷ lệ sống sót của tập hợp 1 thì gấp c lần so với tập hợp 2. Khi chúng ta có các biến giải thích cho thời điểm xảy ra tình trạng vỡ nợ, thì mơ hình AFT được sử dụng. Mơ hình AFT dự đoán được thời gian xảy ra sự kiện và do có sự tác động của các đờng tham số nên thời gian thất bại được nhân lên qua một số hằng số. Như vậy, việc tác động của các biến giải thích lên thời gian sống sót sẽ được đo lường. Điều này đưa đến sự sáng tỏ của các tham số ước lượng, vởi các tham số trong mơ hình sẽ đo lường sự ảnh hưởng của đờng tham số lên giá trị trung bình thời gian sống sót.

Hàm AFT đơn giản nhất giả định các đờng tham số không phụ thuộc vào thời gian, được cho như sau:

𝑆(𝑡) = 𝑆0(𝜓(𝑧)𝑡) = 𝑆0(exp(𝛽𝑥) 𝑡) ℎ(𝑡) = 𝜓(𝑧)ℎ0(𝑡𝜓(𝑧))

Trong đó, 𝜓(𝑧) là hằng số tỷ lệ và là một hàm của đồng tham số z thơng qua nó thời gian sống sẽ bị giảm đi. Thơng thường 𝜓(𝑧)được giả định là log linear 𝜓(𝑧) = exp(𝛽𝑥)và 𝑆0 và ℎ0 được gọi là hàm sống sót cơ sở hay hàm tỷ lệ nguy cơ cơ sở (tức là khi khơng có sự tác động của đờng tham số).

Giải thích cho 𝜓(𝑧)cũng rất đơn giản. Ví dụ, một người có hằng số tỷ lệ 𝜓(𝑧)=2, thời hạn của khoản vay sẽ được ước lượng nhanh gấp 2 lần so với hàm cơ

sở. Kết quả là thời gian được ước lượng để cho người đó vỡ nợ sẽ cịn một nữa so với thời gian cơ sở. Tuy nhiên, tỷ lệ nguy cơ thì khơng cao hơn gấp 2 lần, tỷ lệ nguy cơ sẽ được giải thích trong hàm nguy cơ ở phần sau.

2.4.3.4. Hàm tỷ lệ nguy cơ đầy đủ tham số (fully parametric proportional hazards model) hazards model)

Theo sau mơ hình AFT, mơ hình tỷ lệ nguy cơ (PH models gọi tắt là mơ hình PH) được sử dụng trong nghiên cứu sống sót. Giáo sư Cox (1972) mơ tả mơ hình lần đầu trong JRSSB năm 1972 và bấy giờ là một bài báo học thuật về thống kê được nhắc lại nhiều nhất. Trái ngược với mơ hình AFT, mơ hình PH ước lượng tỷ lệ nguy cơ. Mơ hình PH được xây dựng gờm 2 phần: Hàm tỷ lệ nguy cơ cơ sở (The baseline hazard Function) mô tả tỷ lệ nguy cơ thay đổ theo thời gian tính từ hàm cơ sở. Hàm cơ sở là hàm mà hàm các đồng tham số bằng không. Sự tác động của các tham số mô tả sự thay đổi tỷ lê nguy cơ thông qua tác động của hàm mũ chứa các đờng tham số. Mơ hình PH được cho như sau:

ℎ(𝑡|𝑥) = ℎ0(𝑡) exp(𝛽1𝑥1+ 𝛽2𝑥2+ ⋯ + 𝛽𝑝𝑥𝑝) = ℎ0(𝑡) exp(𝛽′𝑥) 𝑙𝑜𝑔ℎ(𝑡|𝑥) = 𝑙𝑜𝑔ℎ0(𝑡) + 𝛽1𝑥1+ 𝛽2𝑥2+ ⋯ + 𝛽𝑘𝑥𝑘

Trong đó h0 là hàm nguy cơ cơ sở có thể chấp nhận bất kỳ dạng nào và hàm mũ exp(𝛽′𝑥) ám chỉ đến những rủi ro liên quan hoặc có thể xem như là hàm nguy

cơ bổ sung.

Các mơ hình tham số có thể sử dụng kiểm định Likelihood raito hoặc AIC (Akaike năm 1974) để so sánh tìm ra mơ hình tốt nhất.

2.4.3.5. Mơ hình Cox (Cox Proportional hazards model).

Nói một cách tổng qt, nếu mơ hình PH được sử dụng thì mơ hình Cox được sử dụng. Mơ hình Cox gần như tương tự mơ hình tỷ lệ nguy cơ đầy đủ tham số cho trong phương trình ở phần trên. Bằng cách sử dụng ước lượng partial likelihood, giáo sư Cox (1975) chỉ ra rằng tham số β có thể được ước lượng mà không cần quan tâm tới hàm nguy cơ cơ sở và do đó mơ hình Cox được gọi là mơ hình bán tham số. Mơ hình này dùng các dữ liệu sự kiện được phân hạng và thời gian bị cắt thay thế cho thời điểm thực tế.

Sự khác biệt giữ mơ hình hời quy COX và mơ hình hời quy PH thơng thường rằng mơ hình COX khơng cần bất kỳ giả thiết nào cho hàm nguy cơ cơ sở h0(t). Đây là phần phi tham số của mơ hình. Mơ hình đặt giả định cho phần tham số, là các biến làm tác động đến tỷ lệ nguy cơ. Bởi vì điều này, mơ hình COX giống như mơ

hình bán tham số và mơ hình này ước lượng rủi ro tương đối (relative risk) thay thế cho rủi ro tuyệt đối (Absolute risk). Vì khơng có giả thiết nào đặt ra cho hàm cơ sở nên mơ hình này rất dễ để xử lý số liệu.

Để mơ hình COX có ý nghĩa thì giả định của tỷ lệ nguy cơ phải được tuân thủ. Giả định này phát biểu rằng rủi ro dẫn tới vỡ nợ của các nhóm khác nhau là hằng số qua thời gian. Bản chất của giả định này nghĩa là sự tác động của các đồng tham số là không thay đổi tại mọi thời điểm. Ví dụ, tại thời điểm ban đầu nhóm quan sát 1 có độ rủi ro cao gấp 2 lần so với nhóm quan sát 2, thì độ rủi ro của nhóm 1 sẽ cao gấp 2 lần nhóm 2 tại mọi thời điểm.

Để kiểm định giả định của mơ hình COX, tác giả dùng hai loại đồ thị điểm để kiểm định cho 2 loại biến: biến liên tục và biến phân loại. Đối với biến liên tục, tác giả sẽ dùng đồ thị scatter cho phần dư riêng phần (hay còn gọi là Schoenfeld residuals) theo thời gian; các phần dư trong đồ thị phải thể hiện ngẫu nhiên không theo một quy luật nào. Đối với biến phân loại; tác giả sử dụng đồ thị Log minus Log; theo đó các nhóm sẽ khơng được cắt nhau và có vẽ như song song

2.5 Các nghiên cứu trước đây

Bảng dưới đây thể hiện một số nghiên cứu chấm điểm tín dụng cá nhân tiêu dùng tại các nước trên thế giới và tại Việt Nam và mơ hình nghiên cứu được áp dụng, đặc biệt các nghiên cứu sử dụng mơ hình phân tích sống sót để nghiên cứu:

Bảng 2.2 : Các nghiên cứu chấm điểm tín dụng

Tác giả Mẫu Biến giải thích Kỹ thuật phân tích Kết quả của nghiên cứu Lawrence và Smith (1992) 42.000 hồ sơ vay tại Mỹ thập niên 1980

Lịch sử trả nợ của người vay, số tiền vay, LTV (tỷ lệ nợ trên tài sản), ngày đến hạn theo hợp đồng, các yếu tố tới khoản vay hiện tại, tình trạng cư trú,

Mơ hình logit

Những khoản vay đã trải qua vài năm, thì lịch sử trả nợ của người vay là nhân tố quan

thu nhập hàng tháng, nghề nghiệp, số người phụ thuộc, tuổi hiện tại của người vay, tỷ lệ thất nghiệp trong bang, tỷ lệ bán lẻ trên hộ gia đình trong bang, chỉ số thu nhập hiệu quả bán hàng trong bang, số tiền trung bình một hộ chi trả tiền điện thoại trong 1 bang 1 năm, số tháng trung bình để tịch thu tài sản thế chấp, số tháng mà người vay chuộc lại tài sản sau khi bị tịch thu trọng nhất trong việc định lượng tỷ lệ vỡ nợ Narain (1992) 1242 người vay từ năm 1985-1993 tại Mỹ

Tình trạng hơn nhân, phần trăm tiền gửi, người vay có điện thoại nhà hay khơng, tình trạng cư trú, thời gia cư trú tại địa chỉ khai báo, thời gian sử dụng dịch vụ ngân hàng, thời gian làm việc cho một cơng ty

Hời quy đa biến, phân tích sống sót Phân tích sống sót cộng các chiều để cung cấp cho thẻ điểm tiêu chuẩn

Dionne, Arfts và Guilldn (1996)

4691 người vay vào năm 1989 tại Canada

Ngày tháng năm sinh, tình trạng hơn nhân, số lượng các khoảng không trả, số tháng của hợp đờng vay tính từ ngày bắt đầu mẫu

Mơ hình Logit

Nghiên cứu làm tăng khả năng tuỳ ứng khi so sánh với mơ hình đếm chuẩn.

nghiên cứu, trình độ học vấn, có hay khơng người vay được trả lương qua ngân hàng, thu nhập thuần hàng tháng, tổng số lượng thu nhập, tình trạng sở hữu nhà, vị trí địa lý, các khoản chi trả hàng tháng, dư nợ thẻ tín dụng, lượng tiền cần vay, lãi suất, ngày bắt đầu hợp đồng vay

Banasik, Crook và

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng mô hình phân tích sống sót trong đo lường rủi ro tín dụng khách hàng cá nhân tại ngân hàng TMCP ngoại thương việt nam tại TP HCM (Trang 27)

Tải bản đầy đủ (PDF)

(77 trang)