1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án tiến sĩ Toán học: Ước lượng phi tham số cho P(X < Y)

95 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Các biến số ngẫu nhiên X\,..., X„ được giả sử là cócùng phân phối với hàm mật độ không biết fx; các biến số ngẫu nhiên Y},..., Ymđược giả sử là có cùng phân phối với hàm mật độ không biế

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

TON THAT QUANG NGUYÊN

ƯỚC LƯỢNG PHI THAM SỐ

CHO P(X <Y)

LUAN AN TIEN Si

TP HO CHÍ MINH — NAM 2023

Trang 2

VIET NAM NATIONAL UNIVERSITY - HO CHI MINH

UNIVERSITY OF SCIENCE

TON THAT QUANG NGUYEN

NONPARAMETRIC ESTIMATION OF P(x <Y )

Doctoral Thesis

Trang 3

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

TON THAT QUANG NGUYÊN

UOC LƯỢNG PHI THAM SO CHO P(x <Y)

Nganh: Ly thuyết xác suất và thống kê toán hoc

Mã sô Ngành: 9460106

Phản biện 1: PGS.TS Võ Văn Tài

Phản biện 2: TS Phạm Hoàng Uyên

Phản biện 3: PGS.TS Nguyễn Huy Tuấn

Phản biện độc lập 1: PGS.TS Võ Văn Tài

Phản biện độc lập 2: TS Tạ Quốc Bảo

NGƯỜI HƯỚNG DAN KHOA HỌC:

GS.TS ĐẶNG ĐỨC TRỌNG

TP Hồ Chí Minh — Năm 2023

Trang 4

Lời cam đoan

Tôi cam đoan luận án tiến sĩ ngành Lý thuyết xác suất và thống kê toán học,

với đề tài Ước lượng phi tham số cho P(X < Y) là công trình khoa học do Tôi

thực hiện dưới sự hướng dẫn của GS TS Đặng Đức Trọng.

Những kết quả nghiên cứu của luận án hoàn toàn trung thực, chính xác vàkhông trùng lắp với các công trình đã công bố trong và ngoài nước

Nghiên cứu sinh

Tôn Thất Quang Nguyên

Trang 5

Lời cảm ơn

Lời đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc đến Thay hướng dan của

tôi, GS TS Dang Đức Trọng Thay đã tận tâm chi dạy và dẫn dắt tôi để tôi có

thể hoàn thành luận án này Được sự hướng dẫn của Thầy đã tạo động lực to lớn

cho tôi hoàn thành luận án.

Tôi xin gửi lời cảm ơn đến các Thầy Cô trong Khoa Toán - Tin của Trường

Dai học Khoa học Tự nhiên - Dai học Quốc gia Tp Hồ Chí Minh đã giảng dạy,

truyền đạt cho tôi những kiến thức bổ ích kể từ khi tôi bước chân vào ngôi trường

`

này.

Toi xin cảm ơn các Giáo sư, các nhà Khoa học trong Hội đồng chấm luận án

cùng các chuyên gia phản biện đã dành thời gian quý báu của mình để đọc bản

thảo luận án và cho tôi những nhận xét, góp ý sâu sắc giúp cho luận án được

hoàn thiện hơn.

Toi xin cảm ơn đến các Thầy Cô làm việc ở Phòng Sau đại học, trường Daihọc Khoa học Tự nhiên đã tạo điều kiện thuận lợi về các thủ tục hành chính giúp

tôi hoàn thành khóa học và bảo vệ luận án.

Cuối cùng, tôi xin bày tỏ lời cảm ơn thân thương đến gia đình của tôi Họ đã

động viên, tạo điều kiện và hết lòng giúp đỡ cho tôi trong suốt quá trình học tập

và nghiên cứu.

ii

Trang 6

Mục lục

Lời cảm ơn ii

Trang thông tin luận án v

Thesis information| Vili

Danh muc cac ky hiéu 1

1 Kiến thức chuẩn bi 8

1.1 Một số kiến thức về Xác suất 81.2 Dường cong ROC, chỉ số AUC và P(X<Y)|} 15

1.3 Không gian JP[ Qua 17

1.4 Tích chập trên R| Q Q Q HQ va 18

1.6 Đạo hàm suy rộng| co 18

1.7 Biến đổi Fourier| c ee 19

1.8 Hàm mật độ trơn thường và siêu trơn 20

1.9 Biến số ngẫu nhiên Gamma, Laplacel 20

1.10 Ước lượng Wilcoxon-Mann-Whitnoy| 21

11

Trang 7

1.12 Ước lượng vững, rủi ro tối đa và tốc độ hội tụ 22

1.13 Các bo đề cơ bản| ee 23

2 Ước lượng phi tham số cho P(X < Y) sử dụng các dữ liệu nhiễu

4 Kết luận 75

Danh mục công trình của tác giả liên quan đến luận án 77

Tài liệu tham khảo 78

iv

Trang 8

Trang thông tin luận án

Tên đề tài luận án: Ước lượng phi tham số cho P(X < Y)

Ngành: Lý thuyết xác suất và thống kê toán học

Mã số ngành: 9460106

Họ tên nghiên cứu sinh: Tôn Thất Quang Nguyên

Khóa đào tạo: 2019 — 2022

Người hướng dẫn khoa học: GS TS Đặng Đức Trọng

Cơ sở đào tạo: Trường Dai học Khoa học Ty nhiên, ĐHQG.HCM

1 TÓM TẮT NỘI DUNG LUẬN ÁN:

Luận án khảo sát bài toán ước lượng đại lượng 6 := P(X < Y) từ hai mẫu (Xt X„), (Yƒ, , Y), trong đó

Xi = Xj Gi Yi = Ye tmp, J=l, ,n; k=1, ,m.

O đây, giả sử rằng các biến số ngẫu nhiên Xj, Gj, Ye, ne là độc lập lẫn nhau đốivới 1 < 7,7! < n; 1 < k,k' < m Các biến số ngẫu nhiên X\, , X„ được giả sử là cócùng phân phối với hàm mật độ không biết fx; các biến số ngẫu nhiên Y}, , Ymđược giả sử là có cùng phân phối với hàm mật độ không biết ƒy Các biến số ngẫunhiên CỊ, ,É; ?4.: ,?„ đại điện cho các sai số của phép đo và được gọi là cácbiến số ngẫu nhiên sai số, các nhiễu hay các sai số đo Luận án tập trung vào haivan đề chính liên quan đến các sai số đo sau đây:

(i) Các biến số ngẫu nhiên sai số ¡, ,@„ là độc lập và có cùng phân phối; các

biến số ngẫu nhiên sai số ?, ,?„„ là độc lập và có cùng phân phối Hàm

mật độ chung f¢ của các ¢; và hàm mat độ chung f, của các ?„ thỏa mãn

trong đó M > 0.

(ii) Các biến số ngẫu nhiên sai số éI, ,é; ?ì, ,?„ là độc lập; tuy nhiên, các

sai số đo này có thể khác phân phối Mỗi ¢; có hàm mật độ được biết riêng

của nó là ƒc; Mỗi ?„ có hàm mật độ được biết riêng của nó là J„¿ Các hàm

mật độ này thỏa mãn

supp (f¿) C[-M,M], j = 1, ,n;

supp (fre) C [—M, M], k= 1, ,m;

V

Trang 9

trong đó M là hằng số dương độc lập với n và m.

2 NHỮNG KET QUA MỚI CUA LUẬN ÁN:

Sử dụng lý thuyết minimax, giải tích thực và giải tích phức, chúng tôi

1) xây dựng được ước lượng 45 cho Ø khi các sai số do éI, , là độc lập va

có cùng phân phối; các sai số đo 7, ,m là độc lập và có cùng phân phối,

sau đó chứng minh ước lượng này là ước lượng vững khi các ham mật độ ƒc

và ƒ; thỏa man

supp (fc) C [—M, M], supp (fy) C [—M, MỊ,

và cuối cùng thiết lập các chặn trên và chặn dưới về tốc độ hội tụ thông qua

` 1/2

bs — 2|) khi (fx, fy) thuộc lớp hàm F(8,C) trong đó 8 > 1/2, sai số (E

C > 0.

2) xây dung được ước lượng 6, cho 9 khi các sai số đo , ,¢n; fì, ,72„ là

độc lập; tuy nhiên, có thể khác phân phối, sau đó chứng minh ước lượng này

là ước lượng vững khi các hàm mật độ ƒc ;, fy, thỏa man

3 CAC UNG DUNG/ KHA NANG UNG DUNG TRONG THUC

TIEN HAY NHUNG VAN DE CON BO NGO CAN TIEP TUC NGHIEN

CUU

Bài toán ước lượng đại lượng 6 := P(X < Y) nhận được su quan tâm dang

kể trong nhiều năm do những ứng dụng của nó trong nhiều lĩnh vực khác nhau,

như lý thuyết độ tin cậy, nông nghiệp, sinh vật học và đặc biệt là y khoa Trong

trường hợp X và Y là các biến số ngẫu nhiên liên tục thì đại lượng 9 chính là

chỉ số AUC của đường cong ROC, giá trị của diện tích của vùng nằm dưới đường

cong ROC Đường cong này được sử dụng như một công cụ đồ thị cho việc đánh

giá tính chính xác của một xét nghiệm chẩn đoán trong y khoa.

Trang 10

Một số vấn đề của bài toán có thể được khảo sát trong thời gian tới:

e Khảo sát tốc độ hội tụ tối ưu trong trường hợp các sai số đo có hàm

mật độ có giá compắc

e Các sai số đo có hàm mật độ thuộc loại trơn thường

vii

Trang 11

Thesis information

Thesis title: Nonparametric estimation of P(X < Y)

Speciality: Probability theory and mathematical statistics

Code: 9460106

Name of PhD Student: Ton That Quang Nguyen

Academic year: 2019 — 2022

Supervisor: Prof Dang Duc Trong

At: VNUHCM - University of Science

1 SUMMARY:

The thesis studies the problem of estimating the quantity 6 := P(X < Y) from

two samples (X}, ,X/,), (Yƒ, , Y„), in which

Xi = Xj54+G, YK =Y+ +1, j =1, ,m; k=1, ,m.

Here, we assume that Xj, ¢j, Y, my are mutually independent for 1 < 7,7 < n;

1 < k,k’ < m The random variables X1, ,X, are assumed to be identically

distributed with an unknown density function fx; the random variables YỊ, , Yin

are assumed to be identically distributed with an unknown density function fy.

The random variables ¢1, ,¢n; 71, -;%m represent random noises and are called error random variables The thesis concentrates on two main problems related to

error random variables following:

(i) Homoscedastic case: the error random variables éị, ,é„ are independent

and identically distributed; the error random variables 7, , 7m are

inde-pendent and identically distributed The general density function ƒc of ¢;

and the general density function ƒ„ of nz satisfy

supp (fc) Cc [-M,M], supp (f,) C [—M, M],

where M > 0.

(ii) Heteroscedastic case: the error random variables Ó1, ,Én; ?, -, 7 are

mu-tually independent Each ¢; has its own known density ƒc; Each 7, has its

own known density ƒ„„ These densities satisfy

supp (fc) Cc [—-M,M], j =1, ,m;

supp (2) C[-M,M], k=1, ,m;

vili

Trang 12

where M is a positive constant independent of n and m.

2 NOVELTY OF THESIS:

1)

Using the minimax theory, real analysis and complex analysis, we

construct an estimator 65 for Ø when the random noises are homoscedastic,

then prove that this estimator is consistent when the general density function

ƒ of ¢; and the general density function f, of n, satisfy

supp (fc) C [—M, M], supp (fy) C [—M, MỊ,

and finally establish upper and lower bounds on the convergence rate with

ˆ 1/2

65 — 2|) -error when (fx, fy) belongs to the class F (8,C)

in which Ø > 1/2,C > 0.

respect to ( q

construct an estimator 6, for Ø when the random noises are heteroscedastic,

then prove that this estimator is consistent when the density functions ƒc;,

Jn,k Satisfy

supp (fc,) C|[—M,M], j=1, ,m;

supp (+) CÍ[—M, M], k=1, ,m,

and finally establish upper and lower bounds on the convergence rate with

respect to (E 5 — 2|) “Ể or when (fx, fy) belongs to the class F (6, C)

in which 6 > 1/2, C > 0.

3 APPLICATIONS/ APPLICABILITY/ PERSPECTIVE

The problem of estimating the quantity 6 := P(X < Y) has received

consid-erable attention for many years due to its applications in many different fields,

such as reliability theory, agriculture, biology and especially medicine In the case

that X and Y are continuous random variables, the quantity 6 is the AUC index

of the ROC curve, the area under the curve This curve is used as a graphing tool

for assessing the accuracy of a diagnostic test in medicine.

Some aspects of the problem can be investigated in the near future:

e Study the optimality of the convergence rate in the case that error random variables have the compactly supported density function.

e Error random variables have the ordinary smooth type density function.

1X

Trang 13

Danh mục các ký hiệu

Tập các số tự nhiênTập các số thực

Tập các số phức

Don vị ảo i = /—1

Biến đổi Fourier của ham f, ff (t) = [TM f (œ)e”*dz Tích chập của hai ham f và g, (ƒ * g) (x) = in f (x—y)g(y) dy

Tích vô hướng trong L? (R)

Tich vô hướng trong R”

Giá của hàm ƒ, supp(f) = {z: f (x) # 0}

Dao hàm (suy rộng) cấp m của ham ƒ

Độ do Lebesgue của tập do được Lebesgue A C R

Xác suất của biến cố A

Trang 14

2 x

Mo dau

Cho X và Y là hai biến số ngẫu nhiên, luận án xét bài toán ước lượng đại lượng

8:=P(X <Y) (1)

Bài toán này nhận được su quan tâm đáng kể trong nhiều năm do những ứng

dụng của nó trong nhiều lĩnh vực khác nhau Trong các lĩnh vực kỹ thuật mà

nổi trội là lý thuyết độ tin cậy (xem Kotz và các cộng sự 26], Johnson [22]), xác

suất “P(X < Y})” còn được biết đến với tên gọi là độ tin cậy của kết cấu (hay làtham số tin cậy) trong mô hành stress-strength, trong đó các biến số ngẫu nhiên

Y và X có thể được xem như độ bền hay sức chịu đựng (strength) của kết cấu

và áp lực (stress) tác động lên kết cấu tương ứng Nếu áp lực này vượt quá sức

chịu đựng của kết cấu thì dẫn đến kết cấu hỏng Người ta quan tâm đến việc ước

lượng tham số @ này.

Trong y khoa (xem Zhou [58], Pepe [36], Zhou và các cộng sự [57], Zou va các

cộng sự [59], Kim-Gleser [25]), đại lượng @ liên quan đến đường cong ROC Đườngcong này được sử dụng như một công cụ đồ thị cho việc đánh giá tính chính xác

của một xét nghiệm chan đoán (a diagnostic test) trong việc chan đoán hay phân

loại một đối tượng vào một trong hai nhóm là không bệnh hay bệnh khi mà giá

trị của dit liệu của một xét nghiệm chan đoán nhỏ hơn hay lớn hơn một giá trị cut-off cho trước tương ứng Nếu hai biến số ngẫu nhiên liên tục X và Y là biểu thị của kết quả xét nghiệm của một xét nghiệm chẩn đoán từ hai tổng thể không

bệnh và bệnh có hàm phân phối tương ứng là Fy va Fy thì đường cong ROC được

định nghĩa là đồ thị của ham ROC() := 1— y(Fy`(1—#)), 0 <¢ <1, trong

đó Fy! (1—t) = mf{z € R|Fy (x) > 1—-t} (xem Goncalves và các cộng sự [19|).

Trong trường hợp nay, đại lượng @ chính là chỉ số AUC của đường cong ROC ứng

với một xét nghiệm chan đoán (xem Bamber [5]) Chỉ số AUC là giá trị của diện

tích của vùng nằm dưới đồ thi ROC () Trong ứng dụng thực tế, chỉ số này có

giá trị từ 1/2 đến 1 Xét nghiệm chan đoán có Ø càng gần 1 thì có độ chính xác

trong việc phân loại càng cao Ngoài ra, đại lượng 6 cũng được ấp dụng trong sinh

vật học (xem Schwarz-Wearden |44]), nông nghiệp (xem Dewdney và các cộng sự

[13}).

Bài toán ước lượng đại lượng @ bắt đầu được quan tam khảo sát vào nhữngnăm 40 của thế kỷ 20 Hai công trình mang tính mở đường cho việc quan tâm

2

Trang 15

khảo sát về bài toán này là Wilcoxon [4] và Mann-Whitney [32] Từ hai côngtrình này, các tác giả đã giới thiệu một thống kê không chỉ được sử dụng cho bài

toán kiểm định giả thuyết về sự bằng nhau giữa hai hàm phân phối Fy, Fy mà

còn được sử dung làm một ước lượng cho đại lượng 0 Thống kê hay ước lượng này

được sử dụng phổ biến và rộng rãi mang tên Wilcoxon-Mann-Whitney (WMW).

Kể từ đó đến nay, rất nhiều tài liệu về thống kê liên quan đến bài toán về nhiều

khía cạnh mà nổi trội hơn cả là van đề ước lượng điểm và ước lượng khoảng của 0

dựa trên các giả thiết khác nhau về phân phối của X và Y đối với cả hai phươngpháp tham số và phi tham số được công bố như Birnbaum [3], Birnbaum-McCarty

[|, Govindarajulu [17 IS], Owen và các cộng sự [35], Sen |45i [46], Van Dantzig 53), Zaremba [56], Tong |50), Tong [5Í], Woodward-Kelley [55], Constantine va

các cộng sự [8], DeLong va các cộng su [12] Năm 2003, một khảo sát sâu rộng bao

gồm các khía cạnh khác nhau về chủ đề được thu thập, tập hợp và trình bày bởi

Kotz và các cộng sự trong [26] Cho đến gần đây, các nghiên cứu có thể được liệt

kê 6 đây như Reiser-Guttman [39], Halperin và các cộng su [20], Kundu-Gupta

[28], Zhou [58], Huang và các cộng sự [21], Motoya-Rubio Lees

Về nguyên tắc, việc ước lượng đại lượng 6 được dựa trên hai mẫu quan trắchay còn được gọi là hai mau dit liệu (X1, , Xn) và (Yì, , Ym) của X và Y, tươngứng Các quan trắc Xị, , X„ thường được giả sử là độc lập và có cùng phân phối(xác suất); các quan trắc YỊ, , Y„ thường được giả sử là độc lập và có cùng phân

phối Tính độc lập thể hiện các quan trắc nhận được không ảnh hưởng lẫn nhau

trong quá trình thu thập, trong khi tính cùng phân phối được đề cập nếu các

quan trắc nhận được được đo trong hoàn cảnh như nhau Trong lịch sử bài toánước lượng đại lượng 9, hầu hết các nghiên cứu tập trung ước lượng đại lượng 6dựa trên các quan trắc X\, , X„ và Yi, ,¥m, trong đó các quan trắc này được

xem như là các thể hiện chính xác của X và Y, nghĩa là việc quan trắc được xem

như là không có sai số xảy ra Các quan trắc này còn được gọi là các dữ liệu trựctiếp Tuy nhiên, chúng ta cũng biết rằng, trong nhiều tình huống thực tế, dữ liệu

trực tiếp là không có sẵn do sai số của phép đo Một ví dụ điển hình về sai số của

phép đo được dé cập trong Shear và các cộng sự [47], các tác giả đã đưa ra các

dữ liệu có xuất hiện sai số, còn được gọi là các dit liệu nhiễu, của áp suất máu

tâm thu và tâm trương Các dữ liệu nhiễu này được sử dụng để tiên đoán chứng

tăng huyết áp trong tương lai của trẻ em Trong trường hợp này, có khả năngcao là dụng cụ đo và người ghi các kết quả gây ra sai số Ngoài ra, một số ví dụ

Trang 16

khác về những phép đo có sai số không thể bỏ qua có thể được tìm thấy trong

mục 2.1 của Meister [33] Và như vậy, thay vì có các dữ liệu trực tiếp Xi, , X„;

YỊ, , Y„, chúng ta chỉ có thể có các dit liệu nhiễu X{, , Xj; Yƒ, ,Y„, từ hai

mẫu của X'= X +¢ và Y'=Y +7, ở day các biến số ngẫu nhiên X’ và Y” đóngvai trò như là các phiên bản nhiễu của X và Y tương ứng, trong khi ¢ va ø là cácbiến số ngẫu nhiên đại diện cho các sai số của phép đo và được gọi là các biến

số ngẫu nhiên sai số, các nhiễu hay các sai số đo Do đó, điều này dẫn chúng tađến với bài toán ước lượng đại lượng Ø từ hai mẫu dữ liệu nhiễu (X{, ,X/,) và

(Y[ , Y„) thay vì hai mẫu dữ liệu trực tiếp (X1, ,Xn) và (fi, , Yin):

Trong luận án này, chúng tôi khảo sát bài toán ước lượng đại lượng 9 như

trong từ hai mẫu độc lập (X}, ,X/,), (Yƒ, , Y„), trong đó

Xj=X;+, YL = Ye +e, p=1, ,n, k=1, ,m.

O day, giả sử ring các biến số ngẫu nhiên Xj, 6), Ye, me là liên tục, độc lập lẫn

nhau đối với 1 < 7,7 <n; 1 < k,k <m Các biến số ngẫu nhiên X\, , X„ đượcgiả sử là độc lập và có cùng phân phối với hàm mật độ không biết fy; các biến số

ngẫu nhiên Yj, ,¥m được giả sử là độc lập và có cùng phân phối với hàm mật

độ không biết fy Các biến số ngẫu nhiên (Ị, ,É¿; ?4, ,?„ đại diện cho các sai

số của phép đo và được gọi là các biến số ngẫu nhiên sai số, các nhiễu hay các sai

số đo Hàm mật độ tương ứng với các sai số đo được gọi là hàm mật độ sai số

Theo sự hiểu biết của chúng tôi, mặc dù bài toán ước lượng đại lượng 9 đã được

khảo sát trong một thời gian dài; tuy nhiên, như đã được đề cập ở trên, hầu hếtcác kết quả tập trung ước lượng đại lượng 9 từ các dữ liệu trực tiếp Bài toán ướclượng đại lượng 9 từ dữ liệu nhiễu vẫn chưa được nghiên cứu nhiều Có một vàibài báo đề cập đến bài toán ước lượng đại lượng 6 từ dữ liệu nhiễu trong các loại

mô hình nhiễu khác nhau có thể được kể ra ở đây như Coffin-Sukhatme [10] [1],

Faraggi [15], Reiser [42], Schisterman và các cộng su [48], Kim-Gleser [25], Li và

các cộng su [31], Dattner [14], Rosner va các cộng su [43], Phuong-Thuy [88].

Tiếp theo sau đây, theo thứ tự về thời gian, chúng tôi mô tả một số nét chínhcủa các nghiên cứu này Năm 1996, sử dụng phương pháp tham số, khi X, Y, ¢

và 7 có phân phối chuẩn, Coffin và Sukhatme trong đã khảo sát bài toán ước

lượng điểm cho 0 Day cũng là kết quả nghiên cứu đầu tiên về bài toán ước lượngđại lượng 0 từ dữ liệu nhiễu Nam 1997, Coffin và Sukhatme trong [11] khảo sát bài toán ước lượng độ chệch của ước lượng Wilcoxon-Mann-Whitney khi sử dụng

4

Trang 17

các dữ liệu nhiễu:

2WMW 1

ô =(nm) 3” 3T y.yn:

} =1

Các tác giả đã sử dụng các dữ liệu nhiễu X{, ,X/, và Y/, ,Y/, và phương sai

của các sai số đo để thiết lập các ước lượng nhân cho các hàm mật độ ƒx và ƒy Các ước lượng nhân này được sử dụng để ước lượng độ chệch Vào năm 2000,

trong Kim-Gleser , các tác giả đề nghị một thủ tục ước lượng cho 6 dựa trên

phương pháp SIMEX của Cook-Stefanski [9] trong trường hợp các sai số đo có

phân phối chuẩn chính tắc, trong khi đó với giả thiết X, Y, ¢ và øạ có phân phối chuẩn, Faraggi va Reiser [42] tập trung vào bài toán tìm khoảng tin cậy cho

0 Năm 2001, Schisterman và các cộng sự khảo sát cả bài toán ước lượng điểm va

bài toán ước lượng khoảng cho Ø khi giả thiết rằng có sẵn một bộ dữ liệu nhiễu

bổ sung của X và Y được thu thập từ một nghiên cứu tách rời so với nghiên cứu chính Bộ dữ liệu này được sử dụng để ước lượng phương sai của các sai số đo.

Năm 2010, Li và các cộng sự trong [3Í| khảo sát bài toán ước lượng khoảng cho Ø dựa trên phương pháp “MOVER” Nam 2013, trong Dattner [14], tác giả đã khảo

sát bài toán về tốc độ hội tụ của ước lượng với một ước lượng cho đại lượng Øđược đề nghị dưới dạng

) khi các hàm mật độ fx, fy thuộc lớp ham Sobolev và các ham

bao gồm các hàm mật độ có biến đổi Fourier tắt dần với tốc độ e mũ tại vô cực.

Năm 2015, Rosner và các cộng sự trong [43] cũng tập trung xây dựng khoảng tin

cậy cho Ø khi nới rộng giả thiết phân phối chuẩn thông thường của X và Y khi

khảo sát về bài toán này Gan đây, năm 2020, Phuong và Thuy trong [38] đã taptrung vào bài toán đánh giá tốc độ hội tụ của ước lượng trong trường hợp cáchàm mật độ của các biến số ngẫu nhiên sai số là không biết; tuy nhiên, đối xứng

quanh 0 và có thể được ước lượng từ các mẫu được quan trắc độc lập của ¢ và

n Cụ thể, giả sử rằng có hai mẫu quan trắc ngẫu nhiên bo sung (¢{, ,¢y) và

(m " Thr) tương ứng của ¿ và 7, các mẫu quan trắc này được thu thập từ các

phép đo tách rời với mô hình nghiên cứu chính và được sử dụng để ước lượng cho

5

Trang 18

fe và fn Sử dụng các kỹ thuật giải chập, họ đề nghị một ước lượng của 6 có dang

Opr 2 Jo hn | BE em

"Tự cx s(t£! —1/2 I M a(t —1/2 dt,® 1 cos(t¢h)/N2N 2} {512*¡ cos(nn)/M>M 2}

trong đó 7 là tham số thiết kế phụ thuộc vào các kích thước mẫu n,m, N và AM

Khi giả thiết rằng các hàm mật độ sai số là siêu trơn, các tác giả đã thiết lập chặn

ñp+ — 0|Ÿ.

trên và chặn dưới về tốc độ hội tụ của ước lượng thông qua sai số E

Trong ước lượng của Dattner, nếu fe (t) £0, fr (t) # 0 với mọi t thi ước lượng

mới có nghĩa Điều kiện này không đúng với nhiều phân phối, chang hạn phân

phối đều, phân phối tam giác Do đó, việc ước lượng với các nhiễu không thỏađiều kiện của Dattner là cần thiết Bằng phương pháp phi tham số, nghĩa là với

giả thiết quy luật phân phối của X và Y không được biết cụ thể, chúng tôi tập

trung xây dựng các ước lượng cho Ø dựa trên hai mẫu dữ liệu nhiễu (XỊ, , X7),

(Yj, ,Y„) và đánh giá tốc độ hội tu của các ước lượng nhận được trong haitrường hợp sau đây của các sai số đo:

(i) Các biến số ngẫu nhiên sai số (¡, ,é„ là độc lập và có cùng phân phối;các biến số ngẫu nhiên sai số r, ?„„ là độc lập và có cùng phân phối Ham mật

độ chung ƒc của các ¢; và hàm mật độ chung f, của các „ thỏa mãn

supp (fc) C[—M, M], supp (fn) C[—M, MỊ,

trong đó M > 0.

(ii) Các biến số ngẫu nhiên sai số C1, ,€„, ?\, ,?„ là độc lập, tuy nhiên

các sai số đo này có thể khác phân phối Mỗi ¢; có hàm mật độ được biết riêng

của nó là ƒc; Mỗi ;„ có hàm mật độ được biết riêng của nó là ƒ„„ Các hàm mat

độ này thỏa mãn

supp (foi) C [—M, M], J=1, ,n;

supp (fyx) C[—M, M], k=1, m;

trong đó M là hằng số dương độc lập với n và mm

Qua phần khái quát lich sử của bài toán ước lượng đại lượng 9 đã được trìnhbày bên trên, chúng tôi nhận thấy rằng mặc dù bài toán này đã có một quá trình

lich sử phát triển lâu dai với rất nhiều các kết quả khảo cứu về các khía cạnh

6

Trang 19

khác nhau của bài toán; tuy nhiên, số lượng các kết quả về bài toán ước lượngđại lượng 0 từ dữ liệu nhiễu hiện nay van còn hạn chế, đặc biệt là các công trìnhkhảo cứu liên quan đến việc đánh giá tốc độ hội tụ của ước lượng trong trườnghợp này Do vậy, nhằm đóng góp một phần kết quả về bài toán trong trường hợpnày, chúng tôi tập trung khảo sát các trường hợp (i) và (ii) như bên trên Đây lànhững kết quả mà không trùng lặp với bất kỳ công trình khảo cứu nào đã sẵn có

trước đây.

Nội dung của luận án gồm 3 chương chính được viết dựa trên các kết quả đã

công bố trong các bài báo (T1), (T2) và (T3) Chương 1 trình bay một số kiến

thức chuẩn bị về xác suất, thống kê, đường cong ROC, chỉ số AUC và giải tích

hàm Các kiến thức chuẩn bị này được sử dụng cho nội dung chính của luận án ở

chương 2 và chương 3 Nội dung chính của chương 2 trình bày bài toán ước lượng

đại lượng 0 từ dữ liệu nhiễu tương ứng với trường hợp (i) Nội dung chính của

chương 3 trình bay bài toán ước lượng đại lượng 9 từ dữ liệu nhiễu tương ứng với

trường hợp (ii).

Trang 20

Chương 1

Kiến thức chuẩn bị

Trong chương này, chúng tôi trình bày các kiến thức về xác suất, thống kê,đường cong ROC, chỉ số AUC và giải tích hàm, được sử dụng làm cơ sở nền tangcho việc nghiên cứu các nội dung chính của luận án Các kết quả được nêu ra mà

không có phần chứng minh là các kết quả cơ bản được trích dẫn từ các nguồn tài

liệu khác nhau Riêng Bo đè[1.13.4|là kết quả do chúng tôi thiết lập Do đó, phần

chứng minh của bổ đề này được trình bay chỉ tiết.

1.1 Một số kiến thức về Xác suất

Định nghĩa 1.1.1 Cho © là một tập tùy ú khác 0 Đặt A là tập hợp gồm các tập

con của Q A được gọi là o-dai số khi va chỉ khi nó có các tính chất sau:

Dinh nghĩa 1.1.2 Cặp (Q,.A), trong đó Q là một tập tùu y khác 0 va A là một

ơ-đại số các tập con của ©, được gọi là một không gian do được Các phan tử của

A được gọi là các tập do được trong lý thuyết độ do hay được gọi là các biến cố

trong ly thuyét xác suất va thống kê

Định nghĩa 1.1.3 Cho C là tập hợp gồm các tập con của Q ơ-đại số nhỏ nhấtchứa C được gọi là c-dai số sinh bởi C va được ky hiệu là ơ (C)

Định nghĩa 1.1.4 Trong không gian metric € (hay tổng quát hơn là không gian

8

Trang 21

tôpô), o-dai số sinh bởi tập tat cả các tập mở được gọi là ơ-đại số Borel va được

ky hiệu là B (€).

Định nghĩa 1.1.5 Cho (0,A) là không gian do được Hàm tập v xác định trên

A được gọi là một độ do nếu nó có các tính chất sau:

(a)0 < w(A) < œ đối tới bất ky ACA;

(b) v (0) = 0;

Bộ ba (Q,A,v) được gọi là không gian do Nếu v(Q) = 1, thà v được gọi là độ dorac suất va thường được ky hiệu là P Trong trường hợp này, (O,.A,P) được gọi là

không gian xác suất

Định nghĩa 1.1.6 Độ do Lebesgue là ham tập A: B (IR) > [0, co] théa mãn:

(a) nếu A, € B(R), k=1,2, , 0à ApN Ai =0, k Al thi

À (U ) =3 _A(4j);

k=1 k=1

(b) néua,b ER, a <b, thà A((a,b]) =b~— a

Định nghĩa 1.1.7 Một độ do trên (Q,.A) được gọi là ơ-hữữu hạn nếu va chỉ nếuton tại một dấu {Aj, 4a, } sao cho J A, = Q9 va v (Ag) < đối uới mọi k

Định nghĩa 1.1.8 Cho (Og,.4g), ke K = {1, ,n} là các không gian do được.

khi đó, o (Trex Ax) được gọi là o-dai số tích trên không gian tích [Tyee

Qk-Mệnh đề 1.1.1 (Xem Shao [49], trang 5) Cho (Oy,.Ag,t¿), k = 1, ,n, là các

không gian do uới các độ do ơ-hữu han, ở day n > 2 là một số nguyên Khi đó,ton tại duy nhất một độ do o-httu hạn trên o-dai số tích ơ (A, x - x An), được

gọi là độ do tích va được ky hiệu là tì x +++ x Uạ sao cho

đối uới mọi Ay € Ap, k = 1, ,n

Định nghĩa 1.1.9 Cho (Q,A) vd (A,G) là hai không gian do được Cho € là

không gian topo uới B(E) là ø-dại số Borel tương ứng

9

Trang 22

(a) Một ham f : Q— A được gọi là do được (tương ứng tới A va G) nếu ƒ~}!(B) €

A, đối uới mỗi BEG.

(b) Một ham do được f : (Q,.4) > (€,B(E)) được gọi là do được Borel (trên (Q, A)).

(c) Một hàm đo được X : (9,4) > (R,B(R)) được gọi là biến số ngẫu nhiên X

(trong ly thuyết xác suất)

(d) Một ham đo được X : (9,44) + (C,B(C)) được gợi là biến số ngẫu nhiên phúc

X, trong đó B(C) là ø-đại số Borel tương ứng trên C

(e) Một hàm đo được X : (Q,A) > (R“,8 (R“)) được gọi là véc to ngẫu nhiên d

chiều X, trong đó B (R“) là ơ-đại số Borel tương ứng trên I1.

Định nghĩa 1.1.10 Cho P là một độ đo sác suất trên không gian (R,B(R))

Ham phân phối của P được định nghĩa là

F(z)=P((-s,z]), z€ (1.1)

Định nghĩa 1.1.11 Cho P là một độ do xác suất trên khong gian (R", B(R")).Ham phân phối (đồng thời) của P được định nghĩa là

F(i, ,#n) =lP((Cœ,zi] x + + x (—00,4n]), + ER, k=l, ,n (1.2)

Dinh nghĩa 1.1.12 Cho (0,A,v) là không gian do va f là ham do được từ

(Q,.A) > (A,đ) Độ do cảm sinh bởi f, được ky hiệu vo f-!, la một độ đo trên G

va được xác định bởi

vof 1(B) =u(Ƒƒ€B)=z(ƒ '(B)), BeG.

Néu v = P là độ đo xác suất va X là biến số ngẫu nhiên hay véc tơ ngẫu nhiênthì Po X~! được gọi là phân phối của X và được ký hiệu là Py Hàm phân phốicủa Py được định nghĩa bởi hoặc cũng được gọi là hàm phân phối củabiến số ngẫu nhiên X hoặc hàm phân phối (đồng thời) của véc tơ ngẫu nhiên X

va được ký hiệu là Fy.

Định nghĩa 1.1.13 Cho biến số ngẫu nhiên X xác định trên (Q,A,P) X được

gọi là biến số ngẫu nhiên đơn giản nếu nó được biểu diễn dưới dang

n

X= ».

k=1

trong đó a, € R, va Ay € A, 1 <k <n Khi đó, kỳ vong của biến số ngẫu nhiên

X là một số được ky hiệu va xác định bởi

n

E(X) = SagP (Ag).

k=1

10

Trang 23

Kỳ vong của biến số ngẫu nhiên X còn được ky hiệu là EX, J X (w) dP (w),

J X (w) P (dw), hay f XdP

Dinh nghĩa 1.1.14 Cho X là biến số ngẫu nhiên không âm xác định trên

(O,.A,P) Khi đó, ky vong của biến số ngẫu nhiên X được định nghĩa bởi

E(X) =sup{E(Y):Y là biến số ngẫu nhiên đơn giản uới 0 SŠY < X}

Đối với biến số ngẫu nhiên X bất kỳ, đặt XT = max (X,0) và X~ = — min (X, 0).Khi đó, X = Xt — X~, và XT,X~ là các biến số ngẫu nhiên không âm

Định nghĩa 1.1.15 Nếu ít nhất một trong hai số E(X*) va R(X~) hữu hạn,

X được gợi là có ky vong hữu han hay khả tích nếu cả hai số E(X*) va E(X~)

đều hữu hạn Ky vong của biến số ngẫu nhiên bat kỳ X cũng được ky hiệu là EX,

J X (w) dP (0), ƒ X (w)P (dw), hay Ƒ XdP

Mệnh dé 1.1.2 (Xem Tién- Yen [2], trang 108) Cho X va Y là hai biến số ngẫu

nhiên có kỳ vong hữu han Khi đó, ta có các tính chat sau:

(a) E(cX) =cE(X), ccR;

(b) tính bảo toàn thú tự: nếu X <Y thà E(X) < E(Y), do đó |E(X)| < E(

(c) tính tuyến tính: nếu X tà Y khả tích thì (X +Y) cting khả tích va

X|);

E(X +Y)=E(X)+E(Y).

Dinh nghĩa 1.1.16 Cho biến số ngẫu nhiên X có E x|? < oo Khi đó, phương

sai của biến số ngẫu nhiên X được ky hiệu là Var(X) va được xác định bởi

Var(X) := E(X — EX)”.

Tương tự cho việc định nghĩa tích phân của biến số ngẫu nhiên bat kỳ X đốivới độ đo xác suất P, ƒ XđP, ta cũng có định nghĩa tích phân của ham đo đượcBorel đối với độ đo tùy ý Khi thay biến số ngẫu nhiên X bởi hàm ƒ đo được Boreltrên (R,B(R)) và thay độ đo xác suất P bởi độ do Lebesgue À thì tích phân nhận

11

Trang 24

được được gọi là tích phân Lebesgue và được ký hiệu là ƒ ƒ (z) dz Tích phân của

hàm đo được Borel ƒ đối với độ đo Lebesgue được gọi là tồn tại nếu ít nhất một

trong hai số f ƒT (z) đz và f f~ (z) dz hữu hạn Hàm f đo được Borel được gọi là

khả tích đối với độ đo Lebesgue hay khả tích Lebesgue nếu ƒ ƒ (x) da < ov

Định nghĩa 1.1.17 Hàm mật độ của độ do xác suất P trên (R,B(R)) là ham dođược Borel không âm thỏa: đối uới mọi x € R sao cho

Nếu thay P bằng Px thà ta nói f là một ham mật độ của biến số ngẫu nhiên X

hay của hàm phân phối Fx

Định lý 1.1.1 (Xem Jacod-Protter [23], trang 78) Ham do được Borel không âmtrên R là ham mật độ của độ do xác suất trên (R,B(R)) khi va chỉ khi f ƒ (x) dz =

1.

Định lý 1.1.2 (Xem Jacod-Protter [23], trang 80) Cho X là biến số ngẫu nhiên

có ham mật độ f Cho g là hàm do được Borel Khi đó, g khả tích đối uới độ do

Py khi va chỉ khi tích fg khả tích đối uới độ do Lebesgue Hơn nữa,

Eu(X))= [ale)Px (de) = [ø) 604

Mệnh dé 1.1.3 (Xem Jacod-Protter [23], trang 65) Cho X là biến số ngẫu nhiên:

(Q,.A,P) > (R,8(R)) Khi đó, X~!(B(R)) là một ø-đại số con của A va được gọi

là o-dai số sinh ra bởi X o-dai số nay thường được ky hiệu là ø (X)

Định nghĩa 1.1.18 (Xem Tiến-Yên [2], trang 91) Cho (Q,A,P) là không gian

xác suất cô định

(a) Họ hữu hạn {.Ay,, k € K} các o-dai số con của A được gọi là độc lập nếu

P (n ») =[[P

kek kek

đối uới Ay € Ap, (k € K), bắt kỳ

(b) Họ uô hạn {.Ay, k € K} các ơ-đại số con của A được gọi là độc lập nếu mỗi họ

con hữu hạn của nó độc lập.

(c) Họ các biến số ngẫu nhiên Xự, k€K được gọi là độc lập nếu họ các ø-đại số

sinh bởi chúng {ơ (Xy),k € K} là độc lập.

12

Trang 25

Dinh lý 1.1.3 Cho X1, ,Xn là các biến số ngẫu nhiên độc lập Cho W, ,Wn

là các hàm do được Borel Khi đó, \ (Xì), ,ta (Xa) cũng là các biến số ngẫu

Var (X1 + +++ + Xn) = S° Var (Ấy).

Định nghĩa 1.1.19 Cho véc tơ X = (XỊ, , X„,) có ham phan phối Fx, uéc tơ

Y =(Vìi, ,Yn,) có ham phân phối Fy va téc tơ Z = (XI, , X„,,Y1, ,Yng) CÓ

ham phân phối Fz Khi đó, X va Y được gọi là độc lập nếu

Fz (đ1, -;®ni; UL: - › Ưng) — ie (11, ,2n,) - Fy (U1 1n) ›

đối uới mmợi +Ị, ,#n,.1\ Uny ER

Dinh lý 1.1.4 (Luật mạnh số lớn) (Xem Billingsley [6], trang 80) Giả

sử {X„} là một day các biến số ngẫu nhiên độc lập va có cùng phân phối với

1(LXil) < s Khi đó, với p = E(XI) va Sy =X, + + Xa, thin 1S, —y ¡ hau

chắc chắn, khin > oo

Mệnh đề 1.1.4 (Xem Ross [{1J, trang 264-265) Cho X, Y là hai biến số ngẫu

nhién liên tục độc lập uới ham mat độ tương ứng là fx, fy Goi fz là ham mật

độ của Z = X+Y Khi đó, ta có

w= [- fx ( — y) fy (y) dụ

Dinh lý 1.1.5 (Xem Jacod-Protter [23], trang 81) Cho X là biến số ngẫu nhiên

có ham mat độ liên tục fy Đặt g: R — R là ham kha vi liên tục uới đạo ham

không triệt tiêu Đặt h(y) = g-'(y) là hàm ngược (cũng là ham khả vi liên tục)

Trang 26

Trong trường hợp X là biến số ngẫu nhiên liên tục với hàm mật độ ƒ, khi đó

E(e“*)= pews (x) dx (1.3)

Về phải của (1.3) chính là công thức biến đổi Fourier của hàm mật độ f (xem

Định nghia|1.7.1) Do đó, trong trường hợp này, hàm đặc trưng của biến số ngẫu

nhiên X chính là biến đổi Fourier của hàm mật độ

Mệnh đề 1.1.5 (Xem Tiến-Yên [2], trang 190) Cho X là một biến số ngẫu

nhién có ham đặc trưng wx Khi đó, ta có

Dinh lý 1.1.6 (Xem Tiến-Yên [2J, trang 195) Giả sử X = (Xù, , Xa) là véc

tơ ngẫu nhiên nhận giá trị trong R", Ux,,0x,, ,0x„ là các hàm đặc trưng của

Xị, , X„ tương ứng Khi đó, điều kiện cần va du để X1, , X„ độc lập là

nm

k=l

ở đâu ham x(H, ,tạ) là ham đặc trưng của X va được định nghĩa bởi

Wx (t, -,tn) = BelflÄ)s", trong đó t = (H, ,tạ), (| X)pn = tX1 + ĐạXa 4

i=

Ta gọi vx là hàm đặc trưng thực nghiệm của X dựa trên mẫu (X1, , Xp).

Định lý 1.1.7 (Xem Gil-Pelaez [16], trang 481) Cho X là biến số ngẫu nhiên

có ham phân phối liên tục Fx (x) va ham đặc trưng wx (t) Khi đó, mối liên hệ

giữa hàm phân phối Fx (x) va ham đặc trưng wx (t) được biểu diễn dưới dạng

1 1

Fx (x) = 77 ;/ “Im {ex (} dt, «ER.

14

Trang 27

1.2 Đường cong ROC, chỉ số AUC và P(X < Y)

Trong y khoa, để chan đoán hay phân loại một đối tượng có hay không có mắc một căn bệnh cụ thể nào đó, người ta tiến hành nhiều xét nghiệm chẩn đoán (Diagnostic tests) Các xét nghiệm chan đoán được tiến hành nhằm mục đích

“tham gia” vào việc chan đoán để cho việc chan đoán được chính xác Tuy nhiên, không phải tất cả các xét nghiệm chẩn đoán đều có khả năng như nhau trong việc chẩn đoán chính xác một đối tượng là có bệnh hay không có bệnh Do đó, điều quan trọng là cần phải đánh giá khả năng chẩn đoán của các xét nghiệm chan đoán Các xét nghiệm chẩn đoán được đặc trưng bởi khả năng phân loại chính

xác một đối tượng vào một trong hai nhóm không bệnh hay bệnh, còn được gọi

là tổng thể không bệnh hay bệnh, thông qua đường cong ROC Nhiều kết quả xét

nghiệm cho ta kết quả định lượng, tùy ý Z (Kumar-Antony [29]) Do đó, Z có

thể được xem như là một biến số ngẫu nhiên liên tục Với một giá trị cut-off c

cho trước, người ta sẽ phân loại một đối tượng thuộc vào nhóm bệnh nếu kết quảxét nghiệm của đối tượng đó đạt đến hay vượt qua giá trị cut-off e Lúc này, kếtquả xét nghiệm được gọi là kết quả xét nghiệm dương tính Ngược lại, nếu kếtquả xét nghiệm của đối tượng nhỏ hơn giá tri cut-off e, người ta sẽ phân loại đốitượng đó thuộc vào nhóm không bệnh và kết quả xét nghiệm được gọi là kết quảxét nghiệm âm tính Đối với mỗi giá tri cut-off e, chúng ta có các định nghĩa sau:

1 Xác suất phân loại đúng một đối tượng vào nhóm bệnh khi đối tượng đó

thật sự có bệnh được gọi là độ nhạy (Sensitivity) hay tỉ lệ dương đúng, và

được ký hiệu là TPR (c).

2 Xác suất phân loại đúng một đối tượng vào nhóm không bệnh khi đối tượng

đó thật sự không có bệnh được gọi là độ đặc hiệu (Specificity) hay tỉ lệ âm

đúng, và được ký hiệu là TNR (c).

3 Xác suất phân loại một đối tượng vào nhóm bệnh khi đối tượng đó thật sự

không có bệnh được gọi là tỉ lệ dương sai, hay còn gọi là xác suất sai lầm

loại 1, và được ký hiệu la FPR (c).

4 Xác suất phân loại một đối tượng vào nhóm không bệnh khi đối tượng đó

thật sự có bệnh được gọi là tỉ lệ âm sai, hay còn gọi là xác suất sai lầm loại

II, và được ký hiệu là FNR (e).

15

Trang 28

Định nghĩa 1.2.1 (zem Pepe [G8], trang 67-68) Đường cong ROC được định

nghĩa là đồ thị bao gồm các điểm (FPR(c),TPR(c)) khi e chạy từ —co đến +00.

Nghĩa là, đường cong ROC là

ROC (-) = {(FPR (e),TPR(e)), ¢ € (—c0, +00)}.

Đường cong ROC cũng có thể được viét là

ở đâu, ham ROC là ánh xa biến t thành TPR(c) tới e là giá trị cut-off tương ứng

uới FPR (e) = †.

Gọi X là biến số ngẫu nhiên đại diện cho kết quả xét nghiệm của tổng thể

không bệnh (thật sự không bệnh) với hàm phân phối #y và Y là biến số ngẫu

nhiên đại diện cho kết quả xét nghiệm của tổng thể bệnh (thật sự bệnh) với hàm

phân phối Fy Khi đó, ta có thể thay rằng:

V

e TPR(c) =P(Z >c|D=1) =P(Y Sc), 6 day ký hiệu D = 1 chỉ cho biết

đối tượng thật sự có bệnh

e FPR(c) = P(Z > c|D =0) = P(X 3 c), ở đây ký hiệu D = 0 chỉ cho biết

đối tượng thật sự không có bệnh

Do đó, đường cong ROC còn được định nghĩa là tập hợp các điểm

(P(X >c),P(Y 3 )) với e chạy từ —oo đến +œ

Định nghĩa 1.2.2 Chi số AUC là giá tri của điện tích của ving nằm dưới đường

cong ROC,

1

AUC= | ROC (t) dt.

0

Định lý 1.2.1 (xem Pepe [36), trang 78; Bamber [3], trang 395-396) Nếu X là

biến số ngẫu nhiên liên tục dai diện cho kết quả xét nghiệm của tong thể không

bệnh uới hàm phân phối Fx va Y là biến số ngẫu nhiên liên tục đại diện cho kết

quả sét nghiệm của tong thể bệnh uới hàm phân phối Fy thà P(X < Y) chính là

chỉ số AUC - giá tri của diện tích của uùng nằm dưới đường cong ROC

16

Trang 29

Trong trường hợp 2 C R và p là độ do Lebesgue trên 2, dé don giản ta dùng ký

hiệu 7 (Q) thay cho L? (O,), với 0 < p < oo Với A là tập Lebesgue đo được trong

R, ký hiệu A (4) biểu thị độ do Lebesgue của A

Định lý 1.3.1 (Xem Rudin [40], trang 66) Cho (Q,6, ) là một không gian do.

Nếu f € LP(O,m), 9 € L+(O,m) 0uớip >1, q> Luà +2 =1, thi fg € L'(O,p).

Hon nữa, ta có bat dang thúc Holder, ||fgÌ|, < IF llpllalla: Bat đẳng thúc Holder tới p=q=2 còn được gọi là bat đẳng thức Cauchy-Schwarz.

Định lý 1.3.2 (Dinh ly hội tu bi chan Lebesgue) (Xem Rudin [40], trang

26) Giả sử {fn} là mot day ham giá tri phúc do được trên không gian do (Q, 6, p)

uới mợi z€Q,n €Ñ, thi fe L!(Q,m),

sim f ite fldu=0.

lim [itu =f tan

Luu ý rằng kết luận của Dinh lý vẫn còn đúng khi ta thay cụm từ “với mọizc€ 9” bằng cụm từ “với hầu hết z € 0”

17

Trang 30

Định lý 1.3.3 (Dinh lý Fubini) (Xem Shao [49], trang 14) Cho pw va 0 là hai

độ do ơ-hữu hạn tương ứng trên hai không gian do được (Q,G) va (D,3) Cho f

là hàm do được Borel trên (Q xT,øơ (6 x%)) Giả sử rằng f > 0 hay f khả tích

đối uới độ đo tích x 0 Khi đó,

= | Fenn

Q

ton tại uới hầu hết y ET Hàm g là ham do duoc Borel trên T va có tích phan tồn

tại đối uới độ do 0, va

en 9)4 (u < Ú) = [| [renafao

1.4 Tích chập trên R

Định nghĩa 1.4.1 Cho ƒ € L!(R) vag € L?(R), vdil <p< œ Đặt

(ƒ * ø) ( "à ƒ(œ~ 0) 90) dụ

Ham ƒ xg được got là tích chập của f va g.

Định lý 1.4.1 (Dinh ly Young) (Xem Brezis [, trang 104) Cho ƒ € L'(R)

va g € L?(R), uới 1< p< œ Với hầu hết x ER, hàm ys Ƒ (+ — 9)g(w) khả tích

Lebesgue trên R Hơn nữa, ƒ xg € LP (R) và ||ƒ * ø||„ < WF

llillgll-1.5 Giá của hàm số

Định nghĩa 1.5.1 Cho ham số f : R > R Bao đóng trong R của tập hợp

{x ER: f (x) £0} được gọi là giá của hàm ƒ, ky hiệu supp (Ƒ) Hàm f được gọi là

có giá com-pắc nếu supp (ƒ) là một tập com-pắc trong R

Mệnh đề 1.5.1 (Xem Brezis [7, trang 106) Cho ƒ,g € L!(RÑ), supp (ƒ) C [a,b|

0à supp (g) C [c,d], uới a <b, c< d Khi đó, supp (ƒ * g) C [a + c,b+ đị.

1.6 Dao hàm suy rộng

Định nghĩa 1.6.1 Cho ƒ € L}

H CR Hàm g€ L}„(Ñ) được gọi là đạo hàm suy rộng cấp k (k €Ñ) của f, viet

R), nghĩa là ƒ € LÌ(H) tới moi tập com-pắc

( 9 p p

loc

18

Trang 31

fs Fx = (8 fo 6(a)der,

vdt mot ham € CS (R

1.7 Bién doi Fourier

Dinh nghĩa 1.7.1 Cho ƒ 6 L!(R) Ham số ƒ* :]R — C, được định nghĩa bởi

f* (t) fo f(x ) eda,

được gọi là biến doi Fourier của ƒ.

Mệnh đề 1.7.1 (Xem Meister [33], trang 179) Cho f,g € L!(R) Ta có

(a) (af + 8g)” = af* + 89" vdi mọi œ8 € C;

(b) (fxg) = fg;

(c) supjer |/“ (0| < li

(d) f* liên tục đều trên R, | fT (t) — ƒ# (s)| + 0 khá |t — s| > 0 vd | fTM (| — 0 khi

|t| > 00;

(c) nếu f! € L!(R) thà (f)" (t) = —it f* (t) uới mọi t ER:

(f) [f (x) cos (ax)]"* (t) = $f" (t +a) + 4f" (L— a) vdi mọi a € R;

(9) [ƒ (+) sin (az)|Ÿ (t) = af (t +a) — xf" (t—a) uới mọi a € R;

(h) nếu f là ham nhận giá trị thực thi ff (t) = f(t) uới moit ER, ở day f* (t)

là liên hợp của f* (t) Hơn nữa, nếu f là một ham chan, nghĩa là f (x) = f (—>)

ưới moix ER, thà f* (-t) = f*(t) ER uới mọi t eR

Dinh lý 1.7.1 (Xem Meister [33], trang 182-184) Đặt

G = {g € L'(R) <Q liên tục va bi chặn trên R, g” € L! (R)}.

Khi đó, tập G trù mật trong L? (R) Nghia là, uới h € L? (R), ton tai một day ham

{hn} CG sao cho hy — h trong L? (IR) khin — oo Hơn nữa, dãy ham {hit } hoi tu

trong L? (R) Giới han duy nhất trong L? (R) của day ham {hi} được định nghĩa

là biến đổi Fourier của h trong L?(R) va được ky hiệu là h*.

Định lý 1.7.2 (Xem Meister [33], trang 185) Biến đổi Fourier của hàm ƒ €

L2ˆ(R) là ham ƒ# € L7(R) Hơn nữa, ta có

("0") =2m(,g) Vƒ,ge L?(R),

19

Trang 32

được got là đẳng cự Plancherel Thêm vao đó,

Fp =2r le vee 1?(R).

được gọi là đẳng thức Parseval.

1.8 Ham mật độ trơn thường và siêu trơn

Định nghĩa 1.8.1 (Xem Meister [33], trang 35) Cho f là hàm mật độ của biến

số ngẫu nhiên liên tục X

(a) Hàm f được gọi là trơn thường (ordinary smooth) bậc y > 0 nếu ton tại

1.9 Bién sô ngẫu nhiên Gamma, Laplace

Dinh nghĩa 1.9.1 Ham Gamma là ham được ky hiệu la uà được xác định bởi

T(œ) -| rete "dr, a>0.

0

Mệnh đề 1.9.1 Đối uới số thực dương bat ky a, ta có

—Àz T(a

(a) foe? te*dr = 49, > 0;

(b) V(a+1) =al (a);

Trang 33

Định nghĩa 1.9.3 Bién số ngẫu nhiên liên tục Y được gọi là có phân phốiLaplace uới tham số vi trí (location parameter) w va tham số tỷ lệ b > 0, va được

ky hiệu Y ~ Laplace (u,b) nếu hàm mật độ của nó có dang

¬

fy (x)= se ,—00 <#< Go.

Ham mat độ fy con được goi là hàm mật độ Laplace.

1.10 Ước lượng Wilcoxon—Mann—Whitney

Cho hai mẫu quan trắc (Xị, , X„) và (Yi, , Y„) của X và Y tương ứng

Ưóc lượng được mang tên Wilcoxon-Mann-Whitney của 0 := P(X <Y) là ước

lượng được cho bởi

n m

AWM —l

0WMW = (mm) 1S Tuyen:

j=l k=1

Trong trường hợp Xị, , X„ là dit liệu trực tiếp của X và Yị, , Y„ là dit liệu

trực tiếp của Y thì WMW là ước lượng không chệch của Ø vì

n m

j=l k=1

1.11 Ham giải tích

Định nghĩa 1.11.1 Cho A là một mién trong C, nghĩa la, A là một tập mở va

liên thông trên C Cho f là một ham phúc xác định trên A Xét giới han

tim £)= feo)

ZZ Z — Z0

uới 2 € A Nếu giới hạn nay ton tại, ta nói hàm f khả vi tại zọ Nếu hàm f khả vi

tại mọi điểm thuộc A, ta nói ham f khả vi trên A Hàm f khả vi trên A con được

got là giải tích trên A Khi ham f giải tích trên C, ta nói f là một ham nguyên.

Mệnh đề 1.11.1 (Xem Phương LH, trang 18, trang 64) Cho g là một ham mat

độ Với M > 0, ta đặt

Trang 34

Khi đó,

(a) gu là ham giải tích trên C;

(b) các không điểm của gu, nếu có, là cô lập;

(c) nếu supp (g) C [—M, M] thà tập các không điểm của hàm biến đổi Fourier g*

đúng tại mọi điểm trong dia tron {z € C: |z| < R} ngoại trừ một họ nhiều nhất

đếm được các đĩa tròn {PB (zj.r;)};„„ tới =., r; <P.

1.12 Ước lượng vững, rủi ro tối đa và tốc độ hội tụ

Cho hai mẫu quan trắc (X1, ,Xn) và (Y1, , Y„) của X và Y với hai ham

mật độ không biết fx và fy tương ứng Cho ổ là ước lượng của 6 = P(X < Y) dựa

trên hai mẫu quan trắc (X,, , Xp) và (Yi, , Y„) Để đánh giá sự sai khác giữa

(ela)

a 2 ze 1% ˆ Z ~

R|ô — 0| — 0 khi n,m — oo, ta nói Ø là một ước lượng vững của

gọi là sai số Nếu

0.

Tiếp theo, xét Z là một lớp ham phi tham số các cặp hàm mật độ (fy, fy).

Khi đó, đại lượng

Risk [6; F] ‘= sup (Elô — ø2)'7

(ƒx,y)€Z

được gọi là rủi ro tối đa của ước lượng 6 trên lớp Z Hơn nữa, đại lượng

2,inf Risk lô„.m: 7] =ijmÍ sup (E t|Ôn z„ — |

Ôn m Ôn (fx,fy)<Z

trong đó infimum được lấy trên ho tất cả các ước lượng On của Ø dựa trên hai

mẫu (X1, ,Xn) và (YI, ,Y), được gọi là rủi ro minimax trên lớp hàm Z.

Trong trường hợp ổ thỏa mãn

Risk lô: F] = int Risk [ô„„: F| = inf ee (E|On,m _ 02)'7

22

Trang 35

thì ta nói ổ là một ước lượng minimax trên lớp ham Ff.

Với ước lượng 6, không mất tính tổng quát, giả sử rằng m > n, nếu tồn tại

một dãy số dương {¢,} thỏa man ¢, + 0 khi ø -> œ và một hằng số dương C độc

lập với n và m sao cho

Risk [0;F] < Con,

thì dãy {ó„} được gọi là một tốc độ hội tu của 6 trên lớp hàm F.

Nếu tồn tại các hằng số dương cy, co độc lập với n, m (m > n) và một dãy số

dương {yn} thỏa man yp, > 0 khi n > œ sao cho

cin < inf Risk [On,m;F] < c2¥n,

thì day {yn} được gọi là tốc độ hội tu tối ưu của các ước lượng trên lớp ham F

Một ước lượng ô, thỏa mãn

Risk [ô.:.7] Š cựn,

trong đó {¿„} là tốc độ hội tụ tối ưu trên lớp F và hằng số dương c độc lập với

n, rn (m > n), được gọi là một ước lượng tối ưu về tốc độ Hay nói cách khác, ước

lượng 6, đạt được tốc độ hội tụ tối ưu.

1.13 Cac bổ đề cơ bản

Bổ đề 1.13.1 (Xem Phương va các cộng sự [37], trang 7) Giả sử ƒ € F(M) tới

M >0 Khi đó, |ƒ* (t)|? >1— (2! ~ 1)+ đối vdi mọi t € [0,1].

Bồ đề 1.13.2 (Xem Kawata [24J, trang 59-61, Bo dé 2.6.2).

(a) Doi uới 0 S a < b,

b

| = < 1.85195.

(b) Đối vdi bắt ky a,b eR,

6 day S là hằng số dương

Bổ đề 1.13.3 (Xem Phương va các cộng sự [37], trang 9) Cho @ là hàm

mật độ có giá com-pắc trong khoảng [—M/2,M/2| Cho G (a) = (2a) 1⁄2e~z?/2 vd,

23

Trang 36

Khi đó, vdi y (x) = 2-0 (24), ta có supp (y) C [—M/2, M/2] va |p" (t)| = Ø (v2)

khi || + co Hơn nữa, đặt f = px @ thi supp(f) Cc [-M,M] va HO) =

O (v22) khi |t| > 00.

Bổ dé 1.13.4 Dat > 1 va đặt ƒ € F(M) đối uới M > 0 Đối uới mỗi p > 0 đủ

nhỏ, đặt R, > 0 là nghiệm duy nhất của phương trình

Byer, p = {te R:0<t< Ry, |f" (0| <p}.

Chứng minh Dat A (u) = 2eMuln (15e2“) —In (o1) u >0 Đối với mỗi ø > 0

đủ nhỏ, ta thấy rằng A (u) > 00 khi u > œ và A(u) > In(p) < 0 khi u > 0+ Do

đó, ta có thể chọn R, > 0 để thỏa mãn (1.4) Bởi và bat dang thức nu < Vv

đối với moi v > 0, ta thu được 2eM V15e3(R, )u‡2/2 >In (ø—}) do đó

Ry > (2eMvi5e) On (p2)) (1.7)

Cũng vay, tit (4), ta có R, = [2eM In (15e5Rg)] 1n (ø~') < (26M) 1n (p"!) đối

với p > 0 đủ nhỏ Vì vay, sử dung (1.7), ta thu được (1.5).

Dat G(z) = ff (x)elde, 2 € C Theo Mệnh đề |I.11.1| G là hàm giải

tich trén C, " )| = 1, và G(t) = /#() đối với mọi t € R Hơn thé nữa,

(z)|)<2eMR, Stu dụng Dinh lý (1.11.1) cho ta

IG (2)| > exp {- In (35 ) In (max|.\-2er, |G (2 ))} > ø đối với mọi z € C, |z| <

Rp, ngoại trừ một tập nhiều nhất đếm được các dia tròn {PŒ/.r/)};c„ với

3;c„r < Rp" Ry = Ry Điều này ngụ ý

{zxeR:lz| < Rp, |đ(2)| <p} C | JIP (;.z;) OR).

jet

In(maxlzI—aep„ |G

24

Trang 37

A(Bmm,g„„) < 5A ({2 ER: lel < Rp, [f" (| <ø}):

ta thu được bat dang thức (1.6).

Bổ dé 1.13.5 (Xem Trong-Phuong [53], Bố dé 4) Giả sử rằng ham mật độ sai

số ƒ thỏa man diéu kiện

Trang 38

Chương 2

Ước lượng phi tham số cho P(X < Y)

sử dụng các dữ liệu nhiễu với các sai

số đo có hàm mật độ đồng nhất và

có giá com-pắc

Trong chương này, chúng tôi khảo sát bài toán ước lượng đại lượng 9 :=

P(X <Y) trong trường hợp biến đổi Fourier của các hàm mật độ sai số - hàm đặc trưng của các sai số đo — có thể có các không điểm Chương này chứa nội

dung của bài báo (T1) đã được công bố trên tạp chí Statistics and Probability

Letters vào năm 2017 Nội dung của chương được chia thành bốn mục Trong mục

2.1| chúng tôi phát biểu bài toán và giới thiệu bài báo Dattner [14], một kết qua nghiên cứu liên quan trực tiếp đến bài toán này Trong mục dựa vào đẳng

thức liên hệ giữa hàm phân phối và biến đổi Fourier của hàm mật độ, chúng tôi

xây dựng một ước lượng cho Ø Trong mục trước tiên, chúng tôi chứng minh

ước lượng được đề nghị đạt được tốc độ hội tụ tối ưu trong trường hợp siêu trơn

của các hàm mật độ fe và fy Sau đó, chúng tôi thiết lập các kết quả chính của

chương này liên quan đến tính vững của ước lượng và tốc độ hội tụ của ước lượng

Lg ~ 1/2

thông qua sai sô ( 1/6 — 0|) / trong trường hợp các ham mật độ fe va fy có giá

com-pắc Trong mục |2.4 chúng tôi đưa ra các kết quả tính toán số để minh họa

các kết quả lý thuyết Cuối cùng, trong mục chúng tôi trình bày các chứngmình của các kết quả lý thuyết trong mục

26

Trang 39

2.1 Giới thiệu

Cho hai biến số ngẫu nhiên liên tục X và Y với hàm mật độ không biết fx

và ƒy tương ứng Chúng tôi nghiên cứu bài toán ước lượng đại lượng

6:=P(X <Y) (2.1)

từ hai mau độc lập (Xj, ,X/,) và (Yƒ, ,Y„) của X'= X+Cvà Y'=Y +

tương ứng, trong đó

Ö đây, giả sử ne các biến số ngẫu nhiên X;, Gy, Ye, me là độc lập lẫn nhau đối

với 1 < j,j' <n; 1 < k,k' < m; các biến số ngẫu nhiên X\, , X„ có cùng phân

phối với hàm mật ' không biết fy; các biến số ngẫu nhiên Yì, ,Y„ có cùng

phân phối với hàm mật độ không biết fy Các biến số ngẫu nhiên sai số C\, , Cn

có cùng phân phối với hàm mật độ được biết ƒ¿ và các biến số ngẫu nhiên sai số

M,+-+:Mm có cùng phân phối với ham mật độ được biết fy.

Năm 2013, như đã được giới thiệu trong phan mở đầu, Dattner đã khảo

sát bài toán khi các hàm mật độ sai số fc, fy là siêu trơn va các hàm mật độ fx,

fy thuộc lớp ham Sobolev Tác giả đã đề nghị một ước lượng của 0 có dạng

mm ty vã ofp “fe we) dt, (2.3)

mT el (t) fy 0)

ở đây « là tham số thiết kế phụ thuộc vào các kích thước mau n, m và phải được

chọn Tác giả đã cung cấp tốc độ hội tụ tối ưu của ước lượng 6? thông qua sai

ˆ 2\ 1/2 - ¬ te ˆ ;

sé (E ôP — 0| ) Tuy nhiên, chúng ta cũng có thể thấy rằng ước lượng 6? chỉ

có thể được sử dụng nếu các hàm mật độ sai số thỏa mãn điều kiện đệ (| #0

ft

n

Laplace va nhiều ham mật độ khác Tuy nhiên, cũng có một số ham mật độ thông

và ()| 0, Ví € R Điều kiện này xảy ra đối với hàm mật độ chuẩn, Cauchy,

dụng không thỏa mãn điều kiện này, trong đó điển hình là hàm mật độ đều Vì vậy, ước lượng này sẽ không thể sử dụng được nếu fe và f, là ham mat độ đều hay tổng quát hơn là hàm mật độ có giá com-pắc mà đặc trưng của các hàm này

là tập các không điểm của biến đổi Fourier của nó là tập nhiều nhất đếm được.

Do đó, để khắc phục phần nhược điểm của ước lượng 6”, chúng tôi đề xuất một

ước lượng cho @ mà có thể được sử dung trong trường hợp fe va fit cÓ thể có

27

Trang 40

không điểm, đồng thời tập trung nghiên cứu trường hợp các hàm mật độ sai số

thuộc lớp hàm

F(M)= {ham mật độ g : supp (g) C [—M, Mj},

trong đó M > 0 Lớp ham nay chứa các ham mật độ đều, các hàm mat độ tam

giác, các hàm mật độ beta, hay tổng quát hơn là các hàm mật độ có giá pac Đối với mỗi phan tử thuộc lớp hàm Z (M), tập các không điểm của biến đổi

com-Fourier của nó là tập nhiều nhất đếm được

2.2 Phương pháp ước lượng

Trong mục này, chúng tôi mô tả phương pháp để xây dựng một ước lượng cho

0 Đặt Z = X —Y Khi đó, từ (2.1), ta thu được 6 = P(Z < 0) = Fz (0), 6 đây Fz

là hàm phân phối của Z Sử dụng Định lý 1.1.7 ta nhận được

1 1 1

P8) =s— [ xIm{e “#ƒ!(0)}d, reR,

trong đó ƒ là hàm mat độ tương ứng với hàm phân phối bat kỳ F Hơn nữa, chú

ý rằng, theo Định lý |1.1.5| Mệnh đề|1.1.4| ta được fz = fx *{ƒy (—-)} Do vậy, ta

suy ra fi = ft fe Khi đó, ta nhận được

Từ (2.4), để xây dựng một ước lượng cho 6, ta cần xây dựng các ước lượng thích

hợp cho ft (t) va f(t) Chú ý rằng, từ sự độc lập của X va ¢, ta thu được

fx = fx* fc, 6 đây fx là hàm mật độ của X” Từ day, ta có ff, () = /Ä (Ð) fe (t),

vì vậy ƒš (t) = FX, (t) / FE (t) nếu ff (t) #0 Vt € R Trong thực tế, dai lượng f¥, (t)

không được biết Tuy nhiên, với mẫu di liệu nhiễu (X}, ,X/), ta sẽ tim một ướclượng phù hợp cho ƒ#, (t) Thật vậy, xét hàm đặc trưng thực nghiệm (empirical

Với mỗi t € R, ta có E [ fit, (t)| = fit, (t), và hơn nữa, theo luật mạnh số lớn,

tt, (t) + fit, (t) hầu chắc chắn, khi n > oo Vì thé, ff, (t) được sử dụng để ước

28

Ngày đăng: 02/10/2024, 00:51

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN