Hình PL - Sử dụng hàm cực đại trong phân tích nhận- 123docz.net

Từ hình 5.4 chúng ta có thể thấy rằng nhóm 1, 3 và 4 thì tách rời những nhóm khác

nhưng nhóm 2, 6 và nhóm 7 có những phần tử cùng thuộc vùng chung.

Hàm mật độ 2 chiều ước lượng được cho dưới dạng:

            n i y j x i y x h y y h x x K h nh y x f 1 , 1 ) , ( Trong đó, n là số những phần tử trong nhóm,

K(z1,z2) là hàm hạt nhân. Chúng tôi chọn hàm hạt nhân chuẩn:

            2 exp 2 1 , 2 2 2 1 2 1 z z z z K 

hx, hy được gọi là tham số trơn. Giá trị tối ưu của tham số trơn đã được thảo

luận bởi những tác giả khác nhau như đã trình bày trong chương 1. Ở đây

113

chúng tôi cũng sử dụng kết quả này cho việc tính hx và hy bởi (1.13). Bảy hàm

mật độ xác suất ước lượng được cho bởi hình 5.5

Sử dụng thuật toán 1 cho 7 hàm mật độ xác suất vừa ước lượng, chúng ta

thành lập được cây phân loại cho bởi hình 5.6. Việc tính tích phân 

dx x

gmax( ) để

tính các khoảng cách bằng phương pháp Monte – Carlo.

Hình 5.5: Đồ thị hàm mật độ xác suất hai chiều ước lượng bằng phương pháp hàm hạt nhân cho bảy nhóm sinh viên

114 5.916 5.916 (S6) 3.095 (S5) 2.009 (S4) 1.196 (S3) 0.993 (S2) 0.860 (S1)

Kết quả phân loại này phù hợp với những nhận định ban đầu về việc phân

tích chùm dữ liệu của chúng ta.

Ví dụ 5.3. Xây dựng chùm theo phương pháp K-trung bình

K – trung bình là một phương pháp xây dựng chùm không thứ bậc đơn giản

nhưng rất phổ biến được đưa ra bởi MacQueen (1967). Nguyên tắc chung của

phương pháp này là phân chia n phần tử ban đầu thành k chùm một cách ngẫu

nhiên, sau đó sắp xếp lại các phần tử vào các chùm sao cho khoảng cách từ 1 phần

tử bất kỳ đến chùm chứa nó là nhỏ nhất so với khoảng cách từ nó đến các chùm khác. Khoảng cách được sử dụng ở đây là khoảng Euclide giữa các trọng tâm của 2 chùm. Ở đây chúng tôi sẽ áp dụng phương pháp 3 – trung bình cho cả 2 ví dụ để so

sánh với phương pháp mà chúng tôi đề nghị.

f4 f2 f7 f5 f6 f1 f3

Hình 5.6: Cây phân loại cho bảy hàm mật độ xác suất hai chiều được ước lượng bằng phương pháp hàm hạt nhân

115

Trong ví dụ 5.1 ta thay thế mỗi hàm mật độ xác suất chuẩn bằng trung bình của nó. Phân chia 7 phần tử bằng 3 chùm một cách ngẫu nhiên:

f1,f4, {f2,f7}, f3,f5, f6

Áp dụng phương pháp 3 – trung bình, kết quả sự phân tích chùm như sau:

f1,f4, {f2,f5,f7}, f3,f6

Kết quả này được chứng minh bởi bảng tính cuối cùng sau:

Bảng 5.3: Bình phương khoảng cách Euclide từ trung của bình 3 chùm cuối cùng đến trung bình của các tổng thể một chiều

f1(0.3) f2(4.0) f3(9.1) f4(1.0) f5(5.5) f6(8) f7(4.8) f14(0.65) 0.1225 11.2225 71.4025 0.1225 23.5225 54.0225 17.2225 f257(4.77) 19.9809 0.5929 18.7489 14.2129 0.5929 10.4329 0.5929

f36(8.55) 68.0625 20.7025 0.3025 57.0025 9.3025 0.3025 14.0625 Kết quả này giống như ví dụ 5.1.c, bởi vì phương sai của các hàm mật độ xác suất

chuẩn giống nhau. Nếu phương sai khác nhau, phương pháp 3 – trung bình cũng

cho kết quả giống như vậy (vì phương sai không ảnh hưởng đến khoảng cách),

nhưng phương pháp của chúng tôi có thể dẫn đến kết quả khác vì phương sai là một

yếu tố quan trọng khi tính khoảng cách theo phương pháp cực đại. Điều này thể

hiện một sự hợp lý hơn khi đánh giá mức độ gần nhau của các tổng thể.

Trong ví dụ 5.2, sử dụng 7 trung bình để biểu diễn cho 7 nhóm, cũng áp

dụng phương pháp 3 – trung bình chia 7 nhóm thành 3 chùm ngẫu nhiên

w2,w5,w7, w1,w6, w3,w4cuối cùng dẫn đến 3 chùm w2,w5,w6,w7,w1,w3,

 w4 . Trong đó khoảng cách trọng tâm từ một nhóm bất kỳ trong mỗi chùm đến

chùm đó là nhỏ nhất so với khoảng cách đến trọng tâm của chùm khác. Cụ thể ta có

bảng sau (Tính toán chi tiết trong phụ lục 3.3a).

Bảng 5.4: Bình phương khoảng cách Euclide từ trọng tâm của ba chùm cuối cùng đến trọng tâm các nhóm hai chiều

w1 w2 w3 w4 w5 w6 w7

w4 981.68 322.02 446.88 0.00 661.02 225.14 465.35

w13 38.41 870.68 38.42 675.87 370.05 341.20 1297.19

116

Kết quả này khác kết quả của ví dụ 5.2: w2,w5,w7, w1,w6, w3,w4. Nếu

chọn K = 1, chúng ta có kết quả cây phân loại giống như sử dụng phương pháp thứ

bậc xây dựng chùm cho các dữ liệu rời rạc (Tính toán chi tiết trong phụ lục 3.3b).

591.15 (S6) 335.33 (S5) 256.83 (S4) 153.65 (S3) 114.64 42.51 (S2) (S1)

Hình 5.7: Sơ đồ cây sử dụng phương pháp 1– trung bình

Ta thấy Hình 5.7 khác hình 5.6. Lý do là khi sử dụng khoảng cách Euclide trong phương pháp K – trung bình chỉ có trung bình của dữ liệu được xem xét.

Trong khi khoảng cách cực đại ước lượng hàm mật độ xác suất từ dữ liệu cho mỗi

nhóm thì trung bình và độ lệch chuẩn đều được đưa vào trong việc xem xét khoảng

cách. Vì vậy phương pháp của chúng tôi đưa ra đã khắc phục được tiêu chuẩn lỏng

lẻo trong đánh giá mứcđộ gần nhau của các nhóm theo phương pháp K–trung bình.

5.5. KẾT LUẬN

Chúng tôi đã xây dựng được các thuật toán chùm, khi các phần tử của nó là

các hàm mật độ xác suất (Nếu bắt đầu từ số liệu rời rạc ta chỉ cần ước lượng hàm

mật độ xác suất của chúng). Các thuật toán này đã được kiểm chứng thông qua ví

dụ bằng số khi các phần tử là hàm mật độ xác suất có phối chuẩn một chiều đã biết

117

và cho cả dữ liệu rời rạc thực hai chiều. Công cụ cơ bản để xây dựng chùm là độ

rộng của chùm, mà nó được định nghĩa từ hàm cực đại. Hàm cực đại này có thể được xác định dễ dàng cho các hàm mật độ xác suất một chiều dựa vào chương

trình mà chúng tôi đã viết trên phần mềm Maple, tuy nhiên nó rất phức tạp trong

những trường hợp khác. Sử dụng việc tính gần đúng tích phân bằng phương pháp

Monte Carlo với các phần mềm toán học có thể viết các chương trình tính độ rộng

chùm trong trường hợp nhiều chiều. Độ rộng chùm cho ta biết mức độ “gần” của

các phần tử trong chùm, cũng như sự “xa” giữa hai chùm. Ứng dụng thực tế theo

phương pháp của chúng tôi trong các lĩnh vực khác nhau sẽ được nghiên cứu trong

118

KẾT LUẬN

Luận án khảo sát bài toán phân loại và phân biệt cho hai tổng thể và nhiều

hơn hai tổng thể trong trường hợp một chiều, nhiều chiều và sự mở rộng của nó là

bài toán phân tích chùm của các hàm mật độ xác suất. Khi giải quyết bài toán này

theo hướng thống kê ứng dụng, chúng tôi đã sử dụng hàm cực đại và khoảng cách

của hai cũng như nhiều hơn hai hàm mật độ xác suất làm nền tảng. Nội dung của

luận án hoàn toàn không trùng lập với bất cứ một luận án nào đã được công bố trước đây. Những đóng góp chính của luận án như sau:

1. Về mặt lý thuyết

1.1. Thông qua hàm cực đại, dựa trên Glick (1973) đưa ra một định nghĩa được xem là khoảng cách L1 của nhiều hơn hai hai hàm mật độ xác suất fi(x) và

gi(x) với ( ) ( ), (0,1), 1, 2 1       k q q f q g k i i i i i

i x x . Từ đây đã khảo sát được

một số kết quả liên quan đến khoảng cách này và các đại lượng khác liên quan đến

bài toán phân loại và phân biệt:

i) Mối quan hệ giữa g1,g2 1và hai xác suất sai lầm trong phương pháp

Bayes khi giả sử chúng là các đại lượng ngẫu nhiên có phân phối thông

dụng trên (0, 1/4).

ii) Mối quan hệ giữa khoảng cách g1,g2,...,gk 1 và affinity của Toussaint cũng như giữa

1 2

1,f ,..., fk

f và affinity của Matusita, các biên cho các

khoảng cách đã nêu và mối quan hệ giữa chúng với những số lượng phần

tử khác nhau của nó.

1.2. Sử dụng hàm cực đại để đưa ra một nguyên tắc khi phân loại một phần

tử mới, đồng thời tính được sai số Bayes cho bài toán này khi quan tâm đến xác suất

tiên nghiệm. Nguyên tắc này đã chứng minh được tính hiệu quả cũng như sự thuận

119

Dựa vào hàm cực đại, mối quan hệ giữa các khoảng cách L1 với sai số Bayes, hệ số

chồng lấp của các hàm mật độ xác suất với những cấp độ khác nhau đã được thiết

lập. Cận trên, cận dưới cho sai số Bayes và mối quan hệ giữa chúng với nhau cũng đã được đưa ra.

1.3. Dựa vào hàm cực đại luận án xây dựng khái niệm độ rộng của chùm. Độ

rộng của chùm được sử dụng làm tiêu chuẩn để giải quyết bài toán chùm các hàm

mật độ xác suất. Tiêu chuẩn này cùng với định lý được thiết lập có thể đánh giá

được mức độ “gần” của các phần tử trong chùm cũng như sự “xa” của các chùm có

chú ý đến sự phân bố của dữ liệu đã cho. Ở đây đã nêu 3 phương pháp xây dựng

chùm: Phương pháp thứ bậc, phương pháp không thứ bậc và phương pháp xây dựng

chùm có độ rộng cho trước với những thuật toán cụ thể.

2. Về mặt tính toán

2.1. Viết được chương trình tìm hàm cực đại, tính sai số Bayes cũng như

khoảng cách L1 của nhiều hàm mật độ xác suất khi chúng có phân phối một chiều.

Chương trình phân loại phần tử mới cho nhiều tổng thể nhiều chiều cũng được xây

dựng. Khi các tổng thể có phân phối nhiều chiều, sử dụng tính gần đúng tích phân

bằng phương pháp Monte – Carlo đã viết được chương trình tính sai số Bayes cho

nhiều tổng thể, nghĩa là đã giải quyết được khó khăn tính toán trước đây của bài toán phân loại và phân biệt. Những chương trình này cũng tính được độ rộng của chùm trong các trường hợp khác nhau. Các chương trình này được viết trên phần

mềm Maple và có thể đưa vào thư viện của chương trình để những người khác sử

dụng.

2.2. Kiểm chứng kết quả lý thuyết trên những dữ liệu cụ thể. Dữ liệu được

kiểm chứng cho bài toán phân loại và phân biệt là dữ liệu nổi tiếng của Fisher về

hoa Iris, một dữ liệu chuẩn đã được nhiều nhà toán học quan tâm. Dữ liệu minh họa

trong bài toán phân tích chùm là dữ liệu về hàm mật độ xác suất đã biết và dữ liệu

thực tế về điểm thi môn xác suất thống kê của sinh viên trường đại học Moncton –

120

3. Hướng phát triển

Qua việc giải quyết bài toán đặt ra chúng tôi định hướng cho những nghiên cứu tiếp theo như sau:

3.1. Xây dựng những biểu thức giải tích hàm phân biệt, sai số Bayes cho

nhiều tổng thể có phân phối khác chưa được khảo sát trong luận án.

3.2. Xây dựng một chương trình hoàn chỉnh cùng một lúc có thể thực hiện

các chức năng: Ước lượng hàm mật độ xác suất, đưa ra hàm phân biệt, phân loại

một phần tử mới, tính sai số Bayes, thực hiện bài toán phân tích chùm khi có dữ liệu

quan sát là các số liệu rời rạc.

139

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Vương Quân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu, Trần Minh Ngọc, Lê

Hồng Phương (2006), “Phương pháp thống kê xây dựng mô hình định mức tín

nhiệm khách hàng thể nhân” , Tạp chí ứng dụng toán học, 4(2), tr 1 – 16. [2] Võ Văn Tài, Phạm Gia Thụ, Tô Anh Dũng (2008), "Sai số Bayes và khoảng

cách giữa hai hàm mật độ xác suất trong phân loại hai tổng thể", Tạp chí phát triển khoa học công nghệ, Đại học Quốc gia TPHCM, 11(6), tr 23 – 37.

[3] Võ Văn Tài, Phạm Gia Thụ, Tô Anh Dũng (2008), "Ước lượng Bayes cho tỷ lệ

trộn trong phân loại và nhận dạng hai tổng thể", Tạp chí phát triển khoa học công nghệ, Đại học Quốc gia TPHCM, 11(1), tr 21 – 30.

[4] Tô Cẩm Tú, Nguyễn Huy Hoàng (2003), Phân tích số liệu nhiều chiều, NXB Khoa học và Kỹ thuật, Hà Nội.

Tiếng Anh

[5] Andrews, H.C. (1972), Introduction to mathematical techniques in pattern recognition, Wiley, New York.

[6] Anderson, T.W. (1984), An introduction to multivariate statistical analysis, Wiley, New York.

[7] Ben Bassat, M. (1982), "Use of distance measure, imformation meaure and error bounds in feature evalution", Handbook of Statistics, North Holland. Co., vol 2, pp.773–791.

[8] Chen, C.H. (1973), Statistical pattern recognition, Hayden, Washington DC. [9] Chen, C.H. (1976) "On information and distance measures, error bounds and feature selection", Information Sciences 10, pp.159–173.

[10] Chow, C.K. and Liu, C.N. (1968) " Approximating discrete probability distributions with dependence trees", IEEE Transactions on information theory 14(3), pp.462 – 467.

[11] Defays, D. (1977), "An efficient algorithm for a complete link method”, Computer Journal, 20(4), pp.364–366.

140

approach, Prentice Hall, London.

[13] Devroye, L., Gyorfi, L. and Lugosi, G., (1996), A probabilistic theory of pattern recognition, Springer, New York.

[14] Dubes, R.C. (1987), "How many clusters are the best ? – an experiment", Pattern Recognition, 20(6), pp.645–663.

[15] Duin, R.P.W. (1976), "On the choice of smoothing parameters for Parzen estimators of probability density functions", IEEE Transactions on computers 25, pp. 1175 – 1179.

[16] Fisher, R.A. (1936), "The statistical utilization of multiple measurements", Annals of Eugenics 7, pp.376–386.

[17] Flury, B. and Riedwyl, H. (1988), Mutivariate statistics, Chapman and Hall, New York.

[18] Fukunaga, K. (1990), Introduction to statistical pattern recognition, 2nd Ed., Academic Press, New York.

[19] Ghosh, A.K., Chaudhuri, P. and Sengupta, D. (2006), "Classification using kernel density estimates: Multiscale analysis and visualization", Technometrics

48(1), pp.120–132.

[20] Glick, N. (1973), "Separation and probability of correct classification among two or more distributions", Annals Inst. Stat Math. 25, pp.373–382.

[21] Glick, N. (1972), "Sample – based classification procedures derived from density estimators", Journ. Amer. Stat. Assoc. 67, pp.116–122.

[22] Gonzalez, R.C.,Woods, R.E. and Eddins, S.L.(2004), Digital image processing with Matllab, Prentice–Hall, New York.

[23] Gower, J.C. A (1971), "General coefficent of similarity and some of its properties", Biometrics 27, pp.857–874.

[24] Inman, H.F. and Bradley, E.L (1989), "The overlapping coefficient as a measure of agreement between probability distributions and point estimation of the overlap of two normal densities", Commun. in Stat – theory methods 18(10), pp.3851–3872.

[25] Johnson and Wichern (1998), Applied multivariate statistical analysis, 4th ed., Prentice – Hall, Mc Millan, London.

141

in kernel based estimation of integrated squared density derivaties", Statistics and probability letters 11, pp. 511 – 514.

[27] Hand, D.J. (1981), Discriminant and classification, Wiley, New York. [28] Hand, D.J. (1982), Kernel discriminant analysis, Research studies press, Letchworth.

[29] Kendall, M., Stewart, A. and Ord, S. (1973), The advanced theory of statistics, Vol. 3, 4th ed., Mc Millan, London.

[30] Kittler, J. (1982), Pattern recognition, a statistical approach, Prentice Hall, London.

[31] Lissack T.S.V.I and Fu K.S., (1976), Error estimation in pattern recognition, IEEE Trans Info Theory 22, pp.34–45.

[32] Mardia, K.V., Kent, J.T. and Bibby, J.M. (1979), Multivariate analysis, Academic Press, New York.

[33] Martinez, W.L. and Martinez, A.R., (2008), Computational statistics handbook with Matlab, Chapman & Hall/CRC, Boca Raton.

[34] Matusita, K. (1967), "On the notion of affinity of several distributions and some of its applications", Ann. Inst. Statist. Math. 19, pp.181–192.

[35] McLachlan, G.J. and Basford, K.E. (1988), Mixture Models: Inference and applications to clustering, Marcel Dekker, New York.

[36] Milligan. G.W.and Cooper, M.C., (1985), "An examination of procedures for determining the number of clusters in a data set", Psychometrika, 50(2), pp.159–179.

[37] Naiman, D.Q. and Wynn, H.P. (1992), "Inclusion – Exclusion – Bonferroni identities and inequalities for duscrete tube – Like problems via Euler characteristics", Annals of Stat. 20, pp.43–76.

[38] Pal, N.R. and Bezdek, J.C, (1995), "On cluster validity for the fuzzy – means model", IEEE Transactions on fuzzy sytems 3(3), pp.370–379.

[39] Parzen, E. (1962), "On estimation of a probability density function and mode ", Annals of Mathematical statiststics 33, pp. 1065 – 1076.

[40] Pham–Gia, T. and Turkkan, N. (2006), "Baysian analysis in the L1– norm of the mixing proportion using discriminant analysis", Metrika 64(1), pp.1–22. [41] Pham – Gia, T., Turkkan, N. and Bekker, A., (2006), "Bounds for the Bayes

142

error in classification: A Bayesian approach using discriminant analysis", Statistical Methods and Applications 16, pp. 7 - 26.

[42] Pham–Gia, T. Turkkan, N. and Tai, Vovan., (2008), "The maximum function in statistical discrimination analysis",Commun. in Stat–Simulation computation 37(2), pp. 320 – 336.

[43] Rencher, A. (1988), Multivariate statistical Inference and applications, John Wiley & Son, New York.

[44] Rohlf. F.J., (1982), "Single – link clustering algorithms", in P.R. Krishnaiah and L.N. Kanal, eds, Handbook of Statistics, North Holland, Amsterdam, vol.2, pp. 267–284.

[45] Scott, David W. (1992), Mutivariate density estimation: theory, practice and visualization, John Wiley & Son, New York.

[46] Silverman, B.W. (1986), Density estimation, Chapman and Hall, London. [47] Sibson, R., "Slink: an optimally efficient algorithm for the single – link cluster method", Computer Journal 16(1), pp. 30–34.

[48] Sutradhar, B.C. (1990), "Discrimination of observations into one of two t – populations", Biometrics 46, pp.827–835.