Từ hình 5.4 chúng ta có thể thấy rằng nhóm 1, 3 và 4 thì tách rời những nhóm khác
nhưng nhóm 2, 6 và nhóm 7 có những phần tử cùng thuộc vùng chung.
Hàm mật độ 2 chiều ước lượng được cho dưới dạng:
n i y j x i y x h y y h x x K h nh y x f 1 , 1 ) , ( Trong đó, n là số những phần tử trong nhóm,
K(z1,z2) là hàm hạt nhân. Chúng tôi chọn hàm hạt nhân chuẩn:
2 exp 2 1 , 2 2 2 1 2 1 z z z z K
hx, hy được gọi là tham số trơn. Giá trị tối ưu của tham số trơn đã được thảo
luận bởi những tác giả khác nhau như đã trình bày trong chương 1. Ở đây
113
chúng tôi cũng sử dụng kết quả này cho việc tính hx và hy bởi (1.13). Bảy hàm
mật độ xác suất ước lượng được cho bởi hình 5.5
Sử dụng thuật toán 1 cho 7 hàm mật độ xác suất vừa ước lượng, chúng ta
thành lập được cây phân loại cho bởi hình 5.6. Việc tính tích phân
n
R
dx x
gmax( ) để
tính các khoảng cách bằng phương pháp Monte – Carlo.
Hình 5.5: Đồ thị hàm mật độ xác suất hai chiều ước lượng bằng phương pháp hàm hạt nhân cho bảy nhóm sinh viên
114 5.916 5.916 (S6) 3.095 (S5) 2.009 (S4) 1.196 (S3) 0.993 (S2) 0.860 (S1)
Kết quả phân loại này phù hợp với những nhận định ban đầu về việc phân
tích chùm dữ liệu của chúng ta.
Ví dụ 5.3. Xây dựng chùm theo phương pháp K-trung bình
K – trung bình là một phương pháp xây dựng chùm không thứ bậc đơn giản
nhưng rất phổ biến được đưa ra bởi MacQueen (1967). Nguyên tắc chung của
phương pháp này là phân chia n phần tử ban đầu thành k chùm một cách ngẫu
nhiên, sau đó sắp xếp lại các phần tử vào các chùm sao cho khoảng cách từ 1 phần
tử bất kỳ đến chùm chứa nó là nhỏ nhất so với khoảng cách từ nó đến các chùm khác. Khoảng cách được sử dụng ở đây là khoảng Euclide giữa các trọng tâm của 2 chùm. Ở đây chúng tôi sẽ áp dụng phương pháp 3 – trung bình cho cả 2 ví dụ để so
sánh với phương pháp mà chúng tôi đề nghị.
f4 f2 f7 f5 f6 f1 f3
Hình 5.6: Cây phân loại cho bảy hàm mật độ xác suất hai chiều được ước lượng bằng phương pháp hàm hạt nhân
115
Trong ví dụ 5.1 ta thay thế mỗi hàm mật độ xác suất chuẩn bằng trung bình của nó. Phân chia 7 phần tử bằng 3 chùm một cách ngẫu nhiên:
f1,f4, {f2,f7}, f3,f5, f6
Áp dụng phương pháp 3 – trung bình, kết quả sự phân tích chùm như sau:
f1,f4, {f2,f5,f7}, f3,f6
Kết quả này được chứng minh bởi bảng tính cuối cùng sau:
Bảng 5.3: Bình phương khoảng cách Euclide từ trung của bình 3 chùm cuối cùng đến trung bình của các tổng thể một chiều
f1(0.3) f2(4.0) f3(9.1) f4(1.0) f5(5.5) f6(8) f7(4.8) f14(0.65) 0.1225 11.2225 71.4025 0.1225 23.5225 54.0225 17.2225 f257(4.77) 19.9809 0.5929 18.7489 14.2129 0.5929 10.4329 0.5929
f36(8.55) 68.0625 20.7025 0.3025 57.0025 9.3025 0.3025 14.0625 Kết quả này giống như ví dụ 5.1.c, bởi vì phương sai của các hàm mật độ xác suất
chuẩn giống nhau. Nếu phương sai khác nhau, phương pháp 3 – trung bình cũng
cho kết quả giống như vậy (vì phương sai không ảnh hưởng đến khoảng cách),
nhưng phương pháp của chúng tôi có thể dẫn đến kết quả khác vì phương sai là một
yếu tố quan trọng khi tính khoảng cách theo phương pháp cực đại. Điều này thể
hiện một sự hợp lý hơn khi đánh giá mức độ gần nhau của các tổng thể.
Trong ví dụ 5.2, sử dụng 7 trung bình để biểu diễn cho 7 nhóm, cũng áp
dụng phương pháp 3 – trung bình chia 7 nhóm thành 3 chùm ngẫu nhiên
w2,w5,w7, w1,w6, w3,w4cuối cùng dẫn đến 3 chùm w2,w5,w6,w7,w1,w3,
w4 . Trong đó khoảng cách trọng tâm từ một nhóm bất kỳ trong mỗi chùm đến
chùm đó là nhỏ nhất so với khoảng cách đến trọng tâm của chùm khác. Cụ thể ta có
bảng sau (Tính toán chi tiết trong phụ lục 3.3a).
Bảng 5.4: Bình phương khoảng cách Euclide từ trọng tâm của ba chùm cuối cùng đến trọng tâm các nhóm hai chiều
w1 w2 w3 w4 w5 w6 w7
w4 981.68 322.02 446.88 0.00 661.02 225.14 465.35
w13 38.41 870.68 38.42 675.87 370.05 341.20 1297.19
116
Kết quả này khác kết quả của ví dụ 5.2: w2,w5,w7, w1,w6, w3,w4. Nếu
chọn K = 1, chúng ta có kết quả cây phân loại giống như sử dụng phương pháp thứ
bậc xây dựng chùm cho các dữ liệu rời rạc (Tính toán chi tiết trong phụ lục 3.3b).
591.15 (S6) 335.33 (S5) 256.83 (S4) 153.65 (S3) 114.64 42.51 (S2) (S1)
Hình 5.7: Sơ đồ cây sử dụng phương pháp 1– trung bình
Ta thấy Hình 5.7 khác hình 5.6. Lý do là khi sử dụng khoảng cách Euclide trong phương pháp K – trung bình chỉ có trung bình của dữ liệu được xem xét.
Trong khi khoảng cách cực đại ước lượng hàm mật độ xác suất từ dữ liệu cho mỗi
nhóm thì trung bình và độ lệch chuẩn đều được đưa vào trong việc xem xét khoảng
cách. Vì vậy phương pháp của chúng tôi đưa ra đã khắc phục được tiêu chuẩn lỏng
lẻo trong đánh giá mứcđộ gần nhau của các nhóm theo phương pháp K–trung bình.
5.5. KẾT LUẬN
Chúng tôi đã xây dựng được các thuật toán chùm, khi các phần tử của nó là
các hàm mật độ xác suất (Nếu bắt đầu từ số liệu rời rạc ta chỉ cần ước lượng hàm
mật độ xác suất của chúng). Các thuật toán này đã được kiểm chứng thông qua ví
dụ bằng số khi các phần tử là hàm mật độ xác suất có phối chuẩn một chiều đã biết
117
và cho cả dữ liệu rời rạc thực hai chiều. Công cụ cơ bản để xây dựng chùm là độ
rộng của chùm, mà nó được định nghĩa từ hàm cực đại. Hàm cực đại này có thể được xác định dễ dàng cho các hàm mật độ xác suất một chiều dựa vào chương
trình mà chúng tôi đã viết trên phần mềm Maple, tuy nhiên nó rất phức tạp trong
những trường hợp khác. Sử dụng việc tính gần đúng tích phân bằng phương pháp
Monte Carlo với các phần mềm toán học có thể viết các chương trình tính độ rộng
chùm trong trường hợp nhiều chiều. Độ rộng chùm cho ta biết mức độ “gần” của
các phần tử trong chùm, cũng như sự “xa” giữa hai chùm. Ứng dụng thực tế theo
phương pháp của chúng tôi trong các lĩnh vực khác nhau sẽ được nghiên cứu trong
118
KẾT LUẬN
Luận án khảo sát bài toán phân loại và phân biệt cho hai tổng thể và nhiều
hơn hai tổng thể trong trường hợp một chiều, nhiều chiều và sự mở rộng của nó là
bài toán phân tích chùm của các hàm mật độ xác suất. Khi giải quyết bài toán này
theo hướng thống kê ứng dụng, chúng tôi đã sử dụng hàm cực đại và khoảng cách
của hai cũng như nhiều hơn hai hàm mật độ xác suất làm nền tảng. Nội dung của
luận án hoàn toàn không trùng lập với bất cứ một luận án nào đã được công bố trước đây. Những đóng góp chính của luận án như sau:
1. Về mặt lý thuyết
1.1. Thông qua hàm cực đại, dựa trên Glick (1973) đưa ra một định nghĩa được xem là khoảng cách L1 của nhiều hơn hai hai hàm mật độ xác suất fi(x) và
gi(x) với ( ) ( ), (0,1), 1, 2 1 k q q f q g k i i i i i
i x x . Từ đây đã khảo sát được
một số kết quả liên quan đến khoảng cách này và các đại lượng khác liên quan đến
bài toán phân loại và phân biệt:
i) Mối quan hệ giữa g1,g2 1và hai xác suất sai lầm trong phương pháp
Bayes khi giả sử chúng là các đại lượng ngẫu nhiên có phân phối thông
dụng trên (0, 1/4).
ii) Mối quan hệ giữa khoảng cách g1,g2,...,gk 1 và affinity của Toussaint cũng như giữa
1 2
1,f ,..., fk
f và affinity của Matusita, các biên cho các
khoảng cách đã nêu và mối quan hệ giữa chúng với những số lượng phần
tử khác nhau của nó.
1.2. Sử dụng hàm cực đại để đưa ra một nguyên tắc khi phân loại một phần
tử mới, đồng thời tính được sai số Bayes cho bài toán này khi quan tâm đến xác suất
tiên nghiệm. Nguyên tắc này đã chứng minh được tính hiệu quả cũng như sự thuận
119
Dựa vào hàm cực đại, mối quan hệ giữa các khoảng cách L1 với sai số Bayes, hệ số
chồng lấp của các hàm mật độ xác suất với những cấp độ khác nhau đã được thiết
lập. Cận trên, cận dưới cho sai số Bayes và mối quan hệ giữa chúng với nhau cũng đã được đưa ra.
1.3. Dựa vào hàm cực đại luận án xây dựng khái niệm độ rộng của chùm. Độ
rộng của chùm được sử dụng làm tiêu chuẩn để giải quyết bài toán chùm các hàm
mật độ xác suất. Tiêu chuẩn này cùng với định lý được thiết lập có thể đánh giá
được mức độ “gần” của các phần tử trong chùm cũng như sự “xa” của các chùm có
chú ý đến sự phân bố của dữ liệu đã cho. Ở đây đã nêu 3 phương pháp xây dựng
chùm: Phương pháp thứ bậc, phương pháp không thứ bậc và phương pháp xây dựng
chùm có độ rộng cho trước với những thuật toán cụ thể.
2. Về mặt tính toán
2.1. Viết được chương trình tìm hàm cực đại, tính sai số Bayes cũng như
khoảng cách L1 của nhiều hàm mật độ xác suất khi chúng có phân phối một chiều.
Chương trình phân loại phần tử mới cho nhiều tổng thể nhiều chiều cũng được xây
dựng. Khi các tổng thể có phân phối nhiều chiều, sử dụng tính gần đúng tích phân
bằng phương pháp Monte – Carlo đã viết được chương trình tính sai số Bayes cho
nhiều tổng thể, nghĩa là đã giải quyết được khó khăn tính toán trước đây của bài toán phân loại và phân biệt. Những chương trình này cũng tính được độ rộng của chùm trong các trường hợp khác nhau. Các chương trình này được viết trên phần
mềm Maple và có thể đưa vào thư viện của chương trình để những người khác sử
dụng.
2.2. Kiểm chứng kết quả lý thuyết trên những dữ liệu cụ thể. Dữ liệu được
kiểm chứng cho bài toán phân loại và phân biệt là dữ liệu nổi tiếng của Fisher về
hoa Iris, một dữ liệu chuẩn đã được nhiều nhà toán học quan tâm. Dữ liệu minh họa
trong bài toán phân tích chùm là dữ liệu về hàm mật độ xác suất đã biết và dữ liệu
thực tế về điểm thi môn xác suất thống kê của sinh viên trường đại học Moncton –
120
3. Hướng phát triển
Qua việc giải quyết bài toán đặt ra chúng tôi định hướng cho những nghiên cứu tiếp theo như sau:
3.1. Xây dựng những biểu thức giải tích hàm phân biệt, sai số Bayes cho
nhiều tổng thể có phân phối khác chưa được khảo sát trong luận án.
3.2. Xây dựng một chương trình hoàn chỉnh cùng một lúc có thể thực hiện
các chức năng: Ước lượng hàm mật độ xác suất, đưa ra hàm phân biệt, phân loại
một phần tử mới, tính sai số Bayes, thực hiện bài toán phân tích chùm khi có dữ liệu
quan sát là các số liệu rời rạc.
139
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Vương Quân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu, Trần Minh Ngọc, Lê
Hồng Phương (2006), “Phương pháp thống kê xây dựng mô hình định mức tín
nhiệm khách hàng thể nhân” , Tạp chí ứng dụng toán học, 4(2), tr 1 – 16. [2] Võ Văn Tài, Phạm Gia Thụ, Tô Anh Dũng (2008), "Sai số Bayes và khoảng
cách giữa hai hàm mật độ xác suất trong phân loại hai tổng thể", Tạp chí phát triển khoa học công nghệ, Đại học Quốc gia TPHCM, 11(6), tr 23 – 37.
[3] Võ Văn Tài, Phạm Gia Thụ, Tô Anh Dũng (2008), "Ước lượng Bayes cho tỷ lệ
trộn trong phân loại và nhận dạng hai tổng thể", Tạp chí phát triển khoa học công nghệ, Đại học Quốc gia TPHCM, 11(1), tr 21 – 30.
[4] Tô Cẩm Tú, Nguyễn Huy Hoàng (2003), Phân tích số liệu nhiều chiều, NXB Khoa học và Kỹ thuật, Hà Nội.
Tiếng Anh
[5] Andrews, H.C. (1972), Introduction to mathematical techniques in pattern recognition, Wiley, New York.
[6] Anderson, T.W. (1984), An introduction to multivariate statistical analysis, Wiley, New York.
[7] Ben Bassat, M. (1982), "Use of distance measure, imformation meaure and error bounds in feature evalution", Handbook of Statistics, North Holland. Co., vol 2, pp.773–791.
[8] Chen, C.H. (1973), Statistical pattern recognition, Hayden, Washington DC. [9] Chen, C.H. (1976) "On information and distance measures, error bounds and feature selection", Information Sciences 10, pp.159–173.
[10] Chow, C.K. and Liu, C.N. (1968) " Approximating discrete probability distributions with dependence trees", IEEE Transactions on information theory 14(3), pp.462 – 467.
[11] Defays, D. (1977), "An efficient algorithm for a complete link method”, Computer Journal, 20(4), pp.364–366.
140
approach, Prentice Hall, London.
[13] Devroye, L., Gyorfi, L. and Lugosi, G., (1996), A probabilistic theory of pattern recognition, Springer, New York.
[14] Dubes, R.C. (1987), "How many clusters are the best ? – an experiment", Pattern Recognition, 20(6), pp.645–663.
[15] Duin, R.P.W. (1976), "On the choice of smoothing parameters for Parzen estimators of probability density functions", IEEE Transactions on computers 25, pp. 1175 – 1179.
[16] Fisher, R.A. (1936), "The statistical utilization of multiple measurements", Annals of Eugenics 7, pp.376–386.
[17] Flury, B. and Riedwyl, H. (1988), Mutivariate statistics, Chapman and Hall, New York.
[18] Fukunaga, K. (1990), Introduction to statistical pattern recognition, 2nd Ed., Academic Press, New York.
[19] Ghosh, A.K., Chaudhuri, P. and Sengupta, D. (2006), "Classification using kernel density estimates: Multiscale analysis and visualization", Technometrics
48(1), pp.120–132.
[20] Glick, N. (1973), "Separation and probability of correct classification among two or more distributions", Annals Inst. Stat Math. 25, pp.373–382.
[21] Glick, N. (1972), "Sample – based classification procedures derived from density estimators", Journ. Amer. Stat. Assoc. 67, pp.116–122.
[22] Gonzalez, R.C.,Woods, R.E. and Eddins, S.L.(2004), Digital image processing with Matllab, Prentice–Hall, New York.
[23] Gower, J.C. A (1971), "General coefficent of similarity and some of its properties", Biometrics 27, pp.857–874.
[24] Inman, H.F. and Bradley, E.L (1989), "The overlapping coefficient as a measure of agreement between probability distributions and point estimation of the overlap of two normal densities", Commun. in Stat – theory methods 18(10), pp.3851–3872.
[25] Johnson and Wichern (1998), Applied multivariate statistical analysis, 4th ed., Prentice – Hall, Mc Millan, London.
141
in kernel based estimation of integrated squared density derivaties", Statistics and probability letters 11, pp. 511 – 514.
[27] Hand, D.J. (1981), Discriminant and classification, Wiley, New York. [28] Hand, D.J. (1982), Kernel discriminant analysis, Research studies press, Letchworth.
[29] Kendall, M., Stewart, A. and Ord, S. (1973), The advanced theory of statistics, Vol. 3, 4th ed., Mc Millan, London.
[30] Kittler, J. (1982), Pattern recognition, a statistical approach, Prentice Hall, London.
[31] Lissack T.S.V.I and Fu K.S., (1976), Error estimation in pattern recognition, IEEE Trans Info Theory 22, pp.34–45.
[32] Mardia, K.V., Kent, J.T. and Bibby, J.M. (1979), Multivariate analysis, Academic Press, New York.
[33] Martinez, W.L. and Martinez, A.R., (2008), Computational statistics handbook with Matlab, Chapman & Hall/CRC, Boca Raton.
[34] Matusita, K. (1967), "On the notion of affinity of several distributions and some of its applications", Ann. Inst. Statist. Math. 19, pp.181–192.
[35] McLachlan, G.J. and Basford, K.E. (1988), Mixture Models: Inference and applications to clustering, Marcel Dekker, New York.
[36] Milligan. G.W.and Cooper, M.C., (1985), "An examination of procedures for determining the number of clusters in a data set", Psychometrika, 50(2), pp.159–179.
[37] Naiman, D.Q. and Wynn, H.P. (1992), "Inclusion – Exclusion – Bonferroni identities and inequalities for duscrete tube – Like problems via Euler characteristics", Annals of Stat. 20, pp.43–76.
[38] Pal, N.R. and Bezdek, J.C, (1995), "On cluster validity for the fuzzy – means model", IEEE Transactions on fuzzy sytems 3(3), pp.370–379.
[39] Parzen, E. (1962), "On estimation of a probability density function and mode ", Annals of Mathematical statiststics 33, pp. 1065 – 1076.
[40] Pham–Gia, T. and Turkkan, N. (2006), "Baysian analysis in the L1– norm of the mixing proportion using discriminant analysis", Metrika 64(1), pp.1–22. [41] Pham – Gia, T., Turkkan, N. and Bekker, A., (2006), "Bounds for the Bayes
142
error in classification: A Bayesian approach using discriminant analysis", Statistical Methods and Applications 16, pp. 7 - 26.
[42] Pham–Gia, T. Turkkan, N. and Tai, Vovan., (2008), "The maximum function in statistical discrimination analysis",Commun. in Stat–Simulation computation 37(2), pp. 320 – 336.
[43] Rencher, A. (1988), Multivariate statistical Inference and applications, John Wiley & Son, New York.
[44] Rohlf. F.J., (1982), "Single – link clustering algorithms", in P.R. Krishnaiah and L.N. Kanal, eds, Handbook of Statistics, North Holland, Amsterdam, vol.2, pp. 267–284.
[45] Scott, David W. (1992), Mutivariate density estimation: theory, practice and visualization, John Wiley & Son, New York.
[46] Silverman, B.W. (1986), Density estimation, Chapman and Hall, London. [47] Sibson, R., "Slink: an optimally efficient algorithm for the single – link cluster method", Computer Journal 16(1), pp. 30–34.
[48] Sutradhar, B.C. (1990), "Discrimination of observations into one of two t – populations", Biometrics 46, pp.827–835.