Công nghệ thông tin nghiên cứu độ tương tự giữa các tập mờ trực cảm và ứng dụng phân cụm học sinh(klv02339)

1 MỞ ĐẦU Lý chọn đề tài Sự phát triển mạnh mẽ Công nghệ thông tin Truyền thông ảnh hưởng tới mặt đời sống xã hội Trong hầu hết lĩnh vực, tham gia Công nghệ thông tin giúp tiết kiệm thời gian, công sức tiền cho tổ chức, cá nhân Ngày tiến khoa học kỹ thuật, lượng thông tin tăng nhanh cách chóng mặt Nhờ thành tựu kỹ thuật thu nhận lưu trữ thông tin, kho liệu khổng lồ ngày nhiều Làm khai thác thơng tin từ kho liệu đó? Khai thác liệu, tìm kiếm tri thức kho liệu khổng lồ thu hút ý nhiều nhà chuyên môn Trong khai thác liệu, phân cụm liệu hướng tiếp cận nhiều người quan tâm Phân cụm liệu chia đối tượng vào cụm cho phần tử cụm giống phần tử cụm so với phần tử cụm khác Phân cụm liệu có nhiều ứng dụng: Phân sở giáo dục vào cụm khác để sở cụm quan tâm mức Phân học sinh làm cụm khác để học sinh cụm thầy cô áp dụng phương pháp giáo dục nhau, phân cụm tài liệu mạng để giúp việc tìm kiếm tài liệu dễ dàng hơn,… Phân cụm đối tượng kho liệu nói chung sở liệu lớn nói riêng việc khơng dễ lẽ thông tin đối tượng phong phú cịn có thơng tin mờ Một vấn đề ảnh hưởng lớn tới kết phân cụm làm để xác định độ tương tự hay độ giống đối tượng Trong trường hợp thông tin đối tượng mờ việc xác định mức độ tương tự đối tượng phức tạp Khi biểu diễn đối tượng mờ, thường người ta áp dụng lý thuyết tập mờ L Zadeh Tuy nhiên ngày lý thuyết tập mờ phát triển, việc biểu diễn đối tượng mờ có nhiều cải tiến Một cải tiến tập mờ trực cảm Việc nghiên cứu biểu diễn đối tượng nhờ tập mờ trực cảm, việc xác định mức độ tương tự tập mờ trực cảm, đặc biệt việc ứng dụng tập mờ trực cảm nhiều vấn đề cần tiếp tục nghiên cứu Với lý trên, chọn đề tài “Nghiên cứu độ tương tự tập mờ trực cảm ứng dụng phân cụm học sinh” nhằm nghiên cứu biểu diễn thông tin nhờ tập mờ trực cảm nghiên cứu mức tương tự đối tượng theo cách biểu diễn đó, thử nghiệm vài ứng dụng hệ thống phân cụm học sinh Mục đích nghiên cứu - Nghiên cứu sở lý thuyết tập mờ trực cảm, độ tương tự, phân cụm liệu 2 - Nghiên cứu độ mức tương tự tập mờ trực cảm nhằm ứng dụng phân cụm học sinh - Nghiên cứu phân cụm liệu tập mờ trực cảm ứng dụng phân cụ liệu sinh viên - Cài đặt thử nghiệm chương trình phân cụm học sinh trường THPT số Lào Cai Đối tượng nghiên cứu - Lý thuyết tập mờ tập mờ trực cảm trực cảm nghiên đối tượng trực cảm phân cụm học sinh - Thử nghiệm biểu diễn liệu học sinh nói chung, phân cụm liệu học sinh trường THPT số Lào Cai nói riêng nhờ tập mờ trực cảm - Ứng dụng phân cụm liệu học sinh THPT số Lào Cai Giả thiết khoa học Việc chọn áp dụng độ đo mức tương tự tập mờ trực cảm thích hợp giúp phân cụm liệu góp phần giải tốn phân cụm học sinh Nhiệm vụ nghiên cứu - Tìm hiểu tập mờ tập mờ trực cảm, độ đo tương tự tập mờ trực cảm, phân cụm liệu tập mờ trực cảm, - Xây dựng chương trình phân cụm học sinh, thử nghiệm trường THPT số Lào Cai Phạm vi nghiên cứu Các lý thuyết, độ đo mức tương tự tập mờ trực cảm Ứng dụng phân cụm liệu học sinh trường PTPT số Lào Cai Phương pháp nghiên cứu Đề tài luận văn tác giả thực nghiên cứu sử dụng phương pháp nghiên cứu hỗn hợp nghiên cứu lý thuyết cách tổng hợp tài liệu nghiên cứu thực nghiệm - Nghiên cứu lý thuyết: Tổng hợp vấn đề lý thuyết liên quan từ nguồn tài liệu Giáo trình, Bài giảng, Internet, chuyên đề, luận văn, luận án tìm hiểu thực tiễn đào tạo theo học chế tín Học viện Quản lý giáo dục để xây dựng phần mềm phân cụm liệu mờ học sinh - Nghiên cứu thực nghiệm: + Nghiên cứu xây dựng phần mềm thực hành phân cụm liệu mờ học sinh + Sử dụng liệu thực tế thu thập trường THPT số Lào Cai áp dụng phần mềm vừa xây dựng để giải toán phân cụm liệu mờ học sinh Bố cục luận văn Luận văn trình bày chương ngồi phần Mở đầu, Kết luận Cụ thể sau: Chương Phân cụm liệu Chương 2: Độ tương tự tập mờ trực cảm Chương 3: Phân cụm liệu biểu diễn tập mờ trực cảm thử nghiệm thực tế CHƯƠNG PHÂN CỤM DỮ LIỆU 1.1 Giới thiệu Phân cụm hướng tiếp cận nhằm xếp đối tượng theo cụm cách tự nhiên dựa vào chất đối tượng với số lượng tên cụm chưa biết trước, cho đối tượng cụm có giống so với đối tượng thuộc cụm khác Trong thực tế, phân cụm sử dụng rộng rãi ứng dụng nhiều lĩnh vực như: Thương mại, Tin sinh học, Nhận dạng, Khai phá Web,… Đặc biệt giáo dục phân cụm biết đến phương pháp giúp nhà quản lý giáo dục phân sở giáo dục vào cụm khác để sở cụm quan tâm mức nhau, phân học sinh làm cụm khác để học sinh cụm thầy cô áp dụng phương pháp giáo dục nhau, phân cụm tài liệu mạng để giúp việc tìm kiếm tài liệu dễ dàng hơn,… 1.2 Một số thuật toán phân cụm 1.2.1 Thuật toán K-means Thuật toán K-means phát triển J MacQueen (1967) sau cải tiến J A Hartigan M A Wong (1975) Việc nhóm đối tượng dựa ngun tắc cực tiểu hóa tổng bình phương khoảng cách liệu trọng tâm cụm tương ứng 1.2.2 Thuật toán DBSCAN Thuật toán DBSCAN (Density Based Spatial Clustering of Application with Noise) Martin Ester đề xuất thuật toán gom cụm dựa mật độ dùng để áp dụng cho sở dư liệu lớn có nhiễu Tư tưởng thuật tốn tìm đối tượng mà có số đối tượng láng giềng lớn ngưỡng tối thiểu Một cụm xác định tập tất đối tượng liên thông mật độ với láng giềng Một số định nghĩa, bổ đề xây dựng sử dụng thuật toán DBSCAN:  Định nghĩa 1: Các lân cận điểm p với ngưỡng Eps, ký hiệu NEps(p) xác định sau: NEps(p) = {q  D | khoảng cách Dist(p,q)  Eps} với D tập liệu cho trước Một điểm p muốn nằm cụm C thị NEps(p) phải có tối thiểu MinPts điểm Theo định nghĩa điểm thực nằm cụm thỏa mãn điều kiện thuộc vào cụm điểm nằm biên cụm khơng thỏa mãn điều kiện thuộc Bởi thơng thường lân cận điểm biên với ngưỡng Eps nhỏ lân cận điểm nhân với ngưỡng Eps Để giải điểm nằm biên dựa định nghĩa khác sau:  Định nghĩa 2: Một điểm p gọi “mật độ - đến trực tiếp” từ điểm q với ngưỡng Eps MinPts tập đối tượng D nếu: 1, p  N Eps (q) Với 2, N Eps (q)  MinPts N Eps ( q)  D  Định nghĩa 3: Một điểm p gọi “mật độ - đến được” từ điểm q với hai tham số Eps MinPts tồn dãy p  p1 , p2 , , pn  q cho pi1 mật độ - đến trực tiếp từ pi với i  1, n   Định nghĩa 4: Một điểm p “mật độ - liên thông” với điểm q theo hai tham số Eps MinPts có đối tượng o mà hai đối tượng p, q mật độ - đến o theo tham số Eps MinPts  Định nghĩa 5: Cụm nhiễu Cho D tập đối tượng liệu Một tập C khác rỗng D gọi cụm theo Eps MinPts thỏa mãn hai điều kiện: 1, Cực đại: Với p, q  D , p  C q mật độ - đến p theo Eps MinPts q  C 2, Với p, q  C, p mật độ - liên thông với q theo Eps MinPts Mọi đối tượng không thuộc cụm gọi nhiễu Hai bổ đề minh họa cách xác định cụm từ hai tham số Eps MinPts cho trước  Bổ đề 1: Giả sử p đối tượng D, N Eps ( p)  MinPts tập O={o|oD o mật độ - đếm từ p theo Esp MinPts} cụm theo Eps MinPts Theo đó, cụm C khơng hoàn toàn nhất, nhiên điểm C đến mật độ từ điểm nhân C, C chứa số điểm liên thông với điểm nhân tùy ý  Bổ đề 2: Giả sử C cụm theo Eps MinPts, p điểm C với NEps ( p) MinPts Khi C trùng với tập O  o | o  D o mật độ-đến từ p theo Eps vµ MinPts * Các bước thuật tốn DBSCAN Thuật toán DBSCAN Input: Ngưỡng Eps MinPts Output: Begin Bước 1: Chọn đối tượng p tùy ý Bước 2: Lấy tất đối tượng mật độ-đến từ p với Eps MinPts Bước 3: Nếu p điểm nhân tạo cụm theo Eps MinPts Bước 4: Nếu p điểm biên, khơng có điểm mật độ-đến mật độ từ p thuật toán DBSCAN thăm điểm tập liệu Bước 5: Quá trình tiếp tục tất đối tượng xử lý End 1.2.3 Thuật toán CURE Thuật toán CURE (Clustering Using Representatives) đưa Sudipto Guha, Rajeev Rastogi Kyuseok Shim năm 1998 thuật toán sử dụng chiến lược Bottom Up kỹ thuật phân cụm phân cấp Ý tưởng thuật toán sử dụng nhiều đối tượng để diễn tả cho cụm liệu Các đối tượng đại diện cho cụm lựa chọn rải rác vị trí khác nhau, sau co lại cụm theo tỷ lệ định cách gộp hai cụm có cặp đối tượng gần thành cụm Độ phức tạp tính tốn thuật tốn CURE O(n2log(n)) Thuật toán tin cậy việc khám phá cụm với hình dạng áp dụng cho tập liệu hai chiều Mặc dù việc chọn đối tượng đại diện, tham số co phần tử đại diện ảnh hưởng lớn đến chất lượng việc phân cụm 1.2.4 Thuật toán CLIQUE Thuật toán CLIQUE nằm nhóm phân cụm dựa lưới, Agrawal, Gehrke, Gunopulos, Raghavan đưa năm 1998 Thuật toán dùng để phân cụm không gian với số chiều lớn Khi sử dụng phân cụm với số chiều lớn cho kết tốt phân cụm không gian nguyên thủy Các bước thuật tốn: Thuật tốn CLIQUE Begin Bước 1: Phân hoạch tập liệu thành hình hộp chữ nhật tìm hình hộp chữ nhật đặc (là hình họp chứa số đối tượng liệu số đối tượng láng giềng) Bước 2: Sử dụng nguyên lý Apriori xác định không gian chứa cụm Bước 3: Dùng phép hợp hình hộp chữ nhật để tạo thành cụm liệu Bước 4: Xác định cụm: Đầu tiên tìm đặc đơn chiều, sau tìm hình chữ nhật chiều, chiều,… Thuật tốn dừng hình hộp chữ nhật đặc k chiều tìm thấy End Thuật tốn CLIQUE có tác dụng tốt liệu đa chiều hiệu phụ thuộc vào thứ tự liệu đầu vào Độ phức tạp thuật toán O(n) 1.2.5 Thuật toán COBWEB Thuật toán COBWEB Fisher đưa năm 1987 Các đối tượng liệu vào thuật toán mơ tả cặp “thuộc tính – giá trị”, thuật toán thực phân cụm phân cấp cách tạo phân lớp Thuật tốn sử dụng cơng cụ đánh giá Heuristic, gọi công cụ phân loại CU (Category Utility) để quản lý cấu trúc Từ cấu trúc hình thành dựa phép đo độ tương tự mà phân loại tương tự phi tương tự 6 Các bước thuật tốn: Thuật toán COBWEB Begin Bước 1: Khởi tạo nút rỗng Bước 2: Thêm nút vào cập nhật lại bên phải lần thêm Việc cập nhật dựa phân hoạch hàm tiêu chuẩn phân loại End 1.3 Tập mờ 1.3.1 Định nghĩa Cho tập vũ trụ U  u1 , u2 , , un  Tập hợp A =  u,  A (u)  | u U ,  A (u)  0, 1 gọi tập hợp mờ tập U Trong đó: + Biến u gọi biến sở + Hàm  A : U  0, 1 gọi hàm thành viên + Giá trị  A (u) gọi độ thành viên phần tử u thuộc vào tập hợp A 1.3.2 Ví dụ tập mờ 1.4 Một số thuật toán phân cụm mờ 1.4.1 Thuật toán FCM (Fuzzy C-means) Thuật toán phân cụm tập gồm n đối tượng liệu X  x1 , x2 , , xn  thành c nhóm mờ dựa tính tốn tối thiểu hóa hàm mục tiêu để đo chất lượng phân cụm tìm trung tâm cụm nhóm cho chi phí hàm đo độ phi tương tự nhỏ Một phân cụm mờ tập X đặc trưng đầu vào biểu diễn ma trận U  uik  cho điểm liệu cho thuộc số nhóm Ma trận U sử dụng để mô tả cấu trúc cụm X tương ứng với uik bậc thành viên xk với cụm i Bài toán phân cụm liệu mờ phụ thuộc chủ yếu vào việc tìm độ thuộc uij nhằm tối thiểu hóa hàm mục tiêu J m (U ,V ) với điều kiện sau: * Định lý: Nếu m c tham số cố định, ik tập định nghĩa sau:  Ik  1 k  n i |  i  c, dik  0 (2) Thuật toán FCM thực lặp lặp lại phương trình (3) (4) nhằm tối ưu hàm mục tiêu dựa việc tính tốn độ tương tự có trọng số xk trung tâm cụm vi Sau vòng lặp, thuật tốn tính tốn lại cập nhật phần tử ujk U Thuật toán dừng lại max ij  uij( k 1)  uij( k )    , với  tham số để kết thúc   0,1 , k số lần lặp.Kết phân cụm phụ thuộc vào việc chọn tham số, tham số chọn ngẫu nhiên dựa theo Heuristic Nếu chọn m  1 thuật tốn C-means trở thành thuật tốn rõ 7 Nếu chọn m   thuật tốn Fuzzy C-means trở thành thuật toán phân cụm mờ với uik  Chưa có quy tắc chuẩn để chọn tham số phân cụm hiệu c thường chọn m = 1.4.2 Thuật toán  FCM (  -Insensitive Fuzzy C-means) Thuật toán FCM tồn nhược điểm dễ bị ảnh hưởng nhiễu phần tử ngoại lai sử dụng hàm bậc hai để đo độ phi tương tự liệu trung tâm cụm Năm 1998, Vapnik đưa độ đo cải tiến: t   0 t  t    t   ,  tham số phi nhạy cảm với nhiễu (5) Hàm mục tiêu thuật toán  FCM xác định sau: n c m (6) J m (U , V )    ( u ik ) x k , vi  k 1 i 1 Trong đó: x k , vi p   x kl  v  l 1  * Định lý: Nếu m, c  tham số cố định, với (U ,V )  ( E fc * Rpc ) , hàm mục tiêu J m (U ,V ) đạt giá trị tối thiểu khi: Trong đó,  Ai   N m   i  0, (u ik )  | min  k1 k  k  xkl k k   với giả thiết N  N       k k k 1 k 1 với I k xác định: Ik   i |  i  c; x k  vi   N      k  k k 1   k , k     0, ( uik )  m   0; k  1, 2, , N   v  il   1 i  c 1 l  p card ( A  ) A i i   k |i Ai ( x kl   )   (x  ) kl   k |i  Ai     (9)  với ký hiệu: +  (  )  (  )  (  ) + Lực lượng tập A: card(A) Các bước thuật toán  FCM: Thuật toán  FCM Input: Số cụm c tham số mũ m,  cho hàm mục tiêu J Output: c cụm cho hàm mục tiêu (6) đạt cực tiểu Begin Bước 1: Khởi tạo ma trận V  vij  , V (0)  R sxc , j  Bước 2: Lặp j++; Tính ma trận phân hoạch mờ U ( j ) theo công thức (7) Cập nhật trung tâm cụm V ( j )  vi( j ) , v2( j ) , , vc( j )  dựa vào công thức (9) U ( j ) Cho đến U ( j1)  U ( j )  F   Bước 3: Trả cụm kết End Thuật toán  FCM thuật toán mở rộng từ thuật toán FCM nhằm khắc phục nhược điểm để thích nghi với nhiễu phần tử ngoại lai Tuy nhiên, hiệu thuật toán tập liệu lớn, nhiều chiều cách xác định tham số  chưa hoàn thiện 1.5 Kết luận chương Trong phần tìm hiểu tầm quan trọng việc phân cụm liệu công việc sống hàng ngày Đồng thời, tìm hiểu thêm số thuật toán bật sử dụng phân cụm liệu như: DBSCAN, K-means, CURE, CLIQUE,… thuộc nhóm phương pháp pháp phân cụm bật: phân cụm dựa mật độ, phân cụm phân cấp, phân cụm dựa lưới, phân cụm dựa mơ hình, phân cụm quy hoạch phân cụm ràng buộc Trong phần tơi trình bày thêm định nghĩa tập mờ Một vài ví dụ tập mờ thực tế Một số thuật toán phân cụm liệu đặc trưng áp dụng cho liệu ràng buộc như: FCM,  FCM phương pháp áp dụng tập mờ việc phân cụm liệu Như trình bày trên, tập mờ đóng vai trị quan trọng việc phân cụm tập liệu ràng buộc Trong cách biểu diễn tập mờ sử dụng đến hàm thuộc để biểu thị tính thuộc (thành viên) đối tượng vào tập, cách biểu diễn có cách định nghĩa khác đưa nhằm tăng tính mơ tả cho đối tượng tập mờ trực cảm, cách sử dụng thêm hàm khơng thuộc để biểu thị tính không thuộc (không phải thành viên) đối tượng tập Trong phân cụm liệu mờ khâu quan trọng, làm ảnh hưởng đến kết phân cụm việc cực tiểu hóa hàm mục tiêu dựa việc tính tốn độ tương tự đối tượng liệu Để tính tốn độ tương tự đối tượng liệu cần phải xây dựng nên độ đo mức tương tự đối tượng Trong phần luận văn tơi trình bày khái niệm tập mờ trực cảm độ đo áp dụng cho việc tính tốn độ tương tự tập mờ trực cảm 9 CHƯƠNG ĐỘ TƯƠNG TỰ GIỮA CÁC TẬP MỜ TRỰC CẢM 2.1 Tập mờ trực cảm (Intuitionistic Fuzzy Sets – IFSs) 2.1.1 Định nghĩa * Định nghĩa tập mờ trực cảm Cho U tập vũ trụ khởi tạo, U  u1, u2 , , un Một tập mờ trực cảm U xác định hàm thành viên tv (u) mức độ thành viên u V hàm không thành viên f v mức độ không thành viên u V, tv : U  0, 1 , fv : U  0, 1 Tập mờ trực cảm V là:   V  (u , t v ( u ), fv ( u )) | u  U , t v ( u )  [0, 1], fv ( u )  [0, 1],  t v ( u )  fv ( u )  2.1.2 Một số phép tốn tập mờ trực cảm hình thang * Định nghĩa 2.1 Cho a j ( j  1, , n) tập mờ trực cảm hình thang n IT  WAA :    , nếu: n IT  WAA ( a1 , a2 , , an )    j a j j 1 với  tập tất tập mờ trực cảm hình thang véc-tơ trọng số a j ( j  1, , n) , n  j  [0, 1] ,   j  j 1   (1, 2 , , n ) T IT-WAA gọi phép toán trung bình số học có trọng số tập mờ trực cảm hình thang T 1 1 Đặc biệt,    , , ,  , IT-WAA phép tốn trung bình số học n n n tập mờ trực cảm hình thang * Định lý 2.1 Cho a j  ([a j , b j , c j , d j ]; a j ,  a j ) ( j  1, , n ) tập mờ trực cảm hình thang, có: T với   (1, 2 , , n ) véc-tơ trọng số n a j ( j  1, , n),  j  [0, 1],   j  j 1 * Định lý 2.2 Cho a j ( j  1, , n) tập mờ trực cảm hình thang, n IT  WGA :    , nếu: n j IT  WGA ( a1 , a2 , , an )   a j j 1 với  tập tất tập mờ trực cảm hình thang, véc-tơ trọng số a j ( j  1, , n) , n  j  [0, 1],   j  , j 1 phép toán trung bình hình học có trọng số   (1, 2 , , n ) T IT-WGA gọi 10 T 1 1 Đặc biệt    , , ,  , IT-WGA n n n phép tốn trung bình số học (IT-GA) tập mờ trực cảm hình thang * Định lý 2.3 Cho a j  ([a j , b j , c j , d j ];  a j ,  a j )( j  1, , n ) tập mờ trực cảm hình thang thì: IT  WGA ( a1 , a , , a n )   n n n n   a ,   b ,   c ,   d j j j j j j j j j 1 j 1 j 1 j 1 n n j j  ( ,   (1   a ) aj ) j j 1 j 1  ;  n a j ( j  1, , n),  j  [0, 1],   j  j 1 T với   (1, 2 , , n ) véc-tơ trọng số 2.2 Độ tương tự tập mờ trực cảm Độ đo mức tương tự tập mờ trực cảm Dengfeng Chuntian định nghĩa sau: * Định nghĩa 2.1 Một ánh xạ S : IFSs(X)  IFSs(X)  [0, 1] IFSs(X) tập tất IFSs X  x1, x2 , , xn S(A, B) gọi mức độ tương tự A  IFSs( X ) B  IFSs(X ) , S ( A, B ) thỏa mãn điều kiện thuộc tính sau: P1: S ( A, B)  [0, 1] P2: S ( A, B)   A  B P3: S ( A, B)  S ( B, A) P4: S ( A, C )  S ( A, B) S ( A, C )  S ( B, C ) A  B  C , C  IFSs(X ) P5: S ( A, B)   A   B  A A  B B   2.3 Một số độ đo mức tương tự tập mờ trực cảm 2.3.1 Độ đo mức tương tự Sc(A,B) Độ đo mức tương tự Sc ( A, B) A  IFSs( X ) B  IFSs( X ) với IFSs( X ) tập mờ trực cảm X, Chen đề xuất năm 1995 định nghĩa sau: Cho x  tx ,1  f x  giá trị trực cảm, với tx  0,1 , f x  0,1 , tx  f x  Điểm số x đánh giá hàm điểm số S xác định sau: S ( x)  t x  f x (7) với S ( x)  1,1 Cho f x*   f x , thấy Trong trường hợp này, thấy x  tx ,1  f x   t x , f x*  * S ( x)  t x  f x  t x  f x  Cho X Y giá trị trực cảm, *  Y  tY ,1  fY   tY , fY  (8) X  t X ,1  f X   t X , f X*  Mức độ tương tự giá trị trực cảm X Y đánh giá hàm M M (X ,Y)   S ( X )  S (Y ) (9) 11 với S ( X )  t X  f X  t X  f X* 1 S (Y )  tY  fY  tY  fY*  Xem xét trường hợp đây: Trường hợp 1: Nếu giá trị trực cảm X  1,1 Y  0, 0 , ta thấy S ( X )  S (Y )  1 Áp dụng công thức (9), mức độ tương tự giá trị trực cảm X Y đánh giá có kết là: 1  ( 1)  (10) Trường hợp 2: Nếu giá trị trực cảm X  1,1 Y  1, 0 , ta thấy S ( X )  S (Y )  Áp dụng công thức (9), mức độ tương tự giá trị trực cảm X Y đánh giá có kết là: 1 10  (11) Trường hợp 3: Nếu giá trị trực cảm X  1, 0 Y  1,1 , ta thấy S ( X )  S (Y )  Áp dụng công thức (9), mức độ tương tự giá trị trực cảm X Y đánh giá có kết là: 1 1  2 (12) Trường hợp 4: Nếu giá trị trực cảm X  0,1 Y  0,1 , ta thấy S ( X )  1 S (Y )  Áp dụng công thức (9), mức độ tương tự giá trị trực cảm X Y đánh giá có kết là: 1 1  0 (13) Rõ ràng X Y giá trị trực cảm giống hệt (nghĩa X=Y), S ( X )  S (Y ) Áp dụng công thức (9) ta thấy M ( X , Y )  , nghĩa mức độ tương tự tập mờ trực cảm X Y Cho A B tập mờ trực cảm tập vũ trụ U, U  u1 , u2 , , un  , với với f A* (ui )   f A (ui ), f B* (ui )   f B (ui )  i  n Cho VA (ui )  t A (ui ), f A* (ui )  giá trị thành viên trực cảm ui tập trực cảm A, cho VB (ui )  tB (ui ), f B* (ui )  12 giá trị thành viên trực cảm ui tập trực cảm B Áp dụng cơng thức (8), ta thấy * S (VA (ui ))  t A (ui )  f A (ui )  (16) * S (VB (ui ))  t B (ui )  f B (ui )  (17) với  i  n Mức độ giống tập trực cảm A B đánh giá hàm T, với T ( A,B)0,1 Giá trị T ( A, B) lớn độ giống tập trực cảm A tập trực cảm B nhiều 2.3.2 Độ đo mức tương tự SH SL * Độ đo SH Năm 1999, Hong Kim, năm 2001, Fan Zhangyan giới thiệu độ đo S H S L nhằm khắc phục vấn đề độ đo SC Độ đo S H xác định sau:  n  t A ( xi )  t B ( xi )  f A ( xi )  f B ( xi ) S H ( A, B )   i 1 2n  (2) S H tập trung vào khác t A t B khác fA Giả sử A, B, C, D tập mờ Cho S H , t A ( xi )  t B ( xi )  tC ( xi )  t D ( xi ) f A ( xi )  fB ( xi )  fC ( xi )  f D ( xi ) S H ( A, B)  S H (C , D) Bởi dấu giá trị tuyệt đối fB nên tính tốn t A ( xi )  t B ( xi ) , tC ( xi )  t D ( xi ) , f A ( xi )  f B ( xi ) fC ( xi )  fD ( xi ) , S H không phân biệt khác dương hay âm, có trường hợp loại I sau: Giả sử A  ( x, 0.3, 0.3 , B( x,0.4,0.4) , C  ( x, 0.3, 0.4 D  ( x, 0.4, 0.3) , theo cơng thức (2) ta có S H ( A, B)  S H (C , D)  0.9 khơng phải trực cảm qn Ngồi ra, khi: t A ( xi )  t B ( xi )  f A ( xi )  f B ( xi ) = tC ( xi )  t D ( xi )  fC ( xi )  f D ( xi ) , S H ( A, B )  S H (C , D ) trường hợp trực cảm khác (Loại II) xuất S H ( A, B )  S H (C , B )  0.5 * Độ đo SL Độ đo SL xác định:  , A  ( x ,1, 0)   B  ( x, 0, 0)  , C  ( x, 0.5, 0.5) 13 Độ đo SL thừa hưởng điểm mạnh SC SH, khắc phục khuyết điểm độ đo trước liên quan đến mức độ hỗ trợ khác t A tB fA fB SL so với SH thể việc ưu tiên trường hợp t A  tB ,1  f A   f B điều kiện giống mức độ thành viên giống mức độ khơng thành viên, điều cịn làm tăng khả xác định khác biệt âm khác biệt dương thành viên mức độ không thành viên tốt SC SH Độ đo SL phù hợp với tập mờ trực cảm, khơng thể tránh khỏi giới hạn SC SH cách hoàn toàn, nếu: S A ( xi )  S B ( xi )  t A ( xi )  t B ( xi )  f A ( xi )  f B ( xi ) S L ( A, B )  S L (C , D )     SC ( xi )  SD ( xi )  tC ( xi )  tD ( xi )  fC ( xi )  f D ( xi ) , điều dẫn tới trường hợp phản trực cảm  A  ( x, 0.4, 0.2) , B  ( x, 0.5, 0.3)   C  ( x , 0.5, 0.2) , S L ( A, B )  S L ( A, C )  0.95 , điều dường không hợp lý 2.3.4 Độ đo mức tương tự SO Năm 2002, Yahong nhóm nghiên cứu đưa độ đo SO sau : SO nhấn mạnh vào mức độ hỗ trợ, khác t A tB khác f A f B , SO tránh trường hợp phản trực giác SC , loại II S H S L , có trường hợp phản trực cảm loại I S H mà lý tương tự trường hợp độ đo S H 2.3.5 Độ đo mức tương tự SDC Dengfeng Chuntian năm 2002 đề xuất độ đo cho tập mờ trực cảm gọi S DC Họ áp dụng độ đo để nhận diện mẫu Đây độ đo mức tương tự có trọng số SDC xác định theo công thức: Trong thực tế, tác giả chuyển đổi A B vào tập mờ thông thường  A ( xi )  B ( xi ) , sau áp dụng khoảng cách Minkowski để tính mức độ giống tập mờ Khi p = 1, SDC  SC Khi không quan tâm đến giá trị p S DC có loại phản trực cảm giống SC  A ( xi )  B ( xi ) giá trị 14 trung bình thực tế khoảng cách t A ( xi ),1  f A ( xi ) t B ( xi ),1  fB ( xi ) tương ứng Nếu giá trị trung bình hai khoảng SDC  có nhiều trường hợp phản trực giác SDC đo độ tương tự cách xấp xỉ 2.3.6 Độ đo mức tương tự SHB Từ độ đo mức tương tự SDC , Mitchell có thay đổi đơn giản giải vấn đề tồn SDC xây dựng độ đo S HB dựa độ đo SDC Ông thừa nhận quan điểm thống kê diễn giải A B tập hợp hàm thành viên thứ tự, lấp đầy khoảng trống t A ( xi )  f A ( xi ) khoảng trống tB ( xi )  fB ( xi ) Cho ký hiệu  t ( A, B )  f ( A, B ) độ đo tương tự hàm thành viên mức thấp t A ( xi ) tB ( xi ) hàm thành viên mức cao  f A ( xi )  fB ( xi ) :  t ( A, B )  S DC ( t A ( xi ), t B ( xi ))  f ( A, B )  S DC (1  f A ( xi ),  fB ( xi )) Và S HB xác định sau : S HB ( A, B )  ( t ( A, B )   f ( A, B )) Trong thực tế, SHB ( A, B) = SH ( A, B) (khi p = tập có phần tử), S HB có hai loại trường hợp phản trực cảm S H 2.3.7 Độ đo mức tương tự Sep ( A, B ), S sp ( A, B ) S hp ( A, B ) Độ đo Sep ( A, B ), S sp ( A, B ) S hp ( A, B ) Zhizhen Pengfei đưa sau: Với t ( xi )  t A ( xi )  t B ( xi ) / 2,  f ( xi )  (1  f A ( xi )) /  (1  fB ( xi )) / Bằng cách sử dụng điểm kết thúc khoảng tập mờ trực cảm để định nghĩa nên độ đo Độ đo tập trung vào khác t A tB khác p p f A f B Khi p = tập có phần tử, Se ( A, B )  S HB ( A, B ), S e ( A, B )  S H ( A, B ) Do Sep có loại trường hợp phản trực cảm S HB S H 15 Với khoảng t A ( xi ),  f A ( xi ) A, mA ( xi ) giá trị trung bình khoảng Trong trường hợp này, khoảng cách chia thành khoảng con, ký hiệu (t A ( xi ), mA ( xi )) mA ( xi ),1  f A ( xi ) , mA1 ( xi ) mA2 ( xi ) giá trị trung bình hai khoảng riêng, tương tự với mB ( xi ), mB1 ( xi ) mB ( xi ) Độ đo tránh vấn đề độ đo SDC giá trị trung bình khoảng Khi A  ( x, 0.4, 0.2) , B  (x, 0.5, 0.3) C  ( x, 0.5, 0.2) p p S s ( A, B )  S s ( A, C )  0.95 , điều khơng hợp lý giống trường hợp độ đo SL ( A, B) Shp sử dụng tất thông tin tập mờ trực cảm độ dài khoảng giá trị trung bình khoảng con, cách định nghĩa độ đo Shp ( A, B) đưa mà không sử dụng trọng số sau : (xuất S ep p i  (i )e  s1 ( xi )  s ( xi ) (xuất S s ),  (i )   A ( xi )   B ( xi ) (xuất S DC ), 3 (i )  max(l A (i ), lB (i ))  min(l A (i ), lB (i )) biểu thị mức độ không giống chiều dài, l A (i )  (1  f A ( xi )  t A ( xi )) / 2, lB (i)  (1  f B ( xi )  tB ( xi )) / Đây độ đo tương đối mạnh mẽ để xét thêm thông tin việc đo mức độ tương tự tập mờ trực cảm tránh nhược điểm mà độ đo gặp phải 2.3.8 Độ đo mức tương tự SHY Năm 2004, Hung Yang giới thiệu độ đo mức tương tự tập mờ trực cảm dựa khoảng cách Hausdorff : 1 (i )  t ( xi )   f ( xi ) S HY ( A, B )   d H ( A, B )   d ( A, B ) 1 S HY ( A, B )  e H e  1 e 1  S HY ( A, B )  (1  d H ( A, B )) / (1  d H ( A, B )) Với d H ( A, B )  n  max(| t A ( xi )  t B ( xi ) |, | f A ( xi )  f B ( xi ) |) , SHY Cả SHY S HY phải đối mặt với trường hợp phản trực cảm , SHY S HY dựa tập mờ trực cảm phần tử, S L loại I S H Cho SHY nếu: max(| t A ( xi )  t B ( xi ) |,| f A ( xi )  f B ( xi ) |)  max(| t C ( xi )  t D ( xi ) |,| fC ( xi )  f D ( xi ) |) SHY ( A, B)  S HY (C , D) , rõ ràng có nhiều trường hợp đáp ứng điều kiện trên, độ đo S HY , SHY độ đo thô, dẫn đến trường hợp phản trực giác Hơn nữa, SHY S HY chấp nhận S HY ( A, B)  A  [(x,1,0)] B  [x, 0, 0] , kết việc khơng tuân theo điều kiện thuộc tính độ đo mức tương tự 16 2.4 Kết luận chương Trong thực tế có nhiều khái niệm trừu tượng ngữ nghĩa thông tin không chắn như: giỏi, khá, trung bình, cao, thấp, xinh, xấu, dân số nhiều, dân số ít,… Tiếp phép tốn tập mờ trực cảm hình thang làm rõ nội dung chương Phần lại chương bao gồm vấn đề liên quan đến độ tương tự tập mờ trực cảm Một số lý thuyết độ đo mức tương tự tập mờ trực cảm như: độ đo SC , độ đo S H S L , độ đo SO , độ đo SDC , độ đo S HB , độ đo Sep ( A, B), Ssp ( A, B ) , Shp ( A, B) , độ đo S HY nhằm đo khoảng cách hai đối tượng liệu tập mờ trực cảm để phân cụm liệu cách xác Từ tác dụng tập mờ trực cảm thực tế công việc thân liên quan đến đánh giá, chất lượng học sinh, sinh viên thúc đẩy nghiên cứu chương trình phân cụm liệu học sinh tập mờ trực cảm CHƯƠNG PHÂN CỤM DỮ LIỆU TRONG BIỂU DIỄN BỞI TẬP MỜ TRỰC CẢM VÀ THỬ NGHIỆM THỰC TẾ 3.1 Biểu diễn liệu học sinh nhờ tập mờ trực cảm Xây dựng mơ hình sở liệu sau dựa vào danh sách liệu có theo bảng biểu liệu học sinh định hướng thi tốt nghiệp với hệ số mơn để phân cụm học sinh với mức độ khác với tương quan gần Hình 3.1 Cơ sở liệu phân cụm học sinh 17 3.2 Xây dựng chương trình thử nghiệm Với liệu vào thông tin học sinh chương trình phân cụm dựa thuộc tính: họ tên, lớp điểm môn, điểm trung bình tuỳ theo yêu cầu phân cụm học sinh mà ta có cụm khác nhau.Mơ hình hoạt động chương trình sau: Đọc liệu từ bảng CSDL Họ tên, điểm toán, điểm lý, điểm hoá,… tổng điểm Majors, Students Khởi tạo ma trận V biểu diễn giá trị đối tượng trung tâm cụm Lặp lại thao tác sau: 3.1 Tính ma trận phân hoạch mờ 3.2 Cập nhật trung tâm cụm V Cho đến hàm mục tiêu đạt cực tiểu Trả vị trí đối tượng cụm Groups Students Hình 3.2 Mơ hình hoạt động chương trình phân cụm học sinh 3.3 Thử nghiệm phân cụm liệu học sinh Trường THPT Số Lào Cai INPUT: liệu kết 342 học sinh lớp 10 trường THPT Số Lào Cai Mặc dù liệu vào bao gồm nhiều thơng tin chương trình thực tính tốn thuộc tính như: điểm Tốn, Văn, Tiếng Anh, Vật lý, Hoá học, sinh học, Lịch sử, Địa lý, GDCD, KHTN, KHXH, Tổng điểm PROGRAM: phân cụm liệu học sinh OUTPUT: phân cụm liệu theo nhóm đối tượng liên quan tới chất lượng học tập giỏi, khá, trung bình khối A, A1, B, C, trung bình mơn… Giới thiệu phần mềm phân cụm liệu học sinh xây dựng Hình 3.3 với lệnh sử dụng sau: - “Số cụm”: Được chọn số nguyên dương - “Tất cả”: Được chọn tất môn học - “Khối A”: Được chọn mơn Tốn, Lý, Hố - “Khối A1”: Được chọn mơn Toán, Lý, Anh - “Khối B”: Được chọn mơn Tốn, Hố, Sinh - “Khối C”: Được chọn môn Văn, Sử, Địa - “Khối D”: Được chọn mơn Tốn, Văn, Anh - “Phân cụm 1”: Lựa chọn theo tâm cụm 18 - “Phân cụm 2”: Lựa chọn theo trọng tâm cụm tương ứng Hình 3.3 Giao diện phần mềm phân cụm liệu học sinh Sau hình ảnh giao diện chương trình bắt đầu khởi tạo kích hoạt chương trình chạy: Mở chương trình chạy thực theo mũi tên số 1, 3: Dữ liệu đầu vào danh sách dạng file excel chọn Hình 3.4 Giao diện bước nạp liệu đầu vào phần mềm Sau đưa liệu vào phần mềm, tiến hành “Tải danh sách” Hình 3.5 Giao diện liệu sau tải lên phần mềm Tiếp bắt đầu tiến trình chạy bước sau: 19 - Bước 1: Chọn số lượng cụm cần biểu diễn (ô “Số cụm”) - Bước 2: Chọn nhóm liệu cần phân cụm (các ô “Tất cả”, “khối A”, “khối A1”, “khối B”, “khối C”, “khối D”) - Bước 3: Chọn dạng phân cụm liệu theo mục đích (các “Phân cụm 1”, “Phân cụm 2”) Hoàn tất bước ta có liệu phân theo cụm mong muốn Cụ thể hình ảnh minh hoạ đây: * Bài tốn ví dụ 1: Phân cụm liệu 342 học sinh lớp 10 trường THPT số Lào Cai Bước 1: Chọn số cụm = “4” Bước 2: Chọn nhóm liệu “Tất cả” Bước 3: Chọn dạng phân cụm “Phân cụm 1” Sau kiểm tra số cụm tạo ta thấy điểm tâm cụm 5.23, số lượng đối tượng cụm Hình 3.6 Giao diện kết quả, quan sát số cụm liệu tạo Trong chương trình chạy này, ta quan sát biểu diễn trực quan cụm liệu biểu đồ: Hình 3.7 Giao diện biểu đồ phân cụm liệu học sinh theo số cụm * Bài tốn ví dụ 2: Phân cụm liệu 342 học sinh lớp 10 trường THPT số Lào Cai 20 Cũng tốn ví dụ bước chọn dạng “Phân cụm 2” có kết phân cụm theo tâm cụm mơn Hình 3.8 Giao diện chương trình nhóm liệu “Tất cả” dạng “Phân cụm 2” theo tâm cụm môn * Bài tốn ví dụ 3: Phân cụm liệu 342 học sinh lớp 10 trường THPT số Lào Cai Bài toán phân cụm liệu học sinh làm bước sau có phân cụm liệu mới: Bước 1: Chọn số cụm = “6” Bước 2: Chọn nhóm liệu “Khối A” Bước 3: Chọn dạng phân cụm “Phân cụm 1” Chúng ta có phân cụm sau: Hình 3.9 Giao diện chương trình nhóm liệu “Khối A” dạng “Phân cụm 1” Với đầu vào 342 học sinh lớp 10, thuật toán chạy nhanh trả kết khoảng thời gian giây Dữ liệu trích xuất dạng file excel 21 Hình 3.10 Bảng liệu Excel xuất theo cụm 3.4 So sánh kết phân cụm trường hợp sử dụng mức tương tự khác Chức vẽ biểu đồ minh họa cho việc phân đối tượng vào cụm khác minh họa cho kết phân cụm học sinh theo lựa chọn Cụ thể sau: Hình 3.11 Giao diện chương trình sau phân cụm tất theo phân cụm Hình 3.12 Giao diện chương trình sau phân cụm tất theo phân cụm 22 Hình 3.13 Giao diện chương trình sau phân cụm theo khối theo phân cụm Hình 3.14 Giao diện chương trình sau phân cụm theo khối theo phân cụm Ta nhận thấy tuỳ thuộc vào dạng phân cụm với điều kiện khác đưa kết khác phụ thuộc vào tuỳ chọn phân cụm người dùng 3.5 Kết luận chương Lập trình xây dựng chương trình phân cụm liệu học sinh dựa ngơn ngữ lập trình C# thuật toán Fuzzy K-means mức tương tự tập mờ trực cảm khác Qua thực nghiệm chạy thử chương trình tơi tiến hành áp dụng với liệu 342 học sinh lớp 10 Trường THPT Số Lào Cai So sánh kết phân cụm trường hợp khác Đánh giá chủ quan cá nhân: - Chương trình có đầu vào đầu sử dụng excel khiến cho việc nhập xuất liệu thuận lợi với đa số giáo viên - Phân cụm học sinh thành nhóm theo Trung bình mơn, khối A, khối A1, khối B, khối C, khối D vào thành cụm cụ thể, rõ ràng - Việc chương trình chạy liệu học sinh cho kết phân cụm khác nhau, thành viên cụm tương đồng Điều giúp cho việc phân loại học sinh theo tiêu chí đánh giá dễ dàng hơn, giúp Nhà trường, giáo viên em học sinh có nhìn tổng quát khiếu, sở trường, niềm yêu thích học sinh Giúp cho việc định hướng nghề 23 nghiệp tương lai, chọn hướng cho thân học sinh tốt hơn, giúp cho việc bồi dưỡng nhân tài giáo viên, nhà trường tốt Nhược điểm: - Chương trình xây dựng liệu hẹp khối lớp học sinh Nên kết chưa đánh giá tồn q trình học tập phổ thơng học sinh - Tiêu chí đánh giá xét điểm số học sinh mà chưa xem xét đánh giá số đạo đức, chuyên cần… KẾT LUẬN Sau thời gian nghiên cứu thực đề tài, luận văn đạt mục tiêu đề ra, thu kết ý nghĩa với thực tiễn Đã tìm hiểu tầm quan trọng việc phân cụm liệu công việc sống hàng ngày Đã tóm tắt lý thuyết liên quan đến: - Phân cụm liệu - Một số thuật toán bật sử dụng phân cụm liệu như: DBSCAN, K-means, DBSCAN, CURE, CLIQUE, COBWEB - Định nghĩa tập mờ Một vài ví dụ tập mờ thực tế - Một số thuật toán phân cụm liệu đặc trưng áp dụng cho liệu ràng buộc như: FCM,  FCM phương pháp áp dụng tập mờ việc phân cụm liệu - Một số khái niệm tập mờ trực cảm, phép toán tập mờ trực cảm hình thang - Những vấn đề liên quan đến độ tương tự tập mờ trực cảm Một số lý thuyết độ đo mức tương tự tập mờ trực cảm như: độ đo SC , độ đo S H S L , độ đo SO , độ đo SDC , độ đo S HB , độ đo Sep ( A, B), Ssp ( A, B ) , Shp ( A, B) , độ đo S HY nhằm đo khoảng cách hai đối tượng liệu tập mờ trực cảm để phân cụm liệu cách xác Chương trình xây dựng thử nghiệm: Chạy thử nghiệm áp dụng với liệu 342 học sinh trường THPT Số Lào Cai Ưu điểm: - Chương trình tạo thành dựa ngơn ngữ lập trình C# thuật tốn Fuzzy K-means có đầu vào đầu sử dụng excel khiến cho việc nhập xuất liệu thuận lợi với đa số giáo viên - Việc chương trình chạy liệu học sinh cho kết phân cụm khác nhau, thành viên cụm tương đồng Điều giúp cho việc phân loại học sinh theo tiêu chí đánh giá dễ dàng hơn, giúp Nhà trường, giáo viên em học sinh có nhìn tổng qt khiếu, sở trường, niềm yêu thích học sinh Giúp cho việc định hướng nghề 24 nghiệp tương lai, chọn hướng cho thân học sinh tốt hơn, giúp cho việc bồi dưỡng nhân tài giáo viên, nhà trường tốt Hạn chế: - Chương trình xây dựng liệu hẹp khối lớp 10 trường THPT số Lào Cai Nên kết chưa đánh giá toàn q trình học tập phổ thơng học sinh - Tiêu chí đánh giá xét điểm số học sinh mà chưa xem xét đánh giá số đạo đức, chuyên cần… Hướng phát triển: - Nghiên cứu thêm thuật tốn cơng cụ khác phân cụm liệu - Phân tích sâu phương pháp phân cụm liệu để lựa chọn phương pháp tối ưu cho toán phân cụm liệu học sinh - Thu thập xử lý thêm liệu năm học khác để tăng độ xác việc phân cụm liệu - Xây dựng hệ thống gồm nhiều chương trình phân cụm liệu để cố vấn học tập, hỗ trợ cho sở giáo dục mà cơng tác, đồng thời giúp ích cho nâng cao chất lượng đào tạo ... - Nghiên cứu độ mức tương tự tập mờ trực cảm nhằm ứng dụng phân cụm học sinh - Nghiên cứu phân cụm liệu tập mờ trực cảm ứng dụng phân cụ liệu sinh viên - Cài đặt thử nghiệm chương trình phân cụm. .. thích hợp giúp phân cụm liệu góp phần giải tốn phân cụm học sinh Nhiệm vụ nghiên cứu - Tìm hiểu tập mờ tập mờ trực cảm, độ đo tương tự tập mờ trực cảm, phân cụm liệu tập mờ trực cảm, - Xây dựng... nên độ đo mức tương tự đối tượng Trong phần luận văn tơi trình bày khái niệm tập mờ trực cảm độ đo áp dụng cho việc tính tốn độ tương tự tập mờ trực cảm 9 CHƯƠNG ĐỘ TƯƠNG TỰ GIỮA CÁC TẬP MỜ TRỰC

Định dạng
Số trang	24
Dung lượng	1,63 MB