Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 85 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
85
Dung lượng
33,54 MB
Nội dung
ĐẠI HỌC QUỐC GIA HẢ NỘI KHOA CÔNG NGHỆ TRẦN VŨ HÀ LUẬT KẾT HỢP THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ VÀ KHAI PHÁ DỮ LIỆU SONG SONG LUẬN VĂN THẠC s ĩ KHOA HỌC CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN N g i h n g dẩn K hoa h ọ c: TS H À Q UANG TH Ụ Y \ l M HÀ N Ô I -2001 / -1- MỤCLỤC Nội dung Trang PHẦN MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ D Ữ L IỆ U VÀ KHAI PHÁ D Ữ LIỆU SONG SONG 1.1 Khai phá liệu phát hiên tri thức Co' sở liêu 1.1.1 Sơ khai phá liệu phát tri thức sở dử liệu 1.1.2 Nội dung khai phá dừ liệu 8 11 1.1.3 Các phương pháp khai phá dừ liệu phổ biến lựa chọn phương pháp 1.1.4 Ưu khai phá liệu 14 1.1.5 Một số thách thức ứng dụng nglìiên cứu kỹ thuật khai phá yj dử liệu 1.2 Khai phá dử liêu song song 20 1.2.1 Các hệ thống tính tốn song song 20 1.2.2 Các chiến lược khai phá dử liệu song song 25 1.2.3 Các mơ hình chi phí 27 1.2.3 So sánh chiến lược 29 Kết luân chương CHƯƠNG LUẬT KẾT HỢP THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ 2.1 Khái niệm luât kết hợp số công nghệ phát hiên 29 31 31 2.1.1 Luật kết hợp 31 2.1.2 Một số công nghệ phát luật kết hợp 34 -2- 2.2 Luât kết hop theo tiếp cân lýthuyết tập thô 38 2.2.1 Tập thô 38 2.1.2 Luật kết hợp theo tiếp cận lýthuyết tậpthô 41 Kết luận chương CHƯƠNG PHÁT HIỆN SONG SONG LUẬT KẾT HỢP 3.1 Không gian thiết k ế song song 49 51 51 3.1.1 Nền phần cứng 51 3.1.2 Mô hình song song hóa 52 3.1.3 Cách thức cân tải 53 3.2 Một số mơ hình phát hiên song song luât kết hợp 54 3.2.1 Các hệ phân tán nhớ 54 3.2.2 Các hệ chia sẻ nhớ 63 3.2.3 Các hệ phân câp 66 3.3 Mơ hình tập thô phát song song luật kết hợp 68 3.3.1 Thuật tốn cho mơ hình tập trung 70 3.3.2 Thuật tốn cho mơ hình phân tán 71 Kết ln chương 80 PHẦN KẾT LUẬN 81 TÀI LIỆU THAM KHẢO 83 PHẦN M Ở ĐẦU Sự phát triển mạnh mẽ cô n g nghệ phần cứng tạo nên máy tính có xử lý tốc độ cao, b ộ nhớ dung lượng lớn với điều đó, phát triển khơng ngừng hệ thống mạng viễn thơng Từ kết đó, nhiều hệ ỉ hống thông tin phục vụ việc tự động hóa hoạt động kinh doanh quản lý triển khai với tốc độ tăng trưởng vượt bậc Điều tạo dòng liệu khổng lồ trở thành tượne "bùng nổ thông tin" nhiều người quan niệm Nhiều hệ quản trị c sở liệu mạnh với công cụ phong phú thuận tiện giúp người khai thác có hiệu nguồn tài nguyên liệu lớn nói Cùng với việc khối lượng liệu quản lý tăng không ngừng, hệ thống thông tin chun mơn hóa theo cá c lĩnh vực ứng dụng sản xuất, tài chính, kinh doanh, y học, Như vậy, bên cạnh chức khai thác liệu có tính chất tác nghiệp, thành cơng kinh doanh khơng chí suất hệ thơng tin m CỊI1 tính linh hoạt sẩn sàng đáp lại nhu cầu thực íế, hay nói khác đi, người ta cị n mong muốn c sở liệu cần đem lại tri thức từ liệu thân liệu Để lấy thơng tin mang tính tri thức khối liệu khổng lổ nói, cần thiết phải phát triổn kỹ thuật có khả hợp c c liệu từ hệ thống giao dịch khác nhau, chuyển đổi chúng thành tập hợp sở liệu ổn định, c ó chất lượng để sử dụng Iheo s ố mục đích Các kỹ thuật gọi chung c c kỹ thuật tạo kh o liệu môi trường liệu nhận sau áp dụng c c kỹ thuật nói gọi kho ìiệu Các kho liệu giúp khai thác thông tin công cụ truy vấn báo cáo, sử dụng để hỗ trợ việc phân tích trực tuyến, kiểm định cá c giả thuyết Tuy nhiên, có kho liệu chưa thể có tri thức Chúng khơng có khả đưa giả thuyết Nếu liệu phân tích cách thơng minh chúng nguồn tài nguyên vô quý giá Từ c c liệu sẩn có, nhu cầu tìm thơng tin tiềm ẩn có giá trị (những tài -4- nguyên quý giá) chưa phát hiện, xu hướng phát triển yếu tố tác động lên chúng điều cần thiết Tiến hành cơng việc thực q trình phát tri thức c sở liệu (Knowledge Discovery in Databases - K D D ) mà kỹ thuật khai phá liệu (data mining) cho phcp phát tri thức tiềm ẩn Nếu phát tri thức tồn q trình rút tri thức hữu ích từ sở liệu khai phá liệu giai đoạn trình [7| Giai đoạn khai phá liệu thực sau khâu tinh lọc tiền xử lý liệu, nhằm lìm cá c mẫu, xu hướng có ý nghĩa từ tập liệu hi vọng thích hợp với nhiệm vụ khai phá Chỉ mẫu, xu hướng xem đáng quan tâm (xét theo phương diện đó) coi tri thức, tri thức có ích giúp đạt mục đích cùa hộ thống người dùng Người ta sử dụng kỹ thuật khái niệm lĩnh vực nghiên cứu từ trước học máy, nhận dạng, thống kê, hổi quy, xếp loại, phân nhóm, m hình đồ thị, mạng Bayes để khai phá cá c khối liệu kho liệu nhằm phát cá c mẫu mói, tương quan mới, xu hướng có ý nghĩa M ột nội dung khai phá liệu phổ biến phát luật kết hợp Phương pháp nhằm tìm tập thuộc tính thường xuất thời sở liệu, rút luật ảnh hưởng tập thuộc tính đến xuất (hoặc tập) thuộc tính khác Điều diễn giải sau C ho lược đồ R = {A I, / A J thuộc tính với miền giá trị ỊO, ỉ } quan hệ r R, luật kết hợp r mô tả dạng X —> Y vi X ỗ :R v Y R \X v ề mặt trực giác, phát biểu ý nghĩa luật là: ghi bảng r c ó giá trị thuộc tính thuộc X giá trị thuộc tính Y ghi Cho w œ R, đật s(W, r) tần số xuất w /• dược tính tí lệ hàng /• có giá trị I cột thuộc w Tần số xuất hiện, gọi -5- cỉộ hỗ trợ luật X —> Y r định nghĩa s(X u { Y}, r), độ tin cậy •ủa luậl s(X u { Y }, r)/s(X, r) Ớ X gồm nhiều thuộc tính, B giá trị chông c ố định, ta thấy khơng gian tìm kiếm có kích thước tăng theo hàm míi :ủa số c c thuộc tính đầu vào Nhiệm vụ việc phát luật kết hợp rtuti tìm tất luật X —> Y cho độ hỗ trợ luật không nhỏ ngưỡng cho trước độ tin cậy luật không nhỏ ngưỡng a cho trước Từ ;ỏ' liệu ta tìm hàng nghìn, ch í hàng trăm nghìn luật kết ìợp D o việc phát luật kết hợp đòi hỏi lượng tính tốn truy xuất liệu ớn, với phân tán liệu, đặc biệt trcn c sở liệu trực tuyến, nột giải pháp tự nhiên nghĩ đến áp dụng tính tốn song song, náy tính song song vốn c ó khả thực nhanh lượng tính toán lớn xử ý tốt lượng liệu lớn ị4, 10, 15, 17] Các thuật toán phát luật kết hợp có hể song song hóa theo nhiều cách khác nhau: tìm kiếm lộc lập, song song hóa lặp lại thuật tốn Đ ể chọn chiến ược phù hợp, cần cỉựa độ đo tính phức tạp chi phí cho lộp rình song song với chiến lược Vấn đề dư thừa liệu liệu không đáy đủ hệ thông tin có ứiể dược khắc phục cách sử dụng khái niệm tập thô Pawlak đưa 114, Ị Tập thô cho phép chia bảng định thành thuộc tính điều kiện thuộc tính định, thơng tin tương ứng với thuộc tính định tuỳ thuộc vào thông tin tương ứng với thuộc tính điều kiện, phù hợp với cách biểu diễn luật kết hợp V iệc nghiên cứu luật kết hợp thông qua cách liếp cân tập thô Tctsuya Murai, Yoshiharu Sato đề xuất [12] Hệ Ihông tin phân hoạch thành tập tập bản, mà giá trị tập thô tập giống nhau, (ừ phần tử đại diện cho tập chọn ra, ta có rút gọn bảng định để giảm bớt khối lượng thơng un điều kiện dư thừa có bảng định Mối quan hệ luật kết hợp -6- hệ thông till s, với luật kết hựp hệ thông tin hợp thành s = u Ị s , } tìm hiểu để tìm điểu kiện cho tính khả tách hệ thơng tin, từ phát song song luật kếl hợp dựa phân tán theo liệu Luận vãn với đề tài "Luật k ế t hợp theo tiếp cận Ịý thuyết tập thô k h a i p h liêu son g song' khảo sát lĩnh vực phát tri thức sở liệu, tập trung vào nội dung phát luật kết hợp theo cách tiếp cận tập thơ M hình song song phát luật kết hợp xem xét với việc phân lích số thuật toán song song phát luật kết hợp Phương pháp nghiên cứu yếu luận văn khảo sát báo khoa học xuất mộl vài năm gần từ đưa số ý tưởng nhằm cải tiến thuật toán Nội dung luận văn gồm có Phần mở đầu, ba chương Phần kết luận Cuối chương luận văn có phần kết luận chương trình bày tóm tắt nội dung yếu nội dung chương Chương giới thiệu số nội dung khai phá liệu phát tri (hức sở liệu (mục 1.1), hệ thống đa xử lý tính tốn song song (mục 1.2 ỉ ); chiến lược mơ hình chi phí khai phá liệu song song (mục 1.2.2, 1.2.3) Một số nội dung chương trích dãn từ tài liệu [2], [7], Ị9| Đây kiến thức tảng làm c sở đổ cho nội dung chương sau việc thiết lập thuật toán Chương hai luận văn trình bày khái niệm số công nghệ phát luật kết hợp (mục 2.1); lý thuyết tập thô vấn đề khai phá liệu theo cách tiếp cận tập thô (mục 2.1) M ột thuật tốn tìm tập tối ưu luật thuật tốn cải tiến trình bày (mục 2 , thuật toán 2.1, 2 ) với độ phức tạp thời gian tính tốn Hai thuật toán dùng làm sở đề xuất mơ hình song song tương ứng chương Chương thứ ba trình bày tóm tắt s ố thuật toán phát song song luật kết hợp phần cứng khác so sánh chúng (mục 3.2) Qua -7- kháo sát toán hệ thông tin Sở Y tế Hà Nội [3], luận văn đề xuất mơ hình phát song song luật kết hợp theo cách tiếp cận tập thơ, cư sở liệu trình bày dạng bảng định, việc song song hóa thực c c bước liệu (mục 3.3) Phần kết luận đưa số nội dung liên quan đến phương hướng nghiên cứu phát triển nội dung luận văn này: phát triển mô hình phát luật kết hợp thử nghiệm hệ thống tính tốn song song thực Nội dung luận văn trình bày xê-mi-na khoa học môn Các Hệ thống Thông tin, Khoa Công nghệ, Đại học Quốc gia Hà Nội Luận văn thực dưói hướng dẫn khoa học TS Hà Quang Thụy Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy có dãn tận tình q báu giúp tơi hồn thành luận văn Tơi xin chân thành cảm ƠI1 c c thầy giáo bạn bè môn Các Hệ thống Thông tin có góp ý hữu ích q trình thực luận văn Tôi xin cảm ơn c c ihầy cô giáo khoa, cán thuộc phòng K h oa học Đào tạo Sau Đ ại học, Khoa Công nghệ, tạo điều kiện thuận lợi giúp đỡ tơi q trình học tập nghiên cứu Khoa Tôi vô cảm ƠI1 người thân gia đình bạn bè dã ln động viên khích lệ để tơi có Ihể hồn thành luận văn CHƯƠNG I TỔNG QUAN VỄ KHAI PHÁ DỮ LIỆU VÀ KHAI PHÁ D ữ LIỆU SONG SONG 1.1 KHAI PHÁ DỮ LIỆU VÀ PH ÁT HIỆN TRI THỨC TRONG c s DỮ LIỆU 1.1.1 S b ô vê k h a i p h liêu phát hiên trí thức tron e c s liêu Phát tri thức sở liệu trình khám phá tri thức có ích từ lượng lớn liệu lưu sở liệu Do kiện dạng điện tử thu thập tích lũy ngày nhiều, nhu cầu chuyển liệu thành thơng tin tri thức có ích cho ứng dụng rộng rãi phân tích thị trường, quản trị doanh nghiệp, hỗ trợ định ngày tăng, lĩnh vực phát tri thức ngày quan tâm ngành công nghiệp thông tin năm gần [7] Các c sở liệu xây dựng với mục đích quản lý, tập hợp liệu c ó tổ chức theo đó, kết tự nhiên người có khối lượng liệu lớn Nhiều liệu nghĩa có nhiều thơng tin Các chun gia dược đào tạo phân lích hỗ trợ định phân tích liệu phát thông tin cỉạng mẫu quy luật tiềm ẩn sau quan hộ thuộc tính khác liệu V iệc giúp cho doanh nghiệp thấy kết hoạt động trước định hướng cho hoạt động sáp tới Tuy nhiên, lượng liệu sẵn có trở nên lớn để dễ dàng phát thông tin Một ứng dụng khác phát tri thức cung cấp hỗ trợ định tác nghiệp [9] Không cách tiếp cận hỗ trợ định theo chu kỳ, thời gian từ thời điểm phát thông tin tới thời điểm dùng thơng tin q trình định nhiều tuần nhiều tháng (chúng thường dùng để hỗ trợ định dài hạn cho doanh nghiệp), hổ trợ định tác nghiệp phát tri thức diễn vài phút dùng để cung cấp hồ trợ định ngắn hạn tức tập l ilt trường hợp, ch í trường hợp Có hỗ trợ phát tri thức dã cung cấp kỹ thuật, công cụ đặc thù thao tác tới liệu Trong trình phát tri thức, số kiểu phân tích khác dược dùng đê phát mẫu quy luật từ liệu có sẵn, tình đặt doanh nghiệp, sau thơng tin lưu lại mơ hình tốn học trừu tượng liệu vốn có, coi mơ hình phát tri thức Sau tạo mơ hình phát tri thức, liệu kiểm tra m hình để xem liệu có phù hợp với mẫu quy luật mong muốn khơng Từ thơng tin này, có hành động để cải thiện kết tình doanh nghiệp đặt Một định nghĩa khác phát tri thức trình nhằm xác định mẫu có giá trị, mới, có tiềm sử dụng dễ hiểu từ đữ liệu [7] Các nội dung sau hình thức hóa định nghĩa Nếu coi liệu tập cá c kiện F mẫu biểu thức E ngôn ngữ L m ô tả cá c kiện tập F e F , biểu thức phải đơn giản việc liệt kê tất kiện F Các tính chất có giá trị, có tiềm sử dụng, dễ hiểu mẫu đo cá c hàm c , u , S; hàm ánh xạ cá c biểu thức ngôn ngữ L vào cá c khơng gian đo có thứ tự toàn phần hay thứ tự phận M c, Mư, Ms C ác mẫu thu m ới có thay đổi liệu so sánh giá trị với giá trị CÜ giá trị dự đoán, cho thấy giá trị tìm liên quan với cá c giá trị cũ, ký hiệu tính mẻ mẫu N(E, F ), có thê hàm logic phép đo mức độ không ngờ tới mẫu Một khái niệm quan trọng khác tính thú vị, thường coi độ đo tổng thể giá trị mẫu, tính thú vị đo hàm / khơng gian độ đo M,\ i = !(E, F , c , N, u , S) Mẫu E e L gọi tri thức với ngưỡng / người dùng định nghĩa, ta có I(E, F, c , N, , S) > i -70- clìúng ta sử dụng thuật toán phát luật kết hợp hệ thông tin Sị Một vấn đề quan tâm mối quan hệ luật kết hợp s với luật phát từ trước c c Sị C ó thể xem xét hai m ị hình xử lý song song đối với: - M hình tập trung: Phát luật kết hợp mà liệu tập trung hệ thông tin thống Theo mơ hình ý đến việc chia xẻ nhớ, nhiều liệu đưa vào nhớ để xử lý Trong trường hợp này, hệ thông tin thực chất tách từ hệ thông tin tập trung - Mơ hình phân tán: Dữ liệu hệ thống Sị phân tán thực V iệc phát luật kết hợp song song không thực hệ mà cần phát luật kết hợp cho toàn hệ tổng thể Các phần trình bày giới thiệu giải pháp mức độ sơ lược liên quan đến nội dung HL3.1 Tht tốn 3.1 (Mơ hình tầD trune) Kết hợp gợi ý 116] xem xét thuật toán [ chương 2, khảo sát hệ thống D ata Surveyor Ị8 ị, đưa thuật toán sau nhằm phát song song luật kết hợp Trừ bước tiền xử lý, bước tách hệ thông tin bước hợp kết quả, nội dung bước cịn lại tương ứng mơ tả thuật toán 2.1 Thuât toán 3.1:T\m tập tối ưu luât Input: Hệ thông tin s gồm n đối tượng tập đối tượng o , mối đối tượng u c ó thể c ó m thuộc tính Output: Tập tối ưu luật độ mạnh luật -71- Nơi đung tht tốn Bước Ị : Phân nhóm đối tượng thành cá c nhóm dựa theo tiêu thuộc tính cách thực thuật tốn phân nhóm: = LX)ị, A = uA ị với ý tập đối tượng tập thuộc tính hệ thơng tin thành phần không Ihỉết rời Ghi nhận thông tin trọng số hệ thịng tin thành phần (có thể chọn số đối tượng có Oị) Bước : Thực song song thuật toán 2.1 với liệu đầu vào hệ thông tin thành phần Sị K ết nhận qua bước luật kết hợp cục hệ thơng tin thành phần Ọ trình thực bước tiến hành việc kết hợp nội dung thuậl tốn 2.1 mơ hình tính tốn song song [ 81 Bước : Hợp kết thực bư ớc với trọng số hệ thông tin thành phần 111,3.2 Tht tốn 3.2 (Mơ hình phân tán) Trong trường hợp liệu hệ thống phân tán hộ thơng tin địa phương thực (khơng có bước tách hệ thơng tin) thuật tốn phân tán dược trình bày sau Tht tốn 3.2; Tìm tâp tối ưu luật Input: Tập hợp hệ thông tin Sị = (Oị, Aị, V, ơị), m ỗ i Sị gồm n, đối tượng tập đối tượng Oị, Aị tập A (Tập hợp thuộc tính tồn cục thống tồn hệ thông tin S; chẳng hạn, Sở Y tế Hà Nội thống bảng mã tên thuộc tính toàn Sở) Output: Tập tối ưu luật độ mạnh luật cục luật tồn cục -72- Nội dung thuật tốn Bước Ị : Áp dụng thuật toán 2.1 cho hệ thông tin thành phần Sị, Kết nhận luật kết hợp bảng hệ thông tin thành phẩn đại lượng trọng số hệ thơng tin thành phần Bước : Hợp luật kết hợp từ hệ thông tin thành phần theo trọng số có để nhận luật kết hợp toàn cục Kết bước bao gồm hai loại luật kết hợp: - Các luật kết hợp toàn cục sau hợp bước , - Lớp luật kết hợp cục kết bước ỉ Chúng đề xuất ý nghĩa khái niệm "trọng số" kết bước khái niệm "hợp nhất" thực bước trình bày dày Kết áp dụng bước Sị (coi hai thành phần trọng số); - Tập Aị thuộc tính Sị, - Sơ' n/ số lượng c c đối tượng có Sị, Ị luật phát qua bước Sị\ Chúng quan niệm luật bao gồm thành phần: * Luật với độ hỗ trợ, độ tin cậy tìm được, * Tập thuộc tính A *ị xuất luật, ■ Số lượng /?/ đối tượng Sị, Chú ý rằng, luật c ó thể phát nhiều hệ thơng tin thành phần với độ đo hỗ trợ tin cậy khác Biểu thức sau trình bày nội dung hợp để nhận luật kết hợp tồn cục (Jp dụng tính tốn cho đại lượng chẳng hạn độ mạnh luật) từ cấc luật kết hợp cục X—>Y: -73- £(/*,• * t i S f( X ^ > Y ) ) JU(X -> Y) = ^ ĩ ^ i - (3.1) > ( X kjY)q A, Cơng thức giải thích sau: Với luật X—>Y phát bước 1, để hợp xem xét: - Các hệ thông tin thành phần Sj mà Aị chứa XUY V iệc hợp liên quan đến hệ thông tin thành phần này, - Với hệ thông tin thành phần đây, luật X—>Y có đại lượng ụ, c ó g iá trị đ ợ c k ý h iệ u jLiSị(X—>Y ) đ ợ c c h o b i k ế t q u ả b c không kết bước - Tính tốn fuịX—>Y) tồn cục cơng thức cho - So sánh độ mạnh với ngưỡng để định việc có kết luận X—>Y luật tồn cục hay khơng V í dụ giải thích hoạt động thuật toán 3.2 G iả sử kết khám bệnh phòng khám thuộc bệnh viện khu vực Hà Nội sau (tương ứng có hệ thông tin - bảng định S I , S2, S3, S4, S5, , hệ thông tin tương ứng với kết khám bệnh bệnh viện): B S I V Đau đẩu Mói mệt Sỏ mũi Buồn ngủ Cam cúm ul l 1 u2 1 u3 1 0 u4 1 u5 1 1 -74- Báng S2: u Đau đầu Mỏi mệt s ổ mũi Buổn ngủ Cảm cúm u6 0 u7 1 1 u8 I 0 u9 1 u 10 0 1 V Đau đầu Mỏi mệt S ổ mũi Buồn ngủ Cảm cúm ul 1 1 u 12 1 Ul3 1 1 u 14 I 1 1115 1 u 16 1 1 Báng S3: Báng S4: u Nhiêt Mỏi mét Cấm giác lạnh Buồn ngủ Khô miệng Sốt rét u 17 1 u 18 1 l u 19 1 0 u20 1 1 u21 1 1 u Nhiệt độ Mỏi mệt Cảm giác lạnh Buồìt ngũ Khơ miệng Sốt rét u22 0 0 u23 0 1 u24 l 0 1 u25 1 l n n n Hang S5: A -75- B án ti S : u Nhiệt độ Mỏi mệt Cảm giác lạnh Buồn ngủ Khô miệng Sốt rét u27 1 1 u28 0 0 0 u29 0 I 0 «30 1 u31 1 1 u32 1 1 Giá sử độ mạnh tối thiểu luật ,1 , ta xem xét c c luật kết hợp báng Trước hết tính tốn chi tiết theo thuật toán 2.1 cho bảng S i (các bảng cịn lại thực tương tự) Vói h ê s , : u Đau đầu Mỏi mệt SỔ mũi Buồn ngủ Cảm cúm ul 1 1 u2 1 u3 1 0 u4 ] u5 1 1 V ectơ phân biệt cho u : u1 ul u3 Buồn ngủ u2 Sổ mũi X u4 Đau đầu, Sổ mũi Tìm rút gọn cho u l : fTịu l ) = T A (Sổ mũi) = Đau đầu A A ị Buồn ngủ) S ổ mũi A T o luật từ u l : fj(u ỉ ) = Đan đầu Buồn A A (Đau đầu v S ổ mũi) ngủ s ổ mũi A Buồn ngủ) { C ó tỉtiit đáu, C ó s ố mũi), C ó huổn ngũ } ( {Đau đầu, SỔ mũi, Buồn ngủ } —> Cảm cúm) có s ( { Đau đầu, S ổ mũi, Buồn ngủ } ) = —và /• ( {Đ au đầu, Sổ mui, Buồn ngủ Ị —> Câm cúm) = 1-1 A Đau đầu u5 Đau đẩu V éctơ phân biệt cho u2: u1 112 u2 Sổ mũi u3 u4 u5 Sổ mũi, Buồn ngủ Đau đầu Đau đầu, Sổ mũi Tìm rút gọn ch o u2: fr(u2) = Sổ mũi a T A (Sổ mũi vBuồn ngủ) A Đau đầu A (Đau đầu v S ổ mũi) = S ổ mũi A Đau đầu Tạo luật từ u :fj(u ) = (Sổmũi A Đau đầu ) I Khởnỵ s ổ mũi Có Khơng cảm cúm) có s( Ị Khơng s ổ mũi, Có đau đ ầu } ) = — 1-1 r( {Không s ổ mũi, Có đau đ ầu } - » Khơng cảm cúm) = - = => s( Ị Khơng s ổ mũi, Có xhơng cám cám) = —* (1 - 0) = — 4 V éctơ phân biệt cho u3: u2 Sổ mũi, Buồn ngủ ul Buồn ngủ u3 u3 X u4 Đau đầu, Sổ mũi, Buồn ngủ u5 Đau đầu, Buồn ngủ Tim rút gọn ch o u3: F Tịu3) = Buồn ngủ ngủ) A A (SỔ mũi V Buồn ngủ) A Ĩ ' A (Đau đầu V s ổ mũi V Buồn (Đau đầu VBuồn ngủ) = Buồn ngủ Tạo luật từ u3: fT(u3) = (Buồn ngủ) ( K hơng hii ngiì I ( I Khơng buồn ngủ} —> Khơng cảm cúm) có s ( ( Khơng buồn ngu}) = — r(í KhỏniỊ buồn ngủ} —> Không cám cúm ) = = > s( I K I iôhịị buồ n ngủ} —> Khô ng m c ú m ) = - V é c lơ phân hiệt cho u4: u4 u1 Đau đầu, Sổ mũi u2 Đau đầu u4 u3 Dau đầu, Sổ mũi, Buồn ), u5 Sổ mũi « S 11 Rút gọn CỈ1 u4: Fr(u4) = (Đau đầu S ổ n u li V s ổ mũi) (Đau đầu) A A (Đau dầu V SỔ mũi vBuồn ngủ) A = Đ au đầu A s ổ m ũi Tạo luật từ u4: fr(ỉi4) = (Đau đầu A SỔ mũi) Ị Không đau đâu Không sô m ùi ) s( {Klìỏng đau đầu, Khơng s ổ mũi } —> Khơng cảm cúm) có: s( I Khơng đau đầu, Khơng s ổ mũi} ) = — r( {Khônạ đau đầu, Khơng s ổ mũi Ị —» Khơníi cảm cúm) = => s( Ị Không đau đầu, Không s ổ mũi Ị —> Không cảm cúm) = — V éctơ pluìn biệt cho u5: u5 u1 Đau đầu u2 Đau đầu, Sổ mũi u3 Đau đầu, Buồn ngủ u4 Sổ mũi u5 Rút gọn cho u5: Fr(u5) = Đau đầu A (Đau đầu v S ổ mũi) A (Đau đầu vBnồn ngủ) = Đ au đần A S ổ m ũi T ạo luật lừ Ii5: Jt(u5) = (Đau đầu A s ổ mũi) I Không đau đáu, Có sổ mũi Ị s( I Khơng đau đầu, SỔ mũi } - » Cảm cúm) có: s( Ị Không đau đầu, s ổ mũi } ) = — !'( I Không đau đầu, s ổ mũi } —» Cảm cúm) = => s( Ị Không đau đầu, s ổ m ũi } —> Cảm cúm) = — A SỔ mũi A T -78- Như từ C S D L S ỉ ta có c c luật: { D d ii d ầ u , S ổ m ũ i, B u n n g ủ } —> C ả m CÍM với V = ,5 phủ nỉ {Dan dầu, Không s ổ mũi Ị —> Không cảm cúm với s = 0,25 phủ Ii2 { KIiòhị’ đau đầu, Không s ổ mũi Ị —> Không cảm cúm với s = 0,25 phủ {Không đau đầu, s ổ mũi } —> Cảm cúm phủ II5 với s = 0.25 u4 Tưưns tư, từ C SD L S2 ta c ó c c lu ât: {Không mệt mỏi, Không sổ mũi} —» Không câm cúm với s = 0,25 phủ uỏ {Đau đầu, Sô mũi } —» Cảm cúm với s = 0,25 phủ 1(7 [Sổmũi, Buồn ngủ} —> Cảm cúm với = 0,25 phủ u7 Ị Không đau đầu, Mệt m ỏi } —» Không cám cúm với = 0,25 phủ 118 I Mệt mỏi, Sổ mũi \ —> Không cảm cúm với s = 0,25 phủ Ị Mệt mỏi, Buồn ngủ Ị —> Không cảm cúm với s = 0,25 phủ u8 , u9 Ị Đau dầu, Mệt mỏi} - » Khơng cảm cúm vói = 0,25 phủ 1(9 ị Mệt mỏi, Không sổ mũi } - » Không cảm cúm với Ÿ = 0,25 phủ u9 ị Không đau đầu, Không mệt m ỏi } - > Cảm cúm với s = 0,25 phủ IIỉ0 I KlìịtnỊ mệt mỏi, Klỉơng buồn ngủ Ị —> Cảm cúm với s = 0,25 phủ UỈO với s = 0,25 phủ IIỉ Ị Ii8 Tương tự, từ S3 ta có c c lu ậ t: [Đau dầu, Mệt mỏi) —» Không cảm cúm T S ta khơng thu luật có độ hỗ trợ lớn > , T S ta có cá c luật: Ị Khơng mệt mỏi, Không cảm giác lạnh, Buồn ngủ } —» Không sốt rét với s —0 J phủ u22 I Không cam giác lạnh , Buồn ngủ, Không khô m iệng I —» Không sốt rét với s = 0,167 phủ 1(22 { Nhiệt độ c a o , Mỏi m ệt } —> Sốt rét với s = 0,25 phủ u24 Ị Nhiệt ítộ bình thường, Khơng cảm giác lạnh, Khô miệng \ —> Không sốt rét với V = 0,25 phủ u26 ị Không mỏi mệt, Không cảm giác lạnh, Khô miệng) —> Không sốt rét -79- với = 0,25 phủ u26 T S ta c ó c c luật: I Khơng mệt mói, Khơng cảm giác lạnh, Buồn ngủ I —» Không sốt rét với s —0,167 phủ u29 [Không cảm giác lạnh, Buồn ngả, Không khô m iệng I —» Không sốt rét với s - 0,167 phủ u29 Ị Nhiệt độ cao, Cảm giác lạnh } —» Sốt rét với s = 0,25 phủ u30 Y đ( " i * M s i ( x -> Y)) Áp dụng cô n g thức 3.1 : -> y ) = - cho luật tìm (A' C â m c ú m ) = - -— -= 0,1 + 5+ Hay với luật Ị Đau dầu, Mệt m ỏ i } - > K hơng cám cúm tìm thấy từ hệ S2 S3, ta tính được: Jin t.a , , _J , _ * + * ,2 + *0,25 v( I Đ a u (h iu , M er m ó i } —> K h ô n g c m c u m ) = -= ,1 12 5+ 5+ Với luật tìm từ S5, Số có s( I Mui mệt, Cảm g iác lạnh, Buồn ngủ Ị —> K hông sốt rét ) = * + * ,1 + * ,1 _ 5+ 5+ s( I K hôn g cảm g iác lạnh, Buồn ngủ, K hông kh ô miệng Ị - » K hông sốt rét) = * + * ,1 + * 0,1 + 5+ ,c - * + * ,2 + * ,2 s( I Nììiêt dơ c a o , Moi mêt) —» Sốt rét) = - —— - 0,172 5+ + -80- Tính tương tự với cá c luật cụ c cịn lại, luật lồn cục tương ứng chúng c ó độ mạnh nhó ,1 , không đủ độ mạnh cần thiết N hân xét: / Với đề xuất đây, để xẩy tình "bỏ sót" luật kết hợp toàn cụ c, xuất phát từ lý bước loại bỏ số luật cục ngưỡng chúng khơng tính tốn cơng thức 3.1 Điều k h ác phục cách giảm ngưỡng cách thích hợp khai phá luật kết hợp hệ thông tin thành phần bước để hợp bước ý bố sung ngưỡng cho ỉuật kết hợp cục Thuật toán 3.1 3.2 không thực song song bảng định thành phần mà nhiểu trường hợp, việc phân nhóm, số thuộc tính cá c bảng định thành phần giảm nhiều so với bảng định chung độ phức tạp tính tốn tổng cộng giảm đáng kể K ẾT LU Ậ N CH Ư Ơ N G Lượng liệu bùng nổ hệ thông tin với phát triển sở liệu trực tuyến thúc đẩy nhu cầu khai phá liệu song song phân tán Tính tốn song song góp phần giảm bớt thời gian chi phí xử lý, cho hệ thống khả phát triển Nhiều thuật toán phát song song luật kết hợp phát triển dựa cá c thuật toán cho phần cứng khác C ác thuật toán tổng kết so sánh Zaki [1 ], cung cấp nhìn khái qt phát triển mơ hình phát song song luật kết hợp (m ục 3.2) Trên sở thuật tốn tìm hiểu nêu chương 2, chúng tơi đề xuất mơ hình phát song song luật kết hợp theo cách tiếp cận tập thô cho hệ thông tin, với việc song song hóa thực bước liệu cho cá c mồ hình tập trung phân tán T heo cách tiếp cận này, luật tìm hệ thông tin sử dụng để tìm luật có giá trị tồn hệ thống tổng thể, có sử đụng giá trị trọng số cho hệ Chúng đưa công thức để hợp cá c luật kết hợp cụ c đổ nhận luật kết hợp toàn cục (công thức 3.1) -81- PHẦN KẾT LUẬN Sau thời gian thu thập tài liệu, khảo sát phân tích nội dung việc phát song song luật kết hợp theo cách tiếp cận tập thô, luận văn đạt kết sau; - Trình bày nội dung m ột lĩnh vực nghiên cứu triển khai thời khai phá liệu phát tri thức c c c sở liệu mà luật kết hợp tri thức điển hình, - Cùng với việc trình bày phương pháp khai phá liệu điển hình, luận văn định hướng vào nội dung biểu diễn khai phá luật kết hợp theo cách tiếp cận tập thô Những kết gần đầy nội dung giới thiệu, phân tích luận văn - Phát luật kết hợp nói riêng khai phá iiệu nói chung sở liệu lớn cơng việc địi hỏi thời gian tính tốn lớn, luận văn trình bày số mơ hình, thuật tốn liên quan đến việc phát song song luật kết hợp, Irong đáng ý thuật tốn 2.1 2.2 - Luận văn đề xuất sơ mơ hình phát luật kết hợp song song theo hướng tiếp cận tập thô hộ thông tin bảng định, quan niệm m ột hệ thơng tin tổng qt tích hợp từ cá c hệ thông tin thành phần Thông qua việc định nghĩa tính chất kết hợp luật kết hợp mơ hình này, luận vân giới thiệu thuật toán sơ phát song song luật kết hợp mơ Luận văn đề xuất cơng thức tính tốn cá c đặc trưng luật kết hợp toàn cục từ luật kết hợp cục (cơng thức ) nhằm hồn chỉnh thuật toán 3.2 Luận văn đưa nhận xét tính hợp lý ng thức tính tốn Trong q trình nghiên cứu để hồn thành luận văn thơng qua việc tổng hợp phân tích nội dung yếu lĩnh vực thời phát tri thức mà cụ thể phát luật kết hợp, thử nghiệm đề xuất sơ mơ -82- hình phát luật kết hợp, chúng lôi nhận thấy hướng nghiên cứu khai phá liệu song song nói chung phát luật kết hợp song song nói riêng h n g n g h iê n c ứ u CÒI1 r ấ t r ộ n g lớ n v lu ô n v ấ n đ ề th i C h ú n g tô i tiế p tụ c công việc nghiên cứu theo nội dung sau đây: - Phát triển m hình phát luật kết họp trình bày mục - Thử nghiệm thuật tốn hệ (hống tính tốn song song thực sự, 3.3 trước mắt dựa hệ thống PC-cluster B ộ môn Hệ thống Thông tin, khoa Công nghệ, Đ ại học Q u ốc gia Hà Nội -83- TÀI LIỆU THAM KHẢO TÀI LIỆU TIẾNG VIỆT Hà Quang Thụy Một sô' vâh đ ề khôn g gian xấp xỉ, tập thô đ ối với h ệ thơng tin Luận án Phó Tiến sĩ Khoa học Toán Lý, 1996 Nguyễn Thanh Thủy K hai p h liệu: Kỹ thuật ứng dụng Trường thu "Hệ mờ ứng dụng", 2001 SỞ Y tế Hà Nội Đề cương chi tiết hạng mục đầu tư cơng nghệ thơng từì SỞ Ytế Hả Nội năm 2001 TÀI LIỆU TIẾN G ANH Rakesh Agrawal, John Shafer Parallel Mining o f Association Rules IBM Almaden Research Center, 1996 Rakesh Agrawal, Heikki Mannila, Ramakrishaman Skikant, Hannu Toivonen, A Inkeri Verkamo Fast Discovery o f Association Rules Advances Knowledge Discovery and Data Mining AAAI Press/ MIT Press, 1996 Ho Tu Bao, Nguyen Duc Dung, hitegration o f Rule Induction an d Association Rule Mining Hie 1st Workshop of International Joint Research "Parallel Computing, Data Mining and Optical Networks", 2001 Usama M Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth From Dataming to Know ledge Discovery: An Overview Advances Knowledge Discovery and Data Mining AAAI Press/ MIT Press, 1996 Marcel Holsheimer, Martin L Kersten, Amo P.J.M Siebes Data Surveyor: Searching the Nuggets m Parallel Advances Knowledge Discovery and Data Mining AAAI Press/ MIT Press, 1996 -84- Boris Kovalerchuk, Evgenii Vityaev Data Milling in Finance: Advances in Relational an d H ybrid Meửiods Kluwer Academic Publishers, 2001 1U Vipin Kumar, Mohammed Zaki High Performance DataMmmg 11 Milan Milenkovic Operating Systems: Concepts an d Design McGraw-Hill Inc., 1992 12 Tetsuya Murai, Yoshiharu Sato Association Rules from the Point o f View o f M odal Logic and Rough Set The 4th Asian Fuzzy Systems Symposium, 2000 13 S Parthasarathy, s Dwarkadas, M Ogihara Active Muling in a Disừibuted Setting SIGKDD Workshop on Large-Scale Parallel KDD Systems, 1999 14 Zdzislaw Pawlak Rough Sets: Theoretical Aspects o f Reasonmg about Data Kluwer Academic Publishers, 1991 15 D.B Skilicorn Strategies fo r Parallel Data Mining External Technical Report/ 1999 16 Andrzej Skowron, Nmg Zong Rough Sets in KDD Tutorial Notes, 2000 17 Mohammed J Zaki Parallel an d Distributed Association Mining: A Survey IEEE Concurrency, 1999