Luận văn: Luật kết hợp theo tiếp cận lý thuyết tập thô và khai phá dữ liệu song song docx

82 523 0
Luận văn: Luật kết hợp theo tiếp cận lý thuyết tập thô và khai phá dữ liệu song song docx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

 Luận văn tốt nghiệp Luật kết hợp theo tiếp cận lý thuyết tập thô khai phá liệu song song -1- mơc lơc Néi dung Trang PhÇn më đầu Chơng tổng quan khai phá liệu khai phá liệu song song 1.1 Khai phá liệu phát tri thức Cơ sở liệu 1.1.1 Sơ khai phá liệu phát tri thức sở liệu 8 1.1.2 Nội dung khai phá liệu 11 1.1.3 Các phơng pháp khai phá liệu phổ biến lựa chọn phơng pháp 13 1.1.4 Ưu khai phá liệu 15 1.1.5 Một số thách thức ứng dụng nghiên cứu kỹ thuật khai phá liệu 1.2 Khai phá liệu song song 17 20 1.2.1 C¸c hƯ thèng tÝnh to¸n song song 21 1.2.2 Các chiến lợc khai phá liệu song song 26 1.2.3 Các mô hình chi phí 28 Kết luận chơng Chơng Luật kết hợp theo cách tiếp cận lý thuyết tập thô 2.1 Khái niệm luật kết hợp số công nghệ phát 31 32 32 2.1.1 Luật kết hợp 32 2.1.2 Một số công nghệ phát luật kết hợp 35 -2- 2.2 Luật kết hợp theo cách tiÕp cËn cđa lý thut tËp th« 40 2.2.1 TËp thô 40 2.1.2 Luật kết hợp theo cách tiếp cận lý thuyết tập thô 42 Kết luận chơng Chơng Phát song song luật kết hợp 3.1 Không gian thiÕt kÕ song song 51 52 52 3.1.1 NÒn phần cứng 52 3.1.2 Mô hình song song hóa 53 3.1.3 Cách thức cân tải 54 3.2 Một số mô hình phát song song luật kết hợp 55 3.2.1 Các hệ phân tán nhớ 55 3.2.2 Các hệ chia sẻ nhớ 65 3.2.3 Các hệ phân cấp 67 3.3 Mô hình tập thô phát song song luật kết hợp 70 3.3.1 Thuật toán cho mô hình tập trung 72 3.3.2 Thuật toán cho mô hình phân tán 73 Kết luận chơng 74 Phần kết luận 75 Tài liệu tham khảo 77 -3- phần Mở đầu Sự phát triển mạnh mẽ công nghệ phần cứng đà tạo nên máy tính có xử lý tốc độ cao, nhớ dung lợng lớn với điều đó, phát triển không ngừng hệ thống mạng viễn thông Từ kết ®ã, nhiỊu hƯ thèng th«ng tin phơc vơ viƯc tù động hóa hoạt động kinh doanh nh quản lý đà đợc triển khai với tốc độ tăng trởng vợt bậc Điều đà tạo dòng liệu khổng lồ trở thành tợng "bùng nổ thông tin" nh nhiều ngời quan niệm Nhiều hệ quản trị sở liệu mạnh với công cụ phong phú thuận tiện đà giúp ngời khai thác có hiệu nguồn tài nguyên liệu lớn nói Cùng với việc khối lợng liệu đợc quản lý tăng không ngừng, hệ thống thông tin đợc chuyên môn hóa theo lĩnh vực ứng dụng nh sản xuất, tài chính, kinh doanh, y học, Nh vậy, bên cạnh chức khai thác liệu có tính chất tác nghiệp, thành công kinh doanh không suất hệ thông tin mà tính linh hoạt sẵn sàng đáp lại nhu cầu thực tế, hay nói khác đi, ngời ta mong muốn sở liệu cần đem lại tri thức từ liệu thân liệu Để lấy đợc thông tin mang tính tri thức khối liệu khổng lồ nh đà nói, cần thiết phải phát triển kỹ thuật có khả hợp liệu từ hệ thống giao dịch khác nhau, chuyển đổi chúng thành tập hợp sở liệu ổn định, có chất lợng để sử dụng theo số mục đích Các kỹ thuật nh đợc gọi chung kỹ thuật tạo kho liệu môi trờng liệu nhận đợc sau áp dụng kỹ thuật nói đợc gọi kho liệu Các kho liệu giúp khai thác thông tin công cụ truy vấn báo cáo, nh đợc sử dụng để hỗ trợ việc phân tích trực tuyến, kiểm định giả thuyết Tuy nhiên, có kho liệu cha thể có đợc tri thức -4- Chúng khả đa giả thuyết Nếu liệu đợc phân tích cách thông minh chúng nguồn tài nguyên vô quý giá Từ liệu sẵn có, nhu cầu tìm thông tin tiềm ẩn có giá trị (những tài nguyên quý giá) cha đợc phát hiện, xu hớng phát triển yếu tố tác động lên chúng điều cần thiết Tiến hành công việc nh thực trình phát tri thức sở liệu (Knowledge Discovery in Databases KDD) mà kỹ thuật khai phá liệu (data mining) cho phép phát đợc tri thức tiềm ẩn Nếu phát tri thức toàn trình rút tri thức hữu ích từ sở liệu khai phá liệu giai đoạn trình [7] Giai đoạn khai phá liệu đợc thực sau khâu tinh lọc tiền xử lý liệu, nhằm tìm mẫu, xu hớng có ý nghĩa từ tập liệu đợc hi vọng thích hợp với nhiệm vụ khai phá Chỉ mẫu, xu hớng đợc xem đáng quan tâm (xét theo phơng diện đó) đợc coi tri thức, tri thức có ích giúp đạt đợc mục đích hệ thống ngời dùng Ngời ta đà sử dụng kỹ thuật khái niệm lĩnh vực đà đợc nghiên cứu từ trớc nh học máy, nhận dạng, thống kê, hồi quy, xếp loại, phân nhóm, mô hình đồ thị, mạng Bayes để khai phá khối liệu kho liệu nhằm phát mẫu mới, tơng quan mới, xu hớng có ý nghĩa Một nội dung khai phá liệu phổ biến phát luật kết hợp Phơng pháp nhằm tìm tập thuộc tính thờng xuất đồng thời sở liệu, rút luật ảnh h−ëng cđa mét tËp thc tÝnh ®Õn sù xt hiƯn (hoặc tập) thuộc tính khác nh Điều đợc diễn giải nh sau Cho lợc đồ R = {A1, A2, , Ap} thuộc tính với miền giá trị {0, 1} quan hệ r R, luật kết hợp r đợc mô tả dới dạng X Y víi X ⊆ R vµ Y ∈ R \ X Về mặt trực giác, phát -5- biểu ý nghĩa luật là: ghi bảng r có giá trị thuộc tính thuộc X giá trị thuộc tính Y ghi Cho W R, đặt s(W, r) tần số xuất W r đợc tính tỉ lệ hàng r có giá trị cột thuộc W Tần số xuất hiện, gọi độ hỗ trợ luật X Y r đợc định nghĩa s(X {Y}, r), độ tin cậy luật s(X {Y}, r)/s(X, r) X gồm nhiều thuộc tính, B giá trị không cố định, ta thấy không gian tìm kiếm có kích thớc tăng theo hàm mũ số thuộc tính đầu vào Nhiệm vụ việc phát luật kết hợp phải tìm tất luật X Y cho độ hỗ trợ luật không nhỏ ngỡng cho trớc độ tin cậy luật không nhỏ ngỡng cho trớc Từ sở liệu ta tìm hàng nghìn, chí hàng trăm nghìn luật kết hợp Do việc phát luật kết hợp đòi hỏi lợng tính toán truy xuất liệu lớn, với phân tán liệu, đặc biệt sở liệu trực tuyến, giải pháp tự nhiên đợc nghĩ đến áp dụng tính to¸n song song, bëi c¸c m¸y tÝnh song song vèn có khả thực nhanh lợng tính toán lớn xử lý tốt lợng liệu lớn [4, 10, 15, 17] Các thuật toán phát luật kết hợp đợc song song hóa theo nhiều cách khác nhau: tìm kiếm độc lập, song song hóa lặp lại thuật toán Để chọn đợc chiến lợc phù hợp, cần dựa độ đo tính phức tạp chi phí cho lập trình song song với chiến lợc Vấn đề d thừa liệu liệu không đầy đủ hệ thông tin đợc khắc phục cách sử dụng khái niệm tập thô Pawlak đa [14, 1] Tập thô cho phép chia bảng định thành thuộc tính điều kiện thuộc tính định, thông tin tơng ứng với thuộc tính định tuỳ thuộc vào thông tin tơng ứng với thuộc tính điều kiện, phù hợp với cách biểu diễn luật kết hợp Việc nghiên cứu luật kết hợp thông qua cách tiếp cân tập thô đà đợc -6- Tetsuya Murai, Yoshiharu Sato đề xuất [12] Hệ thông tin đợc phân hoạch thành tập tập bản, mà giá trị tập thô tập giống nhau, từ phần tử đại diện cho tập đợc chọn ra, ta có đợc rút gọn bảng định để giảm bớt khối lợng thông tin điều kiện d thừa có bảng định Mối quan hệ luật kết hợp hệ thông tin Si với luật kết hợp hệ thông tin hợp thành S = {Si} đợc tìm hiểu để tìm điều kiện cho tính khả tách hệ thông tin, từ phát song song luật kết hợp dựa phân tán theo liệu Luận văn với đề tài "Luật kết hợp theo tiếp cận lý thuyết tập thô khai phá liệu song song" khảo sát lĩnh vực phát tri thức sở liệu, tập trung vào nội dung phát luật kết hợp theo cách tiếp cận tập thô Mô hình song song phát luật kết hợp đợc xem xét với việc phân tích số thuật toán song song phát luật kết hợp Phơng pháp nghiên cứu yếu luận văn khảo sát báo khoa học đợc xuất vài năm gần từ đa đợc số ý tởng nhằm cải tiến thuật toán Nội dung luận văn gồm có Phần mở đầu, ba chơng Phần kết luận Cuối chơng luận văn có phần kết luận chơng trình bày tóm tắt nội dung chÝnh u néi dung cđa ch−¬ng Ch−¬ng mét giới thiệu số nội dung khai phá liệu phát tri thức sở liệu (mục 1.1), hệ thống đa xử lý tính toán song song (mục 1.2.1); chiến lợc mô hình chi phí khai phá d÷ liƯu song song (mơc 1.2.2, 1.2.3) Mét sè néi dung chơng đợc trích dẫn từ tài liệu [2], [7], [9] Đây kiến thức tảng làm sở nội dung chơng sau việc thiết lập thuật toán -7- Chơng hai luận văn trình bày khái niệm số công nghệ phát luật kết hợp (mục 2.1); lý thuyết tập thô vấn đề khai phá liệu theo cách tiếp cận tập thô (mục 2.1) Một thuật toán tìm tập tối u luật thuật toán cải tiến đợc trình bày (mục 2.2.2, thuật toán 2.1, 2.2) với độ phức tạp thời gian tính toán Hai thuật toán đợc dùng làm sở đề xuất mô hình song song tơng ứng chơng Chơng thứ ba trình bày tóm tắt số thuật toán phát song song luật kết hợp phần cứng khác so sánh chúng (mục 3.2) Qua khảo sát toán hệ thông tin Sở Y tế Hà Nội [3], luận văn đề xuất mô hình phát song song luật kết hợp theo cách tiếp cận tập thô, sở liệu đợc trình bày dới dạng bảng định, việc song song hóa đợc thực bớc liệu (mục 3.3) Phần kết luận đa số nội dung liên quan đến phơng hớng nghiên cứu phát triển nội dung luận văn này: phát triển mô hình phát luật kết hợp thử nghiệm hệ thống tính toán song song thực Nội dung luận văn đà đợc trình bày xê-mi-na khoa học môn Các Hệ thống Thông tin, Khoa Công nghệ, Đại học Quốc gia Hà Nội Luận văn đợc thực d−íi sù h−íng dÉn khoa häc cđa TS Hµ Quang Thụy Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy đà có dẫn tận tình quý báu giúp hoàn thành luận văn Tôi xin chân thành cảm ơn thầy giáo bạn bè môn Các Hệ thống Thông tin đà có góp ý hữu ích trình thực luận văn Tôi xin cảm ơn thầy cô giáo khoa, cán thuộc phòng Khoa học Đào tạo, Khoa Công nghệ, đà tạo điều kiện thuận lợi giúp đỡ trình học tập nghiên cứu Khoa Tôi vô cảm ơn ngời thân gia đình bạn bè đà động viên khích lệ để hoàn thành luận văn -8- Chơng I Tổng quan khai phá liệu khai phá liệu song song I.1 Khai phá liệu phát tri thức sở liệu I.1.1 Sơ khai phá liệu phát tri thức sở liệu Phát tri thức sở liệu trình khám phá tri thức có ích từ lợng lớn liệu đợc lu sở liệu Do kiện dạng điện tử đợc thu thập tích lũy ngày nhiều, nhu cầu chuyển liệu thành thông tin tri thøc cã Ých cho c¸c øng dơng réng r·i nh phân tích thị trờng, quản trị doanh nghiệp, hỗ trợ định ngày tăng, lĩnh vực phát tri thức đà ngày đợc quan tâm ngành công nghiệp thông tin năm gần [7] Các sở liệu đợc xây dựng với mục đích quản lý, tập hợp liệu có tổ chức theo đó, kết tự nhiên ngời có đợc khối lợng liệu lớn Nhiều liệu nghĩa có nhiều thông tin Các chuyên gia đợc đào tạo phân tích hỗ trợ định đà phân tích liệu phát thông tin dới dạng mẫu quy luật tiềm ẩn sau quan hệ thuộc tính khác liệu Việc giúp cho doanh nghiệp thấy đợc kết hoạt động trớc định hớng cho hoạt động tới Tuy nhiên, lợng liệu sẵn có đà trở nên lớn để dễ dàng phát đợc thông tin nh− vËy Mét øng dơng kh¸c cđa ph¸t hiƯn tri thức cung cấp hỗ trợ định tác nghiệp [9] Không nh cách tiếp cận hỗ trợ định theo chu kỳ, thời gian từ thời điểm phát thông tin tới thời điểm dùng thông tin trình định nhiều tuần nhiều tháng (chúng thờng đợc dùng để hỗ trợ định dài hạn cho doanh nghiệp), hỗ trợ định tác nghiệp -9- cđa ph¸t hiƯn tri thøc cã thĨ diƠn vài phút đợc dùng để cung cấp hỗ trợ định ngắn hạn tức tập trờng hợp, chí trờng hợp Có đợc hỗ trợ nh phát tri thức đà cung cấp kỹ thuật, công cụ đặc thù thao tác tới liệu Trong trình phát tri thức, số kiểu phân tích khác đợc dùng để phát đợc mẫu quy luật từ liệu đà có sẵn, tình đợc đặt doanh nghiệp, sau thông tin đợc lu lại nh mô hình toán học trừu tợng liệu vốn có, đợc coi nh mô hình phát tri thức Sau đà tạo đợc mô hình phát tri thức, liệu đợc kiểm tra mô hình để xem liệu có phù hợp với mẫu quy luật mong muốn không Từ thông tin này, có hành động để cải thiện kết tình đợc doanh nghiệp đặt Một định nghĩa khác phát tri thức trình nhằm xác định mẫu có giá trị, mới, có tiềm sử dụng dễ hiểu từ liệu [7] Các nội dung sau hình thức hóa định nghĩa Nếu coi liệu tập kiện F mẫu biểu thức E ngôn ngữ L mô tả kiện tập FE F, biểu thức phải đơn giản việc liệt kê tất kiện F Các tính chất có giá trị, có tiềm sử dụng, dễ hiểu mẫu lần lợt đợc đo hàm C, U, S; hàm ánh xạ biểu thức ngôn ngữ L vào không gian đo có thứ tự toàn phần hay thứ tự phận MC, MU, MS Các mẫu thu đợc có thay đổi liệu so sánh giá trị với giá trị cũ giá trị dự đoán, cho thấy giá trị tìm đợc liên quan với giá trị cũ, ký hiệu tính mẻ mÉu lµ N(E, F), nã cã thĨ lµ mét hµm logic phép đo mức độ không ngờ tới mẫu Một khái niệm quan trọng khác tính thú vị, thờng đợc coi độ đo tổng thể giá trị mẫu, tính thú vị đợc đo hàm I không gian độ đo -67- CCPD có đợc tăng tốc đáng kể nhng trình nhập/xuất lại lợi cho hiệu suất Thuật toán ứng viên đợc phân chia-cơ sở liệu chung đợc thực hiện, xử lý tạo nên ứng viên rời duyệt toàn sở liệu để tính độ hỗ trợ Tuy nhiên, gánh nặng nhập/xuất tranh chấp không gian chấp nhận đợc, khiến nhiều xử lý bị chậm lại Do chất phép băm, băm ứng viên định vị liệu Hơn nữa, dùng chung dẫn tới chia sẻ sai pha tính độ hỗ trợ Nhiều chế sách đợc đề xuất để điều chỉnh cách bố trí nhớ hàm băm dựa viện truy nhập mẫu để tính độ hỗ trợ Sơ đồ đảm bảo nút có khả đợc truy cập đợc đặt gần mặt vật lý, điều giúp định vị tốt liệu Ngoài chế t nhân hóa, xử lý tập hợp số đếm từ mảng địa phơng, rút gọn tổng để giảm lỗi chia sẻ Thuật toán dựa DIC Cheung cộng đề xuất thuật toán phát song song không đồng (APM) dựa DIC Thuật toán sử dụng kỹ thuật tỉa toàn phần thuật toán phát phân tán nhanh để giảm kích thớc ứng viên 2-itemset Việc cắt tỉa hiệu phần có độ lệch liệu lớn Tuy nhiên, DIC đòi hỏi phần phải đồng Phát song song không đồng chia sở liệu cách hợp lý thành phần ảo nhỏ, kích thớc Số phần ảo l độc lập với số bé xư lý p, th−êng th× l ≥ p Gäi m số thuộc tính, APM tập hợp số đếm địa phơng m thuộc tính phần Nó tạo tập liệu lxm, với l véctơ độ hỗ trợ thuộc tính không gian m chiều APM chia l véctơ vào k cluster, tối đa hóa khoảng cách cluster giảm thiểu khoảng cách cluster Vì thế, k cluster có độ lệch tối đa chúng đợc dùng để tạo tập ứng viên 2-itemset nhỏ -68- Tiếp theo APM áp dụng song song DIC, ý tởng chia sở liệu thành p phần đồng Mỗi xử lý áp dụng độc lập thuật toán DIC phần cục Tuy nhiên, có tiền tố đợc xây dựng không đồng đợc chia sẻ xử lý APM dừng tất xử lý đà đà xử lý hết ứng viên tạo hay xử lý khác, ứng viên đợc tạo thêm Để áp dụng DIC phần, xử lý phải chia phần cục thành r phần Hơn nữa, DIC đòi hỏi p phần xử lý r phần xử lý phải đồng tốt APM đảm bảo p phần đồng cách gán phần ảo từ cluster k cluster vòng lặp theo kiểu quay vòng p xử lý Do đó, xử lý có kết hợp phần ảo nh từ cluster riêng biệt, cho phân chia xử lý đồng Để có tính đồng phần xử lý, APM thực phân k nhóm lần thứ hai Chúng nhóm r phần vào k cluster, lại gán phần tử từ cluster vào r phần theo cách quay vòng Các thí nghiệm 12-node Sun Enterprise 4000 chia sỴ bé nhí cho thÊy APM thực tốt thuật toán Phân phối số đếm/CCPD từ 4-5 lần Một thỏa hiệp thú vị APM độ lệch liệu tốt cho để cắt tỉa toàn phần, lại không tốt để cân tải III.2.3 Các hệ phân cấp Một hệ thống phân cấp có phần với nhớ phân tán nhớ đợc chia sẻ Các hệ thống phân cấp trở nên ngày phổ biến, đặc biệt với phát triển máy tính để bàn đa xử lý mạng tốc độ cao Các nhóm cung cấp khả mở rộng có hiệu suất ngang với máy đắt tiền, nhng với giá thành rẻ Trong hệ thống phân cấp, ta phải tối u hóa truyền thông nút phân tách liệu tối u hóa định vị liệu nút tránh lỗi chia sẻ cho nút chia sẻ nhớ -69- Thuật toán dựa Eclat Bốn thuật toán ParEclat, ParMaxEclat, ParClique va ParMaxClique đợc phát triển dựa bốn thuật toán tơng ứng Thuật toán xét giả sử hệ thống có n máy chủ, máy chủ gồm p nút chia sẻ nhớ, sở liệu đợc định dạng theo chiều dọc đợc phân chia máy chủ cho máy chủ có toàn danh sách định danh tidlist tất thuộc tính đơn lẻ Tổng chiều dài tidlist cục xấp xỉ tất máy chủ Cả thuật toán có cách song song hóa tơng tự khác chiến lợc tìm kiếm, có ký thuâth phân lớp giống Mỗi thuật toán có pha chính: - Pha nạp giá trị: thực tính toán phân chia liệu - Pha không đồng bộ: xử lý độc lập tạo itemset phổ biến - Pha rút gọn: kết hợp kết cuối Trong pha đầu tiên, máy chủ tạo tiền tố lớp cân dựa clique, dùng 2-itemset phổ biến Tiếp thuật toán xếp lớp vào xử lý sẵn có Mỗi lớp có độ đo dựa số phần tử Sau thuật toán xếp lịch xếp lớp theo độ đo gán lớp có độ đo lín nhÊt cho bé xư lý cã tỉng ®é ®o nhỏ nhất, lặp lại trình cho lớp theo thứ tự đợc Sau xếp xong lớp cha, danh sách định danh đối tợng tidlist đợc chép cách chọn lọc máy chủ, nhờ tất tidlist phần lớp đợc gán xử lý có sẵn ổ đĩa cục máy chủ Chỉ có máy chủ tham gia vào qua trình truyền thông Trong pha thứ hai, xử lý có sẵn lớp đợc gán cho nó, danh sách định danh tất thuộc tính Vì thế, xử lý độc lập tạo tất itemset phổ biến từ lớp Trong pha không cần đến truyền thông đồng hóa Hơn nữa, toàn bộ nhớ hệ thống sẵn có để sử dụng, -70- không cần lu nhớ tiền tố băm Chỉ cần đến thao tác đơn giản để đếm itemset Bốn thuật toán khác phụ thuộc vào chiến lợc phân tách tìm kiếm đợc dùng ParEclat ParMaxEclat dùng lớp dựa tiền tố, dùng chiến thuật tìm kiếm từ dới lên tìm kiếm lai ParClique ParMaxClique dùng lớp nhỏ dựa clique, tơng ứng dùng cách tìm kiếm từ dới lên tìm kiếm lai Bảng dới cho thấy khác biệt phơng pháp khác nhóm thuật toán có liên quan với Ta thấy có số mô hình khác Nhiều thuật toán đề xuất tối u hóa cho thuật toán khác Vì thế, phơng pháp song song có độ phức tạp tính chất thuật toán sở Thuật toán Đặc điểm Phân phối số đếm PEAR PDM NPA FDM FPM CCPD Phân phối liệu SPA IDD PCCD Phân phối lai Phân phối ứng viên HPA HPA-ELD ParEclat ParMaxEclat ParClique ParMaxClique Dựa Apriori Cây tiền tố ứng viên Bảng băm cho 2-itemset, tạo ứng viên song song Chỉ máy chủ thực việc rút gọn số đếm Cắt tỉa cục toàn cục, kiểm số đếm Cắt tỉa cục toàn cục, xử lý độ nghiêng liệu Chia sẻ nhớ Trao đổi toàn sở liệu lần lặp Giống nh phân phối liệu Truyền thông báo theo vòng tròn, phân đoạn ứng viên dựa thuộc tính Chia sẻ nhớ (trao đổi sở liệu logic) Kết hợp phân phối số đếm phân phối liệu Lặp lại sở liệu cách chọn lọc, không đồng Không lặp lại sở liệu, trao đổi itemset Lặp lại itemset phổ biến Dựa Eclat, không đồng bộ, cấu trúc phân cấp Dựa MaxEclat, không đồng bộ, cấu trúc phân cấp Dựa Clique, không đồng bộ, cấu trúc phân cấp Dựa MaxClique, không đồng bộ, cấu trúc phân cấp -71- APM PPAR Dựa DIC, chia sẻ nhớ, không đồng Dựa phân đoạn, sở liệu theo chiều ngang III.3 mô hình tập thô phát song song luật kết hợp Chơng đà đề cập tới hai thuật toán phát luật kết hợp theo cách tiếp cận lý thuyết tập thô Các tác giả [16] có nhận xét thuật toán 2.1 không thích hợp sở liệu (bảng định) với số lợng thuộc tính lớn Trong thực tế giả thiết khó chấp nhận tác giả cho cần có giai đoạn tiền xư lý tr−íc ¸p dơng c¸c tht to¸n Tht toán 2.2 với mục tiêu tìm tập tối u luật kết hợp giải pháp đợc đề xuất Trong phần này, phát triển ý tởng từ [16], xây dựng mô hình phát song song luật kết hợp theo cách tiếp cận tập thô Mô hình dựa số vấn đề liên quan đến mô hình phát luật kết hợp Trớc hết xin đề cập tới ví dụ xuất phát từ thực tế Sở Y tế Hà Nội Bắt đầu từ năm 2001, Sở Y tế Hà Nội có kế hoạch xây dựng hệ thống thông tin toàn ngành bệnh viện Sở quản lý bao gồm thông tin quản lý thông tin chuyên môn [3] Sở Y tế Hà Nội quản lý hệ thống gồm 42 bệnh viện địa bàn Hà Nội, bao gồm bệnh viện đa khoa chuyên khoa mà theo chức bệnh viện chữa trị chuyên khoa đa khoa, đợc phân bố theo lÃnh thổ (các bệnh viện quận, huyện) Cơ sở liệu khám điều trị bệnh hệ thống toàn Sở đợc phân tán theo hệ thống 42 bệnh viện nói Một yêu cầu đợc đặt sử dụng đợc liệu bệnh án sẵn có để đa luật cho thấy mối liên hệ triệu chứng bệnh nhân khả bị bệnh họ Các luật bao gồm luật cục (cho bệnh viện) luật toàn bộ, không áp dụng cho bệnh viện mà phải để áp dụng cho toàn Thủ đô Hà Nội Luật cục (hy vọng nhận đợc) liên quan đến đặc thù loại bệnh (đối với bệnh viện chuyên khoa) liên -72- quan đến đặc thù vùng lÃnh thổ (quận - thành thị huyện - nông thông, mức sống cao mức sống thấp ) Luật toàn cục (hy vọng nhận đợc) liên quan đến chơng trình chung toàn Hà Nội để đa sách dự phòng, chăm sóc sức khoẻ ban đầu nh phòng chống chung loại bệnh Bài toán đợc phát biểu dới dạng tập thô bảng định theo quan điểm Pawlak nh dới Trong trờng hợp liệu cục đợc trình bày dới dạng hệ thông tin theo quan điểm Pawlak sử dụng thuật toán chơng [16], cần tìm mô hình cho phép mô tả vấn đề phát tập phỉ biÕn toµn cơc vµ tËp phỉ biÕn cơc bé Dới nét sơ mô hình nh Phát biểu nội dung theo cách diễn đạt hệ thông tin nh sau: Cho hệ thông tin Si = (Oi, Ai, V, i) với ij Oi Oj = , cho phép Ai Aj hạn chế xét V={0, 1} (Giả thiết V hạn chế không ảnh hởng đến hoạt động mô hình thuật toán - xem thuật toán 2.1 2.2; đây, có giả thiết nh cho đơn giản) Nh hệ thông tin Si hệ thông tin cục bộ, chứa liệu bệnh án bệnh viện thứ i, đối tợng o Oi phiếu khám bệnh Đặt O = Oi, A = Ai, xây dựng hệ thông tin S = (O, A, V, ), đợc xác định nh sau: ⎛ σ (o, a ) o ∈ Oi , a ∈ Ai σ (o, a ) = ⎜ i ⎜ ⎝ ≠ Theo quan ®iĨm cđa hƯ phân tán, hệ thông tin Si (hệ thông tin bệnh viện Sở Y tế Hà Nội quản lý) nhận đợc từ hệ thông tin S (hệ thông tin toàn Sở Y tế Hà Nội) theo phân đoạn vừa ngang vừa dọc (đặc biệt Ai = A có phân đoạn ngang, Oi = O có phân đoạn dọc) Giả sư, chóng ta sư -73- dơng tht to¸n ph¸t hiƯn luật kết hợp hệ thông tin Si Một vấn đề đợc quan tâm mối quan hệ luật kết hợp S với luật đà ph¸t hiƯn tõ tr−íc c¸c Si Cã thĨ xem xét hai mô hình xử lý song song : - Mô hình tập trung: Phát luật kết hợp mà liệu đà tập trung hệ thông tin thống Theo mô hình ý đến việc chia xẻ nhớ, nhiều liệu đợc đa vào nhớ để xử lý Trong trờng hợp này, hệ thông tin thực chất đợc tách từ hệ thông tin tập trung - Mô hình phân tán: Dữ liệu hệ thống Si phân tán thực Việc phát luật kết hợp song song không thực hệ mà cần phát luật kết hợp cho toàn hệ tổng thể Các phần trình bày dới giới thiệu giải pháp mức độ sơ lợc liên quan đến nội dung III.2.1 Thuật toán 3.1 (Mô hình tập trung) Kết hợp gợi ý [16] xem xét thuật toán chơng 2, khảo sát hệ thèng Data Surveyor [8], chóng ta ®−a tht toán sau nhằm phát song song luật kết hợp Trừ bớc tiền xử lý, bớc tách hệ thông tin bớc hợp kết quả, nội dung bớc lại tơng ứng nh mô tả thuật toán 2.1 Thuật toán 3.1: Tìm tập tối u luật Input: Hệ thông tin S gồm n đối tợng tập đối tợng O, mối đối tợng u cã thÓ cã m thuéc tÝnh Output: TËp tèi −u luật độ mạnh luật -74- Nội dung thuật toán Bớc 1: Phân nhóm đối tợng thành nhóm dựa theo tiêu thuộc tính cách thực thuật toán phân nhóm: O = ∪Oi, A = ∪Ai víi chó ý lµ tËp đối tợng nh tập thuộc tính hệ thông tin thành phần không thiết rời Ghi nhận thông tin trọng số hệ thông tin thành phần (có thể chọn số đối tợng có Oi) B−íc 2: Thùc hiƯn song song tht to¸n 2.1 với liệu đầu vào hệ thông tin thành phần Si Kết nhận đợc qua bớc luật kết hợp cục hệ thông tin thành phần Quá trình thực bớc đợc tiến hành việc kết hợp nội dung thuật toán 2.1 mô hình tính toán song song [8] Bớc 3: Hợp kết thực đợc bớc với trọng số hệ thông tin thành phần III.2.2 Thuật toán 3.2 (Mô hình phân tán) Trong trờng hợp liệu hệ thống đợc phân tán hệ thông tin địa phơng thực (không có bớc tách hệ thông tin) thuật toán phân tán đợc trình bày nh sau Thuật toán 3.2: Tìm tập tối u luật Input: Tập hợp hệ thông tin Si = (Oi, Ai, V, i), Si gồm ni đối tợng tập đối tợng Oi, Ai tập A (Tập hợp thuộc tính đợc thống toàn hệ thông tin S; chẳng hạn, Sở Y tế Hà Nội thống bảng mà tên thuộc tính toàn Sở) Output: Tập tối u luật độ mạnh luật cục nh luật toàn cục -75- Néi dung tht to¸n B−íc 1: ¸p dơng tht to¸n 2.1 cho hệ thông tin thành phần Si, Kết nhận đợc luật kết hợp bảng hệ thông tin thành phần đại lợng trọng số hệ thông tin thành phần Bớc 2: Hợp luật kết hợp từ hệ thông tin thành phần theo trọng số đà có để nhận đợc luật kết hợp toàn cục Kết bớc bao gồm hai loại luật kết hợp: - Các luật kết hợp toàn cục sau hợp bớc 2, - Lớp luật kết hợp cục kết bớc Chúng đề xt ý nghÜa cđa c¸c kh¸i niƯm "träng sè" kết bớc khái niệm "hợp nhất" thực bớc nh trình bày dới dây Kết áp dụng bớc Si (coi hai thành phần trọng số): ã Tập Si thuộc tính Si, ã Số ni số lợng đối tợng có Si, ã {các luật phát đợc qua bớc Si} Chúng quan niệm luật bao gồm thành phần: - Luật với độ hỗ trợ, độ tin cậy tìm đợc, - Tập thuộc tính A*i xuất luật, - Số lợng ni đối tợng Si, Chú ý rằng, luật đợc phát nhiều hệ thông tin thành phần với độ đo hỗ trợ tin cậy khác Biểu thức sau trình bày nội dung hợp để nhận đợc luật kết hợp toàn cục (à áp dụng tính toán cho đại lợng độ hỗ trợ độ tin cậy) từ luật kết hợp cục XY: -76- (ni * Si ( X → Y )) µ( X → Y ) = ( X ∪Y ) ⊆ Ai ∑ ni (3.1) ( X Y ) Ai Công thức đợc giải thích nh sau: Với luật XY phát bớc 1, để hợp xem xét: - Các hệ thông tin thành phần Si mà Ai chứa XY Việc hợp liên quan đến hệ thông tin thành phần này, - Với hệ thông tin thành phần đây, luật XY có đại lợng có giá trị đợc ký hiệu àSi(XY) đợc cho kết bớc nh không kết bớc - Tính toán à(XY) toàn cục nh công thức đà cho - So sánh độ hỗ trợ độ tin cậy với ngỡng để định việc có kết luận XY luật toàn cục hay không Nhận xét: Với đề xuất đây, để xẩy tình "bỏ sót" luật kết hợp toàn cục, xuất phát từ lý bớc đà loại bá mét sè lt cơc bé d−íi ng−ìng v× vËy chúng không đợc tính toán công thức 3.1 Điều khắc phục cách giảm ngỡng cách thích hợp khai phá luật kết hợp hệ thông tin thành phần bớc để hợp bớc ý bổ sung ng−ìng míi cho lt kÕt hỵp cơc bé Thuật toán 3.1 3.2 không thực song song bảng định thành phần mà nhiều trờng hợp, việc phân nhóm, số thuộc tính -77- bảng định thành phần đà giảm nhiều so với bảng định chung độ phức tạp tính toán tổng cộng đợc giảm đáng kể Kết luận chơng Lợng liệu bùng nổ hệ thông tin với phát triển sở liệu trực tuyến đà thúc đẩy nhu cầu khai phá liệu song song phân tán Tính toán song song góp phần giảm bớt thời gian chi phí xử lý, cho hệ thống khả phát triển Nhiều thuật toán phát song song luật kết hợp đợc phát triển dựa thuật toán cho phần cứng khác Các thuật toán đợc tổng kết so sánh Zaki [17], cung cấp nhìn khái quát phát triển mô hình phát song song luật kết hợp (mục 3.2) Trên sở thuật toán tìm hiểu đợc đà nêu chơng 2, đề xuất mô hình phát song song luật kết hợp theo cách tiếp cận tập thô cho hệ thông tin, với việc song song hóa đợc thực bớc liệu cho mô hình tập trung phân tán Theo cách tiếp cận này, luật tìm đợc hệ thông tin đợc sử dụng để tìm luật có giá trị toàn hệ thống tổng thể, có sử dụng giá trị trọng số cho hệ Chúng đa công thức để hợp luật kết hợp cục để nhận đợc luật kết hợp toàn cục (công thøc 3.1) -78- PhÇn kÕt luËn Sau mét thêi gian thu thập tài liệu, khảo sát phân tích néi dung vỊ viƯc ph¸t hiƯn song song lt kÕt hợp theo cách tiếp cận tập thô, luận văn đà đạt đợc kết nh sau: - Trình bày đợc nội dung lĩnh vực nghiên cứu triển khai thời khai phá liệu phát tri thức sở liệu mà luật kết hợp tri thức điển hình, - Cùng với việc trình bày phơng pháp khai phá liệu điển hình, luận văn định hớng vào nội dung biểu diễn khai phá luật kết hợp theo cách tiếp cận tập thô Những kết gần nội dung đà đợc giới thiệu, phân tích luận văn - Phát luật kết hợp nói riêng nh khai phá liệu nói chung sở liệu lớn công việc đòi hỏi thời gian tính toán lớn, luận văn đà trình bày số mô hình, thuật toán liên quan đến việc phát song song luật kết hợp, đáng ý thuật toán 2.1 2.2 - Luận văn đà đề xuất sơ mô hình phát luật kết hợp song song theo hớng tiếp cận tập thô hệ thông tin bảng định, quan niệm hệ thông tin tổng quát đợc tích hợp từ hệ thông tin thành phần Thông qua việc định nghĩa tính chất kết hợp luật kết hợp mô hình này, luận văn giới thiệu thuật toán sơ phát song song luật kết hợp mô hình nh Luận văn đề xuất đợc công thức tính toán đặc trng luật kết hợp toàn cục từ luật kết hợp cục (công thức 3.1) nhằm hoàn chỉnh thuật toán 3.2 Luận văn đa nhận xét tính hợp lý công thức tính toán -79- Trong trình nghiên cứu để hoàn thành luận văn thông qua việc tổng hợp phân tích néi dung chÝnh yÕu vÒ mét lÜnh vùc hÕt søc thời phát tri thức mà cụ thể phát luật kết hợp, thử nghiệm đề xuất sơ mô hình phát luật kết hợp, nhận thấy hớng nghiên cứu khai phá liệu song song nói chung phát luật kết hợp song song nói riêng hớng nghiên cứu rộng lớn vấn đề thời Chúng tiếp tục công việc nghiên cứu theo nội dung sau đây: - Phát triển mô hình phát luật kết hợp nh đà trình bày mơc 3.3 - Thư nghiƯm tht to¸n mét hệ thống tính toán song song thực sự, trớc mắt dựa hệ thống PC-cluster Bộ môn Hệ thống Thông tin, khoa Công nghệ, Đại học Quốc gia Hà Nội -80- Tài liệu tham khảo Tµi liƯu tiÕng ViƯt Hµ Quang Thơy Mét sè vấn đề không gian xấp xỉ, tập thô hệ thông tin Luận án Phó Tiến sĩ Khoa häc To¸n Lý, 1996 Ngun Thanh Thđy Khai ph¸ liệu: Kỹ thuật ứng dụng Trờng thu "Hệ mê vµ øng dơng", 2001 Së Y tÕ Hµ Nội Đề cơng chi tiết hạng mục đầu t công nghệ thông tin Sở Y tế Hà Nội năm 2001 Tài liệu tiếng Anh Rakesh Agrawal, John Shafer Parallel Mining of Association Rules IBM Almaden Research Center, 1996 Rakesh Agrawal, Heikki Mannila, Ramakrishaman Skikant, Hannu Toivonen, A Inkeri Verkamo Fast Discovery of Association Rules Advances Knowledge Discovery and Data Mining AAAI Press/ MIT Press, 1996 Ho Tu Bao, Nguyen Duc Dung Integration of Rule Induction and Association Rule Mining The 1st Workshop of International Joint Research "Parallel Computing, Data Mining and Optical Networks", 2001 Usama M Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth From Dataming to Knowledge Discovery: An Overview Advances Knowledge Discovery and Data Mining AAAI Press/ MIT Press, 1996 -81- Marcel Holsheimer, Martin L Kersten, Arno P.J.M Siebes Data Surveyor: Searching the Nuggets in Parallel Advances Knowledge Discovery and Data Mining AAAI Press/ MIT Press, 1996 Boris Kovalerchuk, Evgenii Vityaev Data Mining in Finance: Advances in Relational and Hybrid Methods Kluwer Academic Publishers, 2001 10 Vipin Kumar, Mohammed Zaki High Performance Data Mining 11 Milan Milenkovic Operating Systems: Concepts and Design McGraw-Hill Inc., 1992 12 Tetsuya Murai, Yoshiharu Sato Association Rules from the Point of View of Modal Logic and Rough Set The 4th Asian Fuzzy Systems Symposium, 2000 13 S Parthasarathy, S Dwarkadas, M Ogihara Active Mining in a Distributed Setting SIGKDD Workshop on Large-Scale Parallel KDD Systems, 1999 14 Zdzislaw Pawlak Rough Sets: Theoretical Aspects of Reasoning about Data Kluwer Academic Publishers, 1991 15 D.B Skilicorn Strategies for Parallel Data Mining External Technical Report, 1999 16 Andrzej Skowron, Ning Zong Rough Sets in KDD Tutorial Notes, 2000 17 Mohammed J Zaki Parallel and Distributed Association Mining: A Survey IEEE Concurrency, 1999 ... kết hợp theo tiếp cận lý thuyết tập thô khai phá liệu song song" khảo sát lĩnh vực phát tri thức sở liệu, tập trung vào nội dung phát luật kết hợp theo cách tiếp cận tập thô Mô hình song song phát... nghệ phát luật kết hợp 35 -2- 2.2 Luật kết hợp theo cách tiếp cận cđa lý thut tËp th« 40 2.2.1 TËp th« 40 2.1.2 Luật kết hợp theo cách tiếp cận lý thuyết tập thô 42 Kết luận chơng Chơng Phát song. .. khai phá liệu khai phá liệu song song 1.1 Khai phá liệu phát tri thức Cơ sở liệu 1.1.1 Sơ khai phá liệu phát tri thức sở liệu 8 1.1.2 Nội dung khai phá liệu 11 1.1.3 Các phơng pháp khai phá liệu

Ngày đăng: 22/03/2014, 13:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan