1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu luật kết hợp mờ và ứng dụng cho bài toán khai phá dữ liệu cước internet

93 619 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 93
Dung lượng 35,72 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ • • • Pham Thi Hoa Nam • • KHAI PHÁ DỮ LIỆU LUẬT KẾT HỢP MỜ VÀ ỨNG DỤNG CHO BÀI TOÁN KHAI PHÁ Dử LIỆU CƯỚC INTERNET Ngành : Công nghệ thông tin Ma số: 1.01.10 LUẬN VĂN THẠC sĩ NGƯỜI HƯỚNG DÃN KHOA HỌC: PGS.TS. NGUYỄN THANH THUY Hà Nội - 2007 MỤC LỤC MỞ ĐẦU . 7 Chương 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 7 1.1 Khái niệm cơ bản 7 1.1.1 Mục tiêu của khai phá dữ liệu 7 1.1.2 Định nghĩa khai phá dữ liệu 8 1.1.3 Các dạng dữ liệu có thể khai phá dữ liệu.[l][3] 8 1.1.4 Quá trình khai phá dữ liệu 9 1.1.4.1 Các bước chính trong quá trình khai phá 9 1.1.4.2 Các thành phần của giải thuật khai phá 9 1.1.4.3 Hướng tiếp cận cơ bàn và kỹ thuật áp dụng trong quá trình khai phá 10 1.1.4.4 ứng dụng của khai phá dữ liệu 11 1.2 Phương pháp khai phá dữ liệu 12 1.2.1 Một số phương pháp khai phá dữ liệu phổ biến. [1][3] 12 1.2.1.1 Cây quyết định và luật 12 1.2.1.2 Phương pháp suy diễn và quy nạp 12 1.2.1.3 Phát hiện các luật kết hợp 13 1.2.1.4 Phân nhóm và phân đoạn 14 1.2.1.5 Mạngnơron 15 1.2.1.6 Giải thuật di truyền 16 1.2.2 Phân loại các hệ thống khai phá dữ liệu 16 1.2.3 Những vấn đề quan tâm trong hệ thống khai phá dữ liệu và lựa chọn các kỹ thuật khai phá 17 Chương 2. KHAI PHÁ DỮ LIỆU BẢNG LUẬT KẾT HỢP 20 2.1 Ý nghĩa của ỉuật kết hợp[5] 20 2.2 Phát biểu bài toán [1][5] 21 2.3 Một số khái niệm cơ bản và các pha thực hiện.[3][4][5] 22 2.4 Một số tính chất của tập mục phổ biến và luật kết hợp 24 2.4.1 Một số tính chật của tập mục phổ biến 24 2.4.2 Một số tính chất của luật kết hợp 25 2.4.3 Các loại luật kết họp. [5][6][8] . 26 2.5 Các thuật toán khai phá dữ liệu nhờ luật kết hợp 27 2.5.1 Khai phá luật kết hợp nhị phân đơn chiều tò cơ sở dữ liệu tác vụ 27 2.5.1.1 Thuật toán Apriori tìm tập mục phổ biến sử dụng phương pháp sinh các ứng cử [5] 27 2.5.1.2 Nâng cao hiệu quả thuật toán Apriori [7][8][9] . 33 2.5.1.3 Thuật toán sinh các luật kết hợp tò tập mục phổ biến 35 2.5.1.4 Khai phá tập mục phổ biến không sinh ứng cử [3 ] 38 2.5.2 Khai phá luật ket hợp định lượng. [6] 44 2.5.3 Khai phá luật kết hợp đa mức [6] 45 2.5.3.1 Luật kết họp đa mức . 45 2.5.3.2 Các cách tiep cận khai phá luật kết hợp đa mức 45 2.5.4 Khai phá luật kết hợp đóng 46 2.5.4.1 Tập mục phổ biến đóng 47 2.5.4.2 Sinh luật! 50 LỜ I C Ả M Ơ N 3 1 2.5.4.3 Thuật toán CHARM [8] 51 Chương 3. KHAI PHÁ DỮ LIỆU BANG LUẬT KÉT HỢP M Ờ 54 3.1 Khái niệm về tập mờ (Fuzzy Sets), logic mờ và hệ mờ 54 3.1.1 Tập mờ [2], . . . 54 3.1.2 Các phép toán cơ bản trên tập mờ [2] 56 3.1.2.1 Phép phủ định 56 3.1.2.2 Phép hội ’ 56 3.1.2.3 Phép tuyển 57 3.1.2.4 Luật De Morgan 57 3.1.2.5 Phép kéo theo 57 3.1.3 Áp dụng tập mờ để rời rạc hóa dữ liệu và các ưu điểm 58 3.2 Các luật kết hợp mờ [3] [11] . . . 59 3.3 Các thuật toán khai phá luật kết hợp mờ 63 3.4 Luật kết hợp mờ ở dạng phủ định 68 3.5 Luật kết hợp mờ với thuộc tính được đánh trọng số [5][6][11] 68 3.6 Tìm các luật thật sự có ích [3] 69 3.6.1 Phương pháp dùng quy luật loại bỏ luật thừa 69 3.6.2 Phương pháp tìm luật đơn giản . 70 3.6.3 Phương pháp tìm luật mới lạ dựa trên tri thức đã biết 70 3.6.4 Chuyển iuật kết hợp mờ về luật kết hợp thuộc tính số 72 Chương 4. ỨNG DỤNG LUẬT KẾT HỢP MỜ CHO BÀI TOÁN KHAI PHÁ DỮ LIỆU CƯỚC INTERNET 74 4.1 Nguồn dữ liệu cuớc Internet 74 4.2 Cài đặt hệ thống khai phá dữ liệu cước Internet 75 4.2.1 Các bước tiến hành xây dựng hệ thống khai phá dữ liệu cước Internet 75 4.2.2 Giao diện hệ thống khai phá dữ liệu cước Internet 80 4.2.2.1 Hệ thống hàm chuẩn 80 4.2.2.2 Mờ hoá dữ liệu và sinh luật kết hợp m ờ 81 4.2.2.3 Tìm luật có ích 87 KẾT LUẬN 89 2 Đầu tiên tôi xin gửi lời cảm ơn sâu sắc nhất đến thầy giáo, cán bộ hướng dẫn khoa học PGS.TS Nguyễn Thanh Thủy, người đã truyền cho tôi cảm hứng về đề tài, về phương pháp nghiên cứu khoa học, đã giảng dạy, chỉ bảo hướng dẫn tận tình trong suốt thòi gian qua. Tôi xin bầy tỏ lòng biết ơn sâu sắc đến tất cả các thầy cô giáo ở Trường Đại học Công nghệ, Viện công nghệ thông tin đã giảng dạy, truyền đạt cho tôi các kiến thức trong suốt 3 năm qua. Cuối cùng tôi xin chân thành cảm ơn các bạn học viên lớp K10T3, các đồng nghiệp, gia đình đã giúp đỡ, động viên tôi trong suốt thời gian qua. Hà nội, ngày 23 tháng 10 năm 2007 Học viên I Pham Thi Hoa Nam • • LỜI CẢM ƠN 3 40 74 77 79 80 80 81 81 82 82 83 83 84 .84 85 .85 86 86 87 .87 88 4 DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ Ví dụ cây FP-tree với minsup=20% Mô hình vận hành hệ thống (theo quy trình đấu nối và khai thác dịch vụ) Mô hình tổng quan hệ thống khai phá dữ liệu: Mô hình cơ sở dữ liệu quan hệ Loại hàm thuộc Hàm thuộc và tham sổ cho mỗi hàm thuộc Tập mờ và thuộc tính gốc của nó Giao diện thực hiện Mờ hoá dữ liệu và cơ sở dữ liệu cước gốc Cơ sở dữ liệu sau khi thực hiện mờ hoá Sinh tập phổ biến sử dụng toán tử T-norm - Tích đại sổ Sinh tập phổ biến sử dụng toán tử T-norm - Phép lấy min Sinh tập phổ biến sử dụng toán tử T-norm - Tích bị chặn Sinh tập phổ biến sử dụng toán tử T-norm - Tích Drastic Sinh tập phổ biến sử dụng toán tử T-norm - Phép giao Sinh tập các luật mờ từ tập phổ biến Diễn giải luật Sinh tập luật bằng luật phủ định Sinh luật kết hợp với các thuộc tính được đánh trọng số Tìm luạt mới lạ dựa trên tri thức đã biết Tìm luật đom giản Loại bỏ luật thừa M Ở Đ Ầ U Trong những năm gần đây, một trong những vấn đề chính được các nhà khoa học quan tâm nghiên cứu là khai phá dữ liệu mà nội dung chủ yếu là phát hiện thông tin có tính trí tuệ trong kho tàng dữ liệu, bởi tính ứng dụng cao trong thực tiễn cuộc sống. Khai phá dữ liệu thường đi đôi với phát hiện tri thức. Trong sự phát triển mạnh mẽ của công nghệ máy tính điện tử, nhất là việc ứng dụng phổ biến trong lĩnh vực quản lý, lĩnh vực hoạt động cần có nhiều thông tin và tri thức. Trong sự phát triển của xã hội mà yếu tố khoa học công nghệ có tính quyết định nhu cầu như vậy trở nên ngày càng to lớn và dẫn đến việc tràn ngập các thông tin và những nhà quản lý đứng trước tĩnh trạng phải đối mặt với việc lụt “thông tin”. Ví dụ Hệ thống vệ tinh cùa NASA trung bình mỗi giờ phải tạo ra 50 Gb dữ liệu ảnh, thị trường giao dịch chứng khoán thực hiện khoảng 20 triệu giao dịch dữ liệu mỗi ngày, Chính vì vậy các nhà khoa học cho rằng chúng ta đang sổng trong xã hội giàu thông tin nhưng nghèo tri thức. Vì thế đòi hỏi phải nghiên cứu phát triển các phương pháp khai phá, phát hiện ra những thông tin, tri thức hữu ích bị che giấu trong đống “dữ liệu” để phục vụ các công việc của nhà quản lý, các chuyên gia, chuyên viên. Mục tiêu của bài toán khai phá dữ liệu là tìm ra thông tin, tri thức (những mối quan hệ hay sự phụ thuộc giữa các đại lượng (các biến) trong kho tàng dữ liệu (về một lĩnh vực nào đó). Chúng ta dễ dàng nhận thấy, mỗi con người dù là người nước nào đều tư duy bằng ngôn ngữ và như vậy tri thức trong đầu mỗi người đều được biểu thị qua ngôn ngữ. Vì ngôn ngữ hàm chứa các thông tin mờ cho nên việc ứng dụng phương pháp luận mờ ừong việc biểu diễn, xử lý, xây dựng các hệ tri thức là tự nhiên và như vậy mới thực sự đi vào giải quyết vấn đề một cách bản chất. Chính vì vậy các mô hình mờ (fuzzy) được sừ dụng để mô phỏng, phản ánh, giải quyết các bài toán liên quan đến khía cạnh định tính của tri thức. 5 Luật kết hợp mờ là một trong những phương pháp khai phá dữ liệu có hiệu quả và có tính ứng dụng cao Hướng nghiên cứu “Khai phá dữ liệu bằng luật kết hợp mờ” được xây dựng và tổng hợp các nội dung dựa trên một số nghiên cứu chủ yếu trong lĩnh vực khai phá dữ liệu bằng luật kết họp mờ trong những năm gần đây ở một số hội nghị quốc tế, một số bài báo được công bố trên các tạp chí chuyên ngành, trên Internet. Nội dung luận văn gồm các chương sau: Chương 1: Tổng quan về khai phá dữ liệu Chương này trình bày khái quát về khai phá dữ liệu, các phương pháp khai phá, các lĩnh vực ứng dụng Chương 2: Khai phá dữ liệu bằng luật kết họp Chương này trình bày các phương pháp khai phá dữ liệu bằng luật kết hợp từ thuật toán cơ bản đến các thuật toán cải tiến. Đồng thời cũng trình bày một số vấn đề cơ bản của luật kết họp đa mức, định lượng, đóng. Chương 3: Khai phá dữ liệu bằng luật kết hợp mờ Chương này trình bày khái niệm về tập mờ, các phép toán cơ bản trên tập mờ, các luật kết hợp mờ, cách tìm kiếm các luật thực sự có ích. Chương 4: ứn g dụng luật kết hợp mờ cho bài toán khai phá dữ liệu cước Internet Trong chương này trình bày bài toán, xác định nhiệm vụ khai phá dữ liệu, phân tích và thiết kế các môđul, giao diện chương trình. Chương trình được xây dựng với mục đích thử nghiệm để đánh giá kết quả. 6 C hư ơng 1. TỔNG QUAN VÈ KHAI PHÁ DỮ LIỆU 1.1 Khái niêm cơ bản 1.1.1 Mục tiêu của khai phá dữ liệu Trong những thập niên gần đây, lượng thông tin được lun trữ trên các thiết bị không ngừng tăng lên. Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ. Người ta dự đoán rằng, lượng thông tin trên toàn cầu tăng khoảng gấp đôi sau hai năm đồng thời số lượng cũng như kích cỡ của cơ sở dữ liệu cũng tăng lên nhanh chóng. Trong lĩnh vực kinh doanh, những nhà quản lý đang ngập trong dữ liệu nhưng việc tìm ra tri thức và thông tin hữu ích thì lại rất khó. Lượng dữ liệu khổng lồ này thực sự đã trở thành nguồn tài nguyên rất giá trị bởi thông tin là yểu tố then chốt trong mọi hoạt động thương mại vì thông tin ừợ giúp người điều hành và nhà quản lý có cái nhìn sâu sắc, chính xác, khách quan trước khi ra quyết định. Việc khai thác những thông tin tiềm ẩn mang tính dự đoán từ những cơ sở dữ liệu lớn là mục tiêu chính của khai phá dữ liệu - một hướng tiếp cận mới với khả năng giúp các đơn vị, tổ chức chú trọng vào những thông tin có giá trị, ý nghĩa từ những tập bợp dữ liệu lớn mang tính lịch sử. Những công cụ khai phá dữ liệu có thể dự đoán những xu hướng tương lai do đó cho phép các tổ chức, doanh nghiệp ra những quyết định kịp thời được định hướng bởi tri thức mà khai phá dữ liệu đem lại. Sự phân tích dữ liệu một cách tự động và mang tính dự báo của khai phá dữ liệu khiến nó có ưu thế hơn hẳn so với sự phân tích thông thường dựa trên những sự kiện trong quá khứ của các hệ hỗ trợ ra quyết định truyền thống trước đây. Công cụ khai phá dữ liệu cũng có thể trả lời câu hỏi trong lĩnh vực kinh doanh mà trước đây được xem là tốn nhiều thời gian để xử lý. Với tất cả các ưu thế trên, khai phá dữ liệu đã chứng tỏ được tính hữu dụng của nó trong môi trường kinh doanh, quản lý phức tạp ngày nay. Giờ đây khai phá dữ liệu đã và đang trở thành một trong những hướng nghiên cứu chính của lĩnh vực khoa học máy tính và công nghệ tri thức. Phạm vi ứng dụng ban đầu của khai phá dữ liệu chỉ là trong lĩnh vực thương mại và tài chính. Nhưng ngày nay, khai phá dữ 7 liệu đã được ứng dụng rộng rãi trong các lĩnh vực khác như: sinh học, y học, viễn thông, giáo dục, ngân hàng, 1.1.2 Định nghĩa khai phá dữ liệu Có thể hiểu sơ lược rằng khai phá dữ liệu là quá trình tìm kiếm thông tin hữu ích, tiềm ẩn và mang tính dự báo trong các cơ sở dữ liệu lớn. Như vậy, quá trình này còn có thể được gọi là khám phá tri thức. Nhiều nhà khoa học đồng ý với nhau rằng hai thuật ngữ khám phá tri thức và khám phá dữ liệu là tương đương với nhau và có thể thay thế cho nhau. Vì họ lý giải rằng mục đích chính của quá trình khám phá tri thức là thông tin có ích, nhưng đối tượng mà chúng ta xừ lý rất nhiều trong quả trình đó lại chính là dữ liệu. Mặt khác, khi chia các bước trong quá trình khám phá tri thức, nhiều nhà khoa học khác cho rằng khám phá dữ liệu chỉ là một bước trong quá trình khám phá tri thức. 1.1.3 Các dạng dữ liệu có thể khai phá dữ Iiệu.[l][3] Có nhiều dạng dữ liệu khác nhau có thể áp dụng được các phương pháp khai phá dữ liệu. Sau đây liệt kê một số loại cơ sở dữ liệu phổ biến: Cơ sở dữ liệu quan hệ (relational database): là các cơ sở dữ liệu tác nghiệp được tổ chức theo mô hình dữ liệu quan hệ. Hầu hết các hệ quản trị cơ sở dữ liệu đều hỗ trợ dạng cơ sở dữ liệu này như: Oracle, IBM DB2, MS SQL Server, MS Access, Cơ sở dữ liệu đa chiều (multimension structures, data warehouses, data mart): là kho dữ liệu được tập hợp, chọn lọc từ nhiều nguồn dữ liệu khác nhau. Dạng dữ liệu này mang tính lịch sử (tức là có tình thời gian) và chủ yếu phục vụ cho quá trình phân tích cũng như khai phá tri thức nhằm hỗ trợ cho việc ra quyết định. Cơ sở dữ liệu dạng giao dịch (transactional databases): là dạng cơ sở dữ liệu tác nghiệp nhưng các bản ghi thường là các giao dịch. Dạng dữ liệu này thường phổ biến trong lĩnh vực thương mại và ngân hàng. Cơ sở dữ liệu quan hệ - hướng đổi tượng (object-relational databases’): là dạng cơ sở dữ liệu lai giữa hai mô hình quan hệ và hướng đối tượng. 8 Cơ sở dữ liệu không gian vù thời gian (spatial, temporal and time-series data): là dạng dữ liệu có tích hợp thuộc tính về không gian (ví dụ như dữ liệu về bản đồ) hoặc thời gian (ví dụ như dữ liệu về thị trường chứng khoán). Cơ sở dữ liệu đa phương tiện (multimedia databases): là dạng dữ liệu âm thanh (audio), hình ảnh (image), phim ảnh (video), Text và W W W , Dạng dữ liệu này hiện đang rất phổ biến trên Internet. 1.1.4 Quá trình khai phá dữ liệu 1.1.4.1 Các bước chính trong quá trình khai phá Quá trình khai phá dữ liệu thực hiện các bước chính sau: Xác đinh nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết. Xác định các dữ liệu liên quan: dùng để xây dựng giải pháp giải quyết nhiệm vụ bài toán. Thu nhập các dữ liệu có liên quan với nhau và xừ lý chúng thành dạng nào đỏ sao cho giải thuật khai phá dữ liệu có thể hiểu được. Chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá nhằm tìm được các mẫu có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó. 1.1.4.2 Các thành phần của giải thuật khai phá Quá trình khai phá dữ liệu là quá trình phát triển mẫu trong đó giải thuật khai phá dữ liệu tìm kiếm mẫu đáng quan tâm theo dạng xác định các luật, cây phân lớp, hồi quy, phân nhóm, Giải thuật khai phá dữ liệu gồm 3 thành phần chính: Biểu diễn mô hình. Mô hình được biểu diễn bằng một ngôn ngữ sao cho có thể khai phá được. Nấu mô hình có sự mô tả hạn chế thì sẽ không thể học được hoặc sẽ không thể có các mẫu tạo ra. Nếu diễn tả mô hình càng lớn thì càng làm tăng mức độ nguy hiểm do bị học quá nhiều và làm giảm đi khả năng dự đoán các dữ liệu chưa biết. Hơn nữa, việc tìm kiếm sẽ càng trờ nên phức tạp hơn và việc giải thích mô hình cũng khó khăn hơn. 9 [...]... trong khai phá dữ liệu, v ấ n đề này là thách thức rất lớn đối với các nhà khoa học trong lĩnh vực khai phá dữ liệu 19 C h ư ơ n g 2 KHAI PHÁ DỮ LIỆU LU ẬT KÉT HỢP Khai phá dữ liệu bằng luật kết hợp là một phương pháp quan trọng và phổ biến trong khai phá dữ liệu Nó được ra đòi và phát triển mạnh mẽ trong những năm gần đây Đến nay những nghiên cứu về luật kết hợp tập trung xây dựng thuật toán khai phá luật. .. trong luật Cụ thể là các mục hoặc các thuộc tính trong luật kết hợp tham chiếu đến chỉ một chiều Luật kết hợp đa chiều: là ỉuật kết hợp dựa trên chiều của dữ liệu chứa trong luật Nếu luật tham chiếu đến nhiều hơn một chiều thì được gọi là luật kết hợp a chiều Luật kết hợp với các mức trừu tượng khác nhau: Là các luậtkếthợp dựa trên mức độ trừu tượng chứa trong luật Một số phương pháp khai phá luật kết hợp. .. tìm các luật với các mức độ trừu tượng khác nhau 26 2.5 Các thuật toán khai phá dữ liệu nhờ luật kết họp 2.5.1 Khai phá luật kết họp nhị phân đơn chiều từ cơ sở dữ liệu tác vụ Trong phần này sẽ xem xét các phương pháp khai phá dạng đơn giản nhất của luật kết hợp đó là luật kết hợp đơn chiều, đơn mức, hay luật kết hợp nhị phân Ta bắt đầu với thuật toán Apriori, một thuật toán kinh điển cơ sở cho việc... tích hợp giữa cơ sở dữ liệu, kho dữ liệu, và khai thác dữ liệu Một số hệ cơ sở dữ liệu như Oracle MS SQL Server đã tích hợp tính năng xây dựng kho dữ liệu và phân tích trực tuyến (OLAP) Những tính năng này được hỗ trợ dưới dạng các công cụ đi kèm và người sử dụng phải mua nếu cần sừ dụng Các nhà nghiên cứu trong lĩnh vực cơ sở dữ liệu còn muốn có thêm sự tích hợp giữa cơ sở dữ liệu, kho dữ liệu, và khai. .. các luật tốt nhất 1.2.2 Phân loại các hệ thống khai phá dữ liệu Phân loại khai thác dữ liệu dựa trên các tiêu chí khác nhau Phân loại dựa trên kiểu dữ liệu được khai thác: Cơ sở dữ liệu quan hệ, kho dữ liệu, cơ sở dữ liệu giao tác, cơ sở dữ liệu hướng đối tượng, cơ sở dữ liệu không gian, cơ sở dữ liệu đa phương tiện, cơ sở dữ liệu văn bản, 16 Phân loại dựa trên dạng tri thức được khám phá: tóm tắt và. .. Tập thô thì phù hợp cho tìm ra các mẫu khác nhau của tình trạng không rõ ràng trong dữ liệu Một số yêu cầu khai thác dữ liệu cần phải áp dụng phương pháp tính toán mềm (Tính toán mềm là sự kết hợp của các phương pháp logic mờ, thuật toán di truyền) 1.2.3 Những vấn đề quan tâm trong hệ thống khai phá dữ liệu và lựa chọn các kỹ thuật khai phả Một số hướng nghiên cứu của khai thác dữ liệu hiện nay: OLAM... summarization)', lớp bài toán này thiên về mô tả, tổng hợp và tóm tắt khái niệm Ví dụ: tóm tắt văn bản 1.1.4.4 ứ n g dụng của khai phá dữ liệu Khai phá dữ liệu là một lĩnh vực mới phát triển nhưng thu hút được nhiều nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó Sau đây là một số lĩnh vực ứng dụng điển hình: Phân tích dữ liệu và hỗ írợ ra quyết định Sinh học: tìm kiếm, đối sánh các hệ gen và thông tin... thay cho các giá trị từ 0 đến 1 Bài toán khai phá luật kết hợp (ở dạng đơn giản nhất) có thể phát biểu như sau: Cho một cơ sở dữ liệu D; Độ hỗ trợ tối thiểu minsup; Độ tin cậy tối thiểu mincof Hãy tìm tất cả các luật kết hợp có dạng X — Y thoả mãn độ hỗ trợ s(X u Y) > » minsup và độ tin cậy của luật là: c(X — = s(X u Y)/s(X) > minconf >Y) Hầu hết các thuật toán được đề xuất để khai phá dữ liệu nhờ luật. .. khai thác dữ liệu Khám phá được nhiều tri thức khác nhau từ các kiểu dữ liệu khác nhau Tính chính xác và hiệu quả, khả năng mở rộng và tích hcrp, xử lý dữ liệu bị nhiễu không đầy đủ và tính có ích của tri thức được khám phá vấn đề song song hóa và phân tán quá trình khai Đ A I H O C Q U O C GI.A HA NÕI 17 thác dữ liệu Vấn đề ngôn ngữ truy vấn trong Khai thác dữ liệu phải cung cấp cho người sử dụng một... Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sờ dữ liệu Một đầu ra của giải thuật khai phá dữ liệu là tập các luật kết hợp tìm được Cho một lược đồ R = {A!,A2, ,Ap} với các thuộc tính có miền giá trị {0,1} và một quan hệ r trên R Ta gọi một luật kết hợp trên quan hệ r được mô tả như sau: X => B với X c R v à B 6 R\x Cho W c R , đặt s(W,r) là tần sổ xuất hiện của . tính số 72 Chương 4. ỨNG DỤNG LUẬT KẾT HỢP MỜ CHO BÀI TOÁN KHAI PHÁ DỮ LIỆU CƯỚC INTERNET 74 4.1 Nguồn dữ liệu cuớc Internet 74 4.2 Cài đặt hệ thống khai phá dữ liệu cước Internet 75 4.2.1. thức. 5 Luật kết hợp mờ là một trong những phương pháp khai phá dữ liệu có hiệu quả và có tính ứng dụng cao Hướng nghiên cứu Khai phá dữ liệu bằng luật kết hợp mờ được xây dựng và tổng hợp các. khai phá dữ liệu cước Internet 75 4.2.2 Giao diện hệ thống khai phá dữ liệu cước Internet 80 4.2.2.1 Hệ thống hàm chuẩn 80 4.2.2.2 Mờ hoá dữ liệu và sinh luật kết hợp m ờ 81 4.2.2.3 Tìm luật

Ngày đăng: 03/07/2015, 19:29

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Nguyễn Thanh Thủy (8-2001), Khai phá dữ liệu — K ĩ thuật và ứng dụng, Hà Nội Sách, tạp chí
Tiêu đề: Khai phá dữ liệu — K ĩ thuật và ứng dụng
2. Bùi Công Cường, Nguyễn Doãn Phước (2001), Hệ mờ, mạng nơron và ứng dụng, Nhà xuất bản Khoa học và kỹ thuật Sách, tạp chí
Tiêu đề: Hệ mờ, mạng nơron và ứng dụng
Tác giả: Bùi Công Cường, Nguyễn Doãn Phước
Nhà XB: Nhà xuất bản Khoa học và kỹ thuật
Năm: 2001
3. Hồ Anh Tài (2006), Khai thác luật kết hợp mờ và một số ứng dụng , Luận văn thạc sỹ - Đại học Quốc Gia TP Hồ Chí Minh.Tài liệu Tiếng Anh Sách, tạp chí
Tiêu đề: Khai thác luật kết hợp mờ và một số ứng dụng
Tác giả: Hồ Anh Tài
Năm: 2006
4. Alan Rea (1995), Data Mining - An Introduction, The Parallel Computer Centre, The Queen’s University of Belfast Sách, tạp chí
Tiêu đề: Data Mining - An Introduction
Tác giả: Alan Rea
Năm: 1995
5. Jiawei Han and Micheline Kamber (2002), Data Mining: Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers Sách, tạp chí
Tiêu đề: Data Mining: Concepts and Techniques
Tác giả: Jiawei Han and Micheline Kamber
Năm: 2002
6. Han, Y.Fu, Discovery o f Multiple - level Association Rules from Large Databases, Proceedings of the 21 St IC on Very large Databases, Zurich, Switzerland, 1995 Sách, tạp chí
Tiêu đề: Discovery o f Multiple - level Association Rules from Large Databases
7. Rakesh Agrawal and RAmakrichnan Srikant, Mining Quantitative Association Rules In Large Databases, Proc. ACM SIGMOD, 1998 Sách, tạp chí
Tiêu đề: Mining Quantitative Association Rules In Large Databases
8. Rakesh Agrawal, Tomasz Imielinski, and Arun Swami (1993), “Mining association rules between sets o f items in large databases ”, InProc of the ACM SIGMOD Conference on Management of Data, Washington, D .c Sách, tạp chí
Tiêu đề: “Mining association rules between sets o f items in large databases ”
Tác giả: Rakesh Agrawal, Tomasz Imielinski, and Arun Swami
Năm: 1993
9. Mohammed J.Zaki and Ching-Jui Hsiao (1999), CHAM: An Efficient Algorithm for Closed Association Rules Mining, RPI Technical Report 99 Sách, tạp chí
Tiêu đề: CHAM: An Efficient Algorithm for Closed Association Rules Mining
Tác giả: Mohammed J.Zaki and Ching-Jui Hsiao
Năm: 1999
10. R.Agrawal, T.Imielinski, and A.Swami, Mining Association Rule Between Sets o f Items in Lager Databases. In Proc. 1993 ACM-SIGMOD Int. Conf.Management of Data, Washington, D .c, May 1993 Sách, tạp chí
Tiêu đề: Mining Association Rule Between Sets o f Items in Lager Databases

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN