1. Trang chủ
  2. » Luận Văn - Báo Cáo

khai phá các luật trong các cơ sở dữ liệu

63 693 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 604,43 KB

Nội dung

luận văn về khai phá các luật trong các cơ sở dữ liệu

TĨM TĂT KHỐ LUẬN TỐT NGHIỆP Cùng với sự phát triển của Cơng Nghệ Thơng Tin ngày nay, khai phá tri thức trong các sở liệu lớn là một trong nhưng lĩnh vực được rất nhiều nhà ngun cứu và ứng dụng tin học đặc biệt quan tâm. Việc ngun cứu những phương pháp thể tự động phát hiện những tri thức mới trong sở liệu trên máy tính đã tỏ ra thực sự hữu ích trong việc hỗ trợ quyết định cho con người. Hiện nay, trên thế giới rất nhiều thuật tốn khai phá tri thức bằng cách phân lớp và rời rạc dữ liệu như: Sử dụng cây quyết định, phương pháp thống kê, các mạng nơ ron, thuật tốn di truyền, .Trong một vài năm gần đây, lý thuyết tâp thơ được nhiều nhóm ngun cứu hoạt động trong lĩnh vực tin học nói chung và khai phá tri thức nói riêng ngun cứu và áp dụng trong thực tế. Lý thuyết tập thơ được xây dự ng trên nền tảng tốn học vững chắc giúp cung cấp những cơng cụ hữu ích để giải quyết những bài tốn phân lớp dữ liệukhai phá luật, .Với đặc tính thể xử lý được những dữ liệu mơ hồ, khơng chắc chắn tập thơ tỏ ra rất hữu ích trong việc giải quyết những bài tốn thực tế. Từ những bảng dữ liệu lớn với dữ liệu d ư thừa, khơng hồn hảo, dữ liệu liên tục, hay dữ liệu dưới dạng ký hiệu lý thuyết tập thơ cho phép khai phá tri thức từ những khối dữ liệu này nhằm phát hiện những luật tiềm ẩn từ khối dữ liệu này. Trong khố ln tốt nghiệp chúng tơi đã trình bày một số phương pháp rời rạc hố dữ liệu theo hướng tiếp cận tập thơ. Và xây dựng chương trình thử nghiệm: phát hiệ n luật bằng cách sử dụng siêu phẳng tối ưu theo hướng tiếp cân tập thơ. Chương trình được xây dựng để thử nghiệm trên bộ dữ liệu chứa thơng tin về 768 bệnh nhân bị bệnh tiểu đường cung cấp bởi tổ chức “National Institute of Diabetes and Digestive and Kidney Diseases”. Từ đó xây dựng hệ thống các luật dựa trên cây quyết định dùng để hỗ trợ việc khám bệnh của các bác sĩ. MỤC LỤC MỤC LỤC .2 PHẦN MỞ ĐẦU .5 Chương 1 TỔNG QUAN VỀ KHAI PHÁ TRI THỨC .8 1.1 . Khai phá tri thức 8 1.1.1. Định nghĩa khai phá tri thức .8 1.1.2. Các giai đoạn của quá trình khai phá tri thức .8 1.1.3. Khai phá dữ liệu 10 1.2 . Khai phá tri thức theo cách tiếp cận tập thô 12 1.2.1. Một số khái niệm 12 1.2.1.1. Khái niệm hệ thông tin 12 1.2.1.2. Khái niêm về bảng quyết định .13 1.2.1.3. Khái niệm quan hệ không phân biệt được trong hệ thông tin. 15 1.2.1.4. Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định 16 1.2.1.5. Tập thô trong không gian xấp xỉ. 17 1.2.2. Khai phá tri thức theo cách tiếp cận tập thô. 19 1.2.2.1. Sự rời rạc hoá dữ liệu theo cách tiếp cận tập thô. .19 1.2.2.2. Lựa chọn thuộc tính dựa trên tập thô .19 1.2.2.3. Khám phá luật bới bảng phân bố tổng quát dựa trên tập thô. .20 1.2.2.4. Khám phá mẫu trong hệ thông tin .20 1.3 . Kết luận. 21 Chương 2 KHAI PHÁ LUẬT KẾT HỢP .22 2.1 . Khai phá luật kết hợp trong sở dữ liệu. 22 2.1.1. Bài toán xuất phát. 22 2.1.2. Mô hình hoá bài toán 22 2.1.3. Thuật toán khai phá luật kết hợp. .25 2.1.3.1. Tập phổ biến 25 2.1.3.2. Khai phá luật dựa trên tập mục phổ biến .25 2.1.4. Kết luận .28 2.2 . Sinh cây quyết định từ hệ thông tin .29 2.2.1. Thuật toán học cây quyết định 29 2.2.2. Một số phương pháp giải quyết vấn đề rời rạc hoá. .35 2.2.2.1. Maximal Discernibility (MD) Heuristic 35 2.2.2.2. Sự rời rạc hoá định nghĩa bằng siêu phẳng. 36 2.2.2.3. Những tính chất của phương thức MD 39 2.2.2.4. Xây dựng cây quyết định không đối xứng. .43 2.2.3. Kết luận .50 Chương 3 CHƯƠNG TRÌNH THỬ NGHIỆM. .51 3.1 . Mô tả dữ liệu. 51 3.2 . Xây dựng chương trình. 53 3.3 . Kết quả thử nghiệm. 57 3.4 . Nhận xét. .61 KẾT LUẬN. 62 Tài liêu tham khảo: 63 CÁC KÝ HIỆU SỬ DỤNG TRONG LUẬN VĂN Ký hiệu Mô tả A Hệ thông tin hay bảng quyết định A, B Tập các thuộc tính trong hệ thông tin D Tập thuộc tính quyết định trong hệ thông tin a Một thuộc tính điêu kiện trong hệ thông tin V a Tập giá trị của thuộc tính điều kiện a U Tập tất cả các đối tượng ∅ Tập rỗng ⊆ Bị chứa trong ∈ Thuộc (phần tử thuộc tập hơp) ≥ Lớn hơn hoặc bằng ≤ Nhỏ hơn hoặc bằng ≠ Khác ∪, ∩ phép lấy giao và hợp của tập hợp PHẦN MỞ ĐẦU Trong một vài năm gần đây, ngành công nghệ thông tin trên toàn thế giới đã phát triển mạnh mẽ với một tốc độ rất nhanh. Song song với điều đó chúng ta cũng phải đối mặt với một thách thức mới là sự bùng nổ về lượng thông tin. Tuy nhiên, một thực tế diễn ra rất phổ biến là mặc một lượng dữ liệu rất lớn nhưng thông tin mà thực s ự chúng ta là rất ít, những hiểu biết thực sự của chúng ta về lượng dữ liệu mà chúng ta còn rất hạn chế. Xuất phát từ thực tế đó mà trong một vài năm gần đây các nhà nguyên cứu và ứng dụng tin học phải nguyên cứu, tìm kiếm những phương pháp mới để khai thác triệt để nhưng thông tin trong sở dữ liệu. Từ cuối những năm của thập kỷ 1980 khái ni ệm phát hiện tri thức trong sở dữ liệu lần đầu tiên được nói đến, đây là quá trình phát hiện tri thức tiềm ẩn, không biết trước và hữu ích trong các sở dữ liệu lớn. Khắc phục hạn chế của những mô hình sở dữ liệu truyền thống chỉ với những công cụ truy vấn dữ liệu không khả năng tìm kiếm các thông tin mới, các thông tin tiề m ẩn trong sở dữ liệu. Khai phá tri thức trong sở dữ liệu là một quá trình thể tìm ra những thông tin mới, những thông tin hữu ích, và tiềm ẩn trong sở dữ liệu. Quá trình phát hiện tri thức gồm nhiều giai đoạn, trong đó giai đoạn khai phá dữ liệu là quan trọng nhất. Đây là giai đoạn chính tìm ra những thông tin mới trong sở dữ liệu. Quá trình phát hiện tri thức là sự tiếp thu, s ử dụng và phát triển các thành tựu của nhiều lĩnh vực nguyên cứu ứng dụng tin học trước đó như: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, thống kê, v.v. Từ đầu những năm 80 Z. Pawlak đã đề xuất ra lý thuyết tập thô với một sở toán học rất chắc chắn. Trong những năm gần đây, lý thuyết tập thô được nhiều nhóm nguyên cứu ho ạt động trong lĩnh vực tin học nói chung và khai phá tri thức trong sở dữ liệu nói riêng nguyên cứu và áp dụng trong thực tế [2,4,6,10,12]. Lý thuyết tập thô ngày càng được áp dụng rộng rãi trong lĩnh vực phát hiện tri thức. Nó tỏ ra rất hữu ích trong việc giải quyết các bài toán phân lớp dữ liệu, phát hiện luật và đặc biệt hữu ích trong các bài toán phải xử lý các dữ liệu mơ hồ, không chắc chắn. Các mối quan hệ giữa d ữ liệu trong mô hình này được biểu diễn qua mối quan hệ “không phân biệt được”, các tập dữ liệu là mơ hồ, không chắc chắn được biểu diễn thông qua tập xấp xỉ trên và xấp xỉ dưới của nó. Nhờ vào những điều này mà dữ liệu thể phân tích và xử lý bằng những công cụ toán học. Cụ thể trong lý thuyết tập thô dữ liệu được biểu diễn thông qua hệ thông tin hay bả ng quyết. Từ trong thực tế, với những bảng dữ liệu lớn với dữ liệu không hoàn hảo, dữ liệu thừa, dữ liệu liên tục hay biểu diễn dưới dạng các ký hiệu, lý thuyết tập thô cho phép khai phá tri thức trong những sở dữ liệu như thế này nhằm phát hiện những tri thức tiềm ẩn từ những khối dữ liệu “thô” này. Tri thức tìm đượ c được thể hiện dưới dạng các luật, các mẫu. Sau khi tìm được những quy luật chung nhất để biểu diễn dữ liệu, người ta thể tính toán độ mạnh và độ phụ thuộc giữa các thuộc tính trong hệ thông tin. Theo Skowron và NingZong [2], cách tiếp cận tập thô để phân tích dữ liệu rất nhiều điểm lợi quan trọng như sau: − Cho phép xử lý hiệu quả bảng dữ liệu lớn, loại bỏ dữ liệu thừa, dữ liệu không hoàn hảo, dữ liệu liên tục. − Hiệu quả trong việc tìm kiếm những mẫu tiềm ẩn trong sở dữ liệu. − S ử dụng được tri thức kinh nghiệm. − Nhận ra được những mối quan hệ mà khi sử dụng các phương pháp thống kê khác không phát hiện được. − Sử dụng quan hệ thứ lỗi trong quá trình phát hiện mẫu. − Làm việc hiệu quả trên tập rút gọn. − Cách giải thích rõ ràng và dễ hiểu. Với những đặc điểm trên thì tập thô đã chứng tỏ là một trong những lý thuyết r ất hiệu quả trong lĩnh vực khai phá dữ liệu. Trong khoa luận tốt nghiệp này chúng tôi xin trình bày một số ứng dụng và lý thuyết bản của tâp thô. Việc phát hiện tri thức được thực hiện bằng cách phân lớp, rời rạc hoá dữ liệu từ đó sinh ra các luật, các tri thức mới. Phương pháp nguyên cứu chủ yếu của khoá luận tốt nghiệp là tìm hiểu và phân tích nội dung các bài báo được công bố về lĩnh v ực khai phá tri thức trong những năm gần đây. Từ những kiến thức thu được chúng tôi đã xây dựng được chương trình thử nghiệm mô phỏng thuật toán xây dựng cây quyết định tối ưu bằng cách sử dụng siêu phẳng tối ưu được trình bày trong [9]. Chương trình tiến hành khai phá tri thức trong cớ sở dữ liệu lưu thông tin về 678 bệnh nhân tiểu đường cung cấp bởi tổ chức “National Institute of Diabetes and Digestive and Kidney Diseases”. Từ đó sinh ra các luật quyết định hỗ trợ trong quá trình khám bệnh của bệnh nhân. Khoá luận tốt nghiệp được trình bày gôm 3 phần: Phần mở đầu, 3 chương và phần kết luận. Trong đó: Chương 1: Khóa luận trình bày những kiến thức chung nhất về khai phá tri thức và khai phá tri thức theo cách tiếp cận tập thô. Chương 2: Khóa luận trình bày về chi tiết một số thuật toán khai phá tri thức, chủ yếư là khai phá các luật trong các s ở dữ liệu. Trong đó đáng chú ý là thuật toán xây dựng cây quyết định tối ưu bằng cách sử dụng siêu phẳng tối ưu. Chương 3: Khóa luận trình bày kết quả thử nghiệm bài toán khai phá luật trong cây quyết định tối ưu trình bày ở chương 2 và áp dụng trên sở dữ liệu bệnh nhân bị tiểu đường được lấy về từ trên mạng. Qua đó đánh giá được sự hiệ u quả của thuật toán được trình bày trong [9]. Khóa luận được hoàn thành duới sự giúp đỡ của Tiến Sĩ. Hà Quang Thuỵ , Bộ môn các hệ thông thông tin, Khoa Công Nghệ, ĐHQG Hà Nội. Em xin bày tỏ lòng kính trọng và sự biết ơn sâu sắc tới Thầy đã hướng dẫn, động viên và tạo điều kiện cho em trong quá trình làm khoá luận tốt nghiệp. Em xin chân thành cảm ơn Thầy Đỗ Văng Thành, Văn phong chính phủ, người đã truyền thụ cho em những kiến thức nền tảng và sở để em thể hoàn thành bản khoá luận tôt nghiệp này. Em xin chân thành cảm ơn các thầy giáo trong bộ môn Các Hệ Thống Thông Tin, nhóm “Seminar Data Mining and KDD”. Cuối cùng em xin chân thành cảm ơn tới những người thân trong gia đình, bạn bè đã giúp đỡ và động viên em rất nhiều trong quá trình nguyên cứu và học tập. Chương 1 TỔNG QUAN VỀ KHAI PHÁ TRI THỨC 1.1 . Khai phá tri thức Phát hiện tri thức là khái niệm ra đời vào những năm cuối của thập kỷ 80 và đã trở thành một lĩnh vực được nguyên cứu rộng rãi trên toàn cầu. Sự ra đời của phát hiện tri thức là sự kết hợp kết quả nguyên cứu của nhiều ngành khoa học khác lại với nhau như: Quản trị sở dữ liệu, học máy, thống kê v.v. 1.1.1. Định nghĩa khai phá tri thức Khai phá tri th ức (Khai phá tri thức-Knowledge Discovery in Databases) trong các sở dữ liệu là quá trình phát hiện những tri thức tiềm ẩn, không biết trước, và ích trong trong sở dữ liệu. Thực chất đó là quá trình tìm kiếm những thông tin trong sở dữ liệu nhưng bị che giấu trong các khối dữ liệu. Tri thức ở đây thể được hiểu là một biểu thức trong một ngôn ngữ nào đó diễn tả một hoặc nhi ều mối quan hệ giữa các thuộc tính trong các dữ liệu đó. Các ngôn ngữ thường dùng để biểi diễn tri thức trong việc biểu diễn tri thức trong quá trình phát hiện tri thức từ sở liệucác khung (frames), các cây và đồ thị, các luật, các công thức trong logic mệnh đề hoặc logic tân từ cấp một . . . Việc khai phá tri thức thường được áp dụng để giả quyết một loạt những yều cầ u phục vụ những mục đích nhất định. Do vậy nên quá trình phát hiện tri thức mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức mà phát hiện những tri thức phục vụ tốt một nhiệm vụ đề ra. Vì vậy, quá trình phát hiện tri thức là một hoạt động tương tác giữa một người sử dụng hoặc một chuyên gia phân tích với các công cụ tin học. 1.1.2. Các giai đoạn c ủa quá trình khai phá tri thức Mục đích của quá trình khai phá tri thức: Từ những sở dữ liệu ngoài cuộc sống thực tế sau một hoặc một số bước của quá trình sẽ rút ra được những tri thức mới. Các bước trong quá trình này thể lặp đi lặp lại nhiều lần và được mô tả theo hình sau [4,8]: Hình 1. Mô hình mô tả quá trình khai phá tri thức. Giai đoạn 1:Xác định và định nghĩa vấn đề. − Tìm hiểu lĩnh vực ứng dụng và nhiệm vụ đề ra, xác định các tri thức đã các mục tiêu của người sử dụng. − Tạo và chọn lựa sở dữ liệu. Giai đoạn 2: Thu nhập và tiền xử lý dữ liệu. − Xử lý và làm sạch dữ liệu trước: Bỏ đi các dữ liệu tạp bao gồm các lỗi và các dạng không bình thường. Xử lý dữ liệu bị mất, chuyển đổi dữ liệu phù hợp. − Rút gọn kích thước dữ liệu nhận được: Nhận ra các thuộc tính hữu ích cho quá trình phát hiện tri thức. Giai đoạn 3: Khai phá dữ liệu. − Chọn nhiệm vụ khai phá dữ liệu. − Lự a chọn các phương pháp khai phá dữ liệu. − Khai phá dữ liệu để rút ra các mẫu, các mô hình. Giai đoạn 4:Giải thích kết quả và đánh giá các mẫu, các mô hình tìm được ở giai đoạn 3. Xác định và định nghĩa vấn đề Thu nhập và tiền xử lý dữ liệu Khai phá dữ liệu Giải thích kết quả và đánh giá Sử dụng tri thức phát hiện được 1 2 3 4 5 Giai đoạn 5: Sử dụng tri thức phát hiện được. − Các tri thức phát hiện được tích hợp chặt chẽ trong hệ thống. Tuy nhiên để sử dụng được tri thức đó đôi khi cần đến các chuyên gia trong các lĩnh vực quan tâm vì tri thức rút ra thể chỉ tính chất hỗ trợ quyết định. − Tri thức tìm được thể được sử dụng cho một quá trình khai phá tri thức khác. Như vậy khai phá tri th ức gồm 5 giai đoạn chính, trong 5 giai đoạn trên thì giai đoạn khai phá dữ liệu là quan trọng nhất. Đây là giai đoạn duy nhất tìm được các thông tin tiềm ẩn trong sở dữ liệu. 1.1.3. Khai phá dữ liệu Khai phá dữ liệu (hay data mining) được định nghĩa như là quá trình phát hiện các tri thức mới, giá trị từ những dữ liệu lớn được lưu trữ trong sở, datawarehouse hay các kho chứa thông tin khác. Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình phát hiện tri thức. Về bản chất nó là giai đoạn duy nhất tim ra được thông tin mới, thông tin tiềm ần trong sở dữ liệu. Mục đích nguyên thủy của khai phá dữ liệu là mô tả và dự đoán [4]. Các kỹ thuật khai phá dữ liệu được chia thành những mảng chính sau: • Phân cụm và phân lớp dữ liệu: Quá trình này thể xem là quá trình phân tích một tập dữ liệu và sinh ra m ột tập nhóm các luật mà chúng ta thể sử dụng để phân lớp dữ liệu trong tương lai. Khi phân lớp dữ liệu người ta thường dựa trên một tập các mẫu huấn luyện để sinh ra các luật. rất nhiều phương pháp để phân lớp dữ liệu được nguyên cứu như: Các phương pháp học cây quyết định, phương pháp thông kê, các mạng nơ ron, các mạng xác xuất Bayes,. . . • Khai phá luật kết hợp: Mong muố n tìm ra những mối quan hệ giữa các thuộc tính hoàn toàn độc lập với nhau trong sở dữ liệu. Luật kết hợp thể dùng để hỗ trợ quyết định. Ví dụ như các bài toán kinh doanh. • Khai phá chuỗi: Luật chuỗi và khai phá chuỗi thể coi như là một cách trừu tượng của luật kết hợp và phát hiện các luật kết hợp trong sở dữ liệu phụ thuộc thờ i gian. rất nhiều phương pháp để thể tiến hành khai phá dữ liệu đã được nguyên cứu và đề ra như: − Các phương pháp sinh cây quyết định. − Các phương pháp thống kê. − Các mạnh nơ ron. − Các mạng xác suất Bayes. [...]... là khai phá tri thức theo cách tiếp cận tập thô Khai phá tri thức thể được hiểu đơn giản là quá trình tìm kiếm nhưng thông tin mới trong sở dữ liêu Nó bao gồm 5 quá trình, trong đó quá trình khai phá dữ liệu là quan trong nhất Các kỹ thuật khai phá tri thức được chia thành 3 mảng chính: phân cụm và phân lớp dữ liệu ,khai phá các luật kết hợp, khai phá chuỗi Lý thuyết tập thô do P Pawlak đưa ra trong. .. đối với B 1.2.2 Khai phá tri thức theo cách tiếp cận tập thô Như đã trình bày ở trên, khai phá tri thức từ sở dữ liệu đang là vấn đề được rất nhiều người quan tâm [2,12] Việc tìm kiếm tri thức trong các sở dữ liệu được tiến hành theo rất nhiều phương pháp khác nhau Trong đó khai phá tri thức theo cách tiếp cân tập thô là một phương pháp tỏ ra đặc biệt hiệu quả đối với những dữ liệu lớn và nhiều... được một tập tối ưu các thuộc tính trong sở dữ liệu Từ đó các luật sinh ra trong sở dữ liệu sẽ đạt được hiệu quả cao nhất, dữ liệu mà chúng ta thực sự phải làm việc sẽ nhỏ đi rất nhiều hai phương pháp lựa chọn thuộc tính thường được sử dụng là lọc và bọc Trong đó thì phương pháp lọc thực chất là tìm những thuộc tính tối thiểu trong tập các thuộc tính, chọn ra các thuộc tính độ phù hợp cao... Imielinski, Arun Swami đề xuất năm 1993 [6] Sau đó được nhiều nhà khoa học phát triển và cải tiến 2.1 Khai phá luật kết hợp trong sở dữ liệu 2.1.1 Bài toán xuất phát Cho trước một sở dữ liệu lưu thông tin bán hàng của một siêu thị Với lượng dữ liệu được lưu giữ là tương đối lớn, người sử dụng mong muốn những tri thức từ sở dữ liệu trên để thể hoạch định kế hoạch kinh doanh phù hợp: Những câu... giữa các trường hợp thể và các bộ sinh thể − Những trường hợp không thấy trong quá trình khai phá dữ liệu sự không chắc chắn của luật bao gồm cả khả năng dự đoán trước các trường hợp nó không được thể hiện rõ ràng trong độ mạnh của luật thể sử dụng tri thức nền làm sở cho việc lập bảng phân bố tổng quát và quá trình khai phá A Skowronvà Ning Zong [2] đã đưa ra phương pháp khám phá luật. .. những năm đầu của thập kỷ 80 đã tỏ ra là rất hiệu quả trong lĩnh vực khai phá tri thức Nó tỏ ra thực sự hiểu quả trong các bài toán thực tế, những bài toán dữ liệu thương ở dạng thô, chưa qua xử lý, trong dữ liệu nhiều thông tin thừa Chương 2 KHAI PHÁ LUẬT KẾT HỢP Khai phá luật kết hợp là một kỹ thuật quan trọng và phát triển mạnh mẽ trong những năm gần đây Lần đầu tiên được Rakesh Agrawal,... Dựa trên các bảng phân bố tổng quát này sinh các vector phân biệt được − Tạo ra các tập rút gọn được từ các tập vector phân biệt được − Sinh ra các luật bao phủ tất cả các trường hợp 1.2.2.4 Khám phá mẫu trong hệ thông tin Việc tìm những mẫu quan hệ phức tạp được phát hiện trong những sở dữ liệu lớn một cách tự động là một trong những hướng nghiên cứu đang được chú trọng trên thế giới Trong trường... bộ các mục (chính là các mặt hàng trong bài toán trên) D : là sở dữ liệu, nó bao gồm các tác vụ, trong đó mỗi tác vụ thể coi như là một vector t=(t1, t2, ,tm) với ti = 0 nếu tác vụ t mua mặt hàng i, i=1, ,m Với những định nghĩa trên thì sở dữ liệu bán hàng của một siêu thị sẽ được biệt diễn là một tập D các tác vụ t Trong đó I là tập các thuộc tính hay tập các mặt hàng Ta định nghĩa luật. .. cả các ứng cử viên từ Ck trong đó tập con (k-1) của nó không trong tập mục phổ biến Lk-1 2 Duyệt trong sở dữ liệu để xác định độ hỗ trợ của các tập ứng cử viên Ck 3 Ghi lại các tập mục phổ biến Lk Trong bước thứ 2 của mỗi lần duyệt, để thể tính độ hỗ trợ của các tập ứng cử viên thì thuật toán phải tiến hành duyệt lại toàn bộ cớ sở dữ liệu Quá trình này là thực sự đáng kể với những sở dữ. .. thể làm tốt với những sở dữ liệu không chắc chắn, tính mơ hồ, không phân biệt được 1.2.2.1 Sự rời rạc hoá dữ liệu theo cách tiếp cận tập thô Trong lĩnh vực khai phá tri thức, một vấn đề đặt ra là làm sao chúng ta thể xử lý cả được những dữ liệu hỗn tạp với những giá trị liên tục rất nhiều thuật toán được sử dụng trong lĩnh vực rời rạc hoá dữ liệu như: Các phương pháp lập luận logic, thuật . đoạn 3: Khai phá dữ liệu. − Chọn nhiệm vụ khai phá dữ liệu. − Lự a chọn các phương pháp khai phá dữ liệu. − Khai phá dữ liệu để rút ra các mẫu, các mô. truy vấn dữ liệu không có khả năng tìm kiếm các thông tin mới, các thông tin tiề m ẩn trong cơ sở dữ liệu. Khai phá tri thức trong cơ sở dữ liệu là một

Ngày đăng: 13/04/2013, 10:44

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Aleksander. Discernibility and Rough Sets in Medicine: Tools and Applications Knowledge Systems Group, Dept. of Computer and Information Science, Norwegian University of Science and Technology, Trondheim, Norway Sách, tạp chí
Tiêu đề: Discernibility and Rough Sets in Medicine: Tools and Applications
[3]. Ho Tu Bao (1996). Introduction to Knowledge Discovery and Data mining. Institute of Information Technology National Center for Natural Science and Technology Sách, tạp chí
Tiêu đề: Introduction to Knowledge Discovery and Data mining
Tác giả: Ho Tu Bao
Năm: 1996
[4]. Fayyad, Piatetsky-Shapiro, Smyth, “From Data Mining to Knowledge Discovery: An Overiew”, in Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowl\ledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996, pp,1-34 Sách, tạp chí
Tiêu đề: From Data Mining to Knowledge Discovery: An Overiew
[7]. Rakesh Agrawal, Tomasz Imielinski, Arun Swami (1993). Mining Assosication Rules between Sets of item in Large Databases. Proceedings of the 1993 ACM SIGMOD conference Washington DC, USa, May 1993 Sách, tạp chí
Tiêu đề: Mining Assosication Rules between Sets of item in Large Databases
Tác giả: Rakesh Agrawal, Tomasz Imielinski, Arun Swami
Năm: 1993
[8] Ronald J.Branchman and Tej Anand. The Process of Knowledge Discoery inDatabases, 1996 Sách, tạp chí
Tiêu đề: The Process of Knowledge Discoery inDatabases
[9] Nguyen Hung Son, Nguyen Sinh Hoa. From Optimal Hyperplanes to Optimal Decision Trees: Rough Set and Boolean Reasoning Approaches, Institute of Computer Sciences Warsaw University 02-097, Banacha 2, Warsaw, Poland Sách, tạp chí
Tiêu đề: From Optimal Hyperplanes to Optimal Decision Trees: Rough Set and Boolean Reasoning Approaches
[10] Hà Quang Thuỵ (1996). Một số vấn đề về không gian xấp xỉ, tập thô đối với hệ thông tin. Luận án Phó tiến sĩ Khoa học Toán Lý. ĐHKHTN, 1996 Sách, tạp chí
Tiêu đề: Một số vấn đề về không gian xấp xỉ, tập thô đối với hệ thông tin
Tác giả: Hà Quang Thuỵ
Năm: 1996
[12]. Wojciech P. Ziarko (Ed., 1994). Rough Sets, Fuzzy Sets and Knowledge Discovery. Proceedings of the International Workshop on Rough Sets and Knowledge Discovery (RSKD'93), Banff, Alberta, Canada, 12-15 October 1993. Springer-Verlag Sách, tạp chí
Tiêu đề: Rough Sets, Fuzzy Sets and Knowledge Discovery
[5]. Sinh Nguyen Hoa, Andrzej Skowron, Piotr Synak (1998). Discovery of Data Patterns with Application to Decomposition and Classification Problems Khác
[6]. Jan Komorowski, Zdzislaw Pawlak, Lech Polkowski, Andrzej Skowron (2000). Rough sets: A tutorial Khác

HÌNH ẢNH LIÊN QUAN

A Hệ thông tin hay bảng quyết định A, B  Tập các thuộc tính trong hệ thông tin  - khai phá các luật trong các cơ sở dữ liệu
th ông tin hay bảng quyết định A, B Tập các thuộc tính trong hệ thông tin (Trang 4)
Hình 1. Mô hình mô tả quá trình khai phá tri thức. Giai đoạn 1:Xác định và định nghĩa vấn đề - khai phá các luật trong các cơ sở dữ liệu
Hình 1. Mô hình mô tả quá trình khai phá tri thức. Giai đoạn 1:Xác định và định nghĩa vấn đề (Trang 9)
Hình 1. Mô hình mô tả quá trình khai phá tri thức. - khai phá các luật trong các cơ sở dữ liệu
Hình 1. Mô hình mô tả quá trình khai phá tri thức (Trang 9)
Ví dụ: Có một hệ thông tin được biểu diễn như bảng sau: Trong bảng có 7 đối tượng và có 3 thuộc tính là số lần mang thai của bệnh nhân (1), lượng glucose trong huyết  tương sau 2 giờ uống thuốc (2), tuổi của bệnh nhân (8) - khai phá các luật trong các cơ sở dữ liệu
d ụ: Có một hệ thông tin được biểu diễn như bảng sau: Trong bảng có 7 đối tượng và có 3 thuộc tính là số lần mang thai của bệnh nhân (1), lượng glucose trong huyết tương sau 2 giờ uống thuốc (2), tuổi của bệnh nhân (8) (Trang 12)
Bảng 1. Ví dụ về hệ thông tin. Trong ví dụ trên thì ta có một hệ thông tin  A  =(U, A) - khai phá các luật trong các cơ sở dữ liệu
Bảng 1. Ví dụ về hệ thông tin. Trong ví dụ trên thì ta có một hệ thông tin A =(U, A) (Trang 13)
Định nghĩa 3: Bảng quyết định là một hệ thông tin có dạng - khai phá các luật trong các cơ sở dữ liệu
nh nghĩa 3: Bảng quyết định là một hệ thông tin có dạng (Trang 13)
Bảng 1. Ví dụ về hệ thông tin. - khai phá các luật trong các cơ sở dữ liệu
Bảng 1. Ví dụ về hệ thông tin (Trang 13)
Bảng 3. Ví dụ về một cơ sở dữ liệu. - khai phá các luật trong các cơ sở dữ liệu
Bảng 3. Ví dụ về một cơ sở dữ liệu (Trang 23)
Bảng 3. Ví dụ về một cơ sở dữ liệu. - khai phá các luật trong các cơ sở dữ liệu
Bảng 3. Ví dụ về một cơ sở dữ liệu (Trang 23)
Ta xét một số luật sinh từ các tập mục phổ biến trên trong bảng sau. Trong các luật của bảng ta xét luật A⇒B thì supp({A, B})=20%, supp(A)=40% vì vậy  conf(A⇒B)=50% - khai phá các luật trong các cơ sở dữ liệu
a xét một số luật sinh từ các tập mục phổ biến trên trong bảng sau. Trong các luật của bảng ta xét luật A⇒B thì supp({A, B})=20%, supp(A)=40% vì vậy conf(A⇒B)=50% (Trang 24)
Bảng 5. Độ hỗ trợ tương ứng của các tập mục khác - khai phá các luật trong các cơ sở dữ liệu
Bảng 5. Độ hỗ trợ tương ứng của các tập mục khác (Trang 24)
Bảng 5. Độ hỗ trợ tương ứng của các  tập mục khác - khai phá các luật trong các cơ sở dữ liệu
Bảng 5. Độ hỗ trợ tương ứng của các tập mục khác (Trang 24)
Bảng 4. Độ hỗ trợ tương ứng của từng mục đơn. - khai phá các luật trong các cơ sở dữ liệu
Bảng 4. Độ hỗ trợ tương ứng của từng mục đơn (Trang 24)
Bảng 6. Độ tin cậy của các luật. - khai phá các luật trong các cơ sở dữ liệu
Bảng 6. Độ tin cậy của các luật (Trang 25)
Bảng 6. Độ tin cậy của các luật. - khai phá các luật trong các cơ sở dữ liệu
Bảng 6. Độ tin cậy của các luật (Trang 25)
Bảng 6. Các ví dụ huấn luyện tron cây quyết định. - khai phá các luật trong các cơ sở dữ liệu
Bảng 6. Các ví dụ huấn luyện tron cây quyết định (Trang 29)
Bảng 6. Các ví dụ huấn luyện tron cây quyết định. - khai phá các luật trong các cơ sở dữ liệu
Bảng 6. Các ví dụ huấn luyện tron cây quyết định (Trang 29)
Hình trên là một ví dụ về cây quyết định phân lớp AI các mẫu đưa vào theo bảng 5. Mỗi nút của cây biểu diễn một thuộc tính trong các mẫu, mỗi một nhánh tới  nút tương ứng với một trong những giá trị cụ thể cho thuộc tính này - khai phá các luật trong các cơ sở dữ liệu
Hình tr ên là một ví dụ về cây quyết định phân lớp AI các mẫu đưa vào theo bảng 5. Mỗi nút của cây biểu diễn một thuộc tính trong các mẫu, mỗi một nhánh tới nút tương ứng với một trong những giá trị cụ thể cho thuộc tính này (Trang 30)
Hình trên là một ví dụ về cây quyết định phân lớp AI các mẫu đưa vào theo  bảng 5. Mỗi nút của cây biểu diễn một thuộc tính trong các mẫu, mỗi một nhánh tới  nút tương ứng với một trong những giá trị cụ thể cho thuộc tính này - khai phá các luật trong các cơ sở dữ liệu
Hình tr ên là một ví dụ về cây quyết định phân lớp AI các mẫu đưa vào theo bảng 5. Mỗi nút của cây biểu diễn một thuộc tính trong các mẫu, mỗi một nhánh tới nút tương ứng với một trong những giá trị cụ thể cho thuộc tính này (Trang 30)
Ví dụ:Tiếp tục xét ví dụ trong bảng 5 ta có. - khai phá các luật trong các cơ sở dữ liệu
d ụ:Tiếp tục xét ví dụ trong bảng 5 ta có (Trang 34)
Bảng 7. Giá trị informatin Gain của các thuộc tính. - khai phá các luật trong các cơ sở dữ liệu
Bảng 7. Giá trị informatin Gain của các thuộc tính (Trang 34)
Từ một bảng quyết định A=(U, A∪{d}), chúng ta xây dựng một bẳng quyết định mới.  - khai phá các luật trong các cơ sở dữ liệu
m ột bảng quyết định A=(U, A∪{d}), chúng ta xây dựng một bẳng quyết định mới. (Trang 35)
Bảng 8. Một dạng của bảng quyết định dạng A* - khai phá các luật trong các cơ sở dữ liệu
Bảng 8. Một dạng của bảng quyết định dạng A* (Trang 35)
Cho bảng dữ liệu sau gồm 6 đối tượng và mỗi đối tượng có 4 thuộc tính, trong đó thuộc tính thứ (9) là thuộc tính quyết định - khai phá các luật trong các cơ sở dữ liệu
ho bảng dữ liệu sau gồm 6 đối tượng và mỗi đối tượng có 4 thuộc tính, trong đó thuộc tính thứ (9) là thuộc tính quyết định (Trang 37)
Bảng 10. Ví dụ về bảng quyết định. - khai phá các luật trong các cơ sở dữ liệu
Bảng 10. Ví dụ về bảng quyết định (Trang 46)
Bảng 10. Ví dụ về bảng quyết định. - khai phá các luật trong các cơ sở dữ liệu
Bảng 10. Ví dụ về bảng quyết định (Trang 46)
Bảng 11. Bảng giá trị infomation gain của các thuộc tính của các đối tượng trong bảng  10 - khai phá các luật trong các cơ sở dữ liệu
Bảng 11. Bảng giá trị infomation gain của các thuộc tính của các đối tượng trong bảng 10 (Trang 46)
Hình 4. Các nhánh cây bị phân theo thuật toán đối với các đối tượng ở bảng 10. - khai phá các luật trong các cơ sở dữ liệu
Hình 4. Các nhánh cây bị phân theo thuật toán đối với các đối tượng ở bảng 10 (Trang 47)
Bảng 12. Bảng giá trị hàm power1 của các siêu phẳng chọn theo thuộc tính (2) Như  vậy siêu phẳng được chọn sẽ  tương  ứng với nhát cắt ((2), 124) và cây  quyết định khi đó sẽ là:  - khai phá các luật trong các cơ sở dữ liệu
Bảng 12. Bảng giá trị hàm power1 của các siêu phẳng chọn theo thuộc tính (2) Như vậy siêu phẳng được chọn sẽ tương ứng với nhát cắt ((2), 124) và cây quyết định khi đó sẽ là: (Trang 47)
Hình 4. Các nhánh cây bị phân theo thuật toán đối với các đối tượng ở bảng 10. - khai phá các luật trong các cơ sở dữ liệu
Hình 4. Các nhánh cây bị phân theo thuật toán đối với các đối tượng ở bảng 10 (Trang 47)
Bảng 13. Bảng quyết định ứng với nhánh trái của cây quyết định hình 4. - khai phá các luật trong các cơ sở dữ liệu
Bảng 13. Bảng quyết định ứng với nhánh trái của cây quyết định hình 4 (Trang 47)
Bảng 12. Bảng giá trị hàm power 1  của các siêu phẳng chọn theo thuộc tính (2)  Như  vậy siêu phẳng  được chọn sẽ  tương  ứng với nhát cắt ((2), 124) và cây  quyết định khi đó sẽ là: - khai phá các luật trong các cơ sở dữ liệu
Bảng 12. Bảng giá trị hàm power 1 của các siêu phẳng chọn theo thuộc tính (2) Như vậy siêu phẳng được chọn sẽ tương ứng với nhát cắt ((2), 124) và cây quyết định khi đó sẽ là: (Trang 47)
Bảng giá trị infomation gain của các thuộc tính của các đối tượng trong bảng 13 Và độ mạnh tương ứng của các siêu phẳng là:  - khai phá các luật trong các cơ sở dữ liệu
Bảng gi á trị infomation gain của các thuộc tính của các đối tượng trong bảng 13 Và độ mạnh tương ứng của các siêu phẳng là: (Trang 48)
Khi đó thì information gain sẽ được tính theo bảng sau:  (1) (2) (8)  - khai phá các luật trong các cơ sở dữ liệu
hi đó thì information gain sẽ được tính theo bảng sau: (1) (2) (8) (Trang 48)
Hình 6. Cây quyết định được thành lập sau khi thực hiện thuật toán. và từ cây quyết định trên ta có thể có được các luật sau:  - khai phá các luật trong các cơ sở dữ liệu
Hình 6. Cây quyết định được thành lập sau khi thực hiện thuật toán. và từ cây quyết định trên ta có thể có được các luật sau: (Trang 49)
Hình 6. Cây quyết định được thành lập sau khi thực hiện thuật toán. - khai phá các luật trong các cơ sở dữ liệu
Hình 6. Cây quyết định được thành lập sau khi thực hiện thuật toán (Trang 49)
Ta có bảng tổng kết sau:( số mẫu kiểm thử là 200). - khai phá các luật trong các cơ sở dữ liệu
a có bảng tổng kết sau:( số mẫu kiểm thử là 200) (Trang 60)
Bảng 16. Kết quả thử nghiêm chương trình. - khai phá các luật trong các cơ sở dữ liệu
Bảng 16. Kết quả thử nghiêm chương trình (Trang 60)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w