Tiểu luận Công nghệ tri thức
Tiểu luận Công nghệ tri thức Tramg 1/35 1. Tìm luật kết hợp (Mining Association Rules) 2. Phân lớp (Classification) 3. Gom nhóm (Clustering) ! !"# 1. Giới thiệu – các định nghĩa liên quan Các vấn đề về luật kết hợp Support Confidence 2. Tổng quan về các thuật toán tìm luật kết hợp 2.1 Thuật toán cơ sở 2.2 Các thuật toán tuần tự (Sequential) Thuật toán AIS Thuật toán SETM Thuật toán Apriori Thuật toán Apriori-TID Thuật toán Apriori-Hybrid Một số thuật toán khác: Off-line Candidate Determination (OCD) Partitioning Sampling Dynamic Itemset Counting (Brin1997a) CARMA (Continuous Association Rule Mining Algorithm) 2.2 Các thuật toán song song và phân tán Các thuật toán song song dữ liệu (Data Parallelism) Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 2/35 CD PDM DMA CCPD Các thuật toán song song tác vụ (Task Parallelism) DD IDD HPA PAR Các thuật toán khác Candidate Disstribution SH HD 3. So sánh các thuật toán " $$%!&' XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐOÁN MỘT SỐ BỆNH THÔNG THƯỜNG Ở TRẺ EM” ()*+, /012345367//689:;38<- :;=>3/6?0 34@-6A :;B;CD36EFG6H8 Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 3/35 IJ Nhóm sinh viên thực hiện xin gửi lời cảm ơn chân thành đến Thầy Phan Huy Khánh, Thầy đã tận tình truyền đạt những kiến thức cần thiết cho chúng em trong suốt thời gian môn học. Tuy đây là môn học mang tính trừu tượng cao nhưng qua các bài giảng cụ thể và ví dụ thực tiễn sinh động của Thầy, chúng em đã nắm bắt tốt nội dung môn học và đã có những định hướng chính xác hơn cho tương lai. Do thời gian và trình độ còn nhiều hạn chế cũng như số lượng lớn các thuật toán cần trình bày, chắc chắn khóa luận còn có chỗ sai sót. Nhóm chúng em rất mong nhận được ý kiến góp ý và động viên của Thầy cũng như tất cả các Anh/Chị và các bạn để tiểu luận được hoàn thiện hơn nữa. Xin chân thành cảm ơn! Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 4/35 K E3E;-; B:.@L Data Mining (khai phá dữ liệu) là việc sử dụng những công cụ phân tích dữ liệu phức tạp để tìm ra những tri thức chưa được biết đến, những mô hình thích hợp, những mối quan hệ trong những cơ sở dữ liệu lớn. Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu. Vì vậy, Data Mining không những tập hợp, quản lý dữ liệu mà còn phân tích, tiên đoán dữ liệu. Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database – KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn. Trong đó, khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu. Data Mining có thể thao tác trên dữ liệu ở dạng định lượng, có cấu trúc hoặc đa phương tiện. Những ứng dụng Data Mining có thể sử dụng các phương pháp khác nhau để khảo sát dữ liệu như: - Mô hình kết hợp: một sự kiện này được kết hợp với một sự kiện khác, ví dụ: mua bút và mua giấy. - Mô hình phân tích đường đi: một sự kiện này dẫn đến một sự kiện khác, ví dụ: đứa trẻ ra đời dẫn đến việc mua tã lót. - Mô hình phân lớp: xác định những mô hình mới. - Mô hình gom nhóm: tìm kiếm và ghi lại thành nhóm những sự kiện chưa khám phá trước đây, như vị trí địa lý, mức độ ưu tiên. - Mô hình dự báo: khám phá những mô hình mà con người có thể tiên đoán đúng về những sự kiện tương lai. Data Mining được xem là một 3;M- 34@-6 /NE O6<3 6;C- 34; 367/ P"-8QBR+.R ;1/8SR4*T348 /012+UB;CD 2. V-/6M/NEE3E;-; Data Mining được xem là những công cụ rất mạnh nhưng bản thân nó cũng không thể là ứng dụng độc lập. Data Mining đòi hỏi những chuyên gia phân tích và chuyên gia kỹ thuật có kỹ năng để phân tích và minh họa đầu ra dữ liệu. Vì vậy, những hạn chế của Data Mining liên quan đến dữ liệu hoặc con người hơn là về mặt công nghệ. Mặc dầu Data Mining có thể khám phá ra những mô hình và quan hệ trong cơ sở dữ liệu, nó không thể cho người dùng biết được giá trị và ý nghĩa của những mô hình đó, mà đòi hỏi người sử dụng phải tự xác định nó. Tương tự, giá trị của những mô hình được khám phá tùy thuộc vào nó được so sánh với “thế giới thực” như thế nào. Một hạn chế khác của Data Mining là khi nó xác định sự liên quan giữa hành vi và biến, nó không cần thiết phải xác định nguyên nhân của quan hệ. Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 5/35 W +X /NEE3E;-; Data Mining được ứng dụng cho nhiều mục đích khác nhau trong cả hai lĩnh vực chung và riêng. Những ngành như ngân hàng, bảo hiểm, y tế và buôn bán lẻ, Data Mining được sử dụng để giảm chi phí, nâng cao việc tìm kiếm thị trường và tăng cường khả năng buôn bán. Ví dụ, ngành bảo hiểm và ngân hàng sử dụng Data Mining để kiểm tra sự gian lận và giúp đỡ trong việc đánh giá những rủi ro. Sử dụng những dữ liệu của khách hàng qua nhiều năm, công ty có thể phát triển những mô hình để tiên đoán một khách hàng là có đáng tin cậy hay không hoặc một báo cáo về tai nạn có thể là gian lận và nên được điều tra nghiên cứu lại Trong lĩnh vực chung, những ứng dụng Data Mining không những được dùng như là một phương tiện để kiểm tra sự gian lận và lãng phí mà còn được dùng cho những mục đích như đo lường và cải tiến việc thực hiện chương trình. Data Mining cũng giúp đỡ chính phủ liên bang thu hồi hàng triệu đôla bị gian lận trong quĩ hỗ trợ chăm sóc người già, giúp đỡ bộ tư pháp đưa ra những mô hình tội phạm và phân phối nguồn lực thích hợp, trợ giúp tiên đoán sự thay đổi nhân khẩu và ước lượng tốt hơn về nhu cầu ngân sách, Gần đây, Data Mining được xem là công cụ quan trọng trong vấn đề an ninh quốc gia. Một số người đề nghị rằng Data Mining nên được sử dụng như là phương tiện xác định những hoạt động khủng bố như chuyển tiền và thông tin, và xác định định, đánh dấu những người khủng bố qua hồ sơ du lịch, di cư. Hai ứng dụng Data Mining đầu tiên gây được sự chú ý mạnh mẽ là dự án nhận biết thông tin khủng bố (Terrorism Information Awareness-TIA) và hệ quan sát hành khách trước màn hình được máy tính trợ giúp (Computer Assisted-Passenger Prescreening System II-CAPPS II). Cả 2 hệ thống này ra đời sau sự kiện 11-09-2001, ngày nước Mỹ bị bọn khủng bố tấn công, nhằm đảm bảo an toàn cho các chuyến bay trước nguy cơ khủng bố. Hiện tại, dự án TIA không được tiếp tục và CAPPS II được thay thế bởi hệ thống Chuyến bay an toàn (Security Flight). Y Z31[S\-=]S]E3E;-; a. Chất lượng dữ liệu Chất lượng dữ liệu là một thách thức lớn đối với Data Mining. Chất lượng dữ liệu được biết như là độ chính xác và toàn vẹn dữ liệu. Chất lượng dữ liệu cũng có thể bị ảnh hưởng bởi cấu trúc và sự nhất quán của dữ liệu đang được phân tích. Sự hiện diện của những bản ghi trùng nhau, sự thiếu dữ liệu chuẩn, dữ liệu được cập nhật cùng một lúc và lỗi do con người có thể tác động đáng kể đến hiệu quả của những kỹ thuật Data Mining, cụ thể là sự khác nhau tinh vi có thể tồn tại trên dữ liệu. Để cải tiến chất lượng dữ liệu, đôi khi phải tinh chế dữ liệu như loại bỏ các bản ghi trùng nhau, hình thức hóa các giá trị biểu diễn trong cơ sở dữ liệu (ví dụ: “no” được thay thế thành 0 hay N ), tính toán những điểm dữ liệu bị thiếu, loại bỏ những trường dữ liệu không cần thiết, b. Tương tác giữa các thành phần Đó là sự tương tác giữa các thành phần cơ sở dữ liệu và phần mềm Data Mining. Sự tương tác ám chỉ khả năng của một hệ thống máy tính và/hoặc dữ liệu để làm việc với những hệ thống khác, hoặc dữ liệu sử dụng những tiến trình hoặc tiêu chuẩn chung. Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 6/35 Đối với Data Mining, sự tương tác giữa các thành phần cơ sở dữ liệu và phần mềm Data Mining là quan trọng để cho phép việc tìm kiếm và phân tích nhiều cơ sở dữ liệu cùng một lúc, và đảm bảo cho sự tương thích của Data Mining với các hoạt động của những trạm làm việc khác nhau. c. Sứ mệnh cao cả (Mission Creep) Mission Creep là một trong những rủi ro hàng đầu của Data Mining. Mission creep được biết như là việc sử dụng dữ liệu cho những mục đích khác hơn là thu thập dữ liệu gốc, không quan tâm dữ liệu được cung cập là tùy chọn hay được thu thập qua những phương tiện khác nhau. d. Tính bảo mật (Privacy) Khái niệm vấn đề bảo mật liên quan đến mục đích thực sự của dự án và tiềm năng của ứng dụng Data Mining để phát triển xa hơn mục đích ban đầu của nó. Ví dụ, vài chuyên gia đề nghị ứng dụng Data Mining chống khủng bố cũng có thể ứng dụng để kết hợp với những loại tội phạm khác. Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 7/35 K@FBD^3GM36_OP;-; 118/;E3;8-DBR1T Nhiệm vụ của tìm luật kết hợp là tìm các mối quan hệ giữa tập các đối tượng (còn gọi là các phần tử ) trong một CSDL. Các mối quan hệ này được diễn tả bởi luật kết hợp và mỗi luật có hai phép đo: độ hỗ trợ (support) và độ tin cậy (Confidence). Tìm luật kết hợp rất thích hợp cho các các ứng dụng như crossing-marketing và attached mailing. Ngoài ra nó còn được áp dụng trong thiết kế catalog, add-on sale, store layout và phân đoạn khách hàng dựa trên đơn mua hàng. Bên cạnh lĩnh vực kinh doanh, tìm luật kết hợp còn được áp dụng trong các lĩnh vực khác như chẩn đoán y học, `6)-BaOPBE11;b;/E3;8-T Phân lớp trong Data Mining đã được công nhận là một phương pháp máy học hiệu quả hiện đang áp dụng trong nhiều mặt của khoa học thống kê, ghi nhận mẫu, lý thuết quyết định, máy học, mạng nơ-ron,… Ba bước xử lý chính của phân lớp: » Bước 1: xây dựng một mô hình sử dụng tập dữ liệu đã biết, được gọi là dữ liệu tập huấn (Training data) hay các mẫu (Sample). » Bước 2: đánh giá độ chính xác ước đoán của mô hình sử dụng dữ liệu thử (test data). » Bước 3: sử dụng mô hình để dự đoán dữ liệu chưa biết (nếu độ chính xác đã được chấp nhận). Chuẩn bị dữ liệu để phân lớp: » Làm sạch dữ liệu: xóa nhiễu và các giá trị thất lạc. » Kiểm tra không thích hợp: loại bỏ các thuộc tính dư thừa hoặc không thích hợp. » Chuyển đổi dữ liệu: dữ liệu được tổng quát hóa lên mức khái niệm cao hơn hoặc được chuẩn hóa. W8F-6cFPBD13R4; T Gom nhóm là nhóm tập các đối tượng vào những nhóm tương đồng nhau,đích nhắm là lớp có tính tương tự cao ở ngoài lớp và có tính tương tự thấp ở trong lớp. Ví dụ khám phá các nhóm khách hàng khác biệt, phân loại gen theo chức năng tương tự nhau, nhận diện nhóm người mua bảo hiểm xe ô-tô có tỉ lệ yêu cầu trung bình cao, Gom nhóm khác phân lớp (Classification) ở chỗ nó không xác định trước các lớp và cũng không đánh nhãn lớp cho tập mẫu tập huấn. Phân lớp là phương pháp học theo mẫu, học có giáo viên còn gom nhóm là học theo sự quan sát, không có giáo viên. Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 8/35 ! !"# K;a;36;CD/</=d-6 6eEB;f-gDE- Cho là tập của các phần tử. Một tập X = {i 1 , i 2 ,…,i k } ⊆ được gọi là một tập phần tử (itemset), hay tập k nếu nó chứa k phần tử. Một giao tác T trên là một bộ T có dạng T = (tid, I) trong đó tid là chỉ số định danh của giao tác và I là một itemset. Một cơ sở dữ liệu (CSDL) giao tác D trên là tập các giao tác trên . Một luật kết hợp là một thể hiện có dạng X ⇒ Y, trong đó X,Y ⊆ I là itemset và X ∩ Y = ∅ . X được gọi là số hạng đứng trước trong khi Y được gọi là vế thứ hai. Luật ở đây nghĩa là X xác định Y. Phủ của một tập X trong D gồm tập các định danh của giao tác trong D hố trợ X: cover(X,D) := {tid | (tid,I) ∈ D, X ⊆ I}. Độ hỗ trợ (support) của một tập X trong D là số giao tác có trong phủ của X trong D: support(X,D) := | cover(X,D) | Hay nói cách khác, độ hỗ trợ của X là tỷ số các giao tác T hỗ trợ tập phần tử X trong cơ sở dữ liệu D: support(X) = |{T ∈ D | X ⊆ T}| / |D|. Trong [Agrawal1993] [Cheung1996c], support(s) của một luật kết hợp là tỉ số (tính theo phần trăm) của các bản ghi có chứa X ∪ Y trên tổng số bản ghi của CSDL. Như vậy nếu ta nói, độ hỗ trợ của một luật là 5% thì có nghĩa là có 5% trên tổng số bản ghi có chứa X ∪ Y. Độ hỗ trợ của luật X ⇒ Y được định nghĩa như sau: support(X ⇒ Y) = support(X ∪ Y). Tính phổ biến của tập X trong D là khả năng xuất hiện của X trong một giao tác T ∈ D: frequency(X,D) := P(X) = support(X,D) / |D| Một tập phần tử được gọi là phổ biến nếu độ hỗ trợ của nó không nhỏ hơn trị tuyệt đối ngưỡng hỗ trợ tối thiểu (minimal support threshold) σ abs với 0 ≤ σ abs ≤ |D|. Khi làm việc với các tập phổ biến, thay vì sử dụng support của chúng ta dùng một khái niệm liên quan là ngưỡng phổ biến tối thiểu (minimal frequency threshold) σ rel với 0 ≤ σ rel ≤ 1. Hiển nhiên σ abs = [σ rel . |D| ]. Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 9/35 Độ tin cậy (confidence) hay độ chính xác (accuracy) của luật kết hợp X ⇒ Y trong D được định nghĩa như sau: confidence(X ⇒ Y ,D):=P(Y|X) = support(X ∪ Y,D) / support(X,D) Một luật được gọi là tin cậy (confident) nếu P(Y|X) vượt quá ngưỡng tin cậy tối thiểu γ với 0 ≤ γ ≤ 1. Trong [Agrawal1993] [Cheung1996c], confidence( α ) là tỉ số (tính theo phần trăm) của số bản ghi có chứa X ∪ Y trên tổng số bản ghi của CSDL có chứa X. Nghĩa là nếu nói độ tin cậy là 85% thì 85% số bản ghi chứa X cũng chứa Y. Tiên đề: Cho CSDL giao tác D trên , X,Y ⊆ là hai itemset, khi đó: X ⊆ Y ⇒ support(Y) ≤ support(X) Chứng minh: Điều này có được ngay từ cover(Y) ⊆ cover(X). (ĐPCM) `h gDE-S]/</36D^338<-3@FBD^3GM36_O K6D^338<-/012 Tìm các luật kết hợp từ một cơ sở dữ liệu bao gồm quá trình tìm tất cả các luật phù hợp với ngưỡng support và confidence do người dùng ấn định. Vấn đề này có thể được phân thành 2 vấn đề nhỏ hơn [Agrawal1994] như được trình bày trong 36D^338<-K. Thuật toán 1. Thuật toán cơ sở. Input I, D, s, α Output Các luật kết hợp thoả s và α Thuật toán Tìm mọi itemset xuất hiện có tần số lớn hơn hoặc bằng support s do người dùng ấn định. Phát sinh các luật thoả mãn độ tin cậy confidence α. Bước thứ nhất của thuật toán sẽ tìm các mục dữ liệu thường xuyên xuất hiện trong cơ sở dữ liệu thoả ngưỡng minsupp (các tập phổ biến). Các mục dữ liệu khác được gọi là small itemset – không phổ biến. Một nhận xét đáng chú ý là: nếu một tập các mục dữ liệu X không thoả support s thì các tập lớn hơn của nó (superset) cũng sẽ không thoả s và ngược lại, nếu X thoả s thì superset của X cũng thoả s. Bước thứ hai của thuật toán 1 sẽ tìm các luật kết hợp sử dụng tập phổ biến đã tìm được ở bước 1. Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 10/35 Xem xét ví dụ sau. 5+XKi Giả sử có một cơ sở dữ liệu nhỏ với bốn mục dữ liệu I={Bánh mì, Bơ, Trứng, Sữa} và có bốn giao dịch như trong bảng 1. Bảng 2 là các tập dữ liệu có thể có của I. Giả sử rằng minsupp và minconf lần lượt là 40% và 60%. Hãy xem bảng 3: đầu tiên ta phải tìm các luật thoả minsupp, sau đó phải xem xét các luật có độ tin cậy minconf tối thiểu là 60%. Các mục dữ liệu thoả mãn hai điều kiện trên là {Bánh mì, Bơ} và {Bơ, Trứng}. Minsupp cho mỗi mục dữ liệu đơn tối thiểu là 40% (xem bảng 2), vì thế các mục dữ liệu này là phổ biến. Độ tin cậy của các luật được trình bày trong bảng 3, dễ dàng thấy rằng luật (Bánh mì → Bơ) là hiển nhiên thoả. Tuy nhiên luật thứ hai (Bơ → Trứng) thì không thoả vì có minconf nhỏ hơn 60%. $H Kicơ sở dữ liệu cho ví dụ 1 4E-1E/3;8- X/+UB;CD T1 Bánh mì, Bơ, Trứng T2 Bơ, Trứng, Sữa T3 Bơ T4 Bánh mì, Bơ $H `iminsupp cho các tập phần tử của bảng 1 6;/6ji Large: phổ biến Small: không phổ biến X/+UB;CD kDOO843l1PmT E4.RnkFEBB Bánh mì 50 Large Bơ 100 Large Trứng 50 Large Sữa 25 Small Bánh mì, Bơ 50 Large Bánh mì, Trứng 25 Small Bánh mì, Sữa 0 Small Bơ, Trứng 50 Large Bơ, Sữa 25 Small Sữa, Trứng 25 Small Bánh mì, Bơ, Trứng 25 Small Bánh mì, Bơ, Sữa 0 Small Bánh mì, Trứng, Sữa 0 Small Bơ, Trứng, Sữa 25 Small Bánh mì, Bơ, Trứng, Sữa 0 Small $H Wicác luật thoả minconf ≥ 60% D^3 oZ3;-/^*PmT 6p-BD^3 Bánh mì → Bơ 100 Có Bơ → Bánh mì 50 Không Bơ → Trứng 50 Không Trứng → Bơ 100 Có Nhóm 4 [...]... hướng mở rộng của khoá luận là cài đặt tất cả các thuật toán nhằm đưa ra những so sánh chính xác hơn về hiệu năng của từng nhóm thuật toán Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 30/35 B – BÀI TẬP HỆ CHUYÊN GIA XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐOÁN MỘT SỐ BỆNH THÔNG THƯỜNG Ở TRẺ EM” I Xây dựng cơ sở tri thức cho bài toán Trong bài tập lớn này đã sử dụng cơ sở tri thức chủ yếu thông qua... những tri u chứng liên quan đến nhóm bệnh này Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 33/35 Giao diện lựa chọn các loại bệnh - Module hỏi đáp: Sau khi bệnh nhân lựa chọn một nhóm bệnh, chương trình sẽ đưa ra các câu hỏi về các tri u chứng liên quan đến nhóm bệnh này (hình 5) (được thiết kế theo cơ chế hỏi đáp) Giao diện hỏi đáp - Module kết luận: Sau khi trả lời (Có hoặc Không) đối với các tri u... Không) đối với các tri u chứng đưa ra, chương trình sẽ xử lý (theo cơ chế suy diễn) và đưa ra câu trả lời tương ứng ở form kết luận (hình 6) Giao diện kết luận IV KẾT QUẢ DEMO Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 34/35 Trong chương trình này chúng tôi đã kết hợp kiến thức từ các tài liệu chẩn đoán nhi khoa để xây dựng và giám định độ tin cậy của chương trình Tuy nhiên, chương trình vẫn còn một... phải đưa thêm hình ảnh và âm thanh để minh hoạ - Chưa có phần hỗ trợ việc bổ sung và thay đổi tri thức - Chưa dịch được file chương trình thành file chạy để người sử dụng có thể dùng độc lập với phần mềm SWI-Prolog Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 35/35 TÀI LIỆU THAM KHẢO [1] Bài giảng môn học “Cơ sở tri thức và ứng dụng” – GS-TSKH Hoàng Kiếm, ĐH QG tp HCM [2] Introduction to knowledge... chúng ta sẽ thảo luận về các thuật toán loại này 2.1 Thuật toán AIS AIS là thuật toán được công bố đầu tiên để nhận dạng tất cả các tập phổ biến trong một cơ sở dữ liệu giao tác [Agrawal1993] Nó tập trung vào sự nâng cao các CSDL để xử lý các câu hỏi hỗ trợ ra quyết định Thuật toán này là đích nhắm để khám phá các luật kết hợp chất lượng (qualitative rule) Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 12/35... hypergraph) để phân phối các tổ hợp 3.3 Lớp các thuật toán khác Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 23/35 Một số thuật toán song song khác không thể xếp vào hai mô hình trên, mặc dù có cùng ý tưởng nhưng chúng lại có những đặc tính khác biệt Ta xem xét qua các thuật toán sau Candidate Distribution Thuật toán Candidate Distribution (tạm dịch là phân phối tổ hợp) [Agrawal1996] cố gắng làm giảm... sinh ra nữa Lưu ý rằng hiện tượng tràn giao tiếp của việc loan truyền các phân vùng dữ liệu có thể được giảm bớt bằng giao tiếp không đồng bộ [Agrawal1996] IDD (Intelligent Data Distribution) Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 22/35 IDD là một thuật toán cải tiến từ DD [Han1997]: phân chia các tổ hợp xử lý chéo dựa trên phần tử đầu tiên của các tổ hợp đó Điều này có nghĩa là các tổ hợp có cùng... lĩnh vực Trí tuệ nhân tạo (trong đó có hệ chuyên gia) Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 32/35 Để chạy chương trình này, cần hệ điều hành Windows 98 trở lên và phải cài đặt phần mềm SWI-Prolog Để chạy chương trình thì mở file có tên menufile.pl Sau khi chạy chương trình, xuất hiện giao diện chính của chương trình như sau: Dựa vào kiến thức về y học, chương trình chia thành 2 mục chính: Mục dành... DMA [Cheung1996] DMA (Distributed Mining Algorithm) [Cheung1996] cũng dựa trên mô hình Data Parallelism với sự bổ sung là kỹ thuật tách tổ hợp và kỹ thuật giảm bớt thông điệp giao tiếp (communication message reduction technique) Nó sử dụng các local count của các tập phổ biến trên mỗi bộ xử lý để quyết định tính heavy (vừa phổ biến trên một Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 21/35 phần chia... với ngưỡng support thấp CARMA là hướng kỹ thuật tương tác người dùng trực tuyến có sự hồi đáp thích hợp nhất khi chuỗi giao tác được nhận từ mạng máy tính Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 27/35 Bảng 4: So sánh các thuật toán đã tri nh bày Thuật toán Duyệt Cấu trúc dữ liệu Chú thích AIS m+1 không xác định Thích hợp cho CSDL có số yếu tố trong tổ hợp thấp; Vế thứ hai chỉ đơn thuộc tính . Y} (3) Sau đó tính C k+1 bằng cách kiểm tra cả những điều kiện nằm trong công thức (1). Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 16/35 Ở đây, độ phức tạp tính toán C k+1 không phụ thuộc vào. :;B;CD36EFG6H8 Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 3/35 IJ Nhóm sinh viên thực hiện xin gửi lời cảm ơn chân thành đến Thầy Phan Huy Khánh, Thầy đã tận tình truyền đạt những kiến thức cần thiết. ơn! Nhóm 4 Tiểu luận Công nghệ tri thức Tramg 4/35 K E3E;-; B:.@L Data Mining (khai phá dữ liệu) là việc sử dụng những công cụ phân