TÌM HIỂU các THUẬT TOÁN tìm LUẬT kết hợp ỨNG DỤNG TRONG DATA MINING & hệ hỗ TRỢ CHẨN đoán một số BỆNH THÔNG THƯỜNG ở TRẺ EM

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	35
Dung lượng	538 KB

Nội dung

Tiểu luận Công nghệ tri thức Tramg 1/35 A – LÝ THUYẾT I. TÌM HIỂU TỔNG QUAN VỀ DATA MINING II. CÁC PHƯƠNG PHÁP MÁY HỌC ỨNG DỤNG TRONG DATA MINING 1. Tìm luật kết hợp (Mining Association Rules) 2. Phân lớp (Classification) 3. Gom nhóm (Clustering) III. THUẬT TOÁN TÌM LUẬT KẾT HỢP ỨNG DỤNG TRONG DATA MINING 1. Giới thiệu – các định nghĩa liên quan Các vấn đề về luật kết hợp Support Confidence 2. Tổng quan về các thuật toán tìm luật kết hợp 2.1 Thuật toán cơ sở 2.2 Các thuật toán tuần tự (Sequential) Thuật toán AIS Thuật toán SETM Thuật toán Apriori Thuật toán Apriori-TID Thuật toán Apriori-Hybrid Một số thuật toán khác:  Off-line Candidate Determination (OCD)  Partitioning  Sampling  Dynamic Itemset Counting (Brin1997a)  CARMA (Continuous Association Rule Mining Algorithm) 2.2 Các thuật toán song song và phân tán Các thuật toán song song dữ liệu (Data Parallelism) Thái Thị Bích Thủy – Nguyễn Thị Kim Ngân – Nguyễn Thị Diễm Thúy Tiểu luận Công nghệ tri thức Tramg 2/35  CD  PDM  DMA  CCPD Các thuật toán song song tác vụ (Task Parallelism)  DD  IDD  HPA  PAR Các thuật toán khác  Candidate Disstribution  SH  HD 3. So sánh các thuật toán IV. TỔNG KẾT B – BÀI TẬP HỆ CHUYÊN GIA XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐOÁN MỘT SỐ BỆNH THÔNG THƯỜNG Ở TRẺ EM” I. Xây dựng cơ sở trí thức cho bài toán II. Cài đặt chương trình DEMO Tài liệu tham khảo Thái Thị Bích Thủy – Nguyễn Thị Kim Ngân – Nguyễn Thị Diễm Thúy Tiểu luận Công nghệ tri thức Tramg 3/35 LỜI CẢM ƠN Nhóm sinh viên thực hiện xin gửi lời cảm ơn chân thành đến Thầy Phan Huy Khánh, Thầy đã tận tình truyền đạt những kiến thức cần thiết cho chúng em trong suốt thời gian môn học. Tuy đây là môn học mang tính trừu tượng cao nhưng qua các bài giảng cụ thể và ví dụ thực tiễn sinh động của Thầy, chúng em đã nắm bắt tốt nội dung môn học và đã có những định hướng chính xác hơn cho tương lai. Do thời gian và trình độ còn nhiều hạn chế cũng như số lượng lớn các thuật toán cần trình bày, chắc chắn khóa luận còn có chỗ sai sót. Nhóm chúng em rất mong nhận được ý kiến góp ý và động viên của Thầy cũng như tất cả các Anh/Chị và các bạn để tiểu luận được hoàn thiện hơn nữa. Xin chân thành cảm ơn!  Thái Thị Bích Thủy – Nguyễn Thị Kim Ngân – Nguyễn Thị Diễm Thúy Tiểu luận Công nghệ tri thức Tramg 4/35 A – LÝ THUYẾT I. TÌM HIỂU TỔNG QUAN VỀ DATA MINING 1. Data Mining là gì? Data Mining (khai phá dữ liệu) là việc sử dụng những công cụ phân tích dữ liệu phức tạp để tìm ra những tri thức chưa được biết đến, những mô hình thích hợp, những mối quan hệ trong những cơ sở dữ liệu lớn. Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu. Vì vậy, Data Mining không những tập hợp, quản lý dữ liệu mà còn phân tích, tiên đoán dữ liệu. Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database – KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn. Trong đó, khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu. Data Mining có thể thao tác trên dữ liệu ở dạng định lượng, có cấu trúc hoặc đa phương tiện. Những ứng dụng Data Mining có thể sử dụng các phương pháp khác nhau để khảo sát dữ liệu như: - Mô hình kết hợp: một sự kiện này được kết hợp với một sự kiện khác, ví dụ: mua bút và mua giấy. - Mô hình phân tích đường đi: một sự kiện này dẫn đến một sự kiện khác, ví dụ: đứa trẻ ra đời dẫn đến việc mua tã lót. - Mô hình phân lớp: xác định những mô hình mới. - Mô hình gom nhóm: tìm kiếm và ghi lại thành nhóm những sự kiện chưa khám phá trước đây, như vị trí địa lý, mức độ ưu tiên. - Mô hình dự báo: khám phá những mô hình mà con người có thể tiên đoán đúng về những sự kiện tương lai. Data Mining được xem là một tiến trình của phát hiện tri thức (Knowledge Discovery) trong cơ sở dữ liệu. 2. Hạn chế của Data Mining Data Mining được xem là những công cụ rất mạnh nhưng bản thân nó cũng không thể là ứng dụng độc lập. Data Mining đòi hỏi những chuyên gia phân tích và chuyên gia kỹ thuật có kỹ năng để phân tích và minh họa đầu ra dữ liệu. Vì vậy, những hạn chế của Data Mining liên quan đến dữ liệu hoặc con người hơn là về mặt công nghệ. Mặc dầu Data Mining có thể khám phá ra những mô hình và quan hệ trong cơ sở dữ liệu, nó không thể cho người dùng biết được giá trị và ý nghĩa của những mô hình đó, mà đòi hỏi người sử dụng phải tự xác định nó. Tương tự, giá trị của những mô hình được khám phá tùy thuộc vào nó được so sánh với “thế giới thực” như thế nào. Một hạn chế khác của Data Mining là khi nó xác định sự liên quan giữa hành vi và biến, nó không cần thiết phải xác định nguyên nhân của quan hệ. Thái Thị Bích Thủy – Nguyễn Thị Kim Ngân – Nguyễn Thị Diễm Thúy Tiểu luận Công nghệ tri thức Tramg 5/35 3. Ứng dụng của Data Mining Data Mining được ứng dụng cho nhiều mục đích khác nhau trong cả hai lĩnh vực chung và riêng. Những ngành như ngân hàng, bảo hiểm, y tế và buôn bán lẻ, Data Mining được sử dụng để giảm chi phí, nâng cao việc tìm kiếm thị trường và tăng cường khả năng buôn bán. Ví dụ, ngành bảo hiểm và ngân hàng sử dụng Data Mining để kiểm tra sự gian lận và giúp đỡ trong việc đánh giá những rủi ro. Sử dụng những dữ liệu của khách hàng qua nhiều năm, công ty có thể phát triển những mô hình để tiên đoán một khách hàng là có đáng tin cậy hay không hoặc một báo cáo về tai nạn có thể là gian lận và nên được điều tra nghiên cứu lại Trong lĩnh vực chung, những ứng dụng Data Mining không những được dùng như là một phương tiện để kiểm tra sự gian lận và lãng phí mà còn được dùng cho những mục đích như đo lường và cải tiến việc thực hiện chương trình. Data Mining cũng giúp đỡ chính phủ liên bang thu hồi hàng triệu đôla bị gian lận trong quĩ hỗ trợ chăm sóc người già, giúp đỡ bộ tư pháp đưa ra những mô hình tội phạm và phân phối nguồn lực thích hợp, trợ giúp tiên đoán sự thay đổi nhân khẩu và ước lượng tốt hơn về nhu cầu ngân sách, Gần đây, Data Mining được xem là công cụ quan trọng trong vấn đề an ninh quốc gia. Một số người đề nghị rằng Data Mining nên được sử dụng như là phương tiện xác định những hoạt động khủng bố như chuyển tiền và thông tin, và xác định định, đánh dấu những người khủng bố qua hồ sơ du lịch, di cư. Hai ứng dụng Data Mining đầu tiên gây được sự chú ý mạnh mẽ là dự án nhận biết thông tin khủng bố (Terrorism Information Awareness-TIA) và hệ quan sát hành khách trước màn hình được máy tính trợ giúp (Computer Assisted-Passenger Prescreening System II-CAPPS II). Cả 2 hệ thống này ra đời sau sự kiện 11-09-2001, ngày nước Mỹ bị bọn khủng bố tấn công, nhằm đảm bảo an toàn cho các chuyến bay trước nguy cơ khủng bố. Hiện tại, dự án TIA không được tiếp tục và CAPPS II được thay thế bởi hệ thống Chuyến bay an toàn (Security Flight). 4. Một số vấn đề về Data Mining a. Chất lượng dữ liệu Chất lượng dữ liệu là một thách thức lớn đối với Data Mining. Chất lượng dữ liệu được biết như là độ chính xác và toàn vẹn dữ liệu. Chất lượng dữ liệu cũng có thể bị ảnh hưởng bởi cấu trúc và sự nhất quán của dữ liệu đang được phân tích. Sự hiện diện của những bản ghi trùng nhau, sự thiếu dữ liệu chuẩn, dữ liệu được cập nhật cùng một lúc và lỗi do con người có thể tác động đáng kể đến hiệu quả của những kỹ thuật Data Mining, cụ thể là sự khác nhau tinh vi có thể tồn tại trên dữ liệu. Để cải tiến chất lượng dữ liệu, đôi khi phải tinh chế dữ liệu như loại bỏ các bản ghi trùng nhau, hình thức hóa các giá trị biểu diễn trong cơ sở dữ liệu (ví dụ: “no” được thay thế thành 0 hay N ), tính toán những điểm dữ liệu bị thiếu, loại bỏ những trường dữ liệu không cần thiết, b. Tương tác giữa các thành phần Đó là sự tương tác giữa các thành phần cơ sở dữ liệu và phần mềm Data Mining. Sự tương tác ám chỉ khả năng của một hệ thống máy tính và/hoặc dữ liệu để làm việc với những hệ thống khác, hoặc dữ liệu sử dụng những tiến trình hoặc tiêu chuẩn chung. Thái Thị Bích Thủy – Nguyễn Thị Kim Ngân – Nguyễn Thị Diễm Thúy Tiểu luận Công nghệ tri thức Tramg 6/35 Đối với Data Mining, sự tương tác giữa các thành phần cơ sở dữ liệu và phần mềm Data Mining là quan trọng để cho phép việc tìm kiếm và phân tích nhiều cơ sở dữ liệu cùng một lúc, và đảm bảo cho sự tương thích của Data Mining với các hoạt động của những trạm làm việc khác nhau. c. Sứ mệnh cao cả (Mission Creep) Mission Creep là một trong những rủi ro hàng đầu của Data Mining. Mission creep được biết như là việc sử dụng dữ liệu cho những mục đích khác hơn là thu thập dữ liệu gốc, không quan tâm dữ liệu được cung cập là tùy chọn hay được thu thập qua những phương tiện khác nhau. d. Tính bảo mật (Privacy) Khái niệm vấn đề bảo mật liên quan đến mục đích thực sự của dự án và tiềm năng của ứng dụng Data Mining để phát triển xa hơn mục đích ban đầu của nó. Ví dụ, vài chuyên gia đề nghị ứng dụng Data Mining chống khủng bố cũng có thể ứng dụng để kết hợp với những loại tội phạm khác. Thái Thị Bích Thủy – Nguyễn Thị Kim Ngân – Nguyễn Thị Diễm Thúy Tiểu luận Công nghệ tri thức Tramg 7/35 II. CÁC PHƯƠNG PHÁP MÁY HỌC ỨNG DỤNG TRONG DATA MINING 1. Tìm luật kết hợp (Mining Association Rules) Nhiệm vụ của tìm luật kết hợp là tìm các mối quan hệ giữa tập các đối tượng (còn gọi là các phần tử ) trong một CSDL. Các mối quan hệ này được diễn tả bởi luật kết hợp và mỗi luật có hai phép đo: độ hỗ trợ (support) và độ tin cậy (Confidence). Tìm luật kết hợp rất thích hợp cho các các ứng dụng như crossing-marketing và attached mailing. Ngoài ra nó còn được áp dụng trong thiết kế catalog, add-on sale, store layout và phân đoạn khách hàng dựa trên đơn mua hàng. Bên cạnh lĩnh vực kinh doanh, tìm luật kết hợp còn được áp dụng trong các lĩnh vực khác như chẩn đoán y học, 2. Phân lớp (Classification) Phân lớp trong Data Mining đã được công nhận là một phương pháp máy học hiệu quả hiện đang áp dụng trong nhiều mặt của khoa học thống kê, ghi nhận mẫu, lý thuết quyết định, máy học, mạng nơ-ron,… Ba bước xử lý chính của phân lớp: » Bước 1: xây dựng một mô hình sử dụng tập dữ liệu đã biết, được gọi là dữ liệu tập huấn (Training data) hay các mẫu (Sample). » Bước 2: đánh giá độ chính xác ước đoán của mô hình sử dụng dữ liệu thử (test data). » Bước 3: sử dụng mô hình để dự đoán dữ liệu chưa biết (nếu độ chính xác đã được chấp nhận). Chuẩn bị dữ liệu để phân lớp: » Làm sạch dữ liệu: xóa nhiễu và các giá trị thất lạc. » Kiểm tra không thích hợp: loại bỏ các thuộc tính dư thừa hoặc không thích hợp. » Chuyển đổi dữ liệu: dữ liệu được tổng quát hóa lên mức khái niệm cao hơn hoặc được chuẩn hóa. 3. Gom nhóm (Clustering) Gom nhóm là nhóm tập các đối tượng vào những nhóm tương đồng nhau,đích nhắm là lớp có tính tương tự cao ở ngoài lớp và có tính tương tự thấp ở trong lớp. Ví dụ khám phá các nhóm khách hàng khác biệt, phân loại gen theo chức năng tương tự nhau, nhận diện nhóm người mua bảo hiểm xe ô-tô có tỉ lệ yêu cầu trung bình cao, Gom nhóm khác phân lớp (Classification) ở chỗ nó không xác định trước các lớp và cũng không đánh nhãn lớp cho tập mẫu tập huấn. Phân lớp là phương pháp học theo mẫu, học có giáo viên còn gom nhóm là học theo sự quan sát, không có giáo viên. Thái Thị Bích Thủy – Nguyễn Thị Kim Ngân – Nguyễn Thị Diễm Thúy Tiểu luận Công nghệ tri thức Tramg 8/35 III. THUẬT TOÁN TÌM LUẬT KẾT HỢP ỨNG DỤNG TRONG DATA MINING III.1. Giới thiệu – các định nghĩa liên quan Cho là tập của các phần tử. Một tập X = {i 1 , i 2 ,…,i k } ⊆ được gọi là một tập phần tử (itemset), hay tập k nếu nó chứa k phần tử. Một giao tác T trên là một bộ T có dạng T = (tid, I) trong đó tid là chỉ số định danh của giao tác và I là một itemset. Một cơ sở dữ liệu (CSDL) giao tác D trên là tập các giao tác trên . Một luật kết hợp là một thể hiện có dạng X ⇒ Y, trong đó X,Y ⊆ I là itemset và X ∩ Y = ∅ . X được gọi là số hạng đứng trước trong khi Y được gọi là vế thứ hai. Luật ở đây nghĩa là X xác định Y. Phủ của một tập X trong D gồm tập các định danh của giao tác trong D hố trợ X: cover(X,D) := {tid | (tid,I) ∈ D, X ⊆ I}. Độ hỗ trợ (support) của một tập X trong D là số giao tác có trong phủ của X trong D: support(X,D) := | cover(X,D) | Hay nói cách khác, độ hỗ trợ của X là tỷ số các giao tác T hỗ trợ tập phần tử X trong cơ sở dữ liệu D: support(X) = |{T ∈ D | X ⊆ T}| / |D|. Trong [Agrawal1993] [Cheung1996c], support(s) của một luật kết hợp là tỉ số (tính theo phần trăm) của các bản ghi có chứa X ∪ Y trên tổng số bản ghi của CSDL. Như vậy nếu ta nói, độ hỗ trợ của một luật là 5% thì có nghĩa là có 5% trên tổng số bản ghi có chứa X ∪ Y. Độ hỗ trợ của luật X ⇒ Y được định nghĩa như sau: support(X ⇒ Y) = support(X ∪ Y). Tính phổ biến của tập X trong D là khả năng xuất hiện của X trong một giao tác T ∈ D: frequency(X,D) := P(X) = support(X,D) / |D| Một tập phần tử được gọi là phổ biến nếu độ hỗ trợ của nó không nhỏ hơn trị tuyệt đối ngưỡng hỗ trợ tối thiểu (minimal support threshold) σ abs với 0 ≤ σ abs ≤ |D|. Khi làm việc với các tập phổ biến, thay vì sử dụng support của chúng ta dùng một khái niệm liên quan là ngưỡng phổ biến tối thiểu (minimal frequency threshold) σ rel với 0 ≤ σ rel ≤ 1. Hiển nhiên σ abs = [σ rel . |D| ]. Thái Thị Bích Thủy – Nguyễn Thị Kim Ngân – Nguyễn Thị Diễm Thúy Tiểu luận Công nghệ tri thức Tramg 9/35 Độ tin cậy (confidence) hay độ chính xác (accuracy) của luật kết hợp X ⇒ Y trong D được định nghĩa như sau: confidence(X ⇒ Y ,D):=P(Y|X) = support(X ∪ Y,D) / support(X,D) Một luật được gọi là tin cậy (confident) nếu P(Y|X) vượt quá ngưỡng tin cậy tối thiểu γ với 0 ≤ γ ≤ 1. Trong [Agrawal1993] [Cheung1996c], confidence( α ) là tỉ số (tính theo phần trăm) của số bản ghi có chứa X ∪ Y trên tổng số bản ghi của CSDL có chứa X. Nghĩa là nếu nói độ tin cậy là 85% thì 85% số bản ghi chứa X cũng chứa Y. Tiên đề: Cho CSDL giao tác D trên , X,Y ⊆ là hai itemset, khi đó: X ⊆ Y ⇒ support(Y) ≤ support(X) Chứng minh: Điều này có được ngay từ cover(Y) ⊆ cover(X). (ĐPCM)  III.2. Tổng quan về các thuật toán tìm luật kết hợp 1. Thuật toán cơ sở Tìm các luật kết hợp từ một cơ sở dữ liệu bao gồm quá trình tìm tất cả các luật phù hợp với ngưỡng support và confidence do người dùng ấn định. Vấn đề này có thể được phân thành 2 vấn đề nhỏ hơn [Agrawal1994] như được trình bày trong thuật toán 1. Thuật toán 1. Thuật toán cơ sở. Input I, D, s, α Output Các luật kết hợp thoả s và α Thuật toán  Tìm mọi itemset xuất hiện có tần số lớn hơn hoặc bằng support s do người dùng ấn định.  Phát sinh các luật thoả mãn độ tin cậy confidence α. Bước thứ nhất của thuật toán sẽ tìm các mục dữ liệu thường xuyên xuất hiện trong cơ sở dữ liệu thoả ngưỡng minsupp (các tập phổ biến). Các mục dữ liệu khác được gọi là small itemset – không phổ biến. Một nhận xét đáng chú ý là: nếu một tập các mục dữ liệu X không thoả support s thì các tập lớn hơn của nó (superset) cũng sẽ không thoả s và ngược lại, nếu X thoả s thì superset của X cũng thoả s. Bước thứ hai của thuật toán 1 sẽ tìm các luật kết hợp sử dụng tập phổ biến đã tìm được ở bước 1. Thái Thị Bích Thủy – Nguyễn Thị Kim Ngân – Nguyễn Thị Diễm Thúy Tiểu luận Công nghệ tri thức Tramg 10/35 Xem xét ví dụ sau. Ví dụ 1: Giả sử có một cơ sở dữ liệu nhỏ với bốn mục dữ liệu I={Bánh mì, Bơ, Trứng, Sữa} và có bốn giao dịch như trong bảng 1. Bảng 2 là các tập dữ liệu có thể có của I. Giả sử rằng minsupp và minconf lần lượt là 40% và 60%. Hãy xem bảng 3: đầu tiên ta phải tìm các luật thoả minsupp, sau đó phải xem xét các luật có độ tin cậy minconf tối thiểu là 60%. Các mục dữ liệu thoả mãn hai điều kiện trên là {Bánh mì, Bơ} và {Bơ, Trứng}. Minsupp cho mỗi mục dữ liệu đơn tối thiểu là 40% (xem bảng 2), vì thế các mục dữ liệu này là phổ biến. Độ tin cậy của các luật được trình bày trong bảng 3, dễ dàng thấy rằng luật (Bánh mì → Bơ) là hiển nhiên thoả. Tuy nhiên luật thứ hai (Bơ → Trứng) thì không thoả vì có minconf nhỏ hơn 60%. Bảng 1: cơ sở dữ liệu cho ví dụ 1 Transaction ID Mục dữ liệu T1 Bánh mì, Bơ, Trứng T2 Bơ, Trứng, Sữa T3 Bơ T4 Bánh mì, Bơ Bảng 2: minsupp cho các tập phần tử của bảng 1 Ghi chú: Large: phổ biến Small: không phổ biến Mục dữ liệu Support, s (%) Large/Small Bánh mì 50 Large Bơ 100 Large Trứng 50 Large Sữa 25 Small Bánh mì, Bơ 50 Large Bánh mì, Trứng 25 Small Bánh mì, Sữa 0 Small Bơ, Trứng 50 Large Bơ, Sữa 25 Small Sữa, Trứng 25 Small Bánh mì, Bơ, Trứng 25 Small Bánh mì, Bơ, Sữa 0 Small Bánh mì, Trứng, Sữa 0 Small Bơ, Trứng, Sữa 25 Small Bánh mì, Bơ, Trứng, Sữa 0 Small Bảng 3: các luật thoả minconf ≥ 60% Luật Độ tin cậy (%) Chọn luật Bánh mì → Bơ 100 Có Bơ → Bánh mì 50 Không Bơ → Trứng 50 Không Trứng → Bơ 100 Có Thái Thị Bích Thủy – Nguyễn Thị Kim Ngân – Nguyễn Thị Diễm Thúy [...]... XÂY DỰNG HỆ CHUYÊN GIA “HỆ HỖ TRỢ CHẨN ĐOÁN MỘT SỐ BỆNH THÔNG THƯỜNG Ở TRẺ EM I Xây dựng cơ sở trí thức cho bài toán Trong bài tập lớn này đã sử dụng cơ sở tri thức chủ yếu thông qua việc phân tích các tài liệu: “Những con đường chẩn đoán trong y học lâm sàng” và “Hướng dẫn xử trí lồng ghép các bệnh thường gặp ở trẻ em Dựa vào các phác đồ về các bệnh, ta xây dựng các luật có dạng: Luật i:... xây dựng các luật có dạng: Luật i: Nếu < triệu chứng1, triệu chứng2 thỏa> ( i= 1 n ) Thì Dưới đây là nhóm luật của các bệnh liên quan đến bệnh Sốt ở trẻ em (ứng với phác đồ về các bệnh liên quan đến bệnh sốt ở trẻ em ở Hình 4) Luật 1: Luật 2: Luật 3: Luật 4: Luật 5: Luật 6: Luật 7: Luật 8: Luật 9: Luật 10: Luật 11: Luật 12: Luật 13: Nếu Thì Nếu Thì Nếu Thì Nếu Thì Nếu Thì...Tiểu luận Công nghệ tri thức Tramg 11/35 Việc tính toán các mục dữ liệu phổ biến rất tốn kém [Agrawal 1994] Tuy nhiên, có một thuật toán trực tiếp tìm các luật kết hợp như thuật toán 2 sau đây (thuật toán này đã được trình bày trong [Agrawal1994]) Thuật toán 2 – Tìm các luật kết hợp dựa vào tập phổ biến đã cho Input I, D, s, α, L Output Các luật kết hợp thoả s và α Thuật toán  Tìm tất cả các tập con x... đích ban đầu đặt ra nên trong đề tài này chỉ giới hạn một số bệnh thường gặp ở trẻ em với tập luật được chia thành các lớp con Lớp các luật xác định các chứng bệnh liên quan đến bệnh “sốt ở trẻ em , “ho ở trẻ em , Chương trình được viết bằng ngôn ngữ SWI-Prolog, đây là ngôn ngữ lập trình logic có cơ chế suy diễn thường được sử dụng trong lĩnh vực Trí tuệ nhân tạo (trong đó có hệ chuyên gia) Thái Thị... [1] Tổng quan về Data Mining Phần này trình bày ngắn gọn các lý thuyết cơ bản nhất về khai mỏ dữ liệu nhằm tạo mục đích xác định hướng đi cho phần tiếp theo [2] Các thuật toán tìm luật kết hợp Tìm hiểu các thuật toán tìm luật kết hợp, những ưu điểm và hạn chế của chúng Các thuật toán được trình bày hầu hết là lớp thuật toán tìm kiếm theo chiều rộng BFS (Breadth First Search – như các thuật giải theo... [Algrawal1994] [Cheung1996c] [Klemettien1994] Phần tiếp theo sẽ trình bày các thuật toán này 2 Các thuật toán tuần tự (Sequential Algorithm) Phần này sẽ trình bày một cách tổng quát về các thuật toán đã có để tìm luật kết hợp Hầu hết các thuật toán được dùng để nhận dạng các tập phổ biến được phân thành 2 lớp: tuần tự và song song Trong hầu hết các trường hợp, các thuật toán này giả thiết rằng các tập phần tử được... Nếu ban sởi và khó thở Trẻ bị sởi kèm viêm phổi ban sởi và tiếng ran Trẻ bị sởi kèm viêm phổi ban sởi Trẻ bị bệnh sởi khó thở , tiếng ran, không ỉa chảy Trẻ bị viêm phổi thóp phòng Trẻ bị viêm màng não cứng gáy ở trẻ lớn hơn Trẻ bị viêm màng não apxe, ở cổ, nóng và đau Trẻ bị nhiễm khuẩn apxe, ở cổ Trẻ bị nghi lao apxe Trẻ bị nhiễm khuẩn mủ ở amyđan Trẻ bị viêm Amyđan cấp tai xuất tiết, đau Trẻ bị viêm... Tất cả các thuật toán song song để tìm luật kết hợp đều dựa trên thuật toán tuần tự Apriori Khi Apriori được cải tiến bởi nhiều thuật toán khác, đặc biệt khi giảm số lượng CSDL cần duyệt, các thuật toán song song đã cải tiến được trông chờ em lại những thành quả tốt đẹp hơn 4 So sánh các thuật toán Các tiêu chí so sánh:  Không gian: được đánh giá bằng số lượng tối đa các tổ hợp được thống kê trong. .. tất cả các tập con của mỗi giao tác thì chỉ cần tiến hành kiểm tra như trên Để sự phân tán của các tổ hợp cân bằng, thuật toán sử dụng kỹ thuật nén nhị phân (bin-packing technique) nhằm phân phối các tổ hợp Đầu tiên, IDD tính số tổ hợp bắt đầu bằng một phần tử đặc biệt, sau đó sử dụng thuật toán nén nhị phân để chỉ định các phần tử cho các vùng tổ hợp sao cho số lượng các tổ hợp là như nhau Thuật toán. .. thuật toán dựa trên tính chính xác của số lượng các tổ hợp “đúng” mà nó phát hiện Như đã đề cập ở trên, mọi thuật toán sử dụng các tập phổ biến của một (hoặc nhiều) lần duyệt trước nhằm phát sinh các tập tổ hợp Các tập tổ hợp này được đưa vào bộ nhớ chính để xác định tập tổ hợp các phần tử và tập này một lần nữa được nạp vào bộ nhớ để nhận được các support của chúng Khi không đủ bộ nhớ, các thuật toán . về các thuật toán tìm luật kết hợp 1. Thuật toán cơ sở Tìm các luật kết hợp từ một cơ sở dữ liệu bao gồm quá trình tìm tất cả các luật phù hợp với ngưỡng. MÁY HỌC ỨNG DỤNG TRONG DATA MINING 1. Tìm luật kết hợp (Mining Association Rules) Nhiệm vụ của tìm luật kết hợp là tìm các mối quan hệ giữa tập các đối

Ngày đăng: 06/01/2014, 14:55

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1] Bài giảng môn học “Cơ sở trí thức và ứng dụng” – GS-TSKH Hoàng Kiếm, ĐH QG tp HCM

Sách, tạp chí

Tiêu đề:	Cơ sở trí thức và ứng dụng” – "GS-TSKH Hoàng Kiếm

[2] Introduction to knowledge discovery and data mining – Dr. Ho Tu Bao, Institute of Information Technology VietNam

Sách, tạp chí

Tiêu đề:	Ho Tu Bao

[3] Association Rule Mining: A survey – Qiankun Zhao and Sourav S. Bhowmick, Nanyang Technological University, Singapor

Sách, tạp chí

Tiêu đề:	Qiankun Zhao" and "Sourav S. Bhowmick

[5] Fast Algorithms for Mining Association Rules - Rakesh Agrawal :: Ramakrishnan Srikant, IBM Almaden Research Center, 650 Harry Road, San Jose, CA 95120

Sách, tạp chí

Tiêu đề:	Rakesh Agrawal :: Ramakrishnan Srikant

[6] Survey oh Frequent Pattern Mining - Bart Goethals, HIIT Basic Research Unit, Department of Computer Science, University of Helsinki Findland

Sách, tạp chí

Tiêu đề:	Bart Goethals

[7] Algorithms for Association Rules - Markus Hegland, Australian National University, Canberra ACT 0200, Australia

Sách, tạp chí

Tiêu đề:	Markus Hegland

[8] Data Mining of Association Rules and the Process of Knowledge Discovery in Databases - Jochen Hipp, Ulrich Güntzer, and Gholamreza Nakhaeizadeh

Sách, tạp chí

Tiêu đề:	Jochen Hipp, Ulrich Güntzer", and

[11] Lập trình Turbo Prolog 2.0- Phan Trương Dần - Nhà xuất bản khoa học và kỹ thuật, 1998

Sách, tạp chí

Tiêu đề:	Phan Trương Dần
Nhà XB:	Nhà xuất bản khoa học và kỹ thuật

[13] Những con đường chẩn đoán y học - B.J.ESSEX, nhà xuất bản đào tạo y học, HN, 1992

Sách, tạp chí

Tiêu đề:	B.J.ESSEX
Nhà XB:	nhà xuất bản đào tạo y học

[9] Hệ chuyên gia, Đỗ Trung Tuấn, nhà xuất bản Giáo Dục, 1999

Khác

[10] Hướng dẫn xử trí lồng ghép các bệnh thường gặp ở trẻ em

Khác

[12] Lập trình logic trong Prolog - NXB Đại học quốc gia Hà Nội 2004

Khác

Xem thêm