Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 42 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
42
Dung lượng
1,64 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƢƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG ________________ BÀI THU HOẠCH MÔN HỌC KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU ĐỀ TÀI: LUẬT KẾT HỢP Giảng viên hướng dẫn: PGS.TS Đỗ Phúc Học viên thực hiện: Lƣơng Trí Quân MSHV: CH1101125 TP. HCM, năm 2012 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu Lương Trí Quân Trang 2 MỤC LỤC CHƢƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG 1 MỞ ĐẦU 4 CHƢƠNG 1:TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 5 I. Phát hiện tri thức và khai phá dữ liệu 5 II. Một số quan niệm về khai phá dữ liệu 6 III. Nhiệm vụ của khai phá dữ liệu 7 IV. Triển khai việc khai phá dữ liệu 8 V. Quá trình phát hiện tri thức từ cơ sở dữ liệu 9 VI. Kiến trúc của hệ thống khai phá dữ liệu 12 VII. Các kỹ thuật khai phá dữ liệu 13 1. Phân cụm dữ liệu 14 2. Phân lớp dữ liệu 14 3. Phƣơng pháp hồi quy 15 4. Khai phá luật kết hợp 15 VIII. Một số ứng dụng khai phá dữ liệu 16 IX. Những khó khăn trong khai phá dữ liệu 17 CHƢƠNG 2: LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 20 I. Xem xét bài toán 20 II. Luật kết hợp 20 1. Độ hỗ trợ 21 2. Độ tin cậy 22 3. Tập hợp 23 III. Một số hƣớng tiếp cận trong khai phá luật kết hợp 26 CHƢƠNG 3: MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP 28 I. Thuật toán AIS 28 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu Lương Trí Quân Trang 3 II. Thuật toán SETM 29 III. Thuật toán Apriori 30 IV. Thuật toán Apriori-TID 38 V. Thuật toán Apriori-Hybrid 39 VI. Thuật toán PARTITION [Savasere 95] 40 CÀI ĐẶT CHƢƠNG TRÌNH TÌM LUẬT KẾT HỢP THEO THUẬT TOÁN APRIORI 41 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu Lương Trí Quân Trang 4 MỞ ĐẦU Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ thông tin đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một cách nhanh chóng. Bên cạnh đó, việc tin học hóa một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu cần lưu trữ khổng lồ. Hàng triệu cơ sở dữ liệu đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lý…, trong đó có nhiều cơ sở dữ liệu cực lớn tính bằng đơn vị Gigabyte, Terabyte. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích. Từ đó, các kỹ thuật khai phá dữ liệu đã trở thành một lĩnh vực thời sự của nền CNTT thế giới hiện nay nói chung và Việt Nam nói riêng. Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng, bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn. Mục đích đề tài là tìm hiểu về các kỹ thuật khai phá dữ liệu, các vấn đề liên quan đến khai phá luật kết hợp nhằm phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu đồng thời viết ứng dụng minh họa tìm luật kết hợp. Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu Lương Trí Quân Trang 5 CHƢƠNG 1:TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU I. Phát hiện tri thức và khai phá dữ liệu Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu ngày càng phát triển tạo điều kiện cho các đơn vị thu thập dữ liệu tốt hơn. Đặc biệt trong lĩnh vực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng của việc nắm bắt và xử lý thông tin, nhằm giúp các chủ doanh nghiệp trong việc vạch ra các chiến lược kinh doanh kịp thời mang lại những lợi nhuận to lớn cho doanh nghiệp của mình. Tất cả lí do đó khiến cho các cơ quan, đơn vị và các doanh nghiệp đã tạo ra một lượng dữ liệu khổng lồ. Khi lưu trữ các dữ liệu khổng lồ như vậy thì chúng ta thấy rằng chắc chắn chúng phải chứa những giá trị nhất định nào đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó. Mặt khác, trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining). Thông thường chúng ta coi dữ liệu như một dãy các bit, hoặc các số và các ký hiệu, hoặc các “đối tượng” với một ý nghĩa nào đó khi được gửi cho một chương trình dưới một dạng nhất định. Chúng ta sử dụng các bit để đo lường các thông tin và xem nó như là các dữ liệu đã được lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu. Chúng ta có thể xem tri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng. Các mối quan hệ này có thể được hiểu Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu Lương Trí Quân Trang 6 ra, có thể được phát hiện, hoặc có thể được học. Nói cách khác, tri thức có thể được coi là dữ liệu có độ trừu tượng và tổ chức cao. Phát hiện tri thức trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được. Còn khai thác dữ liệu là một bước trong qui trình phát hiện tri thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Nói một cách khác, mục đích của phát hiện tri thức và khai phá dữ liệu chính là tìm ra các mẫu và/hoặc các mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi hàng “núi” dữ liệu. Nhiều người coi khai phá dữ liệu và khám phá tri thức trong cơ sở dữ liệu là như nhau. Tuy nhiên trên thực tế, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình phát hiện tri thức trong cơ sở dữ liệu. II. Một số quan niệm về khai phá dữ liệu Khai phá dữ liệu là tập hợp các thuật toán nhằm chiết xuất những thông tin có ích từ kho dữ liệu khổng lồ. Khai phá dữ liệu được định nghĩa như một quá trình phát hiện mẫu trong dữ liệu. Quá trình này có thể là tự động hay bán tự động, song phần nhiều là bán tự động. Các mẫu được phát hiện thường hữu ích theo nghĩa: các mẫu mang lại cho người sử dụng một lợi thế nào đó, thường là lợi thế về kinh tế. Khai phá dữ liệu giống như quá trình tìm ra và mô tả mẫu dữ liệu. Dữ liệu như là một tập hợp của các vật hay sự kiện, còn đầu ra của quá trình khai phá dữ liệu như là những dự báo của các vật hay sự kiện mới. Khai phá dữ liệu được áp dụng trong các cơ sở dữ liệu quan hệ, giao dịch, cơ sở dữ liệu không gian, cũng như các kho dữ liệu phi cấu trúc, mà điển hình là World Wide Web. Khám phá tri thức là quá trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính chất: Đúng đắn, mới, khả ích và có thể hiểu được. Khai phá dữ liệu là một bước trong quá trình khám phá tri thức bao gồm các thuật toán khai Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu Lương Trí Quân Trang 7 phá dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu và các mô hình trong dữ liệu. Tóm lại, mục đích của khám phá tri thức và khai phá dữ liệu là tìm ra các mẫu hoặc mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị khuất bởi số lượng dữ liệu qúa khổng lồ. III. Nhiệm vụ của khai phá dữ liệu Các bài toán liên quan đến khai phá dữ liệu về bản chất là các bài tothống kê. Điểm khác biệt giữa các kỹ thuật khai phá dữ liệu và các công phục vụ tính toán thống kê mà chúng ta đã biết là ở khối lượng cần tính toán.Một khi dữ liệu đã trở nên khổng lồ thì những khâu như: thu thập dữ liệu, tiền xử lý và xử lý dữ liệu đều đòi hỏi phải được tự động hóa. Tuy nhiên ở cô đoạn cuối cùng, việc phân tích kết quả sau khi đã khai phá dữ liệu vẫn luôn công việc của con người. Do là một lĩnh vực đa ngành, khai phá dữ liệu thu hút các lĩnh vực khoa học khác như trí tuệ nhân tạo, cơ sở dữ liệu, hiển thị dữ liệu, marketing, toán học, vận trù học, tin sinh học, nhận dạng mẫu, tính toán thống kê … Điều mà khai phá dữ liệu có thể làm rất tốt là phát hiện ra những giả thuyết mạnh trước khi sử dụng những công cụ tính toán thống kê. Mô hình dự báo sử dụng kỹ thuật phân cụm (Clustering) để chia nhóm các sự vật, sự kiện sau đó rút ra các luật nhằm tìm ra đặc trưng cho mỗi nhóm và cuối cùng đề nghị một mô hình. Ví dụ, những bạn đọc đăng ký dài hạn của một tạp chí có thể phân nhóm dựa theo nhiều tiêu chí khác nhau (lứa tuổi, giới tính, thu nhập…), sau đó tạp chí căn cứ vào đặc trưng riêng của từng nhóm để đề ra mức phí thu trong năm sao cho phù hợp nhất. Từ đó chúng ta thấy, những nhiệm vụ cơ bản nhất của khai phá dữ liệu là: Phân cụm, phân loại, phân nhóm, phân lớp: Có nhiệm vụ là trả lời câu hỏi: Một dữ liệu mới thu thập sẽ thuộc về nhóm nào? Quá trình này thường được thực hiện một cách tự động. Khai phá luật kết hợp: Có nhiệm vụ là phát hiện ra những mối quan hệ giống nhâu của các bản ghi giao dịch. Luật kết hợp X=>Y có dạng tổng quát là: Nếu một giao dịch đã sở hữu các tính chất X thì đồng thời nó cũng sở hữu các tính chất Y.Ở một mức độ nào đó, khai phá luật kết hợp được hiểu theo nghĩa: Biết trước các tính chât X, vậy các tính chất Y là những tính chất nào? Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu Lương Trí Quân Trang 8 Lập mô hình dự báo: Bao gồm hai nhiệm vụ hoặc là phân nhóm dư liệu vào một hay nhiều lớp dữ liệu đã xác định từ trước, hoặc là sử dụng các trường đã cho trong một cơ sở dữ liệu để dự báo sự xuất hiện (hoặc không xuất hiện) của các trường hợp khác. Phân tích đối tƣợng ngoài cuộc: Một cơ sở dữ liệu có thể có thể chứa các đối tượng không tuân theo mô hình dữ liệu. Các đối tượng dữ liệu như vậy gọi là các đối tượng ngoài cuộc. Hầu hết các phương pháp khai phá dữ liệu đều coi các đối tượng ngoài cuộc là nhiễu và loại bỏ chúng. Tuy nhiên trong một số ứng dụng, chẳng hạn như phát hiện nhiễu thì sự kiện hiếm khi xảy ra lại được chú ý hơn những gì thường xuyên gặp phải. Sự phân tích dữ liệu ngoài cuộc được coi như là phai phá các đối tượng ngoài cuộc. Một số phương pháp được ứng dụng để phát hiện đối tượng ngoài cuộc: Sử dụng các hình thức kiểm tra mang tính thống kê trên cơ sở một phân phối dữ liệu hay một mô hình xác suất cho dữ liệu, dùng các độ đo khoảng cách mà theo đó các đối tượng có một khoảng cách đáng kể đến cụm bất kỳ khác được coi là đối tượng ngoài cuộc, dùng các phương pháp dựa trên độ lệch để kiểm tra sự khác nhau trong những đặc trưng chính của các nhóm đối tượng. Phân tích sự tiến hóa: Phân tích sự tiến hóa thực hiện việc mô tả và mô hình hóa các quy luật hay khuynh hướng của những đối tượng mà ứng xử của chúng thay đổi theo thời gian. Phân tích sự tiến hóa có thể bao gồm cả đặc trưng hóa, phân biệt, tìm luật kết hợp, phân lớp hay phân cụm dữ liệu liên quan đến thời gian, phân tích dữ liệu theo chuỗi thời gian, so sánh mẫu theo chu kỳ và phân tích dữ liệu dựa trên tính tương tự. IV. Triển khai việc khai phá dữ liệu Nhìn chung, việc triển khai quá trình khai phá dữ liệu theo 5 bước: Bƣớc 1: Xác định rõ mục tiêu thương mại cần khai phá. Bƣớc 2: Chuẩn bị dữ liệu (Thu thập, tiền xử lý, chuyển đổi khuôn dạng dữ liệu nếu thấy cần thiết). Bƣớc 3: Khai phá dữ liệu (Chọn thuật toán thích hợp). Bƣớc 4: Phân tích kết quả thu được (Xem có gì thú vị không?). Bƣớc 5: Tiêu hóa các tri thức thu lượm được (Nhằm đề ra kế hoạch khai Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu Lương Trí Quân Trang 9 thác các thông tin mới). V. Quá trình phát hiện tri thức từ cơ sở dữ liệu Quá trình phát hiện tri thức có thể chia thành các bước như sau: Bƣớc 1: Làm sạch dữ liệu (Data cleaning): Loại bỏ dữ liệu nhiễu hoặc dữ liệu không thích hợp. Bƣớc 2: Tích hợp dữ liệu (Data integration): Tích hợp dữ liệu từ các nguồn khác nhau. Bƣớc 3: Chọn dữ liệu (Data Selection): Chọn những dữ liệu liên quan trực tiếp đến nhiệm vụ. Bƣớc 4: Chuyển đổi dữ liệu (Data Transformation): Chuyển dữ liệu về những dạng phù hợp cho việc khai phá. Bƣớc 5: Khai phá dữ liệu (Data mining): Các kỹ thuật được áp dụng để trích xuất thông tin có ích hoặc các mẫu điển hình trong dữ liệu. Bƣớc 6: Đánh giá mẫu (Pattern evaluation): Đánh giá mẫu hoặc tri thức đã thu được. Bƣớc 7: Trình diễn dữ liệu (Knowledge Presentation): Biểu diễn những tri thức khai phá được cho người sử dụng. Quá trình phát hiện tri thức từ cơ sở dữ liệu đƣợc diễn tả qua mô hình sau: Mô hình trên mô tả 5 giai đoạn trong quá trình khám phá tri thức từ cơ sở dữ liệu. Mặc dù có 5 giai đoạn như trên xong quá trình khám phá tri thức từ cơ sở dữ liệu là một quá trình tương tác và lặp di lặp lại theo chu trình liên tục kiểu xoáy trôn ốc, trong đó lần lặp sau hoàn chỉnh hơn lần lặp trước. Ngoài ra, giai đoạn sau lại dựa trên kết quả thu được của giai đoạn trước theo kiểu thác nước. Đây là một quá trình biện chứng mang tính chất khoa học của lĩnh vực phát hiện tri thức và là phương pháp luận trong việc xây dựng các hệ thống phát hiện tri thức. 1. Giai đoạn xác định vấn đề: Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu Lương Trí Quân Trang 10 Đây là một quá trình mang tính định tính với mục đích xác định được lĩnh vực yêu cầu phát hiện tri thức và xây dựng bài toán tổng kết. Trong thực tế, các cơ sở dữ liệu được chuyên môn hóa và phân chia theo các lĩnh vực khác nhau như sản phẩm, kinh doanh, tài chính, … Với mỗi tri thức phát hiện được có thể có giá trị trong lĩnh vực này nhưng lại không mang nhiều ý nghĩa đối với một lĩnh vực khác. Vì vậy mà việc xác định lĩnh vực và định nghĩa bài toán giúp định hướng cho giai đoạn tiếp theo thu thập và tiền xử lý dữ liệu. 2. Giai đoạn thu thập và tiền xử lý dữ liệu: Các cơ sở dữ liệu thu được thường chứa rất nhiều thuộc tính nhưng lại không đầy đủ, không thuần nhất, có nhiều lỗi và các giá trị đặc biệt. Vì vậy, giai đoạn thu thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình phát hiện tri thức từ cơ sở dữ liệu. Có thể nói rằng giai đoạn này chiếm từ 70% đến 80% giá thành trong toàn bộ bài toán. Người ta chia giai đoạn thu thập và tiền xử lý dữ liệu thành các công đoạn như: lựa chọn dữ liệu, làm sạch, làm giàu, mã hóa dữ liệu. Các công đoạn được thực hiện theo trình tự đưa ra được một cơ sở dữ liệu thích hợp cho các giai đoạn sau. Tuy nhiên, tùy từng dữ liệu cụ thể mà quá trình trên được điều chỉnh cho phù hợp vì người ta đưa ra một phương pháp cho mọi loại dữ liệu. a. Chọn lọc dữ liệu: Đây là bước chọn lọc các dữ liệu có liên quan trong các nguồn dữ liệu khác nhau. Các thông tin được chọn lọc sao cho có chứa nhiều thông tin liên quan tới lĩnh vực cần phát hiện tri thức đã xác định trong giai đoạn xác định vấn đề. b. Làm sạch dữ liệu: Dữ liệu thực tế, đặc biệt dữ liệu lấy từ nhiều nguồn khác nhau thường không đồng nhất. Do đó cần có biện pháp xử lý để đưa về một cơ sở dữ liệu thống nhất phục vụ cho khai thác. Nhiệm vụ làm sạch dữ liệu thường bao gồm: (i) Điều hòa dữ liệu: Công việc này nhằm giảm bớt tính không nhất quán do dữ liệu lấy từ nhiều nguồn khác nhau. Phương pháp thông thường là khử các trường hợp trùng lặp dữ liệu và thống nhất các ký hiệu. Chẳng hạn, một khách hàng có thể có nhiều bản ghi do việc nhập sai tên hoặc do quá trình [...]... học: Khai phá dữ liệu và kho dữ liệu Kiến trúc của hệ thống khai phá dữ liệu Kiến trúc của hệ thống khai phá dữ liệu có các thành phần như sau: Cơ sở dữ liệu, kho dữ liệu: Đó là một hoặc tuyển tập các cơ sở dữ liệu, kho dữ liệu … Các kỹ thuật làm sạch dữ liệu, tích hợp, lọc dữ liệu có thể thực hiện trên dữ liệu Cơ sở dữ liệu hoặc kho dữ liệu phục vụ: Là kết quả lấy dữ liệu có liên quan trên cơ sở khai. .. một số phương pháp thông dụng nhất là: Phân cụm dữ liệu, phân lớp dữ liệu, phương pháp hồi quy và khai phá luật kết hợp Tuy nhiên, chỉ có một số phương pháp thông dụng và phổ biến nhất là: Phân cụm dữ liệu, phân lớp dữ liệu, phương pháp hồi quy và khai phá luật kết hợp 1 Phân cụm dữ liệu Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm... Đây là module giữa người dùng và hệ thống khai phá dữ liệu Cho phép người dùng tương tác với hệ thống trên cơ sở những truy vấn hay tác vụ, cung cấp thông tin cho việc tìm kiếm VII Các kỹ thuật khai phá dữ liệu Kĩ thuật khai phá dữ liệu được chia thành hai nhóm chính: Lương Trí Quân Trang 13 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả... kết xuất, biến đổi và di chuyển dữ liệu Các hệ thống con đó có thể được thực thi định kỳ làm tươi dữ liệu phục vụ cho việc phân tích 3 Khai thác dữ liệu Giai đoạn khai thác dữ liệu được bắt đầu sau khi dữ liệu đã được thu thập và tiến hành xử lý Trong giai đoạn này, công việc chủ yếu là xác định được bài toán khai Lương Trí Quân Trang 11 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu thác dữ. .. dùng và không dễ dàng Lương Trí Quân Trang 18 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu kết hợp cùng với các tri thức đã biết trước đó Việc sử sụng tri thức miền là rất quan trọng trong khai phá dữ liệu Đã có nhiều biện pháp nhằm khắc phục vấn đề này như sử dụng cơ sở dữ liệu suy diễn để phát hiện tri thức, những tri thức này sau đó được sử dụng để hướng dẫn cho việc tìm kiếm khai phá dữ liệu. .. hoạch môn học: Khai phá dữ liệu và kho dữ liệu toán (độ phức tạp hàm mũ) Còn một khi đã xác định xong các tập hợp thỏa mãn điều kiện trên (gọi là các tập hợp xuất hiện thường xuyên) thì việc KPLKH đỡ tốn thời gian hơn Agrawal đề nghị một thuật toán như sau: Tìm luật kết hợp khi đã biết các tập hợp thƣờng xuyên III Một số hƣớng tiếp cận trong khai phá luật kết hợp Lĩnh vực khai thác luật kết hợp cho đến... thước dữ liệu ngày càng lớn nên đòi hỏi tốc độ xử lý phải được đảm bảo Trên đây là những biến thể của khai phá luật kết hợp cho phép ta tìm kiếm luật kết hợp một cách linh hoạt trong những cơ sở dữ liệu lớn Bên cạnh đó các nhà nghiên cứu còn chú trọng đề xuất các thuật toán nhằm tăng tốc quá trình tìm kiếm luật kết hợp trong cơ sở dữ liệu Lương Trí Quân Trang 27 Bài thu hoạch môn học: Khai phá dữ liệu và. .. nhất của khai phá dạng luật này là thuật toán Apriori Luật kết hợp có thuộc tính số và thuộc tính hạng mục (Quantitative and categorial ssociation rule) Các cơ sở dữ liệu thực tế thường có các thuộc tính đa dạng (như nhị phân, số, mục (categorial) ) chứ không nhất quán ở một dạng nào cả Vì vậy để khai phá luật kết Lương Trí Quân Trang 26 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu hợp với... vong của bệnh nhân khi biết các kết quả xét nghiệm; chẩn đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu quảng cáo 4 Khai phá luật kết hợp Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giải thuật khai phá dữ liệu là luật kết hợp tìm được Chẳng hạn, phân tích cơ sở dữ liệu bán hàng nhận được thông tin... Trí Quân Trang 27 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu CHƢƠNG 3: MỘT SỐ THUẬT TOÁN PHÁT HIỆN LUẬT KẾT HỢP I Thuật toán AIS Lương Trí Quân Trang 28 Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu Thuật toán được áp dụng tỏ ra thành công cho cơ sở dữ liệu của các công ty bán lẻ hàng hóa và đã tìm ra các luật kết hợp đề cập đến mối quan hệ giữa hành vi ứng xử mua hàng của khách . LIỆU 5 I. Phát hiện tri thức và khai phá dữ liệu 5 II. Một số quan niệm về khai phá dữ liệu 6 III. Nhiệm vụ của khai phá dữ liệu 7 IV. Triển khai việc khai phá dữ liệu 8 V. Quá trình phát hiện. hoạch môn học: Khai phá dữ liệu và kho dữ liệu Lương Trí Quân Trang 5 CHƢƠNG 1:TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU I. Phát hiện tri thức và khai phá dữ liệu Trong thời. thuật khai phá dữ liệu Kĩ thuật khai phá dữ liệu được chia thành hai nhóm chính: Bài thu hoạch môn học: Khai phá dữ liệu và kho dữ liệu Lương Trí Quân Trang 14 Kỹ thuật khai phá dữ liệu