Tiểu luận Công nghệ tri thức và ứng dụng TÌM HIỂU KHAI PHÁ LUẬT KẾT HỢP PHỦ ĐỊNH

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN __________ BÀI THU HOẠCH MÔN HỌC CÔNG NGHỆ TRI THỨC & ỨNG DỤNG ĐỀ TÀI TÌM HIỂU KHAI PHÁ LUẬT KẾT HỢP PHỦ ĐỊNH GVHD: GS.TSKH. HOÀNG KIẾM HVTH: LÊ THÚC QUỐC ANH MSHV: CH1301002 TP HCM, 09/2014 Bài thu hoạch Công nghệ tri thức & Ứng dụng Gvhd: GS.TSKH. Hoàng Kiếm MỤC LỤC Hvth: Lê Thúc Quốc Anh - Mã số: CH1301002 Trang 2 Bài thu hoạch Công nghệ tri thức & Ứng dụng Gvhd: GS.TSKH. Hoàng Kiếm MỞ ĐẦU Ngày nay, cùng với sự phát triển không ngừng của các nền kinh tế, một lượng lớn dữ liệu và thông tin được cập nhật hàng ngày. Để phục vụ cho đời sống con người ngày một tốt đẹp, hoàn thiện hơn, chúng ta đã phân tích những dữ liệu, thông tin đó để tìm ra các quy luật, chuyển thành các mô hình tính toán phục vụ cho các nhu cầu cần thiết, ứng dụng chúng trong đời sống hằng ngày. Việc phân tích nghiên cứu đó gọi là công nghệ tri thức. Luật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất nhiều ý nghĩa. Thông tin mà dạng luật này đem lại là rất đáng kể và hỗ trợ không nhỏ trong quá trình ra quyết định. Tìm kiếm được những luật kết hợp “quý hiếm” và mang nhiều thông tin từ cơ sở dữ liệu tác nghiệp là một trong những hướng tiếp cận chính của lĩnh vực khai phá dữ liệu. Trong nội dung bài thu hoạch này, em xin trình bày khái quát Tìm hiểu Khai phá luật kết hợp phủ định. Bài thu hoạch được xây dựng dựa trên nền các nghiên cứu đã có trong lĩnh vực khai phá luật kết hợp, các bài báo nước ngoài tại các hội nghị chuyên ngành. Em xin chân thành cám ơn GS.TSKH Hoàng Kiếm, và các thầy cô trong trường Đại học CNTT- ĐHQG TP HCM cùng các bạn bè đã giúp em hoàn thành tốt môn học này. Hvth: Lê Thúc Quốc Anh - Mã số: CH1301002 Trang 3 Bài thu hoạch Công nghệ tri thức & Ứng dụng Gvhd: GS.TSKH. Hoàng Kiếm I. Tổng quan về Khai phá dữ liệu: 1. Đặt vấn đề: Chúng ta biết rằng Google luôn trả cho ta kết quả tìm kiếm tốt nhất, thông minh nhất. Nó còn thông minh hơn nếu như ta luôn tìm kiếm thông tin bằng cách đăng nhập vào hệ thống của Google. Chúng ta có thể thử bằng cách tìm một từ khóa chuyên biệt khi không đăng nhập và khi đăng nhập, nói chung kết quả sẽ khác nhau, và hầu hết là kết quả khi đăng nhập sẽ có độ chính xác với mục đích tìm kiếm cao hơn so với khi không đăng nhập. Tại sao lại như vậy? Facebook có tính năng rất hay và rất hữu dụng trong việc kết nối các mối quan hệ, đó là tính năng suggestions friends, và điều thú vị là hầu hết các người bạn mà Facebook suggest đều là những người tôi biết. Vậy tại sao Facebook nó lại thông minh đến mức như vậy? Amazon.com là website bán sách lớn nhất trên internet, để ý rằng mỗi khi xem thông tin chi tiết về một quyển sách nào đó trên site thì bao giờ cũng kèm theo một danh sách các quyển sách gợi ý mua kèm theo quyển bạn đang xem, một thống kê cho thấy có tới trên 70% đầu sách được người dùng mua thêm thông qua hình thức gợi ý này. Vậy điều gì làm cho việc bán sách hiệu quả đến như vậy? Trên đây chỉ là các ví dụ chúng ta có thể nhìn và hiểu, còn rất, rất nhiều các ví dụ từ nghiên cứu khoa học ứng dụng trong không gian, đến việc chống khủng bố…Nói tóm lại tất cả những ví dụ, những điều được nói ở trên chung qui lại chỉ xoay quanh một chủ đề: Data mining. Vậy data ming là gì? 2. Định nghĩa khai phá dữ liệu: Khai phá dữ liệu (datamining) được định nghĩa như là một quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là là việc khai thác vàng từ đá và cát, Dataming được ví như công việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước. Thuật ngữ Datamining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Data - mining như Knowledge Mining (khai phá tri thức), knowledge extraction(chắt lọc tri thức), data/patern analysis(phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), datadredging(nạo vét dữ liệu), Định nghĩa khác: Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. 3. Các bước chính trong khám phá tri thức (KDD): Hvth: Lê Thúc Quốc Anh - Mã số: CH1301002 Trang 4 Bài thu hoạch Công nghệ tri thức & Ứng dụng Gvhd: GS.TSKH. Hoàng Kiếm Khai phá dữ liệu là một bước trong quá trình khám phá tri thức (KDD - Knowleadge Discovery in Database). Người ta thường chia quá trình khám phá tri thức thành các bước sau: • Trích chọn dữ liệu (data selection): là bước trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn (databases, data warehouses, data repositories) ban đầu theo một số tiêu chí nhất định. • Tiền xử lý dữ liệu (data preprocessing): là bước làm sạch dữ liệu (xử lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, ), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, ), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms, entropy, phân khoảng, ). Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa. • Biến đổi dữ liệu (data transformation): đây là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau. • KPDL (data mining): đây là bước áp dụng những kỹ thuật khai phá (phần nhiều là các kỹ thuật của machine learning) để khai phá, trích chọn được những mẫu (patterns) thông tin, những mối liên hệ (relationships) đặc biệt trong dữ liệu. Đây được xem là bước quan trọng và tốn nhiều thời gian nhất của toàn quá trình KDD. • Biểu diễn và đánh giá tri thức (knowledge representation & evaluation): những mẫu thông tin và mối liên hệ trong dữ liệu đã được khai phá ở bước trên được chuyển dạng và biểu diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, .v.v. Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định. Hình 1. Các bước trong khám phá tri thức (KDD) Để ví dụ cho quá trình này, chúng ta quay lại trả lời các câu hỏi ở mục đặt vấn đề. Hvth: Lê Thúc Quốc Anh - Mã số: CH1301002 Trang 5 Bài thu hoạch Công nghệ tri thức & Ứng dụng Gvhd: GS.TSKH. Hoàng Kiếm Đầu tiên là câu hỏi tại sao kết quả tìm kiếm của Google lại khác nhau khi đăng nhập và khi không đăng nhập? Câu trả lời ngắn gọn là: Khi bạn đăng nhập Google biết bạn là ai, biết hành vi trong quá khứ của bạn như thế nào (thông qua quá trình thu thập dữ liệu hành vi của bạn trên các site mà Google hiện diện), do đó nó dựa vào sự hiểu biết này nên kết quả trả về bao giờ cũng là kết quả có độ chính xác với nhu cầu của bạn cao nhất và ngược lại, khi không đăng nhập, Google chỉ trả về kết quả ranking bình thường mà không có kèm theo tham số ranking theo user. Và dĩ nhiên để biết được hành vi trong quá khứ của bạn, Google phải sử dụng đến các công nghệ data mining. Thứ hai, tại sao Facebook lại có thể gợi ý cho tôi toàn những người mà tôi đã quen biết? Để có thể đưa ra gợi ý này đòi hỏi Facebook kết hợp rất nhiều các tham số, cụ thể là những tham số gì thì là bí mật công nghệ riêng của FB. Tuy nhiên có thể giải thích tóm lược như sau: Khi bạn đăng ký tài khoản Facebook, thông thường bạn nhập thêm các thông tin khác như: quá trình làm việc ở các công ty, công ty bạn đang làm, trường/lớp bạn đã/đang học, các hội bạn tham gia, bạn gái/trai/vợ/chồng của bạn v.v Đây chính là các thông tin mà Facebook có thể dựa vào để xác định ai là bạn của bạn. Ở đây, Facebook đã mô hình hóa các tham số có độ liên quan nhất định để đưa ra những gợi ý mà có xác xuất đúng rất cao, và bạn thấy đó, thực sự là rất đúng. News stream của Facebook còn phức tạp và hay ho hơn nữa. Tất cả các điều đó Facebook làm được là quá trình thu thập dữ liệu hoạt động của người dùng trên site, sau đó sử dụng các công nghệ data mining để cung cấp nội dung, tính năng phù hợp nhất cho người dùng. Thứ ba, tại sao Amazon lại có thể đưa ra danh sách các quyển sách bán kèm có tỷ lệ bán được cao như vậy? Để làm được điều này Amazon đã đầu tư phát triển hệ thống recommendation trong hàng chục năm, thời gian dài đó không chỉ là phát triển thuần túy công nghệ mà còn là quãng thời gian thu thập và phân tích hành vi người sử dụng trên site của Amazon, thời gian càng dài, dữ liệu thu thập càng lớn, dẫn đến tập thông tin có độ tương quan càng nhiều và càng chính xác. Nôm na bạn có thể hiểu là 100 khách hàng mua quyển sách ABC thì có tới 40 khách hàng đồng thời mua quyển sách DEF, vì thế với khách hàng 101 xem quyển ABC, hệ thống nhận diện và đưa ra gợi ý mua them quên DEF, đơn giản là vậy, tuy nhiên bên dưới còn có nhiều tham số khác để tăng độ tương quan lên nữa. Và đây cũng là một quá trình mining dữ liệu. 4. Tại sao cần khai phá dữ liệu: Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các thiết bị điện tử không ngừng tăng lên. Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ. Người ta ước đoán rằng lượng thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó số lượng cũng như kích cỡ của các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng. Nói một cách hình ảnh là chúng ta đang “ngập” trong dữ liệu nhưng lại Hvth: Lê Thúc Quốc Anh - Mã số: CH1301002 Trang 6 Bài thu hoạch Công nghệ tri thức & Ứng dụng Gvhd: GS.TSKH. Hoàng Kiếm “đói” tri thức. Câu hỏi đặt ra là liệu chúng ta có thể khai thác được gì từ những “núi” dữ liệu tưởng chừng như “bỏ đi”ấy không ? 5. Các hướng tiếp cận chính trong khai phá dữ liệu: Data Mining được chia nhỏ thành một số hướng chính như sau: • Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản. • Luật kết hợp (association rules): là dạng luật biểu diễn tri thức ở dạng khá đơn giản. Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm thịt bò khô”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính doanh, y học, tin-sinh, tài chính & thị trường chứng khoán, • Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào một trong những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết. Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine learning như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), Người ta còn gọi phân lớp là học có giám sát (học có thầy). • Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như tên của cụm chưa được biết trước. Người ta còn gọi phân cụm là học không giám sát (học không thầy). • Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao. 6. Các dạng dữ liệu có thể khai phá: Do KPDL được ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều kiểudữliệu khác nhau. Sau đây là một số kiểu dữ liệu điển hình: • CSDL đa chiều (multidimensional structures, data warehouses) • CSDL dạng giao dịch (transactional databases) • CSDL quan hệ - hướng đối tượng (object-relational databases) • Dữ liệu không gian và thời gian (spatial and temporal data) • Dữ liệu chuỗi thời gian (time-series data) • CSDL đa phương tiện (multimedia databases) như âm thanh (audio), hình ảnh (image), phim ảnh (video), • Dữ liệu Text và Web (text database & www) 7. Phân loại các hệ khai phá dữ liệu: Hvth: Lê Thúc Quốc Anh - Mã số: CH1301002 Trang 7 Bài thu hoạch Công nghệ tri thức & Ứng dụng Gvhd: GS.TSKH. Hoàng Kiếm KPDL là một công nghệ tri thức liên quan đến nhiều lĩnh vực nghiên cứu khác nhau như CSDL, kỹ thuật máy học (machine learning), giải thuật, trực quan hóa (visualization), Chúng ta có thể phân loại các hệ thống KPDL dựa trên các tiêu chí khác nhau: • Phân loại dựa trên kiểu dữ liệu được khai phá: CSDL quan hệ (relational database), kho dữ liệu (data warehouse), CSDL giao dịch (transactional database), CSDL hướng đối tượng, CSDL không gian (spatial database), CSDL đa phương tiện (multimedia database), CSDL Text và www, • Phân loại dựa trên dạng tri thức được khám phá: tóm tắt và mô tả (summarization & description), luật kết hợp (association rules), phân lớp (classification), phân cụm (clustering), khai phá chuỗi (sequential mining), • Phân loại dựa trên kỹ thuật được áp dụng: hướng CSDL (databaseoriented), phân tích trực tuyến (OnLine Analytical Processing – OLAP), machine learning (cây quyết định, mạng nơ ron nhân tạo, k-min, giải thuật di truyền, máy vectơ hỗ trợ - SVM, tập thô, tập mờ, ), trực quan hóa (visualization), • Phân loại dựa trên lĩnh vực được áp dụng: kinh doanh bán lẻ (retail), truyền thông (telecommunication), tin-sinh (bio-informatics), y học (medical treatment), tài chính & thị trường chứng khoán (finance & stock market), web mining, 8. Ứng dụng của khai phá dữ liệu: Khai phá dữ liệu bao hàm rất nhiều hướng tiếp cận. Các kỹ thuật chính được áp dụngtrong lĩnh vực này phần lớn được thừa kế từ lĩnh vực cơ sở dữ liệu (database), máy học (machine learning), trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê, và tínhtoán hiệu năng cao. Lĩnh vực nàycũng là điểm hội tụ và giao thoa của rất nhiều lĩnh vực khác. Data Mining tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nó. Chúng ta có thể liệt kê ra đây một số ứng dụng điển hình: • Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support) • Điều trị y học (medical treatment) • Text mining & Web mining • Tin-sinh (bio-informatics) • Tài chính và thị trường chứng khoán (finance & stock market) • Bảo hiểm (insurance) • Nhận dạng (pattern recognition) 9. Các vấn đề được chú trọng trong khai phá dữ liệu: Hvth: Lê Thúc Quốc Anh - Mã số: CH1301002 Trang 8 Bài thu hoạch Công nghệ tri thức & Ứng dụng Gvhd: GS.TSKH. Hoàng Kiếm KPDL là một lĩnh vực mới, do đó đang còn rất nhiều vấn đề chưa được nghiên cứu một cách trọn vẹn. Sau đây là một số hướng nghiên cứu đã và đang thu hút được sự chú ý của các nhà tin học: • OLAM (OnLine Analytical Mining) - Sự tích hợp giữa CSDL, kho dữ liệu, và KPDL. Hiện nay một số hệ quản trị CSDL như Oracle, MS SQL Server, DB2 đã tích hợp tính năng xây dựng kho dữ liệu và phân tích trực tuyến (OLAP). Những tính năng này được hỗ trợ dưới dạng những công cụ đi kèm và người dùng phải trả tiền thêm nếu cần sử dụng những tính năng đó. Những nhà nghiên cứu trong lĩnh vực CSDL không muốn dừng lại ở đó mà họ muốn có một sự tích hợp giữa CSDL, kho dữ liệu và KPDL. • Khám phá được nhiều dạng tri thức khác nhau từ nhiều kiểu dữ liệu. • Tính hiệu quả, tính chính xác, độ phức tạp tính toán, khả năng mở rộng và tích hợp, xử lý nhiễu và dữ liệu không đầy đủ, tính hữu dụng (ý nghĩa) của tri thức. • Kết hợp KPDL với tri thức cơ sở (background knowledge). • Vấn đề song song hóa và phân tán quá trình KPDL. • Ngôn ngữ truy vấn trong KPDL (Data Mining Query Language – DMQL): cung cấp cho người sử dụng một ngôn ngữ hỏi thuật tiện tương tự như SQL đối với CSDL quan hệ. • Biểu diễn và trực quan hóa tri thức khai phá được sao cho gần gũi với người sử dụng (human-readable expression). Tri thức có thể biểu diễn đa chiều, đa tầng để người dùng sử dụng tri thức hiệu quả hơn. Hvth: Lê Thúc Quốc Anh - Mã số: CH1301002 Trang 9 Bài thu hoạch Công nghệ tri thức & Ứng dụng Gvhd: GS.TSKH. Hoàng Kiếm II. LUẬT KẾT HỢP: 1 Tại sao lại luật kết hợp? Luật kết hợp là những luật có dạng “70% khách hàng mua bia thì mua them thịt bò khô, 20% giao dịch có mua cả bia lẫn thịt bò khô” hoặc “75% bệnh nhân hút thuốc lá và sống ven vùng ô nhiễm thì bị ung thư phổi, trong đó 25% số bệnh nhân vừa hút thuốc lá, sống ven vùng ô nhiễm vừa ung thư phổi”. “Mua bia” hay “hút thuốc lá và sống ven vùng ô nhiễm” ở đây được xem là vế trái (tiền đề - antecedent) của luật, còn “mua thịt bò khô” hay “ung thư phổi” là vế phải (kết luận - consequent) của luật. Những con số 20% hay 25% là độ hỗ trợ của luật (support - số phần trăm các giao dịch chứa cả vế trái lẫn vế phải), còn 70% hay 75% là độ tin cậy của luật (confidence - số phần trăm các giao dịch thỏa mãn vế trái thì cũng thỏa mãn vế phải). Hình 2. Minh họa về luật kết hợp Chúng ta nhận thấy rằng tri thức đem lại bởi những luật kết hợp ở dạng trên có một sự khác biệt cơ bản so với thông tin thu được từ các câu lệnh truy vấn dữ liệu thông thường (ngôn ngữ SQL chẳng hạn). Đó thường là những tri thức, những mối liên hệ chưa đuợc biết trước và mang tính dự báo đang tiềm ẩn trong dữ liệu. Những tri thức này không đơn giản chỉ là kết quả của các phép nhóm, tính tổng hay sắp xếp mà là kết quả của một quá trình tính toán khá phức tạp và tốn nhiều thời gian. Tuy luật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất nhiều ý nghĩa. Thông tin mà dạng luật này đem lại rất đáng kể và hỗ trợ không nhỏ trong quá trình ra quyết định. Tìm kiếm ra những luật kết hợp “quý hiếm” và chứa nhiều thông tin từ CSDL tác nghiệp là một trong những hướng tiếp cận chính của lĩnh vực KPDL và đây chính là một động lực không nhỏ thúc đẩy việc tập trung nghiên cứu của nhiều nhà tin học. 2 Phát biểu bài toán khai phá luật kết hợp: Cho I = {i1, i2, …, in} là tập mục bao gồm n mục (item – còn được gọi là thuộc tính - attribute). T = {t1, t2, …, tm} là tập gồm m giao dịch (transaction – còn được gọi là bản Hvth: Lê Thúc Quốc Anh - Mã số: CH1301002 Trang 10 [...]... tảng phần cứng • Luật kết hợp tiếp cận theo hướng tập thô (mining association rules basedon rough set): tìm kiếm luật kết hợp dựa trên lý thuyết tập thô • Ngoài ra, còn một số hướng nghiên cứu khác về khai phá luật kết hợp như: khai phá luật kết hợp trực tuyến khai phá luật kết hợp được kết nối trực tuyến đến các kho dữ liệu đa chiều (multidimensional data, datawarehouse) thông qua công nghệ OLAP (Online... 14 Bài thu hoạch Công nghệ tri thức & Ứng dụng Gvhd: GS.TSKH Hoàng Kiếm III Một số giải thuật trong khai phá luật kết hợp phủ định 1 Giải thuật PNARG (Algorithm Positive and Negative Association Rules Generation): a Đặt vấn đề: Luật kết hợp điển hình chỉ xem xét những đối tượng được liệt kê trong các giao dịch Luật như vậy được gọi là luật kết hợp dạng khẳng định Luật kết hợp phủ định cũng xem xét... tối thiểu (dóng 15-16) Mặc khác nếu sự kiểm tra mối tương quan cho ta 1 mối tương quan phủ định (nghịch), ta có luật kết hợp theo kiểu X Y và X Y và được thêm vào tập luật kết hợp nếu độ tin cậy của nó là đủ Kết quả được biên soạn bằng cách kết hợp tất cả các luật kết hợp phủ định và khẳng định được phát hiện Từ dòng 26 trở đi, minh họa cho ngưỡng tăng tự động của hệ số tương quan Nếu không có luật. .. cáo này, ta hiểu được phần nào về khai phá luật kết hợp phủ định Trong lĩnh vực khai phá dữ liệu, thì hướng đi khai phá luật kết hợp phủ định là một hướng đi khó Tuy nhiên nó có phạm vi ứng dụng rất rộng và thú vị nhất là trong Marketing, Health Care và Social Network Analysis Trong chuyên đề Khai phá dữ liệu” được học sắp tới, đề tài này sẽ được nghiên cứu chuyên sâu, làm rõ các vấn đề hơn và thực hiện... đáng kể các biến thể và cải tiến giải thuật khai phá luật kết hợp Phân tích luật kết hợp là nhiệm vụ phát hiện luật kết hợp mà xảy ra thường xuyên trong một tập dữ liệu nhất định Một ví dụ điển hình của ứng dụng khai phá luật kết hợp là phân tích giỏ thị trường Trong quá trình này, hành vi của các khách hàng được nghiên cứu khi mua các sản phẩm khác nhau trong một cửa hàng mua sắm Sự phát hiện ra các hình... mối kết hợp khẳng định, các mối kết hợp phủ định có thể cung cấp thông tin có giá trị trong việc đưa ra chiến lược tiếp thị Điều thú vị là có rất ít sự tập trung vào các luật kết hợp phủ định do những khó khăn trong việc phát hiện những luật này Mặc dù một số nhà nghiên cứu đã chỉ ra tầm quan trọng của các mối kết hợp phủ định, chỉ có một vài nhóm các nhà nghiên cứu đề xuất một thuật toán để khai phá. .. giảm giá của họ trên các mối kết hợp, các mối tương quan như vậy được tìm thấy trong dữ liệu Tất cả các giải thuật khai phá luật kết hợp truyền thống được phát tri n để tìm các mối kết hợp khẳng định giữa các đối tượng Bằng các mối kết hợp khẳng định, chúng ta đề cập đến các mối kết hợp giữa các đối tượng tồn tại trong các giao dịch (tức là các mặt hàng đã mua) Mối kết hợp theo kiểu: “khách hàng mua... f10, f0+ và f+0, ta có: = (3) = (4) = (5) = (6) Phương trình (6) dùng để tìm luật kết hợp f Giải thuật đề xuất: Quá trình khai phá luật kết hợp thường có 2 giai đoạn Đầu tiên, khai phá tập phổ biến; sau đó là tạo ra các luật kết hợp từ các tập phổ biến được khám phá Trong giải thuật này, ta kết hợp hai giai đoạn và tạo ra các luật có liên quan trong khi phân tích mối tương quan giữa mỗi tập ứng viên... do người dùng xác định: c ≥ minconf[5] Bài toán khai phá luật kết hợp (ở dạng đơn giản nhất) đặt ra như sau: Cho một CSDL D, độ hỗ trợ tối thiểu minsup, độ tin cậy tối thiểu minconf Hãy tìm kiếm tất cả các luật kết hợp có dạng X →Y thỏa mãn độ hỗ trợ s(X ∪Y) ≥ minsup và độ tin cậy của luật c( X →Y ) = s(X∪Y) / s(X) ≥ minconf Hầu hết các thuật toán được đề xuất để khai phá luật kết hợp thường chia bài... biến thì luật kết hợp được sinh từ X có dạng X '⎯⎯c→X \ X ' ,với X’ là tập con khác rỗng của X, X \ X’ là hiệu của hai tập hợp, và c làđộ tin cậy của luật thỏa mãn c ≥ minconf • Ví dụ, với tập phổ biến ACW có độ tin cậy 67% ở bảng 2 và minconf = 70%thì chúng ta có thể sinh các luật kết hợp sau đây: Bảng 3 - Luật kết hợp sinh từ tập phổ biến ACW 3 Những hướng tiếp cận chính trong khai phá luật kết hợp: . về khai phá luật kết hợp như: khai phá luật kết hợp trực tuyến khai phá luật kết hợp được kết nối trực tuyến đến các kho dữ liệu đa chiều (multidimensional data, datawarehouse) thông qua công nghệ. quan phủ định (nghịch), ta có luật kết hợp theo kiểu X Y và X Y và được thêm vào tập luật kết hợp nếu độ tin cậy của nó là đủ. Kết quả được biên soạn bằng cách kết hợp tất cả các luật kết hợp phủ. PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN __________ BÀI THU HOẠCH MÔN HỌC CÔNG NGHỆ TRI THỨC & ỨNG DỤNG ĐỀ TÀI TÌM HIỂU KHAI PHÁ LUẬT KẾT HỢP PHỦ ĐỊNH GVHD: GS.TSKH. HOÀNG KIẾM HVTH:

Định dạng
Số trang	23
Dung lượng	253,42 KB