MỤC LỤC
Phát hiện tri thức trong cơ sở dữ liệu (KDD-Knowledge Discovery in Database) là quá trình tìm kiếm những thông tin ẩn có giá trị từ tập dữ liệu lớn, là quá trình hoạt động tương tác giữa con người và cơ sở dữ liệu với sự hỗ trợ của công cụ tin học để chọn ra những tri thức có ích phục vụ cho một mục đích nhất định trong một lĩnh vực nhất định. Hiện nay trên thế giới đã có nhiều ngành công nghiệp sử dụng kỹ thuật khai phá dữ liệu để phục vụ cho các hoạt động kinh doanh của mình và bước đầu thành công như ngành tài chính, y học, bảo hiểm, sản xuất… Mặc dù kỹ thuật khai phá dữ liệu hiện nay vẫn còn nhiều vấn đề nổi cộm nhưng với những tri thức mà nó đem lại cũng đã chứng tỏ khai phá dữ liệu có một tiềm năng to lớn trong việc tạo ra những lợi nhuận đáng kể trong nền kinh tế. Luận văn này tập trung vào kỹ thuật phát hiện luật kết hợp theo hướng tiếp cận tập thô trong quá trình khai phá dữ liệu, tiếp theo đó giới thiệu những kỹ thuật đánh giá luật dựa trên cơ sở lý thuyết tập thô để rút trích những luật quan trọng và có ích để tri thức phát hiện được thật sự có ý nghĩa cho ứng dụng.
Một ví dụ nhỏ: từ tập dữ liệu bán hàng của siêu thị ta phát hiện luật kết hợp bread→ cheese với độ hỗ trợ là 80% và độ tin cậy 60% (minSup=50%, minConf=50%); điều này có nghĩa: trong số các khách hàng mua hàng ở siêu thị thì có 80% khách hàng vừa mua bread vừa mua cheese và trong số các khách hàng có mua bread thì có 60% khách hàng mua cheese. Độ đo sự hữu ích của luật được chia làm hai loại chính: độ đo khách quan (Object Measure) – là độ đo tùy thuộc vào cấu trúc của mô hình và dữ liệu sẵn có trong quá trình phát hiện luật, độ đo chủ quan (Subject Measure) – là độ đo tùy thuộc vào sự chọn lựa mô hình do người sử dụng quyết định. Nhóm tác giả Jiye Li cũng đã đề xuất một số độ đo dựa vào lý thuyết tập thô: độ đo Tầm quan trọng của luật (Rule Importance Measure - RIM)[6] là độ đo khách quan được định nghĩa tương tự độ đo hữu ích dùng để đánh giá mức độ quan trọng của luật, độ đo Xem luật như thuộc tính (Rule-as-Attribute Measure - RAM)[7] cũng là độ đo khách quan dùng để chọn ra những luật quan trọng nhất từ tập luật, và độ đo Tầm quan trọng cải tiến (Enhanced Rule Importance Measure - ERIM)[9] là sự kết hợp hai độ đo chủ quan và khách quan được định nghĩa dựa vào trọng số của các thuộc tính điều kiện.
Theo lý thuyết tập thô, dựa trên bảng quyết định trong Bảng2.2, để có được mô hình phân lớp tốt cho thuộc tính “Cúm”, chúng ta cần thông tin của thuộc tính “Thân nhiệt” cùng với thông tin của thuộc tính “Đau đầu” hoặc “Đau cơ”, hai thuộc tính “Đau đầu” và “Đau cơ” không cần thiết trong cùng một lúc. Nhận xột: Rỳt gọn và lừi là hai khỏi niệm quan trọng trong lý thuyết tập thô, một rút gọn là tập con của tập thuộc tính điều kiện, tìm được bằng cách loại bỏ đi các thuộc tính thừa mà không làm mất đi sức mạnh phân loại của bảng quyết định, hay nói cách khác rút gọn là tập thuộc tính điều kiện cực tiểu có khả năng quyết định giống như toàn tập thuộc tính điều kiện. Dựa vào ma trận khả phân (Bảng 2.5) ta có thể kết luận bảng quyết định trong Bảng 2.4 là nhất quán. Ma trận khả phân xây dựng từ Bảng 2.4. Hàm khả phân. Hàm khả phân f của một hệ thống thông tin là hàm số bool được định nghĩa như sau:. Ví dụ: Hàm khả phân tương ứng với ma trận khả phân trong Bảng 2.5 ).
Rút gọn là tập thuộc tính nhỏ nhất có khả năng quyết định giống như toàn bộ tập thuộc tính điều kiện C, nói cách khác rút gọn R là tập các thuộc tính nhỏ nhất mà hai đối tượng bất kỳ trong bảng quyết định nếu phân biệt được dựa vào C+D thì cũng phân biệt được dựa vào R+D. Thuật giải di truyền (Genetic Algorithm-GA) là kỹ thuật giúp giải quyết vấn đề bằng cách mô phỏng sự tiến hóa của con người hay của sinh vật nói chung (dựa trên thuyết tiến hóa muôn loài của Darwin) trong điều kiện qui định sẵn của môi trường, mục tiêu của GA không nhằm đưa ra lời giải chính xác tối ưu mà đưa ra lời giải tương đối tối ưu. Để tìm minimal hitting set bằng thuật giải di truyền chúng ta sử dụng chuỗi nhị phân để biểu diễn các phần tử (cá thể), mỗi chuỗi nhị phân được xem là nhiễm sắc thể (chromosome) tương ứng với một cá thể, mỗi bit ứng với mỗi element được xem là gen (genome) và tập hợp các cá thể được xem là quần thể (population).
Hàm thích nghi (fitness function) trong thuật giải di truyền tìm các minimal hitting set phụ thuộc vào 2 yếu tố: số lượng các element trong cá thể (càng ít càng tốt) và số lượng tập giao khác rỗng của cá thể với các phần tử trong tập S - tập cần tìm các minimal hitting set (càng nhiều càng tốt). Đã có rất nhiều thuật toán được sử dụng trong rời rạc hoá dữ liệu như: thuật toán rời rạc hoá theo khoảng cách, thuật toán đơn giản, các thuật toán dựa trên tiêu chuẩn thống kê.., tuy nhiên không có một thuật toán nào được xem là tối ưu và hiệu quả nhất.
Độ phổ biến của X trong D, ký hiệu s(X), được định nghĩa là phần trăm số giao dịch mà X xuất hiện trong D trên tổng số giao dịch trong cơ sở dữ liệu D,. Một lớp là tập các item mà tiền tố có thể kết hợp với các item này để mở rộng thành một nút mới, ta nhận thấy không có cây con nào là con của tiền tố mà không được duyệt cả. Với mỗi nút con X của nút gốc có thể được giải quyết như một vấn đề hoàn toàn mới, ta có thể liệt kê dễ dàng các nút con của X với tiền tố là X.
Thuật toán phát sinh tập phổ biến với ngưỡng minSupp dựa vào cây tìm kiếm IT-Tree và lớp tương đương được xây dựng trên ý tưởng: Cho trước lớp gồm các itemset với tiền tố P, P={l1,l2,.ln}, ta tiến hành tính toán giao của. Phương pháp phát hiện luật kết hợp nêu trên được phát triển để phân tích nguồn dữ liệu dạng giao dịch: mỗi dòng là các giao dịch của khách hàng và mỗi giao dịch bao gồm các mặt hàng (item) được mua. Để áp dụng phương pháp phát hiện luật kết hợp trên vào dữ liệu có thuộc tính đa giá trị (dạng bảng quyết định) ta cần định nghĩa lại item theo cách khác: một item là sự kết hợp tên của thuộc tính với giá trị có thể có của thuộc tính, mỗi thuộc tính đều có một tập hữu hạn các giá trị mà ta gọi là miền.
Khi đó, bảng quyết định sẽ được chuyển đổi thành bảng bitmap với các thuộc tính điều kiện của bảng bitmap là các item mới được định nghĩa và giá trị của các thuộc tính điều kiện của bảng bitmap chỉ là những giá trị nhị phân 0 và 1. Do đó, những luật có vế phải không chứa thuộc tính quyết định đều không có ý nghĩa nên bị loại bỏ, hay nói cách khác các tập phổ biến không chứa thuộc tính quyết định không được dùng để khai thác luật kết hợp. Khai phá luật phân lớp (Classification Rule Mining) và khai phá luật kết hợp (Association Rule Mining) là 2 lĩnh vực quan trọng trong lĩnh vực khai phá dữ liệu.
Khai phá luật phân lớp là phát sinh tập luật với số lượng luật nhỏ để hình thành một phân lớp (Classifier) chính xác từ cơ sở dữ liệu dùng cho mục đích dự đoán; còn khai phá luật kết hợp là tìm tất cả các luật thỏa mãn giá trị ngưỡng hỗ trợ và ngưỡng tin cậy do người sử dụng xác định. Để tập luật kết hợp dùng được cho việc dự đoán, ta cần tích hợp kỹ thuật khai phá luật phân lớp vào kỹ thuật khai phá luật kết hợp bằng cách phát sinh tập luật phân lớp từ tập luật kết hợp để hình thành một phân lớp. Trong đó, ri∈R và ri frj nếu i> j, có nghĩa ri đứng trước rj nếu ri có độ ưu tiên cao hơn rj; default_class là lớp mặc định, là kết quả phân lớp cho các trường hợp không tìm thấy luật phân lớp phù hợp.
Ở đây, giá trị default_class được chọn là một giá trị khác với các giá trị của các phân lớp có thể có từ dữ liệu huấn luyện và giá trị này không thay đổi đến khi thu được phân lớp C.
Nếu hai luật có độ đo RIM bằng nhau, luật nào có độ đo AIERIM lớn hơn thì luật đó được xem là quan trọng hơn.