MỤC LỤC
Một tập dữ liệu được thể hiện dưới dạng bảng, trong đó mỗi dòng thể hiện một trường hợp, một sự kiện hay đơn giản là một đối tượng. Trong nhiều ứng dụng thực tế, tập vũ trụ được phân chia thành các tập đối tượng con bởi một tập các thuộc tính phân biệt được gọi là tập thuộc tính quyết định. Các thuộc tính {Đau đầu}, {Đau cơ} đều không cần thiết, nghĩa là từ Bảng này nếu ta loại bỏ hai thuộc tính này thì vẫn chuẩn đoán được đúng bệnh.
Nội dung của chương 1 tập trung giới thiệu và tìm hiểu về khía cạnh phát hiện tri thức (KDD-Knowledge Data Development) nói chung và một trong các bước quan trọng của tiến trình này đó là khai phá dữ liệu (DM-Data Mining). Kỹ thuật phát hiện tri thức và khai phá dữ liệu nhằm phát hiện những tri thức tiềm ẩn, không biết trước, và có ích trong cơ sở dữ liệu. Quá trình khai phá tri thức thường được áp dụng để giải quyết một loạt các yêu cầu nhằm phục vụ những mục đích nhất định và mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức mà phát hiện những tri thức phục vụ tốt một nhiệm vụ đề ra.
Và là quá trình tìm kiếm, khám phá dưới nhiều góc độ khác nhau nhằm phát hiện các mối liên hệ, quan hệ giữa các dữ kiện, đối tượng bên trong cơ sở dữ liệu, kết quả của việc khai phá là xác định các mẫu hay các mô hình tồn tại bên trong nhưng chúng nằm ẩn ở các cơ sở dữ liệu phục vụ cho mô tả và dự đoán, các tri thức này sau khi được rút trích sẽ hỗ trợ cho việc ra quyết định, điều hành trong khoa học, nghiên cứu, sản xuất kinh doanh. Trong các kỹ thuật khai phá dữ liệu, kỹ thuật khai phá sử dụng lý thuyết tập thô hiện nay cũng là một trong những lĩnh vực đang được quan tâm, nghiên cứu nhằm hỗ trợ giải quyết các bài toán trong thực tế.
- Những trường hợp không thấy trong quá trình khai phá dữ liệu, sự không chắc chắn của luật bao gồm cả khả năng dự đoán trước các trường hợp của nó được thể hiện rừ ràng trong độ mạnh của luật. - Hướng tìm kiếm có thể được lựa chọn một cách mềm dẻo, có thể sử dụng tri thức nền làm cơ sở cho việc tạo bảng phân bố tổng quát và quá trình khai phá. Bước 8: Kết thúc nếu số các luật được chọn trong bước 6 cho mỗi trường hợp là 1, trường hợp còn lại tìm một tập tối thiểu các luật mà chứa tất cả các trường hợp trong bảng quyết định.
Trong quá trình khai phá tri thức từ kho dữ liệu khổng lồ, một vấn đề được đặt ra là chúng ta phải tìm cách để xử lý những dữ liệu hỗn tạp, không quy củ thành những dữ liệu có ích, có nhiều ứng dụng với những giá trị liên tục. Phương pháp được nêu ra là phân chia các giá trị thuộc tính thành các khoảng, các đoạn, quá trình xử lý dữ liệu kiểu này được gọi là rời rạc hoá. Nhưng đến nay, các chuyên gia và người sử dụng vẫn chưa tìm ra được một phương pháp chung nhất cho việc rời rạc hoá, mà lựa chọn phương pháp nào phụ thuộc rất nhiều vào kiểu dữ liệu cần xử lý.
Nhằm tìm hiểu và sử dụng một trong số những phương pháp để rời rạc hoá dữ liệu như đã nói ở trên, luận văn đề cập tới phương pháp rời rạc hoá dữ liệu cơ bản, đó là sử dụng khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định trong lý thuyết tập thô và lập luận logic. Từ định nghĩa tập các nhát cắt trên ta thấy rằng mỗi nhát cắt sẽ phân hoạch tập các đối tượng thành hai tập con các đối tượng rời rạc nhau. Một họ các phân hoạch P trên T là nhất quán với T (hay T−consistent) khi và chỉ khi:∂T =∂TP, trong đó ∂Tvà ∂TP tương ứng là các bảng quyết định tổng quát của T và TP.
Ta nhận thấy, với mỗi phân hoạch P⊆ a∈A{ }a xVa được định nghĩa là một giá trị valP của các biến mệnh đề pka, viết dưới dạng valP( )pka =true (hay P|= pka) khi và chỉ khi tồn tại một nhát cắt (a,ca)∈P thoả mãn tính chất a ka. Với mọi S ≠φ,S ⊆BV( )T của các biến logic mệnh đề, các điều kiện sau là tương đương:. 1) S - là một prime implicant có độ dài tối thiểu của công thức logic ΦT. Như vậy, từ một bảng quyết định T bất kỳ với n các đối tượng và k thuộc tính, người ta có thể xây dựng công thức ΦT trong dạng chuẩn tắc hội (CNF) với thời gian đa thức là O(n3k).
- Tại mỗi bước, lựa chọn các thuộc tính sử dụng tiêu chuẩn đánh giá trong quá trình khám phá luật bởi bảng phân bố tổng quát trong tập Thô. Việc lựa chọn tập rút gọn tối ưu từ các tập rút gọn có thể là rất tốn thời gian nếu tìm kiếm toàn bộ hoặc khó có thể biết được khi nào thì tập con tối ưu xuất hiện. Đặc điểm chính của phương pháp lựa chọn thuộc tính dựa trên tập Thô với phương pháp đánh giá kinh nghiệm là nó có thể tìm ra các tập con thuộc tính nhanh và hiệu quả từ cơ sở dữ liệu lớn, các thuộc tính được lựa chọn không làm giảm đi tính ưu việt của thuật toán quy nạp nhiều lắm.
Vấn đề đặt ra là tại mỗi bước chọn lựa, thuộc tính nào sẽ được đưa vào R. Một cách tự nhiên, ta chọn thuộc tính mà khi tham gia vào tập rút gọn sẽ làm cho số cặp đối tượng bằng nhau trên R nhưng khác nhau trên D là ít nhất. Với cách chọn lựa Heuristic này, thuật toán có khả năng cho ta một tập rút gọn với số thuộc tính tối thiểu.