Một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ bằng entropy Liang mở rộng

MỤC LỤC

RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ

Giới thiệu

Trình bày về bảng quyết định đầy đủ, bảng quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình tập thô dung sai và cuối cùng là thuật toán rút gọn thuộc tính trong bảng quyết định đầy đủ. Như đã trình bày ở trên, kỹ thuật sử dụng metric đã được sử dụng hiệu quả vào việc giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy đủ. Trong bảng quyết định không đầy đủ, Yuhua Qian và các cộng sự đã đề xuất một số khái niệm về khoảng cách tri thức giữa các lớp dung sai và chứng minh một số tính chất của chúng.

Tuy nhiên, các kết quả nghiên cứu về việc sử dụng metric để giải quyết bài toán rút gọn thuộc tính trong bảng quyết định không đầy đủ còn hạn chế. Chương này tìm hiểu Entropy Liang mở rộng trong hệ thông tin không đầy đủ dựa trên entropy Liang trong hệ thông tin đầy đủ và tìm hiểu một metric trên họ các phủ dựa trên entropy Liang mở rộng. Sử dụng metric được xây dựng, chương này trình bày một phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ.

Nội dung được trình bày trong chương 2 chủ yếu được nghiên cứu, tìm hiểu ở tài liệu [4]. Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất.

Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất Xuất phát từ entropy Liang trên hệ thông tin đầy đủ, phần này tìm hiểu entropy

    Mệnh đề 2.1 sau đây cho thấy entropy Liang E(P) trường hợp riêng của entropy Liang mở rộng. Mệnh đề 3.2 cho thấy entropy Liang có điều kiện E(Q/P) là trường hợp riêng của entropy Liang mở rộng có điều kiện IE(Q/P). Mệnh đề 2.3 sau đây chứng minh một số tính chất của entropy Liang mở rộng và entropy Liang mở rộng có điều kiện trên hệ thông tin không đầy đủ.

    Bảng  2.1. Bảng hệ thông tin không đầy đủ về các xe hơi
    Bảng 2.1. Bảng hệ thông tin không đầy đủ về các xe hơi

    Metric trên họ các phủ và các tính chất 1. Metric trên họ các phủ

      Mệnh đề 3.5 sau đây chứng minh một số tính chất của metric trên họ thông tin không đầy đủ. Mệnh đề 2.6 sau đây chứng minh tính phản đơn điệu của metric trên bảng quyết định không đầy đủ. Mệnh đề 3.6 cho thấy, nếu tập thuộc tính B càng lớn thì khoảng cách giữa hai phủ K(B) và K(B∪D) càng nhỏ, hay K(B) càng gần K(B∪D), nghĩa là khả năng phân lớp dựa trên B vào các lớp quyết định sinh bởi D càng lớn, và ngược lại.

      Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric .1 Tập rút gọn của bảng quyết định không đầy đủ dựa trên metric

        Như đã trình bày ở trên để xây dựng thuật toán heuristic tìm tập rút gọn, ta có thể sử dụng hai hướng tiếp cận: hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp cận từ trên xuống (top - down). Phần này trình bày một thuật toán hueristic tìm tập rỳt gọn khụng tớnh toỏn lừi theo hướng tiếp cận bottom – up. [2] Thuật toán heuristic tìm một tập rút gọn tốt nhất của bảng quyết định không đầy đủ sử dụng metric.

        Trên lớp bài toán tìm tập rút gọn của bảng quyết định không đầy đủ, thuật toán sử dụng độ đo lượng thông tin của tri thức và các thuật toán sử dụng ma trận dung sai đều có độ phức tạp thời gian là O(|C|3|U|2). Do đó độ phức tạp thời gian của thuật toán sử dụng metric nhỏ hơn.

        Bảng 2.3. Bảng quyết định không đầy đủ minh họa ví dụ 2.3
        Bảng 2.3. Bảng quyết định không đầy đủ minh họa ví dụ 2.3

        CHƯƠNG TRÌNH THỬ NGHIỆM

          Các cột là các thuộc tính với thuộc tính điều kiện: Đơn giá, Km đã đi, Kích thước, Tốc độ tối đa và thuộc tính quyết định: d. Các dòng là các đối tượng (bản ghi). *Thông tin các thuộc tính:. Thuộc tính Số thiếu giá trị. *Bộ dữ liệu 2 về bệnh gan: là bảng dữ liệu về các bệnh nhân gan với 20 thuộc tính về tình trạng của bệnh nhân như: Tuổi, Giới tính, các triệu chứng: Dùng thuốc, Mệt mỏi, Biếng ăn…và các chỉ số y tế.. *Thông tin các thuộc tính. Giới tính: male, female. Biếng ăn: no, yes. Giãn tĩnh mạch: no, yes. HISTOLOGY: no, yes. Lớp: DIE, LIVE. Thuộc tính Số thiếu giá trị. 2.make: alfa-romero, Audi, BMW, Chevrolet, honda, Isuzu, Mazda, Mercedes-Benz, mercury, jaguar, Mitsubishi, Nissan, dodge. 3.fuel-type: diesel, gas. 4.aspiration: std, turbo. 6.body-style: wagon,sedan, hatchback, convertible, hardtop. 8.engine-location: front, after. Thuộc tính Số thiếu giá trị. b) Dữ liệu đầu ra: Là danh sách các thuộc tính trong tập rút gọn tốt nhất. Chương trình thực nghiệm sử dụng thuật toán heuristic, được viết bằng ngôn ngữ C#, trên bộ Visual Studio 2010 sử dụng phiên bản .Net Framewok 2.0.

          Mã nguồn đã được biên dịch thành tệp thực thi .exe trên môi trường Windows nên chỉ cần cài đặt bộ thư viện yêu cầu ở trên là có thể chạy được chương trình. Chuẩn bị dữ liệu dạng file excel 2003 theo đúng định dạng đã mô tả ở trên, nếu định dạng dữ liệu bị sai, chương trình thực thi sẽ báo lỗi. • Vùng dataGridView phía trên cùng hiển thị dữ liệu bảng quyết định không đầy đủ được xử lý.

          •Hai Button: Chọn file dữ liệu (để thực hiện chọn dữ liệu) và Tìm tập rút gọn (để bắt đầu tìm tập rút gọn). Khi bắt đầu tìm tập rút gọn thì nút “Tìm tập rút gọn” sẽ mờ đi để người sử dụng thấy được nó đang thực hiện, và sẽ hiện lại khi quá trình tính toán kết thúc. Vùng bộ đếm thời gian sẽ hiển thị tổng thời gian thực hiện tính toán. • Vùng ListView phía dưới cùng thể hiện tập rút gọn tốt nhất tìm được. Chương trình chạy thử nghiệm thuật toán với mỗi bộ số liệu:|U| là số đối tượng,. |C| là số thuộc tính điều kiện, |R| là số thuộc tính của tập rút gọn, t là thời gian thực hiện thuật toán đơn vị tính bằng giây. Với mỗi bộ số liệu sẽ tiến hành đo đạc 5 lần và lấy kết quả trung bình làm tròn 4 chữ số sau dấu phẩy, Bảng 3.2 và Bảng 3.3 mô tả kết quả thực hiện của thuật toán. Kết quả thực hiện thuật toán Thuật toán 2.2. Tập rút gọn của Thuật toán 2.2. STT Bộ số liệu Tập rút gọn của Thuật toán 2.2. 2 Bệnh viêm gan {Tuổi, SGOT, Tình trạng bất ổn}. Sau khi tìm hiểu và cài đặt chương trình demo với 3 bộ dữ liệu thì ta thấy:. Bộ dữ liệu 1 về ô tô: Kết quả thực nghiệm trùng với kết quả tính toán bằng lý thuyết đã trình bày ở chương 2. Bộ dữ liệu càng nhỏ thì thời gian chạy thuật toán càng nhanh. * Kết quả đạt được trong luận văn. 1) Nghiên cứu về hệ thông tin đầy đủ, hệ thông tin không đầy đủ, bảng quyết định, bảng quyết định không đầy đủ, metric trên họ các tri thức và các tính chất..từ đó trình bày một phương pháp rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric. Metric được xây trên họ các tri thức dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn. 2) Trình bày 1 phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric. Và cài đặt chương trình demo thuật toán trong luận văn này là thuật toán heuristic tìm một tập rút gọn tốt nhất của bảng quyết định không đầy đủ sử dụng metric. Đầu vào là bảng quyết định không đầy đủ IDS= (U,C∪D,V,f), và đầu ra là một tập rút gọn tốt nhất R.

          Luận văn đã trình bày về hệ thông tin đầy đủ, hệ thông tin không đầy đủ, bảng quyết định đầy đủ, bảng quyết định không đầy đủ … Tiếp tục nghiên cứu sâu hơn về các phương pháp rút gọn khác, từ đó có thể xây dựng được các phương pháp rút gọn thuộc tính mới hiệu quả hơn phương pháp đã có. Mặc dù đã hết sức cố gắng trong quá trình tìm hiểu, nghiên cứu về luận văn, thời gian cũng có hạn nên chắc chắn luận văn không tránh khỏi những thiếu sót, rất mong Thầy Cô và các bạn góp ý để luận văn được hoàn chỉnh hơn.

          Bảng 3.3. Tập rút gọn của Thuật toán 2.2
          Bảng 3.3. Tập rút gọn của Thuật toán 2.2