Một số vấn đề liên quan đến lý thuyết tập thô

94 19 0
Một số vấn đề liên quan đến lý thuyết tập thô

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Đỗ Thị Mai Hƣờng MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN LÝ THUYẾT TẬP THƠ Chun ngành: Cơng nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS VŨ ĐỨC THI Hà nội – 2007 -1- LỜI CẢM ƠN Để hồn thành tốt luận văn này, em có động viên, giúp đỡ nhiều người Trước tiên, em xin bày tỏ lịng kính trọng biết ơn sâu sắc tới PGS.TS Vũ Đức Thi, người hướng dẫn, giúp đỡ tạo điều kiện cho em suốt trình làm luận văn Em xin cảm ơn TS Hà Quang Thụy cho em lời khuyên quý báu giai đoạn đầu trình làm luận văn Em xin chân thành cảm ơn Thầy Khoa Công nghệ thông tin - Đại học Công nghệ - Đại học Quốc gia Hà nội, Thầy Viện Công nghệ thông tin giảng dạy, truyền đạt kiến thức cho em suốt trình học tập nghiên cứu trường Cuối cùng, xin cảm ơn gia đình, bạn bè đồng nghiệp Khoa Công nghệ thông tin, Học viện Kỹ thuật Quân động viện, tạo điều kiện để tơi hồn thành q trình học tập hồn thành tốt luận văn Hà Nội, tháng 01 năm 2007 NGƢỜI THỰC HIỆN Đỗ Thị Mai Hường -2- MỤC LỤC BẢNG CÁC KÍ HIỆU VIẾT TẮT DANH SÁCH CÁC BẢNG .5 DANH SÁCH CÁC HÌNH VẼ MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ LÝ THUYẾT TẬP THÔ 10 1.1 Khám phá tri thức Error! Bookmark not defined 1.1.1 Định nghĩa khám phá tri thức 10 1.1.2 Các bước trình khám phá tri thức 11 1.1.3 Khai phá liệu 12 1.1.4 Các toán khai phá liệu 14 1.1.5 Một số kỹ thuật khai phá liệu .16 1.2 Lý thuyết tập thô 19 1.2.1 Hệ thông tin .19 1.2.2 Hệ định 20 1.2.3 Quan hệ không phân biệt hệ thông tin 21 1.2.4 Tập xấp xỉ trên, xấp xỉ miền biên .23 1.2.5 Tập thuộc tính rút gọn tập thuộc tính nhân 28 1.2.6 Ma trận phân biệt hàm phân biệt .30 1.2.7 Hàm thành viên thô 33 1.2.8 Sự phụ thuộc thuộc tính 34 1.3 Kết luận chƣơng 34 CHƢƠNG QUÁ TRÌNH KHÁM PHÁ TRI THỨC THEO CÁCH TIẾP CẬN TẬP THÔ 36 2.1 Sự rời rạc hoá dựa tập thô lập luận logic 36 2.1.1 Khái niệm tập nhát cắt, nhát cắt bảng định .36 2.1.2 Vấn đề rời rạc hóa 38 2.2 Lựa chọn thuộc tính dựa tập thơ với phƣơng pháp đánh giá kinh nghiệm …… .48 2.3 Một số phƣơng pháp khác xây dựng tập thuộc tính rút gọn 52 -3- 2.3.1 2.3.2 Loại trừ thuộc tính khơng liên quan từ rút gọn 52 Chiến lược Xóa 52 2.3.3 2.3.4 Chiến lược Thêm-Xóa 53 Chiến lược Thêm 54 2.3.5 Các thuật toán tính rút gọn dựa cặp đối tượng phân biệt 56 2.3.6 2.3.7 Rút gọn nửa tối thiểu 57 Chiến lược ngẫu nhiên 58 2.4 Quá trình khám phá luật bảng định 59 2.4.1 Luật bảng định 59 2.4.2 2.4.3 2.4.4 Hai đặc trưng luật: Độ mạnh độ nhiễu luật .60 Khám phá luật bảng phân bố tổng qt dựa tập thơ 60 Thuật tốn tối ưu hoá luật 68 2.4.5 2.4.6 2.4.7 Thuật toán giải pháp gần tối ưu luật 69 Tiêu chuẩn lựa chọn luật tập thô .70 Một số thuật toán sinh luật khác 70 2.5 Khám phá mẫu hệ thông tin 71 2.6 Kết luận chƣơng 72 CHƢƠNG ỨNG DỤNG LÝ THUYẾT TẬP THƠ TRONG BÀI TỐN TƢ VẤN THI ĐẠI HỌC 73 3.1 Bộ công cụ Rosetta .73 3.1.1 Giới thiệu .73 3.1.2 Các đặc trưng Rosetta 73 3.2 Ứng dụng lý thuyết tập thơ tốn Tƣ vấn thi đại học 75 3.2.1 Mô tả toán .75 3.2.2 Tập thơ tốn Tư vấn thi đại học 78 3.2.3 Quá trình phát luật 79 3.3 Kết luận chƣơng 88 KẾT LUẬN .89 TÀI LIỆU THAM KHẢO 91 -4- BẢNG CÁC KÍ HIỆU VIẾT TẮT Ký hiệu, viết tắt KDD Giải thích ý nghĩa Khám phá tri thức RS Tập thô A Hệ thông tin hay bảng định A, B D a Tập thuộc tính hệ thơng tin Tập thuộc tính định hệ thơng tin Một thuộc tính điều kiện tập thuộc tính điều kiện hệ thơng tin Va Tập giá trị thuộc tính điều kiện U Tập đối tƣợng (tập tổng thể) hệ thông tin Pa Tập nhát cắt tập Va RED CORE card (X) hay ||X|| Tập rút gọn Tập nhân Số lƣợng phần tử có X -5- DANH SÁCH CÁC BẢNG Bảng1.1: Ví dụ học cho khái niệm chơi tennis 16 Bảng 1.2: Một ví dụ hệ thơng tin 19 Bảng 1.3: Ví dụ bảng định TuyenSinh 21 Bảng 2.1: Bảng thông tin A* xây dựng từ A 47 Bảng 2.2: Bảng thông tin mô tả đối tượng 50 Bảng 2.3: Trạng thái khởi tạo 51 Bảng 2.4: Các bảng thông tin tương ứng với việc chọn thuộc tính a, c, d 51 Bảng 3.1: Tiêu chí chọn trường thi đại học 76 Bảng 3.2: Danh mục môn thi khối thi đại học 77 Bảng 3.3: Dữ liệu nhát cắt 82 Bảng 3.4: Dữ liệu sau rời rạc hóa 83 Bảng 3.5: Dữ liệu thu sau sinh luật 84 Bảng 3.6: Dữ liệu luật sau xử lý 85 -6- DANH SÁCH CÁC HÌNH VẼ Hình 1.1: Mơ hình mơ tả q trình khám phá tri thức 11 Hình 1.2: Mơ tả định cho khái niệm chơi tennis 17 Hình 1.3 : Xấp xỉ tập thí sinh cần xem xét thi đại học 24 Hình 2.1: Một họ phân hoạch định nghĩa tập nhát cắt 37 Hình 2.2: Quá trình rời rạc hóa 41 Hình 2.3 : Giá trị đối tượng biểu diễn đồ thị 42 Hình 2.4: Các nhát cắt đồ thị 43 Hình 2.5: Các điểm cắt thuộc tính a 44 Hình 2.6: Tập nhát cắt tối thiểu 46 Hình 3.1: Sơ đồ trình sinh luật 80 Hình 3.2 : Sơ đồ thuật tốn sinh liệu ngẫu nhiên 81 Hình 3.3: Mơ hình quan hệ sở liệu TuyenSinh 86 Hình 3.4: Giao diện nhập thơng tin dự đốn kết 87 Hình 3.5: Giao diện hiển thị kết dự đốn cho trường đại học 87 Hình 3.6: Giao diện hiển thị kết dự đoán cho nhiều trường đại học 88 -7- MỞ ĐẦU Cùng với phát triển Công nghệ thông tin, khám phá tri thức sở dƣ liệu lớn lĩnh vực đƣợc nhiều nhà nguyên cứu ứng dụng tin học đặc biệt quan tâm Khám phá tri thức sở liệu q trình tìm thơng tin mới, thơng tin hữu ích, tiềm ẩn sở liệu Quá trình phát tri thức gồm nhiều giai đoạn, giai đoạn khai phá liệu quan trọng Đây giai đoạn tìm thơng tin sở liệu Quá trình phát tri thức tiếp thu, sử dụng phát triển thành tựu nhiều lĩnh vực nghiên cứu ứng dụng tin học trƣớc nhƣ: lý thuyết nhận dạng, hệ chun gia, trí tuệ nhân tạo, thống kê, v.v Khám phá tri thức sử dụng nhiều thuật tốn khám phá tri thức nhƣ: Sử dụng định, phƣơng pháp thống kê, mạng neural, thuật toán di truyền, lý thuyết tập thô Trong thập niên gần đây, lý thuyết tập thô liên tục phát triển, thu hút ngày nhiều nhóm nghiên cứu ngƣời quan tâm đến phƣơng pháp luận Lý thuyết tập thô đƣợc bắt nguồn Zdzislaw Pawlak nhƣ kết trình nghiên cứu lâu dài thuộc tính logic hệ thơng tin Lý thuyết tập thơ đƣợc xây dựng tảng tốn học vững giúp cung cấp cơng cụ hữu ích để giải toán phân lớp liệu khai phá luật, Với đặc tính xử lý đƣợc liệu mơ hồ, không chắn tập thơ tỏ hữu ích việc giải toán thực tế Cụ thể, lý thuyết tập thô liệu đƣợc biểu diễn thông qua hệ thơng tin, hay bảng định; ý tƣởng việc phân tích liệu theo tiếp cận tập thô xuất phát từ khái niệm xấp xỉ tập, quan hệ không phân biệt đƣợc Từ bảng liệu lớn với liệu dƣ thừa, khơng hồn hảo, liệu liên tục, hay liệu biểu diễn dƣới dạng ký hiệu, lý thuyết tập thô cho phép khám phá tri thức từ loại liệu nhƣ nhằm phát quy luật tiềm ẩn từ khối -8- liệu Tri thức đƣợc biểu diễn dƣới dạng luật, mẫu mô tả mối quan hệ bị che dấu liệu Trong lý thuyết tập thô, chất lƣợng thông tin đƣợc đo cách sử dụng khái niệm tập xấp xỉ xấp xỉ duới Ngƣời ta tìm đƣợc tập thuộc tính nhỏ nhằm loại bỏ thông tin dƣ thừa, không cần thiết mà giữ đƣợc ý nghĩa Sau đó, dựa vào tập thuộc tính nhỏ ngƣời ta tìm quy luật chung mẫu để biểu diễn liệu Lý thuyết tập thơ đóng vai trị quan trọng trí tuệ nhân tạo ngành khoa học khác liên quan đến nhận thức, đặc biệt lĩnh vực máy học, thu nhận tri thức, phân tích định, phát khám phá tri thức từ sở liệu, hệ chuyên gia, hệ hỗ trợ định, lập luận dựa quy nạp nhận dạng Một số ứng dụng cụ thể lý thuyết tập thô đƣợc phát triển vài năm gần lĩnh vực nhƣ y học, dƣợc học, ngân hàng, tài chính, phân tích thị trƣờng Tiếp cận tập thơ đóng vai trị quan trọng nhiều ứng dụng kỹ thuật nhƣ máy chuẩn đốn, khoa học vật liệu,… Sự cơng bố lý thuyết tạo điều kiện phát triển nhiều ứng dụng [19,21] Một số ứng dụng tập thơ trí tuệ nhân tạo phân tích khám phá tri thức từ liệu [25] Với ƣu điểm nhƣ lý thuyết tập thô, dành thời gian để nghiên cứu tìm hiểu phƣơng pháp luận Luận văn sâu vào tìm hiểu ý tƣởng sở tốn học lý thuyết tập thơ Thơng qua tìm hiểu khai thác công cụ ROSETTA (đƣợc xây dựng Aleksander Ohrn cộng thuộc nhóm nghiên cứu tri thức thuộc khoa Khoa học máy tính thông tin trƣờng Đại học Norwegian, Trondheim, Na-uy nhóm Logic thuộc ĐHTH Warsaw, Ba-lan), luận văn đƣa số đề xuất ứng dụng thử nghiệm lý thuyết tập thô vào việc hỗ trợ định chọn trƣờng thi phù hợp với khả cho em học sinh trƣớc kỳ thi tuyển sinh đại học Luận văn đƣợc trình bày gồm có ba chƣơng:  Chƣơng 1: Giới thiệu tổng quan khám phá tri thức, toán khai phá liệu kỹ thuật khai phá liệu Giới thiệu khái niệm lý -9- thuyết tập thô nhƣ: hệ thông tin, bảng định, khái niệm không phân biệt đƣợc, tập xỉ trên, tập xỉ dƣới miền biên, ma trận phân biệt, rút gọn, v.v Nội dung chƣơng đƣợc tổng hợp từ tài liệu [5,6,7,8,9,10,15,12,18]  Chƣơng 2: Trình bày trình khám phá tri thức theo cách tiếp cận tập thô phƣơng pháp sử dụng trình khai phá liệu Chẳng hạn nhƣ rời rạc hóa liệu theo phƣơng pháp lập luận logic, rút gọn thuộc tính theo phƣơng pháp Heuristic, v.v Nội dung chƣơng đƣợc tổng hợp từ tài liệu [6,7,10,15,12,18,19,24]  Chƣơng 3: Từ kết nghiên cứu trình bày chƣơng chƣơng hai, thông qua công cụ ROSETTA [11], đề xuất ứng dụng lý thuyết tập thô vào thực tế toán tƣ vấn thi đại học -79- STT Tên trƣờng Mô tả Kiểu liệu HO_TEN Họ tên thí sinh (mơ tả) NVARCHAR2(30) NGAY_SINH Ngày sinh (mơ tả) DATE GIOI_TINH Giới tính (mơ tả) BIT DTB_TOAN Điểm trung bình mơn Tốn NUMERIC(9,1) (điều kiện) DTB_LY Điểm trung bình mơn Lý NUMERIC(9,1) (điều kiện) DTB_HOA Điểm trung bình mơn Hóa NUMERIC(9,1) (điều kiện) SUC_KHOE Sức khỏe (mô tả) PTTH Trƣờng Phổ thông trung học NVARCHAR(50) NVARCHAR(20) (điều kiện) QUAN_HUYEN Quận huyện (điều kiện) 10 TRUONG_THI Trƣờng đại học đăng ký dự thi NVARCHAR(20) NVARCHAR(50) (điều kiện) TRUNG_TUYEN Xem xét xem thí sinh có khả NVARCHAR(20) đỗ đại học hay khơng (quyết định) Các giá trị có thể: ( Đỗ; Trƣợt; Đỗ Trƣợt) Quá trình phát luật Bảng định TuyenSinh= (U, A  {d}) với U tập học sinh trƣớc kỳ thi đại học, A tập thuộc tính điều kiện bao gồm DTB_TOAN, DTB_LY, DTB_HOA, PTTH, QUAN_HUYEN, TRUONG_THI thuộc tính định TRUNG_TUYEN Các bƣớc thực trình phát luật kết hợp theo tiếp cận tập thô đƣợc tiến hành nhƣ sơ đồ sau: -80- Thông tin trƣờng PTTH, Quận huyện, Đại học Bước 1: Sinh liệu ngẫu nhiên Bảng định sau sinh TuyenSinh Thuật toán lập luận logic Ngƣời dùng định nghĩa liệu ngẫu nhiên Bước 2: Rời rạc hóa Thuật tốn Naive Thuật tốn Semi-Naive Từ file chứa thơng tin nhát cắt Bảng định sau rời rạc TuyenSinh1 hóa Thuật toán di truyền Bước 3: Tạo tập rút gọn Thuật toán Johnson Ngƣời dùng định Tập rút gọn nghĩa Tập rút gọn Bước 4: Sinh luật Tập luật Tập luật Bước 5: Sử dụng luật Chƣơng trình dự đoán kết thi đại học Dự đoán kết thi tuyển sinh Hình 3.1: Sơ đồ trình sinh luật -81- Chi tiết bƣớc mơ tả nhƣ sau: Bƣớc 1: Phát sinh liệu demo ngẫu nhiên theo thuật toán sau Input TPT, QH, DH, SoLuong,Threshold I =1 I=I+1 I

Ngày đăng: 23/09/2020, 22:06

Từ khóa liên quan

Mục lục

  • Trang bìa

  • LỜI CẢM ƠN

  • MỤC LỤC

  • BẢNG CÁC KÍ HIỆU VIẾT TẮT

  • DANH SÁCH CÁC BẢNG

  • DANH SÁCH CÁC HÌNH VẼ

  • MỞ ĐẦU

  • 1.1 . Khám phá tri thức

  • 1.1.1. Định nghĩa khám phá tri thức

  • 1.1.2. Các bước chính trong quá trình khám phá tri thức

  • 1.1.3. Khai phá dữ liệu

  • 1.1.4. Các bài toán chính trong khai phá dữ liệu [5,9,13,14]

  • 1.1.5. Một số kỹ thuật khai phá dữ liệu

  • 1.2 . Lý thuyết tập thô

  • 1.2.1. Hệ thông tin

  • 1.2.2. Hệ quyết định

  • 1.2.3. Quan hệ không phân biệt được trong hệ thông tin

  • 1.2.4. Tập xấp xỉ trên, xấp xỉ dƣới và miền biên

  • 1.2.5. Tập thuộc tính rút gọn và tập thuộc tính nhân

  • 1.2.6. Ma trận phân biệt và hàm phân biệt

Tài liệu cùng người dùng

Tài liệu liên quan