1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nới lỏng truy vấn sử dụng kĩ thuật khám phá tri thức

59 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ──────── * ─────── 10 ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC NGÀNH CÔNG NGHỆ THÔNG TIN 15 20 NỚI LỎNG TRUY VẤN SỬ DỤNG KĨ THUẬT KHÁM PHÁ TRI THỨC 25 Sinh viên thực : Nguyễn Chí Thanh Lớp HTTT – K50 Giáo viên hướng dẫn: PGS TS Nguyễn Kim Anh 30 35 HÀ NỘI 6-2010 40 PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Thông tin sinh viên Sinh viên thực hiện: Nguyễn Chí Thanh – K50 – Lớp HTTT B Trang 45 Họ tên sinh viên: Nguyễn Chí Thanh Điện thoại liên lạc: 0986703698 Email: thanhnc201086@gmail.com Lớp: HTTT B – K50 Hệ đào tạo: Đại học quy Đồ án tốt nghiệp thực tại: Bộ môn Hệ thống thông tin, Viện CNTT & Truyền thông, Trường Đại học Bách khoa Hà nội Thời gian làm ĐATN: Từ ngày 05 / 01 /2010 đến 28 / 05 /2010 50 Mục đích nội dung ĐATN Chứng minh giải pháp cho toán nới lỏng truy vấn sử dụng tri thức học online cài đặt hệ thống thử nghiệm 55 Các nhiệm vụ cụ thể ĐATN 60 - Tìm hiểu tốn nới lỏng truy vấn thực trạng nới lỏng truy vấn dựa cách tiếp cận có - Tìm hiểu kĩ thuật khám phá tri thức nghiên cứu khả áp dụng cho toán nới lỏng truy vấn - Chứng minh giải pháp nới lỏng truy vấn sử dụng kĩ thuật khám phá tri thức - Cài đặt hệ thống thử nghiệm 65 70 Lời cam đoan sinh viên: Tơi – Nguyễn Chí Thanh - cam kết ĐATN cơng trình nghiên cứu thân hướng dẫn PGS TS Nguyễn Kim Anh Các kết nêu ĐATN trung thực, khơng phải chép tồn văn cơng trình khác Hà Nội, ngày tháng năm 2010 Tác giả ĐATN Nguyễn Chí Thanh 75 Xác nhận giáo viên hướng dẫn mức độ hoàn thành ĐATN cho phép bảo vệ: 80 Hà Nội, ngày tháng năm 2010 Giáo viên hướng dẫn PGS TS Nguyễn Kim Anh Sinh viên thực hiện: Nguyễn Chí Thanh – K50 – Lớp HTTT B Trang TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP Nội dung đồ án bao gồm chương 85 Phần mở đầu Phần giới thiệu toán nới lỏng truy vấn với hệ tìm kiếm thơng tin 90 95 Chương – Tổng quan nới lỏng truy vấn Phần đặt vấn đề toán nới lỏng, thực trạng nới lỏng truy vấn, đề xuất hướng tiếp cận Chương - Kĩ thuật khai phá liệu toán học phân loại Chương trình bày khái niệm kĩ thuật khám phá tri thức, mơ hình tốn phân loại, phân tích khả áp dụng cho toán nới lỏng Chương - Nới lỏng theo tiếp cận học định Chương trình bày phương pháp sử dụng kết toán phân loại toán nới lỏng truy vấn online, điều khiển theo truy vấn 100 105 Chương - Chương trình cài đặt thử nghiệm Chương giới thiệu hệ thống thử nghiệm có cài đặt kỹ thuật chương đầu Nội dung chương tập trung vào kiến trúc hệ thống thử nghiệm, giới thiệu lớp chương trình CSDL thử nghiệm Phần cuối chương đưa số kết minh họa hoạt động hệ thống Phần kết luận hướng phát triển Phần tổng kết lại kết đồ án đạt vấn đề tồn đọng, đồng thời đưa số phương án phát triển đề tài lên mức cao 110 Sinh viên thực hiện: Nguyễn Chí Thanh – K50 – Lớp HTTT B Trang Mục lục LỜI CẢM ƠN .3 DANH MỤC CÁC HÌNH VẼ .4 DANH MỤC CÁC BẢNG 115 DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ Mở đầu Chương I Tổng quan nới lỏng truy vấn 10 1.1 Định nghĩa .10 1.2 Vị trí nới lỏng 10 120 1.3 Một số cách tiếp cận nới lỏng 11 1.3.1 Hạn chế tiếp cận học offline 12 1.3.2 Tiếp cận nới lỏng sử dụng tri thức học online 12 Chương II Kĩ thuật khai phá liệu toán học phân loại 13 2.1 Khai phá tri thức 13 125 2.2 Mơ hình học, dự đốn tốn phân loại 18 2.3 Mơ hình học định 21 2.3.1 Cây định .21 2.3.2 Thuật toán ID3/C4.5 .24 2.3 Học định cho toán nới lỏng truy vấn .34 130 2.4 Sơ nét thư viện lập trình học máy Weka .35 Chương III Nới lỏng theo tiếp cận học định 36 3.1 Cách tiếp cận thuật toán 36 3.2 Giải thuật thực 40 3.2.1 Dạng câu truy vấn 42 135 3.2.2 Bước 1: Khám phá tri thức miền 42 3.2.3 Bước 2: Tìm luật tương tự 43 3.2.3 Bước 3: Nới lỏng tập ràng buộc 45 Chương IV Chương trình cài đặt thử nghiệm 47 4.1 Kiến trúc hệ thống .47 Sinh viên thực hiện: Nguyễn Chí Thanh – K50 – Lớp HTTT B Trang 140 4.1.1 Bộ chuẩn hóa truy vấn 47 4.1.2 Biến đổi điều kiện 48 4.2 Các lớp chức năng: 51 4.3 Cơ sở liệu thử nghiệm 54 4.4 Thử nghiệm hệ thống 56 145 Chương V Kết luận hướng phát triển .59 5.1 Các kết luận 59 5.1.1 Hạn chế LOQR .59 5.1.2 Độ lớn tập liệu rèn luyện .60 5.1.3 Xử lý online offline 61 150 5.1.4 Kĩ thuật điều khiển tiến trình học dựa truy vấn (query - guided) .61 5.1.5 Vấn đề xung quanh học định 62 5.2 Hướng phát triển 62 Tài liệu tham khảo .64 Sinh viên thực hiện: Nguyễn Chí Thanh – K50 – Lớp HTTT B Trang 155 LỜI CẢM ƠN Để đồ án tốt nghiệp hoàn thành bên cạnh nỗ lực thân sinh viên suốt q trình học tập, cịn có lời động viên, hướng dẫn, giúp đỡ tận tình từ phía thầy cơ, gia đình bạn bè Vì em xin dành lời luận văn tốt nghiệp cho lời cảm ơn 160 Trước hết, em xin gửi lời cảm ơn chân thành sâu sắc tới giáo viên hướng dẫn: PGS TS Nguyễn Kim Anh, khoa Công nghệ thông tin, trường Đại học Bách Khoa Hà Nội Cô người cho em hướng dẫn, bảo tận tình với quan tâm động viên vơ hữu ích suốt q trình em thực đồ án 165 Em xin gửi lời cám ơn chân thành tới thầy cô giáo môn Hệ thống thơng tin, khoa Cơng nghệ thơng tin nói riêng tồn thể thầy giáo trường Đại học Bách Khoa Hà Nội nói chung Các thầy tận tình với giảng, với tận tâm công tác giảng dạy, cho em kiến thức, học vơ bổ ích chuyên môn đạo đức suốt năm năm học vừa qua Những kiến thức mà thầy cô truyền dạy khơng giúp em hồn thành tốt đồ án tốt nghiệp mà chắn giúp ích cho em nhiều tương lai 170 Cuối cùng, xin gửi lời cảm ơn sâu sắc tới gia đình thân yêu, tới anh chị, bạn bè thân thiết bên cạnh động viên, giúp đỡ 175 Mặc dù cố gắng nỗ lực , song chắn luận văn khơng khỏi cịn nhiều thiếu sót Em mong nhận thơng cảm bảo tận tình Thầy Cô bạn 180 Hà Nội, 05/2010 Sinh viên thực hiện: Nguyễn Chí Thanh Sinh viên thực hiện: Nguyễn Chí Thanh – K50 – Lớp HTTT B Trang DANH MỤC CÁC HÌNH VẼ Hình 1: Vị trí nới lỏng 11 185 Hình 2: Thuận lợi khám phá tri thức 14 Hình 3: Tiến trình khai phá tri thức 15 Hình 4: Ứng dụng KDD 17 Hình 5: Mơ hình học 19 Hình 6: Mơ hình thử 19 190 Hình 7: Mơ hình sử dụng (phân loại) 20 Hình 8: Ví dụ định 23 Hình 9: Lượng thơng tin đạt phân chia tập ví dụ thuộc tính Huminity 28 Hình 10: Lượng thơng tin đạt phân chia tập ví dụ trên thuộc tính Wind .28 Hình 11: Lượng thông tin đạt phân chia tập ví dụ trên thuộc tính Outlook 29 195 Hình 12: Phân chia thuộc tính số 30 Hình 13: Chia lớp theo số Gini .31 Hình 14: Quá trình thử phân chia tính số Gini 33 Hình 15: Cây định thu sau phân chia tập ví dụ 34 Hình 16: Giải thuật nới lỏng .41 200 Hình 17: Trích xuất tri thức miền giá trị 42 Hình 18: Nới lỏng tập ràng buộc 45 Hình 19: Ví dụ điều kiện 48 Hình 20: Ví dụ điều kiện (2) .49 Hình 21: Cây điều kiện thu sau phép biến đổi 50 205 Hình 22: Kiến trúc hệ thống thử nghiệm 51 Hình 23: Lược đồ CSDL thử nghiệm 54 Hình 24: Giao diện hệ thống 56 Sinh viên thực hiện: Nguyễn Chí Thanh – K50 – Lớp HTTT B Trang DANH MỤC CÁC BẢNG Bảng 1: Dữ liệu thống kê chơi golf .23 210 Bảng 2: Bảng ví dụ 32 Bảng 3: Bảng liệu thử 37 Bảng 4: Bảng liệu Di 37 Sinh viên thực hiện: Nguyễn Chí Thanh – K50 – Lớp HTTT B Trang DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ 215 STT TỪ VIẾT TẮT GIẢI NGHĨA TIẾNG ANH GIẢI NGHĨA TIẾNG VIỆT LOQR Learning for Online Query Relaxtion Giải pháp học nới lỏng truy vấn online KDD Knowledge Discovery of Databases Khám phá tri thức từ sở liệu ML Machine Learning Học máy DM Data Mining Khai phá liệu DNF Disjunctive Normal Form Dạng chuẩn tuyển GNU General Public License Sinh viên thực hiện: Nguyễn Chí Thanh – K50 – Lớp HTTT B Trang Mở đầu 220 Ngày nay, với phát triển mạnh mẽ công nghệ, thông tin ngày lưu trữ nhiều máy tính internet Tuy nhiên, phức tạp hệ sở liệu phân tán việc truy cập từ xa thực thách thức Người dùng có nhu cầu tìm kiếm thơng tin internet, truy cập gián tiếp tới liệu, khơng thể mở tồn sở liệu đích, không hiểu biết cấu trúc sở liệu, quan hệ tồn nên mà họ thường xuyên gặp phải thất bại tái diễn truy vấn, khơng có kết thỏa mãn 225 Việc nới lỏng truy vấn tay mà đòi hỏi cộng tác người dùng qua bước thực công việc gây thời gian, buồn tẻ, chán ngắt Trong trường hợp xấu họ phải xét đến hàm số mũ khả nới lỏng (các khả nới lỏng lả cách thử kết hợp khác dựa giá trị tập thuộc tính) 230 Trong tình tệ hơn, nới lỏng mức truy vấn (đôi phá vỡ ràng buộc để có nhiều thỏa mãn) đưa giá khơng ngờ tới khía cạnh băng thơng phí phải trả cho kết có 235 240 245 250 10 Trước tình hình đó, u cầu đặt với hệ tìm kiếm thơng tin đại phải sử dụng nguồn tri thức bổ sung để giải ngày nhiều vấn đề đau đầu nói Vai trị tri thức khơng đem lại trả lời thỏa đáng cho người dùng mà cịn có nhiều khả đáng kinh ngạc: giải thích thơng minh, cung cấp thêm hiểu biết lựa chọn cho người dùng nhờ tư vấn ngày nhanh chóng xác Vậy nguồn tri thức lấy từ đâu? Khái niệm tri thức thơng tin tích lũy, bao gồm nhân tố mối quan hệ chúng, nhận ra, nghiên cứu học hệ thống thơng minh, hay “hình ảnh mơ não người” Tri thức coi liệu mức khái quát trừu tượng cao Kĩ thuật khai phá liệu (KDD) học máy (Machine learning) mở rộng khả tìm kiếm thơng tin Khả học thành tố quan trọng hành vi thông minh Để giải thành cơng tốn khai phá liệu cần có phối hợp nỗ lực vượt bậc chuyên gia người sử dụng cuối Nhà chuyên gia cần nắm vững kỹ thuật, hiểu yêu cầu thực tế, vận dụng kỹ thuật để giải tốn giải thích kết ngôn ngữ thực tế cho người sử dụng Và người sử dụng cần nhận toán thiết thực, nắm bắt kết đạt vận dụng chúng cách hiệu thực tế Sinh viên thực hiện: Nguyễn Chí Thanh – K50 – Lớp HTTT B Trang 10

Ngày đăng: 30/06/2023, 18:21

Xem thêm:

w