Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 66 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
66
Dung lượng
1,11 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - TRẦN THU PHƯƠNG XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Chuyên ngành : Khoa học máy tính Mã số : 60 48 01 Thái Nguyên, năm 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ LỜI CẢM ƠN Để hồn tất luận văn Thạc sĩ yêu cầu tập trung, cố gắng độc lập nghiên cứu Bản thân sau năm tháng học tập vất vả nghiên cứu cố gắng để hoàn thành luận văn Tơi ln ghi nhận đóng góp giúp đỡ nhiệt tình người bên cạnh mình, ủng hộ, hỗ trợ bố mẹ, bạn bè giúp tơi có thêm động lực để hồn thành khóa luận tốt nghiệp, nhân muốn gửi lời cảm ơn tới họ Lời cảm ơn trân trọng muốn dành tới GS.TS Vũ Đức Thi, người thầy dìu dắt hướng dẫn tơi suốt trình làm luận văn, bảo định hướng thầy giúp tự tin nghiên cứu vấn đề giải toán cách khoa học Tôi xin trân trọng cảm ơn Ban giám hiệu Trường Đại học Công nghệ Thông tin Truyền thông, Đại học Thái nguyên; Trường Dự bị Đại học Dân tộc Sầm Sơn, Thanh Hóa tạo điều kiện cho chúng tơi học tập làm khóa luận cách thuận lợi Lời cảm ơn sâu sắc muốn gửi tới thầy giáo Viện Công nghệ Thông tin - Viện khoa học Việt Nam, người thầy dạy dỗ mở cho thấy chân trời tri thức mới, hướng dẫn cách khám phá làm chủ công nghệ Tôi muốn gửi lời cảm ơn chân thành đến tập thể lớp CHK8B-KHMT qua tháng ngày miệt mài học tập, chia sẻ niềm vui, nỗi buồn, động viên tơi qua khó khăn, để vững bước vượt qua vất vả, tâm hồn thành luận văn Tơi xin trân trọng cảm ơn bố mẹ, người thân, bạn bè, đồng nghiệp, người mang tới tất niềm tin, định hướng theo dõi suốt chặng đường đời Nâng đỡ đến bên tơi giây phút khó khăn sống Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ Tuy nhiên thời gian có hạn, nỗ lực cố gắng luận văn khó tránh khỏi thiếu sót Rất mong bảo, góp ý tận tình Q thầy bạn Thanh Hóa, tháng năm 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ MỤC LỤC LỜI CẢM ƠN .1 DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU DANH MỤC TỪ VIẾT TẮT .7 LỜI MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ 10 LÝ THUYẾT TẬP THÔ 10 1 Khai phá liệu 10 1.1.1 Khai phá tri thức 10 1.1.2 Khai phá liệu 12 1.1.2.1 Một số khía cạnh khai phá chủ yếu 13 1.1.2.2 Một số kỹ thuật Khai phá liệu .14 1.2 Lý thuyết tập thô 18 1.2.1 Giới thiệu tập thô 18 1.2.2 Bảng định .20 1.3 Kết luận chƣơng 22 CHƢƠNG XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN 24 THEO CÁCH TIẾP CẬN TẬP THÔ .24 2.1 Luật trình khám phá Luật Bảng định 24 2.1.1 Định nghĩa luật đặc trưng 24 2.1.2 Khám phá luật bảng phân bố tổng quát dựa tập thô thuật toán tối ưu hoá luật .25 2.2 Vấn đề rời rạc hố dựa lý thuyết tập thơ 26 2.2.1 Các định nghĩa 27 2.2.2 Vấn đề rời rạc hoá dựa lý thuyết tập thô 29 2.3 Một số thuật toán sử dụng lý thuyết tập thơ 31 2.3.1 Thuật tốn lựa chọn thuộc tính sử dụng tập thơ theo phương pháp đánh giá kinh nghiệm 31 2.3.2 Thuật tốn tìm tập rút gọn dựa vào cặp số phân biệt 35 2.3.3 Thuật toán sử dụng phép toán đại số .36 2.3.4 Thuật tốn tìm lõi bảng định 39 2.3.5 Thuật toán tìm tập rút gọn theo xấp xỉ ngồi 39 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ 2.3.6 Thuật tốn tìm tập rút gọn theo xấp xỉ 40 2.4 Một số thuật tốn lập nhóm văn 42 2.4.1 Thuật toán K – means 42 2.4.2 Thuật tốn lập nhóm theo phân cấp 42 2.4.3 Xác định thuật đại diện cho nhóm 44 2.4.4 Độ tương tự văn nhóm văn 44 2.5 Kết luận chƣơng 44 CHƢƠNG SỬ DỤNG MỘT THUẬT TỐN ĐỂ TÌM TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ PHỤC VỤ 45 BÀI TỐN TRA CỨU THƠNG TIN 45 3.1 Tra cứu thông tin 45 3.2 Tra cứu thông tin văn 46 3.2.1 Tra cứu thông tin văn 46 3.2.2 Xử lý hệ thống thông tin văn 47 3.2.3 Một số kỹ thuật tra cứu thông tin văn .48 3.3 Phƣơng pháp tra cứu thông tin áp dụng lý thuyết tập thô .50 3.3.1 Xây dựng tập văn 50 3.3.2 Gán trọng số cho thuật ngữ dung sai xấp xỉ 50 3.3.3 Phân cụm văn 52 3.3.4 Biểu diễn đặc trưng cụm 53 3.3.5 Độ tương tự văn cụm 54 3.4 Kết luận chƣơng 54 CHƢƠNG XÂY DỰNG HỆ THỐNG VÀ THỬ NGHIỆM .55 4.1 Môi trƣờng tảng phát triển 55 4.2 Một số giao diện hệ thống .55 4.2.1 Xây dựng sở liệu 55 4.2.2 Giao diện hệ thống 56 4.2.2.1 Phương pháp xây dựng kho liệu 56 4.2.2.2 Một số giao diện .57 4.3 Kết luận chƣơng 58 KẾT LUẬN 59 TÀI LIỆU THAM KHẢO 60 PHỤ LỤC : DANH SÁCH CÁC TỪ DỪNG, TỪ TẦM THƢỜNG 63 PHỤ LỤC TỪ DỪNG, TỪ TẦM THƢỜNG 64 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ DANH MỤC HÌNH VẼ Hình 1.1: Mơ hình mơ tả q trình khai phá tri thức 11 Hình 3.1 Nguyên lý tra cứu thông tin 45 Hình 3.2 Mơ hình hệ thống tra cứu thông tin văn 47 Hình 3.3 Các bƣớc mơ tả xây dựng hệ thống 48 Hình 3.4 Mơ hình tốn tra cứu thơng tin áp dụng lý thuyết tập thơ 50 Hình 3.5 Thuật tốn phân cụm văn 53 Hình 3.6 Tìm thuật ngữ đại diện cho cụm 54 Hình 4.1 Bảng thông tin tài liệu 55 Hình 4.2 Bảng lƣu trữ thông tin lĩnh vực 55 Hình 4.3 Bảng lƣu trữ thơng tin ngơn ngữ 56 Hình 4.4 Bảng thông tin từ chủ đề 56 Hình 4.5 Giao diện trang chủ hệ thống tra cứu .57 Hình 4.6 Kết tra cứu hệ thống 58 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ DANH MỤC BẢNG BIỂU Bảng 1.1 Bảng hệ thống thông tin bệnh cúm .22 Bảng 1.2 Bảng rút gọn thứ hệ thống bệnh cúm (R1) .22 Bảng 1.3 Bảng rút gọn thứ hai hệ thống bệnh cúm (R2) .22 Bảng 2.1 Bảng thông tin mô tả đối tƣợng .34 Bảng 2.2 Khởi tạo ban đầu 34 Bảng 2.3 Chọn {a} 34 Bảng 2.4 Chọn {b} 35 Bảng 2.5 Chọn {d} 35 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ DANH MỤC TỪ VIẾT TẮT STT Chữ viết tắt Mô tả KDD Knowledge Data Development CSDL Cơ sở liệu SVM Support Vector Machine DM Data Mining Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ LỜI MỞ ĐẦU Tính cấp thiết đề tài Cùng với phát triển khoa học kỹ thuật việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích luỹ nhiều lên, lồi người lưu trữ lượng thông tin vô rộng lớn Tuy nhiên, việc khai thác nguồn liệu cịn tốn khó cho người làm khoa học Trên thực tế, có nhiều hệ thống thực cơng việc theo phương pháp khác nhau, chưa đạt hiệu tối ưu phần đáp ứng yêu cầu thông tin cho người sử dụng Mỗi phương pháp khác thể điểm mạnh riêng việc lựa chọn phương pháp phụ thuộc vào mục đích, yêu cầu tiêu chí riêng đặt Để khai thác có hiệu nguồn thông tin từ sở liệu khổng lồ trên, yêu cầu đặt cần phải có phương pháp tổ chức, khai thác liệu nhanh, tự động xác để chuyển đổi kho liệu khổng lồ thành tri thức có ích, có ứng dụng thực tiễn cao Từ kỹ thuật khai phá liệu (Data Mining) kỹ thuật khám phá, phát tri thức (Knowledge Discovery) trở thành lĩnh vực đặc biệt quan tâm lĩnh vực công nghệ thông tin Kỹ thuật khai phá tri thức khai phá liệu nghiên cứu, phát triển nhiều lĩnh vực khác y tế, giáo dục, kinh tế Đây lĩnh vực liên quan đến nhiều ngành học hệ sở liệu, trực quan hoá với nhiều cách tiếp cận, sử dụng kỹ thuật khác mạng nơron, lý thuyết tập thô, biểu diễn tri thức Nhằm mục đích tìm hiểu, nghiên cứu phần việc sử dụng kỹ thuật khai phá tri thức, khai phá liệu thực tiễn Tôi mạnh dạn chọn đề tài “Xây dựng tập thuộc tính rút gọn theo cách tiếp cận tập thơ”, từ sử dụng thuật tốn để tìm tập rút gọn phục vụ tốn: Tra cứu thơng tin Mục tiêu đề tài Mục tiêu đề tài nghiên cứu lý thuyết tập thô tập rút gọn, từ áp dụng Bài tốn: Tra cứu thơng tin Web Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ Đóng góp đề tài Đề tài nghiên cứu tập thơ khía cạnh lý thuyết áp dụng trực tiếp vào tốn: Tra cứu thơng tin, đề tài có đóng góp cụ thể sau: - Nghiên cứu phương pháp tra cứu thông tin áp dụng lý thuyết tập thô - Xây dựng tập liệu phục vụ cho thử nghiệm - Xây dựng hệ thống tra cứu thông tin web áp dụng lý thuyết tập thô Bố cục luận văn Luận văn bố cục thành chương chi tiết sau: - Chương 1: Tổng quan khai phá liệu lý thuyết tập thô - Chương 2: Trình bày số phương pháp xây dựng tập thuộc tính rút gọn - Chương 3: Phương pháp xây dựng hệ thống tra cứu thông tin áp dụng lý thuyết tập thô - Chương 4: Xây dựng hệ thống thử nghiệm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ 51 Mỗi thuật ngữ ti gán trọng số wi tương ứng xác định theo công thức M (1 log( f d j (ti ))) log f (t ) if ti d j wij D i if t d i j Trong : fdj(ti) tần suất xuất thuật ngữ ti văn dj FD(ti) số văn xuất thuật ngữ ti Sau wij biểu diễn thơ hóa để giá trị nằm khoảng [0,1] wij sau: wij t h j d j ( whj ) Mỗi văn dj biểu diễn lại cách chi tiết thuật ngữ có trọng số cao d j (t1 j , w1 j ; t2 j , w2 j ; ; trj , wrj ) Với wij [0,1] Tất tập thuật ngữ D truy vấn Q định nghĩa qi T Và wiq [0,1] Q (q1 , w1q ; q2, w2q ; ; qs , wsq ) Giả sử fD(ti,tj) số văn tập D xuất đồng thời thuật ngữ ti tj Ta định nghĩa hàm không chắn I phụ thuộc vào ngưỡng I (t j ) {t j | f D (ti , t j ) } {ti } I thỏa mãn điều kiện ti I (t i ) tj I (t i ) Nếu ti I (t j ) với ti, tj T , I Hàm tương ứng với quan hệ dung sai L T T ti Lt j tj I (t i ) I (t i ) lớp dung sai thuật ngữ ti Một hàm chưa chắn v xác định X Y định nghĩa v( X , Y ) | X Y | |X| Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ 52 Sử dụng hàm để tính tốn hàm thành viên cho ti T , X T định nghĩa (ti , X ) v( I (ti ), X ) | I (ti ) X | | I (ti ) | Dựa vào định nghĩa xác định dung sai xấp xỉ L( R, X ) {ti T | v( I (ti ), X ) 1} L( R, X ) {ti T | v( I (ti ), X ) 0} L(R,X) xấp xỉ U(R,X) xấp xỉ Từ đó, trọng số thuật ngữ văn tính cơng thức M ( log( f ( t ))) log ti d j, d i j f D (ti ) log(M / f D (ti )) wij min th j d j whj t i U(R, d j ) \ d j log(M / f D (ti )) 0 t i U ( R, d j ) 3.3.3 Phân cụm văn Phân cụm văn làm nhiệm vụ nhóm văn có nội dung thơng tin tương tự thành nhóm Mỗi cụm văn có tập đặc trưng đại diện Từ dễ dàng tra cứu thơng tin Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ 53 THUẬT TOÁN PHÂN CỤM Đầu vào D: Tập gồm M văn K: integer; Đầu K cụm văn với thành viên cụm Bước 1: Xác định đại diện khởi tạo R1,R2,…RK cụm C1,C2, ,CK cách chọn ngẫu nhiên K văn D Bước 2: Với d j Dt tính độ tương tự S(U(R,dj),Rk) đại diện nhóm Rk,k=1, ,K Nếu độ tương tự lớn ngưỡng cho trước, gán dj vào Ck đưa giá trị tương tự nhóm thành viên m(dj) dj Ck Bước 3: Với lớp Ck, xác định lại đại diện Rk Bước 4: Lặp lại bước đến khơng có thay đổi thành viên nhóm Hình 3.5 Thuật tốn phân cụm văn 3.3.4 Biểu diễn đặc trƣng cụm - Mỗi văn d j Ck có số thuật ngữ phổ biến Rk - Các thuật ngữ Rk chiếm số lượng lớn d j Ck - Không thuật ngữ Rk bắt buộc phải nằm văn Ck Có nghĩa luật định Bayesian với tỉ lệ lỗi nhỏ gán văn dj lớp Ck nếu: P(d j | Ck ) P(Ck ) P(d j | Ch ) P(Ch ),h k Với giả thiết thuật ngữ xuất độc lập văn ta có: P(d j | Ck ) P(t j1 | Ck ) P(t j | Ck ) P(t jp | Ck ) Định nghĩa fCk(ti) số văn Ck chứa ti, ta có P(ti | Ck ) fCk (ti ) / | Ck | Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ 54 Bước 1: Khởi tạo, Rk Bước 2: For tất d j Ck For tất ti d j , If fCk (ti ) / | Ck | then Rk Rk {ti } Bước 3: If d j Ck d j Rk then Rk Rk arg max t i d j wij Hình 3.6 Tìm thuật ngữ đại diện cho cụm Trọng số thuật ngữ ti Rk trung bình trọng số thuật ngữ tất văn phụ thuộc vào Ck, có nghĩa wik ( d j Ck wij ) / | {d j : ti d j } | 3.3.5 Độ tƣơng tự văn cụm Độ tương tự văn cụm tính tốn cách đo độ tương tự dj1 dj2 thông qua hệ số cosin: S C ( d j1 , d j ) N k 1 N k 1 ( wkj1 wkj ) wkj1 k 1 wkj ) N 3.4 Kết luận chƣơng Việc phân nhóm văn rút gọn tập thuật ngữ đại diện cho nhóm giảm thiểu thời gian tìm kiếm, tra cứu thơng tin lượng liệu ngày lớn Mặt khác, văn phân cụm cho độ xác cao Giao diện hệ thống áp dụng lý thuyết tập thô để rút gọn tập thuật ngữ trình bày chương sau luận văn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ 55 CHƢƠNG XÂY DỰNG HỆ THỐNG VÀ THỬ NGHIỆM Trong chương này, giới thiệu ngơn ngữ lập trình sử dụng, sở liệu hệ thống tra cứu thông tin giao diện hệ thống Chúng giới thiệu phương pháp xây dựng kho liệu phục vụ cho trình xây dựng thử nghiệm hệ thống thủ công 4.1 Môi trƣờng tảng phát triển Hệ thống tra cứu thông tin áp dụng luật rút gọn lý thuyết tập thô xây dựng visual studio.net 2010 hệ quản trị sở liệu SQL Server 2008 môi trường windows XP 4.2 Một số giao diện hệ thống 4.2.1 Xây dựng sở liệu Cơ sở liệu xây dựng bốn bảng liệu Bảng lưu trữ thơng tin tài liệu văn có cấu trúc Hình 4.1 Hình 4.1 Bảng thơng tin tài liệu Hình 4.2 bảng lưu trữ thơng tin lĩnh vực Các tài liệu phân loại theo lĩnh vực cụ thể Hình 4.2 Bảng lưu trữ thơng tin lĩnh vực Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ 56 Hình 4.3 bảng lưu trữ ngôn ngữ lựa chọn để tra cứu Hình 4.3 Bảng lưu trữ thơng tin ngơn ngữ Hình 4.4 mơ tả nội dung bảng lưu trữ thông tin danh từ thuộc chủ đề định Hình 4.4 Bảng thơng tin từ chủ đề 4.2.2 Giao diện hệ thống 4.2.2.1 Phương pháp xây dựng kho liệu Hệ thống tra cứu thông tin xây dựng mô hệ thống tra cứu thơng tin google Do đó, giao diện hệ thống xây dựng công nghệ web asp.net Kho liệu thu thập từ nhiều trang tin trực tuyến khác http://vnexpress.net, http://vietnamnet.vn, http://pcworld.com, http://google.com, … Xây dựng đặc trưng riêng cho nhóm văn sau: - Sử dụng công cụ tách từ tiếng Việt Để tách từ tiếng Việt, dùng công cụ tách từ Tiếng Việt vlsp (nhánh đề tài "Xử lí văn bản" phần đề tài KC01.01/06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lí tiếng nói văn tiếng Việt" (VLSP) http://vlsp.vietlp.org:8080/demo/) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ 57 - Sử dụng tập luật rút gọn để loại bỏ từ không cần thiết (sử dụng phụ lục danh sách từ dừng) - Phân cụm văn phục vụ mục đích tra cứu nhanh [19] - Rút gọn tập thuật ngữ lần nhằm mục đích tra cứu nhanh từ khóa (key word) đại diện cho nhóm văn 4.2.2.2 Một số giao diện Dưới số hình ảnh giao diện hệ thống Giao diện trang chủ mơ tả hình 4.5 Tra cứu dựa ngơn ngữ tiếng Anh tiếng Việt Hình 4.5 Giao diện trang chủ hệ thống tra cứu Hình 4.6 hình ảnh sau nhập chuỗi vào tra cứu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ 58 Hình 4.6 Kết tra cứu hệ thống 4.3 Kết luận chƣơng Dựa phương pháp đề xuất chương 3, chương xây dựng thành công hệ thống Vấn đề tra cứu thông tin chủ yếu tập trung tra cứu thông tin văn web mang lại hiệu tương đối cao Tuy nhiên, kho liệu chuẩn tiếng Việt phục vụ cho tra cứu thơng tin chưa có, chúng tơi phải tự xây dựng Do đó, kho liệu phục vụ luận văn hạn chế số lượng chủ đề Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ 59 KẾT LUẬN Tra cứu thông tin ngày yêu cầu cấp thiết, lượng liệu Internet ngày lớn Từ tra cứu thông tin, thu thơng tin quan trọng hữu ích cách truy vấn hệ thống tra cứu thông tin trực tuyến Hệ thống tra cứu thông tin thơng minh tiền đề để xây dựng hệ thống Q&A hồn hảo, từ máy tính chủ động làm cơng việc bán hàng qua mạng thay người Trong luận văn này, sử dụng lý thuyết tập thô để xây dựng hệ thống tra cứu thông tin cách rút gọn tập thuật ngữ, từ rút gọn tập đặc trưng, hữu ích q trình tra cứu nhanh Trong tương lai, hướng tới xây dựng hệ thống tra cứu thông tin theo ngữ nghĩa chuỗi ký tự đưa vào cách làm cho hệ thống thơng minh dựa kỹ thuật máy học Nâng cao tốc độ tìm kiếm xây dựng kho liệu tiêu chuẩn đầy đủ dùng cho tra cứu thơng tin ngữ nghĩa Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ 60 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Lê Bích Liên, Khai phá liệu lý thuyết tập Thô, Luận văn Thạc sĩ năm 2007 [2] Vũ Đức Thi (1997), Cơ sở liệu - Kiến thức thực hành, NXB Thống kê [3] Nguyễn Thanh Thủy (2001), Cơ sở liệu – Kỹ thuật ứng dụng, NXB Khoa học kỹ thuật [4] Jeffrey D Ullman (1998), Nguyên lý hệ sở liệu sở tri thức, NXB Thống kê [5] Louis Rigand, Dunod (1984), Thiết lập hệ thống thông tin quản lý tổ chức, Bản dịch tiếng Việt 1988 [6] Roger S.Pressman (1999), Kỹ nghệ phần mềm, NXB Giáo dục [7] Đoàn Sơn (2002) Phương pháp biểu diễn văn sử dụng tập mờ ứng dụng khai phá liệu văn Luận văn thạc sỹ Khoa Công Nghệ, ĐHQGHN, năm 2002 [8] Hà Quang Thụy (1996) Một số vấn đề không gian xấp xỉ, tập thơ hệ thơng tin Luận án Phó tiến sĩ Khoa học Toán Lý ĐHKHTN, 1996 [9] Vũ Huy Hiên (2006), Khai phá liệu văn theo cách tiếp cận lý thuyết tập thô Tiếng Anh [1] Jiawei Han and Micheline Kamber (2001) Data Mining: Concepts and Techniques Academic Press 2001 [2] Alan Rea (1995), Data Mining-An Introduction, The Paralel Computer Centre, The Queen‟s University Belfast [3] Ho Tu Bao, Introduction to Knowledge Discovery and Data Mining, National Center for Natural Scienee and Technology Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ 61 [4] C.J.Matheus and P.K.Chan and G.Piatetsky-Shapiro (1993), System for knowledge discovery in database, Ieee Trans On Knowledge and Data Engineering, vol 5, pp 903-913,1993 [5] Jan Komorowski, Zdzislaw Pawlak, Lech Polkowski, Andrzej Skowron (2000) Rough sets: A tutorial [6] Andrzej Skowron, Ning Zong (2000), Ruogh Sets in KDD Tutorial Notes [7] Tu Bao Ho, Saori Kawasaki, Ngoc Binh Nguyen, “Cluster – based Information Retrieval with Tolerance Rough Set Model”, 2nd International Symposium on Advanced Intelligent Systems Conference Proceedings, 2001 [8] Jiawei Han and Micheline Kamber (2001): Data Mining: Concepts and Techniques Academic Press 2001 [9] Hearst, M What Is Text Mining? 2003 [10] Fayyad, Piatetsky-Shapiro, Smyth, “From Data Mining to Knowledge Discovery: An Overiew”, in Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowl\ledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996, pp,1-34 [11] Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 [12] Wojciech P.Ziarko (Ed.,1994).Rough Sets, Fuzzy Sets and Knowledge Discovery Proceedings of the Inrnational Workshop on Rough Sets and Knowledge Discovery (RSKD‟93), Banff, Alberta, canada, 12-15 October 1993 SpringerVerlag [13] Eui-Hong Han, Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification PhD thesis, University of Minnesota, October 1999 [14] T Joachims, Text categorization with Support Vector Machines: Learning with many relevant features In Machine Learning: ECML-98, Tenth European Conference on Machine Learning, pp 137-142 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ 62 [15] Ronald J.Branchman and Tej Anand The Process of Knowledge Discoery inDatabases, 1996 [16] Andrzej Skowron, Ning Zong (2000) Rough Sets in KDD Tutorial Notes [17] Sinh Nguyen Hoa, Andrzej Skowron, Piotr Synak (1998) Discovery of Data Patterns with Application to Decomposition and Classification Problems [18] Nguyen Hyperplanes Hung Son, Nguyen Sinh Hoa From Optimal to Optimal Decision Trees: Rough Set and Boolean Reasoning Approaches, Institute of Computer Sciences Warsaw University 02-097, Banacha 2, Warsaw, Poland [19] Ho Tu Bao (1996) Introduction to Knowledge Discovery and Data mining Institute of Information Technology National Center for Natural Science and Technology [20] Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval [21] Christopher D Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press 2008 Website [1] http://Irc-tnu.edu.vn [2] http://www.ebooks.edu.vn [3] http://www.ioit.ac.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ 63 PHỤ LỤC : DANH SÁCH CÁC TỪ DỪNG, TỪ TẦM THƢỜNG Ai Hay nhiên bạn họ cần mày tơi sau vừa trời trước anh trái gồm dù chị phải bao gồm bất chấp bên khơng bên trái chẳng bên phải vì anh đồng thời chị hầu hết vài cụ thể tơi mày sau bạn đằng sau từ bạn đằng trước bên bất chúng bên nên nhiều tám chúng tao chí chín liên tiếp mặc kệ chúng mày lúc chúng lúc riêng tơi lúc tao vào lúc thật hai mày thật ba Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ 64 dù theo bốn tớ số mi dù đủ mặt lúc trước tự dù trước lúc thuộc trước khoảng mà khoảng chừng qúa bị cỡ chừng mà hoàn toàn với ví dụ mà vân vân thế nhiều cịn có mặt khác nên làm liên tục lại cho lên sẵn sàng phải tức mà cho tức cho đâu ln năm ln ln sáu ối trời cuối bảy ối thơi cuối thơi trừ hồi vân vân nè mười để tức mà tiếp đến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên nên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ 65 thế tức khắc tiếp tục mà mãi mà lại nghĩa lẫn thơi thì chưa thế phía mà Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ 24 CHƢƠNG XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ Trong chương luận văn trình bày phương pháp sử dụng lý thuyết tập. .. http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ 45 CHƢƠNG SỬ DỤNG MỘT THUẬT TỐN ĐỂ TÌM TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ PHỤC VỤ BÀI TỐN TRA... tri thức theo cách tiếp cận tập thơ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THƠ 19 Định nghĩa tập thô: Cho