Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
1,99 MB
Nội dung
http://www.ictu.edu.vn MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU DANH MỤC TỪ VIẾT TẮT .5 LỜI MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LÝ THUYẾT TẬP THÔ 1 Khai phá liệu 1.1.1 Khai phá tri thức 1.1.2 Khai phá liệu 10 1.1.2.1 Một số khía cạnh khai phá chủ yếu .11 1.1.2.2 Một số kỹ thuật Khai phá liệu .12 1.2 Lý thuyết tập thô 16 1.2.1 Giới thiệu tập thô 16 1.2.2 Bảng định 18 1.3 Kết luận chương .20 CHƯƠNG XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN 22 THEO CÁCH TIẾP CẬN TẬP THÔ 22 2.1 Luật trình khám phá Luật Bảng định 22 2.1.1 Định nghĩa luật đặc trưng 22 2.1.2 Khám phá luật bảng phân bố tổng quát dựa tập thô thuật toán tối ưu hoá luật 23 2.2 Vấn đề rời rạc hoá dựa lý thuyết tập thô .24 2.2.1 Các định nghĩa 25 2.2.2 Vấn đề rời rạc hoá dựa lý thuyết tập thô .27 2.3 Một số thuật toán sử dụng lý thuyết tập thô 29 2.3.1 Thuật toán lựa chọn thuộc tính sử dụng tập thô theo phương pháp đánh giá kinh nghiệm .29 2.3.2 Thuật toán tìm tập rút gọn dựa vào cặp số phân biệt 33 2.3.3 Thuật toán sử dụng phép toán đại số 34 2.3.4 Thuật toán tìm lõi bảng định .37 2.3.5 Thuật toán tìm tập rút gọn theo xấp xỉ .37 2.3.6 Thuật toán tìm tập rút gọn theo xấp xỉ 38 2.4 Một số thuật toán lập nhóm văn .40 2.4.1 Thuật toán K – means 40 2.4.2 Thuật toán lập nhóm theo phân cấp .41 2.4.3 Xác định thuật đại diện cho nhóm .42 2.4.4 Độ tương tự văn nhóm văn .42 2.5 Kết luận chương .42 CHƯƠNG SỬ DỤNG MỘT THUẬT TOÁN ĐỂ TÌM TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ PHỤC VỤ 44 BÀI TOÁN TRA CỨU THÔNG TIN 44 http://www.ictu.edu.vn 3.1 Tra cứu thông tin 44 3.2 Tra cứu thông tin văn .45 3.2.1 Tra cứu thông tin văn 45 3.2.2 Xử lý hệ thống thông tin văn 46 3.2.3 Một số kỹ thuật tra cứu thông tin văn 47 3.3 Phương pháp tra cứu thông tin áp dụng lý thuyết tập thô 49 3.3.1 Xây dựng tập văn 49 3.3.2 Gán trọng số cho thuật ngữ dung sai xấp xỉ 49 3.3.3 Phân cụm văn 51 3.3.4 Biểu diễn đặc trưng cụm .52 3.3.5 Độ tương tự văn cụm .53 3.4 Kết luận chương .53 CHƯƠNG XÂY DỰNG HỆ THỐNG VÀ THỬ NGHIỆM .54 4.1 Môi trường tảng phát triển 54 4.2 Một số giao diện hệ thống 54 4.2.1 Xây dựng sở liệu .54 4.2.2 Giao diện hệ thống 55 4.2.2.1 Phương pháp xây dựng kho liệu 55 4.2.2.2 Một số giao diện 56 4.3 Kết luận chương .57 KẾT LUẬN 58 TÀI LIỆU THAM KHẢO 59 PHỤ LỤC : DANH SÁCH CÁC TỪ DỪNG, TỪ TẦM THƯỜNG 62 PHỤ LỤC TỪ DỪNG, TỪ TẦM THƯỜNG 64 http://www.ictu.edu.vn DANH MỤC HÌNH VẼ Hình 1.1: Mô hình mô tả trình khai phá tri thức .9 Hình 3.1 Nguyên lý tra cứu thông tin .44 Hình 3.2 Mô hình hệ thống tra cứu thông tin văn 46 Hình 3.3 Các bước mô tả xây dựng hệ thống 47 Hình 3.4 Mô hình toán tra cứu thông tin áp dụng lý thuyết tập thô .49 Hình 3.5 Thuật toán phân cụm văn 52 Hình 3.6 Tìm thuật ngữ đại diện cho cụm .53 Hình 4.1 Bảng thông tin tài liệu .54 Hình 4.2 Bảng lưu trữ thông tin lĩnh vực .54 Hình 4.3 Bảng lưu trữ thông tin ngôn ngữ 55 Hình 4.4 Bảng thông tin từ chủ đề 55 Hình 4.5 Giao diện trang chủ hệ thống tra cứu 56 Hình 4.6 Kết tra cứu hệ thống .57 http://www.ictu.edu.vn DANH MỤC BẢNG BIỂU Bảng 1.1 Bảng hệ thống thông tin bệnh cúm 20 Bảng 1.2 Bảng rút gọn thứ hệ thống bệnh cúm (R1) 20 Bảng 1.3 Bảng rút gọn thứ hai hệ thống bệnh cúm (R2) .20 Bảng 2.1 Bảng thông tin mô tả đối tượng 32 Bảng 2.2 Khởi tạo ban đầu 32 Bảng 2.3 Chọn {a} 32 Bảng 2.4 Chọn {b} 33 Bảng 2.5 Chọn {d} 33 http://www.ictu.edu.vn DANH MỤC TỪ VIẾT TẮT STT Chữ viết tắt Mô tả KDD Knowledge Data Development CSDL Cơ sở liệu SVM Support Vector Machine DM Data Mining http://www.ictu.edu.vn LỜI MỞ ĐẦU Tính cấp thiết đề tài Cùng với phát triển khoa học kỹ thuật việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích luỹ nhiều lên, loài người lưu trữ lượng thông tin vô rộng lớn Tuy nhiên, việc khai thác nguồn liệu toán khó cho người làm khoa học Trên thực tế, có nhiều hệ thống thực công việc theo phương pháp khác nhau, chưa đạt hiệu tối ưu phần đáp ứng yêu cầu thông tin cho người sử dụng Mỗi phương pháp khác thể điểm mạnh riêng việc lựa chọn phương pháp phụ thuộc vào mục đích, yêu cầu tiêu chí riêng đặt Để khai thác có hiệu nguồn thông tin từ sở liệu khổng lồ trên, yêu cầu đặt cần phải có phương pháp tổ chức, khai thác liệu nhanh, tự động xác để chuyển đổi kho liệu khổng lồ thành tri thức có ích, có ứng dụng thực tiễn cao Từ kỹ thuật khai phá liệu (Data Mining) kỹ thuật khám phá, phát tri thức (Knowledge Discovery) trở thành lĩnh vực đặc biệt quan tâm lĩnh vực công nghệ thông tin Kỹ thuật khai phá tri thức khai phá liệu nghiên cứu, phát triển nhiều lĩnh vực khác y tế, giáo dục, kinh tế Đây lĩnh vực liên quan đến nhiều ngành học hệ sở liệu, trực quan hoá với nhiều cách tiếp cận, sử dụng kỹ thuật khác mạng nơron, lý thuyết tập thô, biểu diễn tri thức Nhằm mục đích tìm hiểu, nghiên cứu phần việc sử dụng kỹ thuật khai phá tri thức, khai phá liệu thực tiễn Tôi mạnh dạn chọn đề tài “Xây dựng tập thuộc tính rút gọn theo cách tiếp cận tập thô”, từ sử dụng thuật toán để tìm tập rút gọn phục vụ toán: Tra cứu thông tin Mục tiêu đề tài Mục tiêu đề tài nghiên cứu lý thuyết tập thô tập rút gọn, từ áp dụng Bài toán: Tra cứu thông tin Web http://www.ictu.edu.vn Đóng góp đề tài Đề tài nghiên cứu tập thô khía cạnh lý thuyết áp dụng trực tiếp vào toán: Tra cứu thông tin, đề tài có đóng góp cụ thể sau: - Nghiên cứu phương pháp tra cứu thông tin áp dụng lý thuyết tập thô - Xây dựng tập liệu phục vụ cho thử nghiệm - Xây dựng hệ thống tra cứu thông tin web áp dụng lý thuyết tập thô Bố cục luận văn Luận văn bố cục thành chương chi tiết sau: - Chương 1: Tổng quan khai phá liệu lý thuyết tập thô - Chương 2: Trình bày số phương pháp xây dựng tập thuộc tính rút gọn - Chương 3: Phương pháp xây dựng hệ thống tra cứu thông tin áp dụng lý thuyết tập thô - Chương 4: Xây dựng hệ thống thử nghiệm http://www.ictu.edu.vn CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ LÝ THUYẾT TẬP THÔ 1 Khai phá liệu 1.1.1 Khai phá tri thức Trước phát triển không ngừng công nghệ thông tin đặt biệt internet vào nhiều lĩnh vực đời sống xã hội, khoa học kỹ thuật kinh tế dẫn đến kho liệu lưu trữ lượng liệu khổng lồ Trong lượng liệu khổng lồ ẩn chứa giá trị định Tuy nhiên, trước người ta thường sử dụng phương pháp thủ công mà khó khăn để khai phá chúng, chọn lọc thông tin hữu ích Cùng với phát triển kỹ thuật máy tính kỹ thuật thông tin, thông tin ngày phát triển mạnh mẽ, vượt qua khả phân tích thủ công người, cho dù hệ thống kho liệu nâng cao khả tìm kiếm, thống kê… phát mối quan hệ quy luật nằm bên liệu, đồng thời vào phương pháp phân tích truyền thống Trong biển liệu khổng lồ, làm để lấy thông tin có giá trị, có tri thức, trở thành nhiệm vụ vô quan trọng, người mong muốn loại bỏ liệu thô để chắt lọc liệu tinh Kỹ thuật phát tri thức khai phá liệu bắt nguồn từ Khai phá tri thức sở liệu (KDD-Knowledge Data Development) trình phát tri thức tiềm ẩn, trước, có ích sở liệu Đây trình tự động rút trích, tìm kiếm “tri thức” bị che giấu tập hợp “dữ liệu” lớn thông qua mẫu, mô hình khối liệu Quá trình khai phá tri thức thường áp dụng để giải loạt yêu cầu nhằm phục vụ mục đích định mang tính chất hướng nhiệm vụ, phát tri thức mà phát tri thức phục vụ tốt nhiệm vụ đề Vì vậy, trình phát tri thức hoạt động tương tác người sử dụng chuyên gia phân tích với công cụ tin học Các ngôn ngữ thường dùng để biểu diễn tri thức trình phát tri thức từ sở liệu khung, đồ thị, luật, công thức logic mệnh http://www.ictu.edu.vn đề…Tri thức rút dùng cho mục đích cung cấp hiểu biết sâu sắc hữu ích hành vi đối tượng (giải thích liệu) hay dự đoán giá trị đối tượng (dự báo) Phương pháp thường giúp người tạo định giải tượng quan sát Tri thức hiểu biểu thức ngôn ngữ diễn tả nhiều mối quan hệ thuộc tính liệu đó, hay tri thức thông tin tích hợp, bao gồm kiện mối quan hệ chúng Vậy tri thức xem liệu mức trừu tượng hoá tổng quát hoá cao, liệu thông tin nhóm đối tượng đó, thông thường coi dãy bit, số, ký hiệu mang ý nghĩa gửi cho chương trình dạng định Quá trình khai phá tri thức nhằm mục đích rút tri thức sau số bước từ sở liệu thực tế Tiến trình bao gồm bước sau: Hình 1.1: Mô hình mô tả trình khai phá tri thức Bước 1: Xác định định nghĩa vấn đề: - Tìm hiểu lĩnh vực ứng dụng nhiệm vụ đề ra, xác định tri thức có mục tiêu người sử dụng - Tạo chọn lựa sở liệu http://www.ictu.edu.vn 10 Bước định cho việc chọn lọc, rút trích tri thức hữu ích cần thiết từ sở liệu cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước 2: Thu thập tiền xử lý liệu - Xử lý làm liệu trước: Bỏ liệu tạp (nhiễu) bao gồm liệu không cần thiết, lỗi dạng không bình thường Xử lý việc thiếu hay mát liệu, chuyển đổi liệu phù hợp - Rút gọn kích thước liệu nhận được: Nhận thuộc tính hữu ích cho trình phát tri thức Bước thường chiếm nhiều thời gian toàn qui trình phát tri thức Bước 3: Khai phá liệu: - Chọn nhiệm vụ khai phá liệu - Lựa chọn phương pháp khai phá liệu - Khai phá liệu để rút mẫu, mô hình 1.1.2 Khai phá liệu Khai phá liệu (DM-Data Mining) khái niệm đời vào cuối năm 80 kỷ 20, từ năm 90 bắt đầu khởi phát, kỷ 21, nhiều khái niệm gần với ví dụ KDD (Knowledge Data Development), phân tích liệu, data fusion, data warehouse… Trong lúc này, lĩnh vực nằm ngành trí tuệ nhân tạo học máy không ngừng phát triển Học máy làm nâng cao tính chương trình máy tính, thu nhận từ nhiều ngành khoa học khác bao gồm: trí tuệ nhân tạo, xác suất thống kê, tâm lý học, triết học…rồi vào mô hình học khác để đưa phương pháp học, ví dụ: học không giám sát, học có giám sát, mạng neural di truyền… Tóm lại, Data Mining việc tiến hành xử lý, khai phá từ kho liệu lớn, không hoàn chỉnh, nhiều nhiễu, mơ hồ, để trích rút thông tin có giá trị, có tri thức http://www.ictu.edu.vn 50 Mỗi thuật ngữ ti gán trọng số wi tương ứng xác định theo công thức M (1 + log( f d j (ti ))) × log f (t ) if ti ∈ d j wij = D i if t ∉ d i j Trong : fdj(ti) tần suất xuất thuật ngữ ti văn dj FD(ti) số văn xuất thuật ngữ ti Sau wij biểu diễn thô hóa để giá trị nằm khoảng [0,1] wij ← sau: wij ∑ t h j ∈d j ( whj ) Mỗi văn dj biểu diễn lại cách chi tiết thuật ngữ có trọng số cao d j = (t j , w1 j ; t2 j , w2 j ; ; trj , wrj ) Với wij ∈ [0,1] Tất tập thuật ngữ D truy vấn Q định nghĩa qi ∈ T Và wiq ∈ [0,1] Q = (q1 , w1q ; q 2, w2 q ; ; q s , wsq ) Giả sử fD(ti,tj) số văn tập D xuất đồng thời thuật ngữ ti tj Ta định nghĩa hàm không chắn I phụ thuộc vào ngưỡng θ Iθ (t j ) = {t j | f D (ti , t j ) ≥ θ } ∪ {ti } Iθ thỏa mãn điều kiện ti ∈ Iθ (t i ) tj ∈ Iθ (t i ) Nếu ti ∈ Iθ (t j ) với ti, tj ∈ T , Iθ Hàm tương ứng với quan hệ dung sai L ⊆ T × T ti Lt j tj ∈ Iθ (t i ) Iθ (t i ) lớp dung sai thuật ngữ ti Một hàm chưa chắn v xác định X Y định nghĩa http://www.ictu.edu.vn 51 v( X , Y ) = | X ∩Y | |X| Sử dụng hàm để tính toán hàm thành viên µ cho ti ∈ T , X ⊆ T định nghĩa µ (ti , X ) = v( Iθ (ti ), X ) = | Iθ (ti ) ∩ X | | Iθ (ti ) | Dựa vào định nghĩa xác định dung sai xấp xỉ L( R, X ) = {ti ∈ T | v( Iθ (ti ), X ) = 1} L( R, X ) = {ti ∈ T | v( Iθ (ti ), X ) > 0} L(R,X) xấp xỉ U(R,X) xấp xỉ Từ đó, trọng số thuật ngữ văn tính công thức M ti ∈ d j, (1 + log( f d j (ti ))) × log f (t ) D i log( M / f D (ti )) wij = min th j ∈ d j whj × t i ∈ U(R, d j ) \ d j + log( M / f ( t )) D i 0 t i ∉ U ( R, d j ) 3.3.3 Phân cụm văn Phân cụm văn làm nhiệm vụ nhóm văn có nội dung thông tin tương tự thành nhóm Mỗi cụm văn có tập đặc trưng đại diện Từ dễ dàng tra cứu thông tin http://www.ictu.edu.vn 52 THUẬT TOÁN PHÂN CỤM Đầu vào D: Tập gồm M văn K: integer; Đầu K cụm văn với thành viên cụm Bước 1: Xác định đại diện khởi tạo R 1,R2,…RK cụm C1,C2, ,CK cách chọn ngẫu nhiên K văn D Bước 2: Với d j ∈ Dt tính độ tương tự S(U(R,dj),Rk) đại diện nhóm Rk,k=1, ,K Nếu độ tương tự lớn ngưỡng cho trước, gán d j vào Ck đưa giá trị tương tự nhóm thành viên m(dj) dj Ck Bước 3: Với lớp Ck, xác định lại đại diện Rk Bước 4: Lặp lại bước đến thay đổi thành viên nhóm Hình 3.5 Thuật toán phân cụm văn 3.3.4 Biểu diễn đặc trưng cụm - Mỗi văn d j ∈ Ck có số thuật ngữ phổ biến Rk - Các thuật ngữ Rk chiếm số lượng lớn d j ∈ Ck - Không thuật ngữ Rk bắt buộc phải nằm văn Ck Có nghĩa luật định Bayesian với tỉ lệ lỗi nhỏ gán văn dj lớp Ck nếu: P (d j | C k ) P (C k ) > P (d j | C h ) P (C h ), ∀h ≠ k Với giả thiết thuật ngữ xuất độc lập văn ta có: P (d j | Ck ) = P (t j1 | Ck ) P (t j | Ck ) P (t jp | Ck ) Định nghĩa fCk(ti) số văn Ck chứa ti, ta có P (ti | Ck ) = f C k (ti ) / | Ck | http://www.ictu.edu.vn 53 Bước 1: Khởi tạo, Rk = φ Bước 2: For tất d j ∈ Ck For tất ti ∈ d j , If f C k (ti ) / | Ck |> σ then Rk = Rk ∪ {ti } Bước 3: If d j ∈ Ck d j ∩ R k = φ then Rk = Rk ∪ arg max t i ∈d j wij Hình 3.6 Tìm thuật ngữ đại diện cho cụm Trọng số thuật ngữ ti Rk trung bình trọng số thuật ngữ tất văn phụ thuộc vào C k, có nghĩa wik = (∑ d j ∈C k wij ) / | {d j : ti ∈ d j } | 3.3.5 Độ tương tự văn cụm Độ tương tự văn cụm tính toán cách đo độ tương tự d j1 dj2 thông qua hệ số cosin: S C ( d j1 , d j ) = ∑ ∑ N k =1 N k =1 ( wkj1 × wkj2 ) wkj1 × ∑ k =1 wkj2 ) N 3.4 Kết luận chương Việc phân nhóm văn rút gọn tập thuật ngữ đại diện cho nhóm giảm thiểu thời gian tìm kiếm, tra cứu thông tin lượng liệu ngày lớn Mặt khác, văn phân cụm cho độ xác cao Giao diện hệ thống áp dụng lý thuyết tập thô để rút gọn tập thuật ngữ trình bày chương sau luận văn http://www.ictu.edu.vn 54 CHƯƠNG XÂY DỰNG HỆ THỐNG VÀ THỬ NGHIỆM Trong chương này, giới thiệu ngôn ngữ lập trình sử dụng, sở liệu hệ thống tra cứu thông tin giao diện hệ thống Chúng giới thiệu phương pháp xây dựng kho liệu phục vụ cho trình xây dựng thử nghiệm hệ thống thủ công 4.1 Môi trường tảng phát triển Hệ thống tra cứu thông tin áp dụng luật rút gọn lý thuyết tập thô xây dựng visual studio.net 2010 hệ quản trị sở liệu SQL Server 2008 môi trường windows XP 4.2 Một số giao diện hệ thống 4.2.1 Xây dựng sở liệu Cơ sở liệu xây dựng bốn bảng liệu Bảng lưu trữ thông tin tài liệu văn có cấu trúc Hình 4.1 Hình 4.1 Bảng thông tin tài liệu Hình 4.2 bảng lưu trữ thông tin lĩnh vực Các tài liệu phân loại theo lĩnh vực cụ thể Hình 4.2 Bảng lưu trữ thông tin lĩnh vực http://www.ictu.edu.vn 55 Hình 4.3 bảng lưu trữ ngôn ngữ lựa chọn để tra cứu Hình 4.3 Bảng lưu trữ thông tin ngôn ngữ Hình 4.4 mô tả nội dung bảng lưu trữ thông tin danh từ thuộc chủ đề định Hình 4.4 Bảng thông tin từ chủ đề 4.2.2 Giao diện hệ thống 4.2.2.1 Phương pháp xây dựng kho liệu Hệ thống tra cứu thông tin xây dựng mô hệ thống tra cứu thông tin google Do đó, giao diện hệ thống xây dựng công nghệ web asp.net Kho liệu thu thập từ nhiều trang tin trực tuyến khác http://vnexpress.net, http://vietnamnet.vn, http://pcworld.com, http://google.com, … Xây dựng đặc trưng riêng cho nhóm văn sau: - Sử dụng công cụ tách từ tiếng Việt Để tách từ tiếng Việt, dùng công cụ tách từ Tiếng Việt vlsp (nhánh đề tài "Xử lí văn bản" phần đề tài KC01.01/06-10 "Nghiên cứu phát triển số sản phẩm thiết yếu xử lí tiếng nói văn tiếng Việt" (VLSP) http://vlsp.vietlp.org:8080/demo/) http://www.ictu.edu.vn 56 - Sử dụng tập luật rút gọn để loại bỏ từ không cần thiết (sử dụng phụ lục danh sách từ dừng) - Phân cụm văn phục vụ mục đích tra cứu nhanh [19] - Rút gọn tập thuật ngữ lần nhằm mục đích tra cứu nhanh từ khóa (key word) đại diện cho nhóm văn 4.2.2.2 Một số giao diện Dưới số hình ảnh giao diện hệ thống Giao diện trang chủ mô tả hình 4.5 Tra cứu dựa ngôn ngữ tiếng Anh tiếng Việt Hình 4.5 Giao diện trang chủ hệ thống tra cứu Hình 4.6 hình ảnh sau nhập chuỗi vào ô tra cứu http://www.ictu.edu.vn 57 Hình 4.6 Kết tra cứu hệ thống 4.3 Kết luận chương Dựa phương pháp đề xuất chương 3, chương xây dựng thành công hệ thống Vấn đề tra cứu thông tin chủ yếu tập trung tra cứu thông tin văn web mang lại hiệu tương đối cao Tuy nhiên, kho liệu chuẩn tiếng Việt phục vụ cho tra cứu thông tin chưa có, phải tự xây dựng Do đó, kho liệu phục vụ luận văn hạn chế số lượng chủ đề http://www.ictu.edu.vn 58 KẾT LUẬN Tra cứu thông tin ngày yêu cầu cấp thiết, lượng liệu Internet ngày lớn Từ tra cứu thông tin, thu thông tin quan trọng hữu ích cách truy vấn hệ thống tra cứu thông tin trực tuyến Hệ thống tra cứu thông tin thông minh tiền đề để xây dựng hệ thống Q&A hoàn hảo, từ máy tính chủ động làm công việc bán hàng qua mạng thay người Trong luận văn này, sử dụng lý thuyết tập thô để xây dựng hệ thống tra cứu thông tin cách rút gọn tập thuật ngữ, từ rút gọn tập đặc trưng, hữu ích trình tra cứu nhanh Trong tương lai, hướng tới xây dựng hệ thống tra cứu thông tin theo ngữ nghĩa chuỗi ký tự đưa vào cách làm cho hệ thống thông minh dựa kỹ thuật máy học Nâng cao tốc độ tìm kiếm xây dựng kho liệu tiêu chuẩn đầy đủ dùng cho tra cứu thông tin ngữ nghĩa http://www.ictu.edu.vn 59 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Lê Bích Liên, Khai phá liệu lý thuyết tập Thô, Luận văn Thạc sĩ năm 2007 [2] Vũ Đức Thi (1997), Cơ sở liệu - Kiến thức thực hành, NXB Thống kê [3] Nguyễn Thanh Thủy (2001), Cơ sở liệu – Kỹ thuật ứng dụng, NXB Khoa học kỹ thuật [4] Jeffrey D Ullman (1998), Nguyên lý hệ sở liệu sở tri thức, NXB Thống kê [5] Louis Rigand, Dunod (1984), Thiết lập hệ thống thông tin quản lý tổ chức, Bản dịch tiếng Việt 1988 [6] Roger S.Pressman (1999), Kỹ nghệ phần mềm, NXB Giáo dục [7] Đoàn Sơn (2002) Phương pháp biểu diễn văn sử dụng tập mờ ứng dụng khai phá liệu văn Luận văn thạc sỹ Khoa Công Nghệ, ĐHQGHN, năm 2002 [8] Hà Quang Thụy (1996) Một số vấn đề không gian xấp xỉ, tập thô hệ thông tin Luận án Phó tiến sĩ Khoa học Toán Lý ĐHKHTN, 1996 [9] Vũ Huy Hiên (2006), Khai phá liệu văn theo cách tiếp cận lý thuyết tập thô Tiếng Anh [1] Jiawei Han and Micheline Kamber (2001) Data Mining: Concepts and Techniques Academic Press 2001 [2] Alan Rea (1995), Data Mining-An Introduction, The Paralel Computer Centre, The Queen’s University Belfast [3] Ho Tu Bao, Introduction to Knowledge Discovery and Data Mining, National Center for Natural Scienee and Technology http://www.ictu.edu.vn 60 [4] C.J.Matheus and P.K.Chan and G.Piatetsky-Shapiro (1993), System for knowledge discovery in database, Ieee Trans On Knowledge and Data Engineering, vol 5, pp 903-913,1993 [5] Jan Komorowski, Zdzislaw Pawlak, Lech Polkowski, Andrzej Skowron (2000) Rough sets: A tutorial [6] Andrzej Skowron, Ning Zong (2000), Ruogh Sets in KDD Tutorial Notes [7] Tu Bao Ho, Saori Kawasaki, Ngoc Binh Nguyen, “Cluster – based Information Retrieval with Tolerance Rough Set Model”, 2nd International Symposium on Advanced Intelligent Systems Conference Proceedings, 2001 [8] Jiawei Han and Micheline Kamber (2001): Data Mining: Concepts and Techniques Academic Press 2001 [9] Hearst, M What Is Text Mining? 2003 [10] Fayyad, Piatetsky-Shapiro, Smyth, “From Data Mining to Knowledge Discovery: An Overiew”, in Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowl\ledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996, pp,1-34 [11] Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 [12] Wojciech P.Ziarko (Ed.,1994).Rough Sets, Fuzzy Sets and Knowledge Discovery Proceedings of the Inrnational Workshop on Rough Sets and Knowledge Discovery (RSKD’93), Banff, Alberta, canada, 12-15 October 1993 SpringerVerlag [13] Eui-Hong Han, Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification PhD thesis, University of Minnesota, October 1999 [14] T Joachims, Text categorization with Support Vector Machines: Learning with many relevant features In Machine Learning: ECML-98, Tenth European Conference on Machine Learning, pp 137-142 http://www.ictu.edu.vn 61 [15] Ronald J.Branchman and Tej Anand The Process of Knowledge Discoery inDatabases, 1996 [16] Andrzej Skowron, Ning Zong (2000) Rough Sets in KDD Tutorial Notes [17] Sinh Nguyen Hoa, Andrzej Skowron, Piotr Synak (1998) Discovery of Data Patterns with Application to Decomposition and Classification Problems [18] Nguyen Hyperplanes Hung Son, Nguyen Sinh Hoa From Optimal to Optimal Decision Trees: Rough Set and Boolean Reasoning Approaches, Institute of Computer Sciences Warsaw University 02-097, Banacha 2, Warsaw, Poland [19] Ho Tu Bao (1996) Introduction to Knowledge Discovery and Data mining Institute of Information Technology National Center for Natural Science and Technology [20] Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval [21] Christopher D Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press 2008 Website [1] http://Irc-tnu.edu.vn [2] http://www.ebooks.edu.vn [3] http://www.ioit.ac.vn http://www.ictu.edu.vn 62 PHỤ LỤC : DANH SÁCH CÁC TỪ DỪNG, TỪ TẦM THƯỜNG Ai Hay nhiên bạn họ cần mày sau vừa trời trước ôi anh trái gồm dù chị phải bao gồm bất chấp bên không bên trái chẳng bên phải cô anh đồng thời chị hầu hết vài cụ thể mày sau bạn đằng sau từ bạn đằng trước bên bất chúng bên nên nhiều tám chúng tao chí chín liên tiếp mặc kệ chúng mày lúc chúng lúc riêng lúc tao vào lúc thật hai mày thật ba http://www.ictu.edu.vn 63 dù theo bốn tớ số mi dù đủ mặt lúc trước tự dù trước lúc thuộc trước khoảng mà khoảng chừng qúa bị cỡ chừng mà hoàn toàn với ví dụ mà vân vân thế nhiều có mặt khác nên làm liên tục lại cho lên sẵn sàng phải tức mà cho tức cho đâu vậy năm luôn sáu ối trời cuối bảy ối cuối trừ hồi vân vân nè mười để tức mà tiếp đến nên http://www.ictu.edu.vn 64 tức khắc tiếp tục mà mãi mà lại nghĩa lẫn thì chưa thế phía mà ... 22 CHƯƠNG XÂY DỰNG TẬP THUỘC TÍNH RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ Trong chương luận văn trình bày phương pháp sử dụng lý thuyết tập Thô để xây dựng số thuật toán để xây dựng tập rút gọn Thuật... có nhiều tập rút gọn C Ta ký hiệu red ( C ) tập tất rút gọn C T Một thuộc tính cần thiết thuộc vào tập rút gọn C Core (nghĩa tiếng Anh lõi) mô tả tập thuộc tính rút gọn bảng thuộc tính Điều... hay mâu thuẫn Tập thuộc tính gọi rút gọn tập thuộc tính điều kiện C T ' = (U , R ∪ D ) độc lập tập thuộc tính ban đầu POS R ( D ) = POSC ( D ) Hay nói cách khác, R tập rút gọn tập tối thiểu