1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu văn bản bằng lý thuyết tập thô

86 572 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 1,33 MB

Nội dung

MỤC LỤC Lời cảm ơn ...................................................................................................... i LỜI CAM ĐOAN .......................................................................................... ii MỤC LỤC .................................................................................................... iii DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT ................................... vi DANH MỤC BẢNG .................................................................................... vii DANH MỤC HÌNH .................................................................................... viii MỞ ĐẦU ....................................................................................................... 1 1. Tính cấp thiết của đề tài .............................................................................. 1 2. Mục tiêu của đề tài ..................................................................................... 2 3. Ý nghĩa của đề tài ....................................................................................... 3 PHẦN I: TỔNG QUAN TÀI LIỆU ................................................................ 4 1.1. Tổng quan về ô nhiễm kim loại nặng trong đất ........................................ 4 1.1. Khái niệm ô nhiễm kim loại nặng và ô nhiễm đất .................................... 4 1.2. Các nguồn gây ô nhiễm kim loại nặng trong đất ...................................... 4 1.3. Đặc điểm hoá học của Pb, Zn, Cd và As trong đất ................................... 7 1.2. Hoạt động khai thác khoáng sản và các vấn đề môi trƣờng liên quan ...... 9 1.2.1. Hoạt động khai thác khoáng sản ở Việt Nam ...................................... 11 1.2.2. Ảnh hƣởng của hoạt động khai thác khoáng sản đến môi trƣờng đất ở Việt Nam ...................................................................................................... 17 1.3. Các phƣơng pháp xử lý đất bị ô nhiễm kim loại nặng ............................ 20 1.3.1. Các nguyên tác chính để xử lý đất bị ô nhiễm ..................................... 21 1.3.2. Các phƣơng pháp truyền thống làm sạch đất ô nhiễm ......................... 21 1.4. Tổng quan về xử lý kim loại nặng trong đất bằng thực vật .................... 23 1.4.1. Cơ sở khoa học của công nghệ xử lý ô nhiễm kim loại nặng trong đất bằng thực vật ................................................................................................ 23 1.4.2. Một số kết quả nghiên cứu khả năng hấp thụ một số kim loại nặng bằng thực vật ........................................................................................................ 27 1.4.3. Triển vọng của công nghệ thực vật xử lý kim loại nặng trong đất ....... 28 PHẦN II: ĐỐI TƢỢNG, NỘI DUNG VÀ PHƢƠNG PHÁP NGHIÊN CỨU ..................................................................................................................... 30

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG LA ĐỨC DŨNG KHAI PHÁ DỮ LIỆU VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SỸ 0KHOA HỌC MÁY TÍNH Thái Nguyên – 2011 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG LA ĐỨC DŨNG KHAI PHÁ DỮ LIỆU VĂN BẢN BẰNG LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Vũ Đức Thi. Thái Nguyên – 2011 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn a MỤC LỤC LỜI CẢM ƠN I LỜI CAM ĐOAN II DANH MỤC CÁC HÌNH VẼ III DANH MỤC CÁC BẢNG BIỂU IV DANH MỤC CHỮ VIẾT TẮT V LỜI MỞ ĐẦU 1 CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ LÝ THUYẾT TẬP THÔ 4 1.1 Khai phá dữ liệu văn bản 4 1.1.1 Khai phá dữ liệu 4 1.1.1.1 Khái niệm 4 1.1.1.2 Lịch sử nghiên cứu 5 1.1.1.3 Các khía cạnh khai phá chủ yếu 5 1.1.1.4 Quy trình của DM 7 1.1.1.5 Các phương pháp của DM 7 1.1.2 Khai phá dữ liệu văn bản 11 1.1.2.1 Khái niệm 11 1.1.2.2 Các kỹ thuật khai phá văn bản 13 1.2 Khai phá tri thức ứng dụng lý thuyết tập thô 17 1.2.1 Khai phá tri thức theo cách tiếp cận tập thô 17 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn b 1.2.1.1 Một số khái niệm 17 1.2.1.1.1 Hệ thống thông tin 17 1.2.1.1.2. Khái niêm về bảng quyết định………………………….19 1.2.1.1.3. Khái niệm quan hệ không phân biệt được trong hệ thông tin.20 1.2.1.1.4. Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định 22 1.2.1.2. Tập thô trong không gian xấp xỉ 22 1.2.1.3 Khai phá tri thức theo cách tiếp cận tập thô 25 1.2.2 Sự rời rạc hoá dữ liệu theo cách tiếp cận tập thô 27 1.2.3 Lựa chọn thuộc tính dựa trên tập thô 27 1.2.4 Khám phá luật bới bảng phân bố tổng quát dựa trên tập thô 28 1.3 Kết luận chƣơng 1 29 CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU TRONG XỬ LÝ VĂN BẢN 30 2.1. Biểu diễn văn bản 30 2.1.1. Biểu diễn văn bản 30 2.1.2. Các phương pháp biểu diễn văn bản 30 2.1.2.1. Tiền xử lý văn bản 30 2.1.2.2. Mô hình Logic 32 2.1.2.3. Mô hình phân tích cú pháp 34 2.1.2.4. Mô hình không gian vector 35 2.1.2.5. Mô hình Boolean 36 2.1.2.6. Mô hình tần suất 37 2.1.2.7. Mô hình dựa trên tập mờ (Fuzzy Set) 39 2.1.2.8. Mô hình tập thô dung sai (Tolerance Rough Set Model-TRSM) 41 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn c 2.2. Các thuật toán lập nhóm văn bản 43 2.2.1. Thuật toán K – Means 43 2.2.2. Thuật toán lập nhóm theo cây phân cấp 44 2.2.2.1. Thuật toán theo cây phân cấp từ trên xuống ( Top Down Hierachical Clustering) 44 2.2.2.2. Thuật toán theo cây phân cấp từ dưới lên ( Bottom Up Hierachical Clustering) 45 2.2.2.3. Giải thuật lập nhóm Non Hierachical Clustering Overlap 45 2.2.2.4. Giải thuật lập nhóm Non Hierachical Clustering Non Overlap46 2.2.3. Xác định các thuật đại diện cho nhóm 46 2.2.4. Độ tương tự giữa văn bản và nhóm văn bản 47 2.3 Bài toán phân lớp văn bản 47 2.3.1 Bài toán 47 2.3.2 Các nghiên cứu liên quan 48 2.4 Các phƣơng pháp phân lớp 49 2.4.1 Phân lớp dựa trên thuật toán Naive Bayes 49 2.4.2 Phương pháp K – Nearest Neighbor ( K-NN) 51 2.4.3 Phân lớp sử dụng Support Vector Machines (SVM) 52 2.5 Kết luận chƣơng 2 54 CHƢƠNG 3. PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ ÁP DỤNG LÝ THUYẾT TẬP THÔ 55 3.1 Kiến trúc hệ thống phân loại văn bản tiếng Việt tự động 55 3.2. Các chức năng của hệ thống 56 3.2.1 Xây dựng tập văn bản dùng cho huấn luyện 56 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn d 3.2.2 Xây dựng tập từ dừng, từ tầm thường 56 3.2.3 Xây dựng tập thuật ngữ 56 3.2.4 Tiền xử lý văn bản đầu vào 56 3.2.5 Huấn luyện 57 3.2.6 Phân lớp văn bản 61 3.3 Kết luận chƣơng 3 62 CHƢƠNG 4. XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ 63 4.1 Môi trường và nền tảng ứng dụng 63 4.2 Giao diện hệ thống 65 4.3 Kết luận chương 4 67 PHỤ LỤC 1. DANH SÁCH CÁC TỪ DỪNG, TỪ TẦM THƢỜNG 73 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn I LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn đến trường Đại học Công nghệ, Đại học Thái Nguyên, Viện Công nghệ thông tin và các thầy cô giáo đã trực tiếp giảng dạy, hướng dẫn tôi trong quá trình học tập và định hướng quan trọng trong việc hình thành ý tưởng nghiên cứu. Tôi xin chân thành cảm ơn Chi bộ, BGĐ, BCH Công đoàn, Tổ Tự nhiên và cán bộ giáo viên, công nhân viên Trung tâm GDTX Thiệu Hóa đã động viên, giúp đỡ và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu. Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc GS.TS Vũ Đức Thi, người thầy đã trực tiếp hướng dẫn và giúp đỡ tôi hoàn thành luận văn tốt nghiệp. Xin được cảm ơn bố mẹ, anh chị em gia đình nội ngoại tạo điều kiện về mọi mặt để bản thân hoàn thành tốt chương trình khóa học và bảo vệ luận văn hôm nay. Mặc dù đã có nhiều cố gắng, nhưng do thời gian có hạn và bản thân còn những hạn chế nhất định nên luận văn không tránh khỏi thiếu sót. Mong nhận được các ý kiến phê bình, góp ý của Hội đồng chấm luận văn, các thầy cô giáo và đồng nghiệp để công trình nghiên cứu được hoàn chỉnh hơn. Thái Nguyên, tháng 9 năm 2011 Tác giả La Đức Dũng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn II LỜI CAM ĐOAN Tôi xin cam đoan luận văn này là công trình do tôi tổng hợp và nghiên cứu. Trong luận văn có sử dụng một số tài liệu tham khảo như đã nêu trong phần tài liệu tham khảo. Tác giả Luận văn La Đức Dũng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn III DANH MỤC CÁC HÌNH VẼ Hình 1.1. Quy trình DM. 7 Hình 1.2. Các chức năng chính của khai phá dữ liệu. 12 Hình 2.1. Mô tả tần suất các từ. 32 Hình 2.2. Biểu diễn các vector văn bản trong không gian 2 chiều…… 35 Hình 2.4 : Mô hình SVM. 53 Hình 3.1. Kiến trúc hệ thống phân loại văn bản áp dụng lý thuyết tập thô.55 Hình 3.2. Quy trình tiền xử lý văn bản. 57 Hình 3.3. Thuật toán tiền xử lý văn bản. 57 Hình 3.4 Cập nhật giá trị tần suất thuật ngữ. 58 Hình 3.5. Thuật toán cập nhật trọng số cho các thuật ngữ. 58 Hình 3.6 Tạo lớp dung sai xấp xỉ cho các thuật ngữ. 59 Hình 3.7. Thuật toán tạo lớp dung sai cho các thuật ngữ. 59 Hình 3.8 Sơ đồ tạo tập xấp xỉ. 60 Hình 3.9. Thuật toán tạo xấp xỉ trên và xấp xỉ dưới. 60 Hình 3.10. Phân lớp văn bản. 61 Hình 3.11. Thuật toán phân lớp văn bản. 62 Hình 4.1. Hệ thống phân loại văn bản tiếng Việt tự động. 653 Hình 4.2. Kho lưu trữ các văn bản dành cho huấn luyện 654 Hình 4.3 Mô tả file huấn luyện của hệ thống 664 Hình 4.4. Hệ thống VLSP 665 Hình 4.5 Bảng cơ sở dữ liệu. 675 Hình 4.6 Giao diện chính 66 Hình 4.7. Giao diện huấn luyện 66 Hình 4.8 Giao diện quy trình phân lớp………………………………….67 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn IV DANH MỤC CÁC BẢNG BIỂU Bảng 1.1. Ví dụ về hệ thống thông tin………………………………………….18 Bảng 1.2. Ví dụ về bảng quyết định……………………………………… ….19 Bảng 2.1. Ví dụ về mô hình logic………………………… ………………….33 Bảng 2 .2. Ví dụ về mô hình không gian vector 36 Bảng 2.3. Mô tả giá trị của mô hình Boolean 37 [...]... khai phá dữ liệu dạng văn bản: Khai phá dữ liệu dạng văn bản gồm 6 bước, chia thành 3 chức năng chính [31] LỰA CHỌN TÀI NGUYÊN LỰA CHỌN VĂN BẢN THU THẬP DỮ LIỆU RÚT TRÍCH THÔNG TIN LƢU TRỮ DỮ LIỆU ĐƢA DỮ LIỆU VÀO KHO KHAI PHÁ DỮ LIỆU TRÌNH DIỄN DỮ LIỆU KHAI PHÁ DỮ LIỆU Hình 1.2 Các chức năng chính của khai phá dữ liệu + Lựa chọn tài nguyên: Là tiến trình chọn tài nguyên để khai thác + Lựa chọn văn bản: ... việc nghiên cứu tổ chức khai thác dữ liệu văn bản để khám phá tri thức thông tin là vấn đề cần thiết Xuất phát từ những lý do trên, chúng tôi chọn và nghiên cứu đề tài luận văn: Khai phá dữ liệu văn bản bằng lý thuyết tập thô 2 Mục tiêu của luận văn Mục tiêu của luận văn là nghiên cứu lý thuyết tập thô phân loại văn bản tiếng Việt theo chủ đề 3 Các đóng góp của luận văn Luận văn đã có ba đóng góp chính... cùng, luận văn đưa ra một số kết luận và đề xuất các hướng nghiên cứu trong tương lai Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 CHƢƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ LÝ THUYẾT TẬP THÔ Trong chương này, chúng tôi trình bày tổng quan về khai phá dữ liệu bao gồm khai phá dữ liệu văn bản, các khía cạnh khai phá dữ liệu văn bản, các chu trình khai phá và tổng... tổng quan về khai phá dữ liệu văn bản và lý thuyết tập thô Chương 2 trình bày các phương pháp biểu diễn văn bản, phân nhóm và phân loại văn bản Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 Chương 3 trình bày kiến trúc hệ thống phân loại văn bản tự động và phương pháp phân loại văn bản áp dụng lý thuyết tập thô Chương 4 Xây dựng hệ thống phân loại văn bản tiếng việt... quan về lý thuyết tập thô 1.1 Khai phá dữ liệu văn bản 1.1.1 Khai phá dữ liệu 1.1.1.1 Khái niệm Trước sự phát triển không ngừng của internet dẫn đến những kho dữ liệu đã lưu trữ một lượng dữ liệu khổng lồ, trong lượng dữ liệu khổng lồ đó ẩn chứa rất nhiều những thông tin quan trọng Tuy nhiên, trước đây người ta vẫn thường sử dụng những phương pháp thủ công mà rất khó khăn để khai phá chúng Những thông... liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 12 tổ chức dữ liệu theo các nhóm và thư mục, mỗi nhóm lại có thể có nhiều nhóm con nằm trong đó Khai phá dữ liệu dạng văn bản (Text Mining) [15]: là khai phá dữ liệu đối với loại dữ liệu text và nó là quá trình phát hiện tri thức mới, có giá trị, tiềm ẩn trong tập hợp văn bản Mang tính đa dạng về phát biểu khái niệm khai phá dữ liệu - Kiến trúc khai. .. liệu Dữ liệu Mục tiêu Dữ liệu qua tiền xử lý Dữ liệu đã chuyển đổi Hình 1.1 Quy trình DM (Fayyad et al., 1996) - Gom (tập hợp) dữ liệu (Gathering): Đây là bước đầu tiên trong quá trình khai phá dữ liệu, nó được khai thác trong một cơ sở dữ liệu, kho dữ liệu - Trích lọc dữ liệu (Selection): Các dữ liệu được lựa chọn và phân chia theoo một số tiêu chuẩn nào đó - Làm sạch, tiền xử lý và chuẩn bị trước dữ. .. Khai phá dữ liệu văn bản 1.1.2.1 Khái niệm Trong các dữ liệu hiện nay thì văn bản là một trong những dữ liệu phổ biến nhất, nó có mặt ở khắp mọi nơi và chúng ta thường xuyên bắt gặp do đó các bài toán về xử lý văn bản đã được đặt ra khá lâu và hiện nay vẫn là một trong những vấn đề trong khai phá dữ liệu Text, trong đó có những bài toán đáng chú ý như tìm kiếm văn bản, phân loại văn bản, phân cụm văn. .. kho dữ liệu, dữ liệu tồn tại những khác biệt, phát hiện những khác biết trong kho dữ liệu là rất quan trọng Độ lệch giữa kết quả quan sát được giữa giá trị trả về theo tính toán và kết quả thực tế 1.1.1.4 Quy trình của DM Quy trình của DM theo sơ đồ như sau Đánh giá kết quả mẫu Tri thức Khai phá dữ liệu Làm sạch tiền xử lý dữ liệu Chuyển đổi dữ liệu Các mẫu Trích lọc dữ liệu Gom dữ liệu Internet Dữ liệu. .. dữ liệu: Là đánh giá lựa chọn mô hình thích hợp, chất lượng của dữ liệu có đáp ứng yêu cầu phân tích hay không và giải thích các kết quả Text mining nhằm phân tích và phát hiện các quan hệ trong khối dữ liệu văn bản lớn như các tập tin văn bản, các bảng tính, e-mail, các trang Web và các kho văn bản khác Kỹ thuật này được ứng dụng trong một loạt các công cụ phần mềm thương mại Công cụ khai phá dữ liệu . dữ liệu bao gồm khai phá dữ liệu văn bản, các khía cạnh khai phá dữ liệu văn bản, các chu trình khai phá và tổng quan về lý thuyết tập thô. 1.1. Khai phá dữ liệu văn bản 1.1.1. Khai phá dữ. VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ LÝ THUYẾT TẬP THÔ 4 1.1 Khai phá dữ liệu văn bản 4 1.1.1 Khai phá dữ liệu 4 1.1.1.1 Khái niệm 4 1.1.1.2 Lịch sử nghiên cứu 5 1.1.1.3 Các khía cạnh khai phá. lý dữ liệu Chuyển đổi dữ liệu Khai phá dữ liệu Các mẫu Dữ liệu đã chuyển đổi Dữ liệu qua tiền xử lý Dữ liệu Mục tiêu Internet Gom dữ liệu Dữ liệu Số hóa bởi Trung tâm Học liệu

Ngày đăng: 02/08/2014, 21:08

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Louis Rigand, Dunod (1984), Thiết lập hệ thống thông tin quản lý của các tổ chức, Bản dịch tiếng Việt 1988 Sách, tạp chí
Tiêu đề: Thiết lập hệ thống thông tin quản lý của các tổ chức
Tác giả: Louis Rigand, Dunod
Năm: 1984
[2]. Jeffrey D. Ullman (1998), Nguyên lý các hệ cơ sở dữ liệu và cơ sở tri thức, NXB Thống kê Sách, tạp chí
Tiêu đề: Nguyên lý các hệ cơ sở dữ liệu và cơ sở tri thức
Tác giả: Jeffrey D. Ullman
Nhà XB: NXB Thống kê
Năm: 1998
[4]. Lê Bích Liên – “Khai phá dữ liệu bằng lý thuyết tập thô” Luận văn Thạc sỹ 2007 Sách, tạp chí
Tiêu đề: Khai phá dữ liệu bằng lý thuyết tập thô
[12]. Alan Rea (1995), Data Mining – An Introduction, the Parallel Computer Centre, The Queen‟s University Belfast Sách, tạp chí
Tiêu đề: Data Mining – An Introduction
Tác giả: Alan Rea
Năm: 1995
[13]. Tu Bao Ho, Saori Kawasaki, Ngoc Binh Nguyen, “Cluster – based Information Retrieval with Tolerance Rough Set Model”, 2nd International Symposium on Advanced Intelligent Systems Conference Proceedings, 2001 Sách, tạp chí
Tiêu đề: Cluster – based Information Retrieval with Tolerance Rough Set Model
[14]. Jiawei Han and Micheline Kamber (2001): Data Mining: Concepts and Techniques. Academic Press 2001 Sách, tạp chí
Tiêu đề: Data Mining: "Concepts and Techniques
Tác giả: Jiawei Han and Micheline Kamber
Năm: 2001
[16]. Fayyad, Piatetsky-Shapiro, Smyth, “From Data Mining to Knowledge Discovery: An Overiew”, in Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowl\ledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996, pp,1-34 Sách, tạp chí
Tiêu đề: From Data Mining to Knowledge Discovery: An Overiew
[3]. Vũ Huy Hiện (2006), Khai phá dữ liệu văn bản theo cách tiếp cận lý thuyết tập thô Khác
[8]. Hà Quang Thụy (1996). Một số vấn đề về không gian xấp xỉ, tập thô đối với hệ thông tin. Luận án Phó tiến sĩ Khoa học Toán Lý, ĐHKHTN, 1996 Khác
[9]. Nguyễn Thanh Thuỷ (2001), Khai phá dữ liệu - Kỹ thuật và ứng dụng, NXB Khoa học kỹ thuật.TIẾNG ANH Khác
[10]. D. Tikk, J. D. Yang, and S. L. Bang, Hierarchical text categorization using fuzzy relational thesaurus . Kybernetika, 39(5), pp.583–600, 2003 Khác
[11]. F.Sebastiani, Machine learning in automated text categorization, Technical Report IEI-B4-31-1999, Consiglio Nazionale delle Ricerche, Pisa, Italy, 1999 Khác
[17]. Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 Khác
[18]. Wojciech P.Ziarko (Ed.,1994).Rough Sets, Fuzzy Sets and Knowledge Discovery. Proceedings of the Inrnational Workshop on Rough Sets and Knowledge Discovery (RSKD‟93), Banff, Alberta, canada, 12-15 October 1993. Springer-Verlag Khác
[19]. Eui-Hong Han, Text Categorization Using Weight Adjusted k- earest Neighbor Classification. PhD thesis, University of Minnesota, October 1999 Khác
[20]. T. Joachims, Text categorization with Support Vector Machines: Learning with many relevant features. In Machine Learning: ECML-98, Tenth European Conference on Machine Learning, pp. 137-142 Khác
[21]. Daniel T.Larose, Data Mining Method and Model, Willey Publication Khác
[22]. Andrzej Skowron, Ning Zong (2000). Rough Sets in KDD. Tutorial Notes Khác
[23]. Sinh Nguyen Hoa, Andrzej Skowron, Piotr Synak (1998). Discovery of Data Patterns with Application to Decomposition and Classification Problems Khác
[24]. Nguyen Hung Son, Nguyen Sinh Hoa. From Optimal Hyperplanes to Optimal Decision Trees: Rough Set and Boolean Reasoning Approaches, Institute of Computer Sciences Warsaw University 02-097, Banacha 2, Warsaw, Poland Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Quy trình DM  (Fayyad et al., 1996) . - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 1.1. Quy trình DM (Fayyad et al., 1996) (Trang 18)
Hình 1.2. Các chức năng chính của khai phá dữ liệu. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 1.2. Các chức năng chính của khai phá dữ liệu (Trang 23)
Bảng 1.1. Ví dụ về hệ thống thông tin - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Bảng 1.1. Ví dụ về hệ thống thông tin (Trang 29)
Bảng 1.2. Ví dụ về bảng quyết định - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Bảng 1.2. Ví dụ về bảng quyết định (Trang 30)
Hình 2.1. Mô tả tần suất các từ. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 2.1. Mô tả tần suất các từ (Trang 43)
Bảng 2.1. Ví dụ về mô hình logic - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Bảng 2.1. Ví dụ về mô hình logic (Trang 44)
Hình  2.2.  Biểu  diễn  các  vector  văn  bản  trong  không  gian  2  chiều - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
nh 2.2. Biểu diễn các vector văn bản trong không gian 2 chiều (Trang 46)
Bảng 2 .2. Ví dụ về mô hình không gian vector - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Bảng 2 2. Ví dụ về mô hình không gian vector (Trang 47)
Bảng 2.3. Mô tả giá trị của mô hình Boolean. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Bảng 2.3. Mô tả giá trị của mô hình Boolean (Trang 48)
Hình 2.4 : Mô hình SVM. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 2.4 Mô hình SVM (Trang 64)
Hình 3.1.  Kiến trúc hệ thống phân loại văn bản áp dụng lý thuyết tập thô. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 3.1. Kiến trúc hệ thống phân loại văn bản áp dụng lý thuyết tập thô (Trang 66)
Hình 3.2. Quy trình tiền xử lý văn bản. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 3.2. Quy trình tiền xử lý văn bản (Trang 68)
Hình 3.3. Thuật toán tiền xử lý văn bản. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 3.3. Thuật toán tiền xử lý văn bản (Trang 68)
Hình 3.5. Thuật toán cập nhật trọng số cho các thuật ngữ. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 3.5. Thuật toán cập nhật trọng số cho các thuật ngữ (Trang 69)
Hình 3.4 Cập nhật giá trị tần suất thuật ngữ. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 3.4 Cập nhật giá trị tần suất thuật ngữ (Trang 69)
Hình 3.6 Tạo lớp dung sai xấp xỉ cho các thuật ngữ. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 3.6 Tạo lớp dung sai xấp xỉ cho các thuật ngữ (Trang 70)
Hình 3.7. Thuật toán tạo lớp dung sai cho các thuật ngữ. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 3.7. Thuật toán tạo lớp dung sai cho các thuật ngữ (Trang 70)
Hình 3.9 dưới đây là thuật toán tính tập xấp xỉ trên và tập xấp xỉ dưới của  văn bản với đầu vào là lớp dung sai của các thuật ngữ, trọng số của các văn  bản và trọng số của các thuật ngữ - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 3.9 dưới đây là thuật toán tính tập xấp xỉ trên và tập xấp xỉ dưới của văn bản với đầu vào là lớp dung sai của các thuật ngữ, trọng số của các văn bản và trọng số của các thuật ngữ (Trang 71)
Hình 3.8 Sơ đồ tạo tập xấp xỉ. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 3.8 Sơ đồ tạo tập xấp xỉ (Trang 71)
Hình 3.10. Phân lớp văn bản. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 3.10. Phân lớp văn bản (Trang 72)
Hình 3.11. Thuật toán phân lớp văn bản. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 3.11. Thuật toán phân lớp văn bản (Trang 73)
Hình 4.1 Hệ thống phân loại văn bản tiếng Việt tự động. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 4.1 Hệ thống phân loại văn bản tiếng Việt tự động (Trang 74)
Hình 4.2 Kho lưu trữ các văn bản dành cho huấn luyện. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 4.2 Kho lưu trữ các văn bản dành cho huấn luyện (Trang 75)
Hình 4.3 Mô tả file huấn luyện của hệ thống. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 4.3 Mô tả file huấn luyện của hệ thống (Trang 75)
Hình 4.5. Bảng cơ sở dữ liệu. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 4.5. Bảng cơ sở dữ liệu (Trang 76)
Hình 4.4. Hệ thống VLSP. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 4.4. Hệ thống VLSP (Trang 76)
Hình 4.6 Giao diện chính - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 4.6 Giao diện chính (Trang 77)
Hình 4.8 Giao diện quy trình phân lớp. - Khai phá dữ liệu văn bản bằng lý thuyết tập thô
Hình 4.8 Giao diện quy trình phân lớp (Trang 78)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w