Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 85 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
85
Dung lượng
1,51 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRẦN THỊ THANH ỨNG DỤNG GIẢI THUẬT DI TRUYỀN VÀO PHÂN LOẠI TÀI LIỆU DẠNG VĂN BẢN LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thái Nguyên - 2012 LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Ứng dụng giải thuật di truyền vào phân loại tài liệu dạng văn bản” cơng trình nghiên cứu riêng dƣới hƣớng dẫn PGS.TS Bùi Thế Hồng Tồn phần mềm tơi lập trình kiểm thử Tơi xin chịu trách nhiệm lời cam đoan Các số liệu thơng tin sử dụng luận văn hồn toàn trung thực Tác giả Trần Thị Thanh i MỤC LỤC MỤC LỤC i DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH VẼ viii MỞ ĐẦU .1 CHƢƠNG 1: TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung 1.1.1 Giới thiệu 1.1.2 Khái niệm 1.1.3 Đặc điểm toán khai phá liệu .4 1.2 Quá trình khám phá tri thức sở liệu .6 1.2.1 Gom liệu 1.2.2 Trích lọc liệu 1.2.3 Làm sạch, tiền xử lý chuẩn bị trƣớc liệu 1.2.4 Chuyển đổi liệu .9 1.2.5 Khai phá liệu - Phát trích mẫu liệu 1.2.6 Đánh giá kết mẫu .10 1.3 Khái quát kỹ thuật khai phá liệu 10 1.3.1 Kỹ thuật khai phá liệu dự đoán 10 1.3.1.1 Phân lớp liệu 10 1.3.1.2 Hồi quy 12 1.3.2 Kỹ thuật khai phá liệu mô tả 13 1.3.2.1 Phân cụm liệu 13 1.3.2.2 Tóm tắt 14 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 1.3.3 So sánh tiếp cận khai phá liệu: phân cụm - phân lớp 14 1.3.4 Ứng dụng phân cụm 15 1.3.5 Ví dụ 15 1.4 Ý nghĩa thực tiễn tình hình ứng dụng 17 1.4.1 Ý nghĩa thực tiễn 17 1.4.2 Tình hình ứng dụng 18 CHƢƠNG 2: TÌM HIỂU VỀ THUẬT GIẢI DI TRUYỀN 19 2.1 Tổng quan giải thuật di truyền 19 2.1.1 Giới thiệu 19 2.1.2 Các tính chất quan trọng giải thuật di truyền .20 2.1.3 Cơ sở sinh học giải thuật di truyền 21 2.1.4 Sơ đồ thực giải thuật di truyền 21 2.1.5 Ứng dụng 24 2.2 Các khái niệm chung giải thuật di truyền 24 2.2.1 Chuỗi nhiễm sắc thể 24 2.2.2 Các cá thể 25 2.2.3 Phƣơng pháp mã hóa 25 2.2.4 Quần thể 25 2.2.5 Hàm thích nghi 26 2.2.6 Lai ghép, đột biến, tái sinh chọn lọc 26 2.3 Các phép toán di truyền .27 2.3.1 Mã hóa 27 2.3.1.1 Mã hóa nhị phân 27 2.3.1.2 Mã hóa hốn vị 28 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii 2.3.1.3 Mã hóa giá trị 28 2.3.1.4 Mã hóa theo 28 2.3.2 Quá trình lai ghép .29 2.3.2.1 Lai ghép giá trị thực 29 2.3.2.2 Lai ghép giá trị nhị phân 31 2.3.3 Đột biến 32 2.3.3.1 Đột biến giá trị thực 32 2.3.3.2 Đột biến giá trị nhị phân 33 2.3.4 Phép chọn lọc 33 2.3.4.1 Phƣơng pháp chọn lọc dùng bánh xe Roulette 33 2.3.4.2 Phƣơng pháp chọn lọc Stochastic Universal Sampling 34 2.3.4.3 Phƣơng pháp chọn lọc địa phƣơng 35 2.3.4.4 Phƣơng pháp lựa chọn loại bỏ 36 2.4 Các tham số thuật giải di truyền .36 2.4.1 Kích thƣớc quần thể 36 2.4.2 Xác suất lai giống .37 2.4.3 Xác suất đột biến 37 2.4.4 Số lƣợng hệ 38 CHƢƠNG 3: ỨNG DỤNG GIẢI THUẬT DI TRUYỀN VÀO PHÂN LOẠI 39 TÀI LIỆU DẠNG VĂN BẢN 39 3.1 Phân loại văn 39 3.1.1 Khái niệm 39 3.1.2 Quá trình phân loại văn .39 3.2 Giới thiệu toán phân loại văn .41 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv 3.3 Các phƣơng pháp biểu diễn văn .41 3.3.1 Mơ hình khơng gian vector (Vector Space Model - VSM) 41 3.3.2 Mơ hình BOOLEAN 43 3.3.3 Mơ hình tần suất .44 3.3.3.1 Phƣơng pháp dựa tần số thuật ngữ (TF) 44 3.3.3.2 Phƣơng pháp dựa nghịch đảo tần số văn (TDF) 45 3.3.3.3 Phƣơng pháp TF × IDF 45 3.3.4 Phƣơng pháp xử lý vector thƣa 46 3.3.5 Mơ hình đồ thị 46 3.4 Các thuật toán phân loại văn 48 3.4.1 Bộ phân loại Vector hỗ trợ (SVM) 48 3.4.2 Phân loại văn SVM .53 3.4.3 Thuật toán k-NN (k-Nearest Neighbor) 60 3.5 Giải thuật di truyền phân loại văn 62 3.5.1 Lựa chọn mơ hình biểu diễn văn .62 3.5.1.1 Biểu diễn vector văn 63 3.5.1.2 Phép tính độ tƣơng tự hai vector 63 3.5.1.3 Vector trọng tâm nhóm văn 63 3.5.1.4 Phép tính độ tƣơng tự hai nhóm văn 63 3.5.2 Phƣơng án tách thuật ngữ 64 3.5.2.1 Đối với ngôn ngữ đơn âm tiết (single-term) 64 3.5.2.2 Đối với ngôn ngữ đa âm tiết (multi-term) 64 3.5.2.3 Loại nhiễu 65 3.5.2.4 Mã hóa ký tự 66 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v 3.5.2.5 Tách từ khóa 66 3.5.2.6 Loại từ dừng (Stop Words) 66 3.5.2.7 Thống kê từ khóa 66 3.5.3 Sử dụng thuật giải di truyền trích chọn từ khóa .67 3.5.3.1.Giới thiệu 67 3.5.3.2 Độ thích hợp từ khóa 67 3.5.3.3 Ứng dụng giải thuật di truyền để tối ƣu hóa độ thích nghi từ khóa 69 3.6 Cài đặt thử nghiệm chƣơng trình .69 KẾT LUẬN .73 TÀI LIỆU THAM KHẢO 74 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các từ viết tắt Nghĩa tiếng anh Nghĩa tiếng việt KDD Knowledge Discovery and Data Kỹ thuật phát tri thức Mining khai phá liệu VSM Vector Space Model Mơ hình khơng gian vector VC Vapnik-Chervonenkis Kích thƣớc VC SVM Support Vector Machine Bộ phân loại Vector hỗ trợ RBF Radial Basis Functions Bộ phân loại chức SMO Sequential Minimal Optimization Tối ƣu hóa cực tiểu TF term frequency Tần suất từ k-NN k-Nearest Neighbor Thuật toán k-NN WFST Weighted Finite State Transducer Mơ hình WFST kết hợp mạng Noron SW Stop Words Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Loại từ dừng http://www.lrc-tnu.edu.vn vii DANH MỤC CÁC BẢNG Bảng 2.1: Biểu diễn cá thể trƣớc sau đột biến 33 Bảng 2.2: Độ thích nghi xác suất cá thể 34 Bảng 3.1: Vector biểu diễn văn văn theo tần suất xuất 43 Bảng 3.2: Vector Boolean biểu diễn văn .44 Bảng 3.3: Các tham số tối ƣu tƣơng ứng với số lƣợng đặc trƣng 58 Bảng 3.4: Độ xác phân loại lớp toàn 58 Bảng 3.5: Một số từ dừng tiếng Việt 66 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn viii DANH MỤC CÁC HÌNH VẼ Hình 1.1: Q trình khám phá tri thức Hình 1.2: Các đƣờng biên phân loại láng giềng gần 11 Hình 1.3: Đƣờng biên phân loại học phân loại không tuyến tính .12 Hình 1.4: Một hồi quy tuyến tính đơn giản với tập liệu vay nợ 12 Hình 1.5: Một phép phân cụm đơn giản tập liệu vào cụm 14 Hình 1.6: Phân cụm các điểm khơng gian .15 Hình 1.7: Phân cụm nhà dựa vào khoảng cách địa lý .16 Hình 2.1: Giải vấn đề giải thuật di truyền 20 Hình 2.2: Sơ đồ giải thuật di truyền .22 Hình 2.3: Nguyên tắc thực lai ghép chéo 31 Hình 2.4: Nguyên tắc thực lai ghép đa điểm .32 Hình 2.5: Ảnh hƣởng quá trình đột biến 32 Hình 2.6: Quá trình chọn lọc cá thể phƣơng pháp bánh xe Roulette .34 Hình 2.7: Quá trình chọn lọc cá thể phƣơng pháp Stochastic Universal Sampling 35 Hình 2.8: Mô tả lân cận cá thể .35 Hình 2.9: Mơ tả lân cận cá thể .36 Hình 3.1: Các bƣớc nhỏ quá trình đánh số 40 Hình 3.2: Biểu diễn các vector văn khơng gian có thuật ngữ 42 Hình 3.3: Đồ thị biểu diễn văn 47 Hình 3.4 Đồ thị đồng văn 48 Hình 3.5 Mặt phẳng tách mẫu dƣơng khỏi mẫu âm 49 Hình 3.8: Minh họa việc khoanh vùng k văn gần với k = .60 Hình 3.9: Mơ hình tách từ khố từ văn thơ 65 Hình 3.10: Giao diện chƣơng trình 70 Hình 3.11: Thực phân tách văn định dạng txt 70 Hình 3.12: Quá trình loại bỏ stop word có văn 70 Hình 3.13:Thực học phân lớp thể thao pháp luật 71 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 60 Phƣơng pháp phân loại SVM phân loại có khả tự động điều chỉnh tham số để tối ƣu hóa hiệu suất phân loại chí khơng gian đặc trƣng có số chiều cao Bộ phân loại SVM tỏ phù hợp cho phân loại văn Trong thử nghiệm với toán phân loại văn tiếng Việt, độ xác phân loại 80,72% chấp nhận đƣợc điều kiện thực tế 3.4.3 Thuật toán k-NN (k-Nearest Neighbor) K-NN dựa phƣơng pháp học máy đƣợc biết đến nhƣ thuật toán hiệu nhiều lĩnh vực đặc biệt toán phân loại văn bản.Tƣ tƣởng thuật toán tính toán độ phù hợp văn xét với nhóm chủ đề dựa k văn mẫu có độ tƣơng tự gần Thuật toán cịn đƣợc sử dụng toán tìm kiếm văn toán tóm tắt văn Nhóm Nhóm Văn cần phân loại Hình 3.8: Minh họa việc khoanh vùng k văn gần với k = Trong hình 3.8 biểu diễn việc khoanh vùng k văn gần (k = 5) với văn cần phân loại Từ k văn tìm đƣợc cần đƣa giải pháp để tìm nhóm văn phù hợp với văn Vấn đề cần quan tâm khái niệm gần theo nghĩa nào, mức độ gần đƣợc tính theo cơng thức Vấn đề thứ hai cần quan tâm sau tìm đƣợc k văn gần rồi, làm để tìm nhóm văn phù hợp với văn Khái niệm gần đƣợc hiểu độ tương tự các văn bản.Có nhiều cách tính độ tƣơng tự hai văn phƣơng pháp đánh giá độ tƣơng tự Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 61 dựa công thức cosine trọng số thƣờng đƣợc sử dụng rộng rãi nhất.Ở đây, văn đƣợc biểu diễn dƣới dạng vector.T = {t1, t2,…tn} tập hợp các thuật ngữ (hoặc các khái niệm), W = {w1, w2, wn} vector trọng số wi trọng số thuật ngữ ti Xét hai văn X = {x1, x2,…xn} Y = {y1, y2,…yn}, xi, yi tần số thuật ngữ ti xuất tƣơng ứng văn X, Y Khi độ tƣơng tự hai văn X Y đƣợc tính theo công thức sau: sim( X , Y ) cosine(X , Y ,W ) tT ( xt wt ) ( yt wt ) ( xt wt ) tT ( yt wt ) tT (22) Trong vector X Y, các thành phần xi yi thƣờng đƣợc chuẩn hóa theo tần suất xuất (TF – xem các công thức (2), (3), (4)) thuật ngữ ti văn X Y Vector W đƣợc xác định tay đƣợc tính theo thuật toán tham lam Một số đề xuất đƣa cách tính vector W theo nghịch đảo tần suất văn IDF, các văn đƣợc biểu diễn dƣới dạng vector tần suất TF × IDF (xem cơng thức (6)) Trong luận văn nàysử dụng cách biểu diễn văn theo phƣơng pháp tần suất TF × IDF đánh giá độ tƣơng tự theo công thức cosine nhƣ Vấn đề thứ hai, nhƣ đặt ra, phép tính độ phù hợp chủ đề tìm đƣợc k văn gần Có nhiều cách đánh giá dựa độ tƣơng tự các văn bản, có cách đƣợc ý nhiều nhất: * Gán nhãn văn gần Theo phƣơng pháp này, văn xét đƣợc gán nhãn cho chủ đề văn có độ tƣơng tự cao Giải pháp tƣơng đối đơn giản hiệu quả, song khơng đƣợc đánh giá cao dẫn đến kết sai tập mẫu có nhiễu Một nhƣợc điểm phƣơng pháp kết đƣa khơng mang tính tổng hợp *Gãn nhãn theo số đông Để dễ hiểu, xét ví dụ nhƣ sau, văn d có văn gần với d1, d2, d3, d4 d5có nhãn chủ đề độ tƣơng tự nhƣ sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 d1 d2 d3 d4 d5 Độ tương tự 0.9 0.89 0.89 0.88 0.6 Chủ đề chủ đề chủ đề chủ đề chủ đề chủ đề Về mặt trực quan, nên gán nhãn chủ đề cho văn d có văn thuộc lớp Nếu chọn theo văn gần gặp sai lầm khả có nhiễu tập mẫu chứa sai sót Nhƣ vậy, cách đánh giá khắc phục đƣợc lỗi tập mẫu, nhiên chƣa đƣợc đánh giá cao số tình mà cụ thể ví dụ dƣới d1 d2 d3 d4 d5 Độ tương tự 0.9 0.8 0.3 0.3 0.2 Chủ đề chủ đề chủ đề chủ đề chủ đề chủ đề Trong trƣờng hợp nên chọn chủ đề để gán nhãn cho văn d * Gán nhãn theo độ phù hợp chủ đề Độ phù hợp văn d chủ đề c đƣợc tính theo cơng thức sau: sim(d , c) sim(d , d i ) (23) di c Phƣơng pháp cần lần lƣợt tính độ phù hợp văn d với chủ đề từ k văn lấy ra, sau gán nhãn chủ đề phù hợp cho d 3.5.Giải thuật di truyền phân loại văn 3.5.1 Lựa chọn mô hình biểu diễn văn Phần trình bày các nghiên cứu số mơ hình biểu diễn văn Các mơ hình bao gồm: mơ hình khơng gian vector Boolean, mơ hình khơng gian vector tần suất, mơ hình biểu diễn tập mờ, mơ hình biểu diễn đồ thị Trong các cách biểu diễn mơ hình vector Boolean đơn giản nhất, nhiên việc xử lý toán với mơ hình cho độ xác khơng cao Mơ hình biểu diễn văn dƣới dạng tập mờ cho kết xử lý xác hơn, nhƣng việc xây dựng mơ hình tập mờ lại cần có can thiệp ngƣời dùng cần có các thuật toán cao cấp để xử lý tập thô (Rough set) sở liệu lớn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 Từ các suy xét nhƣ trên, tác giả xin chọn mơ hình biểu diễn vector thƣadựa mơ hình tần suất TF × IDF để biểu diễn văn 3.5.1.1 Biểu diễn vector văn Giả sử ta có tập hợp các từ khóa T = {t1, t2,…,tm}, văn dk đƣợc biểu diễn dƣới dạng chuỗi các từ khóa d k {t1k , t 2k ,} , tik T Phƣơng pháp biểu diễn văn d dƣới dạng vector tần suất TF × IDF đƣa văn d dạng vector: d { f log( N/h1 ), f log( N/h2 ),, f m log( N/hm )} fi tần suất xuất thuật ngữ ti văn d, N số văn có sở liệu, vàhi tần suất xuất văn chứa thuật ngữ ti Để đơn giản hóa, từ sau tác giả dùng ký hiệu d thay cho vector d 3.5.1.2 Phép tính độ tương tự hai vector Xét hai vector X = {x1, x2,…, xm} Y = {y1, y2,…, ym} biểu diễn dƣới dạng vector tần suất TF × IDF Khi đó, độ tƣơng tựgiữa hai vector đƣợc tính theo cơng thức cosine(24): m sim( X,Y ) cosine(X,Y ) X.Y XY x y i 1 m i i x y i 1 (24) m i i 1 i 3.5.1.3 Vector trọng tâm nhóm văn Xét nhóm văn c, vector trọng tâm nhóm C đƣợc tính thơng qua vector tổng D(theo công thức (25), (26)): D d (25) d c C D c (26) |c| số phần tử thuộc tập văn c Trong tốn xử lý văn vector trọng tâm đƣợc dùng để làm đại diện cho nhóm văn 3.5.1.4 Phép tính độ tương tự hai nhóm văn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 Giả sử ta có hai nhóm vector c1, c2, độ tƣơng tự hai nhóm văn đƣợc tính độ gần hai vector trọng tâm C1, C2 nhƣ sau: sim(c1 , c2 ) sim(C1 , C2 ) (27) Ở ta hiểu c1 c2 văn riêng lẻ coi nhóm gồm phần tử 3.5.2 Phương án tách thuật ngữ Vấn đề cần quan tâm toán tách từ Trong các phần trƣớc không nhắc tới toán mà coi bƣớc nhỏ toán xử lý văn ngầm định ln ln biểu diễn văn thô thành vector Boolean, tần suất, hay tập mờ.Nhƣng thực tế khơng phải dễ dàng nhƣ mà thực toán xử lý văn Phát biểu toán: Cho văn d từ điển T Yêu cầu tách từ khóa có từ điển từ văn nêu Các vần đề cần quan tâm: 3.5.2.1 Đối với ngôn ngữ đơn âm tiết (single-term) Việc tách từ khóa ngơnngữ đơn âm tiết tƣơng đối đơn giản Trong các ngôn ngữ này, từ khóa có ý nghĩa thƣờng đƣợc biểu diễn dƣới dạng dãy ký tự liên tiếp.Đối với các từ khóa có nhiều âm tiết có âm tiết mang hàm nghĩa, các tiếng khác mang tính chất phụ âm.Nhƣng các ngơn ngữ loại thƣờng có biến thể từ khóa.Ví dụ tiếng Anh có các biến thể từ “do”: “do”, “doing”, “done” Do các tách từ cần có biện pháp xử lý các biến thể từ khóa 3.5.2.2 Đối với ngôn ngữ đa âm tiết (multi-term) Ví dụ điển hình tiếngViệtthì việc xử lý tách từ tƣơng đối khó Việc xử lý khơng khó khăn có nhiều âm tiết mà cịn gặp phải nhiều nhập nhằng ngôn ngữ Một giải pháp tốt đƣợc đƣa để tránh tình trạng xử lý cú pháp, nhƣng cách xử lý quá chậm làm cho toán xử lý văn (thƣờng yêu cầu nhanh) chậm nhiều Do ngƣời ta thƣờng sử dụng cách tách từ theo độ dài Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 từ khóa chấp nhận có sai số Do nhập nhằng nhƣ xảy không nhiều thực tế nên cần chấp nhận sai số để có tách từ nhanh Vấn đề cần quan tâm các ký hiệu vô nghĩa văn Các văn thơng thƣờng có nhiều ký tự vơ nghĩa, ví dụ các ký tự dấu câu, các chữ số, các ký tự đặc biệt dùng cho điều khiển Các ký tự khơng xuất các từ khóa ta cần có biện pháp xóa bỏ ký tự để tránh nhiễu xử lý Ở cần quan tâm giải toán tách từ ngơn ngữ tiếng Việt.Theo thống kê các từ khóa thơng dụng tiếng Việt thƣờng dùng khoảng 70,000 từ khóa các từ khóa đƣợc cấu thành từ khoảng 6,500 âm tiết Từ các kết nghiên cứu tác giả xin đƣa mơ hình tách từ nhƣ hình 3.9 Hình 3.9: Mơ hình tách từ khố từ văn thơ Các bƣớc xử lý tách từ khóa: 3.5.2.3 Loại nhiễu Mục đích bƣớc loại bỏ các ký tự vơ nghĩa khơng có từ điển Nhƣng các ký tự điều khiển nhƣ dâu chấm câu (“.”), dấu gạch nối (“-”) đƣợc dùng đến quá trình xử lý nên cần giữ lại các ký tự Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 3.5.2.4 Mã hóa ký tự Trong tiếng Việt có nhiều loại font chữ khác nhau,chính vìthế cần thống tất các loại font chữ mối để dễ dàng quá trình xử lý Ngồi ra, cần ý chữ viết cịn có ký tự viết hoa, ký tự viết thƣờng, cần phải có biện pháp đồng các ký tự để tránh sai các xử lý sau 3.5.2.5 Tách từ khóa Từ văn đƣợc biểu diễn dƣới dạng danh sách các mã tiếng,bộ tách từ tiến hành ghép các tiếng lại thành các từ khóa có từ điển từ theo ƣu tiên từ khóa có số tiếng dài Do việc xử lý văn có nhiều mục đích khác theo nhiều chuyên ngành khác nên từ điển cần đƣợc tổ chức thành hai dạng gồm: từ điển chuẩn (dùng nhiều đời sống hàng ngày), từ điển chuyên ngành (dùng cho chuyên ngành riêng) 3.5.2.6 Loại từ dừng (Stop Words) Mục đích bƣớc loại bỏ các từ mangý nghĩa quá trình xử lý nội dung Quá trình xử lý cần có từ điển StopWords riêng ngƣời dùng tự xây dựng Một số từ dừng tiếng Việt Bảng 3.5: Một số từ dừng tiếng Việt Có thể Nếu Vì Sau Thì Nếu khơng Trước Vì Loại trừ Tất Cho nên Một số Những Nhưng Rõ rang Phần lớn Bởi Với Hầu Là Với lại Khi mà Khơng thể Quả thật Bởi Thay Tất 3.5.2.7 Thống kê từ khóa Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 Sau bƣớc xử lý trên, văn thô ban đầu đƣợcbiểu diễn dƣới dạng danh sách các từ khóa đƣợc tách từ từ điển, bƣớc cuối tách từ cần làm thống kê xem các từ khóa xuất lần biểu diễn văn vừa phân tích dƣới dạng vector tần suất xuất 3.5.3 Sử dụng thuật giải di truyền trích chọn từ khóa 3.5.3.1.Giới thiệu Giải thuật trích chọn từ khóa cách tối ƣu hóa độ thích nghi từ khóa (Keyword Extraction by Keyword – Fitness Optimization) đƣa phƣơng pháp tách từ khóa tự động từ các văn tập văn cho trƣớc dựa hai tiêu chuẩn đánh giá là: độ đo hiệu suất độ bao phủ Độ đo hiệu suất thuật ngữ phụ thuộc vào hiệu việc sử dụng thuật ngữ để tìm tài liệu tập văn Độ bao phủ thuật ngữ phụ thuộc vào khả thuật ngữ đƣợc sử dụng nhƣ từ khóa để tìm kiếm tập văn bản.Hai tiêu chuẩn đƣợc xác định cách thống kê sử dụng phân bố các từ văn tập văn Độ thích hợp thuật ngữ đƣợc xác định dựa độ đo hiệu suất độ bao phủ từ Giải thuật “Trích chọn từ khóa cách tối ƣu hóa độ thích nghi” tìm thuật ngữ có độ thích hợp cao văn sử dụng giải thuật di truyền 3.5.3.2 Độ thích hợp từ khóa Độ thích hợp thuật ngữ tiêu chuẩn đƣợc sử dụng để lựa chọn các thuật ngữ đặc trƣng cho văn Phần ta xem xét công thức tính độ thích hợp thuật ngữ dãy các thuật ngữ văn * Độ thích hợp thuật ngữ văn - Các đại lƣợng sở Gọi tập văn đƣợc xét D, n số các văn có tập D: n = | D | Số các văn tập D chứa các từ khóa w h(w) h(w) = |{d D | w in d }| - (28) Định nghĩa độ đo hiệu suất Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 68 Độ đo hiệu suất thuật ngữ độ đo đánh giá hiệu việc sử dụng thuật ngữ để tìm tài liệu tập văn Độ đo hiệu suất thuật ngữ w đƣợc tính theo cơng thức sau: e( w) log( - n ) h( w) (29) Định nghĩa độ bao phủ Độ bao phủ thuật ngữ độ đo đánh giá khả thuật ngữ đƣợc sử dụng nhƣ từ khóa để tìm kiếm tập văn Độ bao phủ thuật ngữ w đƣợc tính theo cơng thức sau: h( w) r ( w) r ( w, a) n a (30) (Trong a tham số thỏa mãn < a < 1) - Độ thích hợp thuật ngữ w hay độ thích nghi từ khóa Độ thích hợp thuật ngữ w đƣợc định nghĩa dựa hai độ đo là: độ đo hiệu suất độ đo bao phủ thuật ngữ Công thức: a h( w) h( w) f(w, a) e(w) x r(w, a) - ) log( n n (31) Chú ý: ≤ h(w) ≤ n Trong a tham số Theo kinh nghiệm, ta sử dụng a với các giá trị sau: 1.0, 0.5, 0.4, 0.2… * Độ thích hợp dãy thuật ngữ Xét dãy gồm k thuật ngữ [w1, w2 …wk], k > Trong quá trình xử lý tìm kiếm văn bản, ta sử dụng i thuật ngữ dãy k thuật ngữ nói (0 ≤ i ≤ k) Gọi hi số văn chứa các thuật ngữ w1, w2, …, wi hi = |{d D | w1, w2,…, wiin d }|, h0=n Độ thích hợp dãy thuật ngữ [w1, w2 …wk] đƣợc tính theo cơng thức sau: a h h(wi ) f (w1 , w2 , , wk ; a, b) k log( i ) n hi1 i 1 k b Số hóa Trung tâm Học liệu – Đại học Thái Nguyên (32) http://www.lrc-tnu.edu.vn 69 Trong b tham số thỏa mãn: < b ≤ 3.5.3.3 Ứng dụng giải thuật di truyền để tối ưu hóa độ thích nghi từ khóa Để áp dụng giải thuật di truyền, trƣớc hết ta lựa chọn phƣơng pháp mã hóa cá thể, cách thức tạo hệ ban đầu, phƣơng pháp lựa chọn, lai ghép đột biến Các tác giả giải thuật “Keyword Extraction by Keyword – Fitness Optimization” đƣa các lựa chọn sau: Cách mã hóa: Các cá thể dãy gồm các từ văn bản, bao gồm từ rỗng Tạo quần thể ban đầu: Lựa chọn m cá thể, cá thể bao gồm số thuật ngữ đƣợc lựa chọn ngẫu nhiên văn Độ thích nghi cá thể đƣợc tính Keyword – Fitness dãy thuật ngữ cá thể: a h h(wi ) f ( w1 , w2 , , wk ; a, b) k log( i ) n hi1 i 1 k b Toán tử chọn lọc: lựa chọn các cá thể theo phƣơng pháp đánh giá lại Sau xếp các cá thể theo chiều giảm dần độ thích nghi, xóa 10% cá thể có độ thích nghi thấp Toán tử lai ghép: Sử dụng phƣơng pháp lai ghép đơn điểm Toán tử đột biến: Thay ngẫu nhiên từ cá thể từ văn 3.6 Cài đặt thử nghiệm chƣơng trình Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 70 Hình 3.10: Giao diện chương trình Hình 3.11: Thực phân tách văn định dạng txt thành tệp chứa từ tiếng Việt Hình 3.12: Quá trình loại bỏ stop word có văn lưu thành tệp prps Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 71 Hình 3.13:Thực học phân lớp thể thao pháp luật Hình 3.14: Trích chọn đặc trưng theo giải thuật di truyền Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 72 Hình 3.15: Thực biểu diễn văn phân lớp theo đặc trưng trích chọn dựa giaỉ thuật di truyền biểu diễn dạng vecto thưa Hình 3.16: Thực phân loại văn theo thể loại Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 73 KẾT LUẬN Luận văn tập trung nghiên cứu khai phá liệu, giải thuật di truyền ứng dụng giải thuật di truyền vào trích chọn từ khóa để phân loại tài liệu dạng văn * Những kết đạt đƣợc Để đạt đƣợc mục tiêu đề ra, luận văn bƣớc nghiên cứu nội dung sau: Tổng quan khai phá liệu: Nghiên cứu khái niệm khám phá tri thức khai phá liệu Tìm hiểu kỹ thuật trình khai phá liệu, tập trung vào hai kỹ thuật thƣờng dùng phân cụm phân lớp Tìm hiểu thuật giải di truyền: Các khái niệm chung giải thuật di truyền nhƣ: nhiễm sắc thể, cá thể, quẩn thể, phƣơng pháp mã hóa, hàm thích nghi, các toán tử lai ghép, đột biến, tái sinh, chọn lọc, sơ đồ thuật giải di truyền tham số thuật giải Ứng dụng giải thuật di truyền khai phá liệu để trích chọn từ khóa phân loại văn bản: nghiên cứu khái quát phân loại văn bản, mơ hình biểu diễn văn bản, số thuật tốn phân loại mơ hình phân loại văn bản(đã cài đặt đƣợc ứng dụng để minh họa) * Hƣớng phát triển Mục tiêu lâu dài luận văn áp dụng đánh giá các phƣơng pháp phân loại văn hiệu đƣợc nghiên cứu sâu để tìm phƣơng pháp hiệu phù hợp cho việc phân loại tài liệu dạng văn Nghiên cứu cải tiến khâu tiền xử lý văn bản, xây dựng mẫu huấn luyện tiêu chuẩn nhƣ điều chỉnh giải thuật SVM để nâng cao độ xác phân loại Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 74 TÀI LIỆU THAM KHẢO Tiếng Việt 1.Bùi Thế Tâm, Trần Vũ Thiệu, Các phương pháp tối ưu hóa, Nxb Giao thơng vận tải Hà Nội (1998) Hồng Kiếm, Lê Hoàng Thái, Giải thuật di truyền – Cách giải tốn tự nhiên máy tính, Nxb Giáo dục (2001) Nguyễn Đình Thúc, Trí tuệ nhân tạo - Lập trình tiến hóa, Nxb Giáo dục (2001) Đỗ Phúc, Bài giảng Tổng quan khai phá liệu, Trƣờng Đại học CNTT, ĐHQG Tp Hồ Chí Minh (2007) 5.Đỗ Bích Diệp, “Phân loại văn dựa mơ hình đồ thị”, Luận văn cao học Trƣờng Đại học Tổng hợp New South Wales - Australia 2004 Huỳnh Quyết Thắng, Đinh Thị Phƣơng Thu, “Tiếp cận phương pháp học khơng giám sát học có giám sát với toán phân lớp văn tiếng Việt đề xuất cải tiến cơng thức tính độ liên quan hai văn mơ hình vector”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005 Tiếng Anh Zbigniew Michalewicz, Genetic Algorithm + Data Structure = Evolution Program (1992) T JOACHIMS, “Text categorization with Support Vector Machines: Learning with many relevant features”, Technical Report 23, LS VIII, University of Dortmund, 1997 E OSUNA, R FREUND, F GIROSI, An improved training algorithm for Support Vector Machines, Neural Networks for Signal Processing VII –Proceedings of the 1997 IEEE Workshop, pp 276-285, New York, IEEE, 1997 10 J PLATT, Sequential minimal optimization: A fast algorithm for training Support Vector Machines, Technical Report MSR-TR-98-14, Microsoft Research, 1998 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... dụng vào phân loại tài liệu dạng văn Trong chƣơng tìm hiểu phép tốn di truyền tham số giải thuật di truyền Q trình phân loại văn bản, tốn phân loại văn bản, các phƣơng pháp biểu di? ??n văn thuật. .. Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 39 CHƢƠNG 3: ỨNG DỤNG GIẢI THUẬT DI TRUYỀN VÀO PHÂN LOẠI TÀI LIỆU DẠNG VĂN BẢN 3.1 Phân loại văn 3.1.1 Khái niệm Phân loại văn có thuật. .. CHƢƠNG 3: ỨNG DỤNG GIẢI THUẬT DI TRUYỀN VÀO PHÂN LOẠI 39 TÀI LIỆU DẠNG VĂN BẢN 39 3.1 Phân loại văn 39 3.1.1 Khái niệm 39 3.1.2 Quá trình phân loại văn