Ứng dụng giải thuật di truyền vào phân loại tài liệu dạng văn bản

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRẦN THỊ THANH ỨNG DỤNG GIẢI THUẬT DI TRUYỀN VÀO PHÂN LOẠI TÀI LIỆU DẠNG VĂN BẢN LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thái Nguyên - 2012 LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Ứng dụng giải thuật di truyền vào phân loại tài liệu dạng văn bản” cơng trình nghiên cứu riêng dƣới hƣớng dẫn PGS.TS Bùi Thế Hồng Tồn phần mềm tơi lập trình kiểm thử Tơi xin chịu trách nhiệm lời cam đoan Các số liệu thơng tin sử dụng luận văn hồn toàn trung thực Tác giả Trần Thị Thanh i MỤC LỤC MỤC LỤC i DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH VẼ viii MỞ ĐẦU .1 CHƢƠNG 1: TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung 1.1.1 Giới thiệu 1.1.2 Khái niệm 1.1.3 Đặc điểm toán khai phá liệu .4 1.2 Quá trình khám phá tri thức sở liệu .6 1.2.1 Gom liệu 1.2.2 Trích lọc liệu 1.2.3 Làm sạch, tiền xử lý chuẩn bị trƣớc liệu 1.2.4 Chuyển đổi liệu .9 1.2.5 Khai phá liệu - Phát trích mẫu liệu 1.2.6 Đánh giá kết mẫu .10 1.3 Khái quát kỹ thuật khai phá liệu 10 1.3.1 Kỹ thuật khai phá liệu dự đoán 10 1.3.1.1 Phân lớp liệu 10 1.3.1.2 Hồi quy 12 1.3.2 Kỹ thuật khai phá liệu mô tả 13 1.3.2.1 Phân cụm liệu 13 1.3.2.2 Tóm tắt 14 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 1.3.3 So sánh tiếp cận khai phá liệu: phân cụm - phân lớp 14 1.3.4 Ứng dụng phân cụm 15 1.3.5 Ví dụ 15 1.4 Ý nghĩa thực tiễn tình hình ứng dụng 17 1.4.1 Ý nghĩa thực tiễn 17 1.4.2 Tình hình ứng dụng 18 CHƢƠNG 2: TÌM HIỂU VỀ THUẬT GIẢI DI TRUYỀN 19 2.1 Tổng quan giải thuật di truyền 19 2.1.1 Giới thiệu 19 2.1.2 Các tính chất quan trọng giải thuật di truyền .20 2.1.3 Cơ sở sinh học giải thuật di truyền 21 2.1.4 Sơ đồ thực giải thuật di truyền 21 2.1.5 Ứng dụng 24 2.2 Các khái niệm chung giải thuật di truyền 24 2.2.1 Chuỗi nhiễm sắc thể 24 2.2.2 Các cá thể 25 2.2.3 Phƣơng pháp mã hóa 25 2.2.4 Quần thể 25 2.2.5 Hàm thích nghi 26 2.2.6 Lai ghép, đột biến, tái sinh chọn lọc 26 2.3 Các phép toán di truyền .27 2.3.1 Mã hóa 27 2.3.1.1 Mã hóa nhị phân 27 2.3.1.2 Mã hóa hốn vị 28 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii 2.3.1.3 Mã hóa giá trị 28 2.3.1.4 Mã hóa theo 28 2.3.2 Quá trình lai ghép .29 2.3.2.1 Lai ghép giá trị thực 29 2.3.2.2 Lai ghép giá trị nhị phân 31 2.3.3 Đột biến 32 2.3.3.1 Đột biến giá trị thực 32 2.3.3.2 Đột biến giá trị nhị phân 33 2.3.4 Phép chọn lọc 33 2.3.4.1 Phƣơng pháp chọn lọc dùng bánh xe Roulette 33 2.3.4.2 Phƣơng pháp chọn lọc Stochastic Universal Sampling 34 2.3.4.3 Phƣơng pháp chọn lọc địa phƣơng 35 2.3.4.4 Phƣơng pháp lựa chọn loại bỏ 36 2.4 Các tham số thuật giải di truyền .36 2.4.1 Kích thƣớc quần thể 36 2.4.2 Xác suất lai giống .37 2.4.3 Xác suất đột biến 37 2.4.4 Số lƣợng hệ 38 CHƢƠNG 3: ỨNG DỤNG GIẢI THUẬT DI TRUYỀN VÀO PHÂN LOẠI 39 TÀI LIỆU DẠNG VĂN BẢN 39 3.1 Phân loại văn 39 3.1.1 Khái niệm 39 3.1.2 Quá trình phân loại văn .39 3.2 Giới thiệu toán phân loại văn .41 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv 3.3 Các phƣơng pháp biểu diễn văn .41 3.3.1 Mơ hình khơng gian vector (Vector Space Model - VSM) 41 3.3.2 Mơ hình BOOLEAN 43 3.3.3 Mơ hình tần suất .44 3.3.3.1 Phƣơng pháp dựa tần số thuật ngữ (TF) 44 3.3.3.2 Phƣơng pháp dựa nghịch đảo tần số văn (TDF) 45 3.3.3.3 Phƣơng pháp TF × IDF 45 3.3.4 Phƣơng pháp xử lý vector thƣa 46 3.3.5 Mơ hình đồ thị 46 3.4 Các thuật toán phân loại văn 48 3.4.1 Bộ phân loại Vector hỗ trợ (SVM) 48 3.4.2 Phân loại văn SVM .53 3.4.3 Thuật toán k-NN (k-Nearest Neighbor) 60 3.5 Giải thuật di truyền phân loại văn 62 3.5.1 Lựa chọn mơ hình biểu diễn văn .62 3.5.1.1 Biểu diễn vector văn 63 3.5.1.2 Phép tính độ tƣơng tự hai vector 63 3.5.1.3 Vector trọng tâm nhóm văn 63 3.5.1.4 Phép tính độ tƣơng tự hai nhóm văn 63 3.5.2 Phƣơng án tách thuật ngữ 64 3.5.2.1 Đối với ngôn ngữ đơn âm tiết (single-term) 64 3.5.2.2 Đối với ngôn ngữ đa âm tiết (multi-term) 64 3.5.2.3 Loại nhiễu 65 3.5.2.4 Mã hóa ký tự 66 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v 3.5.2.5 Tách từ khóa 66 3.5.2.6 Loại từ dừng (Stop Words) 66 3.5.2.7 Thống kê từ khóa 66 3.5.3 Sử dụng thuật giải di truyền trích chọn từ khóa .67 3.5.3.1.Giới thiệu 67 3.5.3.2 Độ thích hợp từ khóa 67 3.5.3.3 Ứng dụng giải thuật di truyền để tối ƣu hóa độ thích nghi từ khóa 69 3.6 Cài đặt thử nghiệm chƣơng trình .69 KẾT LUẬN .73 TÀI LIỆU THAM KHẢO 74 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các từ viết tắt Nghĩa tiếng anh Nghĩa tiếng việt KDD Knowledge Discovery and Data Kỹ thuật phát tri thức Mining khai phá liệu VSM Vector Space Model Mơ hình khơng gian vector VC Vapnik-Chervonenkis Kích thƣớc VC SVM Support Vector Machine Bộ phân loại Vector hỗ trợ RBF Radial Basis Functions Bộ phân loại chức SMO Sequential Minimal Optimization Tối ƣu hóa cực tiểu TF term frequency Tần suất từ k-NN k-Nearest Neighbor Thuật toán k-NN WFST Weighted Finite State Transducer Mơ hình WFST kết hợp mạng Noron SW Stop Words Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Loại từ dừng http://www.lrc-tnu.edu.vn vii DANH MỤC CÁC BẢNG Bảng 2.1: Biểu diễn cá thể trƣớc sau đột biến 33 Bảng 2.2: Độ thích nghi xác suất cá thể 34 Bảng 3.1: Vector biểu diễn văn văn theo tần suất xuất 43 Bảng 3.2: Vector Boolean biểu diễn văn .44 Bảng 3.3: Các tham số tối ƣu tƣơng ứng với số lƣợng đặc trƣng 58 Bảng 3.4: Độ xác phân loại lớp toàn 58 Bảng 3.5: Một số từ dừng tiếng Việt 66 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn viii DANH MỤC CÁC HÌNH VẼ Hình 1.1: Q trình khám phá tri thức Hình 1.2: Các đƣờng biên phân loại láng giềng gần 11 Hình 1.3: Đƣờng biên phân loại học phân loại không tuyến tính .12 Hình 1.4: Một hồi quy tuyến tính đơn giản với tập liệu vay nợ 12 Hình 1.5: Một phép phân cụm đơn giản tập liệu vào cụm 14 Hình 1.6: Phân cụm các điểm khơng gian .15 Hình 1.7: Phân cụm nhà dựa vào khoảng cách địa lý .16 Hình 2.1: Giải vấn đề giải thuật di truyền 20 Hình 2.2: Sơ đồ giải thuật di truyền .22 Hình 2.3: Nguyên tắc thực lai ghép chéo 31 Hình 2.4: Nguyên tắc thực lai ghép đa điểm .32 Hình 2.5: Ảnh hƣởng quá trình đột biến 32 Hình 2.6: Quá trình chọn lọc cá thể phƣơng pháp bánh xe Roulette .34 Hình 2.7: Quá trình chọn lọc cá thể phƣơng pháp Stochastic Universal Sampling 35 Hình 2.8: Mô tả lân cận cá thể .35 Hình 2.9: Mơ tả lân cận cá thể .36 Hình 3.1: Các bƣớc nhỏ quá trình đánh số 40 Hình 3.2: Biểu diễn các vector văn khơng gian có thuật ngữ 42 Hình 3.3: Đồ thị biểu diễn văn 47 Hình 3.4 Đồ thị đồng văn 48 Hình 3.5 Mặt phẳng tách mẫu dƣơng khỏi mẫu âm 49 Hình 3.8: Minh họa việc khoanh vùng k văn gần với k = .60 Hình 3.9: Mơ hình tách từ khố từ văn thơ 65 Hình 3.10: Giao diện chƣơng trình 70 Hình 3.11: Thực phân tách văn định dạng txt 70 Hình 3.12: Quá trình loại bỏ stop word có văn 70 Hình 3.13:Thực học phân lớp thể thao pháp luật 71 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 60 Phƣơng pháp phân loại SVM phân loại có khả tự động điều chỉnh tham số để tối ƣu hóa hiệu suất phân loại chí khơng gian đặc trƣng có số chiều cao Bộ phân loại SVM tỏ phù hợp cho phân loại văn Trong thử nghiệm với toán phân loại văn tiếng Việt, độ xác phân loại 80,72% chấp nhận đƣợc điều kiện thực tế 3.4.3 Thuật toán k-NN (k-Nearest Neighbor) K-NN dựa phƣơng pháp học máy đƣợc biết đến nhƣ thuật toán hiệu nhiều lĩnh vực đặc biệt toán phân loại văn bản.Tƣ tƣởng thuật toán tính toán độ phù hợp văn xét với nhóm chủ đề dựa k văn mẫu có độ tƣơng tự gần Thuật toán cịn đƣợc sử dụng toán tìm kiếm văn toán tóm tắt văn Nhóm Nhóm Văn cần phân loại Hình 3.8: Minh họa việc khoanh vùng k văn gần với k = Trong hình 3.8 biểu diễn việc khoanh vùng k văn gần (k = 5) với văn cần phân loại Từ k văn tìm đƣợc cần đƣa giải pháp để tìm nhóm văn phù hợp với văn Vấn đề cần quan tâm khái niệm gần theo nghĩa nào, mức độ gần đƣợc tính theo cơng thức Vấn đề thứ hai cần quan tâm sau tìm đƣợc k văn gần rồi, làm để tìm nhóm văn phù hợp với văn Khái niệm gần đƣợc hiểu độ tương tự các văn bản.Có nhiều cách tính độ tƣơng tự hai văn phƣơng pháp đánh giá độ tƣơng tự Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 61 dựa công thức cosine trọng số thƣờng đƣợc sử dụng rộng rãi nhất.Ở đây, văn đƣợc biểu diễn dƣới dạng vector.T = {t1, t2,…tn} tập hợp các thuật ngữ (hoặc các khái niệm), W = {w1, w2, wn} vector trọng số wi trọng số thuật ngữ ti Xét hai văn X = {x1, x2,…xn} Y = {y1, y2,…yn}, xi, yi tần số thuật ngữ ti xuất tƣơng ứng văn X, Y Khi độ tƣơng tự hai văn X Y đƣợc tính theo công thức sau: sim( X , Y )  cosine(X , Y ,W )    tT ( xt  wt )  ( yt  wt ) ( xt  wt ) tT  ( yt  wt ) tT (22) Trong vector X Y, các thành phần xi yi thƣờng đƣợc chuẩn hóa theo tần suất xuất (TF – xem các công thức (2), (3), (4)) thuật ngữ ti văn X Y Vector W đƣợc xác định tay đƣợc tính theo thuật toán tham lam Một số đề xuất đƣa cách tính vector W theo nghịch đảo tần suất văn IDF, các văn đƣợc biểu diễn dƣới dạng vector tần suất TF × IDF (xem cơng thức (6)) Trong luận văn nàysử dụng cách biểu diễn văn theo phƣơng pháp tần suất TF × IDF đánh giá độ tƣơng tự theo công thức cosine nhƣ Vấn đề thứ hai, nhƣ đặt ra, phép tính độ phù hợp chủ đề tìm đƣợc k văn gần Có nhiều cách đánh giá dựa độ tƣơng tự các văn bản, có cách đƣợc ý nhiều nhất: * Gán nhãn văn gần Theo phƣơng pháp này, văn xét đƣợc gán nhãn cho chủ đề văn có độ tƣơng tự cao Giải pháp tƣơng đối đơn giản hiệu quả, song khơng đƣợc đánh giá cao dẫn đến kết sai tập mẫu có nhiễu Một nhƣợc điểm phƣơng pháp kết đƣa khơng mang tính tổng hợp *Gãn nhãn theo số đông Để dễ hiểu, xét ví dụ nhƣ sau, văn d có văn gần với d1, d2, d3, d4 d5có nhãn chủ đề độ tƣơng tự nhƣ sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 d1 d2 d3 d4 d5 Độ tương tự 0.9 0.89 0.89 0.88 0.6 Chủ đề chủ đề chủ đề chủ đề chủ đề chủ đề Về mặt trực quan, nên gán nhãn chủ đề cho văn d có văn thuộc lớp Nếu chọn theo văn gần gặp sai lầm khả có nhiễu tập mẫu chứa sai sót Nhƣ vậy, cách đánh giá khắc phục đƣợc lỗi tập mẫu, nhiên chƣa đƣợc đánh giá cao số tình mà cụ thể ví dụ dƣới d1 d2 d3 d4 d5 Độ tương tự 0.9 0.8 0.3 0.3 0.2 Chủ đề chủ đề chủ đề chủ đề chủ đề chủ đề Trong trƣờng hợp nên chọn chủ đề để gán nhãn cho văn d * Gán nhãn theo độ phù hợp chủ đề Độ phù hợp văn d chủ đề c đƣợc tính theo cơng thức sau: sim(d , c)   sim(d , d i ) (23) di c Phƣơng pháp cần lần lƣợt tính độ phù hợp văn d với chủ đề từ k văn lấy ra, sau gán nhãn chủ đề phù hợp cho d 3.5.Giải thuật di truyền phân loại văn 3.5.1 Lựa chọn mô hình biểu diễn văn Phần trình bày các nghiên cứu số mơ hình biểu diễn văn Các mơ hình bao gồm: mơ hình khơng gian vector Boolean, mơ hình khơng gian vector tần suất, mơ hình biểu diễn tập mờ, mơ hình biểu diễn đồ thị Trong các cách biểu diễn mơ hình vector Boolean đơn giản nhất, nhiên việc xử lý toán với mơ hình cho độ xác khơng cao Mơ hình biểu diễn văn dƣới dạng tập mờ cho kết xử lý xác hơn, nhƣng việc xây dựng mơ hình tập mờ lại cần có can thiệp ngƣời dùng cần có các thuật toán cao cấp để xử lý tập thô (Rough set) sở liệu lớn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 Từ các suy xét nhƣ trên, tác giả xin chọn mơ hình biểu diễn vector thƣadựa mơ hình tần suất TF × IDF để biểu diễn văn 3.5.1.1 Biểu diễn vector văn Giả sử ta có tập hợp các từ khóa T = {t1, t2,…,tm}, văn dk đƣợc biểu diễn dƣới dạng chuỗi các từ khóa d k  {t1k , t 2k ,} , tik  T Phƣơng pháp biểu diễn văn d dƣới dạng vector tần suất TF × IDF đƣa văn d dạng vector: d  { f log( N/h1 ), f log( N/h2 ),, f m log( N/hm )} fi tần suất xuất thuật ngữ ti văn d, N số văn có sở liệu, vàhi tần suất xuất văn chứa thuật ngữ ti Để đơn giản hóa, từ sau tác giả dùng ký hiệu d thay cho vector d 3.5.1.2 Phép tính độ tương tự hai vector Xét hai vector X = {x1, x2,…, xm} Y = {y1, y2,…, ym} biểu diễn dƣới dạng vector tần suất TF × IDF Khi đó, độ tƣơng tựgiữa hai vector đƣợc tính theo cơng thức cosine(24): m sim( X,Y )  cosine(X,Y )  X.Y  XY  x y i 1 m i i x y i 1 (24) m i i 1 i 3.5.1.3 Vector trọng tâm nhóm văn Xét nhóm văn c, vector trọng tâm nhóm C đƣợc tính thơng qua vector tổng D(theo công thức (25), (26)): D  d (25) d c C D c (26) |c| số phần tử thuộc tập văn c Trong tốn xử lý văn vector trọng tâm đƣợc dùng để làm đại diện cho nhóm văn 3.5.1.4 Phép tính độ tương tự hai nhóm văn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 Giả sử ta có hai nhóm vector c1, c2, độ tƣơng tự hai nhóm văn đƣợc tính độ gần hai vector trọng tâm C1, C2 nhƣ sau: sim(c1 , c2 )  sim(C1 , C2 ) (27) Ở ta hiểu c1 c2 văn riêng lẻ coi nhóm gồm phần tử 3.5.2 Phương án tách thuật ngữ Vấn đề cần quan tâm toán tách từ Trong các phần trƣớc không nhắc tới toán mà coi bƣớc nhỏ toán xử lý văn ngầm định ln ln biểu diễn văn thô thành vector Boolean, tần suất, hay tập mờ.Nhƣng thực tế khơng phải dễ dàng nhƣ mà thực toán xử lý văn Phát biểu toán: Cho văn d từ điển T Yêu cầu tách từ khóa có từ điển từ văn nêu Các vần đề cần quan tâm: 3.5.2.1 Đối với ngôn ngữ đơn âm tiết (single-term) Việc tách từ khóa ngơnngữ đơn âm tiết tƣơng đối đơn giản Trong các ngôn ngữ này, từ khóa có ý nghĩa thƣờng đƣợc biểu diễn dƣới dạng dãy ký tự liên tiếp.Đối với các từ khóa có nhiều âm tiết có âm tiết mang hàm nghĩa, các tiếng khác mang tính chất phụ âm.Nhƣng các ngơn ngữ loại thƣờng có biến thể từ khóa.Ví dụ tiếng Anh có các biến thể từ “do”: “do”, “doing”, “done” Do các tách từ cần có biện pháp xử lý các biến thể từ khóa 3.5.2.2 Đối với ngôn ngữ đa âm tiết (multi-term) Ví dụ điển hình tiếngViệtthì việc xử lý tách từ tƣơng đối khó Việc xử lý khơng khó khăn có nhiều âm tiết mà cịn gặp phải nhiều nhập nhằng ngôn ngữ Một giải pháp tốt đƣợc đƣa để tránh tình trạng xử lý cú pháp, nhƣng cách xử lý quá chậm làm cho toán xử lý văn (thƣờng yêu cầu nhanh) chậm nhiều Do ngƣời ta thƣờng sử dụng cách tách từ theo độ dài Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 từ khóa chấp nhận có sai số Do nhập nhằng nhƣ xảy không nhiều thực tế nên cần chấp nhận sai số để có tách từ nhanh Vấn đề cần quan tâm các ký hiệu vô nghĩa văn Các văn thơng thƣờng có nhiều ký tự vơ nghĩa, ví dụ các ký tự dấu câu, các chữ số, các ký tự đặc biệt dùng cho điều khiển Các ký tự khơng xuất các từ khóa ta cần có biện pháp xóa bỏ ký tự để tránh nhiễu xử lý Ở cần quan tâm giải toán tách từ ngơn ngữ tiếng Việt.Theo thống kê các từ khóa thơng dụng tiếng Việt thƣờng dùng khoảng 70,000 từ khóa các từ khóa đƣợc cấu thành từ khoảng 6,500 âm tiết Từ các kết nghiên cứu tác giả xin đƣa mơ hình tách từ nhƣ hình 3.9 Hình 3.9: Mơ hình tách từ khố từ văn thơ Các bƣớc xử lý tách từ khóa: 3.5.2.3 Loại nhiễu Mục đích bƣớc loại bỏ các ký tự vơ nghĩa khơng có từ điển Nhƣng các ký tự điều khiển nhƣ dâu chấm câu (“.”), dấu gạch nối (“-”) đƣợc dùng đến quá trình xử lý nên cần giữ lại các ký tự Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 3.5.2.4 Mã hóa ký tự Trong tiếng Việt có nhiều loại font chữ khác nhau,chính vìthế cần thống tất các loại font chữ mối để dễ dàng quá trình xử lý Ngồi ra, cần ý chữ viết cịn có ký tự viết hoa, ký tự viết thƣờng, cần phải có biện pháp đồng các ký tự để tránh sai các xử lý sau 3.5.2.5 Tách từ khóa Từ văn đƣợc biểu diễn dƣới dạng danh sách các mã tiếng,bộ tách từ tiến hành ghép các tiếng lại thành các từ khóa có từ điển từ theo ƣu tiên từ khóa có số tiếng dài Do việc xử lý văn có nhiều mục đích khác theo nhiều chuyên ngành khác nên từ điển cần đƣợc tổ chức thành hai dạng gồm: từ điển chuẩn (dùng nhiều đời sống hàng ngày), từ điển chuyên ngành (dùng cho chuyên ngành riêng) 3.5.2.6 Loại từ dừng (Stop Words) Mục đích bƣớc loại bỏ các từ mangý nghĩa quá trình xử lý nội dung Quá trình xử lý cần có từ điển StopWords riêng ngƣời dùng tự xây dựng Một số từ dừng tiếng Việt Bảng 3.5: Một số từ dừng tiếng Việt Có thể Nếu Vì Sau Thì Nếu khơng Trước Vì Loại trừ Tất Cho nên Một số Những Nhưng Rõ rang Phần lớn Bởi Với Hầu Là Với lại Khi mà Khơng thể Quả thật Bởi Thay Tất 3.5.2.7 Thống kê từ khóa Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 Sau bƣớc xử lý trên, văn thô ban đầu đƣợcbiểu diễn dƣới dạng danh sách các từ khóa đƣợc tách từ từ điển, bƣớc cuối tách từ cần làm thống kê xem các từ khóa xuất lần biểu diễn văn vừa phân tích dƣới dạng vector tần suất xuất 3.5.3 Sử dụng thuật giải di truyền trích chọn từ khóa 3.5.3.1.Giới thiệu Giải thuật trích chọn từ khóa cách tối ƣu hóa độ thích nghi từ khóa (Keyword Extraction by Keyword – Fitness Optimization) đƣa phƣơng pháp tách từ khóa tự động từ các văn tập văn cho trƣớc dựa hai tiêu chuẩn đánh giá là: độ đo hiệu suất độ bao phủ Độ đo hiệu suất thuật ngữ phụ thuộc vào hiệu việc sử dụng thuật ngữ để tìm tài liệu tập văn Độ bao phủ thuật ngữ phụ thuộc vào khả thuật ngữ đƣợc sử dụng nhƣ từ khóa để tìm kiếm tập văn bản.Hai tiêu chuẩn đƣợc xác định cách thống kê sử dụng phân bố các từ văn tập văn Độ thích hợp thuật ngữ đƣợc xác định dựa độ đo hiệu suất độ bao phủ từ Giải thuật “Trích chọn từ khóa cách tối ƣu hóa độ thích nghi” tìm thuật ngữ có độ thích hợp cao văn sử dụng giải thuật di truyền 3.5.3.2 Độ thích hợp từ khóa Độ thích hợp thuật ngữ tiêu chuẩn đƣợc sử dụng để lựa chọn các thuật ngữ đặc trƣng cho văn Phần ta xem xét công thức tính độ thích hợp thuật ngữ dãy các thuật ngữ văn * Độ thích hợp thuật ngữ văn - Các đại lƣợng sở Gọi tập văn đƣợc xét D, n số các văn có tập D: n = | D | Số các văn tập D chứa các từ khóa w h(w) h(w) = |{d  D | w in d }| - (28) Định nghĩa độ đo hiệu suất Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 68 Độ đo hiệu suất thuật ngữ độ đo đánh giá hiệu việc sử dụng thuật ngữ để tìm tài liệu tập văn Độ đo hiệu suất thuật ngữ w đƣợc tính theo cơng thức sau: e( w)  log( - n ) h( w) (29) Định nghĩa độ bao phủ Độ bao phủ thuật ngữ độ đo đánh giá khả thuật ngữ đƣợc sử dụng nhƣ từ khóa để tìm kiếm tập văn Độ bao phủ thuật ngữ w đƣợc tính theo cơng thức sau:  h( w)  r ( w)  r ( w, a)     n  a (30) (Trong a tham số thỏa mãn < a < 1) - Độ thích hợp thuật ngữ w hay độ thích nghi từ khóa Độ thích hợp thuật ngữ w đƣợc định nghĩa dựa hai độ đo là: độ đo hiệu suất độ đo bao phủ thuật ngữ Công thức: a h( w)  h( w)  f(w, a)  e(w) x r(w, a)  -  )   log( n  n  (31) Chú ý: ≤ h(w) ≤ n Trong a tham số Theo kinh nghiệm, ta sử dụng a với các giá trị sau: 1.0, 0.5, 0.4, 0.2… * Độ thích hợp dãy thuật ngữ Xét dãy gồm k thuật ngữ [w1, w2 …wk], k > Trong quá trình xử lý tìm kiếm văn bản, ta sử dụng i thuật ngữ dãy k thuật ngữ nói (0 ≤ i ≤ k) Gọi hi số văn chứa các thuật ngữ w1, w2, …, wi hi = |{d  D | w1, w2,…, wiin d }|, h0=n Độ thích hợp dãy thuật ngữ [w1, w2 …wk] đƣợc tính theo cơng thức sau: a h  h(wi )  f (w1 , w2 , , wk ; a, b)  k      log( i ) n  hi1 i 1  k b Số hóa Trung tâm Học liệu – Đại học Thái Nguyên (32) http://www.lrc-tnu.edu.vn 69 Trong b tham số thỏa mãn: < b ≤ 3.5.3.3 Ứng dụng giải thuật di truyền để tối ưu hóa độ thích nghi từ khóa Để áp dụng giải thuật di truyền, trƣớc hết ta lựa chọn phƣơng pháp mã hóa cá thể, cách thức tạo hệ ban đầu, phƣơng pháp lựa chọn, lai ghép đột biến Các tác giả giải thuật “Keyword Extraction by Keyword – Fitness Optimization” đƣa các lựa chọn sau: Cách mã hóa: Các cá thể dãy gồm các từ văn bản, bao gồm từ rỗng Tạo quần thể ban đầu: Lựa chọn m cá thể, cá thể bao gồm số thuật ngữ đƣợc lựa chọn ngẫu nhiên văn Độ thích nghi cá thể đƣợc tính Keyword – Fitness dãy thuật ngữ cá thể: a h  h(wi )  f ( w1 , w2 , , wk ; a, b)  k      log( i ) n  hi1 i 1  k b Toán tử chọn lọc: lựa chọn các cá thể theo phƣơng pháp đánh giá lại Sau xếp các cá thể theo chiều giảm dần độ thích nghi, xóa 10% cá thể có độ thích nghi thấp Toán tử lai ghép: Sử dụng phƣơng pháp lai ghép đơn điểm Toán tử đột biến: Thay ngẫu nhiên từ cá thể từ văn 3.6 Cài đặt thử nghiệm chƣơng trình Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 70 Hình 3.10: Giao diện chương trình Hình 3.11: Thực phân tách văn định dạng txt thành tệp chứa từ tiếng Việt Hình 3.12: Quá trình loại bỏ stop word có văn lưu thành tệp prps Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 71 Hình 3.13:Thực học phân lớp thể thao pháp luật Hình 3.14: Trích chọn đặc trưng theo giải thuật di truyền Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 72 Hình 3.15: Thực biểu diễn văn phân lớp theo đặc trưng trích chọn dựa giaỉ thuật di truyền biểu diễn dạng vecto thưa Hình 3.16: Thực phân loại văn theo thể loại Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 73 KẾT LUẬN Luận văn tập trung nghiên cứu khai phá liệu, giải thuật di truyền ứng dụng giải thuật di truyền vào trích chọn từ khóa để phân loại tài liệu dạng văn * Những kết đạt đƣợc Để đạt đƣợc mục tiêu đề ra, luận văn bƣớc nghiên cứu nội dung sau: Tổng quan khai phá liệu: Nghiên cứu khái niệm khám phá tri thức khai phá liệu Tìm hiểu kỹ thuật trình khai phá liệu, tập trung vào hai kỹ thuật thƣờng dùng phân cụm phân lớp Tìm hiểu thuật giải di truyền: Các khái niệm chung giải thuật di truyền nhƣ: nhiễm sắc thể, cá thể, quẩn thể, phƣơng pháp mã hóa, hàm thích nghi, các toán tử lai ghép, đột biến, tái sinh, chọn lọc, sơ đồ thuật giải di truyền tham số thuật giải Ứng dụng giải thuật di truyền khai phá liệu để trích chọn từ khóa phân loại văn bản: nghiên cứu khái quát phân loại văn bản, mơ hình biểu diễn văn bản, số thuật tốn phân loại mơ hình phân loại văn bản(đã cài đặt đƣợc ứng dụng để minh họa) * Hƣớng phát triển Mục tiêu lâu dài luận văn áp dụng đánh giá các phƣơng pháp phân loại văn hiệu đƣợc nghiên cứu sâu để tìm phƣơng pháp hiệu phù hợp cho việc phân loại tài liệu dạng văn Nghiên cứu cải tiến khâu tiền xử lý văn bản, xây dựng mẫu huấn luyện tiêu chuẩn nhƣ điều chỉnh giải thuật SVM để nâng cao độ xác phân loại Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 74 TÀI LIỆU THAM KHẢO Tiếng Việt 1.Bùi Thế Tâm, Trần Vũ Thiệu, Các phương pháp tối ưu hóa, Nxb Giao thơng vận tải Hà Nội (1998) Hồng Kiếm, Lê Hoàng Thái, Giải thuật di truyền – Cách giải tốn tự nhiên máy tính, Nxb Giáo dục (2001) Nguyễn Đình Thúc, Trí tuệ nhân tạo - Lập trình tiến hóa, Nxb Giáo dục (2001) Đỗ Phúc, Bài giảng Tổng quan khai phá liệu, Trƣờng Đại học CNTT, ĐHQG Tp Hồ Chí Minh (2007) 5.Đỗ Bích Diệp, “Phân loại văn dựa mơ hình đồ thị”, Luận văn cao học Trƣờng Đại học Tổng hợp New South Wales - Australia 2004 Huỳnh Quyết Thắng, Đinh Thị Phƣơng Thu, “Tiếp cận phương pháp học khơng giám sát học có giám sát với toán phân lớp văn tiếng Việt đề xuất cải tiến cơng thức tính độ liên quan hai văn mơ hình vector”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005 Tiếng Anh Zbigniew Michalewicz, Genetic Algorithm + Data Structure = Evolution Program (1992) T JOACHIMS, “Text categorization with Support Vector Machines: Learning with many relevant features”, Technical Report 23, LS VIII, University of Dortmund, 1997 E OSUNA, R FREUND, F GIROSI, An improved training algorithm for Support Vector Machines, Neural Networks for Signal Processing VII –Proceedings of the 1997 IEEE Workshop, pp 276-285, New York, IEEE, 1997 10 J PLATT, Sequential minimal optimization: A fast algorithm for training Support Vector Machines, Technical Report MSR-TR-98-14, Microsoft Research, 1998 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... dụng vào phân loại tài liệu dạng văn Trong chƣơng tìm hiểu phép tốn di truyền tham số giải thuật di truyền Q trình phân loại văn bản, tốn phân loại văn bản, các phƣơng pháp biểu di? ??n văn thuật. .. Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 39 CHƢƠNG 3: ỨNG DỤNG GIẢI THUẬT DI TRUYỀN VÀO PHÂN LOẠI TÀI LIỆU DẠNG VĂN BẢN 3.1 Phân loại văn 3.1.1 Khái niệm Phân loại văn có thuật. .. CHƢƠNG 3: ỨNG DỤNG GIẢI THUẬT DI TRUYỀN VÀO PHÂN LOẠI 39 TÀI LIỆU DẠNG VĂN BẢN 39 3.1 Phân loại văn 39 3.1.1 Khái niệm 39 3.1.2 Quá trình phân loại văn

Định dạng
Số trang	85
Dung lượng	1,51 MB