Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm string kernel

71 10 0
Phân lớp văn bản nhờ máy véc tơ hỗ trợ với hàm string kernel

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG ĐẶNG ĐÌNH TUYẾN PHÂN LỚP VĂN BẢN NHỜ MÁY VÉC – TƠ HỖ TRỢ VỚI HÀM STRING KERNEL Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS.TS.Nguyễn Tân Ân THÁI NGUYÊN - 2016 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii LỜI CẢM ƠN Luận văn hoàn thành trường Đại học Công nghệ Thông tin Truyền thông Thái Nguyên Tác giả luận văn xin bày tỏ lòng biết ơn sâu sắc tới thầy hướng dẫn khoa học: PGS.TS Nguyễn Tân Ân tận tình hướng dẫn, giúp đỡ tạo điều kiện để tác giả thực luận văn Tác giả xin chân thành cảm ơn tập thể thầy giáo khoa CNTT, phịng quản lý sau đại học Trường Đại học Công nghệ Thông tin Truyên thông Thái Nguyên tạo điều kiện giúp đỡ cho tác giả nghiên cứu, học tập hoàn thành luận văn Xin cảm ơn gia đình, bạn bè, đồng nghiệp tạo điều kiện thuận lợi tinh thần vật chất cho tác giả hoàn thành luận văn Xin cảm ơn tất cả! Thái Nguyên, tháng năm 2016 Tác giả luận văn Đặng Đình Tuyến Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii LỜI CAM ĐOAN Tôi Đặng Đình Tuyến, học viên cao học K13, chuyên ngành Khoa học máy tính, khố 2014-2016 Tơi xin cam đoan luận văn thạc sĩ “Phân lớp văn nhờ Máy Véc-tơ hỗ trợ (SVM) với hàm string kernel” cơng trình nghiên cứu riêng với hướng dẫn PGS.TS Nguyễn Tân Ân Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Thái Nguyên, tháng năm 2016 Tác giả Đặng Đình Tuyến Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN iii MỤC LỤC iv DANH MỤC HÌNH ẢNH vi DANH MỤC BẢNG BIỂU vii CHƯƠNG 1: BÀI TOÁN PHÂN LỚP 1.1 Nội dung toán phân lớp 1.2 Các phương pháp phân lớp 1.2.1 Phương pháp Naïve Bayes (NB) 1.2.2 Phương pháp K–Nearest Neighbor (kNN) 1.2.3 Neural Network (NNet) 1.2.4 Centroid- based vector 1.3 Máy véc-tơ hỗ trợ (Support Vector Machine SVM) 1.3.1 Bài toán phân loại SVM 1.3.2 Ý tưởng SVM 1.3.3 Phương pháp tìm α*, b 16 1.3.4 SVM toán nhiều lớp 21 1.3 Kết luận 24 CHƯƠNG 2: NHỮNG KIẾN THỨC CƠ SỞ 25 2.1 Hàm Kernel 25 2.1.1 Không gian gốc, không gian đặc trưng 25 2.1.2 Định nghĩa kernel 26 2.1.3 Một số ví dụ Ф k(,) .26 2.1.4 Một số hàm kernel .28 2.1.5 Định lý 30 2.1.6 Kernel độ đo giống hai đối tượng 31 2.1.7 Kernel trick 32 2.1.8 Xây dựng kernel 32 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v 2.1.9 Nhân hóa số phương pháp phân lớp 34 2.2 String kernel 39 2.2.1 Kernel dựa mô hình k_gram 39 2.2.2 Kernel dựa trọng số xâu 41 2.2.3 Tính string kernel dùng quy hoạch động .43 2.2.4 Kernel dựa độ giống hai xâu 44 2.2.5 Một số đặc trưng Tiếng Việt 45 2.3 Kết luận 48 CHƯƠNG 3: CÀI ĐẶT THỬ NGHIỆM THUẬT TỐN SVM CHO BÀI TỐN TÌM KIẾM VĂN BẢN 49 3.1 Mơ tả tốn 49 3.2 Phân tích, cài đặt thuật tốn 49 3.2.1 Thuật tốn huấn luyện để tìm từ khóa 49 3.2.2 Thuật toán sử dụng từ khóa tìm kiếm văn 57 3.3 Kết luận 61 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62 TÀI LIỆU THAM KHẢO 63 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi DANH MỤC HÌNH ẢNH Hình 1.1: Kiến trúc mô đun (Modular Architecture) Các kết mạng giá trị đầu vào cho mạng siêu chủ đề nhân lại với để dự đoán chủ đề cuối .6 Hình 1.2: Các trường hợp siêu mặt h phân chia tập liệu D SVM .8 Hình 1.3: Siêu mặt phân chia tập mẫu huấn luyện với lớp lớp + hình vng lớp – hình trịn .9 Hình 1.4: Siêu phẳng tuyến tính phân chia liệu, m khoảng cách hai lề 10 Hình 1.5: Nguyên lý phương pháp một-chọi-phần lại cho ba lớp 22 Hình 1.6: Nguyên lý phương pháp phân chia mơt-chọi-một 22 Hình 1.7: Biểu diến phương pháp END để phân chia ba trạng thái toán dự đoán phân lớp 24 Hình 2.1: Mỗi điểm liệu ánh xạ hàm khơng tuyến tính Ф từ không gian liệu X vào không gian đặc trưng F Trong Ф(x) Ф(o) véc-tơ đặc trưng điểm liệu gốc x o .26 Hình 2.2: Ánh xạ liệu từ không gian đầu vào R2 sang khơng gian liệu R3 .27 Hình 2.3: Kernel đa thức bậc hai ánh xạ từ không gian hai chiều vào không gian đặc trưng chiều 29 Hình 2.4: Dữ liệu tách thành hai lớp khơng gian ban đầu 31 Hình 3.1: Trang web Du lịch Khát vọng Việt 50 Hình 3.2: Trang web taxinoibaiphuonglong.com .52 Hình 3.3: Trang web vietnamtourism.com .55 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH MỤC BẢNG BIỂU Bảng 3.1: Bảng thống kê từ đặc trưng từ Đoạn mẫu .50 Bảng 3.2: Tính tốn tần xuất trọng số từ (theo định nghĩa từ tiếng Việt) 51 Bảng 3.3: Bảng thống kê từ đặc trưng từ Đoạn mẫu 52 Bảng 3.4: Tính tốn tần xuất trọng số từ (theo định nghĩa từ tiếng Việt) 54 Bảng 3.5: Bảng thống kê từ đặc trưng từ Đoạn mẫu 55 Bảng 3.6: Tính tốn tần xuất trọng số từ (theo định nghĩa từ tiếng Việt) 56 Bảng 3.7: Bảng tổng hợp 56 Bảng 3.8: Số lần xuất từ văn huấn luyện .59 Bảng 3.9: Bảng phân nhóm với nhãn “Vịnh Hạ Long” 59 Bảng 3.10: Bảng phân nhóm với nhãn “Di sản” 60 Bảng 3.11: Bảng phân nhóm với nhãn “đảo” 60 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn CHƯƠNG 1: BÀI TOÁN PHÂN LỚP 1.1 Nội dung toán phân lớp Phân lớp (classification) tiến trình xử lý nhằm xếp mẫu liệu hay đối tượng vào lớp định nghĩa trước Các mẫu liệu hay đối tượng xếp lớp dựa vào giá trị thuộc tính (attributes) cho mẫu liệu hay đối tượng Sau xếp tất đối tượng biết trước vào lớp tương ứng, lúc lớp đặc trưng tập thuộc tính đối tượng chứa lớp Ví dụ: phân lớp văn bản, tế bào để xác định tế bào ung thư Phân lớp cịn gọi phân lớp có giám sát (supervised classification), lĩnh vực phổ biến học máy (machine learning) khai thác liệu (data mining) Nó giải việc xác định quy tắc số lượng biến số độc lập kết đạt hay biến số xác định phụ thuộc tập liệu đưa Tổng quát, đưa tập mẫu học x ,x i1 i2  , , xik , yi , i=1,….,N, nhiệm vụ phải ước lượng phân lớp hay mơ hình xấp xỉ hàm y = f(x) chưa biết mà phân lớp xác cho mẫu thuộc tập mẫu học Có nhiều cách để biểu diễn mơ hình phân lớp có nhiều thuật tốn giải Các thuật tốn phân lớp tiêu biểu bao gồm mạng neural, định, suy luận quy nạp, mạng Beyesian, Support Vector Machine… Tất cách tiếp cập xây dựng mơ hình có khả phân lớp cho mẫu chưa biết dựa vào mẫu tương tự học Bài tốn phân lớp xử lý thông tin thu thập từ lĩnh vực hoạt động người giới tự nhiên biểu diễn dạng bảng Bảng bao gồm đối tượng thuộc tính Các phần tử bảng giá trị xác định thuộc tính (attributes hay features) đối tượng Trong số cột số thuộc tính đối tượng, cột thuộc tính số dịng số đối tượng chứa liệu Mọi liệu biểu diễn dạng khác chuyển thành dạng bảng để thực q trình phân lớp Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 1.2 Các phương pháp phân lớp 1.2.1 Phương pháp Naïve Bayes (NB) NB phương pháp phân loại dựa vào xác suất sử dụng rộng rãi lĩnh vực máy học (Mitchell trình bày năm 1996, Joachims trình bày năm 1997 Jason năm 2001) sử dụng lần lĩnh vực phân loại Maron vào năm 1961, sau trở nên phổ biến dùng nhiều lĩnh vực cơng cụ tìm kiếm (được mô tả năm 1970 Rijsbergen), lọc mail (mô tả năm 1998 Sahami) * Ý tưởng Ý tưởng cách tiếp cận Naïve Bayes sử dụng xác suất có điều kiện từ chủ đề để dự đoán xác suất chủ đề văn cần phân loại Điểm quan trọng phương pháp chỗ giả định xuất tất từ văn độc lập với Với giả định NB không sử dụng phụ thuộc nhiều từ vào chủ đề, không sử dụng việc kết hợp từ để đưa phán đoán chủ đề việc tính tốn NB chạy nhanh phương pháp khác với độ phức tạp theo hàm số mũ * Cơng thức Mục đích tính xác suất Pr(Cj,d′), xác suất để văn d′ nằm lớp Cj Theo luật Bayes, văn d′ gán vào lớp Cj có xác suất Pr(Cj, d′) cao Cơng thức sau dùng để tính Pr(Cj,d′) (do Joachims đề xuất năm 1997) H BAYES    d' d' '  Pr(C j )  Pr(w i | C j )   Pr(C j )  Pr(w i | C j ) IF (w,d ) i 1 i 1   arg max   arg max  d' d' ' '  C j C C j C  ' '  ' ' IF ( w , d ) Pr( C )  Pr(w | C ) Pr( C )  Pr(w | C ) i i    i 1 i 1  C 'C   C 'C Với:  (TF,d’) số lần xuất từ wi văn d′  |d′| số lượng từ văn d′  wi từ không gian đặc trưng F với số chiều |F| Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn       Pr(Cj) tính dựa tỷ lệ phần trăm số văn lớp Pr(C j )  || C j || || C ||  || C j ||  || C ' || tương ứng với tập liệu huấn luyện C 'C  Pr(wi|Cj) tính sử dụng phép ước lượng Laplace ( Naplik trình bày năm 1982) Pr(w i | C j )   TF (w i , C j ) | F |   TF (w ' , C j ) w '| F | Ngồi cịn có phương pháp NB khác kể sau ML Naive Bayes, MAP Naive Bayes, Expected Naive Bayes, Bayesian Naive Bayes (Jason mô tả năm 2001) Naive Bayes công cụ hiệu số trường hợp Kết tồi liệu huấn luyện nghèo nàn tham số dự đốn (như khơng gian đặc trưng) có chất lượng Nhìn chung thuật tốn phân loại tuyến tính thích hợp phân loại văn nhiều chủ đề NB có ưu điểm cài đặt đơn giản, tốc độ nhanh, dễ dàng cập nhật liệu huấn luyện có tính độc lập cao với tập huấn luyện, sử dụng kết hợp nhiều tập huấn luyện khác Tuy nhiên NB ngồi giả định tính độc lập từ phải cần đến ngưỡng tối ưu kết khả quan Nhằm mục đích cải thiện hiệu NB, phương pháp multiclass- boosting, ECOC (do Berger trình bày năm 1999 Ghani mơ tả lại năm 2000) dùng kết hợp 1.2.2 Phương pháp K–Nearest Neighbor (kNN) Đây phương pháp truyền thống tiếng hướng tiếp cận dựa thống kê nghiên cứu nhận dạng mẫu bốn thập kỷ qua (theo tài liệu Dasarathy năm 1991) kNN đánh giá phương pháp tốt (áp dụng tập liệu Reuters phiên 21450), sử dụng từ thời kỳ đầu việc phân loại văn (được trình bày Marsand năm 1992, Yang năm 1994, Iwayama năm 1995) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 50 Hình 3.1: Trang web Du lịch Khát vọng Việt Đoạn mẫu “Vịnh Hạ Long tiếng với hệ thống đảo hang động có tạo hình vơ kì lạ, đảo giống hình người nhìn phía đất liến, đảo lại giống hình ơng lão bng cần câu cá, tinh xảo hịn đảo giống hình rồng bay lượn … đến với Vịnh Hạ Long bạn lạc vào giới cổ tích hóa đá Chăng mà vịnh Hạ Long vinh dự trở thành bảy kì quan thiên nhiên giới, không sai liên tiếp UNESCO cơng nhận di sản thiên nhiên Đó lý du lịch Hạ Long 2014 trở thành điểm thu hút khách nước” Trích nguồn [http://dulichkhatvongviet.com/tin-tuc/di-san-thien-nhien-the-gioi/vai-net-ve-vinhha-long] Bước 3: Huấn luyện tìm từ khóa đặc trưng Với số lượng văn lớn, từ có tần xuất văn thấp khơng coi đặc trưng Vì bước này, lựa chọn từ đặc trưng T từ Đoạn mẫu sau: T={ t  Dr |#t>= k IG(t,c)>= θ}, # t số lần xuất t toàn tập liệu huấn luyện Bảng 3.1: Bảng thống kê từ đặc trưng từ Đoạn mẫu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 51 STT Từ Tần xuất Vịnh Hạ Long đảo kỳ quan thiên nhiên đảo rồng di sản hang động Xét ví dụ từ đặc trưng sau: Vịnh Hạ Long Bước 4: Biểu diễn văn dạng véc – tơ Tính trọng số từ t T văn tập huấn luyện, công thức:  m  1  log  fij   log   w ij    hi  hi >=  0 Mỗi văn di biểu diễn véc – tơ xi = { Wi1, Wi2,…, Win}, Wịj trọng số từ từ tj văn di Bảng 3.2: Tính tốn tần xuất trọng số từ (theo định nghĩa từ tiếng Việt) STT Từ Vịnh Hạ Long Tần xuất Trọng số W 3 đảo 4 kỳ quan thiên nhiên 1 đảo 1 rồng 1 di sản 1 hang động 1 Xét đoạn mẫu 2: “Tiếp đảo sở hữu 1969 đảo lớn nhỏ, 989 đảo mang tên 980 đảo chưa sở hữu tên Đảo nơi gồm có hai Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 52 dạng đảo đá vôi đảo phiếm thạch tập trung Bái tử long vinh Hạ Long Ở thấy hàng loạt hang động đẹp danh Vùng Di sản thiên nhiên giới công nhận sở hữu khoảng trống 434 km2 bao gồm 775 đảo, hình tam giác mang đỉnh đảo Ðầu Gỗ (phía tây), hồ Ba Hầm (phía nam), đảo Cống Tây (phía đơng) vùng kế bên khu vực đệm di tích danh thắng quốc gia Bộ Văn hóa Thơng tin xếp hạng năm 1962.” [http://taxinoibaiphuonglong.com/thuyet-minh-ve-danh-lam-thang-canh-vinh-ha-long] Hình 3.2: Trang web taxinoibaiphuonglong.com Bước 1: Xây dựng tập từ điển Bước Thu thập đoạn văn mẫu để đưa vào huấn luyện Bước 3: Huấn luyện tìm từ khóa đặc trưng Bảng 3.3: Bảng thống kê từ đặc trưng từ Đoạn mẫu STT Từ Số hóa Trung tâm Học liệu – ĐHTN Tần xuất http://www.lrc.tnu.edu.vn 53 Vịnh Hạ Long đảo 12 kỳ quan thiên nhiên đảo rồng di sản hang động Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 54 Bước 4: Biểu diễn văn dạng véc – tơ Bảng 3.4: Tính tốn tần xuất trọng số từ (theo định nghĩa từ tiếng Việt) STT Từ Tần xuất Trọng số W Vịnh Hạ Long 1 đảo 12 12 kỳ quan thiên nhiên 0 đảo 1 rồng 0 di sản 1 hang động 1 Xét đoạn mẫu 3: “Vịnh Hạ Long nằm vùng Đông Bắc Việt Nam, phần phía tây Vịnh Bắc Bộ, bao gồm vùng biển thành phố Hạ Long, thành phố Cẩm Phả phần huyện đảo Vân Đồn Phía tây nam giáp đảo Cát Bà, phía tây giáp đất liền với đường bờ biển dài 120 km, Vịnh có tổng diện tích 1553 km2 gồm 1969 hịn đảo lớn nhỏ, 989 đảo có tên 980 đảo chưa có tên Vùng Di sản Thế giới cơng nhận có diện tích 434 km2 bao gồm 775 đảo, hình tam giác với ba đỉnh đảo Đầu Gỗ (phía tây), hồ Ba Hầm (phía nam) đảo Cống Tây (phía đơng) Vịnh Hạ Long di sản độc đáo địa danh chứa đựng dấu tích quan trọng q trình hình thành phát triển lịch sử trái đất, nôi cư trú người Việt cổ, đồng thời tác phẩm nghệ thuật tạo hình vĩ đại thiên nhiên với diện hàng nghìn đảo đá mn hình vạn trạng, với nhiều hang động kỳ thú quần tụ thành giới vừa sinh động vừa huyền bí Bên cạnh đó, vịnh Hạ Long cịn nơi tập trung đa dạng sinh học cao với hệ sinh thái điển hình với hàng nghìn lồi động thực vật vơ phong phú, đa dạng Nơi cịn gắn liền với giá trị văn hóa – lịch sử hào hùng dân tộc” [http://vietnamtourism.com/disan/index.php?catid=6] Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 55 Hình 3.3: Trang web vietnamtourism.com Bước 1: Xây dựng tập từ điển Bước Thu thập đoạn văn mẫu để đưa vào huấn luyện Bước 3: Huấn luyện tìm từ khóa đặc trưng Bảng 3.5: Bảng thống kê từ đặc trưng từ Đoạn mẫu STT Từ Vịnh Hạ Long Tần xuất đảo kỳ quan thiên nhiên đảo rồng di sản hang động Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 56 Bước 4: Biểu diễn văn dạng véc – tơ Bảng 3.6: Tính tốn tần xuất trọng số từ (theo định nghĩa từ tiếng Việt) STT Từ Tần xuất Trọng số W Vịnh Hạ Long 3 đảo 9 kỳ quan thiên nhiên 0 đảo 1 rồng 0 di sản 2 hang động 1 Qua ba tập liệu huấn luyện chương trình tính tốn trích ba từ đặc trưng là: Vịnh Hạ Long, đảo, di sản Nhận xét: Với nhu cầu tìm kiếm thơng tin du lịch Quảng Ninh dựa văn chúng tơi tìm từ khóa đặc trưng cho viết du lịch Quảng Ninh với trọng số sau: Bảng 3.7: Bảng tổng hợp Stt Từ khóa Văn Văn Văn Tổng số Cẩm Phả 0 1 rồng 0 danh thắng 1 đảo 13 di sản 1 di tích 1 hang động 1 đảo 0 huyện 0 1 10 kỳ quan thiên nhiên 0 11 Thành phố 0 1 12 Thế giới 0 1 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 57 13 thiên nhiên 1 14 Vân Đồn 0 1 15 Việt Nam 0 1 16 Vịnh Hạ Long Từ bảng thống kê ta lấy từ khóa sau: Độ dài véc - tơ Từ Trọng số Vịnh Hạ Long di sản đảo 13 Như muốn tìm văn viết du lịch Quảng Ninh ta dùng từ khóa để tìm kiếm Tuy nhiên, liệu huấn luyện nhỏ ( sử dụng có 03 văn bản) từ khóa chưa thực đại diện tốt Nhưng phạm vi nghiên cứu với mục tiêu thử nghiệm thuật tốn ta chấp nhận từ khóa 3.2.2 Thuật tốn sử dụng từ khóa tìm kiếm văn Mục tiêu bước dùng từ khóa để tìm văn liên quan đến du lịch Quảng Ninh phân lớp giúp cho người dùng sử dụng thuận lợi Lưu đồ thuật toán sau Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 58 Bắt đầu Yes No Nhập từ khóa Tìm kiếm gán nhãn Phân nhóm Tiếp tục Đưa kết Kết thúc Theo lưu đồ, bước thực sau: Nhập vào từ khóa Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 59 Chạy chương trình tìm kiếm từ nguồn tin (có thể Internet) Gán nhãn văn tìm (ứng với tần suất xuất từ khóa) Phân nhóm văn dựa nhãn Cung cấp tài liệu phân nhóm Ứng dụng vào tốn trên, nhập vào từ khóa “ Vịnh Hạ Long”, “Di sản”, “Đảo” Tìm kiếm Internet, 10 tài liệu, ta có kết sau : Bảng 3.8: Số lần xuất từ văn huấn luyện Số lần xuất Số TT Vịnh Hạ Long Di sản Đảo Tổng VB1 11 24 VB2 21 41 68 VB3 12 12 26 VB4 VB5 12 VB6 15 VB7 11 VB8 10 VB9 VB10 12 - Phân nhóm văn ứng với nhãn “Vịnh Hạ Long” Bảng 3.9: Bảng phân nhóm với nhãn “Vịnh Hạ Long” Số TT Số lần xuất nhóm VB1 VB2 21 VB3 12 VB4 4 VB5 VB6 VB7 VB8 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 60 VB9 VB8 - Phân nhóm văn ứng với nhãn “ Di sản” Bảng 3.10: Bảng phân nhóm với nhãn “Di sản” Số TT Số lần xuất nhóm VB1 VB2 VB3 2 VB4 VB5 VB6 VB7 VB8 2 VB9 VB10 - Phân nhóm văn ứng với nhãn “ đảo” Bảng 3.11: Bảng phân nhóm với nhãn “đảo” Số TT Số lần xuất nhóm VB1 41 VB2 11 VB3 12 VB4 VB5 3 VB6 VB7 3 VB8 VB9 VB10 3 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 61 Nhận xét: Khi ta sử dụng từ khóa huấn luyện với khóa nhóm sử dụng cho tìm kiếm Để tìm kiếm xác hơn, dùng từ khóa phụ để tìm kiếm xác văn bản, từ khóa phụ chọn xây dựng văn tác giả đưa vào cách có chủ định để tăng tốc độ tìm kiếm (như kỹ thuật SEO tạo website) Khi người dùng vào nhóm chọn phân loại theo thuật tốn Khi muốn tìm xác văn người dùng nhập từ khóa đặc trưng chọn văn cần tìm Tuy nhiên nội dung không thuộc phạm vi đề tài 3.3 Kết luận Như chương giới thiệu cách tổng quát phương pháp phân loại phương pháp thống kê máy véc – tơ hỗ trợ SVM, giới thiệu cách tiếp cận giải toán cụ thể phân loại văn theo nội dung cần tìm kiếm Ở phần cài đặt thử nghiệm tiến hành thực nghiệm phần mềm Weka Khi sử dụng thư viện Libsvm 2.84 tích hợp phần mềm để phân lớp đòi hỏi liệu huấn luyện đầu vào phải chuẩn hóa dạng tệp có phần mở rộng ARFF cho kết sau: STT Hàm nhân Độ xác Linear 91.967 Polynomial 56.024 Radial basic function 95.180 Sigmoid 94.578 Từ kết ta thấy với toán phân loại văn sử dụng hàm nhân RBF cho ta độ xác phân loại cao Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 62 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Trong luận văn này, chúng tơi tìm hiểu nội dung liên quan đế hàm kernel định nghĩa hàm kernel, điều kiện để hàm kernel, phép toán hàm kernel, hàm kernel thường dùng Tiếp theo giới thiệu string kernel, giới thiệu cách xây dựng string kernel dùng toán quy hoạch động, dựa mơ hình k_gram, dựa độ giống hai xâu Tiếp đến giới thiệu cách tổng quát phương pháp máy véc – tơ hỗ trợ SVM Giải toán phân loại văn với kết ghi lại bảng HƯỚNG PHÁT TRIỂN Trong thời gian tới, tiếp tục hồn thiện chương trình Huấn luyện với nhiều liệu với nhiều lĩnh vực Để từ áp dụng việc phân loại cho nhiều tốn khác… Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 63 TÀI LIỆU THAM KHẢO [1] Nguyễn Thị Kim Ngân, PHÂN LOẠI VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP SUPPORT VECTOR MACHINES, Đại học Bách Khoa Hà Nội, Hà Nội (2004) [2] Nguyễn Phương Thái, Nguyễn Văn Vinh, Lê Anh Cường, Một phương pháp phân đoạn từ tiếng Việt sử dụng mơ hình Markov ẩn, khoa Công nghệ, đại học Quốc Gia Hà Nội, 2003 [3] Lodhi, C.Saunders, J.Shawe-Taylor, N.Cristianini, and C.Watkins Text classification using string kernel Juornal of Machine Learning Research, 2:419-440, 2002 [4] C Watkins Dynamic alignment kernel In A.J.Smola, P L Bartlett, B Sch olkopf, and D Schuurmans, editors, Advances in Large Margin Classifiers, page 39 – 50, Cambridge, MA, 2000 MIT Press [5] C.J.C Burges (1998), A tutorial on support vector machines for pattern recognition Data Mining Knowledge Discovery 2, 121–167 [6] H Drucker, C.J.C Burges, L Kaufman, A Smola, V Vapnik (1997) Support vector regression machines, in: M Mozer, M Jordan, T Petsche (Eds.), Advances in Neural Information Processing Systems, vol 9, MIT Press, Cambridge, MA, 1997, pp 155–161 [7] Lodhi, C Saunder, J Shawe-Taylor, N Cristianini and C Warkins (2002) Text classification using string kernel Jornal of Machine Learning Research, 2:419-440 [8] S Gunn (1998) Support Vector Machines for Classifcation and Regression, ISIS Tech Report, University of Southampton [9] Friedman J H (1996) Another approach to polychotomous classification Technical report, Department 0f Statistics, Stanford Linear Accelerator Center, Stanford University Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 64 [10] Hauke Tschach_y, 2004, Syllables and other String Kernel Extensions [11] Bernhard Scholkopf, Alexander Smola, and Klaus_Robert Muller Nonlinear Component Analysis as a Kernel Eigenvalua Problem [12] Liu Tzu-Jung, 2007 Seach Engine Research Report [13] http://dulichkhatvongviet.com/tin-tuc/di-san-thien-nhien-the-gioi/vai- net-ve-vinh-ha-long [14] http://taxinoibaiphuonglong.com/thuyet-minh-ve-danh-lam-thang-canhvinh-ha-long [15] http://vietnamtourism.com/disan/index.php?catid=6 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ... chuyên ngành Khoa học máy tính, khố 2014-2016 Tơi xin cam đoan luận văn thạc sĩ ? ?Phân lớp văn nhờ Máy Véc- tơ hỗ trợ (SVM) với hàm string kernel? ?? cơng trình nghiên cứu riêng tơi với hướng dẫn PGS.TS... vào kernel phụ thuộc vào khoảng cách Ơclit từ x đến y ( véc- tơ hỗ trợ điểm liệu thử) Véc- tơ hỗ trợ trung tâm RBF : tham số xác định phạm vi ảnh hưởng véc- tơ hỗ trợ khắp không gian liệu d Kernel. .. luận văn chúng tơi xét hai thuật toán phân loại sử dụng kernel phương pháp Perception phương pháp máy véc- tơ hỗ trợ SVM a Bài toán phân lớp Cho D={(x,y):x Rn, y {+1,-1}} Trong đó: x: véc- tơ huấn

Ngày đăng: 26/03/2021, 06:58

Tài liệu cùng người dùng

Tài liệu liên quan