1. Trang chủ
  2. » Cao đẳng - Đại học

Sự ảnh hưởng của phương pháp tách từ trong bài toán phân lớp văn bản tiếng Việt

10 39 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 10
Dung lượng 613,88 KB

Nội dung

Bài viết so sánh sự ảnh hưởng của các phương pháp tách từ lên hiệu quả phân lớp văn bản tiếng Việt, để từ đó chọn ra phương pháp hiệu quả nhất. Thực nghiệm trên tập dữ liệu 6,000 văn bản thuộc 10 chủ đề và tập dữ liệu 105,293 quyển sách thuộc 166 chủ đề với giải thuật máy học SVM cho thấy rằng kết quả phân lớp với các phương pháp tách từ khác nhau tuy có sự khác biệt nhưng không có ý nghĩa thống kê trong bài toán phân lớp văn bản tiếng Việt.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX ―Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)‖; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00084 SỰ ẢNH HƯỞNG CỦA PHƯƠNG PHÁP TÁCH TỪ TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT Phạm Nguyên Khang, Trần Nguyễn Minh Thƣ, Phạm Thế Phi, Đỗ Thanh Nghị Khoa Công nghệ thông tin & Truyền thông, Trƣờng Đại học Cần Thơ {pnkhang, tnmthu, ptphi, dtnghi}@cit.ctu.edu.vn TÓM TẮT— Tách từ bước quan trọng thiếu xử lý ngôn ngữ tự nhiên, nhằm xác định ranh giới từ có văn Trong tiếng Việt, ngồi từ đơn (một âm tiết), cịn có từ ghép (đa âm tiết) Điều gây khó khăn cho việc tách từ tự động cách xác, ảnh hưởng đến kết tốn phân tích liệu văn như: gom nhóm, phân lớp văn Hai tiếp cận để tách từ dựa từ điển thống kê (hoặc kết hợp hai tiếp cận) Trong toán phân lớp văn bản, tách từ bước tiền xử lý biểu diễn liệu Bước sử dụng mô hình máy học để huấn luyện phân lớp Đối với số mơ hình máy học máy học véc-tơ hỗ trợ (SVM), phân tích thành phần chính, phân tích tương ứng, từ ghép phát dựa vào đồng xuất âm tiết mà khơng cần đến bước tách từ xác Trong báo này, nghiên cứu so sánh ảnh hưởng phương pháp tách từ lên hiệu phân lớp văn tiếng Việt, để từ chọn phương pháp hiệu Thực nghiệm tập liệu 6,000 văn thuộc 10 chủ đề tập liệu 105,293 sách thuộc 166 chủ đề với giải thuật máy học SVM cho thấy kết phân lớp với phương pháp tách từ khác có khác biệt khơng có ý nghĩa thống kê tốn phân lớp văn tiếng Việt Từ khóa— Tách từ, phương pháp tách từ tiếng Việt, xử lý ngôn ngữ tự nhiên, phân lớp văn I GIỚI THIỆU Với phát triển nhanh chóng cơng nghệ thơng tin, nguồn thông tin trực tuyến (online) dƣới dạng văn xuất ngày nhiều Nguồn thông tin đến từ thƣ viện điện tử, thƣ điện tử, trang web, hệ thống tìm kiếm tra cứu thơng tin Việc khám phá tri thức tiềm ẩn từ kho liệu văn cần thiết cho việc quản lý, khai thác hiệu nguồn thông tin văn khổng lồ Phân lớp văn (text categorization) kỹ thuật để xử lý tổ chức liệu văn Kỹ thuật phân lớp văn đƣợc dùng để gán nhãn tự động tin, xếp tổ chức email hay tập tin, nhận dạng thƣ rác Có để định nghĩa ngắn toán phân lớp văn nhƣ sau: gán nhãn cho văn theo chủ đề đƣợc định nghĩa trƣớc dựa vào nội dung văn Phân lớp văn thƣờng đƣợc dựa mơ hình ngữ nghĩa máy học Tuy nhiên nhƣ vấn đƣợc thực M Lucas (Tạp chí Mappa Mundi) năm 1999, M Hearst cho tiếp cận ngữ nghĩa vấn đề khó, phức tạp Vì vậy, tiếp cận dựa máy học tự động lại đơn giản cho nhiều kết tốt thực tiễn Hầu hết phƣơng pháp phân loại văn dựa mô hình thống kê từ giải thuật máy học phân lớp (Dumais et al., 1998), (Sebastiani, 1999), (Manning et al., 2008) Bƣớc phân lớp văn biến đổi văn từ chuỗi ký tự dạng phù hợp với giải thuật học máy Đặc điểm chung nguồn liệu văn cấu trúc (độ dài khác nhau) đa số giải thuật đòi hỏi liệu huấn luyện phải có cấu trúc (chiều dài véc-tơ đặc trƣng phải giống chẳng hạn) Các nghiên cứu lĩnh vực truy vấn thông tin thứ tự từ văn đóng vai trị không quan trọng hầu hết tốn phân tích, xử lý liệu văn (Joachims, 1999) Chính mơ hình túi từ (Salton et al., 1975) mơ hình phổ biến cho biểu diễn liệu văn Theo mơ hình này, từ (khác nhau) văn đặc trưng (feature) tần số xuất văn giá trị đặc trƣng tƣơng ứng Q trình trích đặc trƣng bao gồm tách từ (word segmentation) đếm số lần xuất từ văn Nhƣ thế, văn đƣợc biểu diễn dƣới dạng véc-tơ tần số Bƣớc huấn luyện mơ hình học tự động từ bảng liệu Các mơ hình máy học thƣờng sử dụng nhƣ giải thuật k-NN (Fix & Hodges, 1952), naive Bayes (Good, 1965), định (Quinlan, 1993), (Breiman et al., 1984), máy học véc-tơ hỗ trợ (Vapnik, 1995), giải thuật tập hợp mơ hình bao gồm Boosting (Freund & Schapire, 1995), (Breiman, 1998) rừng ngẫu nhiên (Breiman, 2001) Các nghiên cứu máy học trƣớc (Phạm et al., 2006), (Phạm et al., 2008), (Đỗ, 2012), (Đỗ & Phạm, 2013) đề xuất giải thuật máy học dựa tập hợp mơ hình, máy học véc-tơ hỗ trợ, naive Bayes, cho phép phân lớp hiệu tập liệu có số chiều lớn nhƣ biểu diễn văn mơ hình túi từ Đối với ngơn ngữ nhƣ tiếng Anh, tiếng Pháp, tiếng Đức việc tách từ đƣợc thực đơn giản dựa vào ký tự phân cách nhƣ: khoảng trắng, ký tự tab, dấu câu, dấu ngoặc, v.v Ngƣợc lại, tiếng Việt (và ngôn ngữ châu Á khác nhƣ tiếng Trung Quốc, tiếng Nhật Bản, tiếng Hàn) khoảng trắng ngồi việc ngăn cách từ với nhau, cịn đƣợc dùng để ngăn cách âm tiết (syllable) từ ghép, ví dụ: câu ―Học sinh học‖ phải đƣợc tách thành ―Học_sinh/đi_học‖ Khoảng trắng thứ thứ ba dùng để ngăn cách âm tiết từ khoảng trắng thứ hai dùng để ngăn cách hai từ với Điều gây khó khăn cho trình tách từ Các phƣơng pháp tách từ tiếng Việt (và ngôn ngữ châu Á khác) dựa thông tin xuất cạnh âm tiết (colocation) Hai tiếp cận để tách từ tiếng Việt (i) dựa từ điển (ii) tiếp cận thống kê Ngồi cịn có số phƣơng pháp kết hợp hai tiếp cận Trong tiếp cận dựa từ điển, chuỗi âm tiết đƣợc xem từ ghép Phạm Nguyên Khang, Trần Nguyễn Minh Thƣ, Phạm Thế Phi, Đỗ Thanh Nghị 669 chuỗi âm tiết có từ điển Tiếp cận thống kê dựa xuất cạnh âm tiết, xuất cạnh xảy thƣờng xuyên âm tiết thuộc từ ghép Cho dù sử dụng tiếp cận nào, nhập nhằng (ambiguous) việc tách từ xảy Nhập nhằng xảy có nhiều cách tác từ câu Để khử nhập nhằng, phƣơng pháp thƣờng dùng cực đại hoá độ hợp lý (Maximum Likelihood Estimation) với giải thuật Viterbi-like Điều làm cho trình biểu diễn văn thƣờng nhiều thời gian Trong nghiên cứu phân tích so sánh vai trị âm tiết thân từ ghép việc hình thành chủ đề văn cho toán phát chủ đề văn bản, nhận thấy âm tiết từ ghép có vai trị tƣơng đƣơng với từ ghép đƣợc tạo nên từ âm tiết Hình hiển thị kết việc áp dụng Phân tích tương ứng (Correspondence Analysis hay CA) (Benzécri, 1973) văn tập liệu vnexpress (gồm chủ đề: công nghệ thông tin, thể thao nấu ăn1) Áp dụng CA liệu văn cho phép (i) gom nhóm văn có nội dung tƣơng tự (tạo nên chủ đề), (ii) gom nhóm từ tạo nên chủ đề (iii) hiển thị nhóm văn nhóm từ tƣơng ứng cạnh không gian rút gọn CA Ta dễ dàng thấy rằng, mặt dù phƣơng pháp không giám sát, CA cho phép phát nhóm văn tƣơng ứng với chủ đề có tập liệu Kết hiển thị hình từ ghép quan trọng chủ đề ―thể thao‖ bao gồm: ―chiến thắng‖, ―cơ hội‖, ―trận đấu‖, ―vô địch‖, ―thi đấu‖, ―cầu thủ‖, ―đội tuyển‖ Điều thú vị âm tiết tạo nên từ ghép ―chiến‖, ―thắng‖, ―vô‖, ―địch‖, ―cầu‖, ―thủ‖, … xuất nằm danh sách từ tạo nên chủ đề ―thể thao‖ bên cạnh từ ghép tƣơng ứng không gian rút gọn CA Hình Vai trị âm tiết việc tạo nên chủ đề văn Kết phân tích trực quan với CA cho thấy thông tin đồng xuất (khơng kể vị trí) âm tiết văn đủ để hình thành nên chủ đề văn mà khơng cần đến q trình tách từ (sử dụng thông tin xuất cạnh nhau) Nói cách khác thân âm tiết (chứ khơng phải từ ghép) góp phần vào việc phân biệt chủ đề/lớp văn Kết cho phép đặt giả thiết: ―liệu với thông tin đồng xuất âm tiết có đủ để huấn luyện phân lớp mạnh để phân lớp xác văn tiếng Việt‖, cụ thể hơn:  Biểu diễn văn dựa từ ghép (đƣợc tách từ đúng) so với biểu diễn văn đơn dựa âm tiết có ảnh hƣởng đến hiệu phân lớp không?  Tách từ sai (ghép âm tiết khơng từ ghép) có ảnh hƣởng đến hiệu phân lớp không? Trong báo này, thực nghiên cứu so sánh ảnh hƣởng phƣơng pháp tách từ tiếng Việt hiệu phân lớp toán phân loại văn tiếng Việt Kết thực nghiệm tập liệu văn gồm 6000 văn thuộc 10 chủ đề trang báo điện tử vnexpress.net tập liệu thƣ viện gồm 166 chủ đề cho thấy việc tách từ đa âm tiết (tạo từ ghép) tách từ đơn âm tiết (đơn dựa khoảng trắng) có ảnh hƣởng khơng đáng kể hiệu phân lớp Phần viết đƣợc trình bày nhƣ sau: phần II lƣợt khảo số phƣơng pháp tách từ tiếng Việt bao gồm: tiếp cận dựa từ điển, tiếp cận dựa thống kê tiếp cận lại; phần III trình bày phân loại văn với mơ hình túi từ máy học véc-tơ hỗ trợ; phần IV trình bày kết thực nghiệm trƣớc kết luận hƣớng phát triển Chúng xử lý tập liệu phƣơng pháp tách từ dựa từ điển để chúng chứa từ ghép lẫn âm tiết tạo nên từ ghép SỰ ẢNH HƢỞNG CỦA PHƢƠNG PHÁP TÁCH TỪ TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT 670 II TÁCH TỪ TIẾNG VIỆT Từ tiếng Việt, từ đơn (một âm tiết), cịn có từ ghép (đa âm tiết), khơng thể dùng khoảng trắng để xác định ranh giới từ Những âm tiết đƣợc kết hợp để tạo thành từ khác tùy thuộc vào ngữ cảnh văn Để nhận dạng ranh giới từ (tách từ) phục vụ cho tốn phân tích liệu văn nhƣ: gom nhóm, phân lớp văn bản, nhà khoa học đề xuất nhiều phƣơng pháp tách từ Dựa đặc điểm ―từ‖ kết hợp với cách tiếp cận khác nhau, phƣơng pháp tách từ chia thành ba nhóm chính: dựa từ điển (dictionary-based), dựa thống kê (statistic-based) phƣơng pháp lai (hybrid) A Tiếp cận dựa từ điển Ý tƣởng phƣơng pháp tách từ dựa từ điển từ từ điển sẵn có, thực so khớp âm tiết văn với từ có từ điển Tuỳ vào cách thức so khớp mà ta có phƣơng pháp khác nhƣ: so khớp từ dài (longest matching), so khớp từ ngắn (short matching), so khớp chồng lắp (overlap matching) so khớp cực đại (maximum matching) (Dinh et al., 2001), (Pham et al., 2009) Độ xác phƣơng pháp dựa từ điển phụ thuộc lớn vào kích thƣớc từ điển đƣợc xây dựng Với đặc điểm khơng cần phải có bƣớc huấn luyện nên thời gian xử lý phƣơng pháp tƣơng đối nhanh, đơn giản dễ hiểu Tuy nhiên, phƣơng pháp khó xử lý đƣợc tình nhập nhằng nhƣ xử lý tình xuất từ không tồn từ điển Hai phƣơng pháp thƣờng đƣợc sử dụng tiếp cận từ điển phƣơng pháp so khớp từ dài phƣơng pháp so khớp cực đại:   Phƣơng pháp so khớp từ dài (Surapant Meknavin et al., 1997): với câu, duyệt từ trái qua phải âm tiết câu, kiểm tra xem có nhóm âm tiết có tồn từ từ điển hay không Chuỗi dài âm tiết đƣợc xác định từ đƣợc chọn Tiếp tục thực việc so khớp hết câu Ví dụ ―Học sinh học sinh vật học‖, từ trái qua phải, âm tiết ―học‖, ―học‖ từ đơn, nhƣng ―học‖ kết hợp với âm tiết ―sinh‖ để tạo nên từ ghép ―học sinh‖, ta đƣợc từ ―học sinh‖, xét tiếp âm tiết cịn lại hết câu ta có từ sau: ―học sinh‖, ―học sinh‖, ―vật‖, ―học‖ Với ví dụ này, phƣơng pháp so khớp từ dài không đem lại kết nhƣ mong muốn Phƣơng pháp so khớp cực đại (Chih-Hao Tsai, 1996), (Surapant Meknavin et al., 1997): ứng với câu liệu đầu vào, tìm tất trƣờng hợp mà âm tiết kết hợp lại để tạo nên từ có nghĩa Ứng với loại ngơn ngữ khác lựa chọn nhóm âm tiết khác Phƣơng pháp so khớp toàn diện cho câu thay so khớp cục âm tiết đƣợc xét Với ví dụ: ―Học sinh học sinh vật học‖: trƣờng hợp kết hợp âm tiết có ―sinh vật học‖, ―học sinh‖, ―học‖, từ đƣợc tách câu xác phƣơng pháp so khớp từ dài B Tiếp cận dựa thống kê Mơ hình ngơn ngữ Với cách tiếp cận dựa thống kê, giải pháp cho việc tách từ thông thƣờng dựa mô hình ngơn ngữ (language model – LM) (Jelinek et al., 1991) Một LM thƣờng đƣợc xây dựng dựa việc thu thập thống kê số lần xuất đồng xuất từ tập lớp văn Với đoạn văn w1n = w1w2 wn , mơ hình LM đƣợc dùng để tính xác suất P(w1n ) đoạn văn Công thức tính xác suất tổng qt đƣợc biểu diễn nhƣ sau: n P(w1n ) = P(w1 )P(w2 | w1 )P(w3 | w12 ) P(wn | w1n-1 ) = Õ P(wk | w1k-1 ) (1) k=1 Ứng dụng giả thuyết Markov dự đoán phụ thuộc vào lịch sử gần thay tồn lịch sử, biểu diễn cơng thức (1) công thức sau: n k-1 P(w1n ) = Õ P(wk | wk-N ) +1 (2) k=1 với N lịch sử gần hay cụ thể số lƣợng từ gần đứng trƣớc từ thứ k Mơ hình LM thƣờng đƣợc gọi mơ hình n-grams k-1 Việc ƣớc lƣợng P(wk | wk-N+1 ) hay P(wk | wk-N+1, ,wk-1 ) đƣợc thực nhƣ sau: p(wn | wn-N+1, ,wn-1 ) = C(wn-N +1 , ,wn ) C(wn-N -1 , ,wn-1 ) (3) với C(wn-N+1, ,wn ) số lần xuất dãy từ wn-N+1 , ,wn tập liệu huấn luyện; C(wn-N+1, ,wn-1 ) số lần xuất dãy từ wn-N+1 , ,wn-1 tập liệu huấn luyện Phạm Nguyên Khang, Trần Nguyễn Minh Thƣ, Phạm Thế Phi, Đỗ Thanh Nghị 671 Phƣơng pháp tách từ sử dụng mơ hình Markov ẩn Phƣơng pháp tách từ dựa theo thống kê (ở mô hình n-grams) đƣợc đề xuất Luo đồng (Luo et al., 1996) Ở tác giả đề xuất mơ hình Markov ẩn (Hidden Markov Model – HMM) để biểu diễn khả tách từ câu tiếng Trung Việc tách từ câu tiếng Trung tƣơng đồng nhƣ việc tách từ câu tiếng Việt Nghĩa có số từ nên đứng riêng, cịn số từ khác nên đƣợc ghép chung để thành từ ghép từ Chúng tơi sử dụng mơ hình HMM tách từ tiếng Việt nhƣ sau Gọi S câu tiếng Việt bao gồm n w1w2 wn với wi từ câu Bài toán đặt tách câu thành cụm từ thích hợp: S = w1w2 wn = (w1 wx )(wx +1 wx ) (wx +1 wx ) 1 = với m (4) m C1C2 Cm xi vị trí từ cuối cụm từ (từ ghép) thứ i: Ci = wx -1 wx , với i =1,2, ,m x0 = 0, xm = n i i Một cách phân tách từ câu S đƣợc biểu diễn dãy số nguyên x1 , , xm Gọi G(S) tập tất cách để phân tách từ câu S: G(S) ={(x1 xm ) :1£ x1 £ £ xm ,m £ n} (5) Giả sử sử dụng mơ hình n-grams nhƣ với cách phân đoạn g(S) = (x1 xm ) Ỵ G(S) , khả cách phân đoạn đƣợc ƣớc lƣợng nhƣ sau: L(g(S)) = log Pg (C1 Cm ) m ålog Pg (Ci | hi ) = (6) i=1 với hi lịch sử gần cụm từ Ci Trong thí nghiệm đƣợc trình bày phần sau, chúng tơi sử dụng mơ hình ngơn ngữ unigram, nghĩa cụm từ đƣợc tính khả xuất độc lập so với cụm từ khác Và giới hạn cụm từ có tối đa từ Trong tất cách phân đoạn có, chúng tơi chọn cách phân đoạn g* cách phân đoạn cuối với khả đƣợc ƣớc lƣợng cao g* = argmax L(g(S)) gỴG( S ) = argmax log Pg (C1 Cm ) (7) gỴG( S ) Việc ƣớc lƣợng g* đƣợc thực phƣơng pháp Viterbi nhƣ đề xuất (Luo et al., 1996) Phƣơng pháp tách từ sử dụng mơ hình trƣờng xác suất có điều kiện độ hỗn loạn cực đại Phƣơng pháp tách từ sử dụng mơ hình trƣờng xác suất có điều kiện (CRFs) độ hỗn loạn cực đại (MaxEnt) đƣợc đề xuất (Nguyen et al., 10) Bài toán tách từ đƣợc xem nhƣ công việc gán nhãn cho dãy từ Một từ đơn tiếng Việt mà đứng đầu từ ghép đƣợc gắn nhãn B\_W, từ đơn nằm từ ghép đƣợc gán nhãn I\_W thứ khác ví dụ nhƣ dấu phẩy, dấu chấm đƣợc gán nhãn O (Outside of a word) Bài tốn nhằm tìm ranh giới từ câu trở thành toán gán nhãn từ đơn câu với loại nhãn nhƣ vừa nêu Nguyen cộng đề xuất sử dụng mơ hình CRFs để mơ hình hóa tốn CRFs đƣợc biểu diễn nhƣ chuỗi tuyến tính vơ hƣớng trạng thái mơ hình Mỗi trạng thái đƣợc gán nhãn (nhƣ trình bày bên trên) Nhãn thích hợp đƣợc xác định dựa quan sát từ tƣơng ứng với trạng thái nhƣ trạng thái đứng trƣớc Xác suất trạng thái biết trƣớc từ tƣơng ứng đƣợc ƣớc lƣợng dựa vào hàm đặc trƣng (đƣợc xây dựng dựa ƣớc lƣợng độ hỗn loạn MaxEnt) Nguyen cộng sử dụng hai loại hàm tính đặc trƣng (feature function) mơ hình CRFs tuyến tính: đặc trƣng dựa cạnh đồ thị đặc trƣng dựa trạng thái đồ thị mà chúng đƣợc sinh cách kết hợp thơng tin xung quanh vị trí hành dãy quan sát với nhãn hành SỰ ẢNH HƢỞNG CỦA PHƢƠNG PHÁP TÁCH TỪ TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT 672 Phƣơng pháp tách từ sử dụng mơ hình Pointwise Một phƣơng pháp tách từ khác tên Pointwise đƣợc đề xuất (Luu & Yamamoto, 2012) cho phƣơng pháp tách từ nhƣ HMM, CRFs MaxEnt có điểm chung có tham khảo nhãn (hay kết quả) nhãn bên cạnh; phƣơng pháp đạt kết tốt có từ điển lớn Với cách tiếp cận Pointwise, nhãn đƣợc đánh giá cách độc lập, khơng có tham khảo đến kết nhãn trƣớc Các đặc trƣng vị trí từ đơn xét nhãn có sử dụng thơng tin văn (quan sát) xung quanh vị trí Luu đồng sử dụng dạng đặc trƣng phƣơng pháp Pointwise: n-grams âm tiết (từ đơn), n-grams chủng loại âm tiết (âm tiết viết hoa, viết thƣờng, số loại khác) đặc trƣng từ điển (xét xuất từ từ điển) Bƣớc sau thực huấn luyện mơ hình máy học SVM để phân loại vị trí từ câu Ở phƣơng pháp thực phân loại vị trí thành: vị trí tách từ hay vị trí liên kết từ (tạo thành từ ghép) C Tiếp cận lai Nhƣ phân tích trên, phƣơng pháp tiếp cận từ điển phƣơng pháp tiếp cận thống kê có ƣu nhƣợc điểm riêng Để tận dụng đƣợc ƣu điểm loại tiếp cận, phƣơng pháp tiếp cận lai đƣợc đề nghị Một số phƣơng pháp kết hợp tiếp cận từ điển tiếp cận thống kê kể đến nhƣ: kết hợp mơ hình ngơn ngữ Weighted Finite State Transducer (WFST) mạng Neural (Dinh et al., 2001), kết hợp mơ hình so khớp cực đại máy học véc-tơ hỗ trợ (SVMs) (Dinh et al., 2006), kết hợp mơ hình so khớp cực đại ngơn ngữ mơ hình ngrams (Le et al., 2008), hệ thống tách từ tiếng Việt WS4VN kết hợp phƣơng pháp so khớp cực đại mơ hình Markov ẩn (Pham et al., 2009) Le cộng đề xuất phƣơng pháp tách từ tiếng Việt dựa kết hợp phƣơng pháp tiếp cận dựa từ điển phƣơng pháp tiếp cận thống kê (Le et al., 2008) III MƠ HÌNH TÚI TỪ VÀ MÁY HỌC VÉC-TƠ HỖ TRỢ Sau bƣớc tách từ phƣơng pháp trình bày trên, tập liệu văn cần đƣợc biểu diễn cấu trúc bảng để từ giải thuật máy học học để phân lớp tự động văn Mơ hình túi từ (Salton et al., 1975) mơ hình biểu diễn văn phổ biến (Lewis& Gale, 1994), (Dumais et al., 1998), (Sebastiani, 1999), (Manning et al., 2008) Một văn đƣợc biểu diễn dạng véc-tơ (có n thành phần, chiều) mà giá trị thành phần thứ j tần số xuất từ thứ j văn Nếu xét tập D gồm m văn từ điển có n từ vựng, D đƣợc biểu diễn thành bảng D kích thƣớc m x n, dịng thứ i bảng véc-tơ biểu diễn văn thứ i tƣơng ứng Bảng Ví dụ tập liệu văn STT … m Nội dung Brazil - đối thủ khắc tinh Italy Mƣa đá dội, nhiều nhà dân bị thiệt hại … Đột nhập nhà đại gia trộm kg vàng Chủ đề Thể thao Xã hội … Pháp luật Xem ví dụ bảng tập liệu văn sau bƣớc tách từ đơn âm, tập liệu văn đƣợc biểu diễn mơ hình túi từ nhƣ bảng Bảng Tập liệu văn đƣợc biểu diễn mơ hình túi từ STT … m (bị) … (brazil) … … … … … … n (tinh) … Chủ đề Thể thao Xã hội … Pháp luật Bảng liệu D có số chiều (cột) số lƣợng từ vựng Với tập liệu khoảng vài trăm văn bản, tập từ vựng lên đến hàng chục ngàn từ Do bảng liệu D có số cột n lớn đến vài chục ngàn Bƣớc quan trọng cần huấn luyện mơ hình máy học để phân lớp xác tập liệu D có số chiều lớn Trong giải thuật phân lớp (Wu & Kumar, 2009), mơ hình máy học véc-tơ hỗ trợ, SVM (Vapnik, 1995) giải thuật cho độ xác cao so sánh với giải thuật máy học khác (Caruana et al., 2008) Xét ví dụ phân lớp nhị phân tuyến tính đơn giản đƣợc mơ tả nhƣ hình 2, giải thuật máy học SVM tìm siêu phẳng tối ƣu để tách liệu lớp xa Máy học SVM tìm siêu phẳng tối ƣu dựa siêu phẳng hỗ trợ song song lớp Siêu phẳng hỗ trợ (w.x – b = +1) lớp +1 siêu phẳng mà phần tử xp thuộc lớp yp = +1 nằm phía bên phải Tƣơng tự, siêu phẳng hỗ trợ (w.x – b = -1) lớp -1 siêu phẳng mà phần tử xn thuộc lớp yn = -1 nằm phía bên trái siêu phẳng hỗ trợ lớp -1 Những phần tử nằm ngƣợc phía với siêu phẳng hỗ trợ đƣợc coi nhƣ lỗi, đƣợc biểu diễn zi Khoảng cách siêu phẳng hỗ trợ đƣợc gọi lề Siêu phẳng tối ƣu (nằm siêu phẳng hỗ trợ) cần tìm phải thỏa tiêu chí cực đại hóa lề (lề lớn, mơ hình phân lớp an tồn) cực tiểu hóa lỗi Phạm Nguyên Khang, Trần Nguyễn Minh Thƣ, Phạm Thế Phi, Đỗ Thanh Nghị 673 Hình Phân lớp tuyến tính với máy học SVM Máy học SVM mở rộng để xử lý tốn phân lớp k lớp (k > gọi phân lớp đa lớp có số lớp lớn 2) Phƣơng pháp thƣờng đƣợc sử dụng cài đặt LibSVM đa lớp (Chang & Lin, 2011):   Phƣơng pháp 1-tất cả, 1-vs-all (Vapnik, 1995): mơ hình phân tách lớp từ lớp khác, xây dựng k mơ hình cho k lớp (nhƣ hình 3), Phƣơng pháp 1-1, 1-vs-1 (Krel, 1999): mơ hình phân tách lớp, xây dựng k(k-1)/2 mơ hình cho k lớp (nhƣ hình 4) Phân lớp phần tử x dựa vào bình chọn khoảng cách từ x đến siêu phẳng thu đƣợc từ mơ hình SVM nhị phân Hình Phƣơng pháp 1-tất SVM đa lớp Hình Phƣơng pháp 1-1 SVM đa lớp Mơ hình máy học SVM cho kết cao, ổn định, chịu đựng nhiễu tốt phù hợp với toán phân lớp liệu có số chiều lớn Nghiên cứu (Dumais et al., 1998) máy học SVM cho hiệu cao phân lớp tự động văn biểu diễn mơ hình túi từ Chính lý đó, chúng tơi sử dụng máy học SVM để phân lớp liệu văn IV KẾT QUẢ THỰC NGHIỆM Chúng tiến hành đánh giá hiệu phƣơng pháp tách từ tiếng Việt đƣợc sử dụng phân lớp văn tiếng Việt đƣợc biểu diễn mơ hình túi từ, sử dụng máy học SVM Chúng tiến hành cài đặt C/C++ phƣơng pháp:    tách từ đơn Unigram, viết tắt Uni tách từ theo phƣơng pháp so khớp từ dài từ điển (Ho, 1997-2004), viết tắt Dic phƣơng pháp tách từ n-grams sử dụng thống kê từ Chúng sử dụng thƣ viện JvnTextPro (Nguyen et al., 2010), thƣ viện cung cấp phƣơng pháp tách từ tiếng Việt dựa trƣờng xác suất có điều kiện (Conditional Random Fields - CRFs) độ hỗn loạn cực đại (Maximum Entropy - MaxEnt), viết tắt Jvn Thƣ viện vnTokenizer (Le et al., 2008) cung cấp phƣơng pháp tách từ tiếng Việt dựa kỹ thuật lai (từ điển, automat hữu hạn trạng thái, biểu thức quy so khớp từ dài nhất), viết SỰ ẢNH HƢỞNG CỦA PHƢƠNG PHÁP TÁCH TỪ TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT 674 tắt vnTok Nhóm tác giả (Luu & Yamamoto, 2012) đề xuất phƣơng pháp tách từ với n-grams, từ điển, máy học SVM thƣ viện DongDu Thƣ viện LibSVM (Chang & Lin, 2011) cung cấp giải thuật máy học SVM đa lớp sử dụng phƣơng pháp 1-1 Tất thí nghiệm đƣợc chạy máy tính cá nhân, cài hệ điều hành Linux Fedora 20, vi xử lý Intel® Core i7-4790, 3.6 GHz, nhân nhớ RAM GB A Chuẩn bị tập liệu Chúng sử dụng tập liệu văn tiếng Việt để đánh giá ảnh hƣởng phƣơng pháp tách từ tiếng Việt phân lớp tự động văn tiếng Việt Tập liệu vnexpress tập liệu văn thu thập từ trang báo điện tử vnexpress.net, gồm có 10 chủ đề (10 lớp) bao gồm cơng nghệ thơng tin, giải trí, giáo dục, kinh doanh, ẩm thực, pháp luật, y tế, giới, thể thao, tình u Mỗi chủ đề chúng tơi thu thập khoảng 600 tin văn khác tạo thành tập liệu văn có 6000 tin Vấn đề đặt cần huấn luyện mơ hình phân lớp từ tập liệu vnexpress, để phân lớp tự động tin vào 10 chủ đề Sau bƣớc tách từ, thu đƣợc tập từ vựng tƣơng ứng phƣơng pháp nhƣ trình bày bảng Biểu diễn tập vnexpress mơ hình túi từ (Salton et al., 1975), thu đƣợc bảng liệu tƣơng ứng với phƣơng pháp tách từ, bảng có 6000 dòng số cột (chiều) tổng số từ vựng thu đƣợc từ phƣơng pháp 10 lớp Bảng Tập liệu văn vnexpress Phƣơng pháp tách từ Tổng số từ vựng Tổng số văn Tổng số chủ đề Unigram (từ đơn) 24214 6000 10 JVnTextPro (CRF, MaxEnt) 63827 6000 10 vnTokenizer (hybrid approach) 51018 6000 10 DongDu (Pointwise) 58811 6000 10 Dictionary (Longest matching) 34775 6000 10 n-grams (Statistical approach) 34746 6000 10 Tập liệu book collection tập liệu văn thu đƣợc từ Trung tâm học liệu, Trƣờng Đại học Cần Thơ Tập liệu có 105293 sách, sách đƣợc mơ tả tựa đề, từ khóa, tóm tắt mã loại Tập liệu book collection phức tạp, có số lƣợng sách nhiều, mơ tả sách thơng tin (khoảng 20 từ), tổng số lớp 166 Vấn đề đặt cần huấn luyện mơ hình phân lớp từ tập liệu book collection, để phân lớp tự động sách vào 166 mã loại Các phƣơng pháp tách từ cho tập từ vựng nhƣ trình bày bảng Biểu diễn tập book collection mơ hình túi từ, chúng tơi thu đƣợc bảng liệu tƣơng ứng với phƣơng pháp tách từ, bảng có 105293 dịng số cột (chiều) tổng số từ vựng thu đƣợc từ phƣơng pháp 166 lớp Bảng Tập liệu văn book collection Phƣơng pháp tách từ Unigram (từ đơn) JVnTextPro (CRF, MaxEnt) vnTokenizer (hybrid approach) DongDu (Pointwise) Dictionary (Longest matching) n-grams (Statistical approach) Tổng số từ vựng 59263 83061 89595 121589 68224 119864 Tổng số sách 105293 105293 105293 105293 105293 105293 Tổng số loại 166 166 166 166 166 166 B Kết thực nghiệm Do bảng liệu thu đƣợc từ biểu diễn mơ hình túi từ có số cột (chiều) lên đến vài chục ngàn, cần huấn luyện mơ hình máy học SVM sử dụng hàm nhân tuyến tính phân lớp xác bảng liệu có số chiều lớn (Dumais et al., 1998), (Sebastiani, 1999) Chúng sử dụng nghi thức kiểm tra chéo 3-fold để đánh giá kết phân lớp Tập liệu đƣợc xáo trộn ngẫu nhiên chia thành phần nhau; lần thực nghiệm lấy phần làm tập kiểm tra phần lại làm tập huấn luyện; dùng tập huấn luyện để xây dựng mơ hình phân lớp SVM, tiếp đến dùng mơ hình SVM thu đƣợc để phân lớp tập kiểm tra thu đƣợc độ xác; lần thực nghiệm sử dụng phần khác làm tập kiểm tra, phần lại làm tập huấn luyện thực lặp lại bƣớc xây dựng mơ hình, phân lớp tập kiểm tra; đến lần thực nghiệm thứ kết thúc Kết phân lớp trung bình cộng lần thực nghiệm Hình trình bày kết phân lớp tập liệu vnexpresssử dụng phƣơng pháp tách từ Uni, Jvn, vnTok, DongDu, Dic, n-grams tƣơng ứng Kết cho thấy phƣơng pháp tách từ n-grams Uni tập liệu vnexpress đƣợc sử dụng phân lớp văn tiếng Việt cho độ xác cao tƣơng ứng 94.92% 94.88% Trong mơ hình phân lớp văn vnexpress sử dụng phƣơng pháp tách từ DongDu cho độ xác thấp tƣơng ứng 91.88% Phạm Nguyên Khang, Trần Nguyễn Minh Thƣ, Phạm Thế Phi, Đỗ Thanh Nghị 675 Hình Kết phân lớp tập liệu vnexpress Bảng Kiểm định Wilcoxon cặp phƣơng pháp tách từ tập văn vnexpress p-value Uni Jvn vnTok DongDu Dic Jvn 0.6442302 vnTok 0.3342981 0.1323545 DongDu 0.4817821 0.2241462 0.8983922 Dic 0.9580880 0.6112262 0.3936825 0.4724780 n-grams 0.3460977 0.1268114 0.9552262 0.9162778 0.3393654 Chúng thực kiểm định thống kê để kiểm chứng có khác biệt thật phƣơng pháp tách từ tiếng Việt đƣợc sử dụng phân lớp văn tiếng Việt Kết kiểm định Wilcoxon cho cặp phƣơng pháp, thu đƣợc giá trị p nhƣ bảng Các giá trị p lớn 0.05 cho thấy sử dụng phƣơng pháp tách từ tiếng Việt phân lớp văn tiếng Việt thu đƣợc kết khác biệt khơng có ý nghĩa thống kê Tƣơng tự với tập liệu book collection, thu đƣợc kết phân lớp sử dụng phƣơng pháp tách từ tiếng Việt nhƣ trình bày hình Kết cho thấy sử dụng phƣơng pháp tách từ n-grams Dic cho tập liệu book collection phân lớp sách tiếng Việt cho độ xác cao tƣơng ứng 71.33% 70.72% Một lần nữa, mô hình phân lớp sách book collection sử dụng phƣơng pháp tách từ DongDu cho độ xác thấp tƣơng ứng 66.40% Hình Kết phân lớp tập liệu book collection 676 SỰ ẢNH HƢỞNG CỦA PHƢƠNG PHÁP TÁCH TỪ TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT Kết kiểm định Wilcoxon cho cặp phƣơng pháp, thu đƣợc giá trị p lớn 0.05 nhƣ bảng 6, lần cho thấy sử dụng phƣơng pháp tách từ tiếng Việt phân lớp văn tiếng Việt thu đƣợc kết khác biệt khơng có ý nghĩa thống kê Bảng Kiểm định Wilcoxon cặp phƣơng pháp tách từ tập book collection p-value Uni Jvn vnTok DongDu Dic Jvn 0.3684242 vnTok 0.3432044 0.9618614 DongDu 0.3370766 0.9860077 0.9641109 Dic 0.3656872 0.9955413 0.9666230 0.9790262 n-grams 0.13760121 0.11892901 0.13006150 0.12772106 0.11832005 V KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Chúng vừa trình bày nghiên cứu so sánh ảnh hƣởng phƣơng pháp tách từ tiếng Việt hiệu phân lớp toán phân loại văn tiếng Việt Các kết thực nghiệm tập liệu văn gồm 6000 văn thuộc 10 chủ đề trang báo điện tử vnexpress.net tập liệu sách với 166 chủ đề cho thấy việc tách từ đa âm tiết với tiếp cận khác tách từ đơn âm tiết hoàn tồn khơng có ảnh hƣởng ảnh hƣởng khơng đáng kể hiệu phân lớp Một điều cần ý phƣơng pháp tách từ dựa điểm tách (phƣơng pháp DongDu) hoàn toàn dựa thông tin xuất cạnh (collocation) từ tạo từ ghép (không phải từ ghép) Điều (i) làm cho số lƣợng từ vựng tăng lên (ii) nghiêm trọng làm thông tin xuất từ có từ ghép này2 Lúc này, để đảm bảo giữ đƣợc hiệu phân lớp cần phải có số lƣợng lớn mẫu huấn luyện (hiện tƣợng đƣợc biết đến với tên gọi curse of dimensionality).Với kết nhƣ thế, ta hồn tồn sử dụng phƣơng pháp tách từ đơn âm tiết (dựa khoảng trắng nhƣ tiếng Anh) tách từ theo phƣơng pháp so khớp từ dài từ điển vào toán phân loại văn tiếng Việt để tăng tốc độ xử lý giữ đƣợc hiệu phân lớp cao Chúng tiếp tục thực so sánh ảnh hƣởng tách từ với giải thuật máy học khác nhƣ multinominal naive Bayes, định, rừng ngẫu nhiên với nhiều nhiều tập liệu tiếng Việt khác Ngoài ra, tiếp cận hồn tồn áp dụng lên ngơn ngữ châu Á khác nhƣ tiếng Trung Quốc, tiếng Nhật hay tiếng Hàn Chúng dự định thực điều nghiên cứu tới TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] J-P Benzécri, ―L’analyse des correspondances‖, Paris:Dunod, 1973 L Breiman, J.H Friedman, R.A Olshen and C Stone, ―Classification and Regression Trees‖, Wadsworth International, 1984 L Breiman, ―Arcing classifiers‖,The annals of statistics 26(3):801-849, 1998 L Breiman, ―Random forests‖,Machine Learning 45(1):5-32, 2001 C-C Chang, and C-J Lin, ―LIBSVM: a library for support vector machines‖, ACM Transactions on Intelligent Systems and Technology, vol 2, no 27, pp.1-27, 2011 http://www.csie.ntu.edu.tw/~cjlin/libsvm R Caruana, N Karampatziakis, A Yessenalina, ―An empirical evaluation of supervised learning in high dimensions‖, in proc of the 25th intl conf on Machine learning, pp 96-103, 2008 Jan Daciuk, Stoyan Mihov, Bruce W Watsonand Richard E.Watson, ―Incremental Construction of Minimal Acyclic FiniteState Automata‖, Computational Linguistics, Vol 26, No 1, 2000 D Dinh, K Hoang, V-T Nguyen, ―Vietnamese Word Segmentation‖, The thNatural Language Processing Pacific Rim Symposium, pp.749-756, 2001 D Dinh, D Vu, N.L Nguyen, ―Application of Maximum matching and SVMs for Vietnamese word segmentation‖, ICT.rda’06, Đà Lạt, 2006 T-N Đỗ,―Phân loại thƣ rác với giải thuật ARCX4-RMNB‖, Kỷ yếu hội nghị @CNTT, pp 427-437, 2012 T-N Đỗ, N-K Phạm,―Phân loại văn bản: Mô hình túi từ tập hợp mơ hình máy học tự động‖,Tạp chí khoa học ĐHCT, Số 28: 9-16, 2013 S Dumais, J Platt, D Heckerman, and M Sahami, ―Inductive learning algorithms and representations for text categorization‖,inproc of ACM-CIKM98, pp 148-155, 1998 E Fix, and J Hodges, ―Discriminatoiry Analysis: Small Sample Performance‖,Technical Report 21-49-004, USAF School of Aviation Medicine, Randolph Field, 1952 Y Freund, and R Schapire, ―A decision-theoretic generalization of on-line learning and an application to boosting‖, In proc of Computational Learning Theory, pp 23-37, 1995 I Good, ―The Estimation of Probabilities: An Essay on Modern Bayesian Methods‖,MIT Press, 1965 N-D Ho, ―The Free Vietnamese Dictionary Project‖, 1997-2004 http://www.informatik.uni-leipzig.de/~duc/Dict F Jelinek, R.L Mercer and S Roukos,―Principles of Lexical Language Modeling for Speech Recognition‖, Advances in Speech Signal Processing, S Furui and J Sondhi, Eds M Dekker Publishers, New York, pp.651-700, 1991 T Joachims, ―Text Categorization with Suport Vector Machines: Learning with Many Relevant Features‖, in proc of ECML '98, pp 137-142, 1998 Khi ghép âm tiết để tạo nên từ ghép, ta giữ lại từ ghép sau bỏ qua tất âm tiết có từ ghép Vì ghép sai, ta thông tin xuất từ/âm tiết có từ ghép sai Phạm Nguyên Khang, Trần Nguyễn Minh Thƣ, Phạm Thế Phi, Đỗ Thanh Nghị 677 [19] U Kreßel, ―Pairwise classification and support vector machines‖,Advances in Kernel Methods: Support Vector Learning, pp 255-268, 1999 [20] H-P Le, T-M-H., Nguyen, A Roussanaly, and T V Ho, ―A hybrid approach to word segmentation of Vietnamese texts‖, in proc of the 2ndIntl Conf on Language and Automata Theory and Applications, Spain, Springer, pp 240-249, 2008.http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer [21] D Lewis, andW Gale, ―A sequential algorithm for training text classifiers‖, in proc of the 17 th annual intl ACM SIGIR conf on Research and development in information retrieval, pp.3-12, 1994 [22] X Luo and S Roukos, ―An iterative algorithm to build Chinese language models‖, In Proceedings of the 34 thannual meeting on Association for Computational Linguistics, Association for Computational Linguistics, Stroudsburg, PA, USA, pp 139-143, 1996 [23] T-A Luu and K Yamamoto, ―Ứng dụng phƣơng pháp Pointwise vào toán tách từ cho tiếng Việt‖, NLP Lab., Dept of Electrical Engineering, Nagaoka University of Technology, 2012 http://viet.jnlp.org/dongdu [24] C Manning, P Raghavan, andH Schütze, ―Introduction to Information Retrieval‖, Cambridge University Press, 2008 [25] A McCallum, and K Nigam, ―A comparison of event models for Naive Bayes text classification‖, In AAAI/ICML-98 Workshop on Learning for Text Categorization, pp 41-48, 1998 [26] Surapant Meknavin, Paisarn Charoenpornsawat, and Boonserm Kijsirikul, ―Feature-based Thai Word Segmentation‖, in proc of the Natural Language Processing Pacific Rim Symposium (NLPRS’97), Phuket, Thailand, 1997 [27] C-T Nguyen, X-H Phan, and T-T Nguyen, ―JVnTextPro: A Java-based Vietnamese Text Processing Tool‖, 2010 http://jvntextpro.sourceforge.net [28] D-D Pham, G-B Tran, S-B Pham, ―A hybrid approach to Vietnamese word segmentation using part of speech tags‖,in proc of intl conf on Knowledge and Systems Engineering, pp 154-161, 2009 [29] N-K Phạm, T-N Đỗ, C-Đ Trần,―Phân Loại Dữ Liệu với Giải Thuật Arcx4-LSSVM‖, Kỷ yếu hội nghị ICTFIT, HCM, pp 72-78, 2008 [30] N-K Phạm, T-N Đỗ, F Poulet,―Phân loại văn với BPSVM‖, Kỷ yếu hội nghị @CNTT, pp 269-278, 2006 [31] J-R Quinlan, ―C4.5: Programs for Machine Learning‖, Morgan Kaufmann, San Mateo, 1993 [32] G Salton, A Wong, and C-S Yang, ―A vector space model for automatic indexing‖,Communications of the ACM, vol.18(11):613-620,1975 [33] F Sebastiani, ―Machine learning in automated text categorization‖,ACM Computing Surveysvol.34(1):1-47, 1999 [34] Chih-Hao Tsai, ―MMSEG: A Word Identification System for Mandarin Chinese TextBased on Two Variants of the Maximum Matching Algorithm.‖, 1996.http://technology.chtsai.org/MMSEG/ [35] V Vapnik, ―The Nature of Statistical Learning Theory‖, Springer-Verlag, 1995 [36] X Wu, and V Kumar,―Top 10 Algorithms in Data Mining‖, Chapman & Hall/CRC, 2009 A COMPARISON OF WORD SEGMENTATION METHODS IN VIETNAMESE TEXT CATEGORIZATION Pham Nguyen Khang, Tran Nguyen Minh Thu, Pham The Phi, Do Thanh Nghi ABSTRACT— Word segmentation, which determines the boundaries of words in a text document, is an important step in natural language processing In Vietnamese, besides one-syllable words, there are also words with multiple syllables Hence, the approach of separating words simply using the white space is believed to be not effective Many approaches to segmenting words in written Vietnamese (dictionary-based, statistical-based or combination of both) are proposed competing for accuracy It is common sense that good word segmentation results will contribute to better language processing and understanding works, e.g text clustering, text classification, part-of-speech tagging, semantic role labeling, machine translation, and so on But is that really so for the task of Vietnamese text classification? In this paper, we present a comparative study of the effect of various word segmentation methods to Vietnamese text classification The experiments are conducted on two datasets: (i) 6000 texts of 10 topics and (ii) 105293 book abstracts of 166 topics with the SVM classification model We discover that the classification accuracies with different word segmentation methods are not statistically different ... phƣơng pháp tách từ dựa từ điển để chúng chứa từ ghép lẫn âm tiết tạo nên từ ghép SỰ ẢNH HƢỞNG CỦA PHƢƠNG PHÁP TÁCH TỪ TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT 670 II TÁCH TỪ TIẾNG VIỆT Từ tiếng. .. quan sát với nhãn hành SỰ ẢNH HƢỞNG CỦA PHƢƠNG PHÁP TÁCH TỪ TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT 672 Phƣơng pháp tách từ sử dụng mơ hình Pointwise Một phƣơng pháp tách từ khác tên Pointwise... phƣơng pháp tách từ tiếng Việt dựa kỹ thuật lai (từ điển, automat hữu hạn trạng thái, biểu thức quy so khớp từ dài nhất), viết SỰ ẢNH HƢỞNG CỦA PHƢƠNG PHÁP TÁCH TỪ TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG

Ngày đăng: 26/11/2020, 00:04

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w