Hướng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê Internet A Novel Approach in Word Segmentation to Classify Vietnamese Documents Using GA and Internet-Based Statistics Nguyễn Thanh Hùng Abstract: Vietnamese segmentation approach for text categorization Instead of using annotated training corpus or lexicon which is still lack in Vietnamese, we uses statistic information extracted directly from a commercial search engine and genetic algorithm to find most reasonable ways of segmentation The extracted information includes document frequency and n-gram mutual information Our experiment results obtained on segmentation and categorization online news abstracts show that our approach is very promising It achieves near 80% human judgment on segmentation and over 90% micro-averaging F1 in categorization The processing time is less than one second per document when statistic information was cached I GIỚI THIỆU Tách từ khó khăn việc phân loại văn ngôn ngữ châu Á tiếng Hoa, tiếng Nhật, tiếng Hàn tiếng Việt Mặc dù viết ký tự La tinh mở rộng, tiếng Việt có đặc tính chung với ngôn ngữ phonographic Đông Nam Á khác khó xác định ranh giới từ có điểm khác biệt phonetic, văn phạm ngữ nghĩa so với ngôn ngữ Ấn Âu Do đó, khó áp dụng kỹ thuật hướng tiếp cận nghiên cứu thử nghiệm thành công ngôn ngữ Ấn Âu cho tiếng Việt không xây dựng thành công giải pháp cho việc tách từ văn tiếng Việt Vậy, việc xác định ranh giới từ tiếng Việt lại có vai trò quan trọng việc phân loại văn tiếng Việt? Theo Yang Xiu [18] kết khảo sát chúng tôi, hầu hết phương pháp phân loại văn tiếng Việt hiệu như: Support Vector Machine [8], Linear Least Squares Fit [15], mạng nơ ron [14, 1, 12] … cần thông tin xác suất hay thống kê hay trọng số từ Sau khảo sát đánh giá phương pháp việc phân loại văn tiếng Việt, nhận việc tách từ bước quan trọng cần phải giải Vậy, việc xác định ranh giới từ tiếng Việt lại toán khó? Đơn vị tiếng Việt tiếng, từ Trong [5] nêu số đặc tính từ tiếng Việt sau: − Từ dạng nguyên thể, hình thức ý nghĩa từ độc lập với cú pháp − Từ cấu trúc từ “tiếng” − Từ bao gồm từ đơn (từ tiếng) từ phức (ntiếng, với n < 5), bao gồm từ láy từ ghép Trong đó, định nghĩa từ tiếng Anh sau: “Từ nhóm ký tự có nghĩa, phân cách ký tự khoảng trăng câu” (Từ điển Webster) Dưới số điểm khác biệt tiếng Việt tiếng Anh Những đặc điểm làm cho việc tách từ tiếng Việt trở nên khó khăn Bảng Các điểm khác biệt tiếng Việt tiếng Anh Đặc điểm Đơn vị Tiền tố/Hậu tố Từ loại Ranh giới từ Tiếng Việt Tiếng Tiếng Anh Từ Không có Có Not Unanimous Được định nghĩa rõ Khoảng trắng dấu câu Tổ hợp có nghĩa dựa vào ngữ cảnh tiếng Khó khăn lớn việc phân loại văn tiếng Việt gì? Gần đây, nhiều kết khả quan việc phân loại văn tiếng Hoa số ngôn ngữ Đông Nam Á khác công bố Tuy nhiên, việc áp dụng hướng tiếp cận dựa ngữ liệu vào tiếng Việt khó đạt kết mong muốn, thật chí không khả thi thực tế Hiện tại, chưa có lexicon chuẩn hay ngữ liệu huấn luyện tiếng Việt gán nhãn đủ lớn có chất lượng phục vụ việc Do đặc điểm tiếng Việt nên việc xây dựng lexicon hay ngữ liệu cần nhiều thời gian, công sức chi phí Đây vấn đề đáng lo toán phân loại văn tiếng Việt, xử lý ngôn ngữ tự nhiên tìm kiếm thông tin tiếng Việt Trong báo này, tập trung vào cách tách từ văn tiếng Việt theo cách khả thi mà không dựa vào lexicon hay ngữ liệu huấn luyện gán nhãn để phục vụ cho việc phân loại văn tiếng Việt Do tồn nhiều cách tách từ hợp lý khác cho câu, sử dụng giải thuật di truyền để tiến hóa quần thể mà đó, cá thể tương ứng với cách tách từ cho câu xét Hàm đánh giá độ thích nghi thể thong tin thống kê rút trích trực tiếp từ Internet sử dụng search engine thương mại Thông tin rút trích bao gồm tần số tài liệu thông tin tương quan n-gram Nội dung viết tổ chức sau: sau phần giới thiệu, trình bày tình hình nghiên cứu việc tách từ tiếng Hoa tiếng Việt Phần trình bày ý tưởng việc thống kê dựa Internet Trong phần tiếp theo, trình bày chi tiết hướng tiếp cận giải thuật di truyền Phần trình bày kết thử nghiệm thảo luận Cuối phần kết luận hướng phát triển II TÌNH HÌNH NGHIÊN CỨU Dưới kết khảo sát Foo Li [7] tách từ văn tiếng Hoa thống kê việc tách từ tiếng Việt (Hình 1) Hình Các hướng tiếp cận việc phân đọan văn tiếng Hoa hướng tiếp cận việc phân đọan văn tiếng Việt Các hướng tiếp cận dựa “từ”: chia thành nhóm: dựa vào thống kê, dựa vào từ điển nhóm lai, nhằm tách từ trọn vẹn câu Các giải pháp theo hướng tiếp cận dựa vào thống kê cần phải dựa vào thong tin thống kê term, từ hay tần số ký tự, hay xác suất xuất tập liệu sở Do đó, tính hiệu giải pháp loại chủ yếu dựa vào ngữ liệu huấn luyện cụ thể sử dụng Đáng tiếc lại vấn đề khó khăn toán tách từ tiếng Việt trình bày phần Dinh et al [6] xây dựng ngữ luyện huấn luyện riêng (khoảng 10MB) dựa vào tài nguyên, tin tức sách điện tử Internet Dĩ nhiên ngữ liệu nhỏ không toàn diện (tức không đủ rộng, bao gồm đủ lĩnh vực, chủ đề khác nhau) Trong hướng tiếp cận dựa vào từ điển, phân đọan văn đối sánh dựa vào từ điển Việc xây dựng từ điển từ ngữ tiếng Việt hoàn chỉnh không khả thi Hướng tiếp cận lai áp dụng nhiều cách khác để tận dụng ưu điểm giải pháp Tóm lại, hướng tiếp cận để phân loại văn tiếng Việt dựa vào từ khả thi có lexicon tốt và/hay ngữ liệu huấn luyện đủ lớn đáng tin cậy Các hướng tiếp cận dựa ký tự (dựa “tiếng” tiếng Việt): Có thể chia làm nhóm nhỏ: uni-gram n-gram Các phương pháp đơn giản đem lại nhiều kết quan trọng việc xử lý tiếng Hoa (Foo Li, [7]) Gần có số báo phân đọan văn tiếng Việt theo hướng tiếp cận Le [9] xây dựng 10 MB ngữ liệu thô sử dụng quy hoạch động để tối ưu hóa tổng xác suất phân đọan (các ngữ phân cách ký tự phân cách) Trong báo gần H Nguyen et al [11], thay sử dụng ngữ liệu thô, tác giả sử dụng thông tin thống kê trực tiếp từ Internet sử dụng giải thuật di truyền để tìm cách phân đọan văn tối ưu văn Mặc dù báo trình bày kết thử nghiệm bước đầu, tin vào khả phát triển tính khả thi hướng tiếp cận Trong viết này, mở rộng ý tưởng này, bổ sung số thay đổi quan trọng đánh giá kết thử nghiệm III NGUYÊN INTERNET LÝ THỐNG KÊ DỰA VÀO Chúng đồng ý với H Nguyen et al [11] thống qua search engine thương mại, rút trích thông tin thống kê hữu ích từ Internet Đó tần số tài liệu (document frequency – df), số lượng tài liệu lập mục có chứa từ cần xét Ta chuẩn hóa giá trị df cách chia cho số MAX (là số lượng tài liệu tiếng Việt lập mục) để xấp xỉ xác suất xuất từ Internet Trên thực tế, khó biết xác số lượng tài liệu tiếng Việt lập mục, đó, thông qua thực nghiệm1 giá trị df từ thông dụng, chọn giá trị MAX 109 Bảng Tần số tài liệu số từ thông dụng tiếng Việt Tiếng Việt có df 21.3 × 106 20.4 × 106 14.4 × 106 Do từ tiếng Việt gồm (số) tiếng liên tiếp nhau, ta cần độ đo thông kê mức độ liên kết tiếng Mutual information -MI khái niệm quan trọng lý thuyết thông tin, dùng xử lý ngôn ngữ tự nhiên để thể quan hệ hai từ cụ thể x y (Church et al [3]): Tuy nhiên, không xét cặp tiếng mà xét nhóm n tiếng (n-gram) Tương tự Chien et al [3], mở rộng công thức tính MI bigram cho n-gram: Với cw chuỗi gồm n tiếng (cw = s1s2…sn), lw rw hai chuỗi dài (n-1) cw (lw = s1s2…sn-1 rw = s2s3…sn) Nếu giá trị MI(cw) lớn lw rw có khuynh hướng xuất chung tài liệu Internet (tức cw có khả cao từ ghép) Ví dụ: xét chuỗi “đại học khoa học tự nhiên”, ta so sánh khả chuỗi “khoa học tự nhiên” hay “học khoa học tự” từ ghép Ta thấy “khoa học tự nhiên” có giá trị MI lớn hẳn MI “học khoa học tự” (không có ý nghĩa) Bảng Ví dụ MI n-gram Chuỗi wf MI Chúng thử nghiệm Google: http://www.google.com khoa học tự nhiên khoa học tự học tự nhiên học khoa học tự học khoa học 39200 41800 39900 14900 28600 0.92 0.27 Trong phần tiếp theo, giới thiệu hướng tiếp cận giải thuật di truyền để xác định MI tối ưu toàn cục, tức cách tách từ hợp lý câu lai, tỉ lệ biến dị tỉ lệ tái sinh Các cá thể ban đầu quần thể phát sinh ngẫu nhiên Tuy nhiên, áp dụng số ràng buộc nhằm tối ưu hóa chuỗi ngẫu nhiên phát sinh Dưới thống kê rút từ từ điển trực tuyến chưa 72994 từ ngữ2 Bảng Thống kê theo độ dài từ từ điển http://dict.vietfun.com Độ dài từ ≥5 Tổng cộng IV HƯỚNG TIẾP CẬN BẰNG GIẢI THUẬT DI TRUYỀN ĐỂ TÁCH TỪ Với câu, xác định cách tách từ hợp lý Tuy nhiên, không gian tìm kiếm lớn có nhiều cách tổ hợp tiếng thành từ Dựa vào nguyên lý tiến hóa di truyền, giải thuật di truyền thích hợp cho việc xác định (xấp xỉ) lời giải tối ưu hóa toàn cục không gian tìm kiếm lớn thay lời giải tối ưu cục (Michalewicz, [10]) Giải thuật di truyền tiến hóa quần thể qua nhiều hệ nhằm tối ưu hóa toàn cục thông quá trình chọn lọc, lai, biến dị tái sinh Chất lượng cá thể quần thể xác định hàm thích nghi qua hệ, chọn lại N cá thể tốt sau thực trình lai, biến dị tái sinh Giải thuật di truyền áp dụng cho toán tách từ tiếng Việt tóm tắt sau: Mục tiêu: Xét văn t gồm n tiếng t=s1s2…sn Mục tiêu trình GA xác định cách tách hợp lý văn t thành m đọan t=w1w2…wm với wk=si…sj (1 ≤ k≤ m, 1≤ i, j≤ n) từ đơn hay từ phức Cách biểu diễn: Quần thể (pop) tập hợp cá thể (id) biểu diễn xâu nhị phân Mỗi bit tương ứng với tiếng Vậy, từ gồm bit giống liên tiếp Ví dụ: học sinh học sinh học 0 0 học sinh # học # sinh học w1 w2 w3 Khởi tạo quần thể: Ở bước này, ta khởi gán tham số số lượng hệ, kích thước quần thể, tỉ lệ Tần số 8933 48995 5727 7040 2301 72994 Tỉ lệ % 12.2 67.1 7.9 9.7 3.1 100 Do chưa có từ điển chuẩn dành cho xử lý ngôn ngữ nên định chọn thống kê dựa từ điển thông dụng Dựa vào số liệu thống kê, ta thấy có 67% từ từ điển có độ dài tiếng, khoảng 30% từ đơn hay từ gồm 3-4 tiếng Các từ dài chiếm khoảng 3% từ điển, thường thành ngữ Dựa vào nhận xét này, đề số điều kiện giới hạn cho việc tạo chọn cá thể ngẫu nhiên ban đầu quần thể: − Mỗi đoạn gồm tối đa tiếng − Xác suất tạo đoạn gồm tiếng cao xác suất tạo đoạn có độ dài khác Ngoài ra, áp dụng dạng đơn giản giải thuật đối sánh Left Right Maximum (Tsai, [13]) để tạo hai cá thể đặc biệt: cá thể “tiến” cá thể “lùi” Như vậy, quần thể ban đầu có số cá thể tối ưu hóa cục Phép lai: Chúng áp dụng thao tác lai 1-điểm chuẩn hai xâu bit Với cặp cá thể id1 id2, hai cá thể tạo cách lấy phần đầu id1 nối vào phần sau id2 ngược lại Tuy nhiên, cá thể vi phạm điều kiện giới hạn kích thước (mỗi đoạn wk có kích thước tối đa 4), ta chuẩn hóa cá thể cách đảo bit gây vi phạm cuối đoạn Phép biến dị: Thay dùng phép biến dị đảo bit http://dict.vietfun.com ngẫu nhiên, đảo bit biên phân đoạn Tương tự phép lai, ta chuẩn hóa cá thể để thỏa điều kiện giới hạn kích thước phân đoạn Tái sinh: Sau thực phép lai biến dị, ta chọn lại số cá thể hệ trước (theo tỉ lệ chọn) đưa vào quần thể Phép chọn: Ở hệ, chọn giữ lại N cá thể tốt Hàm thích nghi cá thể id xác định sau: tóm tắt nhiều trang báo điện tử3 nhằm tạo toàn diện cho liệu thử nghiệm (tin tức đa dạng chủ đề phong cách) Để thử nghiệm việc phân loại văn bản, chia tóm tắt báo theo chủ đề khác nhau: xã hội, giới, thương mại, khoa học, văn hóa, sức khỏe thể thao Cuối cùng, thu thập 0,5MB ngữ liệu thử nghiệm gồm 700 tóm tắt, 41219 tiếng, 100 tài liệu chủ đề Trong thử nghiệm, chọn tham số giải thuật di truyền sau: − Số lượng hệ tối đa = 100 − Số lượng cá thể quần thể = 100 − Tỉ lệ lai = 0.8 − Tỉ lệ biến dị = 0.1 − Tỉ lệ tái sinh = 0.1 với id=w1w2…wm cá thể quần thể pop = {id1, …, idN} Hội tụ: Quá trình tiến hóa nhằm cải thiện độ thích nghi cá thể quần thể, tức cải thiện chất lượng việc tách từ Do đó, dừng trình tiến hóa độ thích nghi hệ sau không cao hệ trước, số lượng hệ đạt ngưỡng cho trước V KẾT QUẢ THỬ NGHIỆM VÀ THẢO LUẬN Việc đánh giá độ xác giải thuật tách từ tiếng Việt điều phức tạp, đặc biệt ngữ liệu kiểm chứng tách từ thủ công Bên cạnh đó, trình bày phần trên, tách từ bước phân loại văn bản, sau có nhiều bước xử lý khác trước đánh giá kết phân loại văn Do đó, thực hai thử nghiệm: − Thử nghiệm việc tách từ, kết người đánh giá, − Thử nghiệm phân loại văn dựa cách tách từ đề nghị Chúng xây dựng ngữ liệu để thực thử nghiệm Do hướng tiếp cận sử dụng thống kê dựa Internet, thu thập phần − Phép chọn N = 100 cá thể tốt Thử nghiệm tách từ Trong thử nghiệm này, nhờ giáo sư ngôn ngữ học học viên cao học Tin học hợp tác để đánh giá (một cách độc lập) độ xác việc tách từ tóm tắt tin điện tử Người tham gia trả lời hai câu hỏi sau kết tách từ: − Hoàn toàn đồng ý với kết tách từ hay không? (câu hỏi dùng để đánh giá kết tách từ hoàn hảo) − Theo kết việc tách từ, người đọc hiểu ý nghĩa văn hay không? (câu hỏi dùng để đánh giá kết tách từ chấp nhận được) Để phục vụ toán phân loại văn bản, không cần tách từ cách hoàn hảo mà cần kết tách từ chấp nhận được, tức từ quan trọng phải tách xác, từ quan trọng tách không hoàn toàn xác Bảng thể đánh giá người tham gia thử nghiệm kết tách từ: Bảng Đánh giá kết việc tách từ http://www.vnexpress.net, http://www.vnn.vn, http://www.tuoitre.com.vn, http://www.thanhnien.com.vn Người đánh giá Hoàn hảo Giáo sư ngôn ngữ học 368 52.57% 431 61.57% Học viên Cao học Tin học Chấp nhận 538 76.86% 554 79.14% Chúng ta biết trước tỉ lệ tách từ hoàn hảo không cao, ra, có chênh lệch đáng kể việc đánh giá tính hoàn hảo kết tách từ hai người tham gia thử nghiệm Chúng tin điều hệ thống từ loại (part of speech) tiếng Việt không định nghĩa rõ ràng, dẫn đến không thống ý kiến đánh giá Tuy nhiên, điều đáng mừng tỉ lệ tách từ chấp nhận cao Gần 80% kết tách từ không làm người đọc hiểu sai nghĩa câu Đây điều mà mong đợi Cần lưu ý để phục vụ toán phân loại văn bản, cần tách từ mức độ chấp nhận mà không cần phải đòi hỏi đến mức độ hoàn hảo Như vậy, không cần dùng ngữ liệu huấn luyện, hướng tiếp cận đề nghị đạt kết tách từ khả quan Thử nghiệm việc phân loại văn Ngữ liệu thử nghiệm tập gồm nhiều tài liệu, D={d1, d2,…,dn}, đó, tài liệu gán nhãn chủ đề từ tập hợp chủ đề C={c1, c2,…,cm} Mỗi chủ đề có danh sách từ khóa đại diện K={k1, k2,…,ku} Với tài liệu d, áp dụng số bước tiền xử lý để tăng tốc độ xử lý Trước tiên, tách d thành nhiều nhóm tiếng dựa vào dấu câu số lượng Thứ hai, sử dụng danh sách stop word, loại bỏ các từ thường có ý nghĩa Cuối cùng, d biểu diễn d =g1g2…gr với gi nhóm tiếng sau tiền xử lý Với chuỗi phân đoạn t=w1w2…wm, ta tính điểm liên quan với chủ đề c sau: Với p(k | w) xác suất có điều kiện từ khóa k biết từ w Theo công thức trên, mức độ support cao khả văn thuộc chủ đề cao Chúng tổng quát hóa mức độ support tài liệu tiền xử lý d chủ đề c sau: Trong thí nghiệm này, phân loại ngữ liệu thử nghiệm theo chủ đề phổ biến tờ báo tiếng Việt gồm: xã hội, giới, kinh tế, khoa học, văn hóa, sức khỏe thể thao Việc xác định danh sách từ khóa chủ đề mục tiêu báo nghiên cứu sâu công trình sau Do đó, thí nghiệm này, chọn từ khóa – tên chủ đề cho chủ đề Trong thí nghiệm giả sử tài liệu thuộc số bảy chủ đề chọn Chúng ta sử dụng độ đo F1 micro-averaging F1 (Yang [16]) để lượng giá hiệu Bảng thể kết ngữ liệu thử nghiệm tất chủ đề giá trị microaveraging Chúng so sánh kết với phương pháp IGATEC H Nguyen [11] Bảng Giá trị F1 micro-averaging F1 phương pháp đề nghị so với IGATEC Chủ đề Xã hội Thế giới Kinh tế Khoa học Văn hóa Sức khỏe Thể thao Micro-avg Phương pháp đề nghị 87.2 90.5 82.9 88.5 85.7 96.4 99.5 90.1 IGATEC 83.9 91.4 78.0 87.4 83.6 96.0 100.0 88.6 Kết thực nghiệm cho thấy hướng tiếp cận có phần tốt IGATEC Bên cạnh đó, việc sử dụng bước tiền xử lý nêu giúp giảm đáng kể số lượng hệ trình tiến hóa Trong thử nghiệm, số lượng hệ trung bình phương pháp vào khoảng 52.3, IGATEC sử dụng khoảng 500 hệ Chính nhờ điều này, với việc sử dụng thông tin MI tính nhanh chóng, giúp cho việc phân loại văn có tốc độ nhanh (khoảng 0.5 giây cho tài liệu máy tính cá nhân4 với thông tin thống kê lưu trữ sẵn) Đây thử nghiệm ban đầu để kiểm chúng hướng tiếp cận Hiện tiếp tục thử nghiệm việc phân loại văn với ngữ liệu phức tạp đa dạng VI KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong báo này, đề nghị việc sử dụng thông tin MI với hàm lượng thông tin lớn có chi phí tính toán thấp số bước tiền xử lý hiệu phục vụ việc phân loại văn tiếng Việt Điểm hướng tiếp cận thay phải sử dụng ngữ liệu huấn luyện gán nhãn hay lexicon – vốn chưa có sẵn cho tiếng Việt, sử dụng thông tin thống kê rút trích trực tiếp từ search engine dùng giải thuật di truyền để xác định cách tách từ hợp lý văn tiếng Việt cho trước Các kết thực nghiệm cho thấy hướng tiếp cận đạt kết khả quan việc tách từ phân loại văn tiếng Việt với độ đo micro-averaging F1 (Yang, [16]) đạt 90% Phương pháp hứa hẹn tiềm lớn cho việc xử lý văn ngôn ngữ tương tự tiếng Việt – vốn chưa có ngữ liệu gán nhãn hay lexicon chuẩn Ngoài ra, tin hướng tiếp cận việc tách từ áp dụng hiệu nhiều toán khác liên quan đến tiếng Việt ngôn ngữ tương tự, xử lý ngôn ngữ tự nhiên hay truy tìm thông tin Chúng tiếp tục nghiên cứu, khảo sát nhằm tối ưu tham số giải thuật di truyền Chúng xây dựng chiến lược xác định giá trị tham số cách tự động nhằm tăng tốc độ xử lý giải thuật Ngoài ra, tại, sử dụng tần số thô tài liệu từ search engine Trong báo Pentium IV, 1.50GHz, 250 MB RDRAM Cilibrasi Vitanyi [4] giới thiệu nhiều độ đo khoảng cách phương pháp để rút trích ý nghĩa từ ngữ từ Internet sử dụng số lượng trang Google Những kết áp dụng để nâng cao hiệu phương pháp đề nghị Mục tiêu lâu dài áp dụng đánh giá phương pháp phân loại văn hiệu nghiên cứu sâu để tìm phương pháp hiệu phù hợp cho việc phân loại văn tiếng Việt TÀI LIỆU THAM KHẢO [1] L D Baker, A K Mccallum, Distributional clustering of words for text categorization, Proceedings of the 21st Annual International Conference on Research and Development in Information Retrieval (SIGIR’98), 1998, pp96-103 [2] Lee-Feng Chien, T I Huang, M C Chen., PAT-TreeBased Keyword Extraction for Chinese Information Retrieval, Proceedings of 1997 ACM SIGIR Conference, Philadelphia, USA, 1997, pp50-58 [3] K Church, P Hanks, W Gale, and D Hindle, Using Statistics in Lexical Analysis, in U Zernik Lexical Acquisition: Using On-line Resources to Build a Lexicon, Lawrence Erlbaum Associates, 1991 [4] Rudi Cilibrasi, Paul Vitanyi, Automatic meaning discovery of Google A search for meaning, New Scientist, Duncan Graham-Rowe, 29 January 2005, p.21 [5] Dinh Dien, Từ tiếng Việt, University, HCMC, Vietnam, 2000 Vietnam National [6] Dinh Dien, Hoang Kiem, Nguyen Van Toan, Vietnamese Word Segmentation, The Sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan 2001, pp749-756 [7] Foo S., Li H, Chinese Word Segmentation and Its Effect on Information Retrieval, Information Processing & Management: An International Journal, 40(1), 2004, pp161-190 [8] T Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features, European Conferences on Machine Learning (ECML’98), 1998 [9] Le An Ha, A method for word segmentation in Vietnamese, Proceedings of Corpus Linguistics 2003, Lancaster, UK, 2003 [10] Z Michalewicz, Genetic algorithms + data structures = evolution programs, 3rd edition, Springer-Verlag London, UK, 1996 retrieval 17th Annual International Conference on Research and Development in Information Retrieval (SIGIR’94), 1994, pp13-22 [11] H Nguyen, H Nguyen, T Vu, N Tran, K Hoang, Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese, Research, Innovation and Vision of the Future, the 3rd International Conference in Computer Science, (RIVF 2005), Can Tho, Vietnam, 2005 [16] Yiming Yang, An evaluation of Statistical Approaches to Text Categorization Journal of Information Retrieval, Vol 1, No 1/2, 1999, pp 67—88 [12] S Shankar, G Karypis, Weight adjustment schemes for a centroid-based classifier, Text Mining Workshop on Knowledge Discovery in Data (KDD’00), 2000 [13] Chih-Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm Web publication at http://technology.chtsai.org/mmseg/, 2000 [14] E Wiener, J.O Pedersen, A.S Weigend, A neural network approach to topic spotting Proceedings of the Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR’95) [15] Yiming Yang, Expert network: Effective and efficient learning from human decisions in text categorization and SƠ LƯỢC TÁC GIẢ NGUYỄN THANH HÙNG Sinh ngày 04/04/1964 Thanh Hoá Tốt nghiệp Đại học Sư phạm Toán-Lý Liên xô (cũ) năm 1987 Tốt nghiệp Cao học Tin học Đại học Khoa học Tự nhiên TP HCM năm 1997 Hiện Nghiên cứu sinh Đại học KHTN TP HCM Hiện giảng dạy Trường PT Năng KhiếuĐHQG TP Hồ Chí Minh Lĩnh vực nghiên cứu: Lý thuyết thuật toán, Các toán tối ưu, Thuật giải di truyền (GA) Email : hung64vn@yahoo.com [17] Yiming Yang, C.G Chute, An example-based mapping method for text categorization and retrieval, ACM Transaction on Information System (TOIS’94), 1994, pp 252-277 [18] Yiming Yang, Xin Liu, A re-examination for text categorization methods Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99), 1999 Ngày nhận bài: 23/01/2006 ... hướng tiếp cận việc phân đọan văn tiếng Việt Các hướng tiếp cận dựa từ : chia thành nhóm: dựa vào thống kê, dựa vào từ điển nhóm lai, nhằm tách từ trọn vẹn câu Các giải pháp theo hướng tiếp cận. .. luận hướng phát triển II TÌNH HÌNH NGHIÊN CỨU Dưới kết khảo sát Foo Li [7] tách từ văn tiếng Hoa thống kê việc tách từ tiếng Việt (Hình 1) Hình Các hướng tiếp cận việc phân đọan văn tiếng Hoa hướng. .. nhau) Trong hướng tiếp cận dựa vào từ điển, phân đọan văn đối sánh dựa vào từ điển Việc xây dựng từ điển từ ngữ tiếng Việt hoàn chỉnh không khả thi Hướng tiếp cận lai áp dụng nhiều cách khác để