1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận Văn Xây Dựng Hệ Thống Phân Loại Tài Liệu Tiếng Việt.pdf

77 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 77
Dung lượng 2 MB

Nội dung

TRƢỜNG ĐẠI HỌC LẠC HỒNG KHOA CÔNG NGHỆ THÔNG TIN  BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI XÂY DỰNG HỆ THỐNG PHÂN LOẠI TÀI LIỆU TIẾNG VIỆT TRẦN THỊ THU THẢO VŨ THỊ CHINH BIÊN HÒA, THÁNG 11/2012 TRƢỜNG ĐẠ[.]

TRƢỜNG ĐẠI HỌC LẠC HỒNG KHOA CÔNG NGHỆ THÔNG TIN - - BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI: XÂY DỰNG HỆ THỐNG PHÂN LOẠI TÀI LIỆU TIẾNG VIỆT TRẦN THỊ THU THẢO VŨ THỊ CHINH BIÊN HÒA, THÁNG 11/2012 TRƢỜNG ĐẠI HỌC LẠC HỒNG KHOA CÔNG NGHỆ THÔNG TIN - - ĐỀ TÀI: XÂY DỰNG HỆ THỐNG PHÂN LOẠI TÀI LIỆU TIẾNG VIỆT SVTH: TRẦN THỊ THU THẢO VŨ THỊ CHINH GVHD:ThS TẠ NGUYỄN BIÊN HỊA, THÁNG 11/2012 LỜI NĨI ĐẦU Trong năm gần đây, với phát triển mạnh mẽ công nghệ thông tin nhu cầu sử dụng Internet ngƣời làm tăng vọt lƣợng thông tin giao dịch Internet Vì mà số lƣợng văn điện tử tăng nhanh chóng mặt số lƣợng chủ đề đặc biệt thƣ viện điện tử, tin tức điện tử mạng toàn cầu… Với lƣợng thông tin đồ sộ nhƣ vậy, yêu cầu lớn đặt tổ chức tìm kiếm thơng tin cách xác, có hiệu Phân loại thông tin giải pháp hợp lý cho yêu cầu Nhƣng thực tế cho thấy khối lƣợng thông tin lớn, việc phân loại liệu thủ công điều vô khó khăn Hƣớng giải cho việc xây dựng chƣơng trình phân loại thơng tin tự động máy tính Phân loại văn vấn đề quan trọng lĩnh vực xử lý ngôn ngữ Nhiệm vụ toán gán tài liệu văn vào nhóm chủ đề cho trƣớc Đây toán thƣờng gặp thực tế điển hình nhƣ việc phân nhóm tin tức, phân nhóm văn theo thể loại khác Tuy nhiên, lúc đọc tất tin tức, viết, báo hay tài liệu để phân loại chúng theo mục đích số tài liệu lớn, để đọc hết đƣợc tất nhiều thời gian Đó lý cần có hệ thống phân loại tài liệu tiếng Việt Chúng em chọn thực đề tài “Xây dựng hệ thống phân loại tài liệu tiếng Việt” nhằm tìm hiểu thử nghiệm phƣơng pháp phân loại văn áp dụng tiếng Việt Trong luận văn này, chúng em tìm hiểu số cách phân loại tài liệu thử nghiệm phƣơng pháp phân loại áp dụng thuật tốn Nạve Bayes để xây dựng chƣơng trình dựa tập liệu huấn luyện từ hƣớng đến việc phân loại báo khoa học lĩnh vực Công nghệ thông tin nhằm tiết kiệm thời gian công sức cho nhà tổ chức hội thảo chuyên đề Việc thực đề tài phân loại tài liệu tiếng Việt chúng em hy vọng đem đến cách phân loại mới, nhanh chóng hiệu việc phân loại thủ công nhƣ LỜI CẢM ƠN Chúng em xin bày tỏ lòng biết ơn sâu sắc tới Thầy Tạ Nguyễn tận tụy hƣớng dẫn, động viên, giúp đỡ em suốt thời gian thực đề tài Chúng em xin chân thành cảm ơn quý Thầy Cô khoa Công nghệ thông tin truyền đạt kiến thức quý báu kinh nghiệm quý báu cho chúng em năm học vừa qua Chúng xin nói lên lịng biết ơn Ông Bà, Cha Mẹ nguồn động viên, chăm sóc bƣớc đƣờng học vấn chúng Xin chân thành cảm ơn anh chị bạn bè ủng hộ, giúp đỡ động viên chúng em thời gian học tập nghiên cứu Mặc dù chúng em cố gắng hoàn thành luận văn phạm vi khả cho phép nhƣng chắn chúng em khơng tránh khỏi thiếu sót q trình thực đề tài Chúng em kính mong nhận đƣợc cảm thơng ý kiến đóng góp q Thầy Cơ bạn Một lần nữa, xin chân thành cảm ơn Sinh viên thực hiện, Trần Thị Thu Thảo & Vũ Thị Chinh 11/2012 Mục lục CHƢƠNG 1: TỔNG QUAN 1.1 Đặt vấn đề 1.2 Tổng quan tình hình nghiên cứu ngồi nƣớc 1.2.1 Tổng quan giới 1.2.2 Tổng quan nƣớc 1.3 Mục tiêu luận văn 1.4 Nội dung thực CHƢƠNG 2: CÁC PHƢƠNG PHÁP PHÂN LOẠI VĂN BẢN 2.1 Tổng quát phƣơng pháp phân loại văn 2.2 Mơ tả tốn phân loại văn 2.3 Các phƣơng pháp phân loại văn tiếng Anh 2.3.1 Support vector Machine (SVM) 2.3.2 Naïve Bayes (NB) 2.3.3 Biểu diễn văn 10 2.3.4 K–Nearest Neighbor (kNN) 12 2.3.5 Linear Least Square Fit (LLSF) 13 2.3.6 Neural Network (NNet) 14 2.3.7 Centroid- based vector 15 2.4 Kết luận chung phƣơng pháp phân loại văn tiếng Anh 16 2.5 Tách từ toán phân loại văn 17 2.5.1 Khó khăn vƣớng mắc 18 2.5.2 Các phƣơng pháp tách từ 19 CHƢƠNG 3: ỨNG DỤNG PHÂN LOẠI BÀI BÁO KHOA HỌC TRONG LĨNH VỰC CÔNG NGHỆ THÔNG TIN 24 3.1 Hiện trạng 24 3.2 Quy trình xử lý phân loại báo 25 3.2.1 Tách từ văn 26 3.2.2 Loại bỏ từ tầm thƣờng 28 3.3 Trích chọn đặc trƣng văn 28 3.3.1 Các ý tƣởng 28 3.3.2 Phƣơng pháp rút trích đặc trƣng 29 3.3.3 Phƣơng pháp đặc trƣng đề nghị sử dụng 30 3.4 Sử dụng thuật tốn Nạve Bayes để phân loại văn 32 3.4.1 Lý chọn Naïve Bayes 32 3.4.2 Ý tƣởng cơng thức Nạve Bayes 32 3.4.3 Ƣớc lƣợng P(X|Y) 33 3.4.4 Ƣớc lƣợng P(Y) 34 3.4.5 Ƣớc lƣợng P(Y|X) 34 3.5 Ứng dụng Naïve Bayes vào toán phân loại 34 3.5.1 Ý tƣởng 34 3.5.1 Hƣớng dẫn cài đặt 35 CHƢƠNG 4: XÂY DỰNG CHƢƠNG TRÌNH 39 4.1 Xây dựng sở liệu 39 4.1.1 Từ điển tiếng việt 39 4.1.2 Mô tả thực thể 40 4.1 Xây dựng giao diện phân loại văn 47 4.1.1 Lƣu đồ phân loại văn 47 4.1.2 Thiết kế giao diện 48 4.1.3 Xây dựng chức 49 CHƢƠNG 5: THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 54 5.1 Ví dụ chƣơng trình phân loại văn 54 5.2 Đánh giá kết 58 5.2.1 Dữ liệu đầu vào 58 5.2.2 Kết thực nghiệm 59 5.2.3 Đánh giá kết 60 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO Mục lục hình Hình 2.1 Phân chia liệu huấn huyện Hình 2.2 Biểu diễn văn 11 Hình 2.3 Hình Kiến trúc mô đun (Modular Architecture) 15 Hình 2.4 Xây dựng ơtơmát âm tiết 19 Hình 2.5 Xây dựng ơtơmát từ vựng 20 Hình 2.6 Một tình nhập nhằng phân tách từ 21 Hình 3.1 Mơ hình phân loại tài liệu tự động 25 Hình 3.2 Chi tiết giai đoạn huấn luyện 31 Hình 3.3 Mơ tả bƣớc xây dựng phân lớp 35 Hình 4.1 Mơ hình sở liệu 45 Hình 4.2 Lƣu đồ phân loại văn 47 Hình 4.3 Giao diện chƣơng trình 48 Hình 4.4 Huấn luyện văn 49 Hình 4.5 Phân loại văn 50 Hình 4.6 Thơng tin chủ đề 51 Hình 4.7 Thơng tin báo 52 Hình 5.1 Giao diện phân loại văn 54 Hình 5.2 Kết phân tách văn 55 Hình 5.3 Kết dựa vào cơng thức tính trọng số Tf*idf 56 Hình 5.4 Thống kê kết phân loại từ máy 57 Mục lục bảng Bảng 3.1 Bảng phân lớp 38 Bảng 4.1 Thuộc tính thực thể 39 Bảng 4.2 Bảng Chuyên ngành 40 Bảng 4.3 Bảng tài khoản 41 Bảng 4.4 Bảng từ điển 41 Bảng 4.5 Bảng từ phổ thông 42 Bảng 4.6 Bảng từ đƣợc tách 42 Bảng 4.7 Bảng từ chuyên ngành 43 Bảng 4.8 Bảng báo 43 Bảng 4.9 Bảng báo sau phân loại 44 Bảng 4.10 Bảng biến tạm 44 Bảng 4.11 Bảng mối quan hệ thực thể 46 Bảng 4.12 Bảng mối kết hợp thực thể 46 Bảng 5.1 Bảng số liệu xử lý theo ngƣời 58 Bảng 5.2 Bảng kết chƣơng trình phân loại văn tiếng Việt 59 Bảng 5.3 Tỷ lệ(%) phân loại văn 60 CHƢƠNG 1: TỔNG QUAN 1.1 Đặt vấn đề Trong thời đại bùng nổ công nghệ thông tin nay, phƣơng thức sử dụng giấy tờ giao dịch dần đƣợc số hoá chuyển sang dạng văn lƣu trữ máy tính truyền tải mạng Bởi nhiều tính ƣu việt tài liệu số nhƣ: cách lƣu trữ gọn nhẹ, thời gian lƣu trữ lâu dài, tiện dụng trao đổi đặc biệt qua Internet, dễ dàng sửa đổi… nên ngày nay, số lƣợng văn số tăng lên cách chóng mặt đặc biệt world-wide-web Cùng với gia tăng số lƣợng văn bản, nhu cầu tìm kiếm văn tăng theo Với số lƣợng văn đồ sộ việc phân loại văn tự động nhu cầu thiết Tại phải phân loại văn tự động? Việc phân loại văn giúp tìm kiếm thơng tin dễ dàng nhanh chóng nhiều so với việc phải bới tung thứ ổ đĩa lƣu trữ để tìm kiếm thông tin Mặt khác, lƣợng thông tin ngày tăng lên đáng kể, việc phân loại văn tự động giúp ngƣời tiết kiệm đƣợc nhiều thời gian công sức Do vậy, phƣơng pháp phân loại văn tự động đời để phục vụ cho nhu cầu đáng 1.2 Tổng quan tình hình nghiên cứu ngồi nƣớc Cơng tác phân loại đƣợc thƣ viện quan thông tin giới quan tâm Phân loại tài liệu khâu công tác quan trọng giúp cho việc kiểm sốt thƣ mục, góp phần thúc đẩy việc khai thác, trao đổi thông tin phạm vi quốc gia quốc tế Trên giới số thƣ viện lớn Việt Nam, phân loại đƣợc áp dụng sâu rộng việc tổ chức kho mở tra cứu thông tin 1.2.1 Tổng quan giới Theo Yang & Xiu, 1999, “việc phân loại văn tự động việc gán nhãn phân loại lên văn dựa mức độ tƣơng tự văn so với văn đƣợc gán nhãn tập huấn luyện” Từ trƣớc đến nay, phân loại văn tự động tiếng Anh có nhiều cơng trình nghiên cứu đạt đƣợc kết đáng khích lệ Dựa thống kê Yang & Xiu (1999)[6] nghiên cứu chúng em, số phƣơng pháp phân loại thông dụng là: Support Vector Machine -Joachims, 1998[4], k-Nearest Neighbor -Yang, 1994, Linear Least Squares Fit -Yang and Chute, 1994[7] Neural Network -Wiener et al, 1995, Naïve Bayes -Baker and Mccallum, 2000, Centroid- based - Shankar and Karypis, 1998 Các phƣơng pháp dựa vào xác suất thống kê thông tin trọng số từ văn Chi tiết ý tƣởng công thức tính tốn phƣơng pháp đƣợc chúng em trình bày chƣơng 2, mục 2.3 Mỗi phƣơng pháp phân loại văn có cách tính tốn, áp dụng cơng thức khác nhau, nhiên, nhìn cách tổng quan phƣơng pháp phải thực số bƣớc chung nhƣ sau: đầu tiên, phƣơng pháp dựa thông tin xuất từ văn (ví dụ tần số, số văn chứa từ…) để biểu diễn văn thành dạng vector Sau đó, tuỳ phƣơng pháp mà ta áp dụng công thức cách thức tính tốn khác để thực việc phân loại Đối với tiếng Anh, kết lĩnh vực khả quan, tiếng Việt, cơng trình nghiên cứu phân loại văn gần có số kết ban đầu nhƣng nhiều hạn chế Nguyên nhân bƣớc đầu tiên, gặp khó khăn việc xử lý văn để rút tần số xuất từ Trong đó, để phân loại văn nói bƣớc quan trọng bƣớc tách từ sai việc phân loại hầu nhƣ khơng thể thành cơng đƣợc Phần trình bày cho biết thách thức đặt việc tách từ tiếng Việt, nhƣ ứng dụng thú vị 1.2.2 Tổng quan nƣớc Vấn đề phân loại văn tiếng Việt đƣợc nhiều sở nghiên cứu nƣớc quan tâm năm gần Một số cơng trình nghiên cứu đạt đƣợc kết khả quan Các hƣớng tiếp cận toán phân loại văn đƣợc nghiên cứu bao gồm: hƣớng tiếp cận toán phân loại lý thuyết đồ thị[10], cách tiếp cận sử dụng 55 Có thể xem q trình thực chƣơng trình cách vào thƣ mục Đầu tiên chƣơng trình convert văn doc sang file txt, thực trình chứa văn kiểm tra tách từ (xóa từ phổ thơng, ký tự đặc biệt, so khớp từ điển) file txt lƣu lại với temp Sau phân tách từ chƣơng trình tính thơng số cần thiết nhƣ: IDF, wordweight…vảo file Word_Count.temp, Word_Weight.temp để từ xác định chuyên ngành báo Hình 5.2 Kết phân tách văn 56 Hình 5.3 Kết dựa vào cơng thức tính trọng số Tf*idf 57  Kiểm tra kết phân loại báo ta thu đƣợc Hình 5.4 Thống kê kết phân loại từ máy 58 5.2 Đánh giá kết 5.2.1 Dữ liệu đầu vào Gồm tập liệu phân loại đƣợc thu thập đƣợc trƣờng Đại học Khoa Học Tự Nhiên, hội thảo Fair, @ Cần Thơ gồm chuyên đề sau: Bảng 5.1 Bảng số liệu xử lý theo ngƣời Thống kê báo Stt Tập liệu Số lƣợng Các hệ thống tính tốn động 23 Công nghệ đa phƣơng tiện 34 Công nghệ phần mềm 32 Cơ sở tốn học cơng nghệ thông tin 25 Hệ thống thông tin 40 Khoa học máy tính 26 Mạng máy tính truyền thơng 31 Trí tuệ nhân tạo 28 Xử lý ngơn ngữ tự nhiên tiếng nói 42 59 5.2.2 Kết thực nghiệm Đây bảng kết thu đƣợc từ chƣơng trình phân loại Bảng 5.2 Bảng kết chƣơng trình phân loại văn tiếng Việt Kết chƣơng trình Tập liệu Stt Phân loại ngƣời Văn phân loại xác máy Các hệ thống tính tốn động 23 20 Công nghệ đa phƣơng tiện 34 30 Công nghệ phần mềm 32 28 Cơ sở tốn học cơng nghệ thơng tin 25 22 Hệ thống thông tin 40 35 Khoa học máy tính 26 23 Mạng máy tính truyền thơng 31 27 Trí tuệ nhân tạo 28 23 Xử lý ngôn ngữ tự nhiên tiếng nói 42 38 60 5.2.3 Đánh giá kết Sau phân loại so sánh với kết có sẵn ta thu đƣợc kết phần trăm trung bình 87,374% Bảng 5.3 Tỷ lệ(%) phân loại văn Bảng đánh giá kết Tập liệu Stt Văn phân loại ngƣời Các hệ thống tính tốn động 23 Công nghệ đa phƣơng tiện 34 Công nghệ phần mềm 32 Cơ sở tốn học cơng nghệ thông tin 25 Hệ thống thông tin 40 Khoa học máy tính 26 Mạng máy tính truyền thơng 31 Trí tuệ nhân tạo 28 Xử lý ngơn ngữ tự nhiên tiếng nói 42 Phần trăm trung bình Văn phân loại xác 20 30 28 22 35 23 27 23 38 Văn phân loại Tỉ lệ sai (%) chuyên ngành 86.957 88.235 87.5 5 88 87.5 88.462 87.097 82.143 90.476 87.374 Với cách tiếp cận nhƣ trên, toán phân loại văn tiếng Việt đƣợc giải quyết, đặc biệt vấn đề phân loại văn theo chủ đề chuyên ngành công nghệ thông tin Về lý thuyết: Phân loại văn tốn khó thú vị Khó vấn đề phân loại văn cần phải thực xử lý ngôn ngữ, mà nhƣ biết, ngơn ngữ tự nhiên mn hình vạn trạng, không phong phú từ vựng, cú pháp mà phức tạp ngữ nghĩa Nhƣng lại tốn thú vị với ngôn ngữ khác nhau, phải thực cách xử lý khác ngôn ngữ 61 Trong khuôn khổ luận văn này, vấn đề liên quan đến đề tài nhƣ phƣơng pháp tách từ phƣơng pháp phân loại văn đƣợc chúng em tiến hành tìm hiểu Ở giai đoạn tách từ chuẩn bị cho phân loại, chúng em tìm hiểu mơ hình Ngram(2).Kết đạt đƣợc phƣơng pháp hoàn toàn khả quan chấp nhận đƣợc hƣớng tiếp cận cho tách từ tiếng Việt dùng phân loại văn Phƣơng pháp phân loại văn Naïve Bayes thƣờng đƣợc dùng phân loại văn tiếng Anh, đƣợc áp dụng tiếng Việt với hƣớng tiếp cận dựa thống kê từ N-gram Nhờ tính đơn giản, thơng số tính tốn khơng cần q lớn nhƣ phƣơng pháp khác, khả linh hoạt thay đổi thông tin huấn luyện, thời gian phân loại phù hợp yêu cầu, Naïve Bayes tở phù hợp với yêu cầu đề  Về mặt thực nghiệm Cơng trình nghiên cứu luận văn thực đƣợc nhiều thử nghiệm hƣớng tiếp cận tách từ tiếng Việt dựa mô hình N-Gram nhƣ phân loại văn Nhờ vậy, kết thực nghiệm chứng minh đƣợc tính hiệu cho công thức lý thuyết Qua kết thực nghiệm, chúng em nhận thấy công thức tách từ H Nguyen et al, 2005[2] công thức MI cho hiệu gần tƣơng đƣơng nhau, cách tính H Nguyen et al, 2005 xác cho từ có hai tiếng Kết thực nghiệm phần phân loại văn cho thấy công thức phân loại H Nguyen et al, 2005[2] mang tính chủ quan tác giả, liệu thực nghiệm khơng đủ lớn để kết luận Nhƣng áp dụng thử nghiệm số lƣợng văn chủ đề nhiều cách tính cho kết thấp nhiều so với kết mà tác giả trình bày Kết sử dụng cơng thức Nạve Bayes cho kết khả quan nhờ dựa vào lý thuyết đƣợc chứng minh từ cơng trình trƣớc 62 KẾT LUẬN Với yêu cầu đặt việc nắm bắt thuật tốn Nạve Bayes để hiểu cách thức phân loại tài liệu tiếng Việt từ áp dụng vào việc phân loại báo khoa học lĩnh vực Công nghệ thông tin theo chuyên ngành khác dựa việc khảo sát số hội thảo CNTT nƣớc, chƣơng trình đáp ứng đƣợc u cầu Cùng với đó, chƣơng trình cung cấp thêm số chức giúp cho việc thêm sửa xóa, quản lý báo cách dễ dàng thuận tiện Sau thời gian thực đề tài chúng em hồn thành đƣợc cơng việc cụ thể sau: - Xây dựng module tách từ theo mơ hình n-gram - Khảo sát tài liệu thuộc chun ngành Cơng nghệ thơng tin để tìm hiểu đặc trƣng riêng - Tìm hiểu thuật tốn tính trọng số từ áp dụng phƣơng pháp Tf*Idf vào chƣơng trình để xác định từ đặc trƣng chuyên ngành - Xây dựng form huấn luyện cho phép ngƣời dùng huấn luyện văn bản, tạo chuyên ngành có tập liệu chuẩn - Không cho phép thao tác báo mà thao tác tập liệu - Tìm hiểu sơ lƣợc thuật tốn phân loại văn bản, ƣu nhƣợc điểm thuật tốn Nạve Bayes so với thuật tốn khác - Phân tích nội dung thiết lập sở liệu để xây dựng phần mềm - Xây dựng phần mềm phân loại báo khoa học thuộc lĩnh vực Công nghệ thông tin Trong thời gian tới, bên cạnh sử dụng thuật tốn Nạve Bayes để phân loại văn bản, đề tài muốn sử dụng thêm thuật toán khác để so sánh đƣợc độ xác thuật tốn 63 Do nhiều hạn chế thời gian kiến thức, luận văn số vấn đề phải tiếp tục hoàn thiện phát triển thời gian tới nhƣ: - Xây dựng danh sách hồn thiện từ phổ thơng, ký tự đặc biệt nhẳm loại bỏ yếu tố gây nhiễu trình huấn luyện nhƣ phân loại văn - Tiếp tục huấn luyện thêm liệu để từ đặc trƣng chuyên ngành đƣợc xác - Thực thử nghiệm số lƣợng lớn báo chƣa đƣợc phân loại TÀI LIỆU THAM KHẢO Tài liệu tiếng Anh [1]Đinh Đien, Hoang Kiem, Nguyen Van Toan, Vietnamese Word Segmentation The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan, pp.749 -756, 2001 [2]H.Nguyen et al, Internet and Genetics Algorithm-based Text Categorization for Document in Vietnamese, 2005 [3]J.PLATT, Sequential minimal optimization, A fast algorithm for training Support Vector Machines, Microsoft Research, 1998 [4]Joachims, Text Categorization with Support Vector Machines, Learning with Many Relevant Features, In European Conference on Machine Learning (ECML), 1998 [5]Thorsten Joachims, A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization, 1997 [6]Yang and Xin Liu, A re-examination of text categorization methods, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99), 1999 [7]Y Yang and G.Chute, An example-based mapping method for text categorization and retrieval, ACM Transaction on Information Systems(TOIS), 12(3):252-277,1994 Tài liệu tiếng Việt [8]Hồ Quốc Bảo, Đơng Thị Bích Thủy, Ứng dụng xử lý ngơn ngữ tự nhiên tìm kiếm thơng tin văn tiếng việt [9]Nguyễn Ngọc Bình, Dùng lý thuyết tập thơ kỹ thuật khác để phân loại, phân cụm văn tiếng Việt, Kỷ yếu hội thảo ICT.rda’04, Hà nội 2004 [10]Đỗ Bích Diệp, Phân loại văn dựa mơ hình đồ thị, Luận văn cao học, Trƣờng Đại học Tổng hợp New South Wales – Australia, 2004 [11]Đinh Điền, Giáo trình xử lý ngơn ngữ tự nhiên, Đại học Khoa Học Tự Nhiên Tp.HCM, 12/2004 [12]Nguyễn Duy Hải, Nguyễn Linh Giang, Mơ hình thống kê hình vị tiếng Việt ứng dụng, Các cơng trình nghiên cứu, triển khai Công nghệ Thông tin Viễn thông, Tạp chí Bƣu Viễn thơng, số 1, trang 61-67, tháng 7-1999 [13]Hoàng Kiếm, Đỗ Phúc, Phân loại văn dựa cụm từ phổ biến, kỷ yếu hội nghị khoa học lần 2, Trƣờng Đại Học Khoa Học Tự Nhiên [14]Huỳnh Quyết Thắng, Đinh Thị Phƣơng Thu, Tiếp cận phƣơng pháp học khơng giám sát học có giám sát với toán phân lớp văn tiếng Việt đề xuất cải tiến cơng thức tính độ liên quan hai văn mơ hình vector, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005 [15]Đinh Thị Phƣơng Thu, Hoàng Vĩnh Sơn, Huỳnh Quyết Thắng, Phƣơng án xây dựng tập mẫu cho toán phân lớp văn tiếng Việt, nguyên lý, giải thuật, thử nghiệm đánh giá kết quả, Tạp chí Khoa học công nghệ, 2005 Tài liệu Internet [11]http://en.wikipedia.org/wiki/Naive_Bayes_classifier [12]http://www.statsoft.com/textbook/naive-bayes-classifier/ [13]http://en.wikipedia.org/wiki/N-gram Phụ lục Danh sách từ tầm thƣờng (stopword) Hay bạn họ dƣới cần mày tơi sau vừa trƣớc anh trái gồm chị phải bao gồm bên bên trái bên phải vì anh đồng thời chị vài cụ thể tơi mày sau bạn đằng sau bạn đằng trƣớc bên chúng bên dƣới nên nhiều tám chúng tao chí chín mặc kệ chúng mày lúc chúng lúc riêng tơi lúc tao vào lúc thật mày thật dù theo tớ mi dù đủ lúc trƣớc dù trƣớc lúc thuộc trƣớc khoảng nhiên mà khoảng chừng bị cỡ chừng đƣợc mà trời với ôi dù bất chấp nhiều khơng chẳng nên lại cho phải hầu hết mà cho cho vậy năm từ sáu cuối bảy bất cuối trừ hồi nè liên tiếp để tức thế nhƣng tức khắc mà mà hai ba chƣa bốn số thơi qúa mặt thơi tự vân vân hồn tồn nhƣ tiếp đến ví dụ vân vân tiếp tục mãi cịn nghĩa thơi mà làm mà lên nên tức nhƣng tức mặt khác nhƣng mà mà liên tục luôn sẵn sàng ối trời ối lại đâu lẫn phía mƣời

Ngày đăng: 20/06/2023, 15:57

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN