1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tách từ tiếng việt bằng phương pháp so khớp cực đại kết hợp khử nhập nhằng theo ngữ cảnh

67 136 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 1,21 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH TRƯỜNG ĐẠI HỌC VINH o0o -o0o LÊ PHẠM VŨ PHƯƠNG LÊ PHẠM VŨ PHƯƠNG TÁCH TỪ TIẾNG VIỆT BẰNG PHƯƠNG PHÁP SO KHỚP CỰC ĐẠI KẾT HỢP KHỬ NHẬP TÁCH TỪ TIẾNG VIỆT BẰNG PHƯƠNG NHẰNG THEO NGỮ CẢNH PHÁP SO KHỚP CỰC ĐẠI KẾT HỢP KHỬ NHẬP NHẰNG THEO NGỮ CẢNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGHỆ AN, 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH o0o LÊ PHẠM VŨ PHƯƠNG TÁCH TỪ TIẾNG VIỆT BẰNG PHƯƠNG PHÁP SO KHỚP CỰC ĐẠI KẾT HỢP KHỬ NHẬP NHẰNG THEO NGỮ CẢNH Chuyên ngành: Công nghệ thông tin Mã số: 60.48.02.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC TS TRẦN XUÂN SANG NGHỆ AN, 2017 -2- LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi, số liệu kết nghiên cứu nêu luận văn trung thực, đồng tác giả cho phép sử dụng chưa công bố cơng trình khác Tác giả luận văn Lê Phạm Vũ Phương -3- LỜI CẢM ƠN Sau thời gian học Cao học chuyên ngành Công nghệ thông tin trường Đại học Vinh đào tạo, tận tình giảng dạy, bảo kinh nghiệm thầy cô Kết học tập minh chứng lớn dần kiến thức, kinh nghiệm chuyên môn Chúng nghiên cứu thực hành nhiều kiến thức tin học Hôm nay, vận dụng kiến thức kinh nghiệm có vào hoạt động nghiên cứu chuyên sâu thông qua luận văn Để hoàn thành luận văn này, tơi xin bày tỏ lịng biết ơn sâu sắc đến TS Trần Xuân Sang, người quan tâm giúp đỡ định hướng kịp thời vướng mắc trình nghiên cứu tơi Tơi xin gửi lời cảm ơn chân thành đến quý Thầy, Cô khoa Công nghệ thơng tin trường Đại học Vinh tận tình truyền đạt kiến thức quãng thời gian học tập tạo hội cho chúng tơi hồn thành luận văn thời hạn Đồng thời chân thành cảm ơn Ban Giám hiệu hai trường Đại học Vinh Trường Đại học Kinh tế Kĩ Thuật Long An tạo điều kiện cho học tập nghiên cứu Cuối cùng, xin kính chúc q Thầy, Cơ dồi sức khỏe thành công công việc Long An, ngày 24 tháng năm 2017 Tác giả luận văn Lê Phạm Vũ Phương -4- MỤC LỤC LỜI CẢM ƠN - MỤC LỤC - CHÚ THÍCH VIẾT TẮT - DANH MỤC CÁC HÌNH - DANH MỤC CÁC BẢNG - 10 MỞ ĐẦU - 11 CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN TÁCH TỪ TIẾNG VIỆT - 15 1.1 Tổng quan tiếng Việt - 15 1.1.1 Đặc điểm từ tiếng Việt - 15 1.1.2 Tiếng – đơn vị cấu tạo từ - 16 1.1.3 Từ cụm từ - 17 1.1.3.1 Từ - 17 1.1.3.2 Cụm từ - 18 1.2 Những điểm khó xử lí tiếng Việt thuật toán - 19 1.2.1 Xử lí tên riêng tiếng Việt - 20 1.2.2 Xác định ranh giới từ - 20 1.2.3 Xử lí từ nhiều nghĩa từ đồng âm khác nghĩa - 21 1.2.4 Phân biệt từ loại - 22 1.2.5 Nhận diện từ - 23 1.2.6 Nhận diện từ viết sai tả tiếng Việt - 24 1.2.7 Nhận diện từ tiếng Việt không dấu - 24 1.2.8 Xác định từ theo ngữ cảnh - 25 1.3 Kết luận chương - 26 CHƯƠNG 2: PHƯƠNG PHÁP SO KHỚP CỰC ĐẠI TRONG BÀI TOÁN TÁCH TỪ - 27 2.1 Các phương pháp tiếp cận toán tách từ - 27 - -5- 2.1.1 Các phương pháp tiếp cận toán tách từ dựa vào từ điển cố định - 27 - 2.1.2 Các phương pháp tiếp cận toán tách từ dựa vào thống kê - 27 2.1.3 Phương pháp tiếp cận toán tách từ lai kết hợp - 28 2.1.4 Phương pháp tách từ tiếng Việt dựa thống kê từ Internet thuật giải di truyền - 29 2.2 Một số phương pháp tách từ tiếng Việt - 30 2.2.1 Phương pháp TBL - 30 2.2.2 Phương pháp WFST - 32 2.3 So khớp cực đại - 34 2.3.1 So khớp cực đại tiến FMM - 34 2.3.2 So khớp cực đại lùi BMM - 36 2.3.3 So khớp cực đại tiến có cửa sổ WFMM - 37 2.3.4 So khớp cực đại lùi có cửa sổ WBMM - 38 2.3.5 So khớp cực đại với hình thái phức tạp - 38 2.4 Tổng kết chương - 39 CHƯƠNG 3: KHỬ NHẬP NHẰNG RANH GIỚI TỪ THEO NGỮ CẢNH TRONG BÀI TOÁN TÁCH TỪ - 41 3.1 Khái niệm nhập nhằng ranh giới từ tiếng Việt - 41 3.2 Phân loại nhập nhằng ranh giới từ tiếng Việt phương pháp khử - 42 3.2.1 Hiện tượng nhập nhằng tiếng Việt - 42 3.2.1.1 Nhập nhằng chồng lấp OA - 42 3.2.1.2 Nhập nhằng kết hợp CA - 43 3.2.1.3 Phương pháp khử nhập nhằng OA CA theo ranh giới từ - 43 - -6- 3.2.1.4 Khử nhập nhằng OA CA theo ngữ cảnh: - 46 3.2.2 Nhận diện khử nhập nhằng ranh giới tên riêng tiếng Việt - 47 3.3 Tổng kết chương - 49 CHƯƠNG 4: THỬ NGHIỆM VÀ ĐÁNH GIÁ - 50 4.1 Môi trường thử nghiệm - 50 4.1.1 Phần cứng - 50 4.1.2 Công cụ - 50 4.1.3 Mô tả chương trình - 51 4.1.3.1 Mô tả tổng quát - 51 4.1.3.2 Mô tả cụ thể - 51 4.2 Thử nghiệm - 57 4.2.1 Thử nghiệm - 57 4.2.2 Kết thử nghiệm - 57 4.2.3 Thử nghiệm - 58 4.2.4 Kết thử nghiệm - 59 4.2.5 Thử nghiệm - 59 4.2.6 Kết thử nghiệm - 60 4.2.7 Thử nghiệm - 60 4.2.8 Kết thử nghiệm - 61 4.2.9 Thử nghiệm - 61 4.2.10 Kết thử nghiệm - 62 4.1 Tổng kết chương - 62 KẾT LUẬN - 64 TÀI LIỆU THAM KHẢO - 65 - -7- CHÚ THÍCH VIẾT TẮT Kí hiệu Mơ tả AM/AMM So khớp cực đại cải tiến (Advanced Maximum Matching) BM/BMM So khớp cực đại lùi (Backward Maximum Matching) CA Nhập nhằng kết hợp (combination ambiguity) CRF Trường ngẫu nhiên có điều kiện (Conditional Random Field) FM/FMM So khớp cực đại tiến (Forward Maximum Matching) HMM Mơ hình Markov ẩn (Hidden Markov Model) MEM Mơ hình Entropy cực đại (Maximum Entropy Model) MI Độ thông tin tương hỗ (Mutual Information) MM So khớp cực đại (Maximum Matching) NLP Xử lý ngôn ngữ tự nhiên (Natural Language Processing) OA Nhập nhằng chồng lấp (overlapping ambiguity) TBL Học dựa vào biến đổi (Transformation-based learning) WBMM WFMM So khớp cực đại cửa sổ âm tiết lùi (Window Backward Maximum Matching) So khớp cực đại cửa sổ âm tiết tiến (Window Forward Maximum Matching) -8- Các kí hiệu cho phép đo đánh giá độ xác tách từ: Kí hiệu Mơ tả Nm Số lượng đơn vị từ kho mẫu Nt Số lượng đơn vị từ tách Nđ Số lượng đơn vị từ tách R Độ đo hồi tưởng (Recall) P Độ đo xác (Precision) : P = Nđ/Nt F1 Độ đo F1-score : R = Nđ/Nm : F1 = 2RP/(R+P) -9- DANH MỤC CÁC HÌNH Hình 1: Phân loại từ tiếng Việt theo cấu tạo 17 Hình 2: Q trình huấn luyện thuật tốn TBL 31 Hình 3: Mơ tả nhập nhằng chồng lấp OA 41 Hình 4: Mơ tả nhập nhằng chồng lấp OA 41 Hình 5: Mơ tả nhập nhằng kết hợp CA 42 Hình 6: Mơ tả nhập nhằng kết hợp CA 42 Hình 7: Mơ tả tổng qt Chương trình So khớp cực đại tiến cửa sổ âm tiết WFMM 50 Hình 8: Kết tách từ sau lần thử nghiệm WINDOW_SIZE = 59 Hình 9: Kết tách trước sau bổ sung thành ngữ vào từ điển 60 Hình 10: Đánh giá thời gian chạy thuật tốn kích thước cửa sổ 61 - 52 - Đọc tham số INPUT file OUTPUT file truyền vào từ câu lệnh String out = ""; int i = 0; int j = 0; while (j < sentences.length()) { char character = sentences.charAt(j); if (character == '.' || character == ',') { String pharse=sentences.substring(i,j).trim().toLowerCase(); String tokenized = wfmm(pharse, WINDOW_SIZE); out = out + tokenized + SEPERATOR_LINE + character + SEPERATOR_LINE; i = j + 1; } j = j + 1; } System.out.println(out); outToFile(out, outputPath); while (j < sentences.length()) Duyệt qua ký tự đoạn văn input, gặp ký tự dấu “chấm” dấu “phẩy” tách cụm từ để áp dụng thuật tốn WFMM Ví dụ: Phố xá, chợ búa đơng nghịt người “phố xá” tách để áp dụng thuật tốn WFMM Tiếp theo “chợ búa đơng nghịt người” out = out + tokenized + SEPERATOR_LINE + character + SEPERATOR_LINE; Cộng kết xử lý qua thuật tốn WFMM để có output mong muốn ví dụ là: Phố_xá , chợ_búa đông_nghịt người - 53 - Câu lệnh System.out.println(out)là in hình console Câu lệnh outToFile(out, outputPath) ghi kết file Thuật toán trọng tâm public static String wfmm(String phrase, int windowSize) { String[] words = phrase.split(SPACE); int n = words.length; String[] output = new String[n]; int i = 0; while (i < n) { String word = words[i]; output[i] = word; int k = i; int size; if (k + windowSize < n) { size = k + windowSize; } else { size = n; } int j = k + 1; while (j < size) { word = word + " " + words[j]; if (Dictionary.search(word)) { output[k] = word.replace(SPACE, UNDERSCORE); i = j; } j = j + 1; } i = i + 1; } String out = output[0]; i = 1; while (i < n) { if (output[i] != null) { - 54 - out = out + SEPERATOR_LINE + output[i]; } i = i + 1; } return out; } Hàm nhận tham số cụm từ xử lý kích thước cửa sổ (kích thước số từ tối đa tách thành) String[] words = phrase.split(SPACE); tách cụm từ dấu khoảng trắng thành mảng Ví dụ: pharse = phố xá => words = [phố, xá] int n = words.length; n chiều dài mảng (ví dụ 2) String[] output = new String[n]; khởi tạo mảng output có kích cỡ words (2 phần tử) while (i < n) vòng lặp while String word = words[i]; lấy từ thứ i xử lý (ví dụ “phố”) output[i] = word; gán phần tử thứ i output “phố” int size; if (k + windowSize < n) { size = k + windowSize; } else { size = n; } Xác định kích thước cửa sổ, ta gán cửa số có kích thước 3, trường hợp “phố xá” có từ nên đoạn code trả kích thước cửa sổ while (j < size) { word = word + " " + words[j]; if (Dictionary.search(word)) - 55 - { output[k] = word.replace(SPACE, UNDERSCORE); i = j; } j = j + 1; } Như ví dụ cửa sổ nên vòng lặp ta lặp qua từ word = word + " " + words[j]; ghép từ thành cụm từ ví dụ ta có phố = phố + “ ” + xá = phố xá word “phố xá” if (Dictionary.search(word)) tức tìm xem từ “phố xá” có từ điển khơng output[k] = word.replace(SPACE, UNDERSCORE); từ “phố xá” lặp lại thành “phố_xá” gán cho output i = j; “phố” kết hợp với từ “xá” nên i tăng lên để bỏ qua từ “xá” j = j + 1; tăng biến j lên để chuyển tới từ sau từ “phố xá” size nên khỏi vòng while i = i + 1; tăng i lên sau kết hợp từ “phố xá” i thành cộng thêm thành khỏi vịng while lớn ngồi String out = output[0]; i = 1; while (i < n) { if (output[i] != null) { out = out + SEPERATOR_LINE + output[i]; } i = i + 1; } return out; - 56 - Sau từ cho vào mảng output, đoạn code duyệt qua từ mảng output kết in hàng dọc Đối với file Dictionary.java private static String DICTIONARY_FILE = "./src/main/resources/dictionary.dat"; khai báo đường dẫn file từ điển static { try { dictionary = loadDictionary(); Arrays.sort(dictionary); } catch (IOException e) { e.printStackTrace(); } } dictionary = loadDictionary(); đọc file từ điển load vào nhớ Arrays.sort(dictionary); ta sử dụng thuật tốn tìm kiếm nhị phân nên trước tiên ta phải xếp từ điển public static String[] loadDictionary() throws IOException { BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(new File(DICTIONARY_FILE)), "UTF-8")); String word; List dictionary = new ArrayList(); while ((word = in.readLine()) != null) { dictionary.add(word); } in.close(); return dictionary.toArray(new String[0]); } - 57 - BufferedReader in = InputStreamReader(new new BufferedReader(new FileInputStream(new File(DICTIONARY_FILE)), "UTF-8")); Đọc file từ điển load vào nhớ buffer while ((word = in.readLine()) != null) { dictionary.add(word); } Đọc dòng file vào insert vào mảng dictionary public static boolean search(String word) { return Arrays.binarySearch(dictionary, word.toLowerCase()) >= 0; } Hàm tìm kiếm xem từ có từ điển hay khơng, có trả true, ngược lại false 4.2 Thử nghiệm 4.2.1 Thử nghiệm Đo độ xác thuật tốn vừa xây dựng WFMM cách thử nghiệm tách từ nhiều đoạn văn Trong đó, đoạn văn cấu thành đầy đủ yếu tố, lĩnh vực khác trị, văn hóa, khoa học, kỹ thuật, thể thao… Mơ tả: cho tập liệu gồm file Input*.txt sau dùng thuật toán cho file Output*.txt So sánh kết với liệu mẫu tách từ Thử nghiệm với mẫu văn bản, mẫu chứa 1000 từ chưa tách, bao gồm lĩnh vực Chính trị (vietnamnet.vn), Kinh tế (vnexpress.net), Khoa học công nghệ (tintuc.vn) Văn hóa (www.baovanhoa.vn), Truyện ngắn (http://www.truyenngan.com.vn/) 4.2.2 Kết thử nghiệm - 58 - Để đánh giá kết tách từ thuật toán tác giả dựa vào phương pháp đánh giá dựa vào từ Khi đó, ta có số liệu cụ thể sau: Kí hiệu: + N: tổng số từ đoạn văn + Nm: số từ văn mẫu tách từ + Nt: số từ văn kết tách từ + Nđ: số từ tách so với mẫu Đánh giá độ xác kết tách từ so với mẫu theo công thức: + Độ hồi tưởng R (Recall) : R = Nđ/Nm + Độ xác P (Precision) : P = Nđ/Nt + Độ đo F1- measure : F1 = 2RP/(R+P) Trong thống kê phân tích loại nhị phân , F1 score (hay gọi Fscore F-measure) thước đo xác thử nghiệm Nó xem xét độ xác P độ hồi tưởng R thử nghiệm để tính tốn tỷ số F1 score hiểu trung bình có trọng số độ xác hồi tưởng, F1 score đạt giá trị cao thấp Như ta có bảng đánh giá sau: Mẫu N Nm Nt Nđ R P F1 1396 988 1055 918 92.91% 87.01% 89.87% 1413 984 1032 924 93.90% 89.53% 91.67% 1274 972 1015 904 93.00% 89.06% 90.99% 1327 967 1012 917 94.83% 90.61% 92.67% 1237 954 997 909 95.28% 91.17% 93.18% Trung 1329.4 973 1022 914.4 93.99% 89.48% 91.68% bình Bảng 7: Kết tách từ với mơ hình thuật tốn WFMM sau thử nghiệm 4.2.3 Thử nghiệm Cũng dựa cách thực thử nghiệm 1, nhiên file từ điển Dictionary.dat tác giả bổ sung danh mục gồm: - 59 - - 97 tên gọi Sở, ban, ngành, Văn phòng nước - 707 địa danh nước - 20669 danh mục tên người Việt Nam Nâng tổng số từ từ điển lên 92070 từ, cụm từ 4.2.4 Kết thử nghiệm Sau chạy lại với mẫu thử nghiệm thí nghiệm 1, tác giả thu kết sau: N Nm mẫu không thay đổi, nhiên, Nt Nđ thay đổi nên hiệu suất tách từ, F1 mà tác giả thu khả quan: Mẫu N Nm Nt Nđ R P F1 1396 988 1022 927 93.83% 90.70% 92.24% 1413 984 1019 941 95.63% 92.35% 93.96% 1274 972 996 921 94.75% 92.47% 93.60% 1327 967 985 925 95.66% 93.91% 94.77% 1237 954 979 922 96.65% 94.18% 95.40% Trung 1329.4 973 1000 927.2 95.30% 92.72% 93.99% bình Bảng 8: Kết tách từ với mơ hình thuật tốn WFMM sau thử nghiệm 4.2.5 Thử nghiệm Qua thử nghiệm 2, thấy việc kiện toàn từ điển Việt Nam nâng cao hiệu suất tách từ sử dụng So khớp cực đại Tuy nhiên, hiệu suất qua thử nghiệm đạt mức 92,41% Kiểm tra lại Output.txt sau lần thử nghiệm 2, tác giả thấy trình tách từ số từ “Hội đồng nhân dân”, “Văn phịng Chính phủ”, “khủng hoảng kinh tế”, “kim ngạch xuất khẩu”,…vẫn bị tách cửa sổ thuật toán Nhắc lại code: private static final int WINDOW_SIZE = kích thước cửa sổ tìm kiếm, có nghĩa tối đa số từ cụm từ tách Do vậy, q trình tách từ với kích thước cửa sổ - 60 - số từ âm tiết trở lên “hội đồng nhân dân”, “khủng hoảng kinh tế”, “kim ngạch xuất khẩu” bị tách rời, làm cho độ xác tốn chưa cao Do đó, thử nghiệm tác giả tiến hành tăng kích thước cửa sổ lên tiến hành tách từ private static final int WINDOW_SIZE = Kết quả: Hình 8: Kết tách từ sau lần thử nghiệm với WINDOW_SIZE = 4.2.6 Kết thử nghiệm Mẫu N Nm Nt Nđ R P F1 1396 988 1016 933 94.43% 91.83% 93.11% 1413 984 1012 948 96.34% 93.68% 94.99% 1274 972 985 932 95.88% 94.62% 95.25% 1327 967 979 931 96.28% 95.10% 95.68% 1237 954 971 930 97.48% 95.78% 96.62% TB 1329.4 973 992.6 934.8 96.08% 94.20% 95.13% Bảng 9: Kết tách từ với mơ hình thuật toán WFMM sau thử nghiệm 4.2.7 Thử nghiệm Qua khảo sát kết thử nghiệm 3, tác giả nhận thấy số thành ngữ bị tách trình tách từ - 61 - Hình 9: Kết tách trước sau bổ sung thành ngữ vào từ điển Do đó, để nâng cao hiệu suất tách từ, tác giả bổ sung thêm vào từ điển 560 câu thành ngữ (tham khảo https://vi.wikiquote.org/wiki/Thành ngữ Việt Nam), kích thước cửa sổ tiến thử nghiệm tách từ 4.2.8 Kết thử nghiệm Mẫu N Nm Nt Nđ R P F1 1396 988 1008 941 95.24% 93.35% 94.29% 1413 984 1003 957 97.26% 95.41% 96.33% 1274 972 979 938 96.50% 95.81% 96.16% 1327 967 971 939 97.10% 96.70% 96.90% 1237 954 966 935 98.01% 96.79% 97.40% Trung 1329.4 973 985.4 942 96.82% 95.61% 96.21% bình Bảng 10: Kết tách từ với mơ hình thuật tốn WFMM sau thử nghiệm 4.2.9 Thử nghiệm Việc tăng, giảm kích thước cửa sổ tìm kiếm ảnh hưởng đến kết tách từ thuật toán (như thử nghiệm 3) Tuy nhiên, tăng số lượng kích thước cửa sổ tìm kiếm đạt kết tốt Kết tách từ phương pháp So khớp cực đại tùy thuộc vào độ phức tạp thuật tốn, thời gian thực chương trình Ở thí nghiệm này, tác giả dùng mẫu văn tách thực tăng dần kích thước cửa sổ tìm kiếm thuật tốn để đánh giá thời gian thực thuật toán thực 10 lần - 62 - 4.2.10 Kết thử nghiệm Kích thước Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần 10 TB 10 1.437 1.613 1.544 1.643 1.536 1.533 1.69 1.582 1.584 1.682 1.5844 1.764 2.036 1.771 1.793 1.929 1.828 1.798 1.867 2.081 2.018 1.8885 2.102 1.814 2.155 1.774 1.78 1.958 1.919 1.851 1.736 1.92 1.9009 1.761 1.99 2.138 2.064 2.011 1.831 1.893 2.012 1.917 2.014 1.9631 1.916 1.902 2.154 1.92 1.914 1.807 2.196 2.017 1.981 1.934 1.9741 2.254 2.048 1.966 2.089 2.199 1.979 2.254 1.932 2.069 1.994 2.0784 2.085 1.934 2.066 2.944 2.06 2.001 2.105 2.103 1.964 2.081 2.1343 2.004 2.592 2.137 2.087 1.925 2.152 2.059 2.313 2.183 1.981 2.1433 2.696 2.267 2.119 2.142 2.382 2.101 2.177 2.255 2.381 2.154 2.2674 2.412 2.357 2.291 2.181 2.225 2.434 2.447 2.415 2.177 2.376 2.3315 Bảng 11 Bảng thời gian thực thuật tốn theo kích thước cửa sổ tăng dần (đơn vị tính: giây) Thời gian trung bình (giây) 2.5 1.5 Thời gian trung bình (giây) 0.5 Kích Kích Kích Kích Kích Kích Kích Kích Kích Kích thước thước thước thước thước thước thước thước thước thước 10 Hình 10: Đánh giá thời gian chạy thuật tốn kích thước cửa sổ 4.1 Tổng kết chương Khi thực so sánh với công cụ tách từ WFMM với từ điển từ vựng, liệu bổ sung thử nghiệm, mơ hình tách từ WFMM mà luận văn lập trình thực cho kết thử nghiệm đạt độ đo F1-score 96,21% Tuy chưa cao so với thuật toán mà nhà nghiên cứu trước đó, nhiên hiệu suất tách từ cao với thời gian tách từ ngắn so với thuật toán khác Đây điều đáng khích lệ thuật tốn - 63 - Chương trình mà tác giả lập trình cịn thơ sơ, nhiên, hiệu đem lại cao, hướng mở rộng thành phần mềm tách từ với độ xác cao tốc độ nhanh dần hình Hy vọng thời gian tới tác giả nghiên cứu cho sản phẩm, mơ hình hồn chỉnh với độ xác tách từ cao hồn thiện - 64 - KẾT LUẬN Qua bốn chương Luận văn, tác giả khái quát điều thuật toán tách từ, công cụ tách từ, đặc điểm từ tiếng Việt làm cho thuật toán tách từ, đặc biệt thuật toán So khớp cực đại Thuật toán So khớp cực đại dễ hiểu, dễ sử dụng, tốc độ xử lý nhanh, dễ cài đặt Tuy nhiên, So khớp cực đại rắc rối việc xử lý nhập nhằng, nhập nhằng ngữ cảnh Song song đó, tác giả muốn giới thiệu cách rõ nét thuật toán So khớp cực đại nhập nhằng việc xử lý tiếng Việt, đồng thời, tác giả muốn đưa số biện pháp xử lý nhập nhằng, xử lý nhập nhằng theo ngữ cảnh tiếng Việt Với thời gian thực không nhiều, vấn đề nghiên cứu rộng, đó, tác giả sâu vào thuật toán, đồng thời thử nghiệm số công cụ tách từ để làm cho việc so sánh, đối chiếu kết Có thể, q trình nghiên cứu khơng tránh khỏi thiếu sót, mong thời gian tới, tác giả nhận phản hồi tích cực từ phía độc giả để thuật tốn ngày hồn thiện Trân trọng cảm ơn kính chào! - 65 - TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng Việt [1] Bộ Giáo dục Đào tạo (1984), Quy định tả tiếng Việt thuật ngữ tiếng Việt, Quy định số 240/QĐ [2] Diệp Quang Ban, Hoàng Văn Thung (2006), Ngữ pháp tiếng Việt, Tập 1&2, NXBGD [3] Đào Thanh Tĩnh, Trần Ngọc Anh (2006), “Về toán kiểm lỗi tả tiếng Việt máy tính”, Tạp chí Khoa học Kỹ thuật, Học viện Kỹ thuật Quân sự, số 116, 2006, tr 29-40 [4] Hồng Cơng Duy Vũ, Nguyễn Lê Nguyên, Đinh Điền, Ngô Quốc Hưng (2007), "Ứng dụng thuật toán So khớp cực đại chế véctơ hỗ trợ toán tách từ tiếng Việt" [5] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003),"Tách từ từ điển Gán nhãn từ loại xác suất", Kỷ yếu hội thảo quốc gia ICT.RDA, 2003 [6] Nguyễn Thiện Giáp (2011), Vấn đề “Từ” tiếng Việt, NXB GDVN, 254 tr [7] Trần Ngọc Anh (2016), "Nghiên cứu phát triển số kỹ thuật tách từ tiếng việt" , Luận án tiến sĩ toán học, Học viện kỹ thuật Quân sự, BQP Tài liệu tham khảo tiếng Anh [8] Chih-Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm http://technology.chtsai.org/mmseg/ [9] Dang Duc Pham, Giang Binh Tran, Son Bao Pham (2007), "A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags", KSE 2009 - The 1st International Conference on Knowledge and Systems Engineering, pp.154-161 [10] Dinh Dien, Hoang Kiem, Nguyen Van Toan “Vietnamese Word Segmentation” The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan, 11/2001 pp 749 -756 [11] Eric Brill (1993), Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging, The Johns Hopkins University - 66 - [12] Ha Le An (2003), "A Method for Word Segmentation in Vietnamese", Proceedings of the Corpus Linguistics 2003 Conference, Lancaster, UK, pp 282-287 [13] Hai Zhao and Chunyu Kit (2007), "Incorporating Global Information into Supervised Learning for Chinese Word Segmentation", Proceedings of the 10th Conference of the Pacific Association for Computational Linguistics, pp 66-74 [14] Hung Nguyen, Thanh V.Nguyen, Hoang K.Tran, Thanh T.T.Nguyen (2006), "Word Segmentation for Vietnamese Text Categorization: An online corpus approach", RIVF2006, the 4th International Conference on Computer Sciences [15] Md Aminul Islam, Diana Inkpen, and Iluju Kiringa (2007), "A Generalized Approach to Word Segmentation Using Maximum Length Descending Frequency and Entropy Rate", Proceeding CICLing '07 Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Text, pp 175 - 185 [16] Phuong L.H., Huyen N.T.M., Roussanaly A., Vinh H.T (2008), "A Hybrid Approach to Word Segmentation of Vietnamese Texts", Proc of the 2nd International Conference on Language and Automata Theory and Applications, Springer LNCS 5196, Tarragona, Spain ... ? ?Tách từ tiếng Việt phương pháp So khớp cực đại kết hợp khử nhập nhằng theo ngữ cảnh? ?? Mục tiêu nghiên cứu 2.1 Mục tiêu tổng quát Nghiên cứu phương pháp So khớp cực đại kết hợp với khử nhập nhằng theo. .. tách từ tách từ tiếng Việt phương pháp tiếp cận toán tách từ Đặc điểm từ tiếng Việt, nhập nhằng ranh giới từ, nhập nhằng theo ngữ cảnh tiếng Việt Lập trình, chạy thử nghiệm phương pháp So khớp cực. .. đặc điểm từ tiếng Việt tiếng, từ đơn, từ ghép, từ láy, Qua đó, nghiên cứu nhập nhằng tiếng Việt phương pháp tách từ - Nghiên cứu sâu phương pháp So khớp cực đại ứng dụng để tách từ tiếng Việt -

Ngày đăng: 10/02/2021, 21:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Bộ Giáo dục và Đào tạo (1984), Quy định về chính tả tiếng Việt và về thuật ngữ tiếng Việt, Quy định số 240/QĐ Sách, tạp chí
Tiêu đề: Quy định về chính tả tiếng Việt và về thuật ngữ tiếng Việt
Tác giả: Bộ Giáo dục và Đào tạo
Năm: 1984
[3] Đào Thanh Tĩnh, Trần Ngọc Anh (2006), “Về bài toán kiểm lỗi chính tả tiếng Việt trên máy tính”, Tạp chí Khoa học và Kỹ thuật, Học viện Kỹ thuật Quân sự, số 116, 2006, tr. 29-40 Sách, tạp chí
Tiêu đề: “Về bài toán kiểm lỗi chính tả tiếng Việt trên máy tính”
Tác giả: Đào Thanh Tĩnh, Trần Ngọc Anh
Năm: 2006
[5] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003),"Tách từ bằng từ điển và Gán nhãn từ loại bằng xác suất", Kỷ yếu hội thảo quốc gia ICT.RDA, 2003 Sách, tạp chí
Tiêu đề: Tách từ bằng từ điển và Gán nhãn từ loại bằng xác suất
Tác giả: Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương
Năm: 2003
[7] Trần Ngọc Anh (2016), "Nghiên cứu phát triển một số kỹ thuật tách từ tiếng việt" , Luận án tiến sĩ toán học, Học viện kỹ thuật Quân sự, BQP . Tài liệu tham khảo tiếng Anh Sách, tạp chí
Tiêu đề: Nghiên cứu phát triển một số kỹ thuật tách từ tiếng việt
Tác giả: Trần Ngọc Anh
Năm: 2016
[8] Chih-Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm. http://technology.chtsai.org/mmseg/ Sách, tạp chí
Tiêu đề: MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm
[9] Dang Duc Pham, Giang Binh Tran, Son Bao Pham (2007), "A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags", KSE 2009 - The 1st International Conference on Knowledge and Systems Engineering, pp.154-161 Sách, tạp chí
Tiêu đề: A Hybrid Approach to Vietnamese Word Segmentation using Part of Speech tags
Tác giả: Dang Duc Pham, Giang Binh Tran, Son Bao Pham
Năm: 2007
[10] Dinh Dien, Hoang Kiem, Nguyen Van Toan. “Vietnamese Word Segmentation”. The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan, 11/2001. pp. 749 -756 Sách, tạp chí
Tiêu đề: “Vietnamese Word Segmentation”
[11] Eric Brill (1993), Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging, The Johns Hopkins University Sách, tạp chí
Tiêu đề: Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging
Tác giả: Eric Brill
Năm: 1993
[12] Ha Le An (2003), "A Method for Word Segmentation in Vietnamese", Proceedings of the Corpus Linguistics 2003 Conference, Lancaster, UK, pp. 282-287 Sách, tạp chí
Tiêu đề: A Method for Word Segmentation in Vietnamese
Tác giả: Ha Le An
Năm: 2003
[13] Hai Zhao and Chunyu Kit (2007), "Incorporating Global Information into Supervised Learning for Chinese Word Segmentation", Proceedings of the 10th Conference of the Pacific Association for Computational Linguistics, pp. 66-74 Sách, tạp chí
Tiêu đề: Incorporating Global Information into Supervised Learning for Chinese Word Segmentation
Tác giả: Hai Zhao and Chunyu Kit
Năm: 2007
[14] Hung Nguyen, Thanh V.Nguyen, Hoang K.Tran, Thanh T.T.Nguyen (2006), "Word Segmentation for Vietnamese Text Categorization: An online corpus approach", RIVF2006, the 4th International Conference on Computer Sciences Sách, tạp chí
Tiêu đề: Word Segmentation for Vietnamese Text Categorization: An online corpus approach
Tác giả: Hung Nguyen, Thanh V.Nguyen, Hoang K.Tran, Thanh T.T.Nguyen
Năm: 2006
[15] Md. Aminul Islam, Diana Inkpen, and Iluju Kiringa (2007), "A Generalized Approach to Word Segmentation Using Maximum Length Descending Frequency and Entropy Rate", Proceeding CICLing '07 Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Text, pp. 175 - 185 Sách, tạp chí
Tiêu đề: A Generalized Approach to Word Segmentation Using Maximum Length Descending Frequency and Entropy Rate
Tác giả: Md. Aminul Islam, Diana Inkpen, and Iluju Kiringa
Năm: 2007
[16] Phuong L.H., Huyen N.T.M., Roussanaly A., Vinh H.T. (2008), "A Hybrid Approach to Word Segmentation of Vietnamese Texts", Proc. of the 2nd International Conference on Language and Automata Theory and Applications, Springer LNCS 5196, Tarragona, Spain Sách, tạp chí
Tiêu đề: A Hybrid Approach to Word Segmentation of Vietnamese Texts
Tác giả: Phuong L.H., Huyen N.T.M., Roussanaly A., Vinh H.T
Năm: 2008
[4] Hoàng Công Duy Vũ, Nguyễn Lê Nguyên, Đinh Điền, Ngô Quốc Hưng (2007), "Ứng dụng thuật toán So khớp cực đại và cơ chế véctơ hỗ trợ trong bài toán tách từ tiếng Việt&#34 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w