Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 38 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
38
Dung lượng
824,5 KB
Nội dung
005.3 TRƢỜNG ĐẠI HỌC VINH KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN THỊ PHƢƠNG BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Đề tài: TỔNG QUAN VỀ BÀI TOÁN TÁCH TỪ TRONG VĂN BẢN TIẾNG VIỆT Nghệ An, tháng 12 năm 2014 Đồ án tốt nghiệp Đại học TRƢỜNG ĐẠI HỌC VINH KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Đề tài: TỔNG QUAN VỀ BÀI TOÁN TÁCH TỪ TRONG VĂN BẢN TIẾNG VIỆT Giảng viên hướng dẫn: ThS Nguyễn Thị Uyên Sinh viên thực hiện:Nguyễn Thị Phương Mã số sinh viên: 1051070449 Lớp: 51K2- CNTT Nghệ An, tháng 12 năm 2014 SVTH: Nguyễn Thị Phương _51K2 CNTT ii Đồ án tốt nghiệp Đại học MỤC LỤC LỜI MỞ ĐẦU 1 Cơ sở thực tiễn khoa học đề tài .1 Lịch sử nghiên cứu đề tài Mục tiêu đóng góp đề tài .1 Cấu trúc đề tài .2 CHƢƠNG TỔNG QUAN VỀ BÀI TOÁN TÁCH TỪ TIẾNG VIỆT 1.1 Bài toán tách từ tiếng Việt .3 1.1.1 Khái quát tiếng Việt 1.1.2 Khái quát toán tách từ tiếng Việt .5 1.2 Các hƣớng tiếp cận toán 1.2.1 Phƣơng pháp tiếp cận dựa từ 1.2.2 Phƣơng pháp tiếp cận dựa ký tự (tiếng) 1.3 Mô hình N-gram 1.3.1 Khái quát .8 1.3.2 Các mơ hình ngơn ngữ CHƢƠNG TÌM HIỂU MỘT SỐ PHƢƠNG PHÁP TÁCH TỪ TIẾNG VIỆT .11 2.1 Tìm hiểu số nhập nhằng tách từ .11 2.1.1 Định nghĩa 11 2.1.2 Một số loại nhập nhằng 11 2.2 Một số phƣơng pháp tách từ 12 2.2.1 Sử dụng phƣơng pháp so khớp cực đại (Longest Matching) .12 2.2.2 Học dựa cải biến (Transformation-based Learning – TBL) 13 2.2.3 Phƣơng pháp tách từ WFST (Weighted Finite State Transducer – WFST) mạng Neural .15 2.2.4 Phƣơng pháp lai kết hợp Longest Maching ứng dụng 17 2.2.5 Sử dụng thống kê Internet vào tách từ 18 CHƢƠNG CHƢƠNG TRÌNH ỨNG DỤNG BÀI TOÁN TÁCH TỪ BẰNG PHƢƠNG PHÁP SO KHỚP CỰC ĐẠI 20 3.1 Phƣơng pháp làm .20 SVTH: Nguyễn Thị Phương _51K2 CNTT i Đồ án tốt nghiệp Đại học 3.1.1 Phân tích tốn .20 3.1.2 Xây dựng thuật tốn, viết chƣơng trình 20 3.1.3 Một số ví dụ minh họa 20 3.2 Cách làm toán 20 3.2.1 Phân tích tốn .20 3.2.2 Ý tƣởng phƣơng pháp 21 3.2.3 Thuật toán 21 3.2.3 Thử nghiệm 29 3.2.4 Kết 30 TÀI LIỆU THAM KHẢO 31 SVTH: Nguyễn Thị Phương _51K2 CNTT ii Đồ án tốt nghiệp Đại học DANH MỤC CÁC BẢNG Bảng 1.1 Cấu trúc thành phần Bảng 1.2 Cấu trúc thành phần Bảng 1.3 Các thành phần âm tiết Bảng 2.1 Ví dụ nhập nhằng giới từ tiếng Anh tiếng Việt .11 DANH MỤC CÁC HÌNH Hình 3.1 Từ điển tiếng Việt 20 Hình 3.2 Tách thành từ đơn 23 Hình 3.3 Tách từ ghép 24 Hình 3.4 Ví dụ tách từ 27 Hình 3.5 Tạo button nhập lại .28 Hình 3.6 Tạo button khỏi chƣơng trình 29 SVTH: Nguyễn Thị Phương _51K2 CNTT iii Đồ án tốt nghiệp Đại học LỜI MỞ ĐẦU Cơ sở thực tiễn khoa học đề tài Bài toán tách từ tiếng Việt tốn bản, quan trọng xử lý ngơn ngữ tiếng Việt đƣợc nhiều nhà khoa học giới quan tâm nghiên cứu suốt nhiều năm qua Một số ứng dụng tách từ Xử lý ngôn ngữ tự nhiên nhƣ kiểm tra sửa lỗi văn bản[1] Bài toán tách từ tiếng Việt toán bản, quan trọng xử lý ngơn ngữ tiếng Việt Về mặt hình thức, từ tiếng Việt đƣợc cấu tạo hay nhiều âm tiết ghép lại Mặt khác ranh giới nghĩa từ cịn tuỳ thuộc vào ngữ cảnh nó, phụ thuộc vào từ đứng trƣớc, đứng sau Vì việc xác định ranh giới từ thách thức, đặc biệt xử lý nhập nhằng ngôn ngữ tiếng Việt Lịch sử nghiên cứu đề tài Bài tốn tách từ cho ngơn ngữ nhƣ tiếng Anh, tiếng Nhật, tiếng Hoa đƣợc nhiều nhà nghiên cứu giới nghiên cứu nhiều năm qua Tuy nhiên toán tách từ tiếng Việt chƣa đƣợc tìm hiểu nghiên cứu nhiều Do đặc thù phức tạp đa dạng ngôn ngữ tiếng Việt nên nhiều nghiên cứu chƣa áp dụng đƣợc thực tế độ xác chƣa cao Vì đề tài em kế thừa thành tựa nghiên cứu để xây dựng thử nghiệm chƣơng trình ứng dụng tốn tách từ phƣơng pháp so khớp cực đại Mục tiêu đóng góp đề tài Khi thực đề tài em đề số mục tiêu nhƣ sau - Tìm hiểu tổng quan tốn tách từ tiếng Việt - Tìm hiểu phƣơng pháp tách từ tiếng Việt - Xây dựng chƣơng trình ứng dụng toán tách từ phƣơng pháp so khớp cực đại SVTH: Nguyễn Thị Phương _51K2 CNTT Đồ án tốt nghiệp Đại học Cấu trúc đề tài Đề tài bao gồm nội dung sau: Chƣơng 1: Tổng quan toán tách từ tiếng Việt Chƣơng 2: Một số phƣơng pháp tách từ tiếng Việt Chƣơng 3: Chƣơng trình ứng dựng tách từ phƣơng pháp so khớp cực đại Kết luận kiến nghị Trong thời gian làm đồ án, em cố gắng nhiều song kiến thức hạn chế, thời gian nghiên cứu đề tài cịn có hạn Em mong nhận đƣợc phê bình, ý kiến đóng góp chân thành thầy cô bạn để đồ án đƣợc hoàn thiện Em xin gửi lời cảm ơn chân thành đến thầy cô giáo khoa, c bit em xin gửi lời cảm ơn sâu sắc đến cụ giỏo ThS Nguyn Th Uyờn ó tn tình hƣớng dẫn cho em suèt thêi gian thùc đề tài v cm n cỏc bn lp giúp đỡ trình làm đồ án SVTH: Nguyễn Thị Phương _51K2 CNTT Đồ án tốt nghiệp Đại học CHƢƠNG TỔNG QUAN VỀ BÀI TOÁN TÁCH TỪ TIẾNG VIỆT 1.1 Bài toán tách từ tiếng Việt 1.1.1 Khái quát tiếng Việt 1.1.1.1 Định nghĩa Tiếng Việt thuộc ngôn ngữ đơn lập, tức tiếng âm tiết đƣợc phát âm tách rời đƣợc thể chữ viết Đặc điểm thể r rệt tất mặt ngữ âm, từ vựng, ngữ pháp 1.1.1.2 Đặc Điểm Tiếng Việt 1.1.1.2.1 Đặc điểm tiếng (Âm tiết) Âm tiết đơn vị phát âm tự nhiên nhỏ ngôn ngữ Trong tiếng Việt, âm tiết đƣợc phát với điệu, viết đƣợc tách rời với âm tiết khác khoảng cách trống Trên chữ viết, âm tiết tiếng Việt đƣợc ghi thành “chữ” đọc thành “tiếng”[2] Có nhiều cách mơ tả cấu trúc âm tiết tiếng Việt khác nhau: thành phần, hay thành phần khác Bảng 1.1 Cấu trúc thành phần < Thanh Điệu > [ Phụ Âm] < Vần > Bảng 1.2 Cấu trúc thành phần < Thanh Điệu > Vần [Âm Đầu] [ Âm Đệm ] [ Âm Chính ] [ Âm Cuối ] Chú Thích: - Các thành phần dấu “” bắt buộc - Các thành phần dấu “[]” không bắt buộc - Thanh ngang khơng đƣợc viết đƣợc tính dấu SVTH: Nguyễn Thị Phương _51K2 CNTT Đồ án tốt nghiệp Đại học Bảng 1.3 Các thành phần âm tiết Phụ âm đầu b c d đ g h k l m n q r s t v x ch gh gi kh ng nh ph qu th tr ngh a ă â e ê i o ô u ƣ y iê ƣơ oe au ua ƣa ƣu âu uâ ia ui ƣi iu oi Nguyên âm ôi ay ây uy uô uâ oa oă ao eo uêuya ƣơi uyê iêu oai oay uây uôi ƣơu Phụ âm cuối c p t m n ch ng nh Thanh điệu Ngang, huyền, hỏi, sắc, nặng, ngã 1.1.1.2.2 Đặc điểm từ a Định nghĩa Từ đơn vị ngơn ngữ, tách khỏi đơn vị khác lời nói để vận dụng cách độc lập khối hoàn chỉnh mặt ý nghĩa cấu tạo Từ ngơn ngữ có nghĩa hồn chỉnh.Từ tiếng Việt bao gồm hay nhiều âm tiết xếp theo thứ tự định Từ tiếng Việt có khả hoạt động tự độc lập mặt cú pháp.Từ tiếng Việt khơng có biến dạng (số nhiều,ngôi thứ,bị động… nhƣ nhiều ngôn ngữ khác[2] b Các loại từ + Từ đơn Từ đơn loại từ tiếng có nghĩa tạo thành Ví dụ: Ngày, tháng, năm, ăn, mặc, đẹp, xấu, + Từ ghép Từ ghép loại từ gồm hai, ba bốn tiếng ghép lại tạo thành ý nghĩa chung Ví dụ: Nhà cửa, học sinh, vi sinh vật, học sinh giỏi,… Có kiểu từ ghép: + Từ ghép có nghĩa phân loại: Là từ ghép mà quan hệ từ đơn tạo thành có quan hệ phụ(phụ nghĩa)nghĩa cụ thể Ví dụ: Xe máy, bút chì, trắng ngà,… SVTH: Nguyễn Thị Phương _51K2 CNTT Đồ án tốt nghiệp Đại học + Từ ghép có nghĩa tổng hợp: Là từ ghép mà quan hệ từ đơn tạo thành có quan hệ song song (hợp nghĩa) nghĩa khái quát nghĩa tiếng Ví dụ: Ăn uống, quần áo, nhà cửa,… *Từ láy Từ láy từ gồm hai hay nhiều tiếng có phận tiếng tồn tiếng đƣợc lặp lại Ví dụ: Long lanh, xinh xinh, lung linh, lanh lảnh,… Tiếng Việt có kiểu từ láy: + Láy âm: Bộ phận âm đầu tiếng trƣớc đƣợc láy lại (lặp lại) phận âm đầu tiếng sau Ví dụ: Đậm đà, long lanh, vội vàng + Láy vần: Bộ phận vần tiếng trƣớc đƣợc láy lại (lặp lại) phận vần tiếng sau Ví dụ: Bát ngát, lống thống,… + Láy âm vần: Bộ phận âm đầu vần tiếng trƣớc đƣợc láy lại (lặp lại) phận âm đầu vần tiếng sau Ví dụ: Chầm chậm, trăng trắng, đo đỏ, lành lạnh,… + Láy tiếng: Tiếng trƣớc đƣợc láy lại (lặp lại) tiếng sau Ví dụ: Xinh xinh, hây hây, lánh lánh, ào,… 1.1.1.2.3 Đặc điểm câu Câu từ hợp thành theo quy tắc định.Trong tiếng Việt quy tắc đa dạng 1.1.2 Khái quát toán tách từ tiếng Việt 1.1.2.1 Khái niệm Tách từ trình xử lý nhằm mục đích xác định ranh giới từ câu văn, hiểu đơn giản tách từ trình xác định từ đơn, từ ghép… có câu Đối với xử lý ngơn ngữ, để xác định cấu trúc ngữ pháp SVTH: Nguyễn Thị Phương _51K2 CNTT Đồ án tốt nghiệp Đại học 2.2.5.2 Ƣu điểm hạn chế phƣơng pháp - Ƣu điểm: + Linh hoạt, đạt kết khả quan + Không cần dựa vào từ điển + Tận dụng đƣợc kết search engine để xây dựng MI thay cho trình học máy thống kê tần suất liệu từ nguồn liệu ban đầu + Một ƣu điểm bật nhận biết đƣợc tên riêng, địa danh… từ thƣờng khơng có từ điển + Khả đốn nhận đƣợc từ cao - Nhƣợc điểm: + Kết qủa phụ thuộc vào search engine nên đơi khơng xác + Nếu khơng có xử lý thêm trƣờng hợp nhập nhằng chƣa đƣợc giải + Phải thƣờng xuyên request internet nên để tích luỹ đƣợc tập học đáng kể lƣu trữ MI nhiều thời gian SVTH: Nguyễn Thị Phương _51K2 CNTT 19 Đồ án tốt nghiệp Đại học CHƢƠNG CHƢƠNG TRÌNH ỨNG DỤNG BÀI TỐN TÁCH TỪ BẰNG PHƢƠNG PHÁP SO KHỚP CỰC ĐẠI 3.1 Phƣơng pháp làm 3.1.1 Phân tích tốn - Xác định input, output toán - Các yêu cầu toán 3.1.2 Xây dựng thuật toán, viết chƣơng trình 3.1.3 Một số ví dụ minh họa 3.2 Cách làm tốn 3.2.1 Phân tích tốn - Xác định input, output: + Input:- Bộ từ điển bao gồm từ thƣờng dùng có ý nghĩa Hình 3.1 Từ điển tiếng Việt + Output: Là câu tiếng Việt đƣợc tách thành từ có nghĩa theo phƣơng pháp so khớp cực đại SVTH: Nguyễn Thị Phương _51K2 CNTT 20 Đồ án tốt nghiệp Đại học 3.2.2 Ý tƣởng phƣơng pháp Ý tƣởng: + Duyệt câu từ trái qua phải + Lần lƣợt duyệt chuỗi tiếng kiểm tra xem có phải từ hay khơng + So khớp với từ điển tìm từ có độ dài lớn + Tiếp tục làm nhƣ với chuỗi lại câu hết câu 3.2.3 Thuật toán Bƣớc Đếm số từ *Cài đặt thuật toán nhƣ sau: protected int demsotu() { int n = 0; string s = txtNhap.Text.Trim(); for (int i = 0; i < s.Length - 1; i++) if ((s.Substring(i, 1) == " ") && (s.Substring(i + 1, 1) != " ")) n++; if (s.Length > 0) n++; return n; } Bƣớc 2: Đếm số lần xuất *Cài đặt thuật toán nhƣ sau: protected float demsolanxh(string ss) { int d = 0; StreamReader x3 = new StreamReader("Tudientiengviet.txt"); SVTH: Nguyễn Thị Phương _51K2 CNTT 21 Đồ án tốt nghiệp Đại học string line3 = x3.ReadLine(); while (line3 != null) { if (ss.Equals(line3.ToLower())) { d++; } line3 = x3.ReadLine(); } return d; } Bƣớc 3: Tách từ đơn private void button2_Click(object sender, EventArgs e) { listBox1.Items.Clear(); string CauCanTach = txtNhap.Text.ToLower(); string[] tudon = CauCanTach.Split(' '); for (int i = 0; i < tudon.Length; i++) { if (tudon[i] != "")//xu ly tu rong { listBox1.Items.Add(tudon[i].Trim()); } } } SVTH: Nguyễn Thị Phương _51K2 CNTT 22 Đồ án tốt nghiệp Đại học Hình 3.2 Tách thành từ đơn Bƣớc 4: Tách từ đâu tiên *Cài đặt thuật toán nhƣ sau: private void tachtudau() { txttachtu.Items.Clear(); string s = txtNhap.Text.ToLower(); string[] words = s.Split(' '); string SS = ""; SS = words[0]; txttachtu.Items.Add(SS); } SVTH: Nguyễn Thị Phương _51K2 CNTT 23 Đồ án tốt nghiệp Đại học Bƣớc 5: Tách từ ghép có độ dài âm tiết private void button1_Click(object sender, EventArgs e) { tachtudau(); string s = txtNhap.Text.ToLower(); string[] words = s.Split(' '); string SS = ""; for (int i = 0; i < demsotu()-1; i++) { SS = words[i]; SS = SS + " " + words[i + 1]; txttachtu.Items.Add(SS); } } Hình 3.3 Tách từ ghép SVTH: Nguyễn Thị Phương _51K2 CNTT 24 Đồ án tốt nghiệp Đại học Bƣớc 6: private bool ChuaTu(string s) private bool ChuaTu(string s) { bool kt = false; for (int i = 0; i < txttachtu.Items.Count; i++) { if (txttachtu.Items[i].ToString() == s) { kt = true; } } return kt; } Bƣớc 7: Tạo button để tách từ private void button3_Click(object sender, EventArgs e) { string s1, s2, s3, s4, s5; s5 = ""; StreamReader x3 = new StreamReader("Tudientiengviet.txt"); while (listBox1.Items.Count > 0) {s1 = ""; s2 = ""; s3 = ""; s4 = ""; if (listBox1.Items.Count >= 4) {s4 = listBox1.Items[0].ToString() + " " + listBox1.Items[1].ToString() + " " + listBox1.Items[2].ToString() + " " + listBox1.Items[3].ToString(); if (ChuaTu(s4)) {s5 = s5 + s4 + " | "; for (int i = 0; i < 4; i++) {listBox1.Items.RemoveAt(0); SVTH: Nguyễn Thị Phương _51K2 CNTT 25 Đồ án tốt nghiệp Đại học } } } if (ChuaTu(s3)) continue; if (listBox1.Items.Count >= 2) { s2 = listBox1.Items[0].ToString() + " " + listBox1.Items[1].ToString(); if (ChuaTu(s2)) { s5 = s5 + s2 + " | "; for (int i = 0; i < 2; i++) { listBox1.Items.RemoveAt(0); } } } if (ChuaTu(s2)) continue; if (listBox1.Items.Count >= 1) { s1 = listBox1.Items[0].ToString(); s5 = s5 + s1 + " | "; for (int i = 0; i < 1; i++) { listBox1.Items.RemoveAt(0); } } s5 = s5.Trim(); s5 = s5.Replace("| |", "|"); string[] tach1; tach1 = s5.Split('|'); if (s5[0] != '|') { s5 = "| " + s5; SVTH: Nguyễn Thị Phương _51K2 CNTT 26 Đồ án tốt nghiệp Đại học } if (s5[s5.Length - 1] != '|') { s5 = s5 + "|"; } textBox2.Text = s5; } tachtudon(); } } } Hình 3.4 Ví dụ tách từ SVTH: Nguyễn Thị Phương _51K2 CNTT 27 Đồ án tốt nghiệp Đại học Bƣớc 8: Tạo button để nhập lại liệu(private void button5_Click(object sender, EventArgs e) * Giải thuật nhƣ sau: private void button5_Click(object sender, EventArgs e) { txtNhap.Clear(); KQ.Items.Clear(); txttachtu.Items.Clear(); StartWith.Items.Clear(); } Hình 3.5 Tạo button nhập lại Bƣớc 9: Tạo button để chƣơng trình (private void button6_Click(object sender, EventArgs e) *Giải thuật nhƣ sau: SVTH: Nguyễn Thị Phương _51K2 CNTT 28 Đồ án tốt nghiệp Đại học private void button6_Click(object sender, EventArgs e) { if (MessageBox.Show("Bạn có chắn muốn khơng?", "Thơng báo ", MessageBoxButtons.OKCancel, MessageBoxIcon.Question) == System.Windows.Forms.DialogResult.OK) { this.Close(); } Hình 3.6 Tạo button khỏi chương trình 3.2.3 Thử nghiệm • Trong đề tài em chọn ngôn ngữ C# để minh hoạ chƣơng trình thử nghiệm tách từ tiếng Việt phƣơng pháp so khớp cực đại • Từ điển tiếng Việt: Là từ điển xây dựng khoảng 100.000 từ SVTH: Nguyễn Thị Phương _51K2 CNTT 29 Đồ án tốt nghiệp Đại học 3.2.4 Kết Hình 3.7 Kết tách từ SVTH: Nguyễn Thị Phương _51K2 CNTT 30 Đồ án tốt nghiệp Đại học TÀI LIỆU THAM KHẢO [1] Đỗ Hữu Châu, Đỗ Việt Hùng (2005), Từ vựnng- Ngữ nghĩa, Tập 1, Nhà xuất Giáo dục Việt Nam [2] Lê Biên (1999), Từ loại tiếng Việt đại, Nhà xuất Giáo dục [3] Trần Thị Oanh (2008), Luận văn Mơ hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt [4] Trần Ngọc Anh, Đào Thanh Tĩnh, Nguyễn Phƣơng Thái (2011), "Một phương pháp hiệu khử nhập nhằng theo ngữ cảnh tốn tách từ tiếng Việt", Tạp chí Khoa học & Kỹ thuật, HVKTQS [5] Lê Hoàng Quỳnh (2005), Khóa luận So sánh số phương pháp học máy cho toán gán nhãn từ loại tiếng Việt Nhà xuất Đại học Quốc gia Hà Nội [6] http://tailieu.vn/doc/luan-van-so-sanh-mot-so-phuong-phap-hoc-may-cho-baitoan-gan-nhan-tu-loai-tieng-viet-1231426.html [7] Chan, M.H., Leung, S.W and Kwok, P.M (1997a), Pleasurable Learning Mathematics (Book 4A), Hong Kong: Chung Tai SVTH: Nguyễn Thị Phương _51K2 CNTT 31 Đồ án tốt nghiệp Đại học KẾT LUẬN i Những kết đạt đƣợc + Tìm hiểu tổng quan tách từ tiếng Việt + Tìm hiểu số phƣơng pháp tách từ + Xây dựng chƣơng trình ứng dụng toán tách từ phƣơng pháp so khớp cực đại ii Hạn chế đề tài: Trong khoảng thời gian ngắn, khơng thể tránh khỏi sai sót, em mong nhận đƣợc phản hồi, góp ý từ thầy cô bạn để báo cáo đƣợc hoàn thiện iii Hƣớng phát triển đề tài: + Tìm hiểu sâu phƣơng pháp tách từ khác tiếng Việt + Tìm hiểu thêm phƣơng pháp tách từ để tăng độ xác chƣơng trình ứng dụng đề tài SVTH: Nguyễn Thị Phương _51K2 CNTT 32 Đồ án tốt nghiệp Đại học LỜI CẢM ƠN Em xin chân thành cảm ơn Cô giáo TH.S Nguyễn Thị Uyên tận tình hƣớng dẫn em suốt trình làm đồ án Đồng thời em xin chân thành cảm ơn Thầy, Cô giáo khoa CNTT Đại học vinh hỗ trợ giúp đỡ em suốt trính học tập thực hiên đồ án Em xin chân thành cảm ơn bạn nhóm đồ án giúp đỡ đóng góp ý kiến cho em q trình làm đồ án SVTH: Nguyễn Thị Phương _51K2 CNTT 33 ... .2 CHƢƠNG TỔNG QUAN VỀ BÀI TOÁN TÁCH TỪ TIẾNG VIỆT 1.1 Bài toán tách từ tiếng Việt .3 1.1.1 Khái quát tiếng Việt 1.1.2 Khái quát toán tách từ tiếng Việt .5... CHƢƠNG TỔNG QUAN VỀ BÀI TOÁN TÁCH TỪ TIẾNG VIỆT 1.1 Bài toán tách từ tiếng Việt 1.1.1 Khái quát tiếng Việt 1.1.1.1 Định nghĩa Tiếng Việt thuộc ngôn ngữ đơn lập, tức tiếng âm tiết đƣợc phát âm tách. .. lỗi văn bản[ 1] Bài toán tách từ tiếng Việt toán bản, quan trọng xử lý ngơn ngữ tiếng Việt Về mặt hình thức, từ tiếng Việt đƣợc cấu tạo hay nhiều âm tiết ghép lại Mặt khác ranh giới nghĩa từ cịn