Trong các vấn đề của xử lý ngôn ngữ, có vấn để cần đến phân tích đầy đủ như dịch tự động nhưng cũng có những vấn để chỉ với phân tích sơ bộ cũng có thể đã xử lý được như tìm kiếm thông t
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC
THÁI ĐÔNG HỒ
NGHIÊN CỨU MỘT SỐ KỸ THUẬT
TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN
VÀ ỨNG DỤNG
CHUYEN NGANH: KHOA HOC MAY TINH MA SO: 60.48.01.01
LUAN VAN THAC SI KHOA HOC DINH HUONG UNG DUNG
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân, được xuất phát từ yêu cầu phát sinh trong công việc để hình thành hướng ứng dụng Các số liệu có nguồn gốc rõ ràng tuân thủ đúng nguyên tắc và kết quả trình bày trong luận văn
được thu thập được là trung thực chưa từng được ai công bố trước đây
Thừa Thiên Huế, tháng 8 năm 2018
Tác giả luận văn
Trang 3Bên cạnh đó cũng còn nhiều bài toán và công nghệ xử lý ngôn ngữ tự nhiên khác như giao diện người - máy bằng ngôn ngữ tự nhiên, các hệ hỏi đáp, các hệ sinh ngôn ngữ,
Về công nghệ xử lý ngôn ngữ, nhất là xử lý văn bản bao gồm các bước cơ bản sau:
Tầng ngữ âm: nghiên cứu về ngữ âm
Tầng hình thái: nghiên cứu về các thành phần có nghĩa của từ (word) như từ
được tạo ra bởi các hình vị (morphemes) và từ được tách ra trong một câu thế nào
Trong tiếng Việt, một bài toán quan trọng là phân tích tr (word segmentation) Tầng ngữ pháp: nghiên cứu các quan hệ cấu trúc giữa các từ, xem các từ đi với nhau thế nào để tạo ra câu đúng Quá trình này thường được cụ thể trong các bước cơ bản sau:
- Xác định từ loại (POS tagging): xem mỗi từ trong câu là loại gì (danh từ,
dong tr, giói từ, )
- Xác định cụm tv (chunking)
- Xác định quan hệ ngữ pháp (parsing): chủ ngữ, vị ngữ, trạng ngữ
Tang ngit nghia (semantic layer): nghiên cứu xác định nghĩa của từng từ và tổ hợp của chúng đề tạo nghĩa của câu
Tang ngit dung (pragmatic layer): nghiên cứu mỗi quan hệ giữa ngôn ngữ và ngữ cảnh sử dụng ngôn ngữ Ngữ dụng như vậy nghiên cứu việc ngôn ngữ được dùng để nói về người và vật như thế nào
Viêc phân tích một câu nói hay một câu trong văn bản ở tầng ngữ âm đến tầng ngữ pháp gọi là phân tích sơ bộ Nếu phân tích thêm phần ngữ nghĩa thì ta sẽ có phân tích đầy đủ Trong các vấn đề của xử lý ngôn ngữ, có vấn để cần đến phân tích đầy đủ như dịch tự động nhưng cũng có những vấn để chỉ với phân tích sơ bộ cũng có thể đã xử lý được như tìm kiếm thông tin, phân tích văn bản cho tổng hợp tiếng nói, mô hình ngôn ngữ trong nhận dạng tiếng nói,
Trang 4MỤC LỤC LỜI CẢM ƠN 255 22212221122212211211 2112 211221212212 ke re ii MỤC LỤC 522222222221112221122211 2172221112211 rerae iii D DANH MUC CAC BANG wiccsssssssssssssssessssssscssssscssssessesssccssssesessuecesssecssssesssneceesses v ANH MỤC CÁC HÌNH VẼ 52 22 2122122121121112112112112112222122ee vi DANH MỤC CÁC CHỮ VIẾT TẮTT 22 22222212221222122122121222222 e6 vii PHAN MỞ ĐẦU 55 2222 2211221122112221121122112211122112 21121121 ke 1
Chuong 1 TONG QUAN VE XU LÝ NGÔN NGỮ TỰ NHIÊN 4
1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN . -2:- 22222222 2211222112221221122E1 22C 4
1.1.1 Một số khái niệm - 22-22222222 222122231222112221122112112112111221 c1 xe 4
1.1.2 Các bước xử lý văn bản S212 En HH Hà HH ty ere 6 1.1.3 Các bài toán và Ứng dụng -.- cv SE Hreteere 11
1.2 XU LY NGON NGU TIENG VIET
1.2.1 Sự hình thành của tiếng Việt 2-52 222 2212211221122122122 xe 1.2.2 Một số khái niệm cơ bản về xử lý ngôn ngữ tiếng Việt 16
1.2.3 Đặc điểm của ngôn ngữ tiếng Việt 2 2222222212222 ee 17
1.2.4 Đặc trưng của tiếng Việt 22 52 2222122112112 ree 20 1.3 MỘT SÓ PHƯƠNG PHÁP GÁN NHÃN TỪ LOẠI . -: - 21
1.3.1 Phương pháp Conditional Random Fields (CRES) - +: 21 1.3.2 Phương pháp học dựa trên sự cải biến (TBL) 2- 5522222222222 23
1.4 TIỂU KÉT CHƯƠNG l: 22:222 2222 222122211221122112211221 21121 cee 24 Chương 2 MỘT SỐ KỸ THUẬT TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ 25 2.1 KHÁI QUÁT VẺ TÁCH TỪ - s2 1 2E121122122121122 212121 eg re 25
2.1.1 Các hướng tiếp cận với bài toán tách từ 2-2222 22122212212222 e6 25 2.1.2 Nhập nhằng trong tách từ tiếng Việt - 222222 2221222122222222 xe 28 2.1.3 Loại bỏ Từ dừng ác t1 SH HH HH HH Hà Hà Hà Hà Hee 30
2.2 MÔ HÌNH TÁCH TỪ TIẾNG VIỆT . 2222222 2221222212223122211221zzxev 30
2.2.1 Mô hình dựa vào từ đin 22c 2212221221121 E1 cere 30
2.2.2 Mô hình N-gram 12: 211 211 1n Hy HH Hà HH Hà He 31
Trang 52.2.3 Mô hình nhận dạng tên thực thể - Named Entity Recognition 32
2.3 MỘT SÓ PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT .-2-52s+22z+2ze2 32
23.1: Phương pháp sơ khớp cực ãiss:zssssiesaesbseoisbloBiteltlsDl0SSBSJASSt8203 80g88 32 2.3.2 Phương pháp chuyển dịch trạng thái hữu hạng có trọng số 35 2.3.3 Phương pháp mô hình Markov ẩn 22222 2222221222122112122 e6 39 2.3.4 Phương pháp so khớp từ dài nhất (Longest Matching) -©2s.22scszs¿ 41
2.4 GIOI THIEU PHAN MEM TÁCH TỪ VNTOKENIZER -2¿ 43 2.5 TIỂU KÉT CHƯƠNG 2 522 22122122112112112112122112212222 ae 45 Chương 3 ỨNG DỤNG TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ 46 3.1 GIỚI THIỆU VỀ TRƯỜNG ĐẠI HỌC KIÊN GIANG 2 2 46 3.2 DE XUAT MOT SO BAI TOAN UNG DUNG XU LY NGON NGU TỰ NHIÊN 222 22222222112211221121121122112211221111112111121122121 re 47 BÀI TOÁN 1: TU DONG PHAN LOAI VAN BAN CHO CAC PHONG, BAN 47 BÀI TOÁN 2: TU DONG PHAN LOẠI SÁCH Ở THƯ VIỆN 51 3.3 CÀI ĐẶT VÀ HƯỚNG DẪN CHẠY PHÀN MÈM VNTOKENIZER 52
3.3.1 Hướng dẫn chạy chương trình - 2-52 2222222122512212212211211 221222 xe 52
3.3.2 Dữ liệu: - 222 222212211121112111211121111212221222212212 ra 52
K6 N9) 0n 53
3.4 TẦNG SÓ XUẤT HIỆN CÁC TỪ TRONG VĂN BẢN - 57 3.5 TIỂU KÉT CHƯƠNG 3 -2-©222222221222112112112112211221222222ee 57 KET LUAN VA HƯỚNG PHÁT TRIỂN -2222 2222212222222 xe 58 1 KẾT LUẬN 552 225221222122212211221122112211222222222 222122222 euree 58 2 HƯỚNG PHÁT TRIỂN 2-2222221222122112112112112212222222 re 58
TÀI LIỆU THAM KHẢO 2222 22222212221221222121122121122222222 xe 59
Trang 6DANH MỤC CÁC BẢNG
Bảng 1: Từ điển trọng sỐ 22-222 222221222112111211121112122122222222 re 37
Trang 7DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Tín hiệu sóng âm của hai âm tiết tiếng Việt -2- 2222221221121 6
Hình 1.2: Cac bước xử lý văn bản - St t1 nh nh HH Hàn nhat 6 Hình 1.3 Cấu trúc chuỗi của đỗ thị CRFs 250cc eo 22 Hình 2.1 Các hướng tiếp cận bài toán tách từ 22222 221222122222222 2 xee 26 Hình 2.2 Mô hình N-gram - c2: 2212111121111 111 111111 HH Hà Hà HH tiệt 32 Hình 2.3 Sơ đồ mô hình WFST 222221 22212221122112211211211211 21 cee 35 Hình 2.4 Mô hình Markov ân c c2 trrrue 40 Hình 2.5 Đồ thị vô hướng Hiđden Markov Model - HMM -522-2 41 Hinh 2:6 Quy trinh tach A ecscscccessevemceseremnese sone mecernn meen mune ramen meee ree 81228610 01060 44 Hình 3.1 CSDL thể loại văn bản . : 22222 eerrrrrrrrririeo 49 Hình 3.2 Mô hình phân loại văn bản - Sc 2t 3211 srnrr Hy rhrrerek 50
Hình 3.3 CSDL phân loại tài liệu c2: 2:32 E2 hy rrererrerree 52
Hình 3.4 Giao điện chạy phần mềm vntokeniZer -222222222122212212222ee 34 Hình 3.5 Tệp dữ liệu đưa vào phần mềm vntolkenizer -222222222c222ce 34 Hình 3.6 Kết quả chạy phần mềm vntokenizer 22222 222c221222122122122212e Hình 3.7 Kết quả chạy phần mềm vntokenizer định dạng XML
Hình 3.8 Kết quả chạy phần mềm và sử dụng modun tách câu -. 56
Hình 3.9 Kết quả khi tách từ từ thư mục - 22222 2212212212222222222 e6 56 Hình 3.10 Kết quả tính tầng số xuất hiên các từ -522 2222212221222 cee 57
Hình 3.11 Kết quả tìm kiếm từ trong văn bản 552222 22122212221221222 e0 57
Trang 8DANH MỤC CÁC CHỮ VIẾT TẮT
CNTT Công nghệ thông tin CSDL Cơ sở dữ liệu
NPL Natural language processing CRFs Conditional Random Fields TBL Transformation-based Learning LM Longest Matching
MM Maximal Matching HMM Hidden Markov Models
Trang 9/ PHAN MO DAU
> Ly do chon de tai
Tiến lên cùng sự phát triển của xã hội, Công nghệ thông tin ngày càng được phô biến mạnh mẽ trong nhiều lĩnh vực của đời sống con người như: giáo dục, y tế, giao thông, giải trí, nghiên cứu Với những tính năng vượt trội về xử lý, phân
loại, tìm kiếm, lưu trữ, công nghệ thông tin được ứng dụng vào việc số hóa trong
giao dịch, giải quyết công việc, nâng cao năng lực làm việc, thúc đây hiệu quả các hoạt động, góp phần tăng trưởng nhanh nên kinh tế chung của tồn cầu Đơng thời, ứng dụng công nghệ thông tin vào sản xuất và đời sống còn tạo ra nhiều sản phẩm dịch vụ tiện ích góp phần đạt hiệu quả trong công tác quản lý điều hành, thúc đây
hội nhập, nâng cao chất lượng cuộc sống cho xã hội
Xử lý ngôn ngữ là một trong những vấn để phức tạp của Công nghệ thông tin Van dé 6 chỗ là làm sao giúp máy tính hiểu được ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những công việc có
liên quan đến ngôn ngữ như: Dịch thuật, phân tích dữ liệu văn bản, nhận dạng tiếng
nói, tìm kiếm thông tin, Kỹ thuật xử lý ngôn ngữ tiếng Việt có nhiều hướng tiếp cận khác nhau và đã có nhiều công trình nghiên cứu đạt những kết quả khả quan trong thời gian vừa qua, nó đóng vai trò quan trọng lĩnh vực xử lý dữ liệu văn bản
Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ don, từ ghép có trong câu Đối với xử lý ngôn ngữ, để có thê xác định cấu trúc
ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là
phải xác định được đâu là từ trong câu Vấn đề này tưởng chừng đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khó giải quyết
Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt là tiếng Việt Ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ
thuộc loại hình hòa kết như tiếng Anh mà có sự liên hệ chặt chẽ giữa các tiếng VỚI nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng Vì vậy khi phân tích ngôn ngữ
Trang 10Do yêu cầu công việc trong các cơ quan nhà nước, công ty, doanh nghiệp, trường học ngày càng cao nên số lượng văn bản tăng nhanh cả về số lượng và chủ đề Đề tìm được những thông tin cần thiết cho mục đích của mỗi người sẽ mất rất nhiều thời gian và công sức, như vậy cần có giải pháp để phân loại một cách tự động đề giúp chúng ta xử lý văn bản được thuận tiện hơn Có nhiều kỹ thuật xử lý ngôn ngữ tiếng Việt được đề xuất, mỗi phương pháp đều có lợi thế và bất lợi riêng khi sử dụng Nhiều ứng dụng đã và đang được xây dựng dựa trên kỹ thuật tách từ rất hiệu quả Vì vậy luận văn tập trung vào việc “Nghiên cứu một số kỹ thuật trong xử lý ngôn ngữ tự nhiên và ứng dụng” với mục đích xây dựng hệ hỗ trợ phân loại
văn bản tự động Trường Đại học Kiên Giang
> Mục tiêu nghiên cứu
Nghiên cứu một số kỹ thuật trong xử lý ngôn ngữ tự nhiên và ứng dụng Xây dựng một ứng dụng đề phân loại văn bản
>_ Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Tập trung vào nghiên cứu một số kỹ thuật tách từ trong xử lý văn bản trong đó có tách từ của ngôn ngữ tiếng Việt, phần mềm vnTokenizer
Phạm vi nghiên cứu: Xây dựng một ứng dụng đơn giản về phân loại văn bản ở trường Đại học Kiên Giang
> Phương pháp nghiên cứu
Phương pháp lý thuyết: Tổng hợp, phân tích các tài liệu liên quan từ đó lựa chọn các phương pháp hiệu quả đã được công bố đề nghiên cứu
Phương pháp ứng dụng: Khảo sát tình hình thực tế về lưu trữ văn bản tại
trường Đại học Kiên Giang, trên cơ sở đó thử nghiệm phân loại một số lĩnh vực để
rút ra kết luật trong sử dụng các phương pháp tách từ >_ Ý nghĩa khoa học và thực tiễn của đề tài
Hiện tại Trường Đại học Kiên Giang đang rất cần một công cụ để hỗ trợ cho
Trang 11> Cấu trúc của luận văn
Luận văn được chia làm 3 chương:
Chương 1 Tổng quan về xử lý ngôn ngữ tự nhiên " Xử lý ngôn ngữ tự nhiên
“ Tìm hiểu về tiếng Việt và xử lý ngôn ngữ tiếng Việt “ Tổng quan về ngôn ngữ tự nhiên
Chương 2 Một số kỹ thuật tách từ trong xử lý ngôn ngữ = Khai quát về tách từ -_ Các hướng tiếp cận -_ Nhập nhằng trong bài toán tách từ tiếng Việt -_ Loại bỏ từ dừng “ Một số phương pháp tách từ Phương pháp so khớp cực đại Phương pháp mô hình Markov an
Phương pháp chuyển địch trạng thái hữu hạng có trọng số Phương pháp so khớp từ dài nhất
“_ Giới thiệu phần mêềm tách từ Vntokenizer Chương 3 Ứng dụng tách từ trong xử lý ngôn ngữ
"_ Giới thiệu về trường Đại học Kiên Giang
“ Đề xuất mô hình phân loại văn bản ở trường Đại học Kiên Giang = Cai dat và hướng dẫn sử phần mềm vnTokenizer
Trang 12Chương 1 TỎNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Xử lý ngôn ngữ tự nhiên (Natural language processing - NLP) la bai toan hay và cũng là bài toán khó khăn nhất của ngành máy tính từ hơn 50 năm qua Con người muốn dùng máy tính để xử lý ngôn ngữ đã gặp phải trở ngại lớn nhất từ phía ngôn ngữ, đó là tính nhập nhằng vốn có của ngôn ngữ tự nhiên Tuy nhiên, các nhà ngôn ngữ học và các nhà khoa học đã từng bước khắc phục được đáng kể các trở ngại này và đã đạt nhiều kết quả khả quan
Ngày nay, công nghệ thông tin (CNTT) đã và đang được triển khai, ứng dụng rộng rãi vào mọi lĩnh vực trong đó có phân loại văn bản đang phát triển ở nhiều đơn
vị hành chính nhà nước, trường học, sở ngành, Với sự phát triển đó, nó đã tạo được chuyển biến trong công tác lãnh đạo, chỉ đạo của trường học, nhằm nâng cao
năng suất, hiệu quả trong hoạt động nội bộ của trường học cũng như giữa trường học với cơ quan nhà nước nhằm góp phần hỗ trợ đây mạnh cải cách hành chính và tìm kiếm thông tin nhanh chóng và chính xác
Theo đó, luận văn này sẽ giới thiệu tổng quan về ngôn ngữ tự nhiên, tìm hiểu các đặc điểm của ngôn ngữ tiếng Việt và xử lý ngôn ngữ tiếng Việt, các đặc trưng cơ bản của tiếng Việt, một số kỹ thuật xử lý ngôn ngữ tiếng Việt và ứng dụng
1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN
1.1.1 Một số khái niệm
Xử lý ngôn ngữ tự nhiên là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ, cơng cụ hồn hảo nhất của tư duy và giao tiếp
Trang 13tự nhiên của con người và trả lời các câu hỏi của con người Thậm chí máy sẽ dịch được các ngôn ngữ tự nhiên từ một ngôn ngữ này sang một một ngôn ngữ khác một cách nhanh chóng và chính xác
Với một hệ thống xử lý ngôn ngữ tự nhiên, đầu vào của một hệ thống có thể
là một hoặc nhiều câu đưới dạng tiếng nói hay văn bản Các đữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính con
người có và lưu trữ dưới dạng điện tử Đặc điểm chính của các kiểu dữ liệu này là
không có cấu trúc hoặc nửa cấu trúc và chúng không thê lưu trữ trong các khuôn dạng cố định như các bảng biểu Theo đánh giá của công ty Oracle, hiện có đến 80% dit liéu không cấu trúc trong lượng dữ liệu của loài người đang có [Oracle
Text] Với sự ra đời và phô biến của Internet, của sách báo điện tử, của máy tính cá nhân, của viễn thông, của thiết bị âm thanh, nEƯỜI người ai cũng có thể tạo ra dữ
liệu văn bản hay tiếng nói Vấn để là làm sao ta có thể xử lý chúng, tức chuyên chúng từ các đạng ta chưa hiểu được thành các dạng †a có thể hiểu và giải thích
được, tức là ta có thể tìm ra thông tin, tri thức hữu ích cho minh [1]
Giả sử chúng ta câu sau được viết bằng nhiều thứ tiếng:
“We meet here today to talk about Vietnamese language and speech processing.” “Aujourd'hui nous nous réunissons ici pour discuter le traitement de langueet de parole vietnamienne.” “M1 BCTpadaeMC4 3/I€Cb C€TO/IH1, 1TOỐbI FTOBOPHTb O Bb€THAMCKOM #13bIK€ H o6pa6orke peun.”
Nếu chúng ta địch hoặc có một chương trình máy tính dịch chúng ra tiếng Việt, ta sẽ hiểu nghĩa các câu trên đều là: “Hôm nay chúng ta gặp nhau ở đây đề bàn về xử lý ngôn ngữ và tiếng nói tiếng Việt” Nếu các câu này được lưu trữ như các
tệp tiếng Anh, Pháp, Nga và Việt như ta nhìn thấy ở trên, ta có các dữ liệu “văn
Trang 14
Hình 1.1 Tín hiệu sóng âm của hai âm tiết tiếng Việt
Tuy nhiên, một văn bản thật sự (một bài báo khoa học chẳng hạn) có thể có
đến hàng nghìn câu và ta không phải có một mà có hàng triệu văn bản Web là một nguồn đữ liệu văn bản không lồ và cùng với các thư viện điện tử trong một tương lai gần các sách báo xưa nay và các nguồn âm thanh được chuyển hết vào máy tính (chẳng hạn bằng các chương trình nhận dạng chữ, thu nhập âm thanh hoặc gõ thẳng
vào máy) sẽ sớm chứa hầu như toàn bộ kiến thức của nhân loại Vẫn để là làm sao
“xử lý” được khối dữ liệu văn bản và tiếng nói không lồ này qua dạng khác để mỗi người có được thông tin và tri thức cần thiết từ chúng [1]
1.1.2 Các bước xử lý văn bản
Quá trình xử lý văn bản hay quá trình phân tích và kiểm tra tính chính xác
của một văn bản là một vấn đề khá phức tạp, trải qua nhiều bước khác nhau Ở mỗi
bước xử lý đòi hỏi người nghiên cứu phải có một nền tảng kiến thức vững vàng về ngôn ngữ cũng như nhiều kiến thức bé trợ khác mới có thê xử lý tốt được Quá trình này có thê được chia thành các bước sau: tiền xử lý văn bản, phân tích hình thái, phân tích cú pháp, phân tích ngữ nghĩa, tích hợp văn bản và phân tích thực nghĩa Tiền xử lý Phân tích | Phân tích văn bản hình thái cú pháp Vv Phan tich Tich hop Phan tich thực nghĩa văn bản ngữ nghĩa
Trang 15
1.1.2.1 Tiền xử lý văn bản
Khi đầu vào của hệ xử lý ngôn ngữ là một văn bản, ta cần phải có thêm tầng tiền xử lý để xử lý sơ bộ văn bản đầu vào, rồi phân tách nó thành các đơn vị rõ ràng dé cho hé xử lý chính đễ dàng thực hiện Cụ thể bước này sẽ bao gồm các công việc sau:
Trước nhất, bước tiền xử lý sẽ xử lý sơ bộ văn bản đầu vào (làm sạch văn
bản) bằng cách xóa bỏ những ký tự, những mã điều khiển, những vùng không cần thiết cho việc xử lý
Trong mỗi văn bản, bước tiền xử lý sẽ nhận diện các tiêu để, các chú thích, các số thứ tự và gạch đầu dòng, các đoạn văn trong văn bản
Trong mỗi đoạn văn, bước tiền xử lý sẽ phân rã nó ra thành các câu là đơn vị cơ sở của một văn bản Đây là giai đoạn khó nhất và sẽ là trọng tâm của bước tiền xử lý, như dấu “.” trong trường hợp sau (không biết đâu là dấu chấm câu)
Chang han, hoc phi tai trrong Dai hoc Kién Giang 3.000.000 d/hoc ky déi
voi sinh vién khoa 1
Xa hơn nữa, bước tiền xử lý có thể phân tích câu thành những ngữ nghĩa để giảm bớt gánh nặng đồng thời tăng chất lượng cũng như tốc độ xử lý của hệ thống 1.122 Phân tích hình thái
Trong bước này từng từ sẽ được phân tích và các ký tự không phải chữ như các dấu câu sẽ được tách ra khỏi các từ Trong tiếng Anh và nhiều ngôn ngữ khác các từ được phân tách với nhau bằng dấu cách Tuy nhiên trong tiếng Việt, dấu cách được dùng dé phân tách các tiếng (âm tiết) chứ không phải từ Cùng với các ngôn ngữ như tiếng Trung, tiếng Hàn, tiếng Nhật, phân tách từ trong tiếng Việt là một công việc không hề đơn giản
Bước này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ)
riêng biệt, đồng thời kèm theo tất cả các thông tin về từ đó, như là: Từ loại, phạm
Trang 16Phân tích phụ tố: Bao gồm tiền tố và hậu tố, ta thường gặp các loại phụ tố này trong tiếng Anh Xử lý từ ghép: Nhận diện được từ ghép từ các thành tố của chúng, như ngôi nhà, sách gối đầu giường Xử lý các trường hợp tỉnh lược (bỏ
bớt) trong một số từ như đại từ, thời gian
Đánh dấu từ loại các từ trong câu để xác định từ loại của từ một cách tự
động, chủ yếu ta phải giải quyết trường hợp nhập nhằng từ loại (một từ có nhiều từ
loại), nhưng trong câu cụ thể, ta chỉ có thể có một từ loại đúng mà thôi
Ví đụ: Trong câu “Học sinh học sinh học”, ta phải đánh dấu từ loại như sau:
Học sinh | danh từ học | động từ sinh học | danh từ
Thông thường, nhất là với các ngôn ngữ ở châu Âu, khi phân tích câu thành
các từ độc lập của khối phân tích hình thái là không khó vì hầu hết tất cả các từ đều
nằm nguyên thành một chữ, không cần chia cắt, ngoại trừ một số trường hợp đặc biệt như viết tắt (có thể xử lý ngoại lệ) Với một số ngôn ngữ như với tiếng Việt,
tiếng Nhật, vấn đề trở nên rất khó nếu các từ trong ngôn ngữ được thành nhiều cụm có thể hiểu nhập nhằng
Chẳng hạn, Xét câu sau “Ông già đi nhanh quá” Chúng ta có ít nhất 2 cách phân cách từ:
Cách 1: “Ông già” | “đi” | “nhanh” | “quá” Cách 2: “Ông” | “già đi” | “nhanh” | “quá”
Trong trường hợp trên không có cách nào đánh giá cách phân cách từ nào tốt hơn, chúng ta đành phải coi bài toán như là việc dịch 2 câu, đến phần xử lý ngữ nghĩa sẽ tiến hành đánh giá lại xem trường hợp nào là hợp lý hơn và lựa chọn
1.1.2.3 Phân tích củ pháp
Dãy các từ sẽ được biến đổi thành các cấu trúc thể hiện sự liên kết giữa các
tử này Sẽ có những dãy từ bị loại do vi phạm các luật văn phạm
Trang 17động từ chính, bổ nghĩa Để phân tích cú pháp, chúng ta cần có bộ luật văn phạm và giải thuật phân tích cú pháp
Ví dụ: xét câu “Nam là sinh viên giỏi”, sau khi phân tích cú pháp thì cho kết quả như sau:
Nam: chủ ngữ; là: động từ; sinh viên: danh từ; giỏi: tính từ 1.1.2.4 Phân tích ngữ nghĩa
Mục đích của việc phân tích ngữ nghĩa là kiểm tra ý nghĩa của câu có mâu thuẫn với ý nghĩa của đoạn hay không Dựa trên mối liên hệ logic về nghĩa giữa các
cụm từ trong cau va mối liên hệ giữa các câu trong đoạn, hệ thống sẽ xác định được
một phần ý nghĩa của câu trong ngữ cảnh của đoạn
Đầu vào của giai đoạn phân tích ngữ nghĩa là tập các khả năng phân tích câu và thông tin về ngữ nghĩa của tất cả các từ Các thực từ thường có nhiều nghĩa và nghĩa của nó chỉ được xác định duy nhất trong mối quan hệ giải thích với các từ khác trong câu
Giải quyết nhập nhằng nghĩa ở mức từ vựng: Xét ví dụ “Tôi với quả bóng ở
trên cao”, ta có từ “với” là “liên từ” hoặc “động từ” Đề chọn được nghĩa thích cho
từ “với” trong trường hợp này chúng ta phải vận dụng các ý niệm của ngôn ngữ học
tri nhận để biết rằng “với” là động từ chỉ hành động tác động đến một danh từ chỉ sự
vật, và “với” là liên từ liên kết giữa hai đối tượng có cùng kiểu Kết hợp những ý
niệm Ấy, ta có “tôi” là đại từ và “quả bóng” là danh từ chỉ sự vật không thuộc cùng
dạng đối tượng, do đó máy tính sẽ chọn từ “với” có nghĩa là “động từ” cho trường hợp này
Mức độ nhập nhằng cấu trúc: Ví dụ: “Mộ người đàn ông và một người đàn bà già”, ta có 2 cách phân tích
Cách 1: “Người đàn ông| và |người đàn bà già”; Cách 2: “Người đàn ông và người đàn bài| già”;
Máy tính sẽ chọn cách phân tích thứ hai, do tính cân bằng vốn có trong cấu trúc song song của liên từ “và”
Trang 18“Đứa trẻ| và |người đàn ông già”; “Đứa trẻ và người đàn ông| già”
Máy tính sẽ chọn cách phân tích thứ nhất, vì máy thấy cấu trúc thứ hai là vô lý, do có sự đối lập về ngữ nghĩa giữa thuộc tính “trẻ” trong “đứa trẻ” và thuộc tính “già” trong “người đàn ông”
Mức độ nhập nhằng liên câu: Ví dụ xét câu “Con khi ăn quả chuối vì nó
đói”, máy tính hiện nay, trong một số trường hợp, có thể xác định được đại từ “nó”
thay thế cho từ nào: “con khi” hay “quả chuối” Đề giải quyết được nhập nhằng này,
máy tính phải xem lại mệnh để trước và vận dụng tri thức về thế giới thực để biết
rằng “chỉ có &Ö¿ mới có khả năng đó?” nên sẽ chọn “nó thay thế cho con khỉ” Còn trong câu: “Con khi ăn quả chuối vì nó chín”, thì máy tính sẽ biết rằng “chỉ có chối mới có khả năng chí?” nên sẽ chọn “nó” thay thé cho “quả chuối”
1.1.2.5 Tích hợp văn bản
Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào những câu đứng trước, đồng thời nó cũng có thể ảnh hưởng đến các câu phía sau
1.1.2.6 Phân tích thực nghĩa
Cấu trúc thể hiện điều được phát ngôn sẽ được thông dịch lại để xác định nó
thật sự có nghĩa là gì Đây là quá trình phân tích nhằm xác định ý nghĩa câu dựa trên
mối liên hệ của câu với hiện thực Ý nghĩa thực tế của câu phụ thuộc rất nhiều vào ý
tứ của người nói và ngữ cảnh diễn ra lời nói Do vậy, quá trình phân tích thực chứng rất khó thực hiện bằng máy tính
Trong một số trường hợp nhập nhằng, ta không thê dùng thông tin bên trong
nội bộ câu hay câu lân cận, mà phải xét trên toàn nội dung văn bản, xem xét xem văn bản đang bàn về van dé gì, thuộc lĩnh vực gì, để từ đó mới có thể chọn đúng
nghĩa của từ, câu
Trang 19Dé xác định được ngữ cảnh toàn văn bản, máy tính phải dựa vào sự xuất hiện của các từ khóa trên toàn văn bản Ngoài ra, việc xác định ngữ cảnh này còn được ứng dụng vào việc phân loại văn bản tự động
1.1.3 Các bài toán và ứng dụng
Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu của trí tuệ nhân tạo
nhằm xây dựng một hệ thống xử lý cho máy tính, làm cho máy tính có thể hiểu được ngôn ngữ của con người gồm cả ngôn ngữ nói và viết Không chỉ với một ngôn ngữ của một dân tộc, của một quốc gia mà máy tính có thê hiểu được mà máy tính có thể hiểu được ngôn ngữ của tất cả các dân tộc, các quốc gia trên thế giới Nhờ đó, mọi người trên thế giới dựa vào máy tính cũng có thể hiểu và giao tiếp
được với nhau mà không cần học, hiểu ngôn ngữ của nhau, Và hơn thế nữa, máy
tính có thể phân tích, tổng hợp ngôn ngữ để đưa ra tri thức cho con người một cách nhanh chóng và chính xác Nhất là khi các dữ liệu liên quan đến ngôn ngữ đang dần trở nên là kiểu đữ liệu chính của con người
Đề làm được những việc đó người ta đã xác định một số bài toán ứng dụng
cơ bản trong xử lý ngôn ngữ tự nhiên để giải quyết đó là:
Bài toán tổng hợp tiếng nói: Từ đữ liệu văn bản, phân tích và chuyên thành thành tiếng nói Thay vì phải tự đọc một cuốn sách hay nội đung một trang web, nó tự động đọc cho chúng ta Giống như nhận đạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho người khiếm thị, nhưng ngược lại nó là bước cuối củng trong giao tiếp giữa robot với người
Nhận dạng tiếng nói: Từ sóng tiếng nói nhận biết rồi chuyên chúng thành dữ liệu văn bản tương ứng Giúp thao tác của con người trên các thiết bị nhanh hơn và
đơn giản hơn, chẳng hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và trình soạn
thảo sẽ tự ghi nó ra Đây cũng là bước đầu tiên cần phải thực hiện trong ước mơ thực hiện giao tiếp giữa con người với robot Nhận dạng tiếng nói có khả năng trợ
giúp người khiếm thị rất nhiều
Nhận dạng chữ viếi: Từ một văn bản trên giấy, nhận biết từng chữ cái và
chuyển chúng thành một tệp văn bản trên máy tính, có hai kiểu nhận dạng: Thứ nhất
là nhận dang chữ in Ví dụ: Nhận dạng chữ trên sách giáo khoa rồi chuyền nó thành
Trang 20dạng văn bản điện tử như dưới định dạng “.doc” của Microsoft Word chang han
Phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay không có khuôn dạng rõ ràng và thay đổi từ người này sang người khác Với chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư viện thành văn bản điện tử trong thời gian ngắn Nhận dạng chữ viết của con người có ứng đụng
trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử)
Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn
theo mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất
Dịch tự động: Như tên gọi đây là chương trình dịch tự động từ ngôn ngữ này sang ngôn ngữ khác Một phần mềm điền hình về tiếng Việt của chương trình này là
Evtrans của Softex, dịch tự động từ tiếng Anh sang tiếng Việt và ngược lại, phần
mềm từng được trang web vdict.com mua bản quyền, đây cũng là trang đầu tiên đưa ứng dụng này lên mạng
Tìm kiếm thông tin: Từ một nguồn rất nhiều tệp văn bản và tiếng nói, tìm ra những tệp có liên quan đến một vấn đề Các máy tìm kiếm dựa trên giao diện web như Google hay Yahoo hiện nay chỉ phân tích nội dung rất đơn giản dựa trên tần suất của từ khoá và thứ hạng của trang và một số tiêu chí đánh giá khác để đưa ra
kết luận, kết quả là rất nhiều tìm kiếm không nhận được câu trả lời phù hợp, thậm
chí bị dẫn tới một liên kết không liên quan gì do thủ thuật đánh lừa của các trang web nhằm giới thiệu sản phẩm
Phát hiện tri thức và khai phá dữ liệu: Từ rất nhiều tài liệu khác nhau phát
hiện ra tri thức mới Thực tế dé làm được điều này rất khó, nó gần như là mô phỏng quá trình học tập, khám phá khoa học của con người, đây là lĩnh vực đang trong giai đoạn đầu phát triển Ở mức độ đơn giản khi kết hợp với máy tìm kiếm nó cho phép
đặt câu hỏi để từ đó công cụ tự tìm ra câu trả lời dựa trên các thông tin trên web
mặc cho việc trước đó có câu trả lời lưu trên web hay không (giống như trang
Yahoo hỏi và đáp, nơi chuyên đặt các câu hỏi để người khác trả lời), nói một cách
Trang 21Bên cạnh đó cũng còn nhiều bài toán và công nghệ xử lý ngôn ngữ tự nhiên khác như giao diện người - máy bằng ngôn ngữ tự nhiên, các hệ hỏi đáp, các hệ sinh ngôn ngữ,
Về công nghệ xử lý ngôn ngữ, nhất là xử lý văn bản bao gồm các bước cơ bản sau:
Tầng ngữ âm: nghiên cứu về ngữ âm
Tầng hình thái: nghiên cứu về các thành phần có nghĩa của từ (word) như từ
được tạo ra bởi các hình vị (morphemes) và từ được tách ra trong một câu thế nào
Trong tiếng Việt, một bài toán quan trọng là phân tích tr (word segmentation) Tầng ngữ pháp: nghiên cứu các quan hệ cấu trúc giữa các từ, xem các từ đi với nhau thế nào để tạo ra câu đúng Quá trình này thường được cụ thể trong các bước cơ bản sau:
- Xác định từ loại (POS tagging): xem mỗi từ trong câu là loại gì (danh từ,
dong tr, giói từ, )
- Xác định cụm tv (chunking)
- Xác định quan hệ ngữ pháp (parsing): chủ ngữ, vị ngữ, trạng ngữ
Tang ngit nghia (semantic layer): nghiên cứu xác định nghĩa của từng từ và tổ hợp của chúng đề tạo nghĩa của câu
Tang ngit dung (pragmatic layer): nghiên cứu mỗi quan hệ giữa ngôn ngữ và ngữ cảnh sử dụng ngôn ngữ Ngữ dụng như vậy nghiên cứu việc ngôn ngữ được dùng để nói về người và vật như thế nào
Viêc phân tích một câu nói hay một câu trong văn bản ở tầng ngữ âm đến tầng ngữ pháp gọi là phân tích sơ bộ Nếu phân tích thêm phần ngữ nghĩa thì ta sẽ có phân tích đầy đủ Trong các vấn đề của xử lý ngôn ngữ, có vấn để cần đến phân tích đầy đủ như dịch tự động nhưng cũng có những vấn để chỉ với phân tích sơ bộ cũng có thể đã xử lý được như tìm kiếm thông tin, phân tích văn bản cho tổng hợp tiếng nói, mô hình ngôn ngữ trong nhận dạng tiếng nói,
Trang 221.2 XU LY NGON NGU TIENG VIET
1.2.1 Sự hình thành của tiếng Việt
Căn cứ vào những tài liệu mới được công bố gần đây, có thể kết luận: Tiếng
Việt là một ngôn ngữ thuộc nhóm Việt-Mường, tiểu chi Việt Chứt, nằm trong khối Việt Katu, thuộc khu vực phía đông của ngành Mon-Khmer, ho Nam A [11] Ho
Nam Á là một họ ngôn ngữ khá lớn, bao gồm những ngôn ngữ được phân bố trên
một khu vực rộng lớn, bao gồm phần đông bắc Ấn Độ, một phan Mién Dién, vung
Nam Trung Quốc, một phần Malaixia, phần lớn Campuchia và phần lớn Việt Nam
Theo các nhà khoa học, cách đây khoảng 6000 năm, khu vực rộng lớn này
vẫn còn nói chung một thứ ngôn ngữ gọi là ngôn ngữ Nam Á hay Nam Phương Cùng với thời gian, các ngôn ngữ họ Nam Á dần dần tách ra thành những nhóm riêng biệt Đầu tiên là nhóm Munđa ở Đông bắc Ấn Độ và nhóm Mèo-Dao ở phía nam Trung Quốc ngày nay
Các ngôn ngữ Nam Á có chung những đặc điểm: Có hệ thống ngữ pháp cơ bản giống nhau, ví dụ: Khung ngữ pháp của tiếng Việt, Khmer, Lào, Thái không khác nhau mấy; Có cách cấu tạo từ giống nhau; Có hình thức lặp, láy giống nhau; Cách luân phiên giống nhau
Trang 23ngôn ngữ phân bố thành 3 vùng lớn: Bắc Mon-Khmer, Nam MonKhmer và Đông Mon-Khmer
Từ tiếng Đông Mon-Khmer tách ra một ngôn ngữ gọi là proto Viét-Katu Sau một thời gian, ngôn ngữ này lại tách ra làm hai là Katu và proto Việt Chứt Tổ tiên trực tiếp của người nói tiếng Việt ngày nay là các bộ tộc người nói tiếng proto Việt Chứt này Các cư dân nói tiếng proto Việt Chứt lúc đầu hơn 4000 năm trước sống ở vùng trung du và sơn cước vùng Thượng Lào và bắc khu Bốn cũ, về sau di chuyển xuống vùng đồng bằng Bắc Bộ ngày nay Do sự tiếp xúc với các ngôn ngữ Tày- Thái, tiếng proto Việt Chứt thay đổi đề trở thành tiếng Tiền Việt Chứt với co tang Mon-Khmer và có sự mô phỏng cơ chế vận hành Tày-Thái Quá trình này diễn ra ở
thời đại mà sử Việt Nam vẫn gọi là thời đại các vua Hùng Dan dan vé sau, tiéng Tiền Việt Chứt đi sâu vào quá trình đơn tiết hóa, thanh điệu hóa và rụng dần các
phụ tố đề trở thành tiếng Việt Mường chung khoảng 2700- 2800 năm trước
Do quá trình tiếp xúc lâu dài với tiếng Hán dưới thời Bắc thuộc, vào khoảng
từ thế ki VIII dén thế ki XII, tiếng Việt Mường chung ở phía Bắc tách ra làm hai:
Bộ phận nằm sâu ở vùng rừng núi các tỉnh Hòa Bình, Thanh Hóa, Nghệ An, Hà
Tĩnh ít bị ảnh hưởng của tiếng Hán hơn nên bảo lưu yếu tố cũ và trở thành tiếng Mường, còn bộ phận ở vùng đồng bằng Bắc Bộ thì đo ảnh hưởng của tiếng Hán mà dần dần tách thành tiếng Kinh (tiếng Việt) Quá trình tách đôi hai ngôn ngữ này bắt
đầu khoảng hơn 1000 năm trước Kể từ lúc đó, tiếng Việt mới thực sự trở thành một
ngôn ngữ độc lập
Sự hình thành chữ quốc ngữ gắn liền với sự truyền giáo của các giáo sĩ phương Tây Chữ quốc ngữ là một thứ chữ được xây dựng theo nguyên tắc ghi âm bằng chữ Latinh Loại chữ này được dùng phổ biến từ rất lâu ở châu Âu Đến thế kỉ XVII, một số giáo sĩ phương Tây đem nguyên tắc ấy dùng vào ghi âm tiếng Việt,
tạo ra một chữ thuận lợi hơn đối với mục đích truyền đạo May thé ki tiép theo, chữ
quốc ngữ chỉ được hạn chế trong kinh bổn đạo Thiên Chúa
Sự áp đặt chế độ thuộc địa Pháp đưa đến việc bãi bỏ việc học, việc thi cử,
việc dùng chữ Hán đưa đến sự thắng lợi chữ quốc ngữ Buổi đầu nhân dân lạnh nhạt với chữ quốc ngữ, mặc dù một số tri thức “Tây học” đã ra sức dé dong cho no Thai
Trang 24độ lạnh nhạt ấy thay đổi từ khi hình thành các phong trào đấu tranh văn hóa có ý nghĩa chính trị như phong trào Đông Kinh nghĩa thục ở đầu thế kỷ XX Những người lãnh đạo phong trào được việc dùng chữ quốc ngữ lên hàng đầu trong sáu biện pháp của bản sách lược gọi là Văn minh tân học sách (1907) và lên tiếng kêu gọi đồng bào vì tương lai của đất nước mà nên dùng chữ tiện lợi ấy Những tài liệu văn hóa bằng chữ quốc ngữ đo phong trào này phát hành đã được phổ biến khá
rộng Mặt khác, sự tiếp xúc của tiếng Pháp, nên văn hóa Pháp đã dẫn đến sự hình thành nên báo chí Việt Nam bằng chữ quốc ngữ, nên văn xuôi Việt Nam hiện đại,
sự đổi mới trong thơ ca, những tiếp thu về từ vựng, ngữ pháp
Cách mạng tháng Tám năm 1945 thành công đã đưa lại “địa vị ngôn ngữ chính thức của quốc gia” cho tiếng Việt Từ đó, tiếng Việt đã phát triển nhanh chóng, toàn diện, có ảnh hưởng sâu rộng đến tất cả các ngôn ngữ thiểu số ở Việt Nam
1.2.2 Một số khái niệm cơ bản về xử lý ngôn ngữ tiếng Việt 1.221 Xử lý ngôn ngữ
Là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ” (dữ liệu cần biến đổi),
tức dữ liệu “văn bản” hay “tiếng nói” Các đữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu đữ liệu chính con người có và lưu trữ
dưới dạng điện tử Đặc điểm chính của các kiểu dữ liệu này là không có cấu trúc
hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôn dạng cố định như các bảng biểu
1222 Ngôn ngữ
Ngôn ngữ là hệ thống để giao thiệp hay suy luận dùng một cách biểu diễn phép ấn dụ và một loại ngữ pháp theo logic, mỗi cái đó bao hàm một tiêu chuẩn hay
sự thật thuộc lịch sử và siêu việt Nhiều ngôn ngữ sử dụng điệu bộ, âm thanh, ký
Trang 251.223 Ngữ liệu
Ngữ liệu (Corpus) thường là tập hợp các câu dưới dạng tiếng nói hay văn ban, trong đó có chứa các thông tin cần thiết cho từng bài toán cụ thể trong xử lý ngôn ngữ tự nhiên
1.2.2.4 Nhập nhằng trong ngôn ngữ học
Là hiện tượng thường gặp trong giao tiếp hàng ngày con người ít để ý đến nó bởi vì họ xử lý tốt hiện tượng này Nhưng trong các ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên khi phải thao tác với ý nghĩa từ vựng mà điển hình là dịch tự
động nhập nhằng trở thành vấn đề nghiêm trọng
Nhập nhằng: Là hiện tượng mà khi nói, viết hoặc diễn tả những từ ngữ, ý nghĩ mơ hỗ, không rõ nghĩa hoặc có nhiều nghĩa làm cho người đọc hoặc người nghe không phân biệt rõ ràng, gây ra sự hiểu lầm
Chang han, câu “Lan mua cho mẹ Ikg đường” ở đây ta xét từ “đường” Ở góc độ con người chúng ta hiểu một cách dễ dàng khi căn cứ vào ngữ cảnh của nó Còn
máy tính thì không hiểu được ngữ cảnh khi nào là đường ăn, khi nào là đường để đi
Khái niệm nhập nhằng cũng có thể hiểu theo một cách khác như sau: Trong
mỗi lĩnh vực, các vấn dé thường đề cập, trình bày hoặc được hiểu theo một chuẩn
nhất định, chuẩn này có thể được quy ước bằng văn bản hoặc quy ước ngầm định Khi đó tất cả những cách hiểu, cách đề cập hoặc trình bày vấn đề nằm ngoài phạm vi chuẩn đó được xem là nhập nhằng
1.2.3 Đặc điểm của ngôn ngữ tiếng Việt
Tiếng Việt là một ngôn ngữ độc lập, đặc điểm này bao quát toàn bộ tiếng Việt về mặt ngữ âm, ngữ pháp và ngữ nghĩa Do đó, chúng ta phải tiến hành tìm
hiểu đặc điểm của tiếng Việt để có thể có được hướng nghiên cứu cụ thể về văn bản
tiếng Việt [3]
Trang 261.2.3.1 Tiếng và đặc điểm của tiếng
Trong tiếng Việt, cũng như trong các văn bản tiếng Việt, ta có thể thấy tiếng là một thành phần khá quan trọng Mỗi tiếng đứng độc lập và ta cé thé phát hiện được ngay các tiếng trong cả tiếng nói cũng như văn bản
Tiếng và giá trị ngữ âm: Ngữ âm chính là mặt âm của ngôn ngữ Tại sao ta lại phải nghiên cứu khía cạnh này của ngôn ngữ tiếng Việt? Đó là vì trên thực tế, các ứng dụng liên quan đến tiếng Việt như dịch thuật, lưu trữ người ta vẫn ghi lại âm thành dạng văn bản, sau đó mới tiến hành các thao tác xử lý Mỗi tiếng chính là
một âm tiết và được ghi lại thành một cụm trong văn bản
Tiếng và giá trị ngữ nghĩa: Nếu xét về mặt ngữ nghĩa thì tiếng là đơn vị nhỏ nhất có thể có nghĩa.Thực ra ta có thể thấy rằng đơn vị ngữ âm thấp nhất là âm vị thì hoàn toàn không có nghĩa (ví dụ như các chữ cái đứng riêng rẽ) Tuy nhiên cũng có những tiếng không có nghĩa (ví đụ như ạ, ứ ) Các tiếng bản thân không hề có nghĩa mà chỉ đùng để kết hợp tạo thành nghĩa cho đơn vị trực tiếp cao hơn, đó là từ Ví dụ như các tiếng “lãng, đãng” tự nó không có nghĩa nhưng có thể tạo thành từ có nghĩa là lãng đãng
Tiếng và giá trị ngữ pháp: Khía cạnh ngữ pháp bao gồm những quy tắc cấu tạo từ, cầu tạo câu Ta có thể thấy rằng tiếng là đơn vị ngữ pháp dùng đề cấu tao từ
Về việc dùng tiếng để cấu tạo từ, ta có hai trường hợp như sau: từ một tiếng, từ hai
tiếng trở lên Từ một tiếng hay còn gọi là từ đơn là từ chỉ có duy nhất một tiếng như: ông, bà, cây, đa Từ hai tiếng trở lên hay con gọi là từ phức là từ có thé có 2
hay nhiều tiếng trở lên kết hợp với nhau như: an ninh xã hội, chính trị,
1.2.3.2 Từ và đặc điểm của từ
Có rất nhiều quan niệm về từ trong tiếng Việt, từ nhiều quan niệm về từ tiếng Việt khác nhau đó chúng ta có thé thấy đặc trưng cơ bản của "từ " là sự hoàn chỉnh
về mặt nội dung, từ là đơn vị nhỏ nhất để đặt câu Người ta dùng "từ" kết hợp thành
Trang 27Từ là đơn vị nhỏ nhất: Từ có thể gồm có một tiếng nhưng cũng có thể gồm hai hay nhiều tiếng, tuy nhiên từ là đơn vị nhỏ nhất đề đặt câu Chẳng hạn “cơ quan này rất lớn, người này học rất giỏi”
Một lưu ý đặt câu đề viết, đề nói, để suy nghĩ thì chúng ta dùng từ chứ không phải dùng tiếng Có thê thấy lưu ý này rất quan trọng, vì trong thực thế thành phần riêng rẽ có thê phát hiện trong một câu (ở đạng nói hay viết) là một tiếng nhưng để có thê hiểu ý nghĩa của câu ta phải đùng từ Do đó bất kỳ một nghiên cứu vẻ tiếng Việt trên máy tính nào cũng phải quan tâm đến việc ghép các tiếng thành từ
Từ có nghĩa hoàn chỉnh và cấu tạo ổn định: Ta có thể nhận ra điều này ở các
từ tiếng Việt một tiếng, còn đối với những từ nhiều tiếng thì đó là những đặc điểm
xác định lẫn nhau Cấu tạo ổn định dẫn đến nghĩa hoàn chỉnh và ngược lại Ví dụ
như từ hai tiếng “cây cối” có cấu tạo ổn định và nghĩa hoàn chỉnh, nhưng cụm không phải là từ như “cây và cối” không có cấu tạo ổn định và nghĩa hoàn chỉnh
Đối với những từ nhiều tiếng, tính hoàn chỉnh về nghĩa và ổn định về cấu tạo được hình thành theo mối quan hệ giữa các tiếng cấu thành nên từ Đó là mối quan hệ phối hợp, có thê theo ngữ âm (các từ láy âm), hoặc về nghĩa (ví dụ như nghĩa của hai từ “xe” và “đạp” trong từ “xe đạp”)
Theo quy tắc chính tả hiện nay, mỗi tiếng được ghi thành một cụm chữ cái rời nhau, do đó từ có bao nhiêu tiếng thì viết thành bấy nhiêu cụm chữ cái rời nhau
Như vậy nếu ta có câu “Trung tâm dữ liệu Tin học hoạt động rất hiệu quả” thì các
khoảng trống đánh dấu sự phân biệt các tiếng chứ không phải là các từ, trong khi đối tượng nghiên cứu của chúng ta là các từ Điều này hoàn toàn khác so với các ngôn ngữ phô dụng như Anh, Pháp, trong các ngôn ngữ này, các khoảng trống đánh
dấu sự tách rời các từ
1.2.3.3 Câu và đặc điểm của câu
Trong ngữ pháp tiếng Việt, từ và câu là những đơn vị ngữ pháp rất quan trọng Đối với con người, từ được coi như sẵn có trong kho từ vựng được tích luỹ
Trang 28trong quá trình sống Còn để có thể hiểu, giao tiếp thì con người phải đùng đến câu Trong ngôn ngữ, câu là đơn vị ở bậc cao hơn cả Nói gì, viết gì phải thành câu
Câu có ý nghĩa hoàn chỉnh: Tính hoàn chỉnh về nghĩa của câu là tính hoàn chỉnh của cả một quá trình tư duy, quá trình thông báo diễn ra trong một hoàn cảnh nhất định Trong một câu bao giờ cũng có hai thành phần, một thành phần nêu sự
vật hiện tượng và một thành phần giải thích của sự vật hiện tượng đó
Câu có cấu tạo đa dạng: Câu có dạng đơn giản như là câu đơn, và còn có
những cấu trúc phức tạp hơn gọi là câu ghép Xét về mặt ngữ nghĩa, câu đơn có nhiều đạng khác nhau, biểu lộ những ý nghĩa, trạng thái, nội đung cần thông báo khác nhau Tính chất đa đạng không trái ngược với tính chất chặt chẽ của câu về mặt ngữ pháp Nói chung, cấu tạo ngữ pháp có thay đổi thì nghĩa cũng có thay đôi
và ngược lại
1.2.4 Đặc trưng của tiếng Việt
Một vấn để khó khăn đầu tiên trong xử lý tiếng Việt là việc xác định ngữ nghĩa từ trong tiếng Việt vẫn còn nhiều tranh luận Theo quan điểm của tác giả Định Điền: một câu tiếng Việt bao gồm nhiều từ, mỗi từ bao gồm một hay nhiều tiếng, mỗi tiếng là một chuỗi ký tự liền nhau phân biệt với các tiếng khác bằng một hay nhiều khoảng trắng Chẳng hạn: từ “học” là một từ gồm một tiếng: từ “học sinh” là một từ gồm hai tiếng: cụm từ “khoa học tự nhiên” gồm 2 từ hay 4 tiếng Tác giả sử dụng phương pháp học dựa vào sự biến đổi (tranformation based learning) dé thuc
hiện công việc này và đạt được độ chính xác khoảng 80 — 85% Trong các hệ thống
tìm kiếm thông tin và văn bản trên các tiếng Châu Âu, người ta có thê đơn giản lấy xác định các từ nhờ vào các khoảng trắng phân cách từ và chọn các từ đặc trưng cho
nội dung văn bản (dựa vào tầng số xuất hiện của từ) làm chỉ mục mà hiệu quả tìm
Trang 29Vấn để xác định từ loại trong tiếng Việt phức tạp hơn so với các tiếng Châu
Âu do chúng ta không thể dựa vào các đặt tính đặc biệt về hình thái học của từ để xác định từ loại Chẳng hạn, đối với tiếng Anh, ta có thể xác định ngay một tu la tính từ nếu nó có phan cuối là “able”, Đối với tiếng Việt chỉ có thể xác định được
khi dựa vào ngữ cảnh Xét 2 câu sau đây: (01) Nam rất fhành công trong nghiên cứu khoa học; (02) Kỳ họp THPT Quốc Gia năm 2018 đã /hành công Cũng là từ
“thành công” nhưng ở câu thứ nhất là một động từ, câu thứ 2 là một tính từ
Cấu trúc của cụm danh từ cũng là một vấn đề còn nhiều tranh luận giữa các nhà ngôn ngữ học Xét về mặt tin học hóa, một cụm danh từ tiếng Việt gồm 3 phan:
phần chính mang ý nghĩa chính của cụm đanh từ, phần phụ trước gồm các chỉ định từ và phần phụ sau gồm các từ bổ nghĩa cho phần chính
Ví dụ: “Tất cả các cuốn sách tin học” Phần phu trước: tất cả các;
Phần chính: cuốn sách;
Phần phu sau: tin học
Phần chính thường là một danh từ, phần phu trước thường là các chỉ định từ, phan phu sau thi rất phức tạp về từ loại, nó có thể là danh từ, tính từ, động từ,
1.3 MỌT SÓ PHƯƠNG PHÁP GÁN NHÃN TỪ LOẠI
1.3.1 Phuong phap Conditional Random Fields (CRFS)
CREs là mô hình chuỗi các xác suất có điều kiện, huấn luyện để tối đa hóa
xác suất điều kiện Nó là một framework cho phép xây dựng những mô hình xác suất để phân đoạn và gán nhãn chuỗi dữ liệu [7] CRFs đã được chứng minh rất thành công với các bài toán gán nhãn cho chuỗi như tách từ, gán nhãn cụm từ, xác
định thực thể, gán nhãn cụm danh từ,
Trường ngẫu nhiên Markov là một mô hình đồ thị vô hướng mà mỗi đỉnh biểu điễn cho một biến ngẫu nhiên mà có phân phối được suy ra, và mỗi cung biểu diễn mối quan hệ phụ thuộc giữa hai biến ngẫu nhiên
Trang 30
Yi-1 Wa ¡+1
Oo o o
ae NĂ 7 ae
Hình 1.3 Cấu trúc chuỗi của đồ thị CRFs
X%: là một biến cố ngẫu nhiên trên chuối dữ liệu cần được gán nhãn;
Y: là biến ngẫu nhiên trên chuỗi nhãn tương ứng:
Chang han, X là chuỗi các từ quan sát thông qua các câu bằng ngôn ngữ tự nhiên, Y là chuỗi các nhãn từ loại được gán cho những câu trong tập X (các nhãn này được quy định sẵn trong tập các nhãn từ loại) Một chuỗi tuyến tính CRF với các tham số 2 được cho bởi công thức:
1 T
PY) =F eXPD a t=1 k DA fe Oe YX):
Với Z¿ là một số chuẩn hóa nhằm để đâm bào tổng các xác suất của chuỗi trang thái bang 1
Z(x)= Ðcxp{4,/.0 y.¡.X,)} :
y
Fk(y yux.Ð làm một hàm đặc trưng, thường có giá tri va gia tri đó có thể là giá trị thực
dy la mot trọng số kết hợp với đặc trưng f, Những hàm đặc trưng có thể đo
bất cứ trạng thái chuyền dich nao, Vi.->Y¡, Và chuỗi quan sát x, tập trung tại thời
điểm hiện tại t
Người ta thường huấn luyện CRFs bằng cách làm cực đại hóa hàm likelihood
theo dữ liệu huấn luyện sử dụng các kĩ thuật tối ưu Việc lập luận dựa trên mô hình
Trang 31thuật toán lập trình động nhằm tìm ra chuỗi khả năng của các trạng thái ấn đề thực hiện lập luận với dữ liệu mới
Phương pháp CREF đạt độ chính xác khá cao khoảng 94% Tuy nhiên, phải xây dựng tập huấn luyện và các model rất công phu và phức tạp Hơn nữa cách xây dựng không được nhóm tác giả đề cập tới thời gian load dữ liệu vào bộ nhớ tương đối lâu do tập ngữ liệu huấn luyện tương đối lớn
1.3.2 Phương pháp học dựa trên sự cải biến (Transformation-based Learning — TBL)
Phương pháp học dựa trên sự cải biến được Eric Brill giới thiệu lần đầu vào
năm 1993 Phương pháp TBL được áp dụng rộng rãi trong xử lý ngôn ngữ tự nhiên và được đánh giá là một trong những giải thuật cho kết quả khả quan nhất đối với các bài toán xử lý ngôn ngữ tự nhiên như: các bài toán tách từ, tách câu, gán nhãn tử loại, phân tích cú pháp, khử nhập nhằng ngữ nghĩa,
Đây là cách tiếp cận dựa trên dữ liệu được đánh dấu Theo cách tiếp cận này, để huấn luyện cho máy tính biết cách nhận diện ranh giới từ tiếng Việt, ta có thể
cho máy “học” trên ngữ liệu hàng vạn câu tiếng Việt đã được đánh dấu ranh giới từ
đúng Sau khi học xong, máy sẽ xác định được các tham số cần thiết cho mô hình nhận diện từ
TBL hoạt động như một bộ luật sửa lỗi Dữ liệu ban đầu cần được một
chương trình khác (baseline) xử lý để phát hiện và sửa lỗi chính tả Mục tiêu của chương trình này phát hiện và sửa đúng lỗi chính tả càng nhiều càng tốt Các lỗi gây
ra bởi chương trình ban đầu sẽ được sửa bởi TBL Các luật học được từ quá trình huấn luyện TBL sẽ được áp dụng lần lượt theo thứ tự, sửa chữa các lỗi do chương
trình gây ra cũng như các lỗi do chính việc áp đụng luật TBL gây ra Kết quả là số lỗi chính tả sẽ giảm đáng kẻ
Phương pháp này là khả năng rút ra các quy luật ngôn ngữ và liên tục sửa sai cho luật thông qua quá trình lặp là phù hợp với bài toán xủ lý ngôn ngữ tự nhiên Tuy nhiên, phương pháp này có nhược điểm là mất nhiều thời gian học và tốn
Trang 32không gian bộ nhớ do nó phải phát sinh ra các quy luật trung gian trong quá trình
học Vì để học được một bộ luật thì TBL chạy rất lâu và dùng tới nhiều bộ nhớ, nên việc xây dựng một bộ luật đầy đủ dùng cho phân đoạn từ rất khó khăn Vì thế, khi
áp dụng phương pháp này sẽ có khá nhiều nhập nhằng
1.4 TIEU KET CHUONG 1:
Trong nội đung chương này, luận văn đã trình bày tổng quan các khái niệm và các bước để xử lý ngôn ngữ tự nhiên, các kỹ thuật và các bài toán liên quan đến xử lý ngôn ngữ tự nhiên Ngoài ra, chương này còn tìm hiểu về sự hình thành, phát
triển và một số đặc điểm nỗi bật của tiếng Việt Qua đó cho thấy ở mỗi giai đoạn
Trang 33Chương 2 MỘT SÓ KỸ THUẬT TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ
2.1 KHÁI QUÁT VÈ TÁCH TỪ
Tiếng Việt là một ngôn ngữ độc lập, không biến hình, các ký tự được dựa
trên hệ chữ Latinh (Alphabetic) Cũng giống như với các ngôn ngữ khác nhau như tiếng Trung, tiếng Nhật, tiếng Hàn thì từ trong tiếng Việt không sử đụng ký tự “khoảng trắng” (dấu cách) để phân biệt giữa các từ Một từ tiếng Việt có thể được
tạo bởi một hoặc nhiều hình vị và mỗi hình vi phân tách nhau bởi các khoảng trắng
Từ là đơn vị cơ bản để phân tích cấu trúc của ngôn ngữ Vì thế cũng giống như trong tiếng Trung và các nước châu Á khác tách từ là một vấn đề cần được xem xét trong xử lý ngôn ngữ tự nhiên Bài toán tách từ đã được đặt ra từ lâu và được giải
quyết tốt trong tiếng Việt với hiệu suất cao
Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn, từ ghép, có trong câu Đối với xử lý ngôn ngữ, để có thể xác định cấu trúc
ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là
phải xác định được đâu là từ trong câu Vấn để này tưởng chừng đơn giản khi đối với con người nhưng đối với máy tính thì đây là bài toán rất khó giải quyết
Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt là đối với ngôn ngữ thuộc vùng Đông Á theo loại hình ngôn ngữ đơn lập như tiếng Trung Quốc, tiếng Nhật, tiếng Thái và tiếng Việt Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là khoảng trắng như trong ngôn ngữ tiếng Anh mà có sự liên hệ chặt chẽ giữa các
tiếng với nhau, một từ có thể được tạo bởi một hay nhiều tiếng Vì vậy đối với các
ngôn ngữ thuộc vùng Đông Á, vấn để của bài toán tách từ là khử được sự nhập nhằng trong ranh giới giữa các từ
2.1.1 Các hướng tiếp cận với bài toán tách từ
Các công trình nghiên cứu về lĩnh vực này chủ yếu là thử nghiệm như công trình của tác giả Lê Hà An [8] Chuyên dịch trạng thái hữu hạn có trọng số, đây có
thể được xem là mô hình tách từ đầu tiên dành cho tiếng Việt Mô hình này là một
Trang 34cải tiến của mô hình WFST (Weighted Finite State Transducer) 4p dung cho tiéng Trung Quốc để phù hợp hơn với tiếng Việt
Các nhà nghiên cứu đã để xuất một số hướng tiếp cận để giải quyết bài toán tách từ Nhìn chung, các hướng tiếp cận đó được chia thành 2 hướng: tiếp cận dựa
trên từ và tiếp cận dựa trên ký tự từ Tách từ tiêng Việt "_T.— em Hướng tiếp cận dựa trên từ a _ Hướng tiếp cận dựa trên ký tự từ Z⁄` Thống kê Từ điển Lai Một ký tự Nhiều ký tụ Thành phần Hoàn chỉnh v So khớp dài nhất So khớp ngắn nhất So khớp kết hợp
Hình 2.1 Các hướng tiếp cận bài toán tách từ 2.1.1.1 Hướng tiếp cận dựa trên từ
Hướng tiếp cận dựa trên tử với mục tiêu tách được các từ hoàn chỉnh trong
câu Hướng tiếp cận này được chia thành 3 nhóm: dựa trên thống kê (statistics- based), dựa trên từ điển (dictionary-baseđ) và kết hợp nhiều phương pháp (hydrid- based)
Hướng tiếp cận đựa vào thống kê cần phải đựa vào thông tin thống kê như từ
hay tần số ký tự, hay xác suất cùng xuất hiện trong một tệp dữ liệu cơ sở Do đó,
Trang 35các tài nguyên, tin tức và sách điện tử trên Internet, bộ dữ liệu này khá nhỏ và
khơng tồn diện tức là không bao quát nhiều lĩnh vực, nhiều chủ đề
Hướng tiếp cận dựa trên từ điển: Ý tưởng của hướng tiếp cận này là những cụm từ được tách ra từ văn bản phải được so khớp với các từ trong từ điển Từ điền sử đụng để so khớp thì lại có 2 loại: từ điển hoàn chỉnh (full word/pharse) và từ điển thanh phan (component) Trong từ điển hoàn chỉnh thì chia thành 3 loại: so khớp đài nhat (longest match), so khép ngắn nhất (shortest match) và so khớp kết hợp (overlap) Hai phương pháp tách từ Longest Matching và Maximal Matching là sử dụng hướng tiếp cận này Hầu hết những nghiên cứu đầu tiên về tách từ đều dựa trên cách tiếp cận này Hướng tiếp cận này có đặc điểm là đơn giản, dễ hiểu tuy nhiên hiệu quả mang lại chưa được cao Lý đo là bởi nó chưa xử lý được nhiều trường hợp nhập nhằng cũng như khả năng phát hiện từ mới trong văn bản chưa cao Hiện nay, hướng tiếp cận so khớp cực đại được xem là phương pháp quan trọng và có hiệu quả nhất trong hướng tiếp cận từ điền
Hướng tiếp cận nhiều phương pháp với mục đích kết hợp các phương pháp tiếp cận khác nhau để thừa hưởng các ưu điểm của nhiều kỹ thuật và hướng tiếp cận khác nhau nhằm nâng cao hiệu quả Hướng tiếp cận này thường kết hợp giữa hướng
tiếp cận thống kê và dựa trên từ điển nhằm tận dụng những mặt mạnh của các
phương pháp này Tuy nhiên, hướng tiếp cận này lại mất nhiều thời gian xử lý, không gian đĩa và chi phí cao
2.1.1.2 Hướng tiếp cận dựa trên ký tự từ
Trong tiếng Việt, hình vị nhỏ nhất là “tiếng” được hình thành bởi nhiều ký tự
trong bảng chữ cái Hướng tiếp cận này đơn thuần là rút trích ra một số lượng nhất định các tiếng trong văn bản như rút trích I ký tự (unigram) hay nhiều ký tự (n- gram) Phương pháp này tuy đơn giản nhưng mang lại kết quả quan trọng được chứng minh qua một số công trình nghiên cứu đã được công bố, như của tác giả Lê An Hà [8] xây dựng tập đữ liệu thô 10Mb bằng cách sử dụng phương pháp quy
hoạch động để cực đại hóa xác suất xuất hiện của các từ được phân cách bởi các ký
Trang 36trở nên hữu ích nếu ta biết cách sử dụng thông tin này khi liên kết với các nguồn thông tin khác
Trong bài báo gần đây của H.Nguyễn et al, đề xuất năm 2005 Đây là phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và giải thuật di truyền thay vì sử đụng đữ liệu thô, dé tìm ra những cách phân cách đoạn văn bản tối ưu nhất cùng một văn bản Khi so sánh kết quả của tác giả Lê An Hà và H.Nguyễn thì thấy công trình nghiên cứu của H.Nguyễn cho được kết quả tốt hơn khi tiến hành tách từ, tuy nhiên thời gian xử lý lâu hơn Ưu điểm của hướng tiếp cận dựa trên nhiều ký tự là tính đơn giản, dễ ứng dụng, chi phi thấp Qua nhiều công trình nghiên
cứu của các tác giả đã được công bố, hướng tiếp cận dựa trên ký tự từ được cho là sự lựa chọn thích hợp
2.1.2 Nhập nhăng trong tách từ tiếng Việt
Nhập nhằng là hiện tượng mà khi nói, viết hoặc diễn tả những từ ngữ, ý nghĩa mơ hồ không rõ nghĩa hoặc có nhiều nghĩa làm cho người đọc hoặc người nghe không phân biệt rõ ràng gây sự hiểu nhằm
Khái niệm nhập nhằng cũng có thể hiểu theo một cách khác như sau: trong
mỗi lĩnh vực các vấn để thường được đề cập, trình bày hoặc được hiểu theo một
chuẩn nhất định, chuẩn này có thể được quy ước thành văn bản hoặc quy ước ngầm định Khi đó tất cả những cách hiểu, cách để cập hoặc trình bày nằm ngoài phạm vi chuẩn đó được xem là nhập nhằng
Khi tiến hành tách từ, nếu chúng ta tách từ bằng cách thủ công thì việc nhập nhằng rất khó xây ra Do chúng ta đã hiểu đươc ngữ nghĩa của câu và tách từ dựa trên ngữ nghĩa của các từ trong câu Tuy nhiên việc tách từ bằng tay không thể thực hiện được với một tệp dữ liệu lớn Máy tính thì không thê hiểu hết ngữ nghĩa của câu nên việc nhập nhằng xảy ra là tất yếu Trong tiếng Việt hiện nay xuất hiện nhiều hiện tượng nhập nhằng như:
Trang 37ghép vì thế khoảng trắng không phải luôn là ranh giới chính xác Trong tiếng Việt,
việc xác định chính xác phạm vị, ranh giới giữa các từ có thể hỗ trợ rất nhiều cho
quá trình khử nhập nhằng, đặc biệt đối với ngôn ngữ viết
- Nhập nhằng do tính đa nghĩa của từ: bất cứ ngôn ngữ nào cũng có từ đa nghĩa, nguyên nhân là vì rất nhiều khái niệm có các sắc thái ý nghĩa tuy khơng hồn tồn trùng khớp hau nhưng lại có nhiều nét tương đồng Hiện tượng này gây cản trở
cho việc dịch tự động, chương trình không biết dịch từ đa nghĩa theo nghĩa nào
trong nhóm nghĩa của nó
- Nhập nhằng khi sử dụng từ đồng âm: hai từ đồng âm với nhau ghĩa là hai từ cố âm giống nhau nhưng mang nghĩa khác nhau, còn đồng tự là hai từ về mặt ký tự là giống nhau nhưng nghĩa khác nhau Do đó đặc điểm của tiếng Việt từ đồng âm cũng thường là từ đồng tự, ở các ngôn ngữ khác hai hiện tượng này không trùng khớp Cũng phải phân biệt từ đồng tự với từ đa nghĩa, trong từ đa nghĩa, các nghĩa đều có chung một nguồn gốc và do vậy luôn có nét tương đồng trong khi đó trong từ đồng tự chúng không có liê hệ về nguồn gốc với nhau, nghĩa của chúng khác
nhau rõ rệt
- Nhập nhằng trong cách phân biệt từ loại: từ loại là một yếu tố quan trọng trong việc xác định nghĩa chính xác của từ và sắp xếp các từ thành câu hoàn chình trong dịch tự động Từ loại giúp khử nhập nhằng, nhưng chính bản thân nó trong một số trường hợp cũng nhập nhằng Với các ngôn ngữ không biến hình như tiếng
Việt, vấn để xác định từ loại yêu cầu các thuật toán phức tạp hơn, bắt buộc phải
phân tích cú pháp
- Nhập nhằng khi sử dụng tiếng Việt không dấu: ngày nay, việc gõ tiếng Việt
không trở nên phô biến hơn, đặc biệt trên các ứng dụng Internet hoặc điện thoại di
động như email, zalo, facebook, Gõ tiếng Việt không dấu giúp người sử dụng thao tác nhanh hơn, nhưng cũng có một số trường hợp nó lại gây ra những sự hiểu nhằm
tai hại đối với người đọc
- Nhập nhằng trong phân tích cú pháp tiếng Việt: trong phân tích cú pháp
tiếng Việt, hiện tượng nhập nhằng xay ta 0 nhiều mức, tức mức từ, từ loại đến mức
Trang 38cú pháp câu Điều nay dẫn đến một câu có thể được phân tích theo nhiều cách khác nhau, trong khi đó chỉ có một vài cách phân tích trong số đó đúng
Nhập nhằng trong tách từ tiếng tiếng Việt có thể chia thành 2 loại: nhập nhằng chồng chéo và nhập nhằng kết hợp
2.1.2.1 Nhập nhằng chồng chéo
Chuỗi “a b e” bị nhập nhằng chồng chéo khi mà cả “a b” và “b e” điều xuất hiện trong từ điển Chẳng hạn như, “máy bay lượn trên không trung” Xét 3 từ “máy bay lượn” thì “máy bay” và “bay lượn” đều có trong từ điển
2.1.2.2 Nhập nhằng kết hợp
Chuỗi “a b c” bị nhập nhằng kết hợp khi mà cả “a”, “b”, “a b” đều xuất hiện
trong từ điển Chẳng hạn như, “đàn gà mới nở hôm qua được mười hai con” Xét 2 từ “đàn gà” thì “đàn”, “gà”, “đàn gà” đều có nghĩa trong từ điền
Ngoài vấn để nhập nhằng, khi tách từ tiếng Việt còn gặp các khó khăn trong
việc xác định các từ chưa biết trước như từ dành riêng, từ vay mượn từ nước ngoài,
từ chỉ số, từ láy, các câu thành ngữ, Mức độ giải quyết tốt hai vấn đề trên sẽ quyết định hiệu suất của một phương pháp tách từ và quyết định nó có tốt hay không 2.1.3 Loại bỏ Từ dừng
Từ đừng hay còn gọi là Stop word là những từ xuất hiện nhiều trong tất cả
các văn bản thuộc mọi thể loại trong tập dữ liệu, hay những từ chỉ xuất hiện trong
một vài văn bản Nghĩa của từ Stop word là những từ xuất hiện quá nhiều lần và quá ít lần Chúng không có ý nghĩa và không chứa thông tin đáng giá để chúng ta sử
dụng Ví dụ như các từ: thì là, mà, và, hoặc, bởi, Trong việc khi tách từ thì sự xuất
hiện của những từ đó chẳng những không giúp được gì trong việc đánh giá phân loại mà còn gây nhiễu và giảm độ chính xác của quá trình tách từ
2.2 MƠ HÌNH TÁCH TỪ TIÊNG VIỆT 2.2.1 Mô hình dựa vào từ điển
Trang 39Phương pháp LM duyệt câu đầu vào tuần tự từ trái qua phải và chọn từ đài nhất nếu từ đó có trong từ điển Rõ ràng là phương pháp này rất đơn giản nhưng bị phân lớp sai trong nhiều trường hợp nhập nhằng
Ví dụ câu “Đó là cách để truyền thông tin”, nếu áp đụng phương pháp LM thì câu này sẽ bị phân tách sai thành “Đó là cách đề truyền thông tin”
Phương pháp MM sẽ tạo ra tất cả các phân đoạn có thê cho một câu bất kỳ, sau đó câu được phân đoạn đúng được chọn là câu chứa ít từ nhất Phương pháp này cũng có yếu điểm là không thể đưa ra phân đoạn đúng trong trường hợp nhiều kết quả phân đoạn lại chứa cùng một số lượng từ ít nhất
Ví dụ câu “Học sinh học sinh học” có hai ứng cử là “Học sinh học
sinh học” và “Học sinh học sinh học” Trong những trường hợp này, ta cần áp dụng các phương pháp học máy trên một cơ sở dữ liệu lớn để xác định được phân đoạn đúng
2.2.2 M6 hinh N-gram
Mô hình N-gram [6] được xây đựng để giải quyết công việc tách từ trong các ứng dụng về xử lý ngôn ngữ tự nhiên trong tiếng Việt Mô hình ngôn ngữ N-gram
thể hiện khá tốt mối quan hệ ngữ cảnh của từ Trong mô hình đó, mỗi từ được coi như phụ thuộc xác suất vào n-l từ trước nó
P(W)=P(W¡W; W„)= II POW IW yea)
Mô hình N-gram được ứng dụng để phân đoạn từ trong đó với mỗi câu thì phân đoạn tốt nhất theo mô hình này là phân đoạn có xác suất P(W) được tính theo
công trên là lớn nhất Trong đó, các xuất suất về sự phu thuộc của một từ vào n tử
trước đó được thống kê dựa trên một văn bản đủ lớn Phương pháp này là một trong những phương pháp thống kê chính để giải bài toán tách phân đoạn từ khi không có thông tin từ điển và đữ liệu gán nhãn Mô hình phân đoạn từ sử dụng N-gram được
biểu diễn như hình bên dưới
Trang 40Ngữ liệu được gán Vv Quá trình thống kê (n-gram) Phân tích đầu vào > Quá trình tối ưu Từ đã được tách từ Hình 2.2 Mô hình N-gram
Khi áp dụng phương pháp này đòi hỏi chúng ta phải xác định một độ đo tốt phù hợp với bài toán để đánh giá khả năng mỗi cụm hình vị có là một từ hay không? Đối với tiếng Việt tác giả Lê An Hà [8] đơn giản sử dụng tần suất N-gram đề tối ưu xác suất của mỗi đoạn đữ liệu Kết quả thực nghiệm tuy không cao nhưng đã chứng tỏ rằng N-gram là một phương pháp phù hợp có thể ứng dụng cho bài toán phân
đoạn từ tiếng Việt nói riêng
2.2.3 M6 hinh nhan dang tén thuc thé - Named Entity Recognition
Bài toán nhận dạng tên thực thể là bài toán gán nhãn mỗi từ trong văn bản
vào một trong các lớp được định nghĩa trước như tên người, tên địa danh, tên tổ
chức, ngày tháng, số tiền, Chẳng hạn, “[PERSON Ông Nguyễn Văn A] được đề cử trưởng phòng của [ORG Đại học Kiên Giang] nhiệm kỳ [2016 - 2020]”
Có nhiều phương pháp máy học đã được áp dụng thành cơng cho bài tốn nhận đạng này, trong đó các phương pháp chủ yếu dựa vào các đặc trưng ngôn ngữ và thông tin ngữ cảnh của từ để xác định lớp cho mỗi từ
2.3 MỌT SÓ PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT
2.3.1 Phương pháp so khớp cực đại
Phương pháp so khớp cực đại còn gọi là Maximum Matching (MM) Nội
dung thuật toán này dựa trên thuật toán đã được ChihHao Tsai [9] giới thiệu năm