Cấu trúc luận văn Luận văn được trình bày với bố cụ gồm có phần mở đầu, kết luận và 03chương, cụ thể như sau: Chương 1: Giới thiệu về xử lý ngôn ngữ tự nhiên: Giới thiệu các khái niệm, k
Trang 1PHẠM THẾ AN
ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN
PHÂN TÍCH NHU CẦU SỬ DỤNG DỊCH VỤ VIỄN THÔNG
TỪ CÁC BÌNH LUẬN TRÊN MẠNG XÃ HỘI
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
ĐÀ NẴNG – 2022
Trang 2PHẠM THẾ AN
ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN
PHÂN TÍCH NHU CẦU SỬ DỤNG DỊCH VỤ VIỄN THÔNG
TỪ CÁC BÌNH LUẬN TRÊN MẠNG XÃ HỘI
Chuyên ngành: Khoa học máy tính
Mã số: 8480101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS Hoàng Phước Lộc
ĐÀ NẴNG – 2022
Trang 3LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới TS Hoàng Phước Lộc – Giảng viêntrường Cao Đẳng Sư Phạm Quảng Trị, người thầy đã dành nhiều thời gian tậntình chỉ bảo, hướng dẫn, giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu.Thầy là người định hướng và đưa ra nhiều góp ý quý báu trong quá trình tôithực hiện luận văn
Tôi xin chân thành cảm ơn các thầy, cô ở Trường Khoa Học Máy Tính Đại học Duy Tân đã cung cấp cho tôi những kiến thức và tạo cho tôi nhữngđiều kiện thuận lợi trong suốt quá trình tôi học tập tại trường
-Tôi cũng bày tỏ lòng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồngnghiệp đã cung cấp dữ liệu, tài liệu và cho tôi những lời khuyên quý báu Tôixin cảm ơn gia đình, người thân, bạn bè và các thành viên trong nhóm nghiêncứu luôn động viên và tạo mọi điều kiện tốt nhất cho tôi
Tôi xin chân thành cảm ơn!
Đà Nẵng, tháng 10 năm 2021
Họ và tên
Phạm Thế An
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi thực hiệndưới sự hướng dẫn của TS Hoàng Phước Lộc, Giảng viên trường Cao Đẳng
Sư Phạm Quảng Trị Các số liệu, kết quả nêu trong Luận văn là trung thực vàchưa từng được ai công bố trong bất kỳ công trình nào khác
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đãđược cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồngốc
Đà Nẵng, tháng 10 năm 2021
Họ và tên
Phạm Thế An
Trang 5MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN ii
MỤC LỤC i
DANH MỤC CÁC TỪ VIẾT TẮT vi
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii
DANH MỤC CÁC BẢNG viii
MỞ ĐẦU 1
Chương 1 GIỚI THIỆU VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 4
1.1 Khái quát xử lý ngôn ngữ tự nhiên 4
1.1.1 Khái niệm 4
1.1.2 Trí tuệ nhân tạo 4
1.1.3 Nhập nhằng trong ngôn ngữ 5
1.1.4 Dịch máy 5
1.2 Quy trình xử lý ngôn ngữ tự nhiên 6
1.2.1 Tiền xử lý văn bản 6
1.2.2 Phân tích hình thái 7
1.2.3 Phân tíchcú pháp 8
1.2.4 Phân tích ngữ nghĩa 9
1.2.5 Tích hợp văn bản 11
1.2.6 Phân tích thực nghĩa 11
1.3 Các bài toán và ứng dụng của NLP 11
Trang 61.4 Kết luận chương 1 13
Chương 2 MỘT SỐ KỸ THUẬT XỬ LÝ NGÔN NGỮ 14
2.1 Khái quát về tách từ Tiếng Việt 14
2.1.1 Các hướng tiếp cận với bài toán tách từ 15
2.1.2 Nhập nhằng trong tách từ Tiếng Việt 17
2.1.2 Loại bỏ Từ dừng 18
2.2 Một số phương pháp tách từ Tiếng Việt 18
2.2.1 Phương pháp mô hình Markov ẩn 18
2.2.2 Phương pháp chuyển dịch trạng thái hữu hạn có trọng số 20
2.2.3 Phương pháp so khớp cực đại 25
2.3 Phân lớp quan điểm 28
2.3.1 Khái niệm phân lớp quan điểm 28
2.3.2 Phương pháp phân lớp dựa vào cụm từ thể hiện quan điểm 28
2.3.3 Phân lớp dựa vào phân lớp văn bản 32
2.3.4 Phân lớp dựa vào hàm tính điểm số 32
2.3.5 Phân lớp dựa vào kỹ thuật học máy 33
2.4 Kết luận chương 2 40
Chương 3 MÔ HÌNH ĐỀ XUẤT 41
3.1 Mô hình hệ thống 41
3.1.1 Giới thiệu 41
3.1.2 Mô hình hệ thống 42
3.2 Thu thập bình luận 43
3.2.1 Tiền xử lý dữ liệu 44
Trang 73.2.2 Tách từ tiếng Việt 45
3.3 Phân lớp phản hồi, bình luận 46
3.4 Thử nghiệm và đánh giá kết quả 49
3.4.1 Thu thập dữ liệu 49
3.4.2 Cài đặt giải thuật NaiveBayes 50
3.4.3 Cài đặt giải thuật Support Vector Machines (SVM ) 52
3.4.4 Cài đặt giải thuật Fasttext 53
3.4.5 Đánh giá các giải thuật 56
3.4.6 Về ưu điểm của mô hình áp dụng: 57
3.4.7 Về nhược điểm của mô hình áp dụng: 58
3.5 Kết luận chương 3 58
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59
Kết luận 59
Hướng phát triển 59
TÀI LIỆU THAM KHẢO
Trang 8DANH MỤC CÁC TỪ VIẾT TẮT
NLP nhiên)Natural language processing (Xử lý ngôn ngữ tựPOS Part – Of – Speech (Từ loại)
SVM học)Suppor vector Machine (Phương pháp sử dụng Máy
AI Artificial intelligence (Trí thông minh nhân tạo)
WFST Weighted Finite State Transducer
CRF Conditional Random Fields
PMI lẫn nhau)Pointwise mutual information (Chuẩn hóa thông tinHTML Hypertext Markup Language
Trang 9DANH MỤC CÁC BẢNG
Bảng 2.1- Bảng các nhãn từ loại của Pennn TreebankBảng 29
Bảng 2.2 - Nhãn của mẫu cho trích chọn với cụm có hai từ 30
Bảng 3.1 - Thống kê dữ liệu thu thập trên các nhãn 49
Bảng 3.2 - Bảng đánh giá kết quả thực thi các giải thuật 56
Trang 10DANH MỤC CÁC HÌNH VẼ, ĐỒ TH
Hình 1.1 - Các bước xử lý văn bản 15
Hình 1.2 - Cây cú pháp của câu "Nam là sinh viên giỏi" 18Y Hình 2.1 - Mô hình Markov ẩn 19
Hình 2.2 - Đồ thị vô hướng HMM 19
Hình 2.3 - Sơ đồ mô hình WFST 21
Hình 2.4 - Mô hình máy vector hỗ trợ khả tách tuyến tính 37
Hình 2.5 - Phương pháp lề mềm 3 Hình 3.1 - Mô hình khai thác nhu cầu của các bình luận trên mạng xã hội 42
Hình 3.2 - Các bước thu thập bình luận 43
Hình 3.3 - Sơ đồ huấn luyện cơ sở tri thức 47
Hình 3.4 - Sơ đồ xác định nhu cầu theo câu bình luận 48
Hình 3.5 - Thống kê dữ liệu thu thập trên các nhãn 50
Hình 3.6 - Cài đặt giải thuật Naive Bayes 51
Hình 3.7 – Cài đặt giải thuật SVM 53
Hình 3.8 - Kiến trúc mô hình của fastText cho một câu với các thuộc tính từ ngram x1, x2,…,xN 54
Hình 3.9 - Các word được tách ra từ câu “this is a sentence” với n=3 55
Hình 3 10 - Cài đặt giải thuật Fasttext 56
Trang 11MỞ ĐẦU
1 Lý do chọn đề tài
Mạng xã hội là nơi mang mọi người đến với nhau để trò chuyện, chia sẻ
ý tưởng, sở thích và kết nối với nhau qua phương tiện truyền thông xã hội haycòn gọi là Social Media Không giống như các phương tiện truyền thống, cáctrang web truyền thông mạng xã hội chứa nội dung do hàng trăm hoặc thậmchí hàng triệu người khác nhau tạo ra Với sự phổ biến của các trang mạng xãhội, ngày càng có nhiều người trở thành một phần của cộng đồng trực tuyến.Mạng xã hội không chỉ là nơi để mọi người giao lưu, kết nối và chia sẻ,mạng xã hội còn là “mảnh đất vàng” cho kinh doanh Online, hỗ trợ tìm kiếmkhách hàng, tương tác, thậm chí là quảng cáo, xây dựng thương hiệu doanhnghiệp hoặc xây dựng thương hiệu cá nhân Mạng xã hội có bản chất của hoạtđộng xã hội, ở đây, người sử dụng có thể đưa ra những bình luận, nhận xét vàđánh giá của mình về các sản phẩm hay dịch vụ họ đã và đang sử dụng Do
đó, thông tin từ mạng xã hội rất có ý nghĩa cho các công ty, nhà cung cấp Từ
đó những người đã tạo sản phẩm, dịch vụ nếu họ có chiến lược thu thập thôngtin phản hồi của người dùng hợp lý để từ đó điều chỉnh sản phẩm, dịch vụ của
họ nhằm đáp ứng nhu cầu người dùng
AI và học máy đang trở thành một phần cốt lõi của ngành công nghệbằng cách giúp các doanh nghiệp (DN) đạt được mục tiêu, đưa ra các quyếtđịnh quan trọng và tạo ra các sản phẩm và dịch vụ sáng tạo Trên thực tế, thịtrường AI và ML (Machine Learning) có khả năng tăng trưởng 9 tỷ USD vàonăm 2022, với tốc độ tăng trưởng CAGR (Compounded Annual Growth rate)
là 44%
Việc kết hợp AI và khai thác thế mạnh của mạng xã hội sẽ giúp cácdoanh nghiệp đưa ra các phân tích, quyết định kinh doanh đúng đắn, hạn chếcác sai lầm do phán đoán chủ quan Đồng thời tạo điều kiện giúp doanh
Trang 12nghiệp hiện diện mọi lúc mọi nơi, tìm kiếm được tập khách hàng tiềm năng vàgia tăng doanh số bán hàng hiệu quả.
Từ thực tiễn đó tôi đã thực hiện đề tài luận văn “Ứng dụng xử lý ngôn ngữ tự nhiên phân tích nhu cầu sử dụng dịch vụ viễn thông từ các bình luận trên mạng xã hội”
2 Mục tiêu và nhiệm vụ nghiên cứu
Mục tiêu của đề tài là đi sâu nghiên cứu về các kỷ thuật xử lý ngôn ngữtự nhiên Từ đó áp dụng các kỹ thuật để khai thác quan điểm của người dùng
về các dịch vụ Viễn thông từ các bình luận trên mạng xã hội Góp phần manglại lợi ích cho doanh nghiệp trong việc tìm kiếm khách hàng tiềm năng, chămsóc khách hàng, đề xuất các chương trình bán hàng phù hợp
3 Đối tượng và phạm vi đề tài
Đối tượng nghiên cứu của đề tài là: Các nội dung tổng quan về xử lýngôn ngữ tự nhiên, các kỹ thuật xử lý ngôn ngữ tự nhiên, bài toán khai thácquan điểm khách hàng từ các bình luận trên mạng xã hội
Do khối lượng thông tin trên mạng xã hội là rất lớn, bao gồm rất nhiềulĩnh vực, khía cạnh khác nhau, dẫn đến quy mô dữ liệu và phạm vi xử lý là rấtlớn Vì vậy cần thu hẹp phạm vi nghiên cứu với một chủ đề cụ thể
Trong đề tài này, phạm vi nghiên cứu là phân tích các bình luận củakhách hàng tại trang Fanpage của Vinaphone trên mạng xã hội Facebook đểphân loại các khách hàng có nhu cầu sử dụng các dịch vụ về Internet, di động
và truyền hình số
4 Phương pháp nghiên cứu
Để thực hiện luận văn này, tôi đã sử dụng 02 phương pháp nghiên cứukhoa học để tiếp cận và làm rõ những vấn đề của đề tài đặt ra, cụ thể đó là:
- Phương pháp phân tích và tổng hợp lý thuyết: Nghiên cứu các tài liệu
khác nhau về khái niệm và các kỹ thuật xử lý ngôn ngữ tự nhiên; phân tích để
Trang 13tìm hiểu đối với mỗi vấn đề và tổng hợp để có cái nhìn tổng quan, đầy đủ vềcác vấn đề cần tìm hiểu.
- Phương pháp thực nghiệm khoa học: Thực hiện thu thập, xử lý các
bình luận; Xây dựng dataset, gán nhãn cho các câu bình luận Áp dụng các kỹthuật xử lý ngôn ngữ tự nhiên để phân lớp theo thuật toán học sâu
Luận văn được trình bày với bố cục như sau:
5 Tổng quan vấn đề nghiên cứu
Nội dung của đề tài mang ý nghĩa khoa học khi cung cấp một cách nhìntổng quan về xử lý ngôn ngữ tự nhiên và nghiên cứu các kỹ thuật xử lý ngônngữ tự nhiên; đưa ra mô hình khai thác các quan điểm của khách hàng và xâydựng cơ sở dữ liệu tri thức về nhu cầu của khách hàng
Đề tài luận văn cũng mang ý nghĩa thực tiễn khi thực nghiệm cácphương pháp trên với tập dữ liệu thực tế, mô tả các kết quả đạt được, từ đóxây dựng các quy trình, giải pháp, công cụ tìm hiểu nhu cầu của khách hàng,chăm sóc khách hàng, nâng cao chất lượng, hiệu quả trong hoạt động sản xuấtkinh doanh của đơn vị
6 Cấu trúc luận văn
Luận văn được trình bày với bố cụ gồm có phần mở đầu, kết luận và 03chương, cụ thể như sau:
Chương 1: Giới thiệu về xử lý ngôn ngữ tự nhiên: Giới thiệu các khái
niệm, khái quát chung về NLP
Chương 2: Một số kỹ thuật xử lý ngôn ngữ: Giới thiệu mộ số kỹ thuật
để xử lý ngôn ngữ tự nhiên Tiếng Việt
Chương 3: Mô hình đề xuất: Đề xuất mô hình, thực nghiệm cho quá
trình nghiên cứu
Trang 14Chương 1 GIỚI THIỆU VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
1.1 Khái quát xử lý ngôn ngữ tự nhiên
1.1.1 Khái niệm
Ngôn ngữ là hệ thống để giao thiệp hay suy luận dùng một cách biểudiễn phép ẩn dụ và một loại ngữ pháp theo logic, mỗi cái đó bao hàm một tiêuchuẩn hay sự thật thuộc lịch sử và siêu việt Nhiều ngôn ngữ sử dụng điệu bộ,
âm thanh, ký hiệu, hay chữ viết, và cố gắng truyền khái niệm, ý nghĩa, và ýnghĩ, tuy nhiên, nhiều khi những khía cạnh này nằm sát quá, cho nên khóphân biệt nó
NLP (Natural Language Processing) là khái niệm để chỉ các kĩ thuật,phương pháp tác động trên ngôn ngữ tự nhiên bằng máy tính Chúng ta cầnphân biệt ngôn ngữ tự nhiên (ví dụ như tiếng Việt, tiếng Anh, tiếng Nhật… lànhững ngôn ngữ trong giao tiếp thường ngày) và ngôn ngữ nhân tạo (nhưngôn ngữ lập trình, ngôn ngữ máy, …)
Ngoài ra, xử lý ngôn ngữ tự nhiên cũng là một nhánh của trí tuệ nhân tạotập trung vào các ứng dụng trên ngôn ngữ tự nhiên của con người Trong trítuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những nội dung khónhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảonhất của tư duy và giao tiếp
1.1.2 Trí tuệ nhân tạo
Trí tuệ nhân tạo hay trí thông minh nhân tạo AI (Artificial intelligence)
là một ngành thuộc lĩnh vực khoa học máy tính Là trí tuệ do con người lậptrình tạo nên với mục tiêu giúp máy tính có thể tự động hóa các hành vi thôngminh như con người
Trí tuệ nhân tạo có thể được phân thành ba loại hệ thống khác nhau: Trítuệ nhân tạo phân tích, lấy cảm hứng từ con người và nhân tạo AI phân tích
Trang 15chỉ có các đặc điểm phù hợp với trí tuệ nhân thức; tạo ra một đại diện nhậnthức về thế giới và sử dụng học tập dựa trên kinh nghiệm trong quá khứ đểthông báo các quyết định trong tương lai AI lấy cảm hứng từ con người cócác yếu tố từ trí tuệ nhận thức và cảm xúc; hiểu cảm xúc của con người, ngoàicác yếu tố nhận thức và xem xét chúng trong việc ra quyết định AI nhân cáchhóa cho thấy các đặc điểm của tất cả các loại năng lực (nghĩa là trí tuệ nhậnthức, cảm xúc và xã hội), có khả năng tự ý thức và tự nhận thức được trongcác tương tác.
1.1.3 Nhập nhằng trong ngôn ngữ
Nhập nhằng trong ngôn ngữ học là hiện tượng thường gặp, trong giaotiếp hàng ngày con người ít để ý đến nó bởi vì họ xử lý tốt hiện tượng nàytheo ngữ cảnh cụ thể Nhưng trong các ứng dụng liên quan đến xử lý ngônngữ tự nhiên khi phải thao tác với ý nghĩa từ vựng mà điển hình là dịch tựđộng thì nhập nhằng trở thành vấn đề nghiêm trọng Ví dụ trong một câu cầndịch có xuất hiện từ “đường” như trong câu “Cà phê này cần cho thêmđường” vấn đề nảy sinh là cần dịch từ này là đường (sử dụng trong thức ăncủa con người) hay đường (sử dụng trong giao thông), con người xác địnhchúng khá dễ dàng căn cứ vào văn cảnh và các dấu hiệu nhận biết khác nhưngvới máy thì không Một số hiện tượng nhập nhằng: Nhập nhằng ranh giới từ,Nhập nhằng từ đa nghĩa, Nhập nhằng từ đồng âm (đồng tự), Nhập nhằng từloại
1.1.4 Dịch máy
Dịch máy là một trong những ứng dụng chính của xử lý ngôn ngữ tựnhiên, dùng máy tính để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.Mặc dù dịch máy đã được nghiên cứu và phát triển hơn 50 năm qua, song vẫntồn tại nhiều vấn đề cần nghiên cứu Ở Việt Nam, dịch máy đã được nghiêncứu hơn 20 năm, nhưng các sản phẩm dịch máy hiện tại cho chất lượng dịch
Trang 16còn nhiều hạn chế Hiện nay, dịch máy được phân chia thành một số phươngpháp như: dịch máy trên cơ sở luật, dịch máy thống kê và dịch máy trên cơ sở
ví dụ
1.2 Quy trình xử lý ngôn ngữ tự nhiên
Quá trình xử lý văn bản hay quá trình phân tích và kiểm tra tính chínhxác của văn bản là một vấn đề khá phức tạp, trải qua nhiều bước khác nhau Ởmỗi bước xử lý đòi hỏi người nghiên cứu phải có một kiến vững vàng về ngônngữ cũng như nhiều kiến thức bổ trợ khác mới có thể xử lý tốt được Quátrình này thường được chia thành các bước cụ thể sau: Tiền xử lý văn bản,phân tích hình thái, phân tích cú pháp, phân tích ngữ nghĩa, tích hợp văn bản
và phân tích ngữ dụng Sau đây ta sẽ mô tả từng công việc:
Hình 1.1 - Các bước xử lý văn bản 1.2.1 Tiền xử lý văn bản
Khi đầu vào của hệ xử lý ngôn ngữ là một văn bản, ta cần phải có thêmtầng tiền xử lý để xử lý sơ bộ văn bản đầu vào, rồi phân tách nó thành các đơn
vị rõ ràng để cho hệ xử lý chính dễ dàng thực hiện Cụ thể bước này sẽ baogồm các công việc sau:
Trước nhất, bước tiền xử lý sẽ xử lý sơ bộ văn bản đầu vào (làm sạchvăn bản) bằng cách xóa bỏ những ký tự, những mã điều khiển, những vùngkhông cần thiết cho việc xử lý
Trong mỗi văn bản, bước tiền xử lý sẽ nhận diện các tiêu đề, các chúthích, các số thứ tự và gạch đầu dòng, các đoạn văn trong văn bản
Trong mỗi đoạn văn, bước tiền xử lý sẽ phân rã nó ra thành các câu làđơn vị cơ sở của một văn bản Đây là giai đoạn khó nhất và sẽ là trọng tâm
Trang 17của bước tiền xử lý, như dấu “.” trong trường hợp sau (không biết đâu là dấuchấm câu).
Ví dụ: Với khoản tiền 100.000 triệu đồng bạn có thể học chuyển tiếp 2
năm thạc sỹ tại Việt Nam
Xa hơn nữa, bước tiền xử lý có thể phân tích câu thành những ngữ đểgiảm bớt gánh nặng đồng thời tăng chất lượng cũng như tốc độ xử lý của hệthống
1.2.2 Phân tích hình thái
Trong bước này từng từ sẽ được phân tích và các ký tự không phải chữ(như các dấu câu) sẽ được tách ra khỏi các từ Trong tiếng Anh và nhiều ngônngữ khác các từ được phân tách với nhau bằng dấu cách Tuy nhiên trongtiếng Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ khôngphải từ Cùng với các ngôn ngữ như tiếng Trung, tiếng Hàn, tiếng Nhật, phântách từ trong tiếng Việt là một công việc không hề đơn giản
Bước này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ)riêng biệt, đồng thời kèm theo tất cả các thông tin về từ đó, như là: Từ loại,phạm trù ngữ pháp, các biến cách của từ, tiền tố, hậu tố của từ (nếu có) Trongtrường hợp gặp từ mới, hệ thống sẽ để nguyên và đánh dấu một từ loại đặcbiệt để chuyển sang phần xử lý tên riêng hay từ mới Bước phân tích hình tháigồm các phần:
Phân tích phụ tố: Bao gồm tiền tố và hậu tố, ta thường gặp các loại phụ
tố này trong tiếng Anh Xử lý từ ghép, ngữ cố định: Nhận diện được từ ghéphay ngữ cố định từ các thành tố của chúng, như ngôi nhà, sách gối đầugiường…
Xử lý các trường hợp tỉnh lược (bỏ bớt) trong một số từ như đại từ, thờigian…
Trang 18Đánh dấu từ loại các từ trong câu để xác định từ loại của từ một cách tựđộng, chủ yếu ta phải giải quyết trường hợp nhập nhằng từ loại (một từ cónhiều từ loại), nhưng trong câu cụ thể, ta chỉ có thể có một từ loại đúng màthôi.
Ví dụ: Trong câu “Học sinh học sinh học”, ta sẽ phải đánh dấu từ loại
như sau: “Học sinh | danh từ học | động từ sinh học | danh từ”.
Thông thường, nhất là với các ngôn ngữ ở châu Âu, nhiệm vụ phân tíchcâu thành các từ độc lập của khối phân tích hình thái là không khó vì hầu hếttất cả các từ đều nằm nguyên thành một chữ, không cần chia cắt, ngoại trừmột số trường hợp đặc biệt như viết tắt (có thể xử lý ngoại lệ) Với một sốngôn ngữ như với tiếng Việt, tiếng Nhật, vấn đề trở nên rất khó nếu các từtrong ngôn ngữ được thành nhiều cụm có thể hiểu nhập nhằng
Ví dụ: Xét câu sau “Ông già đi nhanh quá” Chúng ta có ít nhất 2 cách
phân cách từ:
Cách 1: “Ông già” | “đi” | “nhanh” | “quá”
Cách 2: “Ông” | “già đi” | “nhanh” | “quá”
Trong trường hợp trên không có cách nào đánh giá cách phân cách từnào tốt hơn, chúng ta đành phải coi bài toán như là việc dịch 2 câu, đến phần
xử lý ngữ nghĩa sẽ tiến hành đánh giá lại xem trường hợp nào là hợp lý hơn
Trang 19cần có bộ luật văn phạm và giải thuật phân tích cú pháp Hiện nay, người ta
đã đưa nhiều lý thuyết văn phạm (như: CFG, UG, LG, TAG,…), và các giảithuật phân tích cú pháp hiệu quả (Earley, Tomita, TBL,…)
Ví dụ: Nhập câu “Nam là sinh viên giỏi”, sẽ phân tích như sau: [Nam]
DT [là Đt [sinh viên DT giỏi TT]NP]VP và cây cú pháp tương ứng:
Trong đó :Cn,Vn : chủ ngữ, vị ngữ
Dt :Danh từ
VP : động ngữ
NP : danh ngữTT: tính từ
Đt : động từ
Hình 1.2 - Cây cú pháp của câu "Nam là sinh viên giỏi"
Các tập luật cú pháp phải được xây dựng theo cơ chế mở, có thể sửa đổi,
bổ sung hay loại bỏ các luật Kết quả của bước phân tích cú pháp phụ thuộcrất nhiều vào tính chính xác và đầy đủ của các luật cú pháp
1.2.4 Phân tích ngữ nghĩa
Mục đích của việc phân tích ngữ nghĩa là kiểm tra ý nghĩa của câu cómâu thuẫn với ý nghĩa của đoạn hay không Dựa trên mối liên hệ logic vềnghĩa giữa các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệthống sẽ xác định được một phần ý nghĩa của câu trong ngữ cảnh của đoạn.Đầu vào của giai đoạn phân tích ngữ nghĩa là tập các khả năng phân tíchcâu và thông tin về ngữ nghĩa của tất cả các từ Các thực từ thường có nhiều
Trang 20nghĩa và nghĩa của nó chỉ được xác định duy nhất trong mối quan hệ giảithích với các từ khác trong câu.
Giải quyết nhập nhằng nghĩa ở mức từ vựng:
Xét ví dụ “Tôi với quả bóng ở trên cao”, ta có từ “với” là “liên từ” hoặc
“động từ” Để chọn được nghĩa thích cho từ “với” trong trường hợp nàychúng ta phải vận dụng các ý niệm của ngôn ngữ học tri nhận để biết rằng
“với” là động từ chỉ hành động tác động đến một danh từ chỉ sự vật, và “với”
là liên từ liên kết giữa hai đối tượng có cùng kiểu Kết hợp những ý niệm ấy,
ta có “tôi” là đại từ và “quả bóng” là danh từ chỉ sự vật không thuộc cùngdạng đối tượng, do đó máy tính sẽ chọn từ “với” có nghĩa là “động từ” chotrường hợp này
Mức độ nhập nhằng cấu trúc:
Ví dụ: “Một người đàn ông và một người đàn bà già”, ta có 2 cách phân
tích
Cách 1: “Người đàn ông| và |người đàn bà già”;
Cách 2: “Người đàn ông và người đàn bà| già”;
Máy tính sẽ chọn cách phân tích thứ hai, do tính cân bằng vốn có trongcấu trúc song song của liên từ “và”
Tuy nhiên, nếu xét “Một đứa trẻ và một người đàn ông già”, ta cũng sẽ
có 2 cách phân tích:
“Đứa trẻ| và |người đàn ông già”
“Đứa trẻ và người đàn ông| già”
Máy tính sẽ chọn cách phân tích thứ nhất, vì máy thấy cấu trúc thứ hai là
vô lý, do có sự đối lập về ngữ nghĩa giữa thuộc tính “trẻ” trong “đứa trẻ” vàthuộc tính “già” trong “người đàn ông”
Mức độ nhập nhằng liên câu
Trang 21Ví dụ xét câu “Con khỉ ăn quả chuối vì nó đói”, máy tính hiện nay, trong
một số trường hợp, có thể xác định được đại từ “nó” thay thế cho từ nào: “conkhỉ” hay “quả chuối” Để giải quyết được nhập nhằng này, máy tính phải xemlại mệnh đề trước và vận dụng tri thức về thế giới thực (có trong WordNet) để
biết rằng “chỉ có khỉ mới có khả năng đói” nên sẽ chọn “nó thay thế cho con
khỉ” Còn trong câu: “Con khỉ ăn quả chuối vì nó chín”, thì máy tính sẽ biết
rằng “chỉ có chuối mới có khả năng chín” nên sẽ chọn “nó” thay thế cho “quả
Cấu trúc thể hiện điều được phát ngôn sẽ được thông dịch lại để xác định
nó thật sự có nghĩa là gì Đây là quá trình phân tích nhằm xác định ý nghĩacâu dựa trên mối liên hệ của câu với hiện thực Ý nghĩa thực tế của câu phụthuộc rất nhiều vào ý tứ của người nói và ngữ cảnh diễn ra lời nói Do vậy,quá trình phân tích thực chứng rất khó thực hiện bằng máy tính
Trong một số trường hợp nhập nhằng, ta không thể dùng thông tin bêntrong nội bộ câu hay câu lân cận, mà phải xét trên toàn nội dung văn bản, xemxét xem văn bản đang bàn về vấn đề gì, thuộc lĩnh vực gì, để từ đó mới có thểchọn đúng nghĩa của từ, câu
Ví dụ: Từ “sentence” vừa có nghĩa là “câu” vừa có nghĩa là “án tù”, ta
phải xem xét xem văn bản này đang bàn về “ngữ pháp” hay “luật pháp”
Để xác định được ngữ cảnh toàn văn bản, máy tính phải dựa vào sự xuấthiện của các từ khóa trên toàn văn bản Ngoài ra, việc xác định ngữ cảnh nàycòn được ứng dụng vào việc phân loại văn bản tự động
1.3 Các bài toán và ứng dụng của NLP
Trang 22Xử lý ngôn ngữ tự nhiên đã được ứng dụng trong thực tế để giải quyếtcác bài toán như: Nhận dạng chữ viết, nhận dạng tiếng nói, tổng hợp tiếngnói, dịch tự động, tìm kiếm thông tin, tóm tắt văn bản, khai phá dữ liệu vàphát hiện tri thức.
Nhận dạng chữ viết: Từ một văn bản trên giấy, nhận biết từng chữ cái và
chuyển chúng thành một tệp văn bản trên máy tính, có hai kiểu nhận dạng:Thứ nhất là nhận dạng chữ in Ví dụ: Nhận dạng chữ trên sách giáo khoa rồichuyển nó thành dạng văn bản điện tử như dưới định dạng doc của MicrosoftWord chẳng hạn
Phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết taykhông có khuôn dạng rõ ràng và thay đổi từ người này sang người khác Vớinhiều chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sáchtrong thư viện thành văn bản điện tử trong thời gian ngắn Nhận dạng chữ viếtcủa con người có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhậndạng chữ ký điện tử)
Nhận dạng tiếng nói: Từ sóng tiếng nói nhận biết rồi chuyển chúng
thành dữ liệu văn bản tương ứng Giúp thao tác của con người trên các thiết bịnhanh hơn và đơn giản hơn, chẳng hạn thay vì gõ một tài liệu nào đó bạn đọc
nó lên và trình soạn thảo sẽ tự ghi nó ra Đây cũng là bước đầu tiên cần phảithực hiện trong ước mơ thực hiện giao tiếp giữa con người với robot Nhậndạng tiếng nói có khả năng trợ giúp người khiếm thị rất nhiều
Tổng hợp tiếng nói: Từ dữ liệu văn bản, phân tích và chuyển thành thành
tiếng nói Thay vì phải tự đọc một cuốn sách hay nội dung một trang web, nótự động đọc cho chúng ta Giống như nhận dạng tiếng nói, tổng hợp tiếng nói
là sự trợ giúp tốt cho người khiếm thị, nhưng ngược lại nó là bước cuối cùngtrong giao tiếp giữa robot với người
Trang 23Dịch tự động: Như tên gọi đây là chương trình dịch tự động từ ngôn ngữ
này sang ngôn ngữ khác Một phần mềm điển hình về tiếng Việt của chươngtrình này là Evtrans của Softex, dịch tự động từ tiếng Anh sang tiếng Việt vàngược lại, phần mềm từng được trang web vdict.com mua bản quyền, đâycũng là trang đầu tiên đưa ứng dụng này lên mạng
Tìm kiếm và truy xuất thông tin: Từ một nguồn rất nhiều tệp văn bản và
tiếng nói, tìm ra những tệp có liên quan đến một vấn đề Các máy tìm kiếmdựa trên giao diện web như Google hay Yahoo hiện nay chỉ phân tích nộidung rất đơn giản dựa trên tần suất của từ khoá và thứ hạng của trang và một
số tiêu chí đánh giá khác để đưa ra kết luận, kết quả là rất nhiều tìm kiếmkhông nhận được câu trả lời phù hợp, thậm chí bị dẫn tới một liên kết khôngliên quan gì do thủ thuật đánh lừa của các trang web nhằm giới thiệu sảnphẩm
Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn
hơn theo mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất
Khai phá dữ liệu và phát hiện tri thức: Từ rất nhiều tài liệu khác nhau
phát hiện ra tri thức mới Thực tế để làm được điều này rất khó, nó gần như là
mô phỏng quá trình học tập, khám phá khoa học của con người, đây là lĩnhvực đang trong giai đoạn đầu phát triển Ở mức độ đơn giản khi kết hợp vớimáy tìm kiếm nó cho phép đặt câu hỏi để từ đó công cụ tự tìm ra câu trả lờidựa trên các thông tin trên web mặc cho việc trước đó có câu trả lời lưu trênweb hay không (giống như trang Yahoo hỏi và đáp, nơi chuyên đặt các câuhỏi để người khác trả lời), nói một cách nôm na là nó đã biết xử lý dữ liệu đểtrả lời câu hỏi của người sử dụng, thay vì máy móc đáp trả những gì chỉ cósẵn trong bộ nhớ
Phân tích cảm xúc: Việc phân tích cảm xúc trong văn bản được ứng
dụng trong hàng loạt các vấn đề như: Quản trị thương hiệu doanh nghiệp,
Trang 24thương hiệu sản phẩm, quản trị quan hệ khách hàng, khảo sát ý kiến xã hộihọc, phân tích trạng thái tâm lý con người
1.4 Kết luận chương 1
Chương này trình bày tổng quan các khái niệm về NLP và các bước để xử
lý ngôn ngữ tự nhiên, các kỹ thuật và các bài toán liên quan đến xử lý ngônngữ tự nhiên cũng như những ứng dụng của NLP trong công nghệ và cuộcsống
Chương 2 MỘT SỐ KỸ THUẬT XỬ LÝ NGÔN NGỮ
2.1 Khái quát về tách từ Tiếng Việt
Tiếng Việt là một ngôn ngữ đơn lập, không biến hình, các ký tự đượcdựa trên hệ chữ cái Latinh (Alphabetic), đặc điểm này bao quát toàn bộ tiếngViệt về mặt ngữ âm, ngữ nghĩa và ngữ pháp[1] Cũng giống như với các ngônngữ khác như tiếng Trung, tiếng Nhật, tiếng Hàn thì từ trong tiếng Việt khôngchỉ sử dụng kí tự “khoảng trắng” (dấu cách) để phân biệt giữa các từ Một từtiếng Việt có thể được tạo bởi một hoặc nhiều hình vị và mỗi hình vị phântách nhau bởi các khoảng trắng Từ là đơn vị cơ bản để phân tích cấu trúc củangôn ngữ Vì thế cũng giống như trong tiếng Trung và các nước Châu Á kháctách từ là một vấn đề cần được xem xét trong xử lý ngôn ngữ tự nhiên Bàitoán tách từ đã được đặt ra từ lâu và đã được giải quyết tốt trong tiếng Việtvới hiệu suất cao
Trong tiếng Việt, ngoài từ đơn (một âm tiết), còn có từ ghép (đa âm tiết).Như vậy, khoảng trống giữa các từ không có vai trò làm ranh giới để phântách các từ Mỗi từ có thể là một từ đơn hoặc gồm nhiều từ đơn ghép lại Vìvậy, trong các vấn đề xử lý ngôn ngữ tiếng Việt như xác định ngữ pháp, phân
Trang 25loại từ loại không thể bỏ qua quá trình tách từ Tuy nhiên đây là một bàitoán khó giải quyết.[2]
Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các
từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác địnhcác từ đơn, từ ghép… có trong câu Đối với xử lý ngôn ngữ, để có thể xácđịnh cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầunhất thiết đặt ra là phải xác định được đâu là từ trong câu Vấn đề này tưởngchừng đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khógiải quyết
Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các
hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt là đối với các ngôn ngữ thuộcvùng Đông Á theo loại hình ngôn ngữ đơn lập, như Tiếng Trung Quốc, tiếngNhật, tiếng Thái và tiếng Việt Với các ngôn ngữ thuộc loại hình này, ranhgiới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữthuộc loại hình hòa kết như tiếng Anh…, mà có sự liên hệ chặt chẽ giữa cáctiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng Vì vậy đối vớicác ngôn ngữ thuộc vùng Đông Á, vấn đề của bài toán tách từ là khử được sựnhập nhằng trong ranh giới từ
2.1.1 Các hướng tiếp cận với bài toán tách từ
Các công trình nghiên cứu về lĩnh vực này chủ yếu là thử nghiệm, nổibật trong đó là các công trình: Công trình của tác giả Lê Hà An [3], Côngtrình “Hệ phân tách từ Việt” nằm trong nhóm sản phẩm của đề tàiKC01.01/06-10 Chuyển trạng thái hữu hạn có trọng số, đây có thể được xem
là mô hình tách từ đầu tiên dành cho tiếng Việt Mô hình này là một cải tiếncủa mô hình WFST (Weighted Finite State Transducer) áp dụng cho tiếngTrung Quốc để phù hợp hơn với tiếng Việt
Trang 26Các nhà nghiên cứu đã đề xuất một số hướng tiếp cận để giải bài toántách từ Nhìn chung, các hướng tiếp cận đó được chia thành hai hướng: Tiếpcận dựa trên từ, tiếp cận dựa trên thống kê
2.1.1.1 Các hướng tiếp cận dựa trên từ
Được chia thành 3 nhóm: Dựa vào thống kê, dựa vào từ điển và nhómlai, nhằm tách từ trọn vẹn trong câu
Trong hướng tiếp cận dựa vào từ điển, các phân đoạn văn bản được đốisánh dựa vào từ điển Việc xây dựng từ điển các từ và ngữ tiếng Việt là khôngkhả thi Hai phương pháp tiêu biểu của hướng tiếp cận dựa vào từ điển làLongest Matching và Maximal Matching Hầu hết những nghiên cứu khởithủy về tách từ đều dựa trên cách tiếp cận này Hướng tiếp cận này có đặcđiểm là đơn giản, dễ hiểu tuy nhiên hiệu quả mang lại không cao Lý do là bởi
nó không xử lý được rất nhiều trường hợp nhập nhằng cũng như không có khảnăng phát hiện từ mới trong văn bản Chính vì vậy mà các hệ thống tách từ cóchất lượng cao hiện nay thường sử dụng hướng tiếp cận dựa trên thống kê.Các giải pháp theo hướng tiếp cận dựa vào thống kê cần phải dựa vàothông tin thống kê như term, từ hay tần số ký tự, hay xác suất cùng xuất hiệntrong một tập dữ liệu cơ sở Do đó, tính hiệu quả của các giải pháp này chủyếu dựa vào ngữ liệu huấn luyện cụ thể được sử dụng Tuy nhiên, đây lại làvấn đề khó khăn đối với bài toán tách từ tiếng Việt Đinh Điền [4] đã xâydựng ngữ liệu huấn luyện riêng (khoảng 10MB) dựa vào các tài nguyên, tintức và sách điện tử trên Internet, bộ ngữ liệu này khá nhỏ và không toàn diện(tức là không đủ rộng, bao gồm đủ các lĩnh vực, chủ đề khác nhau)
Hiện nay, rất nhiều hệ thống phân đoạn từ phổ biến sử dụng hướng dẫncận lai Hướng tiếp cận lai áp dụng nhiều cách khác nhau để tận dụng ưu điểmcủa các giải pháp Ví dụ, nhóm tác giả Cẩm Tú [5] đã nghiên cứu ứng dụngcác mô hình CRF và SVM để phân đoạn từ tiếng Việt Hoặc như nhóm tác giả
Trang 27Đình Điền [4] đã sử dụng mô hình MEM sử dụng giải thuật tối ưu GIS đểhuấn luyện bộ phận đoạn theo corpus gán nhãn Trong nghiên cứu đó, tác giảphân tích hai quá trình nhận dạng từ mới và phân đoạn từ đã viết như hai tiếntrình đối lập nhau Tuy nhiên, nhận thấy rằng sử dụng lai ghép hai tiến trìnhđồng thời để nâng cao độ chính xác.
2.1.1.2 Các hướng tiếp cận dựa trên ký tự từ
Các hướng tiếp cận dựa trên ký tự từ (dựa trên “tiếng” trong tiếng tiếngViệt) có thể chia làm 2 nhóm nhỏ: uni-gram và n-gram Các phương pháp nàytuy đơn giản nhưng mang lại nhiều kết quả quan trọng được minh chứngthông qua một số công trình nghiên cứu đã được công bố, như của tác giả Lê
An Hà [3] xây dựng tập ngữ liệu thô 10MB bằng cách sử dụng phương phápqui hoạch động để cực đại hóa xác suất xuất hiện của các ngữ được phân cáchbởi các ký tự phân cách Kết quả thực nghiệm tuy không cao nhưng cũng đãthấy n-gram sẽ trở nên hữu ích nếu ta biết cách sử dụng thông tin này thì liênkết với các nguồn thông tin khác
2.1.2 Nhập nhằng trong tách từ Tiếng Việt
Nếu chúng ta tiến hành tách từ thủ công, thì việc nhập nhằng rất khó xảy
ra Do ta đã hiểu được ngữ nghĩa của câu và tách từ dựa trên ngữ nghĩa của từtrong câu Tuy nhiên việc tách từ bằng tay là điều không thể thực hiện đượcvới tập dữ liệu khổng lồ Mà máy tính thì không thể hiểu hết ngữ nghĩa củacâu, nên việc nhập nhằng xảy ra là tất yếu Trong tiếng Việt hiện nay xuấthiện nhiều hiện tượng nhập nhằng như: Nhập nhằng về phạm vi, ranh giới từ;nhập nhằng do tính đa nghĩa của từ, nhập nhằng ngữ nghĩa khi sử dụng từđồng âm (đồng tự), nhập nhằng trong cách phân biệt từ loại; nhập nhằng khi
sử dụng tiếng Việt không dấu, nhập nhằng trong phân tích cú pháp tiếng Việt.Nhập nhằng trong tách từ tiếng Việt có thể chia làm hai loại: Nhập nhằngchồng chéo và nhập nhằng kết hợp
Trang 28Ví dụ: “Đàn gà mới nở hôm qua chết mất hai con” Các từ ”đàn”, “gà”,
“đàn gà” đều có nghĩa trong từ điển
Ngoài vấn đề nhập nhằng, khi tách từ tiếng Việt còn gặp các khó khăntrong việc xác định các từ chưa biết trước (đối với máy tính) như danh từriêng, từ vay mượn nước ngoài, từ chỉ số, các câu thành ngữ, từ láy
Mức độ giải quyết tốt hai vấn đề trên sẽ quyết định hiệu suất của mộtphương pháp tách từ và quyết định nó có tốt hay không
2.1.2 Loại bỏ Từ dừng
Từ dừng hay (còn gọi là Stop word) là những từ xuất hiện nhiều trongtất cả các văn bản thuộc mọi thể loại trong tập dữ liệu, hay những từ chỉ xuấthiện trong một và một vài văn bản Nghĩa là stop word là những từ xuất hiệnquá nhiều lần và quá ít lần Chúng không có ý nghĩa và không chứa thông tinđáng giá để chúng ta sử dụng Ví dụ như các từ: thì, là, mà, và, hoặc, bởi Trong việc phân loại văn bản thì sự xuất hiện của những từ đó khôngnhững không giúp gì trong việc đánh giá phân loại mà còn nhiễn và giảm độchính xác của quá trình phân loại
2.2 Một số phương pháp tách từ Tiếng Việt
2.2.1 Phương pháp mô hình Markov ẩn
Trang 29Mô hình Markov (Hidden Markov Model - HMM) được giới thiệu vàocuối những năm 1960 [6] Cho đến hiện nay nó có một ứng dụng khá rộngnhư trong nhận dạng giọng nói, tính toán sinh học và xử lý ngôn ngữ tự nhiên.
Mô hình Markov là mô hình máy hữu hạn trạng thái với các tham sốbiểu diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗitrạng thái
Mô hình Markov ẩn là mô hình thống kê trong đó hệ thống được môhình hóa được cho là một quá trình Markov với các tham số không biết trước
và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được, dựatrên sự thừa nhận này Các tham số của mô hình được rút ra sau đó có thể sửdụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạngmẫu
Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếpbởi người quan sát, vì vậy các xác suất chuyển tiếp trạng thái là các tham sốduy nhất Mô hình Markov ẩn thêm vào các đầu ra, mỗi trạng thái có xác suấtphân bổ trên các biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy của các biểuhiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái
Các chuyển tiếp trạng thái trong mô hình Markov ẩn
Hình 2.1 - Mô hình Markov ẩn
- x i: Các trạng thái trong mô hình Markov
- a ij: Các xác suất chuyển tiếp
Trang 30- b ij: Các xác suất đầu ra
- y i: Các dữ liệu quan sát
Mô hình Markov ẩn thêm vào các đầu ra, mỗi trạng thái có xác suất phân
bố trên các biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy của các biểu hiện đượcsinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái Ta có tìm ra đượcchuỗi các trạng thái mô tả tốt nhất cho chuỗi dữ liệu quan sát được bằng cáchtính
P(Y ∣ X )=P (Y ∣ X )/P( X ) (2.1)
Hình 2.2 - Đồ thị vô hướng HMM
Ở đó Y n là trạng thái tại thời điểm thứ t=ntrong chuỗi trạng thái Y , X n là dữliệu quan sát được tại thời điểm thứ t=n trong chuỗi X Do trạng thái hiện tại chỉ phụ thuộc vào trạng thái ngay trước đó với giả thiết rằng dữ liệu quan sát được tại thời điểm t chỉ phụ thuộc vào trạng thái t Ta có thể tính P(Y , X )
dụng xác suất đồng thời P (Y , X ) đôi khi không chính xác vì với một số bàitoán thì việc sử dụng xác suất điều kiện P (Y ∨X ) cho kết quả tốt hơn rất nhiều
Trang 312.2.2 Phương pháp chuyển dịch trạng thái hữu hạn có trọng số
Chuyển dịch trạng thái hữu hạn có trọng số (Weighted Finite-StateTransducer - WFST)
Ý tưởng chính của phương pháp này áp dụng cho tách từ tiếng Việt là các
từ sẽ được gán trọng số bằng xác suất xuất hiện của từ đó trong dữ liệu Sau
đó duyệt qua các câu, cách duyệt có trọng số lớn nhất sẽ là cách dùng để táchtừ
Trong phương pháp này, tầng tiền xử lý có nhiệm vụ xử lý định dạng vănbản: Tiêu đề, đoạn, câu; chuẩn hoá về chính tả tiếng Việt (cách bỏ dấu, cáchviết các ký tự y, i, trong tiếng Việt) Ví dụ: Vật lý = vật lí, thời kỳ = thời kì).Sau đó câu được chuyển sang tầng WFST Trong tầng này tác giả xử lýthêm các vấn đề liên quan đến đặc thù của tiếng Việt, như: Từ láy, tênriêng,
Cuối cùng, nếu còn nhập nhằng câu sẽ được chuyển sang tầng khử nhậpnhằng bằng mạng Neural
Trang 32Hình 2.3 - Sơ đồ mô hình WFST 2.2.2.1 Tầng WFST
Hoạt động của WFST có thể chia thành ba bước sau:
• Bước 1: Xây dựng từ điển trọng số: Trong mô hình WFST, thì việc phân
đoạn từ có thể được xem như là một sự chuyển dịch trạng thái có xác xuất.Chúng ta miêu tả từ điển D là một đồ thị biến đổi trạng thái hữu hạn có trọng
số Giả sử:
H là tập các tiếng trong tiếng Việt
P là tập các loại từ của từ trong tiếng Việt (POS: Part-Of-Speech)
Mỗi cung của D có thể là:
Từ một phần tử của H tới một phần tử của H;
Từ phần tử ε (xâu rỗng) đến một phần tử của PNói cách khác, mỗi từ được miêu tả trong từ điển D là một chuỗi tuần tựcác cung: Bắt đầu bằng một trạng thái ban đầu của D, được gán nhãn bằng
Trang 33một phần tử S thuộc H và kết thúc bởi một cung được gán nhãn là một phần
từ của ε x P Nhãn này biểu thị một chi phí ước lượng (lấy log của xác suất).Chúng ta biểu diễn câu cần tách là một máy nhận trạng thái hữu hạnkhông có trọng số (FSA - Finite State Acceptor) I trên H Giả sử đã tồn tạimột hàm Id mà đầu vào là FSA A, và đầu ra là một chuyển dịch mà các phần
tử trong đó chỉ bao gồm các phần tử thuộc A (gọi là D*) Mỗi từ được kếtthúc bởi một cung biểu diễn sự chuyển đổi giữa s và từ loại của chúng Xácsuất chuyển đổi được tính bằng cách lấy log của xác suất trong một tập mẫulớn theo công thức:
Giả sử ta có XYZ, trong đó XY là từ cơ bản, Z là hậu tố Ta cần tính: cost
(XYZ);
Gọi p(Z): xác suất trong trường hợp này của Z (trường hợp Z đứng kề XY);
=> P (unseen(z)) = p[unseen(z)/Z] p(Z) (2.4)
=> cost (XYZ) = cost (XY) + cost (unseen(Z)) (2.5)
Với cost được tính theo công thức trên
Do đó trong từ điển, đối với các từ tiền tố và hậu tố (ta tạm gọi là Z) tác giả lưu thêm các xác suất của Z khi Z đứng liền sau một từ loại nhất định.
• Bước 2: Xây dựng các khả năng tách từ:
Bước này thống kê tất cả các khả năng tách từ của một câu Vấn đề ở đây
là để giảm sự bùng nổ các cách tách từ, thuật toán sẽ loại bỏ ngay nhữngnhánh tách từ nào đó không phù hợp mà chứa từ không xuất hiện trong từ
Trang 34điển, không phải là từ láy, không phải là danh từ riêng thì loại bỏ các nhánhxuất phát từ cách tách từ đó Thật vậy, giả sử một câu gồm n âm tiết, mà trongtiếng Việt thì một từ có tối đa 4 âm tiết tức là ta sẽ có tối đa 2n-1 cách tách từkhác nhau Một câu tiếng Việt trung bình có 24 âm tiết thì lúc đó ta phải giảiquyết 8.000.000 trường hợp tách từ có thể trong một câu.
• Bước 3: Lựa chọn khả năng tách từ tối ưu: Sau khi liệt kê tất cả các khả
năng tách từ, thuật toán sẽ chọn cách tách tốt nhất, đó là tách đoạn có trọng số
Trọng số theo mỗi cách tách từ được tính là:
“Tốc độ # truyền thông # tin # sẽ # tăng # cao.” (1)
Trang 35trị t0 với ý nghĩa như sau: nếu sự chênh lệch về trọng số (giữa các cách tách từkhác nhau với cách tách từ có trọng số nhỏ nhất) lớn hơn t0 thì đó là kết quảtách từ có trọng số nhỏ nhất đó đúng của câu và được chấp nhận Còn nếu sựchênh lệch đó không lớn hơn t0, thì cách tách từ có trọng số nhỏ nhất đó chưađược xem là kết quả tách từ đúng của câu.
Lúc này, ta sẽ đưa những cách tách từ của câu này qua mô hình mạngNeural để xử lý tiếp
Ví dụ: Sau khi qua phần xử lý WFST ta chỉ được ba cách tách từ có trọng
số nhỏ nhất nhưng sự chênh lệch trọng số không lớn hơn t0:
Học sinh/N học/V sinh học/N;
Học sinh/N học sinh/N học/V;
Hoc/V sinh học/N sinh học
Thực tế trong tiếng Việt, có những dãy các loại từ không thể tuần tự đứngcạnh nhau theo luật ngữ pháp tiếng Việt Nếu ta muốn lọc lại những trườnghợp mập mờ trên bằng luật cú pháp tiếng Việt, ta lại đụng đến vấn đề vô cùngphức tạp là phân tích cú pháp tiếng Việt
Chúng ta xét lại ví dụ ở phần trên, mô hình mạng Neural được đề xuấtdùng để ước lượng giá trị 3 dãy từ loại: NNV, NVN, VNN Mô hình này đượchọc bằng chính các câu mà cách tách từ vẫn còn nhập nhằng sau khi qua môhình thứ nhất Khi đó tác giả tách từ bằng tay cho các câu nhập nhằng này vàsau đó đưa vào máy học Để thực hiện việc kiểm tra sự hợp lệ của một dãycác từ loại trong một câu, tác giả [6] sử dụng một “ngữ cảnh k” cho mỗi từ cótrong câu, ta sử dụng một cửa sổ trượt có kích thước là k từ và mảng mô tảcủa nó trượt trên câu cần xét bắt đầu từ từ đầu tiên đến từ cuối cùng trong câu.Thực tế mô hình mạng gồm 6 nút nhập, 10 nút ẩn và một nút xuất
Tầng nhập của mạng được kết nối hoàn toàn với một tầng ẩn gồm 10 nútvới một hàm truyền Những nút ẩn này lại được kết nối hoàn toàn với một
Trang 36tầng xuất chỉ gồm 1 nút Nút xuất là một giá trị thực nằm giữa 0 1 Biểu thịcho khả năng hợp lệ của một dãy các từ loại đứng liền nhau trong một cửa sổtrượt Khi cửa sổ trượt trượt từ đầu câu đến cuối câu, cộng dồn các kết quả lạivới nhau và gán giá trị này vào thành trọng số của câu Hàm truyền được chọn
Ưu điểm của phương pháp này là sẽ cho độ chính xác cao nếu ta xây dựngđược một dữ liệu học đầy đủ và chính xác Nó còn có thể kết hợp với cácphương pháp khử nhập nhằng (phương pháp mạng Neural) để cho kết quảtách rất cao (có thể chính xác đến 97%, tỉ lệ này tuỳ thuộc vào loại văn bản)
2.2.3 Phương pháp so khớp cực đại
Phương pháp so khớp cực đại (Maximum Matching) còn gọi là Left RightMaximum Matching Nội dung thuật toán này dựa trên thuật toán đã đượcChihHao Tsai [7] giới thiệu năm 1996
* Tư tưởng của phương pháp so khớp cực đại là duyệt một câu từ trái quaphải và chọn từ có nhiều tiếng nhất có mặt trong từ điển tiếng Việt, rồi cứ thểtiếp tục cho từ kế tiếp cho đến hết câu
* Đầu vào: Chuỗi ký tự
* Đầu ra: Chuỗi từ, cụm từ (Từ có chiều dài dài nhất)
Trang 372.2.3.1 Thuật toán so khớp cực đại dạng đơn giản
Giả sử chúng ta có một câu S={C1, C2, C3 , Cn}, với C1, C2, C3 , Cn
là các tiếng được tách bởi khoảng trắng trong câu
Chúng ta bắt đầu duyệt từ đầu chuỗi, xác định đâu là từ Đầu tiên chúng ta
sẽ kiểm tra xem C1 có phải là từ có trong từ điển không, sau đó kiểm tra tiếp
C1C2 có trong từ điển hay không Tiếp tục như vậy C1C2C3, …, C1C2C3…
Cn, với n là số tiếng lớn nhất của một từ có thể có nghĩa (có trong từ điển
tiếng Việt) Sau đó chúng ta chọn từ có nhiều tiếng nhất có mặt trong từ điển
và đánh dấu từ đó Sau đó tiếp tục quá trình trên với tất các các tiếng còn lạitrong câu và trong toàn bộ văn bản
Dạng đơn giản được dùng giải quyết nhập nhằng từ đơn, khá đơn giảnnhưng nó gặp phải rất nhiều nhập nhằng trong tiếng Việt
Ví dụ: Cho câu “ Học sinh học sinh học” Nó sẽ gặp phải lỗi khi tách từcâu sau: “học sinh | học sinh | học”, câu đúng phải là “học sinh| học| sinhhọc”
2.2.3.2 Thuật toán so khớp cực đại dạng phức tạp
Thuật toán này thực hiện quy trình cũng giống như dạng đơn giản Tuynhiên, dạng này có thể tránh được một số nhập nhằng gặp phải trong dạngđơn giản Đạt độ chính xác đến 99.69% và 93.21% nhập nhằng được giảiquyết
Đầu tiên chúng ta sẽ kiểm tra xem C1 có phải là từ có trong từ điển không, sau đó kiểm tra tiếp C1C2 có trong từ điển hay không Giả sử khi duyệt câu, chúng ta có C1 và C1C2 đều là từ có trong từ điển thì thì thuật toán
thực hiện chiến thực 3 từ tốt nhất được Chen & Liu đưa ra vào năm 1992 [8]như sau:
* Tiêu chuẩn 3 từ tốt nhất được Chen & Liu (1992) đưa ra như sau: