Ứng dụng xử lý ngôn ngữ tự nhiên phân tích nhu cầu sử dụng dịch vụ viễn thông từ các bình luận trên mạng xã hội

Cấu trúc luận văn Luận văn được trình bày với bố cụ gồm có phần mở đầu, kết luận và 03chương, cụ thể như sau: Chương 1: Giới thiệu về xử lý ngôn ngữ tự nhiên: Giới thiệu các khái niệm, k

Trang 1

PHẠM THẾ AN

ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN

PHÂN TÍCH NHU CẦU SỬ DỤNG DỊCH VỤ VIỄN THÔNG

TỪ CÁC BÌNH LUẬN TRÊN MẠNG XÃ HỘI

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

ĐÀ NẴNG – 2022

Trang 2

PHẠM THẾ AN

ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN

PHÂN TÍCH NHU CẦU SỬ DỤNG DỊCH VỤ VIỄN THÔNG

TỪ CÁC BÌNH LUẬN TRÊN MẠNG XÃ HỘI

Chuyên ngành: Khoa học máy tính

Mã số: 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS Hoàng Phước Lộc

ĐÀ NẴNG – 2022

Trang 3

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc tới TS Hoàng Phước Lộc – Giảng viêntrường Cao Đẳng Sư Phạm Quảng Trị, người thầy đã dành nhiều thời gian tậntình chỉ bảo, hướng dẫn, giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu.Thầy là người định hướng và đưa ra nhiều góp ý quý báu trong quá trình tôithực hiện luận văn

Tôi xin chân thành cảm ơn các thầy, cô ở Trường Khoa Học Máy Tính Đại học Duy Tân đã cung cấp cho tôi những kiến thức và tạo cho tôi nhữngđiều kiện thuận lợi trong suốt quá trình tôi học tập tại trường

-Tôi cũng bày tỏ lòng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồngnghiệp đã cung cấp dữ liệu, tài liệu và cho tôi những lời khuyên quý báu Tôixin cảm ơn gia đình, người thân, bạn bè và các thành viên trong nhóm nghiêncứu luôn động viên và tạo mọi điều kiện tốt nhất cho tôi

Tôi xin chân thành cảm ơn!

Đà Nẵng, tháng 10 năm 2021

Họ và tên

Phạm Thế An

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi thực hiệndưới sự hướng dẫn của TS Hoàng Phước Lộc, Giảng viên trường Cao Đẳng

Sư Phạm Quảng Trị Các số liệu, kết quả nêu trong Luận văn là trung thực vàchưa từng được ai công bố trong bất kỳ công trình nào khác

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đãđược cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồngốc

Đà Nẵng, tháng 10 năm 2021

Họ và tên

Phạm Thế An

Trang 5

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN ii

MỤC LỤC i

DANH MỤC CÁC TỪ VIẾT TẮT vi

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii

DANH MỤC CÁC BẢNG viii

MỞ ĐẦU 1

Chương 1 GIỚI THIỆU VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 4

1.1 Khái quát xử lý ngôn ngữ tự nhiên 4

1.1.1 Khái niệm 4

1.1.2 Trí tuệ nhân tạo 4

1.1.3 Nhập nhằng trong ngôn ngữ 5

1.1.4 Dịch máy 5

1.2 Quy trình xử lý ngôn ngữ tự nhiên 6

1.2.1 Tiền xử lý văn bản 6

1.2.2 Phân tích hình thái 7

1.2.3 Phân tíchcú pháp 8

1.2.4 Phân tích ngữ nghĩa 9

1.2.5 Tích hợp văn bản 11

1.2.6 Phân tích thực nghĩa 11

1.3 Các bài toán và ứng dụng của NLP 11

Trang 6

1.4 Kết luận chương 1 13

Chương 2 MỘT SỐ KỸ THUẬT XỬ LÝ NGÔN NGỮ 14

2.1 Khái quát về tách từ Tiếng Việt 14

2.1.1 Các hướng tiếp cận với bài toán tách từ 15

2.1.2 Nhập nhằng trong tách từ Tiếng Việt 17

2.1.2 Loại bỏ Từ dừng 18

2.2 Một số phương pháp tách từ Tiếng Việt 18

2.2.1 Phương pháp mô hình Markov ẩn 18

2.2.2 Phương pháp chuyển dịch trạng thái hữu hạn có trọng số 20

2.2.3 Phương pháp so khớp cực đại 25

2.3 Phân lớp quan điểm 28

2.3.1 Khái niệm phân lớp quan điểm 28

2.3.2 Phương pháp phân lớp dựa vào cụm từ thể hiện quan điểm 28

2.3.3 Phân lớp dựa vào phân lớp văn bản 32

2.3.4 Phân lớp dựa vào hàm tính điểm số 32

2.3.5 Phân lớp dựa vào kỹ thuật học máy 33

Chương 3 MÔ HÌNH ĐỀ XUẤT 41

3.1 Mô hình hệ thống 41

3.1.1 Giới thiệu 41

3.1.2 Mô hình hệ thống 42

3.2 Thu thập bình luận 43

3.2.1 Tiền xử lý dữ liệu 44

Trang 7

3.2.2 Tách từ tiếng Việt 45

3.3 Phân lớp phản hồi, bình luận 46

3.4 Thử nghiệm và đánh giá kết quả 49

3.4.1 Thu thập dữ liệu 49

3.4.2 Cài đặt giải thuật NaiveBayes 50

3.4.3 Cài đặt giải thuật Support Vector Machines (SVM ) 52

3.4.4 Cài đặt giải thuật Fasttext 53

3.4.5 Đánh giá các giải thuật 56

3.4.6 Về ưu điểm của mô hình áp dụng: 57

3.4.7 Về nhược điểm của mô hình áp dụng: 58

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 59

Kết luận 59

Hướng phát triển 59

TÀI LIỆU THAM KHẢO

Trang 8

DANH MỤC CÁC TỪ VIẾT TẮT

NLP nhiên)Natural language processing (Xử lý ngôn ngữ tựPOS Part – Of – Speech (Từ loại)

SVM học)Suppor vector Machine (Phương pháp sử dụng Máy

AI Artificial intelligence (Trí thông minh nhân tạo)

WFST Weighted Finite State Transducer

CRF Conditional Random Fields

PMI lẫn nhau)Pointwise mutual information (Chuẩn hóa thông tinHTML Hypertext Markup Language

Trang 9

DANH MỤC CÁC BẢNG

Bảng 2.1- Bảng các nhãn từ loại của Pennn TreebankBảng 29

Bảng 2.2 - Nhãn của mẫu cho trích chọn với cụm có hai từ 30

Bảng 3.1 - Thống kê dữ liệu thu thập trên các nhãn 49

Bảng 3.2 - Bảng đánh giá kết quả thực thi các giải thuật 56

Trang 10

DANH MỤC CÁC HÌNH VẼ, ĐỒ TH

Hình 1.1 - Các bước xử lý văn bản 15

Hình 1.2 - Cây cú pháp của câu "Nam là sinh viên giỏi" 18Y Hình 2.1 - Mô hình Markov ẩn 19

Hình 2.2 - Đồ thị vô hướng HMM 19

Hình 2.3 - Sơ đồ mô hình WFST 21

Hình 2.4 - Mô hình máy vector hỗ trợ khả tách tuyến tính 37

Hình 2.5 - Phương pháp lề mềm 3 Hình 3.1 - Mô hình khai thác nhu cầu của các bình luận trên mạng xã hội 42

Hình 3.2 - Các bước thu thập bình luận 43

Hình 3.3 - Sơ đồ huấn luyện cơ sở tri thức 47

Hình 3.4 - Sơ đồ xác định nhu cầu theo câu bình luận 48

Hình 3.5 - Thống kê dữ liệu thu thập trên các nhãn 50

Hình 3.6 - Cài đặt giải thuật Naive Bayes 51

Hình 3.7 – Cài đặt giải thuật SVM 53

Hình 3.8 - Kiến trúc mô hình của fastText cho một câu với các thuộc tính từ ngram x1, x2,…,xN 54

Hình 3.9 - Các word được tách ra từ câu “this is a sentence” với n=3 55

Hình 3 10 - Cài đặt giải thuật Fasttext 56

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Mạng xã hội là nơi mang mọi người đến với nhau để trò chuyện, chia sẻ

ý tưởng, sở thích và kết nối với nhau qua phương tiện truyền thông xã hội haycòn gọi là Social Media Không giống như các phương tiện truyền thống, cáctrang web truyền thông mạng xã hội chứa nội dung do hàng trăm hoặc thậmchí hàng triệu người khác nhau tạo ra Với sự phổ biến của các trang mạng xãhội, ngày càng có nhiều người trở thành một phần của cộng đồng trực tuyến.Mạng xã hội không chỉ là nơi để mọi người giao lưu, kết nối và chia sẻ,mạng xã hội còn là “mảnh đất vàng” cho kinh doanh Online, hỗ trợ tìm kiếmkhách hàng, tương tác, thậm chí là quảng cáo, xây dựng thương hiệu doanhnghiệp hoặc xây dựng thương hiệu cá nhân Mạng xã hội có bản chất của hoạtđộng xã hội, ở đây, người sử dụng có thể đưa ra những bình luận, nhận xét vàđánh giá của mình về các sản phẩm hay dịch vụ họ đã và đang sử dụng Do

đó, thông tin từ mạng xã hội rất có ý nghĩa cho các công ty, nhà cung cấp Từ

đó những người đã tạo sản phẩm, dịch vụ nếu họ có chiến lược thu thập thôngtin phản hồi của người dùng hợp lý để từ đó điều chỉnh sản phẩm, dịch vụ của

họ nhằm đáp ứng nhu cầu người dùng

AI và học máy đang trở thành một phần cốt lõi của ngành công nghệbằng cách giúp các doanh nghiệp (DN) đạt được mục tiêu, đưa ra các quyếtđịnh quan trọng và tạo ra các sản phẩm và dịch vụ sáng tạo Trên thực tế, thịtrường AI và ML (Machine Learning) có khả năng tăng trưởng 9 tỷ USD vàonăm 2022, với tốc độ tăng trưởng CAGR (Compounded Annual Growth rate)

là 44%

Việc kết hợp AI và khai thác thế mạnh của mạng xã hội sẽ giúp cácdoanh nghiệp đưa ra các phân tích, quyết định kinh doanh đúng đắn, hạn chếcác sai lầm do phán đoán chủ quan Đồng thời tạo điều kiện giúp doanh

Trang 12

nghiệp hiện diện mọi lúc mọi nơi, tìm kiếm được tập khách hàng tiềm năng vàgia tăng doanh số bán hàng hiệu quả.

Từ thực tiễn đó tôi đã thực hiện đề tài luận văn “Ứng dụng xử lý ngôn ngữ tự nhiên phân tích nhu cầu sử dụng dịch vụ viễn thông từ các bình luận trên mạng xã hội”

2 Mục tiêu và nhiệm vụ nghiên cứu

Mục tiêu của đề tài là đi sâu nghiên cứu về các kỷ thuật xử lý ngôn ngữtự nhiên Từ đó áp dụng các kỹ thuật để khai thác quan điểm của người dùng

về các dịch vụ Viễn thông từ các bình luận trên mạng xã hội Góp phần manglại lợi ích cho doanh nghiệp trong việc tìm kiếm khách hàng tiềm năng, chămsóc khách hàng, đề xuất các chương trình bán hàng phù hợp

3 Đối tượng và phạm vi đề tài

Đối tượng nghiên cứu của đề tài là: Các nội dung tổng quan về xử lýngôn ngữ tự nhiên, các kỹ thuật xử lý ngôn ngữ tự nhiên, bài toán khai thácquan điểm khách hàng từ các bình luận trên mạng xã hội

Do khối lượng thông tin trên mạng xã hội là rất lớn, bao gồm rất nhiềulĩnh vực, khía cạnh khác nhau, dẫn đến quy mô dữ liệu và phạm vi xử lý là rấtlớn Vì vậy cần thu hẹp phạm vi nghiên cứu với một chủ đề cụ thể

Trong đề tài này, phạm vi nghiên cứu là phân tích các bình luận củakhách hàng tại trang Fanpage của Vinaphone trên mạng xã hội Facebook đểphân loại các khách hàng có nhu cầu sử dụng các dịch vụ về Internet, di động

và truyền hình số

4 Phương pháp nghiên cứu

Để thực hiện luận văn này, tôi đã sử dụng 02 phương pháp nghiên cứukhoa học để tiếp cận và làm rõ những vấn đề của đề tài đặt ra, cụ thể đó là:

- Phương pháp phân tích và tổng hợp lý thuyết: Nghiên cứu các tài liệu

khác nhau về khái niệm và các kỹ thuật xử lý ngôn ngữ tự nhiên; phân tích để

Trang 13

tìm hiểu đối với mỗi vấn đề và tổng hợp để có cái nhìn tổng quan, đầy đủ vềcác vấn đề cần tìm hiểu.

- Phương pháp thực nghiệm khoa học: Thực hiện thu thập, xử lý các

bình luận; Xây dựng dataset, gán nhãn cho các câu bình luận Áp dụng các kỹthuật xử lý ngôn ngữ tự nhiên để phân lớp theo thuật toán học sâu

Luận văn được trình bày với bố cục như sau:

5 Tổng quan vấn đề nghiên cứu

Nội dung của đề tài mang ý nghĩa khoa học khi cung cấp một cách nhìntổng quan về xử lý ngôn ngữ tự nhiên và nghiên cứu các kỹ thuật xử lý ngônngữ tự nhiên; đưa ra mô hình khai thác các quan điểm của khách hàng và xâydựng cơ sở dữ liệu tri thức về nhu cầu của khách hàng

Đề tài luận văn cũng mang ý nghĩa thực tiễn khi thực nghiệm cácphương pháp trên với tập dữ liệu thực tế, mô tả các kết quả đạt được, từ đóxây dựng các quy trình, giải pháp, công cụ tìm hiểu nhu cầu của khách hàng,chăm sóc khách hàng, nâng cao chất lượng, hiệu quả trong hoạt động sản xuấtkinh doanh của đơn vị

6 Cấu trúc luận văn

Luận văn được trình bày với bố cụ gồm có phần mở đầu, kết luận và 03chương, cụ thể như sau:

Chương 1: Giới thiệu về xử lý ngôn ngữ tự nhiên: Giới thiệu các khái

niệm, khái quát chung về NLP

Chương 2: Một số kỹ thuật xử lý ngôn ngữ: Giới thiệu mộ số kỹ thuật

để xử lý ngôn ngữ tự nhiên Tiếng Việt

Chương 3: Mô hình đề xuất: Đề xuất mô hình, thực nghiệm cho quá

trình nghiên cứu

Trang 14

Chương 1 GIỚI THIỆU VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN

1.1 Khái quát xử lý ngôn ngữ tự nhiên

1.1.1 Khái niệm

Ngôn ngữ là hệ thống để giao thiệp hay suy luận dùng một cách biểudiễn phép ẩn dụ và một loại ngữ pháp theo logic, mỗi cái đó bao hàm một tiêuchuẩn hay sự thật thuộc lịch sử và siêu việt Nhiều ngôn ngữ sử dụng điệu bộ,

âm thanh, ký hiệu, hay chữ viết, và cố gắng truyền khái niệm, ý nghĩa, và ýnghĩ, tuy nhiên, nhiều khi những khía cạnh này nằm sát quá, cho nên khóphân biệt nó

NLP (Natural Language Processing) là khái niệm để chỉ các kĩ thuật,phương pháp tác động trên ngôn ngữ tự nhiên bằng máy tính Chúng ta cầnphân biệt ngôn ngữ tự nhiên (ví dụ như tiếng Việt, tiếng Anh, tiếng Nhật… lànhững ngôn ngữ trong giao tiếp thường ngày) và ngôn ngữ nhân tạo (nhưngôn ngữ lập trình, ngôn ngữ máy, …)

Ngoài ra, xử lý ngôn ngữ tự nhiên cũng là một nhánh của trí tuệ nhân tạotập trung vào các ứng dụng trên ngôn ngữ tự nhiên của con người Trong trítuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những nội dung khónhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảonhất của tư duy và giao tiếp

1.1.2 Trí tuệ nhân tạo

Trí tuệ nhân tạo hay trí thông minh nhân tạo AI (Artificial intelligence)

là một ngành thuộc lĩnh vực khoa học máy tính Là trí tuệ do con người lậptrình tạo nên với mục tiêu giúp máy tính có thể tự động hóa các hành vi thôngminh như con người

Trí tuệ nhân tạo có thể được phân thành ba loại hệ thống khác nhau: Trítuệ nhân tạo phân tích, lấy cảm hứng từ con người và nhân tạo AI phân tích

Trang 15

chỉ có các đặc điểm phù hợp với trí tuệ nhân thức; tạo ra một đại diện nhậnthức về thế giới và sử dụng học tập dựa trên kinh nghiệm trong quá khứ đểthông báo các quyết định trong tương lai AI lấy cảm hứng từ con người cócác yếu tố từ trí tuệ nhận thức và cảm xúc; hiểu cảm xúc của con người, ngoàicác yếu tố nhận thức và xem xét chúng trong việc ra quyết định AI nhân cáchhóa cho thấy các đặc điểm của tất cả các loại năng lực (nghĩa là trí tuệ nhậnthức, cảm xúc và xã hội), có khả năng tự ý thức và tự nhận thức được trongcác tương tác.

1.1.3 Nhập nhằng trong ngôn ngữ

Nhập nhằng trong ngôn ngữ học là hiện tượng thường gặp, trong giaotiếp hàng ngày con người ít để ý đến nó bởi vì họ xử lý tốt hiện tượng nàytheo ngữ cảnh cụ thể Nhưng trong các ứng dụng liên quan đến xử lý ngônngữ tự nhiên khi phải thao tác với ý nghĩa từ vựng mà điển hình là dịch tựđộng thì nhập nhằng trở thành vấn đề nghiêm trọng Ví dụ trong một câu cầndịch có xuất hiện từ “đường” như trong câu “Cà phê này cần cho thêmđường” vấn đề nảy sinh là cần dịch từ này là đường (sử dụng trong thức ăncủa con người) hay đường (sử dụng trong giao thông), con người xác địnhchúng khá dễ dàng căn cứ vào văn cảnh và các dấu hiệu nhận biết khác nhưngvới máy thì không Một số hiện tượng nhập nhằng: Nhập nhằng ranh giới từ,Nhập nhằng từ đa nghĩa, Nhập nhằng từ đồng âm (đồng tự), Nhập nhằng từloại

1.1.4 Dịch máy

Dịch máy là một trong những ứng dụng chính của xử lý ngôn ngữ tựnhiên, dùng máy tính để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.Mặc dù dịch máy đã được nghiên cứu và phát triển hơn 50 năm qua, song vẫntồn tại nhiều vấn đề cần nghiên cứu Ở Việt Nam, dịch máy đã được nghiêncứu hơn 20 năm, nhưng các sản phẩm dịch máy hiện tại cho chất lượng dịch

Trang 16

còn nhiều hạn chế Hiện nay, dịch máy được phân chia thành một số phươngpháp như: dịch máy trên cơ sở luật, dịch máy thống kê và dịch máy trên cơ sở

ví dụ

1.2 Quy trình xử lý ngôn ngữ tự nhiên

Quá trình xử lý văn bản hay quá trình phân tích và kiểm tra tính chínhxác của văn bản là một vấn đề khá phức tạp, trải qua nhiều bước khác nhau Ởmỗi bước xử lý đòi hỏi người nghiên cứu phải có một kiến vững vàng về ngônngữ cũng như nhiều kiến thức bổ trợ khác mới có thể xử lý tốt được Quátrình này thường được chia thành các bước cụ thể sau: Tiền xử lý văn bản,phân tích hình thái, phân tích cú pháp, phân tích ngữ nghĩa, tích hợp văn bản

và phân tích ngữ dụng Sau đây ta sẽ mô tả từng công việc:

Hình 1.1 - Các bước xử lý văn bản 1.2.1 Tiền xử lý văn bản

Khi đầu vào của hệ xử lý ngôn ngữ là một văn bản, ta cần phải có thêmtầng tiền xử lý để xử lý sơ bộ văn bản đầu vào, rồi phân tách nó thành các đơn

vị rõ ràng để cho hệ xử lý chính dễ dàng thực hiện Cụ thể bước này sẽ baogồm các công việc sau:

Trước nhất, bước tiền xử lý sẽ xử lý sơ bộ văn bản đầu vào (làm sạchvăn bản) bằng cách xóa bỏ những ký tự, những mã điều khiển, những vùngkhông cần thiết cho việc xử lý

Trong mỗi văn bản, bước tiền xử lý sẽ nhận diện các tiêu đề, các chúthích, các số thứ tự và gạch đầu dòng, các đoạn văn trong văn bản

Trong mỗi đoạn văn, bước tiền xử lý sẽ phân rã nó ra thành các câu làđơn vị cơ sở của một văn bản Đây là giai đoạn khó nhất và sẽ là trọng tâm

Trang 17

của bước tiền xử lý, như dấu “.” trong trường hợp sau (không biết đâu là dấuchấm câu).

Ví dụ: Với khoản tiền 100.000 triệu đồng bạn có thể học chuyển tiếp 2

năm thạc sỹ tại Việt Nam

Xa hơn nữa, bước tiền xử lý có thể phân tích câu thành những ngữ đểgiảm bớt gánh nặng đồng thời tăng chất lượng cũng như tốc độ xử lý của hệthống

1.2.2 Phân tích hình thái

Trong bước này từng từ sẽ được phân tích và các ký tự không phải chữ(như các dấu câu) sẽ được tách ra khỏi các từ Trong tiếng Anh và nhiều ngônngữ khác các từ được phân tách với nhau bằng dấu cách Tuy nhiên trongtiếng Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ khôngphải từ Cùng với các ngôn ngữ như tiếng Trung, tiếng Hàn, tiếng Nhật, phântách từ trong tiếng Việt là một công việc không hề đơn giản

Bước này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ)riêng biệt, đồng thời kèm theo tất cả các thông tin về từ đó, như là: Từ loại,phạm trù ngữ pháp, các biến cách của từ, tiền tố, hậu tố của từ (nếu có) Trongtrường hợp gặp từ mới, hệ thống sẽ để nguyên và đánh dấu một từ loại đặcbiệt để chuyển sang phần xử lý tên riêng hay từ mới Bước phân tích hình tháigồm các phần:

Phân tích phụ tố: Bao gồm tiền tố và hậu tố, ta thường gặp các loại phụ

tố này trong tiếng Anh Xử lý từ ghép, ngữ cố định: Nhận diện được từ ghéphay ngữ cố định từ các thành tố của chúng, như ngôi nhà, sách gối đầugiường…

Xử lý các trường hợp tỉnh lược (bỏ bớt) trong một số từ như đại từ, thờigian…

Trang 18

Đánh dấu từ loại các từ trong câu để xác định từ loại của từ một cách tựđộng, chủ yếu ta phải giải quyết trường hợp nhập nhằng từ loại (một từ cónhiều từ loại), nhưng trong câu cụ thể, ta chỉ có thể có một từ loại đúng màthôi.

Ví dụ: Trong câu “Học sinh học sinh học”, ta sẽ phải đánh dấu từ loại

như sau: “Học sinh | danh từ học | động từ sinh học | danh từ”.

Thông thường, nhất là với các ngôn ngữ ở châu Âu, nhiệm vụ phân tíchcâu thành các từ độc lập của khối phân tích hình thái là không khó vì hầu hếttất cả các từ đều nằm nguyên thành một chữ, không cần chia cắt, ngoại trừmột số trường hợp đặc biệt như viết tắt (có thể xử lý ngoại lệ) Với một sốngôn ngữ như với tiếng Việt, tiếng Nhật, vấn đề trở nên rất khó nếu các từtrong ngôn ngữ được thành nhiều cụm có thể hiểu nhập nhằng

Ví dụ: Xét câu sau “Ông già đi nhanh quá” Chúng ta có ít nhất 2 cách

phân cách từ:

Cách 1: “Ông già” | “đi” | “nhanh” | “quá”

Cách 2: “Ông” | “già đi” | “nhanh” | “quá”

Trong trường hợp trên không có cách nào đánh giá cách phân cách từnào tốt hơn, chúng ta đành phải coi bài toán như là việc dịch 2 câu, đến phần

xử lý ngữ nghĩa sẽ tiến hành đánh giá lại xem trường hợp nào là hợp lý hơn

Trang 19

cần có bộ luật văn phạm và giải thuật phân tích cú pháp Hiện nay, người ta

đã đưa nhiều lý thuyết văn phạm (như: CFG, UG, LG, TAG,…), và các giảithuật phân tích cú pháp hiệu quả (Earley, Tomita, TBL,…)

Ví dụ: Nhập câu “Nam là sinh viên giỏi”, sẽ phân tích như sau: [Nam]

DT [là Đt [sinh viên DT giỏi TT]NP]VP và cây cú pháp tương ứng:

Trong đó :Cn,Vn : chủ ngữ, vị ngữ

Dt :Danh từ

VP : động ngữ

NP : danh ngữTT: tính từ

Đt : động từ

Hình 1.2 - Cây cú pháp của câu "Nam là sinh viên giỏi"

Các tập luật cú pháp phải được xây dựng theo cơ chế mở, có thể sửa đổi,

bổ sung hay loại bỏ các luật Kết quả của bước phân tích cú pháp phụ thuộcrất nhiều vào tính chính xác và đầy đủ của các luật cú pháp

1.2.4 Phân tích ngữ nghĩa

Mục đích của việc phân tích ngữ nghĩa là kiểm tra ý nghĩa của câu cómâu thuẫn với ý nghĩa của đoạn hay không Dựa trên mối liên hệ logic vềnghĩa giữa các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệthống sẽ xác định được một phần ý nghĩa của câu trong ngữ cảnh của đoạn.Đầu vào của giai đoạn phân tích ngữ nghĩa là tập các khả năng phân tíchcâu và thông tin về ngữ nghĩa của tất cả các từ Các thực từ thường có nhiều

Trang 20

nghĩa và nghĩa của nó chỉ được xác định duy nhất trong mối quan hệ giảithích với các từ khác trong câu.

Giải quyết nhập nhằng nghĩa ở mức từ vựng:

Xét ví dụ “Tôi với quả bóng ở trên cao”, ta có từ “với” là “liên từ” hoặc

“động từ” Để chọn được nghĩa thích cho từ “với” trong trường hợp nàychúng ta phải vận dụng các ý niệm của ngôn ngữ học tri nhận để biết rằng

“với” là động từ chỉ hành động tác động đến một danh từ chỉ sự vật, và “với”

là liên từ liên kết giữa hai đối tượng có cùng kiểu Kết hợp những ý niệm ấy,

ta có “tôi” là đại từ và “quả bóng” là danh từ chỉ sự vật không thuộc cùngdạng đối tượng, do đó máy tính sẽ chọn từ “với” có nghĩa là “động từ” chotrường hợp này

Mức độ nhập nhằng cấu trúc:

Ví dụ: “Một người đàn ông và một người đàn bà già”, ta có 2 cách phân

tích

Cách 1: “Người đàn ông| và |người đàn bà già”;

Cách 2: “Người đàn ông và người đàn bà| già”;

Máy tính sẽ chọn cách phân tích thứ hai, do tính cân bằng vốn có trongcấu trúc song song của liên từ “và”

Tuy nhiên, nếu xét “Một đứa trẻ và một người đàn ông già”, ta cũng sẽ

có 2 cách phân tích:

“Đứa trẻ| và |người đàn ông già”

“Đứa trẻ và người đàn ông| già”

Máy tính sẽ chọn cách phân tích thứ nhất, vì máy thấy cấu trúc thứ hai là

vô lý, do có sự đối lập về ngữ nghĩa giữa thuộc tính “trẻ” trong “đứa trẻ” vàthuộc tính “già” trong “người đàn ông”

Mức độ nhập nhằng liên câu

Trang 21

Ví dụ xét câu “Con khỉ ăn quả chuối vì nó đói”, máy tính hiện nay, trong

một số trường hợp, có thể xác định được đại từ “nó” thay thế cho từ nào: “conkhỉ” hay “quả chuối” Để giải quyết được nhập nhằng này, máy tính phải xemlại mệnh đề trước và vận dụng tri thức về thế giới thực (có trong WordNet) để

biết rằng “chỉ có khỉ mới có khả năng đói” nên sẽ chọn “nó thay thế cho con

khỉ” Còn trong câu: “Con khỉ ăn quả chuối vì nó chín”, thì máy tính sẽ biết

rằng “chỉ có chuối mới có khả năng chín” nên sẽ chọn “nó” thay thế cho “quả

Cấu trúc thể hiện điều được phát ngôn sẽ được thông dịch lại để xác định

nó thật sự có nghĩa là gì Đây là quá trình phân tích nhằm xác định ý nghĩacâu dựa trên mối liên hệ của câu với hiện thực Ý nghĩa thực tế của câu phụthuộc rất nhiều vào ý tứ của người nói và ngữ cảnh diễn ra lời nói Do vậy,quá trình phân tích thực chứng rất khó thực hiện bằng máy tính

Trong một số trường hợp nhập nhằng, ta không thể dùng thông tin bêntrong nội bộ câu hay câu lân cận, mà phải xét trên toàn nội dung văn bản, xemxét xem văn bản đang bàn về vấn đề gì, thuộc lĩnh vực gì, để từ đó mới có thểchọn đúng nghĩa của từ, câu

Ví dụ: Từ “sentence” vừa có nghĩa là “câu” vừa có nghĩa là “án tù”, ta

phải xem xét xem văn bản này đang bàn về “ngữ pháp” hay “luật pháp”

Để xác định được ngữ cảnh toàn văn bản, máy tính phải dựa vào sự xuấthiện của các từ khóa trên toàn văn bản Ngoài ra, việc xác định ngữ cảnh nàycòn được ứng dụng vào việc phân loại văn bản tự động

1.3 Các bài toán và ứng dụng của NLP

Trang 22

Xử lý ngôn ngữ tự nhiên đã được ứng dụng trong thực tế để giải quyếtcác bài toán như: Nhận dạng chữ viết, nhận dạng tiếng nói, tổng hợp tiếngnói, dịch tự động, tìm kiếm thông tin, tóm tắt văn bản, khai phá dữ liệu vàphát hiện tri thức.

Nhận dạng chữ viết: Từ một văn bản trên giấy, nhận biết từng chữ cái và

chuyển chúng thành một tệp văn bản trên máy tính, có hai kiểu nhận dạng:Thứ nhất là nhận dạng chữ in Ví dụ: Nhận dạng chữ trên sách giáo khoa rồichuyển nó thành dạng văn bản điện tử như dưới định dạng doc của MicrosoftWord chẳng hạn

Phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết taykhông có khuôn dạng rõ ràng và thay đổi từ người này sang người khác Vớinhiều chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sáchtrong thư viện thành văn bản điện tử trong thời gian ngắn Nhận dạng chữ viếtcủa con người có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhậndạng chữ ký điện tử)

Nhận dạng tiếng nói: Từ sóng tiếng nói nhận biết rồi chuyển chúng

thành dữ liệu văn bản tương ứng Giúp thao tác của con người trên các thiết bịnhanh hơn và đơn giản hơn, chẳng hạn thay vì gõ một tài liệu nào đó bạn đọc

nó lên và trình soạn thảo sẽ tự ghi nó ra Đây cũng là bước đầu tiên cần phảithực hiện trong ước mơ thực hiện giao tiếp giữa con người với robot Nhậndạng tiếng nói có khả năng trợ giúp người khiếm thị rất nhiều

Tổng hợp tiếng nói: Từ dữ liệu văn bản, phân tích và chuyển thành thành

tiếng nói Thay vì phải tự đọc một cuốn sách hay nội dung một trang web, nótự động đọc cho chúng ta Giống như nhận dạng tiếng nói, tổng hợp tiếng nói

là sự trợ giúp tốt cho người khiếm thị, nhưng ngược lại nó là bước cuối cùngtrong giao tiếp giữa robot với người

Trang 23

Dịch tự động: Như tên gọi đây là chương trình dịch tự động từ ngôn ngữ

này sang ngôn ngữ khác Một phần mềm điển hình về tiếng Việt của chươngtrình này là Evtrans của Softex, dịch tự động từ tiếng Anh sang tiếng Việt vàngược lại, phần mềm từng được trang web vdict.com mua bản quyền, đâycũng là trang đầu tiên đưa ứng dụng này lên mạng

Tìm kiếm và truy xuất thông tin: Từ một nguồn rất nhiều tệp văn bản và

tiếng nói, tìm ra những tệp có liên quan đến một vấn đề Các máy tìm kiếmdựa trên giao diện web như Google hay Yahoo hiện nay chỉ phân tích nộidung rất đơn giản dựa trên tần suất của từ khoá và thứ hạng của trang và một

số tiêu chí đánh giá khác để đưa ra kết luận, kết quả là rất nhiều tìm kiếmkhông nhận được câu trả lời phù hợp, thậm chí bị dẫn tới một liên kết khôngliên quan gì do thủ thuật đánh lừa của các trang web nhằm giới thiệu sảnphẩm

Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn

hơn theo mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất

Khai phá dữ liệu và phát hiện tri thức: Từ rất nhiều tài liệu khác nhau

phát hiện ra tri thức mới Thực tế để làm được điều này rất khó, nó gần như là

mô phỏng quá trình học tập, khám phá khoa học của con người, đây là lĩnhvực đang trong giai đoạn đầu phát triển Ở mức độ đơn giản khi kết hợp vớimáy tìm kiếm nó cho phép đặt câu hỏi để từ đó công cụ tự tìm ra câu trả lờidựa trên các thông tin trên web mặc cho việc trước đó có câu trả lời lưu trênweb hay không (giống như trang Yahoo hỏi và đáp, nơi chuyên đặt các câuhỏi để người khác trả lời), nói một cách nôm na là nó đã biết xử lý dữ liệu đểtrả lời câu hỏi của người sử dụng, thay vì máy móc đáp trả những gì chỉ cósẵn trong bộ nhớ

Phân tích cảm xúc: Việc phân tích cảm xúc trong văn bản được ứng

dụng trong hàng loạt các vấn đề như: Quản trị thương hiệu doanh nghiệp,

Trang 24

thương hiệu sản phẩm, quản trị quan hệ khách hàng, khảo sát ý kiến xã hộihọc, phân tích trạng thái tâm lý con người

1.4 Kết luận chương 1

Chương này trình bày tổng quan các khái niệm về NLP và các bước để xử

lý ngôn ngữ tự nhiên, các kỹ thuật và các bài toán liên quan đến xử lý ngônngữ tự nhiên cũng như những ứng dụng của NLP trong công nghệ và cuộcsống

Chương 2 MỘT SỐ KỸ THUẬT XỬ LÝ NGÔN NGỮ

2.1 Khái quát về tách từ Tiếng Việt

Tiếng Việt là một ngôn ngữ đơn lập, không biến hình, các ký tự đượcdựa trên hệ chữ cái Latinh (Alphabetic), đặc điểm này bao quát toàn bộ tiếngViệt về mặt ngữ âm, ngữ nghĩa và ngữ pháp[1] Cũng giống như với các ngônngữ khác như tiếng Trung, tiếng Nhật, tiếng Hàn thì từ trong tiếng Việt khôngchỉ sử dụng kí tự “khoảng trắng” (dấu cách) để phân biệt giữa các từ Một từtiếng Việt có thể được tạo bởi một hoặc nhiều hình vị và mỗi hình vị phântách nhau bởi các khoảng trắng Từ là đơn vị cơ bản để phân tích cấu trúc củangôn ngữ Vì thế cũng giống như trong tiếng Trung và các nước Châu Á kháctách từ là một vấn đề cần được xem xét trong xử lý ngôn ngữ tự nhiên Bàitoán tách từ đã được đặt ra từ lâu và đã được giải quyết tốt trong tiếng Việtvới hiệu suất cao

Trong tiếng Việt, ngoài từ đơn (một âm tiết), còn có từ ghép (đa âm tiết).Như vậy, khoảng trống giữa các từ không có vai trò làm ranh giới để phântách các từ Mỗi từ có thể là một từ đơn hoặc gồm nhiều từ đơn ghép lại Vìvậy, trong các vấn đề xử lý ngôn ngữ tiếng Việt như xác định ngữ pháp, phân

Trang 25

loại từ loại không thể bỏ qua quá trình tách từ Tuy nhiên đây là một bàitoán khó giải quyết.[2]

Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các

từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác địnhcác từ đơn, từ ghép… có trong câu Đối với xử lý ngôn ngữ, để có thể xácđịnh cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầunhất thiết đặt ra là phải xác định được đâu là từ trong câu Vấn đề này tưởngchừng đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khógiải quyết

Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các

hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt là đối với các ngôn ngữ thuộcvùng Đông Á theo loại hình ngôn ngữ đơn lập, như Tiếng Trung Quốc, tiếngNhật, tiếng Thái và tiếng Việt Với các ngôn ngữ thuộc loại hình này, ranhgiới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữthuộc loại hình hòa kết như tiếng Anh…, mà có sự liên hệ chặt chẽ giữa cáctiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng Vì vậy đối vớicác ngôn ngữ thuộc vùng Đông Á, vấn đề của bài toán tách từ là khử được sựnhập nhằng trong ranh giới từ

2.1.1 Các hướng tiếp cận với bài toán tách từ

Các công trình nghiên cứu về lĩnh vực này chủ yếu là thử nghiệm, nổibật trong đó là các công trình: Công trình của tác giả Lê Hà An [3], Côngtrình “Hệ phân tách từ Việt” nằm trong nhóm sản phẩm của đề tàiKC01.01/06-10 Chuyển trạng thái hữu hạn có trọng số, đây có thể được xem

là mô hình tách từ đầu tiên dành cho tiếng Việt Mô hình này là một cải tiếncủa mô hình WFST (Weighted Finite State Transducer) áp dụng cho tiếngTrung Quốc để phù hợp hơn với tiếng Việt

Trang 26

Các nhà nghiên cứu đã đề xuất một số hướng tiếp cận để giải bài toántách từ Nhìn chung, các hướng tiếp cận đó được chia thành hai hướng: Tiếpcận dựa trên từ, tiếp cận dựa trên thống kê

2.1.1.1 Các hướng tiếp cận dựa trên từ

Được chia thành 3 nhóm: Dựa vào thống kê, dựa vào từ điển và nhómlai, nhằm tách từ trọn vẹn trong câu

Trong hướng tiếp cận dựa vào từ điển, các phân đoạn văn bản được đốisánh dựa vào từ điển Việc xây dựng từ điển các từ và ngữ tiếng Việt là khôngkhả thi Hai phương pháp tiêu biểu của hướng tiếp cận dựa vào từ điển làLongest Matching và Maximal Matching Hầu hết những nghiên cứu khởithủy về tách từ đều dựa trên cách tiếp cận này Hướng tiếp cận này có đặcđiểm là đơn giản, dễ hiểu tuy nhiên hiệu quả mang lại không cao Lý do là bởi

nó không xử lý được rất nhiều trường hợp nhập nhằng cũng như không có khảnăng phát hiện từ mới trong văn bản Chính vì vậy mà các hệ thống tách từ cóchất lượng cao hiện nay thường sử dụng hướng tiếp cận dựa trên thống kê.Các giải pháp theo hướng tiếp cận dựa vào thống kê cần phải dựa vàothông tin thống kê như term, từ hay tần số ký tự, hay xác suất cùng xuất hiệntrong một tập dữ liệu cơ sở Do đó, tính hiệu quả của các giải pháp này chủyếu dựa vào ngữ liệu huấn luyện cụ thể được sử dụng Tuy nhiên, đây lại làvấn đề khó khăn đối với bài toán tách từ tiếng Việt Đinh Điền [4] đã xâydựng ngữ liệu huấn luyện riêng (khoảng 10MB) dựa vào các tài nguyên, tintức và sách điện tử trên Internet, bộ ngữ liệu này khá nhỏ và không toàn diện(tức là không đủ rộng, bao gồm đủ các lĩnh vực, chủ đề khác nhau)

Hiện nay, rất nhiều hệ thống phân đoạn từ phổ biến sử dụng hướng dẫncận lai Hướng tiếp cận lai áp dụng nhiều cách khác nhau để tận dụng ưu điểmcủa các giải pháp Ví dụ, nhóm tác giả Cẩm Tú [5] đã nghiên cứu ứng dụngcác mô hình CRF và SVM để phân đoạn từ tiếng Việt Hoặc như nhóm tác giả

Trang 27

Đình Điền [4] đã sử dụng mô hình MEM sử dụng giải thuật tối ưu GIS đểhuấn luyện bộ phận đoạn theo corpus gán nhãn Trong nghiên cứu đó, tác giảphân tích hai quá trình nhận dạng từ mới và phân đoạn từ đã viết như hai tiếntrình đối lập nhau Tuy nhiên, nhận thấy rằng sử dụng lai ghép hai tiến trìnhđồng thời để nâng cao độ chính xác.

2.1.1.2 Các hướng tiếp cận dựa trên ký tự từ

Các hướng tiếp cận dựa trên ký tự từ (dựa trên “tiếng” trong tiếng tiếngViệt) có thể chia làm 2 nhóm nhỏ: uni-gram và n-gram Các phương pháp nàytuy đơn giản nhưng mang lại nhiều kết quả quan trọng được minh chứngthông qua một số công trình nghiên cứu đã được công bố, như của tác giả Lê

An Hà [3] xây dựng tập ngữ liệu thô 10MB bằng cách sử dụng phương phápqui hoạch động để cực đại hóa xác suất xuất hiện của các ngữ được phân cáchbởi các ký tự phân cách Kết quả thực nghiệm tuy không cao nhưng cũng đãthấy n-gram sẽ trở nên hữu ích nếu ta biết cách sử dụng thông tin này thì liênkết với các nguồn thông tin khác

2.1.2 Nhập nhằng trong tách từ Tiếng Việt

Nếu chúng ta tiến hành tách từ thủ công, thì việc nhập nhằng rất khó xảy

ra Do ta đã hiểu được ngữ nghĩa của câu và tách từ dựa trên ngữ nghĩa của từtrong câu Tuy nhiên việc tách từ bằng tay là điều không thể thực hiện đượcvới tập dữ liệu khổng lồ Mà máy tính thì không thể hiểu hết ngữ nghĩa củacâu, nên việc nhập nhằng xảy ra là tất yếu Trong tiếng Việt hiện nay xuấthiện nhiều hiện tượng nhập nhằng như: Nhập nhằng về phạm vi, ranh giới từ;nhập nhằng do tính đa nghĩa của từ, nhập nhằng ngữ nghĩa khi sử dụng từđồng âm (đồng tự), nhập nhằng trong cách phân biệt từ loại; nhập nhằng khi

sử dụng tiếng Việt không dấu, nhập nhằng trong phân tích cú pháp tiếng Việt.Nhập nhằng trong tách từ tiếng Việt có thể chia làm hai loại: Nhập nhằngchồng chéo và nhập nhằng kết hợp

Trang 28

Ví dụ: “Đàn gà mới nở hôm qua chết mất hai con” Các từ ”đàn”, “gà”,

“đàn gà” đều có nghĩa trong từ điển

Ngoài vấn đề nhập nhằng, khi tách từ tiếng Việt còn gặp các khó khăntrong việc xác định các từ chưa biết trước (đối với máy tính) như danh từriêng, từ vay mượn nước ngoài, từ chỉ số, các câu thành ngữ, từ láy

Mức độ giải quyết tốt hai vấn đề trên sẽ quyết định hiệu suất của mộtphương pháp tách từ và quyết định nó có tốt hay không

2.1.2 Loại bỏ Từ dừng

Từ dừng hay (còn gọi là Stop word) là những từ xuất hiện nhiều trongtất cả các văn bản thuộc mọi thể loại trong tập dữ liệu, hay những từ chỉ xuấthiện trong một và một vài văn bản Nghĩa là stop word là những từ xuất hiệnquá nhiều lần và quá ít lần Chúng không có ý nghĩa và không chứa thông tinđáng giá để chúng ta sử dụng Ví dụ như các từ: thì, là, mà, và, hoặc, bởi Trong việc phân loại văn bản thì sự xuất hiện của những từ đó khôngnhững không giúp gì trong việc đánh giá phân loại mà còn nhiễn và giảm độchính xác của quá trình phân loại

2.2 Một số phương pháp tách từ Tiếng Việt

2.2.1 Phương pháp mô hình Markov ẩn

Trang 29

Mô hình Markov (Hidden Markov Model - HMM) được giới thiệu vàocuối những năm 1960 [6] Cho đến hiện nay nó có một ứng dụng khá rộngnhư trong nhận dạng giọng nói, tính toán sinh học và xử lý ngôn ngữ tự nhiên.

Mô hình Markov là mô hình máy hữu hạn trạng thái với các tham sốbiểu diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗitrạng thái

Mô hình Markov ẩn là mô hình thống kê trong đó hệ thống được môhình hóa được cho là một quá trình Markov với các tham số không biết trước

và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được, dựatrên sự thừa nhận này Các tham số của mô hình được rút ra sau đó có thể sửdụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạngmẫu

Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếpbởi người quan sát, vì vậy các xác suất chuyển tiếp trạng thái là các tham sốduy nhất Mô hình Markov ẩn thêm vào các đầu ra, mỗi trạng thái có xác suấtphân bổ trên các biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy của các biểuhiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái

Các chuyển tiếp trạng thái trong mô hình Markov ẩn

Hình 2.1 - Mô hình Markov ẩn

- x i: Các trạng thái trong mô hình Markov

- a ij: Các xác suất chuyển tiếp

Trang 30

- b ij: Các xác suất đầu ra

- y i: Các dữ liệu quan sát

Mô hình Markov ẩn thêm vào các đầu ra, mỗi trạng thái có xác suất phân

bố trên các biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy của các biểu hiện đượcsinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái Ta có tìm ra đượcchuỗi các trạng thái mô tả tốt nhất cho chuỗi dữ liệu quan sát được bằng cáchtính

P(Y ∣ X )=P (Y ∣ X )/P( X ) (2.1)

Hình 2.2 - Đồ thị vô hướng HMM

Ở đó Y n là trạng thái tại thời điểm thứ t=ntrong chuỗi trạng thái Y , X n là dữliệu quan sát được tại thời điểm thứ t=n trong chuỗi X Do trạng thái hiện tại chỉ phụ thuộc vào trạng thái ngay trước đó với giả thiết rằng dữ liệu quan sát được tại thời điểm t chỉ phụ thuộc vào trạng thái t Ta có thể tính P(Y , X )

dụng xác suất đồng thời P (Y , X ) đôi khi không chính xác vì với một số bàitoán thì việc sử dụng xác suất điều kiện P (Y ∨X ) cho kết quả tốt hơn rất nhiều

Trang 31

2.2.2 Phương pháp chuyển dịch trạng thái hữu hạn có trọng số

Chuyển dịch trạng thái hữu hạn có trọng số (Weighted Finite-StateTransducer - WFST)

Ý tưởng chính của phương pháp này áp dụng cho tách từ tiếng Việt là các

từ sẽ được gán trọng số bằng xác suất xuất hiện của từ đó trong dữ liệu Sau

đó duyệt qua các câu, cách duyệt có trọng số lớn nhất sẽ là cách dùng để táchtừ

Trong phương pháp này, tầng tiền xử lý có nhiệm vụ xử lý định dạng vănbản: Tiêu đề, đoạn, câu; chuẩn hoá về chính tả tiếng Việt (cách bỏ dấu, cáchviết các ký tự y, i, trong tiếng Việt) Ví dụ: Vật lý = vật lí, thời kỳ = thời kì).Sau đó câu được chuyển sang tầng WFST Trong tầng này tác giả xử lýthêm các vấn đề liên quan đến đặc thù của tiếng Việt, như: Từ láy, tênriêng,

Cuối cùng, nếu còn nhập nhằng câu sẽ được chuyển sang tầng khử nhậpnhằng bằng mạng Neural

Trang 32

Hình 2.3 - Sơ đồ mô hình WFST 2.2.2.1 Tầng WFST

Hoạt động của WFST có thể chia thành ba bước sau:

• Bước 1: Xây dựng từ điển trọng số: Trong mô hình WFST, thì việc phân

đoạn từ có thể được xem như là một sự chuyển dịch trạng thái có xác xuất.Chúng ta miêu tả từ điển D là một đồ thị biến đổi trạng thái hữu hạn có trọng

số Giả sử:

H là tập các tiếng trong tiếng Việt

P là tập các loại từ của từ trong tiếng Việt (POS: Part-Of-Speech)

Mỗi cung của D có thể là:

Từ một phần tử của H tới một phần tử của H;

Từ phần tử ε (xâu rỗng) đến một phần tử của PNói cách khác, mỗi từ được miêu tả trong từ điển D là một chuỗi tuần tựcác cung: Bắt đầu bằng một trạng thái ban đầu của D, được gán nhãn bằng

Trang 33

một phần tử S thuộc H và kết thúc bởi một cung được gán nhãn là một phần

từ của ε x P Nhãn này biểu thị một chi phí ước lượng (lấy log của xác suất).Chúng ta biểu diễn câu cần tách là một máy nhận trạng thái hữu hạnkhông có trọng số (FSA - Finite State Acceptor) I trên H Giả sử đã tồn tạimột hàm Id mà đầu vào là FSA A, và đầu ra là một chuyển dịch mà các phần

tử trong đó chỉ bao gồm các phần tử thuộc A (gọi là D*) Mỗi từ được kếtthúc bởi một cung biểu diễn sự chuyển đổi giữa s và từ loại của chúng Xácsuất chuyển đổi được tính bằng cách lấy log của xác suất trong một tập mẫulớn theo công thức:

Giả sử ta có XYZ, trong đó XY là từ cơ bản, Z là hậu tố Ta cần tính: cost

(XYZ);

Gọi p(Z): xác suất trong trường hợp này của Z (trường hợp Z đứng kề XY);

=> P (unseen(z)) = p[unseen(z)/Z] p(Z) (2.4)

=> cost (XYZ) = cost (XY) + cost (unseen(Z)) (2.5)

Với cost được tính theo công thức trên

Do đó trong từ điển, đối với các từ tiền tố và hậu tố (ta tạm gọi là Z) tác giả lưu thêm các xác suất của Z khi Z đứng liền sau một từ loại nhất định.

• Bước 2: Xây dựng các khả năng tách từ:

Bước này thống kê tất cả các khả năng tách từ của một câu Vấn đề ở đây

là để giảm sự bùng nổ các cách tách từ, thuật toán sẽ loại bỏ ngay nhữngnhánh tách từ nào đó không phù hợp mà chứa từ không xuất hiện trong từ

Trang 34

điển, không phải là từ láy, không phải là danh từ riêng thì loại bỏ các nhánhxuất phát từ cách tách từ đó Thật vậy, giả sử một câu gồm n âm tiết, mà trongtiếng Việt thì một từ có tối đa 4 âm tiết tức là ta sẽ có tối đa 2n-1 cách tách từkhác nhau Một câu tiếng Việt trung bình có 24 âm tiết thì lúc đó ta phải giảiquyết 8.000.000 trường hợp tách từ có thể trong một câu.

• Bước 3: Lựa chọn khả năng tách từ tối ưu: Sau khi liệt kê tất cả các khả

năng tách từ, thuật toán sẽ chọn cách tách tốt nhất, đó là tách đoạn có trọng số

Trọng số theo mỗi cách tách từ được tính là:

“Tốc độ # truyền thông # tin # sẽ # tăng # cao.” (1)

Trang 35

trị t0 với ý nghĩa như sau: nếu sự chênh lệch về trọng số (giữa các cách tách từkhác nhau với cách tách từ có trọng số nhỏ nhất) lớn hơn t0 thì đó là kết quảtách từ có trọng số nhỏ nhất đó đúng của câu và được chấp nhận Còn nếu sựchênh lệch đó không lớn hơn t0, thì cách tách từ có trọng số nhỏ nhất đó chưađược xem là kết quả tách từ đúng của câu.

Lúc này, ta sẽ đưa những cách tách từ của câu này qua mô hình mạngNeural để xử lý tiếp

Ví dụ: Sau khi qua phần xử lý WFST ta chỉ được ba cách tách từ có trọng

số nhỏ nhất nhưng sự chênh lệch trọng số không lớn hơn t0:

Học sinh/N học/V sinh học/N;

Học sinh/N học sinh/N học/V;

Hoc/V sinh học/N sinh học

Thực tế trong tiếng Việt, có những dãy các loại từ không thể tuần tự đứngcạnh nhau theo luật ngữ pháp tiếng Việt Nếu ta muốn lọc lại những trườnghợp mập mờ trên bằng luật cú pháp tiếng Việt, ta lại đụng đến vấn đề vô cùngphức tạp là phân tích cú pháp tiếng Việt

Chúng ta xét lại ví dụ ở phần trên, mô hình mạng Neural được đề xuấtdùng để ước lượng giá trị 3 dãy từ loại: NNV, NVN, VNN Mô hình này đượchọc bằng chính các câu mà cách tách từ vẫn còn nhập nhằng sau khi qua môhình thứ nhất Khi đó tác giả tách từ bằng tay cho các câu nhập nhằng này vàsau đó đưa vào máy học Để thực hiện việc kiểm tra sự hợp lệ của một dãycác từ loại trong một câu, tác giả [6] sử dụng một “ngữ cảnh k” cho mỗi từ cótrong câu, ta sử dụng một cửa sổ trượt có kích thước là k từ và mảng mô tảcủa nó trượt trên câu cần xét bắt đầu từ từ đầu tiên đến từ cuối cùng trong câu.Thực tế mô hình mạng gồm 6 nút nhập, 10 nút ẩn và một nút xuất

Tầng nhập của mạng được kết nối hoàn toàn với một tầng ẩn gồm 10 nútvới một hàm truyền Những nút ẩn này lại được kết nối hoàn toàn với một

Trang 36

tầng xuất chỉ gồm 1 nút Nút xuất là một giá trị thực nằm giữa 0 1 Biểu thịcho khả năng hợp lệ của một dãy các từ loại đứng liền nhau trong một cửa sổtrượt Khi cửa sổ trượt trượt từ đầu câu đến cuối câu, cộng dồn các kết quả lạivới nhau và gán giá trị này vào thành trọng số của câu Hàm truyền được chọn

Ưu điểm của phương pháp này là sẽ cho độ chính xác cao nếu ta xây dựngđược một dữ liệu học đầy đủ và chính xác Nó còn có thể kết hợp với cácphương pháp khử nhập nhằng (phương pháp mạng Neural) để cho kết quảtách rất cao (có thể chính xác đến 97%, tỉ lệ này tuỳ thuộc vào loại văn bản)

2.2.3 Phương pháp so khớp cực đại

Phương pháp so khớp cực đại (Maximum Matching) còn gọi là Left RightMaximum Matching Nội dung thuật toán này dựa trên thuật toán đã đượcChihHao Tsai [7] giới thiệu năm 1996

* Tư tưởng của phương pháp so khớp cực đại là duyệt một câu từ trái quaphải và chọn từ có nhiều tiếng nhất có mặt trong từ điển tiếng Việt, rồi cứ thểtiếp tục cho từ kế tiếp cho đến hết câu

* Đầu vào: Chuỗi ký tự

* Đầu ra: Chuỗi từ, cụm từ (Từ có chiều dài dài nhất)

Trang 37

2.2.3.1 Thuật toán so khớp cực đại dạng đơn giản

Giả sử chúng ta có một câu S={C1, C2, C3 , Cn}, với C1, C2, C3 , Cn

là các tiếng được tách bởi khoảng trắng trong câu

Chúng ta bắt đầu duyệt từ đầu chuỗi, xác định đâu là từ Đầu tiên chúng ta

sẽ kiểm tra xem C1 có phải là từ có trong từ điển không, sau đó kiểm tra tiếp

C1C2 có trong từ điển hay không Tiếp tục như vậy C1C2C3, …, C1C2C3…

Cn, với n là số tiếng lớn nhất của một từ có thể có nghĩa (có trong từ điển

tiếng Việt) Sau đó chúng ta chọn từ có nhiều tiếng nhất có mặt trong từ điển

và đánh dấu từ đó Sau đó tiếp tục quá trình trên với tất các các tiếng còn lạitrong câu và trong toàn bộ văn bản

Dạng đơn giản được dùng giải quyết nhập nhằng từ đơn, khá đơn giảnnhưng nó gặp phải rất nhiều nhập nhằng trong tiếng Việt

Ví dụ: Cho câu “ Học sinh học sinh học” Nó sẽ gặp phải lỗi khi tách từcâu sau: “học sinh | học sinh | học”, câu đúng phải là “học sinh| học| sinhhọc”

2.2.3.2 Thuật toán so khớp cực đại dạng phức tạp

Thuật toán này thực hiện quy trình cũng giống như dạng đơn giản Tuynhiên, dạng này có thể tránh được một số nhập nhằng gặp phải trong dạngđơn giản Đạt độ chính xác đến 99.69% và 93.21% nhập nhằng được giảiquyết

Đầu tiên chúng ta sẽ kiểm tra xem C1 có phải là từ có trong từ điển không, sau đó kiểm tra tiếp C1C2 có trong từ điển hay không Giả sử khi duyệt câu, chúng ta có C1 và C1C2 đều là từ có trong từ điển thì thì thuật toán

thực hiện chiến thực 3 từ tốt nhất được Chen & Liu đưa ra vào năm 1992 [8]như sau:

* Tiêu chuẩn 3 từ tốt nhất được Chen & Liu (1992) đưa ra như sau:

Định dạng
Số trang	74
Dung lượng	579,83 KB

Tiêu đề	Ứng dụng xử lý ngôn ngữ tự nhiên phân tích nhu cầu sử dụng dịch vụ viễn thông từ các bình luận trên mạng xã hội
Tác giả	Phạm Thế An
Người hướng dẫn	TS. Hoàng Phước Lộc
Trường học	Trường Đại học Duy Tân
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn Thạc sĩ Khoa học Máy tính
Năm xuất bản	2022
Thành phố	Đà Nẵng