Mục tiêu bài toán - Nghiên cứu và ứng dụng các thuật toán hiện đại: Tìm hiểu và áp dụng các thuậttoán tiên tiến trong lĩnh vực máy học và xử lý ngôn ngữ tự nhiên NLP - Phát triển hệ thốn
Trang 1HỌC VIỆN NGÂN HÀNG KHOA CÔNG NGHỆ THÔNG TIN VÀ KINH TẾ SỐ
🕮
-BÁO CÁO BÀI TẬP LỚN
Học phần: TRÍ TUỆ NHÂN TẠO
Đề tài: Ứng dụng thuật toán TextRank và Navie Bayes trong tóm tắt và phân loại văn bản tự động
Giảng viên hướng dẫn: TS Vũ Trọng Sinh
Lớp học phần: 232IS54A01
Nhóm sinh viên thực hiện: Nhóm 14
HÀ NỘI, 06/2024
Trang 2HỌC VIỆN NGÂN HÀNG KHOA CÔNG NGHỆ THÔNG TIN VÀ KINH TẾ SỐ
🕮
-BÁO CÁO BÀI TẬP LỚN
Học phần: TRÍ TUỆ NHÂN TẠO
Đề tài: Ứng dụng thuật toán TextRank và
Navie Bayes trong tóm tắt và phân loại văn
bản tự động
Giảng viên hướng dẫn: TS Vũ Trọng Sinh
Lớp học phần: 232IS54A01 - Nhóm 14
Họ và tên Mã sinh viên
Nguyễn Thị Hoài Ngọc 24A4041420
Phan Thị Phương Anh 24A4043026
Trịnh Thị Phi Yến 24A4041701
Phạm Hà Trang 24A4041689
HÀ NỘI, 6/2024
Trang 3BẢNG PHÂN CÔNG CÔNG VIỆC
Link github: trangiuu/textsummarization (github.com)
STT Mã sinh viên Họ và tên Phân công Đánh giá
25%
3 24A4041701 Trịnh Thị Phi
Yến
Code tóm tắt và phân loại văn bản
25%
4 24A4041689 Phạm Hà
Trang Tổng hợp báo cáo word 25%
Trang 4LỜI CAM ĐOAN
Chúng em xin chân thành cam đoan rằng bài tiểu luận này được thực hiện với sự tậntâm và sự chân thành cao nhất từ tất cả các thành viên của nhóm chúng em Tất cảnhững suy nghĩ, ý kiến, và thông tin được trình bày trong bài tiểu luận đều phản ánh sựđóng góp tích cực của chúng em trong quá trình nghiên cứu và thảo luận
Chúng em cam đoan rằng mọi nguồn thông tin và tài liệu tham khảo được sử dụng đềuđược chọn lọc một cách cẩn thận, đồng thời đã được trích dẫn một cách đầy đủ vàchính xác Mọi chi tiết trong bài viết đều tuân thủ các quy định và nguyên tắc nghiêmtúc về đạo đức nghiên cứu
Chúng em hoàn toàn chịu trách nhiệm với nội dung của bài tiểu luận này và sẵn sàngchấp nhận mọi hình phạt kỷ luật nếu có bất kỳ vấn đề nào phát sinh
SINH VIÊN THỰC HIỆN
Nguyễn Thị Hoài NgọcPhan Thị Phương AnhTrịnh Thị Phi YếnPhạm Hà Trang
Trang 5LỜI CẢM ƠN
Chúng em xin gửi lời cảm ơn sâu sắc đến khoa Công Nghệ Thông Tin và Kinh Tế Số trường Học Viện Ngân Hàng đã tạo điều kiện thuận lợi cho em được học tập và hoàn thành bài tiểu luận Đặc biệt, em xin gửi lời cảm ơn chân thành nhất đến thầy Vũ Trọng Sinh đã tận tình chỉ dạy, truyền đạt kiến thức và hướng dẫn chúng em trong quátrình làm bài
Chúng em đã cố gắng vận dụng những kiến thức đã học được và tìm tòi thêm nhiều thông tin để hoàn thành bài tiểu luận này Tuy nhiên, do kiến thức còn hạn chế và không có nhiều kinh nghiệm trên thực tiễn nên khó tránh khỏi những thiếu sót trong bài làm Rất kinh mong thầy cho em thêm những góp ý để bài tiểu luận của nhóm em được hoàn thiện hơn Chúng em xin chân thành cảm ơn!
Trang 6MỤC LỤC
LỜI CAM ĐOAN 4
LỜI CẢM ƠN 5
MỤC LỤC 6
DANH MỤC HÌNH ẢNH 8
DANH MỤC CÁC BẢNG 9
DANH MỤC TỪ VIẾT TẮT VÀ TỪ TIẾNG ANH 10
CHƯƠNG I.TỔNG QUAN VỀ ĐỀ TÀI 11
1.1 Đặt vấn đề 11
1.2 Cơ sở hình thành đề tài 11
1.3 Mục tiêu bài toán 12
1.4 Ý nghĩa của đề tài 13
1.5 Đối tượng và phương pháp nghiên cứu 13
1.6 Đối tượng sử dụng 13
1.7 Phạm vi thực hiện bài toán 14
1.8 Kết cấu bài báo cáo 14
CHƯƠNG II TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN (NLP) 15
2.1 Định nghĩa 15
2.2 Lịch sử và sự phát triển của NLP 15
2.3 Các thành phần chính của NLP 16
2.4 Các bước xử lý ngôn ngữ tự nhiên 17
2.4.1 NLP có giám sát 20
2.4.2 NLP không giám sát 21
2.4.3 Hiểu ngôn ngữ tự nhiên (NLU) 21
2.4.4 Tạo ngôn ngữ tự nhiên (NLG) 22
2.4 Ứng dụng của NLP 22
2.5 Thách thức của NLP 24
CHƯƠNG III TỔNG QUAN CHUNG VỀ THUẬT TOÁN 27
3.1 Thuật toán TextRank 27
3.1.1 Lý do lựa chọn thuật toán 27
3.1.2 Khái niệm 28
Trang 73.2.3 Nguyên lý hoạt động 28
3.2.4 Ứng dụng của TextRank 29
3.2.5 Ưu điểm và nhược điểm của thuật toán TextRank 30
3.2.6 Cách thực hiện thuật toán 31
3.2 Thuật toán Naive Bayes 32
3.2.1 Lý do chọn lựa thuật toán 32
3.2.2 Định nghĩa 34
3.2.3 Cách thức hoạt động 35
3.2.4 Ứng dụng 35
3.2.5 Ưu điểm và nhược điểm 36
3.2.6 Cách thực hiện thuật toán 37
CHƯƠNG IV THỰC NGHIỆM VÀ ĐÁNH GIÁ 38
4.1 Giới thiệu về các thư viện được sử dụng 38
4.2 Thu thập dữ liệu (Data collection) 39
4.3 Xây dựng mô hình tóm tắt văn bản dựa trên thuật toán Textrank 43
4.3 Xây dựng mô hình phân loại văn bản tự động dựa trên thuật toán Naive Bayes 47
CHƯƠNG V TỔNG KẾT 51
CHƯƠNG VI TÀI LIỆU THAM KHẢO 52
MINH CHỨNG LÀM VIỆC NHÓM 53
Trang 8DANH MỤC HÌNH ẢNH
Hình 1 Các bước xử lý ngôn ngữ tự nhiên 17Hình 2 Mô phỏng công thức tính trọng số cạnh 28Hình 3 Hình mô phỏng công thức phân bổ điểm số dựa trên mức độ kết nối và trọng
số cạnh giữa các đỉnh 29Hình 4 Hình minh họa các bước thực hiện thuật toán Textrank 31
Trang 9DANH MỤC CÁC BẢNG
Bảng 1 Mô tả các bước xử lý ngôn ngữ tự nhiên 20
Bảng 2 So sánh các thuật toán được sử dụng trong NLP 27
Bảng 3 Bảng đánh giá ưu, nhược điểm của thuật toán Textrank 31
Bảng 4 Đánh giá ưu nhược điểm của thuật toán Naive Bayes 37
Trang 10DANH MỤC TỪ VIẾT TẮT VÀ TỪ TIẾNG ANH
Từ viết tắt Từ tiếng Anh Từ tiếng Việt
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
AI Artificial Intelligent Trí tuệ nhân tạo
Deep learning Học sâu
Machine learning Học máy
Trang 111.1 Đặt vấn đề
Trong kỷ nguyên thông tin hiện nay, lượng dữ liệu văn bản số hoá ngày càng tăngnhanh chóng Hàng ngày, chúng ta phải đối mặt với vô số tài liệu từ các nguồn khácnhau như báo chí, bài nghiên cứu khoa học, blog, và mạng xã hội Việc xử lý và khaithác thông tin từ những nguồn này trở thành một thách thức lớn đối với cả cá nhân và
tổ chức Một trong những nhu cầu cấp thiết là làm sao để tóm tắt và phân loại đượckhối lượng văn bản khổng lồ này một cách tự động và chính xác
Việc tóm tắt văn bản giúp giảm bớt thời gian đọc và tìm kiếm thông tin bằng cáchcung cấp một phiên bản rút gọn nhưng vẫn giữ được ý chính của tài liệu gốc Điều nàyđặc biệt quan trọng trong các lĩnh vực như báo chí, nơi mà việc truyền tải thông tinnhanh chóng và chính xác là yếu tố then chốt Phân loại văn bản, mặt khác, hỗ trợ việc
tổ chức và quản lý thông tin bằng cách gán nhãn cho các tài liệu dựa trên nội dung củachúng Đây là cơ sở cho nhiều ứng dụng thực tiễn như lọc thư rác, hệ thống gợi ý nộidung, và phân tích cảm xúc Việc áp dụng các thuật toán để tóm tắt và phân loại vănbản tự động không chỉ giúp tiết kiệm thời gian mà còn cải thiện độ chính xác và nhấtquán trong việc xử lý thông tin Các phương pháp truyền thống dựa vào việc xử lý thủcông không còn phù hợp trong bối cảnh thông tin hiện đại Chính vì vậy, ứng dụng cácthuật toán máy học và xử lý ngôn ngữ tự nhiên (NLP) đang ngày càng trở nên quantrọng
Đề tài "Ứng dụng thuật toán TextRank và Navie Bayes trong tóm tắt và phân loại vănbản tự động" hướng tới việc nghiên cứu và phát triển các thuật toán này, nhằm tạo racác công cụ hỗ trợ hiệu quả cho việc tóm tắt và phân loại văn bản Qua đó, góp phầnnâng cao hiệu quả làm việc và khai thác tri thức từ nguồn tài liệu khổng lồ hiện nay
1.2 Cơ sở hình thành đề tài
Trong thời đại số hóa, lượng thông tin văn bản đang tăng trưởng theo cấp số nhân,khiến việc tìm kiếm, phân tích và khai thác thông tin trở nên thách thức Nhu cầu tómtắt và phân loại văn bản là cấp thiết để giúp người dùng nhanh chóng nắm bắt ý chính
và tổ chức thông tin hiệu quả Phương pháp xử lý thủ công truyền thống không cònkhả thi do khối lượng thông tin khổng lồ và đa dạng Tiến bộ trong máy học (MachineLearning) và xử lý ngôn ngữ tự nhiên (NLP) đã mở ra khả năng mới trong việc tựđộng hóa các nhiệm vụ này Thuật toán học sâu như mạng nơ-ron hồi tiếp (RNN) vàmạng nơ-ron
Trang 12chuyển tiếp (Transformer) đã chứng minh hiệu quả trong việc xử lý ngôn ngữ tự nhiên.Nghiên cứu và phát triển các thuật toán tóm tắt và phân loại văn bản tự động không chỉmang lại lợi ích thực tiễn mà còn có tiềm năng lớn trong nhiều lĩnh vực như truyềnthông, giáo dục, và thương mại điện tử Do đó, đề tài được hình thành nhằm áp dụngcác kỹ thuật tiên tiến để giải quyết các bài toán thực tiễn, đáp ứng nhu cầu xử lý thôngtin hiện nay.
1.3 Mục tiêu bài toán
- Nghiên cứu và ứng dụng các thuật toán hiện đại: Tìm hiểu và áp dụng các thuậttoán tiên tiến trong lĩnh vực máy học và xử lý ngôn ngữ tự nhiên (NLP)
- Phát triển hệ thống tóm tắt văn bản tự động : xây dựng một hệ thống có khả năngtạo ra các bản tóm tắt ngắn gọn, chính xác từ các tài liệu văn bản dài hệ thống này sẽgiúp người dùng nhanh chóng nắm bắt được ý chính của tài liệu mà không cần đọc toàn bộ nội dung
- Xây dựng hệ thống phân loại văn bản tự động: thiết kế và phát triển một hệ thống
có khả năng phân loại văn bản vào các danh mục hoặc nhãn dựa trên nội dung của chúng hệ thống này sẽ giúp tổ chức và quản lý thông tin một cách hiệu quả hơn
- Đánh giá hiệu quả và độ chính xác: đánh giá hiệu quả của các thuật toán và hệ thống đã phát triển thông qua các chỉ số như độ chính xác, độ tin cậy, và tốc độ xử lý
so sánh với các phương pháp truyền thống và các hệ thống hiện có để khẳng định tính
ưu việt của các giải pháp mới
- Mở rộng nghiên cứu: đề xuất các hướng nghiên cứu tiếp theo để cải tiến và
mở rộng hệ thống, bao gồm việc tối ưu hóa các thuật toán, tích hợp với các công nghệ khác và áp dụng trong các ngữ cảnh đa dạng
Cụ thể hơn, mục tiêu của đề tài là phát triển một hệ thống tự động tóm tắt văn bảnbằng cách sử dụng các kỹ thuật trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Hệthống sẽ sử dụng mô hình TextRank để xác định các câu quan trọng trong văn bản vàtạo ra một bản tóm tắt ngắn gọn Tiếp theo, hệ thống sẽ sử dụng thuật toán phân loạichủ đề Naive Bayes để gán nhãn cho các đoạn văn đã tóm tắt vào các chủ đề tươngứng Mục tiêu cuối cùng là xây dựng một ứng dụng sử dụng ngôn ngữ lập trìnhPython, được lập trình trên môi trường Visual Studio Code, giúp người dùng tóm tắt
và phân loại chủ đề của văn bản một cách tự động và hiệu quả Đây là bước tiến quantrọng trong việc tự động hóa quy trình tóm tắt và phân loại chủ đề văn bản, giúp tiếtkiệm thời gian và công sức cho người sử dụng
Kết quả mong muốn của bài toán:
Trang 13- Khi áp dụng mô hình TextRank trong xử lý ngôn ngữ tự nhiên để tóm tắt văn bản,kết quả thu được sẽ là những đoạn văn ngắn gọn nhưng đảm bảo được sự chính xác vàlogic Những đoạn văn này không chỉ giúp tiết kiệm thời gian cho người đọc mà còngiúp họ nắm bắt được những thông tin quan trọng nhất một cách dễ dàng và hiệu quả.
- Phân loại theo chủ đề của các đoạn văn sau khi đã được thực hiện tóm tắt đượcxây dựng trên mô hình Naive Bayes cũng là một điểm mạnh đáng kể Bằng cách xácđịnh các từ và cụm từ quan trọng trong văn bản gốc, chương trình có thể giúp ngườiđọc xác định được đoạn văn bản trên thuộc chủ đề nào
1.4 Ý nghĩa của đề tài
Hệ thống tóm tắt và phân loại văn bản tự động mang lại nhiều lợi ích quan trọng, giúptiết kiệm thời gian và công sức bằng cách nhanh chóng nắm bắt ý chính của các tài liệudài và tổ chức thông tin một cách hiệu quả Điều này nâng cao năng suất làm việc vàcho phép người dùng tập trung vào các hoạt động có giá trị cao hơn Ngoài ra, việcphân loại văn bản chính xác cải thiện chất lượng quản lý thông tin, làm cho việc truyxuất dữ liệu trở nên dễ dàng và nhanh chóng hơn, đặc biệt hữu ích trong quản lý tàiliệu và thư viện số Hệ thống này cũng hỗ trợ đưa ra quyết định kịp thời và chính xác,đặc biệt trong các lĩnh vực như báo chí, tài chính, và quản trị doanh nghiệp Công nghệnày có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau như giáo dục, y tế,thương mại điện tử, và nghiên cứu khoa học, đem lại lợi ích cho một phạm vi rộng lớnngười dùng Đồng thời, đề tài này thúc đẩy sự sáng tạo và nghiên cứu trong lĩnh vực
xử lý ngôn ngữ tự nhiên và máy học, khuyến khích phát triển các giải pháp công nghệtiên tiến hơn Việc triển khai các công cụ này còn nâng cao trải nghiệm người dùngtrên các nền tảng thông tin và truyền thông, góp phần vào sự phát triển công nghệ vànâng cao chất lượng cuộc sống
1.5 Đối tượng và phương pháp nghiên cứu
Đối tượng nghiên cứu: Mô hình Textrank, thuật toán Naive Bayes và phần mềmVisual Studio Code
Phương pháp nghiên cứu: Phương pháp nghiên cứu lý thuyết và phương pháp nghiêncứu thực tiễn
1.6 Đối tượng sử dụng
Tất cả mọi cá nhân, tổ chức, những người thường xuyên phải xử lý một lượng lớn vănbản và muốn tự động hóa quy trình tóm tắt và phân loại chủ đề của chúng Ví dụ như:
Trang 14- Nhà nghiên cứu và học viên: Các nhà nghiên cứu và học viên có thể sử dụng đểtổng hợp thông tin từ các tài liệu nghiên cứu, báo cáo hoặc sách, giúp họ nắm bắtnhanh chóng các thông tin quan trọng và phân tích chủ đề một cách hiệu quả.
- Người đọc tự do: những người có nhu cầu tổng hợp thông tin từ các bài báo, bloghoặc các trang tin tức, giúp họ tiết kiệm thời gian khi cần tra cứu biết được thông tinvắn tắt của trang tin tức
1.7 Phạm vi thực hiện bài toán
- Dữ liệu: Bài toán sẽ được thực hiện trên một tập dữ liệu văn bản đã được huấn luyện để gán nhãn từ ngữ cụ thể Tập dữ liệu này được thu thập từ các bài viết từ báo chí, các tài liệu học thuật, hoặc các bài viết từ blog, với kích thước đủ lớn để kiểm chứng hiệu quả của các thuật toán
- Ngôn ngữ: Các thuật toán sẽ được triển khai chủ yếu cho văn bản tiếng Việt Tuynhiên, phương pháp có thể được áp dụng cho các ngôn ngữ khác với các điều chỉnh phù hợp
- Phần mềm và công cụ: Sử dụng Python làm ngôn ngữ lập trình chính trên phầnmềm Visual Studio Code, cùng với các thư viện hỗ trợ như Underthesea, Regex, NLTK, NetworkX, Sklearn,
- Đánh giá: Hiệu quả của các thuật toán sẽ được đánh giá thông qua các thước đophổ biến như độ chính xác (accuracy), độ nhạy (recall), độ đặc hiệu (precision), vàđiểm F1 (F1-score) cho phân loại văn bản; và độ dài tóm tắt, tính nhất quán và mức độbao phủ (coverage) cho tóm tắt văn bản
1.8 Kết cấu bài báo cáo
Chương I Giới thiệu bài toán
Chương II Giới thiệu về xử lý ngôn ngữ tự nhiên (NLP)
Chương III Giới thiệu tổng quan về thuật toán được sử dụng
Chương IV Thực nghiệm và đánh giá
Chương V Tổng kết
Chương VI Danh mục tài liệu tham khảo
Trang 15CHƯƠNG II TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN (NLP)
2.2 Lịch sử và sự phát triển của NLP
Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực nghiên cứu thuộc trí tuệ nhân tạo (AI),tập trung vào việc tương tác giữa con người và máy tính thông qua ngôn ngữ tự nhiên.Lịch sử phát triển của NLP trải qua nhiều giai đoạn, đánh dấu bởi những bước tiếnquan trọng và sự thay đổi trong cách tiếp cận
❖ Giai đoạn đầu (những năm 1950 - 1970):
- Giai đoạn này tập trung vào các quy tắc và biểu tượng để xử lý ngôn ngữ
- Các hệ thống NLP đầu tiên được phát triển, bao gồm hệ thống dịch máy
SYSTRAN và hệ thống phân tích cú pháp SHRDLU
- Tuy nhiên, các hệ thống này gặp nhiều hạn chế do thiếu khả năng xử lý ngữ nghĩa
và bối cảnh ngôn ngữ
❖ Giai đoạn phát triển (những năm 1980 - 1990):
- Xu hướng chuyển sang sử dụng các phương pháp thống kê để xử lý ngôn ngữ
- Các mô hình thống kê như n-gram và mô hình ngôn ngữ được phát triển để cải thiện độ chính xác của hệ thống NLP
- Các ứng dụng NLP bắt đầu được ứng dụng trong nhiều lĩnh vực như nhận dạnggiọng nói, dịch máy và tóm tắt văn bản
❖ Giai đoạn học máy (những năm 2000 - nay):
- Sự ra đời và phát triển của học máy, đặc biệt là học sâu, mang đến bước đột phá choNLP Các mô hình học sâu như mạng nơ-ron nhân tạo (ANN) và mạng nơ-ron tíchchập (CNN) được ứng dụng rộng rãi trong NLP, giúp nâng cao đáng kể hiệu quả củacác hệ thống NLP đạt được nhiều thành tựu ấn tượng trong các bài toán như dịch máy
tự động, trả lời câu hỏi, tóm tắt văn bản và tạo văn bản
Trang 16- Hiện nay, NLP tiếp tục phát triển với tốc độ nhanh chóng, được thúc đẩy bởi sựgia tăng dữ liệu ngôn ngữ và sức mạnh tính toán Các ứng dụng NLP ngày càng đadạng và phong phú, góp phần thay đổi cách con người tương tác với máy tính và thếgiới xung quanh.
Một số mốc lịch sử quan trọng trong sự phát triển của NLP:
- Dịch máy và các nghiên cứu đầu tiên (1960s - 1970s): Trong những năm 1960,một số nghiên cứu về dịch máy bắt đầu được tiến hành, như hệ thống dịchGeorgetown
1960: Công trình của Chomsky và những người khác về lý thuyết ngôn ngữ hình thức
và cúpháp tạo sinh.Một trong những mốc quan trọng khác là việc phát triển hệ thốngSHRDLU bởi Terry Winogradvào năm 1968, là một hệ thống hiểu ngôn ngữ tự nhiênđầu tiên
- Lưu trữ dữ liệu và xử lý ngôn ngữ tự nhiên (1980s - 1990s): Trong thập kỷ này, sựphát triển của máy tính và Internet đã tạo ra nhiều cơ hội mới cho NLP.Một trongnhững mốc quan trọng là việc phát triển WordNet vào những năm 1980, một cơ sởdữliệu từ vựng đồng nghĩa và ngữ nghĩa.Các kỹ thuật phân tích ngôn ngữ tự nhiên nhưphân tích cú pháp và phân loại ý kiến đã đượcnghiên cứu sâu rộng
- Học máy và sự phát triển của deep learning (2000s - Hiện Nay): Thập kỷ 2000chứng kiến sự bùng nổ của học máy và deep learning, mở ra cánh cửa cho việc ápdụngcác mô hình mạng nơ-ron sâu trong NLP.Một trong những mốc quan trọng nhất là sựxuất hiện của các mô hình như Word2Vec và GloVe,cho phép biểu diễn từ vựng trongkhông gian vector có chiều thấp.Sự ra đời của các mô hình transformer như BERT vàGPT đã làm thay đổi cách thức tiếp cận vàgiải quyết các vấn đề trong NLP, đặc biệt làtrong các nhiệm vụ như dịch máy và sinh văn bản tự động
Sự phát triển của NLP mở ra nhiều tiềm năng cho tương lai, hứa hẹn mang lại nhữnglợi ích to lớn cho con người trong nhiều lĩnh vực như giáo dục, y tế, kinh doanh và giảitrí
2.3 Các thành phần chính của NLP
- Phân tích cú pháp (Syntax Analysis): Phân tích cú pháp, hay còn gọi là phân tíchcấu trúc, là quá trình xác định cấu trúc ngữ pháp của câu bằng cách xác định các thànhphần như danh từ, động từ, tính từ và mối quan hệ giữa chúng Đây là bước cơ bản đểhiểu ngữ pháp và cấu trúc của ngôn ngữ, giúp máy tính có thể "đọc" và phân tích câunhư con người Phương pháp này thường sử dụng các công cụ như cây cú pháp (parsetree) hoặc đồ thị phụ thuộc (dependency graph)
Trang 17- Phân tích ngữ nghĩa (Semantic Analysis): Phân tích ngữ nghĩa tập trung vào việchiểu ý nghĩa của từ và câu trong ngữ cảnh cụ thể Quá trình này bao gồm việc xác định
ý nghĩa của từ dựa trên ngữ cảnh, xử lý các từ đồng nghĩa và đa nghĩa Kỹ thuật nàygiúp máy tính hiểu được nội dung thực sự của văn bản, từ đó có thể thực hiện cácnhiệm vụ như trả lời câu hỏi, dịch ngôn ngữ, và tóm tắt văn bản một cách chính xáchơn
- Phân tích ngữ dụng (Pragmatics Analysis): Phân tích ngữ dụng là quá trình hiểu ýnghĩa của câu trong ngữ cảnh sử dụng cụ thể, bao gồm các yếu tố như thời gian, địađiểm, người nói và mục đích giao tiếp Ngữ dụng giúp xác định ý định của người nói
và các yếu tố ngầm định trong giao tiếp, chẳng hạn như mỉa mai, hài hước, hoặc các ẩn
ý khác Điều này rất quan trọng để máy tính có thể tương tác một cách tự nhiên và phùhợp với con người
- Nhận diện thực thể (Named Entity Recognition - NER): Nhận diện thực thể là quátrình xác định và phân loại các thực thể được đề cập trong văn bản, như tên người, địađiểm, tổ chức, ngày tháng, và các đối tượng đặc biệt khác NER giúp trích xuất thôngtin cụ thể từ văn bản, làm cho việc tìm kiếm và quản lý thông tin trở nên dễ dàng hơn
Kỹ thuật này được sử dụng rộng rãi trong các hệ thống tìm kiếm, phân tích dữ liệu vàquản lý thông tin
- Tổng hợp văn bản (Text Generation): Tổng hợp văn bản là quá trình tạo ra văn bản
tự nhiên từ dữ liệu Điều này bao gồm việc viết lại các câu, tạo ra các đoạn văn mớidựa trên dữ liệu đầu vào, và thậm chí viết bài báo hoặc báo cáo Kỹ thuật này sử dụngcác mô hình ngôn ngữ học sâu như RNN, LSTM, và Transformer để tạo ra văn bản cótính logic và ngữ nghĩa, giúp máy tính có thể viết văn bản một cách tự nhiên và dễhiểu
2.4 Các bước xử lý ngôn ngữ tự nhiên
Hình 1 Các bước xử lý ngôn ngữ tự nhiên
Trang 18sự kết thúc của một câu.
- Xử lý các trường hợp đặcbiệt: Một số trường hợp đặcbiệt cần được xử lý cẩnthận, chẳng hạn như dấuchấm trong các chữ viết tắt(ví dụ: "Mr.", "Dr."), sốthập phân, hoặc dấu chấmtrong tên miền (ví
dụ:
"www.example.com")
- Tách câu: Sau khi nhậndiện được dấu câu và xử lýcác trường hợp đặc biệt,văn bản sẽ được tách thànhcác câu riêng lẻ dựa trêncác dấu hiệu đã xác định
- Văn bản gốc: "Giáo sưSmith nói: 'Học tập là quan trọng.' Tuy nhiên, ông cũng nhấn mạnh rằng thư giãn là cần thiết."
- Sau khi phân đoạn câu:+ "Giáo sư Smith nói: 'Họctập là quan trọng.'"+ "Tuy nhiên, ông cũng nhấn mạnh rằng thư giãn
ký tự đặc biệt ra khỏi từ, nếu cần thiết, hoặc giữ chúng như các token riêngbiệt
- Xử lý các trường hợp đặc biệt: Các trường hợp đặc
- Văn bản gốc: "Tôi yêuNLP!"
- Sau khi tách từ: "Tôi"
"Yêu" "NLP" "!"
Trang 19biệt như chữ viết tắt, địa chỉemail, URL, số điện thoại,
và các ký hiệu đặc biệt khác cần được xử lý đúng cách để tránh việc chia nhỏ không mong muốn
3 Bỏ tiền
tố, hậu
tố
- Quá trình này nhằm loại bỏ
các phần dư thừa của từ (tiền tố, hậu tố) để đưa từ
về dạng gốc hoặc dạng cơ bản
- Trong tiếng Việt, các hậu
tố như "nhất", "hơn",
"nữa", "được", "bị" và các tiền tố như "không", "chưa"
có thể được loại bỏ để đạt được dạng gốc của từ
- Văn bản gốc: "yêu thíchnhất"
- Sau khi bỏ hậu tố: "yêuthích"
4 Chuẩn
hóa câu Không chỉ cắt bỏ các hậu tốhay tiền tố mà còn xem xét
ngữ cảnh và ý nghĩa ngữ pháp của từ Điều này giúp giảm thiểu sự mất mát thông tin và tạo ra kết quả chuẩn xác hơn
5 Phân
tích stop
words
Stop words" là các từ phổ biến nhưng thường không mang ý nghĩa ngữ nghĩa trong một ngữ cảnh cụ thể
và thường bị loại bỏ khỏi văn bản trong quá trình tiền
xử lý Các stop words thường là các từ phụ từ, từ liên kết và từ quá phổ biến
Trong tiếng Việt, cácstop words có thể baogồm các từ như "và",
- Thường được xây dựng dựa
trên cây cú pháp, trong đó
- Câu gốc: "Sân bay TânSơn Nhất nằm ở thànhphố Hồ Chí Minh."
- Chúng ta có thể trích xuất hai thực thể: "Sânbay Tân Sơn Nhất" và
Trang 20mỗi từ là một nút và mốiquan hệ giữa chúng đượcbiểu diễn bằng các cạnh
"thành phố Hồ ChíMinh"
- Mối quan hệ giữa chúng
là Sân bay Tân Sơn Nhất
Quá trình này xác định loại
từ của mỗi từ trong một câu, chẳng hạn như danh
từ, động từ, tính từ, trạng
từ, giới từ, v.v
- Câu gốc: “Anh ấy đi bộđến công ty vào mỗi sáng”
- Gán nhãn từ loại:+ "Anh ta" -> danh từ+ "đi bộ" -> động từ+ "đến" -> động từ hoặcgiới từ
+ "công ty" -> danh từ+ "vào" -> giới từ+ "mỗi" -> tính từ+ "buổi sáng" -> danh từ
Bảng 1 Mô tả các bước xử lý ngôn ngữ tự nhiên
2.3 Các phương thức xử lý ngôn ngữ tự nhiên
Một trong những phương pháp phổ biến nhất là sử dụng các mô hình máy học như họcsâu (deep learning) và học máy (machine learning) để xây dựng các mô hình dự đoán
và hiểu văn bản tự nhiên Các phương thức khác bao gồm sử dụng các thuật toán thống
kê và ngôn ngữ tự nhiên (NLP) truyền thống như thuật toán Textrank, phương phápdựa trên luật ngữ pháp, và các kỹ thuật biểu diễn từ (word embedding) như Word2Vec
và GloVe Ngoài ra, có cả các phương pháp dựa trên ngữ cảnh và bối cảnh như các môhình transformer
2.4.1 NLP có giám sát
Các phương pháp NLP có giám sát đào tạo phần mềm với một tập dữ liệu đầu vào vàđầu ra được gắn nhãn hoặc đã biết Trong phương pháp này, chương trình được huấnluyện bằng cách xử lý khối lượng lớn dữ liệu đã biết và học cách tạo ra dữ liệu đầu rachính xác từ bất kỳ dữ liệu đầu vào chưa xác định nào
Trang 21Ví dụ: các công ty có thể sử dụng các công cụ NLP để phân loại tài liệu theo nhãn cụthể Khi có một văn bản mới, mô hình đã được huấn luyện có thể dự đoán nhãn chínhxác cho văn bản đó dựa trên những gì nó đã học từ dữ liệu gán nhãn trước đó.Phương pháp này đòi hỏi một tập dữ liệu lớn, chất lượng và đa dạng để huấn luyện môhình Tuy nhiên, mô hình giám sát cung cấp kết quả chính xác và đáng tin cậy trongnhiều tác vụ NLP, từ phân loại văn bản, dự đoán ý kiến, đến dịch máy và trích xuấtthông tin Điều này giúp tăng cường hiệu suất và giảm thiểu sự phụ thuộc vào conngười trong xử lý dữ liệu và thông tin.
2.4.2 NLP không giám sát
NLP không giám sát sử dụng một mô hình ngôn ngữ thống kê để dự đoán mẫu xảy rakhi nó được cung cấp dữ liệu đầu vào không gắn nhãn Phương pháp này không yêucầu dữ liệu được gán nhãn trước mà thay vào đó, mô hình tự học các mẫu và mối quan
hệ từ dữ liệu
Trong NLP không giám sát, mô hình học từ dữ liệu không được gắn nhãn bằng cáchphân tích cấu trúc và xu hướng trong dữ liệu Thay vì dựa vào thông tin nhãn từ conngười, mô hình sẽ tự học các đặc điểm ngôn ngữ và quy luật xuất hiện từ dữ liệukhông gắn nhãn
Ví dụ, trong phân loại chủ đề văn bản, một mô hình NLP không giám sát có thể tựđộng phân loại các văn bản vào các nhóm chủ đề khác nhau dựa trên cấu trúc và từvựng của chúng mà không cần sự can thiệp từ con người Điều này giúp cho việc xử lý
và phân loại dữ liệu tự động trở nên linh hoạt và tiết kiệm thời gian đáng kể Tuynhiên, phương pháp này có thể đòi hỏi một lượng lớn dữ liệu và có thể không đạt được
độ chính xác cao như các phương pháp giám sát
2.4.3 Hiểu ngôn ngữ tự nhiên (NLU)
Hiểu ngôn ngữ tự nhiên (NLU) là một nhánh con của NLP, tập trung vào việc phântích ý nghĩa đằng sau các câu NLU không chỉ đơn thuần nhận dạng và hiểu các thànhphần ngữ pháp của câu mà còn cố gắng hiểu ý nghĩa thực sự của câu đó trong ngữcảnh Điều này có nghĩa là NLU cho phép phần mềm tìm kiếm các câu đồng nghĩakhác nhau hoặc xử lý các từ có nhiều nghĩa khác nhau
Ví dụ, khi một câu như "Cái cửa là một bức tường rất đẹp" được đưa vào xử lý, NLUkhông chỉ nhận ra cấu trúc ngữ pháp của câu mà còn hiểu rằng "cửa" và "bức tường"đều có thể là các đối tượng vật lý, và "đẹp" là một thuộc tính mô tả
Trang 22Ngoài ra, NLU cũng phải xử lý các vấn đề liên quan đến ngữ nghĩa và ngữ cảnh, như
sự mập mờ của ngôn từ, ý nghĩa của ngôn từ trong một ngữ cảnh cụ thể, hoặc sự hiểubiết về các biểu hiện ngôn ngữ như giao tiếp phi ngôn từ Điều này làm cho NLU trởthành một lĩnh vực phức tạp và đa chiều trong nghiên cứu và phát triển NLP, và cóứng dụng rất rộng rãi trong các lĩnh vực như trợ lý ảo, dịch máy, phân tích cảm xúc, vànhiều hơn nữa
2.4.4 Tạo ngôn ngữ tự nhiên (NLG)
Tạo ngôn ngữ tự nhiên (NLG) tập trung vào việc tạo ra văn bản hội thoại giống nhưcon người dựa trên các từ khóa hoặc chủ đề cụ thể NLG không chỉ đơn thuần tạo racác câu văn mà còn cố gắng tái tạo cách con người diễn đạt thông qua việc sắp xếp từvựng, cấu trúc câu và ngữ pháp một cách tự nhiên và mạch lạc
NLG có thể tạo ra báo cáo tự động, tóm tắt dữ liệu, và viết bài tự động Ví dụ, một hệthống NLG có thể tự động tạo ra báo cáo về tình trạng hoạt động kinh doanh từ dữ liệu
số hoặc viết các bài viết tin tức dựa trên sự kiện mới nhất
Các ứng dụng phổ biến của NLG bao gồm tạo ra các báo cáo tài chính, bài viết tin tức,
và thông tin sản phẩm tự động từ các tập dữ liệu lớn Bằng cách này, NLG giúp tựđộng hóa quy trình tạo văn bản, tiết kiệm thời gian và công sức cho con người, đồngthời đảm bảo tính nhất quán và độ chính xác trong sản phẩm cuối cùng
Những phương thức trên cung cấp một cái nhìn tổng quát về các cách tiếp cận khácnhau trong xử lý ngôn ngữ tự nhiên, mỗi phương thức có các ứng dụng và ưu điểmriêng, đóng góp vào việc nâng cao khả năng hiểu và tương tác của máy tính với ngônngữ tự nhiên Sự kết hợp và tối ưu hóa giữa các phương pháp này có thể giúp tạo racác ứng dụng NLP mạnh mẽ và đa dạng, phục vụ nhu cầu của nhiều lĩnh vực khácnhau trong thế giới số hóa ngày nay
2.4 Ứng dụng của NLP
NLP đã trở thành một phần không thể thiếu của cuộc sống kỹ thuật số hiện đại, đem lạinhiều tiện ích và giá trị trong việc xử lý thông tin và tương tác ngôn ngữ tự nhiên Sauđây là một số ví dụ ứng dụng của các phương thức tiếp cận phổ biến trong xử lý ngônngữ tự nhiên (NLP)
- Ứng dụng của NLP có giám sát:
+ Phân loại văn bản: Một công ty muốn phân loại email vào các danh mục khácnhau như "Hỏi đáp", "Quảng cáo", "Spam" Họ có thể sử dụng các phương pháp NLP
có giám
Trang 23sát để huấn luyện một mô hình nhận biết và phân loại email dựa trên dữ liệu huấnluyện đã được gắn nhãn Cụ thể, họ có thể sử dụng một tập dữ liệu email đã được gắnnhãn với các nhãn tương ứng và huấn luyện một mô hình máy học để tự động phânloại email mới dựa trên nội dung và các đặc điểm ngôn ngữ của chúng.
+ Phân tích cảm xúc: Một trang web thương mại điện tử muốn biết ý kiến của ngườidùng về các sản phẩm thông qua các đánh giá Bằng cách sử dụng phương pháp NLP
có giám sát, họ có thể tự động phân tích cảm xúc từ các bình luận và đánh giá củangười dùng Ví dụ, họ có thể sử dụng một tập dữ liệu các đánh giá sản phẩm đã đượcgắn nhãn với cảm xúc tích cực, tiêu cực hoặc trung lập và sau đó sử dụng một mô hìnhmáy học để phân tích tự động cảm xúc từ các đánh giá mới Điều này giúp họ nhanhchóng hiểu được ý kiến của khách hàng về sản phẩm mà không cần phải đọc từng đánhgiá một
- Ứng dụng của NLP không giám sát:
+ Tính năng tự động hoàn thành trong nhắn tin văn bản: Một ứng dụng nhắn tin
có thể sử dụng NLP không giám sát để dự đoán các từ tiếp theo mà người dùng có thểmuốn nhập vào trong cuộc trò chuyện Ví dụ, khi người dùng bắt đầu nhập một câu, hệthống có thể phân tích các từ đã nhập và dự đoán từ tiếp theo dựa trên các mẫu ngônngữ học được học từ một kho dữ liệu lớn Điều này không chỉ giúp tăng tốc độ gõ màcòn cải thiện độ chính xác và mạch lạc của tin nhắn
+ Phân cụm văn bản: Một công ty muốn tổ chức các văn bản hợp đồng của họ thànhcác nhóm dựa trên chủ đề Sử dụng NLP không giám sát, họ có thể tự động phân cụmcác văn bản dựa trên nội dung và ngữ cảnh Bằng cách này, các hợp đồng có thể đượcsắp xếp vào các nhóm chủ đề như "hợp đồng mua bán", "hợp đồng lao động", "hợpđồng dịch vụ", v.v Điều này giúp việc quản lý và truy xuất thông tin trở nên dễ dàng
và hiệu quả hơn, tiết kiệm thời gian và công sức cho việc tìm kiếm và xử lý tài liệu
- Ứng dụng của hiểu ngôn ngữ tự nhiên (NLU):
+ Chatbot: Một chatbot trên trang web bán hàng có thể sử dụng Hiểu Ngôn ngữ Tự
nhiên (NLU) để hiểu ý định của người dùng và cung cấp hỗ trợ tương ứng Chẳng hạn,nếu người dùng nhập vào câu hỏi về một sản phẩm cụ thể, chatbot có thể xác định rằngngười dùng đang muốn tìm kiếm thông tin sản phẩm và sau đó cung cấp các chi tiếtcần thiết, như giá cả, tính năng, và tình trạng hàng Nếu người dùng hỏi về quy trìnhđặt hàng, chatbot có thể hướng dẫn các bước cần thiết để hoàn tất giao dịch Các trợ lý
ảo như Siri và Alexa cũng sử dụng công nghệ NLU để hiểu và thực hiện các lệnh củangười dùng, từ việc phát nhạc, đặt nhắc nhở, đến trả lời các câu hỏi thông thường.+ Hệ thống trả lời câu hỏi: Một hệ thống trả lời câu hỏi y tế có thể sử dụng NLU đểhiểu câu hỏi của bệnh nhân và cung cấp thông tin y tế phù hợp từ cơ sở dữ liệu của họ
Ví dụ, khi bệnh nhân hỏi về các triệu chứng của một căn bệnh cụ thể, hệ thống có thểphân tích câu hỏi để nhận biết các triệu chứng được đề cập và sau đó tìm kiếm thôngtin
Trang 24từ cơ sở dữ liệu y tế để đưa ra câu trả lời chính xác Điều này không chỉ giúp bệnhnhân nhận được thông tin nhanh chóng và đáng tin cậy mà còn giảm tải công việc chocác chuyên gia y tế, cho phép họ tập trung vào các trường hợp cần sự can thiệp trựctiếp hơn Hệ thống này cũng có thể cung cấp các lời khuyên về chăm sóc sức khỏe,nhắc nhở về lịch trình uống thuốc, và theo dõi các chỉ số sức khỏe hàng ngày của bệnhnhân.
- Ứng dụng của tạo ngôn ngữ tự nhiên (NLG):
+ Báo cáo tự động: Một công ty tài chính có thể sử dụng NLG để tạo ra các báo cáotài chính tự động từ dữ liệu số Ví dụ, thay vì các nhà phân tích tài chính phải tốn hànggiờ để tổng hợp và phân tích dữ liệu, hệ thống NLG có thể tự động xử lý các bảng dữliệu phức tạp, xác định các xu hướng và mẫu số liệu, và sau đó tạo ra các báo cáo chitiết với ngôn ngữ tự nhiên, dễ hiểu cho người đọc Điều này không chỉ tiết kiệm thờigian và nguồn lực mà còn đảm bảo tính nhất quán và chính xác trong các báo cáo tàichính, giúp công ty đưa ra các quyết định kịp thời và hiệu quả
+ Bài viết tin tức tự động: Một trang web tin tức có thể sử dụng NLG để tạo ra cácbài viết về các sự kiện hàng ngày dựa trên dữ liệu từ các nguồn tin tức khác nhau.Chẳng hạn, khi có một sự kiện lớn xảy ra, hệ thống NLG có thể tự động thu thập dữliệu từ các nguồn tin tức, phân tích thông tin và tạo ra các bài viết tổng hợp, cung cấpcái nhìn toàn diện và cập nhật về sự kiện Điều này cho phép trang web tin tức duy trìđược lượng nội dung phong phú và cập nhật liên tục, đáp ứng nhu cầu thông tin củađộc giả một cách nhanh chóng và chính xác Hơn nữa, NLG còn có khả năng tạo ranhiều phiên bản của cùng một câu chuyện, phù hợp với các nhóm độc giả khác nhauhoặc các nền tảng phân phối khác nhau, từ đó mở rộng phạm vi tiếp cận và ảnh hưởngcủa trang web
Các ứng dụng nổi bật trên chỉ ra rằng NLP không chỉ là một lĩnh vực nghiên cứu màcòn có rất nhiều ứng dụng thực tiễn trong nhiều lĩnh vực khác nhau NLP đang ngàycàng phát triển và trở nên mạnh mẽ hơn, mang lại những cải tiến đáng kể trong việc tựđộng hóa và tối ưu hóa các quy trình xử lý ngôn ngữ, đồng thời nâng cao khả năngtương tác và hiểu biết của máy tính đối với ngôn ngữ tự nhiên của con người (Anon.,2024)
2.5 Thách thức của NLP
Trong thời đại công nghệ số, xử lý ngôn ngữ tự nhiên (NLP) đã trở thành một lĩnh vựcnghiên cứu và ứng dụng quan trọng, góp phần làm cầu nối giữa con người và máy tính.Với sự tiến bộ vượt bậc của trí tuệ nhân tạo, các hệ thống NLP ngày nay có khả nănghiểu, phân tích và tương tác bằng ngôn ngữ tự nhiên với con người ở mức độ cao Tuynhiên, đằng sau những thành tựu ấn tượng đó là vô vàn thách thức phức tạp mà cácnhà nghiên cứu và phát triển phải đối mặt, đặc biệt là trong tiếng Việt, ngôn ngữ cónhững đặc trưng riêng biệt và phức tạp
Trang 25- Đa nghĩa: Xử lý từ hoặc câu có nhiều nghĩa khác nhau dựa vào ngữ cảnh là một tháchthức lớn Ví dụ, từ "bàn" trong tiếng Việt có thể vừa là danh từ (cái bàn), vừa là động
từ (bàn bạc) Hệ thống NLP phải có khả năng phân biệt và hiểu đúng ý nghĩa của từtrong từng ngữ cảnh cụ thể Chẳng hạn, trong câu "Họ ngồi quanh cái bàn" và "Họ bàn
về dự án mới," từ "bàn" có hai nghĩa hoàn toàn khác nhau mà hệ thống cần phải nhậnbiết và xử lý đúng
- Ngữ cảnh: Hiểu đúng ngữ cảnh và ý định của người nói trong các tình huống giao tiếp
là một thách thức Ví dụ, câu "Anh có đi không?" có thể mang nhiều ý nghĩa khácnhau tùy thuộc vào ngữ cảnh và mối quan hệ giữa người nói và người nghe Trong mộttình huống, nó có thể là một lời mời, trong khi ở một tình huống khác, nó có thể mangtính chất hăm dọa hoặc yêu cầu
- Ngôn ngữ phong phú: Tiếng Việt có nhiều biến thể và phương ngữ, mỗi vùng miền cócách diễn đạt và sử dụng từ ngữ khác nhau Ví dụ, từ "mẹ" có thể được gọi là "má" ởmiền Nam và "mệ" ở miền Trung Hệ thống NLP phải xử lý tốt sự đa dạng này để đảmbảo tính chính xác và hiệu quả trong giao tiếp Điều này đòi hỏi mô hình phải đượchuấn luyện với dữ liệu phong phú từ nhiều vùng miền khác nhau
- Dữ liệu huấn luyện: Thu thập và chuẩn bị dữ liệu chất lượng cao cho tiếng Việt là mộtthách thức Dữ liệu phải đủ phong phú và đa dạng để mô hình có thể học hỏi và ápdụng trong nhiều tình huống khác nhau Việc này đòi hỏi không chỉ lượng dữ liệu lớn
mà còn phải đảm bảo tính đại diện cho mọi ngữ cảnh và phong cách ngôn ngữ
- Kiến thức thự tiễn: Mô hình NLP thường thiếu khả năng hiểu và áp dụng kiến thứcthực tiễn như con người Ví dụ, hiểu rằng "trời mưa" có thể khiến "đường trơn" là mộtloại kiến thức mà con người nắm rõ nhưng không phải lúc nào cũng rõ ràng đối vớimáy móc Điều này đòi hỏi mô hình phải được trang bị thêm các kiến thức nền tảng vàliên kết thông tin từ nhiều nguồn khác nhau
- Tính cá nhân hóa và tùy biến: Phát triển mô hình có khả năng tùy biến theo từng ngườidùng và ngữ cảnh là một thách thức lớn Ví dụ, cùng một câu hỏi nhưng cách trả lời cóthể khác nhau dựa trên sở thích và thói quen của người dùng Hệ thống cần học cáchthích nghi với từng người dùng để cung cấp trải nghiệm giao tiếp tốt nhất
Sự hợp tác giữa các tổ chức học thuật, công ty công nghệ và cộng đồng người dùng làrất quan trọng để đảm bảo rằng các giải pháp được phát triển đáp ứng đúng nhu cầuthực tế Đồng thời, việc đầu tư vào nghiên cứu và phát triển các công nghệ mới, cũngnhư việc đào tạo nhân lực chuyên môn cao, sẽ đóng vai trò then chốt trong việc giảiquyết những thách thức phức tạp mà NLP tiếng Việt đang phải đối mặt Chỉ khi các hệthống
Trang 26NLP được cải thiện liên tục và tối ưu hóa, chúng ta mới có thể khai thác hết tiềm năngcủa công nghệ này để phục vụ cho các lĩnh vực khác nhau.