Chính vì vậy, tôi chọn và nghiên cứu đề án “Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉ
Trang 1-
NGUYỄN TRUNG HIẾU
XÂY DỰNG HỆ THỐNG HỎI ĐÁP TRỰC TUYẾN BẰNG PHƯƠNG PHÁP
MÁY HỌC ĐỂ TỰ ĐỘNG HÓA QUY TRÌNH TIẾP NHẬN CÂU HỎI
ÁP DỤNG CHO CHÍNH QUYỀN ĐỊA PHƯƠNG TỈNH TÂY NINH
ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023
Trang 2-
NGUYỄN TRUNG HIẾU
XÂY DỰNG HỆ THỐNG HỎI ĐÁP TRỰC TUYẾN BẰNG PHƯƠNG PHÁP
MÁY HỌC ĐỂ TỰ ĐỘNG HÓA QUY TRÌNH TIẾP NHẬN CÂU HỎI
ÁP DỤNG CHO CHÍNH QUYỀN ĐỊA PHƯƠNG TỈNH TÂY NINH
Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04
ĐỀ ÁN TỐT NGHIỆP THẠC SỸ KỸ THUẬT
(Theo định hướng ứng dụng)NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS TRẦN CÔNG HÙNG
THÀNH PHỐ HỒ CHÍ MINH – NĂM 2023
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các các số liệu, kết quả nêu trong đề án tốt nghiệp là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác
Tp Hồ Chí Minh, ngày 12 tháng 10 năm 2023
Học viên thực hiện đề án
Nguyễn Trung Hiếu
Trang 4LỜI CẢM ƠN
Đầu tiên tôi xin gửi lời cảm ơn chân thành đến PGS.TS Trần Công Hùng, người thầy đã tận tâm và nhiệt tình trong việc hướng dẫn và động viên tôi suốt quá trình thực hiện đề án Sự hỗ trợ của người thầy giúp tôi định hướng và hoàn thành mục tiêu nghiên cứu
Tôi xin gửi lời tri ân đến quý Thầy, Cô khoa Đào tạo Sau đại học, Học viện Công nghệ Bưu chính Viễn thông cơ sở thành phố Hồ Chí Minh, đã đồng hành và tận tình giảng dạy và hỗ trợ tôi suốt thời gian học tập và nghiên cứu
Tôi xin cảm ơn lãnh đạo Sở Thông tin và Truyền Thông tỉnh Tây Ninh đã cho phép tôi sử dụng dữ liệu của tỉnh và tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu
Tôi cũng xin gửi lời cảm ơn đến tất cả đồng nghiệp đã động viên, hỗ trợ và đóng góp những ý kiến quý báu giúp tôi hoàn thiện nghiên cứu này
Tp Hồ Chí Minh, ngày 12 tháng 10 năm 2023
Học viên thực hiện đề án
Nguyễn Trung Hiếu
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
2 Tổng quan vấn đề nghiên cứu 2
3 Mục tiêu nghiên cứu 3
4 Đối tượng và phạm vi nghiên cứu 4
5 Phương pháp nghiên cứu 5
CHƯƠNG 1 - TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU 7
1.1 Tổng quan về Cổng hỏi đáp trực tuyến 7
1.2 Các công trình nghiên cứu trên thế giới 12
1.3 Các công trình nghiên cứu trong nước 14
CHƯƠNG 2 - CƠ SỞ LÝ THUYẾT 15
2.1 Tổng quan về AI và Machine Learning 15
2.2 Phương pháp biểu diễn dữ liệu 16
2.2.1 Phương pháp Tf-idf Vector 16
2.2.2 Phương pháp Count Vectorization 17
Trang 62.2.3 Phương pháp FastText 18
2.3 Các phương pháp phân lớp 18
2.3.1 Phân lớp với Support Vector Machines (SVM) 20
2.3.2 Phân lớp với Naive Bayes 22
2.3.3 Phân lớp với k-Nearest Neighbors (k-NN) 25
CHƯƠNG 3 - ĐỀ XUẤT PHƯƠNG PHÁP XÂY DỰNG BỘ DỮ 28
3.1 Mô hình thực nghiệm bài toán 28
3.2 Thu thập dữ liệu 29
3.3 Chuẩn hóa dữ liệu 30
3.4 Các bước thực hiện 33
CHƯƠNG 4 - KẾT QUẢ THỰC NGHIỆM 35
4.1 Môi trường và dữ liệu thực nghiệm 35
4.1.1 Môi trường thực nghiệm 35
4.1.2 Dữ liệu thực nghiệm 35
4.1.3 Chuẩn hóa dữ liệu 37
4.1.4 Huấn luyện dữ liệu 40
Trang 8DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
AI Artificial intelligence Trí tuệ nhân tạo CNN Convolutional Neural Networks Mạng nơ ron tích chập
IDF Inverse Document Frequency Tần suất nghịch đảo của một từ trong tập văn bản IE Information Extraction Trích xuất thông tin
IR Information Retrieval Tìm kiếm và truy xuất thông tin KNN K-Nearest Neighbor Thuật toán K-Nearest Neighbor
LR Logistic Regression Hồi quy Logistic
RF RandomForest Classifier Trình phân loại rừng ngẫu nhiên RNN Recurrent Neural Networks Mạng thần kinh hồi quy
SVM Support Vector Machine Máy vector hỗ trợ TF Term Frequency Tần số xuất hiện của văn bản
Trang 9DANH SÁCH BẢNG
Bảng 4.1: Nguồn dữ liệu thực nghiệm 35
Bảng 4.2: Thống kê số lượng câu hỏi sau khi chuẩn hóa theo đơn vị 37
Bảng 4.3: Chia tập dữ liệu huấn luyện 40
Bảng 4.4: Kết quả mô hình SVM sử dụng TF-IDF 40
Bảng 4.5: Kết quả mô hình SVM sử dụng CountVectorizer 43
Bảng 4.6: Kết quả mô hình SVM sử dụng Fasttext 46
Bảng 4.7: Kết quả mô hình Naive Bayes sử dụng TF-IDF 48
Bảng 4.8: Kết quả mô hình Navie Bays sử dụng CountVectorizer 51
Bảng 4.9: Kết quả mô hình Navie Bays (GaussianNB) sử dụng Fasttext 54
Bảng 4.10: Kết quả mô hình K-NN sử dụng Tf-idf 56
Bảng 4.11: Kết quả mô hình K-NN sử dụng CountVectorizer 59
Bảng 4.12: Kết quả mô hình k-NN sử dụng FastText 61
Bảng 4.13: Kết quả tổng hợp 64
Trang 10DANH SÁCH HÌNH VẼ
Hình 1.1: Hệ thống hỏi đáp trực tuyến của tỉnh Tây Ninh 8
Hình 1.2: Sơ đồ tổng quát trình tự vận hành của hệ thống hỏi đáp 9
Hình 1.3: Biểu mẫu nhập câu hỏi của người dân, doanh nghiệp 10
Hình 1.4: Đơn vị điều phối đọc, chọn đơn vị chuyển câu hỏi để trả lời 11
Hình 2.1: Mô hình SVM 21
Hình 2.2: Mô hình phân lớp Naive Bayes 24
Hình 2.3: Mô hình k-NN (k-Nearest Neighbors) 25
Hình 3.1: Mô hình thực nghiệm 28
Hình 3.2: Câu hỏi đã được trả lời trên trang hỏi đáp 30
Hình 3.3: Câu hỏi có nội dung gây cho việc phân loại sai 31
Hình 3.4: Hai bảng mã khác nhau, việc so sánh khác nhau 31
Hình 3.5: Kết quả sau xử lý kiểu gõ 32
Hình 4.4: Ma trận nhầm lẫn mô hình Naive Bayes sử dụng Tf-idf 50
Hình 4.5: Ma trận nhầm lẫn mô hình Naive Bayes sử dụng CountVectorizer 53
Hình 4.6: Ma trận nhầm lẫn mô hình Naive Bayes sử dụng Fasttext 56
Hình 4.7: Ma trận nhầm lẫn mô hình KNN sử dụng Tf-idf 58
Hình 4.8: Ma trận nhầm lẫn mô hình KNN sử dụng CountVectorizer 61
Hình 4.9: Ma trận nhầm lẫn mô hình k-NN sử dụng Fasttext 63
Hình 4.10: Kết quả phân loại của câu 1 65
Hình 4.11: Kết quả phân loại của câu 2 65
Trang 11MỞ ĐẦU
1 Lý do chọn đề án
Hiện nay với sự bùng nổ công nghệ thì việc người dùng tiếp cận kho dữ liệu khổng lồ là rất dễ dàng và nhanh chóng Tuy nhiên các thông tin nhận được không chính thống tồn tại vấn nạn tin rác, tin giả tràn lan làm ảnh hưởng rất lớn đến hoạt động của cơ quan, tổ chức, người dùng Trong giai đoạn hiện nay, các ngành, lĩnh vực, đặc biệt là trong các cơ quan Nhà nước đang tiến hành chuyển đổi số để chuẩn hóa quy trình, số hóa dữ liệu đầu vào, tự động hóa quy trình giải quyết thủ tục hành chính theo hướng nhanh, chính xác tạo sự tiện lợi cho người dân Đồng thời, việc ứng dụng công nghệ trí tuệ nhân tạo (AI), xử lý ngôn ngữ tự nhiên, các công nghệ tìm kiếm và truy xuất thông tin (IR), trích xuất thông tin (IE) vào các hệ thống hỏi đáp trực tuyến nhằm tăng tốc độ phản hồi, trả về các thông tin hữu ích cho người dùng… rất phổ biến
Trong bối cảnh đó, Sở Thông tin và Truyên thông đã xây dựng hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh tại địa chỉ https://hoidap.tayninh.gov.vn nhằm giải đáp mọi thắc mắc của người dân trên địa bàn tỉnh Tây Ninh Tuy nhiên, với số lượng lớn câu hỏi được gửi về, đòi hỏi phải bộ phận quản trị tinh chỉnh hình thức và phân loại thủ công theo các lĩnh vực đến cơ quan chuyên môn phụ trách xử lý, gây rất nhiều khó khăn về thời gian, nhân sự cũng như chất lượng của hệ thống Chính vì vậy, tôi chọn và nghiên cứu đề án “Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh” với mục tiêu là tiết kiệm được nhân lực và thời gian trong quá trình tiếp nhận, và giải quyết các yêu cầu của người dân trên địa bàn tỉnh
Trang 122 Tổng quan vấn đề nghiên cứu
Bài toán Xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, đây là một bài toán khó do bản chất của ngôn ngữ tự nhiên mang tính đa nghĩa, nhập nhằng nên việc phản hồi hoặc trả lời đúng đủ nội dung cần hỏi hay nói cách khác là đúng ngữ nghĩa câu hỏi là vấn đề không nhỏ Thách thức của bài toán ở đây là xác định ngữ nghĩa của câu một cách chính xác Tuy nhiên giữa câu hỏi và câu trả lời còn tồn tại các quan hệ “ngầm” hay phụ thuộc vào ngữ cảnh Bài toán đặt ra nhiều thách thức để phát hiện ra được câu trả lời phù hợp nhất, thông tin hữu ích nhất
Bài toán xây dựng hệ thống hỏi đáp đòi hỏi phải giải quyết các khía cạnh quan trọng sau:
Hiểu ngữ nghĩa: hiểu ngữ nghĩa của câu hỏi là rất quan trọng để diễn giải và xử lý câu hỏi một cách chính xác Điều này bao gồm việc hiểu ý định đằng sau câu hỏi và xác định nhu cầu thông tin cơ bản
Trích xuất câu trả lời: Trích xuất câu trả lời phù hợp từ ngữ cảnh hoặc cơ sở dữ liệu kiến thức đòi hỏi các kỹ thuật mạnh mẽ về tìm kiếm và trích xuất thông tin Điều này bao gồm việc tìm ra câu trả lời phù hợp nhất và mang tính thông tin nhất để trực tiếp đáp ứng câu hỏi được đặt ra
Phụ thuộc vào ngữ cảnh: Cần xem xét các mối quan hệ phụ thuộc vào ngữ cảnh giữa câu hỏi và câu trả lời để cung cấp những câu trả lời chính xác và phù hợp với ngữ cảnh Điều này bao gồm việc xem xét văn bản xung quanh, các tương tác trước đó và kiến thức về lĩnh vực cụ thể để cải thiện chất lượng của câu trả lời
Hiểu ngôn ngữ tự nhiên: Phát triển các kỹ thuật để xử lý các đặc điểm phức tạp của ngôn ngữ tự nhiên như sự nhập nhằng, biểu đạt ẩn dụ và biến thể ngôn ngữ là rất quan trọng để hiệu quả trong việc xử lý và diễn giải câu hỏi và tạo ra câu trả lời có ý nghĩa
Trang 13Các tiêu chí đánh giá: Xác định các tiêu chí đánh giá phù hợp là rất quan trọng để đánh giá hiệu suất của hệ thống hỏi đáp Các tiêu chí như độ chính xác, độ phủ, F1-score và độ chính xác có thể được sử dụng để đo lường khả năng của hệ thống cung cấp câu trả lời đúng và liên quan
Tóm lại, xây dựng hệ thống hỏi đáp đòi hỏi phải vượt qua các thách thức liên quan đến hiểu ý nghĩa của câu hỏi, trích xuất câu trả lời phù hợp, xem xét các mối quan hệ phụ thuộc vào ngữ cảnh và hiệu quả xử lý các đặc điểm phức tạp của ngôn ngữ tự nhiên Để giải quyết những thách thức này, cần áp dụng các kỹ thuật tiên tiến trong xử lý ngôn ngữ tự nhiên và học máy, kết hợp với một khung đánh giá toàn diện để đánh giá hiệu suất của hệ thống
3 Mục tiêu nghiên cứu
Mục tiêu tổng quan Xây dựng hệ thống khai thác dữ liệu hỏi đáp trực tuyến cung cấp cho chính quyền tỉnh Tây Ninh để xác định các vấn đề đang tồn đọng, những lĩnh vực mà người dân địa phương quan tâm để thực thi chính sách cho phù hợp và tự động hóa quy trình tiếp nhận của chính quyền địa phương
Mục tiêu cụ thể Xây dựng bộ công cụ AI phân tích các yêu cầu câu hỏi để tự động hóa quy trình tiếp nhận chuyển cho các đơn vị một cách tự động trên địa bàn tỉnh
Mục đích của nghiên cứu trên là xây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địa phương tỉnh Tây Ninh
Nghiên cứu nhằm giải quyết các vấn đề thời gian, nhân lực và chất lượng mà hệ thống hỏi đáp trực tuyến hiện tại gặp phải Mục tiêu là tiết kiệm thời gian và nhân lực trong quá trình tiếp nhận và giải quyết các yêu cầu của người dân trên địa bàn tỉnh, đồng thời cung cấp câu trả lời chính xác và hữu ích cho người dùng Nghiên cứu cũng hướng đến việc áp dụng các phương pháp xử lý ngôn ngữ tự nhiên, tìm kiếm
Trang 14thông tin và rút trích thông tin để xác định ý nghĩa của câu hỏi, tìm kiếm câu trả lời và trích xuất thông tin liên quan
Mục tiêu cuối cùng là xây dựng một hệ thống hỏi đáp trực tuyến hiệu quả, giúp tối ưu hóa tài nguyên và cải thiện trải nghiệm của người dùng khi tương tác với chính quyền địa phương
4 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu Đối tượng nghiên cứu của đề án này là cơ sở dữ liệu của hệ thống hỏi đáp trực tuyến địa phương tỉnh Tây Ninh Nghiên cứu sẽ sử dụng các phương pháp máy học để xây dựng hệ thống tự động hóa quy trình tiếp nhận câu hỏi của người dân chuyển cho các đơn vị trả lời câu hỏi
Cụ thể hơn, nghiên cứu sẽ sử dụng các thuật toán học máy (ML) để: - Phân tích các yêu cầu của người dân từ các câu hỏi trên hệ thống hỏi đáp trực tuyến
- Xác định các chủ đề chính mà người dân hỏi thuộc lĩnh vực nào? Thuộc khu vực nào?
- Xác định những nhu cầu của người dân mà chính quyền địa phương cần phải giải quyết
- Tự động hóa quy trình tiếp nhận và phân loại câu hỏi từ người dân Kết quả của nghiên cứu sẽ được sử dụng để cải thiện hiệu quả của hệ thống hỏi đáp trực tuyến và giải quyết những nhu cầu của người dân một cách hiệu quả hơn
Phạm vi nghiên cứu Nghiên cứu phân tích cơ sở dữ liệu của hệ thống hỏi đáp trực tuyến này bằng cách sử dụng phương pháp máy học để xác định nhu cầu của người dân và tự động hóa quy trình tiếp nhận, phân loại câu hỏi Nghiên cứu sẽ bao gồm việc tổng quan về Cổng hỏi đáp trực tuyến và hệ thống tự động hóa quy trình tiếp nhận câu hỏi, phân
Trang 15tích các công trình liên quan trong và ngoài nước, đề xuất thuật toán máy học và mô phỏng và thực nghiệm thuật toán đề xuất Kết quả nghiên cứu sẽ được đánh giá bằng các tiêu chí phù hợp
Hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh chỉ trả lời các câu hỏi thuộc thẩm quyền, chức năng của các cơ quan nhà nước Người phản ánh thông tin, đặt câu hỏi cần cung cấp đầy đủ thông tin liên hệ để đơn vị trả lời có thể liên hệ khi cần thiết Hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh không là cơ sở pháp lý để giải quyết các quan hệ dân sự
Hệ thống hỏi đáp trực tuyến của tỉnh Tây Ninh là một trong số ít tỉnh có lượng dữ liệu đáng kể về tương tác giữa cơ quan nhà nước và người dân, doanh nghiệp được lưu trữ tại trung tâm tích hợp dữ liệu của tỉnh trên nền tảng kỹ thuật số Hệ thống này đã giúp người dân tiếp cận thông tin từ chính quyền một cách nhanh chóng, chính xác, minh bạch, rõ ràng và thuận tiện
5 Phương pháp nghiên cứu Nghiên cứu lý thuyết - Tìm các tài liệu, sách liên quan tới các phương pháp máy học để tiết kiệm được nhân lực và thời gian trong quá trình tiếp nhận, và giải quyết các yêu cầu của người dân trên địa bàn tỉnh thông qua hệ thống hỏi đáp trực tuyến
- Tìm tham khảo tài liệu từ những hội thảo, công trình, đề tài thực hiện trong và ngoài nước
- Tìm tài liệu, sách liên quan tới các từ khóa: text classification, text categorization, feature selection, feature extraction, language modeling, naive bayes, support vector machines, k-nearest neighbours
Trang 16Nghiên cứu thực nghiệm - Xác định nhu cầu của người dân và tự động hóa quy trình tiếp nhận câu hỏi của người dân chuyển cho chính quyền thông qua bộ cơ sở dữ liệu từ hệ thống hỏi đáp trực tuyến
- Phân tích yêu cầu: Phân tích nhu cầu của người dân và chính quyền địa phương để xác định các câu hỏi thường gặp và hỏi đáp liên quan đến hệ thống
- Xử lý dữ liệu: Sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên để tiền xử lý các câu hỏi và trả lời trong hệ thống
- Áp dụng máy học: Sử dụng các giải thuật máy học, như học máy phân loại, học máy tìm kiếm, học máy cảm xúc, để phân tích cơ sở dữ liệu và xác định nhu cầu của người dùng
- Đánh giá hiệu quả: Sử dụng các chỉ số đánh giá, như độ chính xác, độ tương tự, độ phù hợp
Trang 17CHƯƠNG 1 - TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU
1.1 Tổng quan về Cổng hỏi đáp trực tuyến
Hệ thống hỏi đáp trực tuyến là hệ thống thông tin điện tử để người dân, tổ chức và doanh nghiệp phản ánh thông tin và đặt ra những câu hỏi liên quan đến các vấn đề cần quan tâm Hệ thống dựa vào thông tin đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên của người dùng, trả lại các đoạn văn bản ngắn chứa câu trả lời trực tiếp cho câu hỏi hoặc chứa những thông tin sát với mong muốn của người dùng
Hệ thống Tự động hóa quy trình tiếp nhận câu hỏi dựa vào một số kỹ thuật và các tiêu chí khác nhau, có thể được phân loại như sau:
- Phân loại theo miền ứng dụng: Các câu hỏi được phân loại dựa trên miền ứng dụng cụ thể mà hệ thống đang xử lý như: miền như luật pháp, y tế, giáo dục, giao thông giúp hệ thống hiểu rõ ngữ cảnh và áp dụng kiến thức chuyên môn liên quan đến miền đó
- Phân loại theo khả năng trả lời mẫu hỏi: dựa trên khả năng có sẵn của hệ thống để trả lời mẫu hỏi Có thể có các danh sách câu trả lời mẫu hoặc cơ sở dữ liệu kiến thức để hệ thống trả lời những câu hỏi phổ biến một cách tự động
- Phân loại theo mức độ dài, ngắn của đoạn đối thoại giữa người dùng và hệ thống thành các loại ngắn gọn, trung bình hoặc dài để xử lý hiệu quả
- Phân loại theo hướng tiếp cận: hướng tiếp cận dựa trên quy tắc, hướng tiếp cận thống kê, hướng tiếp cận dựa trên máy học hoặc hướng tiếp cận dựa trên trích xuất thông tin
Những phân loại này giúp xác định và tự động hóa quy trình tiếp nhận câu hỏi một cách hiệu quả, đồng thời cung cấp cho hệ thống khả năng xử lý đa dạng các loại câu hỏi và cung cấp câu trả lời phù hợp cho người dùng
Tỉnh Tây Ninh đã xây dựng hệ thống hỏi đáp trực tuyến từ năm 2016 nhằm giải đáp nhanh chóng, minh bạch các vấn đề mà dư luận quan tâm Hệ thống này hiện đang hoạt động ở mức hỏi đáp của công dân và chính quyền trả lời, chưa xây dựng
Trang 18được hệ thống tổng hợp, khai thác và sử dụng dữ liệu kiến nghị của công dân phục vụ công tác quản lý nhà nước
Hình 1.1: Hệ thống hỏi đáp trực tuyến của tỉnh Tây Ninh
Hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh là kênh thông tin kết nối giữa cơ quan nhà nước với người dân, tổ chức, doanh nghiệp thông qua Internet Hệ thống này có các chức năng và nhiệm vụ sau:
- Là kênh thông tin để người dân, tổ chức, doanh nghiệp phản ánh thông tin, đặt câu hỏi đến các cơ quan nhà nước
- Là kho dữ liệu thông tin giúp người dân, tổ chức, doanh nghiệp tra cứu những thông tin liên quan đến chủ đề cần quan tâm
- Tiếp nhận thông tin, câu hỏi 24/24 giờ vào tất cả các ngày trong tuần - Trả lời các câu hỏi của người dân, tổ chức, doanh nghiệp một cách chính xác, kịp thời, đáp ứng nhu cầu của người dân
Trang 19Hình 1.2: Sơ đồ tổng quát trình tự vận hành của hệ thống hỏi đáp
Trình tự vận hành của hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh như sau:
1 Người dân, tổ chức, doanh nghiệp truy cập vào hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh để phản ánh thông tin, đặt câu hỏi
Trang 20Hình 1.3: Biểu mẫu nhập câu hỏi của người dân, doanh nghiệp
2 Đơn vị điều phối tiếp nhận thông tin, câu hỏi và chuyển cho đơn vị trả lời
Trang 21Hình 1.4: Đơn vị điều phối đọc, chọn đơn vị chuyển câu hỏi để trả lời
3 Đơn vị trả lời đánh giá nội dung thông tin, câu hỏi - Nếu thuộc thẩm quyền, chức năng của đơn vị trả lời thì đơn vị trả lời
thực hiện giao bộ phận, phòng, ban, đơn vị thuộc hoặc trực thuộc liên quan xử lý
- Nếu không thuộc thẩm quyền, chức năng của đơn vị trả lời thì đơn vị trả lời nêu lý do và chuyển trả lại đơn vị điều phối
4 Bộ phận, phòng, ban, đơn vị thuộc hoặc trực thuộc đơn vị trả lời xem xét nội dung thông tin, câu hỏi để thực hiện việc trả lời
- Nếu chưa đủ dữ kiện thì liên hệ người phản ánh thông tin, đặt câu hỏi để thu thập thêm dữ kiện
- Nếu đã đủ dữ kiện thì thực hiện trả lời trực tiếp trên hệ thống hỏi đáp 5 Hệ thống hỏi đáp trực tuyến gửi thông báo kết quả xử lý thông tin, câu hỏi
cho người phản ánh thông tin, đặt câu hỏi Thời gian xử lý thông tin, câu hỏi
- Thời gian để đơn vị điều phối xử lý thông tin, câu hỏi là không quá 24 giờ
- Thời gian để đơn vị trả lời đánh giá nội dung thông tin, câu hỏi là không quá 24 giờ
Trang 22- Thời gian để đơn vị trả lời xử lý thông tin, trả lời câu hỏi là không quá 7 ngày làm việc
1.2 Các công trình nghiên cứu trên thế giới 1 “XLNet: Generalized Autoregressive Pretraining for Language Understanding” - Yang, Z và đồng nghiên cứu (2019) Bài báo này giới thiệu mô hình XLNet, một mô hình học sâu sử dụng phương pháp huấn luyện tự động Mô hình này có khả năng hiểu ngữ nghĩa và mối quan hệ giữa các từ trong câu, từ đó tạo ra câu trả lời chính xác
2 “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” - Devlin, J và đồng nghiên cứu (2018) Tài liệu này giới thiệu mô hình BERT, một mô hình học sâu đã đạt được nhiều thành công trong Hỏi và Đáp Nó trình bày cách BERT được huấn luyện trước và áp dụng cho nhiều tác vụ ngôn ngữ tự nhiên, bao gồm cả Hỏi và Đáp
3 “Attention Is All You Need” - Vaswani, A và đồng nghiên cứu (2017) Tài liệu này giới thiệu mô hình Transformer, một kiến trúc quan trọng trong Hỏi và Đáp Mô hình này sử dụng cơ chế attention để xử lý thông tin từ ngữ cảnh và tạo ra câu trả lời chính xác
4 “SQuAD 2.0: 100,000+ Questions for Machine Comprehension of Text” - Rajpurkar, P và đồng nghiên cứu (2018) Tài liệu này là phiên bản mở rộng của tập dữ liệu SQuAD SQuAD 2.0 bao gồm cả các câu hỏi mà câu trả lời không có sẵn trong văn bản Điều này tạo ra thách thức lớn hơn cho các hệ thống trả lời câu hỏi và yêu cầu khả năng suy luận và hiểu biết rộng hơn từ mô hình AI
5 “Neural Approaches to Question Answering” - Rajpurkar, P và đồng nghiên cứu (2016) Bài báo này tập trung vào các phương pháp sử dụng mô hình học sâu trong Hỏi và Đáp Nó giới thiệu các kiến trúc mạng như LSTM, CNN và các kiến trúc đa nhiệm để xây dựng hệ thống trả lời câu hỏi
6 “Deep Learning for Answer Sentence Selection: A Review” - Zhou, M và
Trang 23đồng nghiên cứu (2018) Tài liệu này tập trung vào bài toán chọn câu trả lời phù hợp trong Hỏi và Đáp Nó giới thiệu các phương pháp sử dụng học sâu như Convolutional Neural Networks (CNN) và Recurrent Neural Networks (RNN) để giải quyết bài toán này
7 “Question Answering Systems: A Survey” - Li, S và đồng nghiên cứu (2017) Bài báo này tổng hợp các phương pháp và tiến bộ trong lĩnh vực Hỏi và Đáp, từ các kiến trúc truyền thống đến sử dụng học sâu Nó cung cấp một cái nhìn tổng quan về các công trình nghiên cứu và thách thức trong lĩnh vực này
8 “Language Models are Unsupervised Multitask Learners” - Radford, A và đồng nghiên cứu (2019) Tài liệu này giới thiệu mô hình ngôn ngữ GPT (Generative Pre-trained Transformer) GPT là một mô hình học sâu tự động cải thiện khả năng hiểu ngữ nghĩa và tạo ra câu trả lời tự nhiên thông qua huấn luyện không giám sát trên một lượng lớn dữ liệu
9 “The Stanford Question Answering Dataset” - Rajpurkar, P và đồng nghiên cứu (2016) Tài liệu này giới thiệu tập dữ liệu SQuAD, một tập dữ liệu quan trọng trong lĩnh vực Hỏi và Đáp SQuAD chứa các cặp câu hỏi và câu trả lời đúng, được thu thập từ các nguồn tin trực tuyến, và được sử dụng rộng rãi trong việc đánh giá và huấn luyện các mô hình trả lời câu hỏi tự động
10 “MS MARCO: A Human-Generated MAchine Reading COmprehension Dataset” - Nguyen, T và đồng nghiên cứu (2016) Tài liệu này giới thiệu tập dữ liệu MS MARCO, một tập dữ liệu được tạo ra bởi con người cho bài toán đọc hiểu máy tính Nó chứa các cặp câu hỏi và văn bản liên quan, được sử dụng để đào tạo và đánh giá các mô hình trả lời câu hỏi tự động
Những tài liệu trên cung cấp cái nhìn sâu hơn về các mô hình học sâu, tập dữ liệu và thách thức trong lĩnh vực Hỏi và Đáp từ các kiến trúc truyền thống đến các mô hình học sâu tiên tiến như Transformer, BERT và XLNet…
Trang 241.3 Các công trình nghiên cứu trong nước 1 “Xây dựng hệ thống trả lời tự động tiếng Việt dựa trên mô hình BERT” - Trần Văn Hiến, Nguyễn Thị Minh Huyền, Phạm Quỳnh Ngân (2020): Công trình này tập trung xây dựng hệ thống trả lời tự động tiếng Việt sử dụng mô hình BERT Trình bày cách huấn luyện mô hình và áp dụng cho việc trả lời câu hỏi tiếng Việt
2 “Phát triển hệ thống hỏi đáp y tế tự động tiếng Việt” - Đặng Văn Bảo, Lê Thanh Hòa, Nguyễn Quốc Bảo (2018): Công trình này tập trung vào xây dựng hệ thống hỏi đáp y tế tự động sử dụng tiếng Việt Giới thiệu các phương pháp xử lý ngôn ngữ tự nhiên và mô hình học máy để đưa ra câu trả lời cho các câu hỏi y tế
3 “Dự đoán trả lời chính xác câu hỏi tự nhiên tiếng Việt bằng phương pháp SVM” - Trần Minh Tâm, Trần Thị Thanh Thảo (2017): Công trình này tập trung vào dự đoán trả lời chính xác cho câu hỏi tự nhiên tiếng Việt bằng cách sử dụng phương pháp máy vector hỗ trợ (SVM) Nó giới thiệu cách tiền xử lý dữ liệu và xây dựng mô hình SVM để phân loại câu hỏi và tìm ra câu trả lời phù hợp
4 “Phát triển hệ thống trả lời câu hỏi tự động tiếng Việt dựa trên phương pháp tìm kiếm trích dẫn” - Nguyễn Minh Thành, Nguyễn Huy Hùng, Lê Hồng Phong (2016): Công trình này tập trung vào phát triển hệ thống trả lời câu hỏi tự động tiếng Việt bằng cách sử dụng phương pháp tìm kiếm trích dẫn Nó giới thiệu cách xây dựng một công cụ tìm kiếm và trích dẫn thông tin từ tài liệu để đưa ra câu trả lời cho các câu hỏi tiếng Việt
5 “Hệ thống trả lời câu hỏi tự động về lịch sử Việt Nam” - Lê Thị Kim Oanh, Trần Văn Thoại (2015): Công trình này tập trung vào xây dựng hệ thống trả lời câu hỏi tự động về lịch sử Việt Nam Nó sử dụng các phương pháp xử lý ngôn ngữ tự nhiên và các tài liệu lịch sử để trả lời các câu hỏi liên quan đến lịch sử Việt Nam
Những công trình nghiên cứu này là ví dụ về những nỗ lực của các nhà nghiên cứu Việt Nam trong lĩnh vực Hỏi và Đáp, áp dụng trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên để xây dựng các hệ thống trả lời câu hỏi tự động tiếng Việt trong nước
Trang 25CHƯƠNG 2 - CƠ SỞ LÝ THUYẾT
2.1 Tổng quan về AI và Machine Learning
Trí tuệ nhân tạo [5], [10] có lẽ là lĩnh vực khoa học máy tính lâu đời nhất và rất rộng, xử lý tất cả các khía cạnh của việc bắt chước các chức năng nhận thức để giải quyết vấn đề trong thế giới thực và xây dựng công trình xây dựng hệ thống học hỏi và suy nghĩ như con người Nên nó là thường được gọi là trí thông minh máy (Poole, Mackworth, & Goebel, 1998) để đối lập với trí thông minh của con người (Russell & Norvig, 2010) Lĩnh vực này xoay quanh sự giao thoa giữa khoa học nhận thức và khoa học máy tính (Tenenbaum, Kemp, Griffiths, & Goodman, 2011) AI hiện đang thu hút rất nhiều sự quan tâm do những thành công thực tế trong học máy (ML) Trong AI đã tồn tại luôn được kết hợp chặt chẽ với khả năng diễn giải, và một ví dụ ban đầu là lời khuyên Taker do McCarthy đề xuất vào năm 1958 như một “chương trình của nhận thức chung” (McCarthy, 1960) Có lẽ đây là lần đầu tiên những khả năng suy luận bình thường như Phím AI Các nghiên cứu gần đây ngày càng nhấn mạnh rằng các hệ thống AI sẽ có thể xây dựng các mô hình nhân quả của thế giới hỗ trợ giải thích và hiểu, thay vì chỉ giải quyết các vấn đề nhận dạng mẫu (Lake, Ullman, Tenenbaum, & Gershman, 2017)
Trí tuệ Nhân là lĩnh vực nghiên cứu và phát triển các hệ thống máy tính có khả năng thực hiện các nhiệm vụ thông minh mà thông thường chỉ có con người mới có thể thực hiện AI có mục tiêu tạo ra các hệ thống thông minh có khả năng học hỏi, tư duy và tự động hóa các hoạt động Trong AI, Học máy (Machine Learning) là một lĩnh vực quan trọng, tập trung vào việc phát triển các thuật toán và mô hình để máy tính có thể học hỏi từ dữ liệu và cải thiện hiệu suất theo thời gian
Học máy (ML) [5], [10] là một lĩnh vực rất thực tế của AI với mục đích phát triển phần mềm có thể tự động học hỏi từ dữ liệu trước đó để đạt được kiến thức từ kinh nghiệm và để dần dần cải thiện hành vi học tập của nó để đưa ra dự đoán dựa trên dữ liệu mới (Michalski, Carbonell, & Mitchell, 1984) Học máy dựa trên việc
Trang 26máy tính xử lý dữ liệu và tìm hiểu các mẫu và quy luật tiềm ẩn trong dữ liệu mà không cần được lập trình cụ thể Các thuật toán học máy xử lý và phân tích dữ liệu để xây dựng các mô hình và quy tắc Nhờ đó, máy tính có khả năng dự đoán, phân loại và đưa ra quyết định trên dữ liệu mới Những thách thức lớn nằm ở việc đưa ra ý nghĩa, hiểu bối cảnh và đưa ra quyết định tạo ra sự không chắc chắn (Holzinger, 2017) ML có thể được coi là công việc của AI và ứng dụng ML chuyên sâu về dữ liệu của nó trong khi đó, các phương pháp có thể được tìm thấy ở khắp mọi nơi trong khoa học, kỹ thuật và kinh doanh, dẫn đến việc dựa trên bằng chứng nhiều hơn ra quyết định (Jordan & Mitchell, 2015) Tiến bộ rất lớn trong ML đã được thúc đẩy bởi sự phát triển của các thuật toán học thống kê mới cùng với sự sẵn có của các bộ dữ liệu lớn và tính toán chi phí thấp (Abadi và cộng sự, 2016) Sử dụng các thuật toán phân lớp của ML để tiến hành phân lớp các tác vụ dựa trên các đặc trưng của yêu cầu để thực hiện việc cân bằng tải
Học máy có nhiều phương pháp, bao gồm Học có giám sát (Supervised Learning) [11], Học không giám sát (Unsupervised Learning) [12], và Học tăng cường (Reinforcement Learning) [13] Mỗi phương pháp có ứng dụng và tiềm năng riêng trong việc giải quyết các bài toán phức tạp
2.2 Phương pháp biểu diễn dữ liệu
Trong nghiên cứu này, tôi đã chọn các phương pháp biểu diễn dữ liệu như: idf Vector, CountVector, FastText để thực hiện trước khi huấn luyện vào bài toán phân lớp thông tin cho hệ thống hỏi đáp trực tuyến
Tf-2.2.1 Phương pháp Tf-idf Vector (Term Frequency-Inverse Document Frequency Vector)
Tf-idf Vector là một phương pháp biểu diễn dữ liệu trong lĩnh vực xử lý ngôn ngữ tự nhiên Được sử dụng phổ biến trong tách từ, phân loại văn bản và truy vấn thông tin, Tf-idf Vector định lượng tầm quan trọng của một từ trong một văn bản Nó kết hợp hai thành phần chính: tần số xuất hiện của một từ trong một văn bản (Term
Trang 27Frequency - TF) và tần suất nghịch đảo của một từ trong tập văn bản (Inverse Document Frequency - IDF)
TF đo lường tần số xuất hiện của một từ trong một văn bản cụ thể IDF đo lường tần suất nghịch đảo của một từ trong toàn bộ tập văn bản TfidfVector tính toán giá trị TF-IDF cho mỗi từ trong tập văn bản và tạo ra một vectơ đặc trưng cho từng văn bản, trong đó mỗi phần tử của vectơ đại diện cho giá trị TF-IDF của một từ cụ thể
Công thức chung cho Tf-idf được thể hiện như sau:
�㕻�㕭 − �㕰�㕫�㕭(�㖕, �㖅) = �㕇�㔹(�㕡, �㕑) ∗ �㔼�㔷�㔹(�㕡) = = �㕇�㕒�㕟�㕚 �㔹�㕟�㕒�㕞�㕢�㕒�㕛�㕐�㕦(�㕡, �㕑) ∗ �㔼�㕛�㕣�㕒�㕟�㕠�㕒 �㕇�㕒�㕟�㕚 �㔹�㕟�㕒�㕞�㕢�㕒�㕛�㕐�㕦(�㕡, �㔷) (2.1) Trong đó:
TF(t,d): tần suất xuất hiện của từ t (term) trong tài liệu d (document) IDF(t): ngược của tần suất nghịch của từ t (term) trong tập các tài liệu Công thức chính xác của IDF được tính như sau:
Quá trình CountVectorization bao gồm ba bước: tách từ, xây dựng từ điển và biểu diễn văn bản Đầu tiên, văn bản được tách thành các từ riêng biệt Sau đó, một từ điển được xây dựng từ các từ xuất hiện trong tập văn bản Cuối cùng, mỗi văn bản
Trang 28được biểu diễn thành một vectơ, trong đó giá trị của mỗi thành phần là tần số xuất hiện của từ tương ứng trong văn bản
Không giống như Tf-idfVector, CountVector không sử dụng thống kê IDF, mà thay vào đó chỉ tính toán số lần xuất hiện của các từ trong một tài liệu
2.2.3 Phương pháp FastText
FastText là một phương pháp biểu diễn dữ liệu và xử lý ngôn ngữ tự nhiên Được phát triển bởi Facebook AI Research, FastText sử dụng mô hình word embeddings để biểu diễn từ và văn bản dưới dạng các vectơ số thực
FastText sử dụng phương pháp n-gram để xây dựng từ điển Một từ được chia thành các n-gram (ví dụ: các từ “openai” có thể được chia thành các n-gram “op”, “pe”, “en”, “ai”) và các n-gram này được coi là các từ trong quá trình huấn luyện Các từ trong văn bản sau đó được biểu diễn thành tổng của các vectơ từ tương ứng
FastText cung cấp khả năng biểu diễn cho các từ hiếm và các từ chưa từng xuất hiện trong quá trình huấn luyện Nó cũng hữu ích trong xử lý ngôn ngữ tự nhiên đa ngôn ngữ, vì nó cho phép biểu diễn từ và văn bản không chỉ bằng các vectơ đặc trưng, mà còn bằng các vectơ n-gram
2.3 Các phương pháp phân lớp
Phân lớp là một hình thức học có giám sát trong đó tập dữ liệu huấn luyện chứa các cặp (input, output) được sử dụng để giải quyết bài toán phân lớp Mục tiêu của phân lớp là áp dụng hàm học được vào dữ liệu chưa biết để xác định lớp phân lớp tương ứng
Phân lớp dữ liệu là một kỹ thuật trong lĩnh vực khai phá dữ liệu, được sử dụng rộng rãi và đang được nghiên cứu mở rộng Nhiệm vụ của phân lớp là dự đoán nhãn phân lớp cho các bộ dữ liệu hoặc mẫu mới Đầu vào của phân lớp là một tập các mẫu dữ liệu huấn luyện, trong đó mỗi mẫu dữ liệu được gán nhãn thuộc vào một lớp cụ
Trang 29thể Đầu ra của phân lớp là một bộ phân lớp dựa trên tập huấn luyện hoặc các nhãn phân lớp đã biết trước Các bước thực hiện kỹ thuật phân lớp dữ liệu bao gồm:
Bước 1: Tiền xử lý dữ liệu: Chuẩn bị và làm sạch dữ liệu để loại bỏ nhiễu, điều chỉnh đặc trưng và chuẩn hóa dữ liệu
Bước tiền xử lý dữ liệu cần thiết trong ML để chuẩn bị và làm sạch dữ liệu để loại bỏ nhiễu, điều chỉnh đặc trưng và chuẩn hóa dữ liệu Bước tiền xử lý dữ liệu bao gồm nhiều phương pháp, bao gồm loại bỏ dữ liệu bị thiếu, xử lý dữ liệu ngoại lai (outliers) và phân lớp, bình quân hóa và chuẩn hóa dữ liệu Sử dụng các phương pháp này giúp giảm nhiễu và cải thiện độ chính xác của mô hình Machine Learning Bước tiền xử lý dữ liệu thường là quan trọng hơn cả việc xây dựng mô hình vì nó ảnh hưởng rất nhiều đến kết quả của người dùng
Bước 2: Xây dựng mô hình: Xây dựng một mô hình phân lớp từ tập dữ liệu huấn luyện sử dụng các thuật toán và phương pháp phù hợp
Bước quan trọng trong Machine Learning, xây dựng một mô hình phân lớp từ tập dữ liệu huấn luyện sử dụng các thuật toán và phương pháp phù hợp Bước này thường được chia thành ba giai đoạn: huấn luyện, đánh giá và sử dụng mô hình Trong giai đoạn huấn luyện, cần sử dụng thuật toán phù hợp để xác định các tham số của mô hình và điều chỉnh để đạt được độ chính xác cao nhất Sau đó, sử dụng tập dữ liệu kiểm tra để đánh giá độ chính xác của mô hình và tinh chỉnh các tham số để cải thiện kết quả Khi mô hình đã được huấn luyện và tối ưu hóa, tôi có thể sử dụng nó để phân lớp các dữ liệu mới và đưa ra dự đoán
Một số thuật toán phân lớp dữ liệu phổ biến trong học máy bao gồm: Support Vector Machines (SVM), Naive Bayes, k-Nearest Neighbors (k-NN), Logistic Regression, Decision Trees, Random Forest, Gradient Boosting, Neural Networks (Deep Learning)
Các thuật toán này được sử dụng rộng rãi trong các bài toán phân lớp dữ liệu và có ưu điểm riêng biệt tùy thuộc vào loại dữ liệu và mục tiêu của bài toán Việc lựa
Trang 30chọn thuật toán phù hợp là một phần quan trọng trong quá trình xây dựng mô hình Machine Learning
2.3.1 Phân lớp với Support Vector Machines (SVM)
Support Vector Machines (SVM) là một phương pháp học có giám sát trong Machine Learning và AI [9] SVM là một mô hình phân loại sử dụng đường ranh giới để phân chia giữa các lớp dữ liệu và xác định vị trí của các điểm dữ liệu mới trong không gian đó SVM có khả năng xử lý các bài toán phân loại tuyến tính và phi tuyến tính và thường được sử dụng cho các bài toán phân loại nhị phân hoặc phân loại đa lớp SVM có rất nhiều ứng dụng trong các lĩnh vực như nhận dạng ảnh, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói và nhiều ứng dụng khác
Ý tưởng cơ bản của SVM là tìm ra một siêu phẳng trong không gian đa chiều (cao hơn so với số chiều của dữ liệu ban đầu) để tối đa hóa khoảng cách giữa các điểm dữ liệu thuộc các lớp khác nhau Siêu phẳng này được chọn sao cho có thể tách biệt hai lớp dữ liệu và có độ dự đoán tốt trên các điểm dữ liệu mới
Ưu điểm của SVM 1 Tính khả diễn giải: SVM có khả năng hiểu được quyết định của nó thông qua siêu phẳng tối ưu
2 Hiệu suất tốt trong không gian chiều cao: SVM vẫn hoạt động tốt khi số chiều dữ liệu lớn hơn số lượng điểm dữ liệu
3 Xử lý tốt dữ liệu nhiễu: SVM có khả năng chịu được dữ liệu nhiễu và không bị ảnh hưởng quá nhiều bởi các điểm ngoại lai
4 Hỗ trợ các hàm kernel: SVM sử dụng các hàm kernel để chuyển đổi dữ liệu vào không gian cao chiều và giải quyết các bài toán phi tuyến tính
Nhược điểm SVM 1 Đòi hỏi một lượng dữ liệu huấn luyện đáng kể: SVM hoạt động tốt khi có đủ dữ liệu huấn luyện để xây dựng mô hình tốt
2 Độ phức tạp tính toán cao: Việc tìm kiếm siêu phẳng tối ưu có thể tốn nhiều thời gian và tài nguyên tính toán
Trang 31Hình 2.1: Mô hình SVM
Tác giả của mô hình SVM là Vladimir Vapnik đã cho rằng ”Đường thẳng phân tách 2 lớp dữ liệu sao cho khoảng cách đều giữa các điểm dữ liệu và đường thẳng là lớn nhất sẽ đem lại khả năng tổng quát tốt nhất” Khái niệm khoảng cách đều này được gọi là margin (lề) Trong hình trên trên, đường thẳng H2 được chọn là đường thẳng tốt nhất để phân tách 2 lớp Do đó, mô hình SVM chỉ tìm kiếm đường thẳng với margin lớn nhất như ý tưởng cơ bản của nó
Thuật toán phân lớp SVM thường được thực hiện thông qua các bước sau: 1 Chuẩn bị dữ liệu huấn luyện: Thu thập và chuẩn bị các mẫu dữ liệu huấn luyện, trong đó mỗi mẫu được gán nhãn thuộc về một lớp cụ thể
2 Chọn mô hình SVM: Xác định loại SVM và các tham số liên quan, bao gồm hàm kernel, siêu tham số C (điều chỉnh độ lỏng) và siêu tham số khác tùy thuộc vào loại SVM cụ thể
Trang 323 Tiến hành huấn luyện mô hình: Áp dụng thuật toán SVM vào dữ liệu huấn luyện để tìm ra đường ranh giới tốt nhất để phân chia các lớp Quá trình này thường bao gồm tối ưu hóa hàm mục tiêu, cố gắng tìm ra giá trị tối ưu cho các tham số của mô hình SVM
4 Đánh giá mô hình: Sử dụng dữ liệu kiểm tra hoặc phân đoạn để đánh giá hiệu suất của mô hình SVM Điều này giúp đánh giá khả năng tổng quát của mô hình và kiểm tra tính chính xác của các dự đoán phân lớp
5 Tinh chỉnh mô hình: Dựa trên kết quả đánh giá, có thể điều chỉnh các tham số của mô hình SVM hoặc thử nghiệm các loại kernel khác nhau để cải thiện hiệu suất
6 Dự đoán và phân loại: Sử dụng mô hình SVM đã huấn luyện để dự đoán và phân loại các mẫu dữ liệu mới không có nhãn Mô hình SVM sẽ sử dụng đường ranh giới đã học được để xác định lớp tương ứng cho mỗi mẫu dữ liệu
7 Triển khai và ứng dụng: Áp dụng mô hình SVM đã huấn luyện vào các bài toán thực tế, như phân loại email spam, nhận dạng chữ viết tay, nhận dạng đối tượng trong hình ảnh và nhiều ứng dụng khác
2.3.2 Phân lớp với Naive Bayes
Phân lớp với Naive Bayes là một phương pháp phân loại trong lĩnh vực học máy, dựa trên nguyên tắc của định lý Bayes và giả định Naive Bayes Giả định Naive Bayes cho rằng các đặc trưng của dữ liệu đầu vào là độc lập tuyến tính đối với nhau, điều này giúp đơn giản hóa quá trình tính toán
Phương pháp này sử dụng xác suất để dự đoán lớp của một mẫu dữ liệu dựa trên các đặc trưng của nó Đầu tiên, Naive Bayes tính xác suất của mỗi lớp dựa trên tập dữ liệu huấn luyện Sau đó, khi có một mẫu dữ liệu mới, nó sử dụng các đặc trưng của mẫu đó để tính toán xác suất thuộc về mỗi lớp, và sau đó dự đoán lớp có xác suất cao nhất
Mô hình phân lớp Naive Bayes là một phương pháp phân loại dựa trên nguyên tắc của định lý Bayes và giả định Naive Bayes [6] Mô hình này được sử dụng rộng
Trang 33rãi trong lĩnh vực học máy để dự đoán lớp của một mẫu dữ liệu dựa trên các đặc trưng của nó
Theo Định lý Bayes là một định lý quan trọng trong xác suất thống kê, đặc biệt được sử dụng trong các bài toán liên quan đến phân loại và dự đoán Định lý Bayes cho phép cập nhật xác suất của một giả thuyết dựa trên dữ liệu mới được quan sát
Công thức tính xác suất hậu nghiệm của định lý Bayes được biểu diễn như sau:
Trong đó: P(A|B) là xác suất của sự kiện A xảy ra khi đã biết rằng sự kiện B đã xảy ra P(B|A) là xác suất của sự kiện B xảy ra khi đã biết rằng sự kiện A đã xảy ra P(A) là xác suất tiên nghiệm của sự kiện A
P(B) là xác suất của sự kiện B Công thức này cho phép tính toán xác suất hậu nghiệm (xác suất của A khi đã biết B) dựa trên xác suất tiên nghiệm (xác suất của A) và xác suất có điều kiện (xác suất của B khi đã biết A) Định lý Bayes là một công cụ quan trọng trong việc cập nhật và điều chỉnh kiến thức dựa trên dữ liệu quan sát [7]
Giả định Naive Bayes cho rằng các đặc trưng của mẫu dữ liệu là độc lập tuyến tính đối với nhau khi đã biết lớp của mẫu đó Điều này giúp đơn giản hóa quá trình tính toán và giảm độ phức tạp của mô hình
Mô hình Naive Bayes sử dụng xác suất để dự đoán lớp của một mẫu dữ liệu mới Đầu tiên, mô hình tính xác suất tiên nghiệm của mỗi lớp dựa trên tập dữ liệu huấn luyện Sau đó, khi có một mẫu dữ liệu mới, mô hình tính toán xác suất thuộc về mỗi lớp dựa trên các đặc trưng của mẫu đó và xác suất tiên nghiệm của từng lớp Lớp có xác suất cao nhất sẽ được dự đoán là lớp của mẫu dữ liệu đó
Trang 34Hình 2.2: Mô hình phân lớp Naive Bayes
Mô hình phân loại Naive Bayes được áp dụng trong nhiều bài toán, đặc biệt là trong các bài toán phân loại văn bản, email spam, phân loại tin tức, phân loại cảm xúc, và nhiều lĩnh vực khác liên quan đến phân loại dữ liệu
Ưu điểm của mô hình Naive Bayes 1 Đơn giản và nhanh chóng để huấn luyện 2 Hoạt động hiệu quả trên các tập dữ liệu lớn 3 Tính toán đơn giản, không yêu cầu quá nhiều tài nguyên tính toán 4 Không yêu cầu nhiều dữ liệu huấn luyện để tạo ra một mô hình có độ chính xác cao
5 Được sử dụng rộng rãi trong các ứng dụng thực tế, bao gồm phân loại email spam và phát hiện tin tức giả mạo
Nhược điểm mô hình Naive Bayes 1 Giả định Naive Bayes là tất cả các tính năng đều độc lập với nhau, điều
Trang 35này có thể không chính xác ở một số trường hợp 2 Không phù hợp với các tập dữ liệu có mối quan hệ phức tạp giữa các tính năng
3 Không xử lý tốt các sự kiện hiếm gặp, đặc biệt là trong trường hợp bị mất cân bằng lớp
4 Thường cho kết quả chưa rõ ràng khi các tính năng có giá trị liên tục Tóm lại, mô hình Naive Bayes là một phương pháp phân loại đơn giản và hiệu quả, nhưng cũng có nhược điểm riêng Việc lựa chọn sử dụng mô hình Naive Bayes phụ thuộc vào loại dữ liệu và bài toán cụ thể đang giải quyết
2.3.3 Phân lớp với k-Nearest Neighbors (k-NN)
Phân lớp với k-Nearest Neighbors (k-NN) là một phương pháp phân loại trong học máy dựa trên nguyên tắc các điểm dữ liệu có thuộc tính tương tự thường có cùng nhãn Ý tưởng cơ bản của k-NN là xác định lớp của một điểm dữ liệu mới bằng cách so sánh nó với k điểm gần nhất trong tập dữ liệu huấn luyện [8]
Hình 2.3: Mô hình k-NN (k-Nearest Neighbors)
Các bước cơ bản của phân lớp k-NN là như sau: 1 Xác định giá trị k: Chọn một giá trị k dương là số lượng các điểm gần nhất
Trang 36sẽ được sử dụng để quyết định lớp cho điểm dữ liệu mới 2 Đo khoảng cách: Sử dụng một phép đo khoảng cách (ví dụ: khoảng cách Euclid) để tính toán khoảng cách giữa điểm dữ liệu mới và các điểm dữ liệu trong tập huấn luyện
3 Tìm k điểm gần nhất: Chọn k điểm có khoảng cách gần nhất với điểm dữ liệu mới
4 Đa số phiếu bầu: Xác định lớp của điểm dữ liệu mới bằng cách đếm số lượng điểm thuộc mỗi lớp trong k điểm gần nhất và chọn lớp có số lượng đa số
5 Phân loại: Gán lớp tương ứng cho điểm dữ liệu mới dựa trên kết quả đa số phiếu bầu
Phân lớp với k-Nearest Neighbors (k-NN) có những ưu điểm và nhược điểm nhất định Đôi khi, k-NN có thể cho ra các kết quả rất tốt, đặc biệt là khi tập dữ liệu đủ lớn Nó còn rất đơn giản và dễ hiểu, do đó cũng có thể được sử dụng trong nhiều trường hợp thực tế Tuy nhiên, k-NN cũng có nhược điểm của nó Việc tính toán có thể trở nên rất khó khăn nếu số lượng các điểm trong tập dữ liệu rất lớn Nó cũng rất nhạy cảm với các nhiễu trong tập dữ liệu và có thể cho ra các kết quả kém nếu các điểm dữ liệu bất thường xuất hiện
Phương pháp phân lớp với k-Nearest Neighbors (k-NN) có nhiều ứng dụng trong lĩnh vực học máy và AI như:
1 Phân loại sản phẩm: Một ứng dụng phổ biến của k-NN là phân loại các sản phẩm hoặc tin tức trên các trang web thương mại điện tử, văn bản trong báo chí hoặc các ứng dụng tương tự
2 Xác định loại hoa: Trong lĩnh vực thị giác máy tính, k-NN có thể được sử dụng để phân loại loại hoa dựa trên kích thước và hình dạng
3 Sản xuất: k-NN có thể được sử dụng để xác định các lỗi trong quá trình sản xuất bằng cách so sánh các khoảng cách giữa các sản phẩm
4 Y học: Trong lâm sàng, phương pháp k-NN có thể được sử dụng để xác định các bệnh nhân có nguy cơ cao mắc bệnh hay để dự đoán tình trạng bệnh Tuy
Trang 37nhiên, cần phải lưu ý rằng k-NN cũng có nhược điểm như đã đề cập ở trên, những ứng dụng này có thể bị ảnh hưởng bởi các nhiễu hoặc dữ liệu bất thường
Qua các bước trên, thuật toán phân lớp SVM có thể tạo ra một mô hình phân loại tốt với khả năng tổng quát cao và hiệu suất đáng tin cậy
Trang 38CHƯƠNG 3 - ĐỀ XUẤT PHƯƠNG PHÁP XÂY DỰNG BỘ
DỮ LIỆU VÀ MÔ HÌNH CHO BÀI TOÁN
Chương này tôi tập trung giới thiệu về cách xây dựng nên bộ dữ liệu đầu vào để làm dữ liệu training cho mô hình từ chuỗi văn bản Bên cạnh đó nêu lên đề xuất của mình về phương pháp thực hiện xây dựng mô hình của bài toán bằng cách áp dụng các thuật toán của Machine Learning
3.1 Mô hình thực nghiệm bài toán
Hình 3.1: Mô hình thực nghiệm
• Dữ liệu từ CSDL hỏi đáp• Dữ liệu từ CSDL dịch vụ công• Dữ liệu địa chỉ từ hệ thống Một Cửa
THU THẬPDỮ LIỆU
• 1 Xoá các đoạn mã html• 2 Chuẩn hóa unicode• 3 Chuẩn hóa kiểu gõ tiếng Việt• 4 Tách từ tiếng Việt
• 5 Chuyển về chữ thường• 6 Loại bỏ từ không có nghĩa
TIỀN XỬ LÝDỮ LIỆU
• Chia tập dữ liệu• Huấn luyện mô hình• Đánh giá mô hình
HUẤN LUYỆN MÔ HÌNH
• Lựa chọn mô hình• Áp dụng mô hình có kết quả tốt
KẾT LUẬN
Trang 39Hình 3.1 mô tả mô hình thực nghiệm như sau: - Đầu tiên tôi thu thập dữ liệu câu hỏi của người dân từ các hệ thống: hệ
thống hỏi đáp trực tuyến, hệ thống dịch vụ công, hệ thống Một Cửa của tỉnh Tây Ninh
- Bước kế tiếp, tôi tiến hành tiền xử lý dữ liệu với các công đoạn như: 1) Xoá các đoạn mã html
2) Chuẩn hóa unicode 3) Chuẩn hóa kiểu gõ tiếng Việt 4) Tách từ tiếng Việt
5) Chuyển về chữ thường 6) Loại bỏ từ không có nghĩa Việc tiền xử lý không bao gồm việc sửa lỗi chính tả, mà dữ liệu được giả định là đúng chính tả và cú pháp trước khi đưa vào quá trình huấn luyện
- Bước Huấn luyện: Tập dữ liệu được chia thành ba nhóm: tập dữ liệu huấn luyện, tập dữ liệu kiểm tra và tập dữ liệu xác nhận Tập dữ liệu kiểm tra được sử dụng để kiểm tra mô hình sau khi huấn luyện, và tôi dựa trên kết quả phân lớp chính xác trên tập dữ liệu kiểm tra để chọn ra mô hình máy học phù hợp nhất
- Kết luận: với mô hình được lựa chọn áp dụng vào hệ thống thực tế 3.2 Thu thập dữ liệu
Quá trình thu thập dữ liệu được thực hiện thông qua các hệ thống hệ thống hỏi đáp trực tuyến, hệ thống dịch vụ công, hệ thống Một Cửa của tỉnh Tây Ninh
Tổng lượng dữ liệu thu thập được 26.005 câu thuộc 47 đơn vị khác được lưu trữ dưới định dạng file có cấu trúc JSON
Trang 40Hình 3.2 biểu diễn câu hỏi được thu thập từ hệ thống
Hình 3.2: Câu hỏi đã được trả lời trên trang hỏi đáp
3.3 Chuẩn hóa dữ liệu
Dữ liệu thu thập là các câu hỏi được người dân đưa ra dưới dạng văn bản, nhưng chúng không tuân theo ngữ điệu chuẩn, có chứa từ ngữ viết sai, sử dụng các từ địa phương Tuy nhiên, những câu hỏi này đã được người quản trị đọc và sửa lại để đảm bảo tính chính xác
Một số câu hỏi có nội dung gửi kèm theo phần ký hiệu gửi, nhưng phần này thường không đúng với đơn vị mục tiêu Người quản trị đã tiến hành sửa đổi phần ký hiệu gửi để phân loại câu hỏi một cách chính xác và không ảnh hưởng đến quá trình huấn luyện phân loại
Ví dụ: Câu hỏi phải gửi cho Sở Tài nguyên và Môi trường nhưng người dân có chú thích gửi cho UBND huyện trong nội dung