Lý do chọnđềán
Hiện nay với sự bùng nổ công nghệ thì việc người dùng tiếp cận kho dữ liệukhổng lồ là rất dễ dàng và nhanh chóng Tuy nhiên các thông tin nhận được khôngchính thống tồn tại vấn nạn tin rác, tin giả tràn lan làm ảnh hưởng rất lớn đến hoạtđộng của cơ quan, tổ chức, người dùng Trong giai đoạn hiện nay, các ngành, lĩnhvực, đặc biệt là trong các cơ quan Nhà nước đang tiến hành chuyển đổi số để chuẩnhóa quy trình, số hóa dữ liệu đầu vào, tự động hóa quy trình giải quyết thủ tục hànhchính theo hướng nhanh, chính xác tạo sự tiện lợi cho người dân Đồng thời, việc ứngdụng công nghệ trí tuệ nhân tạo (AI), xử lý ngôn ngữ tự nhiên, các công nghệ tìmkiếm và truy xuất thông tin (IR), trích xuất thông tin (IE) vào các hệ thống hỏi đáptrực tuyến nhằm tăng tốc độ phản hồi, trả về các thông tin hữu ích cho người dùng…rất phổbiến.
Trong bối cảnh đó, Sở Thông tin và Truyên thông đã xây dựng hệ thống hỏiđáp trực tuyến tỉnh Tây Ninh tại địa chỉhttps://hoidap.tayninh.gov.vnnhằm giải đápmọi thắc mắc của người dân trên địa bàn tỉnh Tây Ninh Tuy nhiên, với số lượng lớncâu hỏi được gửi về, đòi hỏi phải bộ phận quản trị tinh chỉnh hình thức và phân loạithủ công theo các lĩnhv ự c đ ế n c ơ q u a n c h u y ê n m ô n p h ụ t r á c h x ử l ý , g â y r ấ t n h i ề u khó khăn về thời gian, nhân sự cũng như chất lượng của hệ thống Chính vì vậy, tôichọn và nghiên cứu đề án “Xây dựng hệ thống hỏi đáp trực tuyến bằng phươngpháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chínhquyền địa phương tỉnh Tây Ninh”với mục tiêu là tiết kiệm được nhân lực và thờigian trong quá trình tiếp nhận, và giải quyết các yêu cầu của người dân trên địa bàntỉnh.
Tổngquanvấnđềnghiên cứu
Bài toánXây dựng hệ thống hỏi đáp trực tuyến bằng phương pháp máyhọc để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chính quyền địaphương tỉnh Tây Ninhthuộc lĩnh vực xử lý ngôn ngữ tự nhiên, đây là một bài toánkhódobảnchấtcủangônngữtự nhiênmangtínhđanghĩa,nhậpnhằngnênviệcphảnhồi hoặctrảlời đúngđủ nội dungcần hỏi hay nói cách khác là đúngn g ữ n g h ĩ a c â u hỏi là vấnđề khôngnhỏ Thách thức của bàitoán ởđâyl à x á c đ ị n h n g ữ n g h ĩ a c ủ a câu một cách chính xác Tuy nhiên giữa câu hỏi và câu trả lời còn tồn tại các quan hệ“ngầm” hay phụ thuộc vào ngữ cảnh Bài toán đặt ra nhiều thách thức để phát hiện rađược câutrảlờiphùhợpnhất,thông tinhữuíchnhất.
Bài toán xây dựng hệ thống hỏi đáp đòi hỏi phải giải quyết các khía cạnh quantrọng sau:
Hiểu ngữ nghĩa: hiểu ngữ nghĩa của câu hỏi là rất quan trọng đểd i ễ n g i ả i v à xử lý câu hỏi một cách chính xác Điều này bao gồm việc hiểu ý định đằng sau câuhỏivàxácđịnh nhucầuthông tincơbản.
Tríchxuấtcâutrảlời:Tríchxuấtcâutrảlờiphùhợptừngữcảnhhoặccơsởdữ liệu kiến thức đòi hỏi các kỹ thuật mạnh mẽ về tìm kiếm và trích xuất thông tin.Điều này bao gồm việc tìm ra câu trả lời phù hợp nhất và mang tính thông tin nhất đểtrựctiếpđápứngcâu hỏiđượcđặtra.
Phụ thuộc vào ngữ cảnh: Cần xem xét các mối quan hệ phụ thuộc vào ngữcảnh giữa câu hỏi và câu trả lời để cung cấp những câu trả lời chính xác và phù hợpvới ngữ cảnh Điều này bao gồm việc xem xét văn bản xung quanh, các tương táctrướcđóvàkiếnthứcvềlĩnhvựccụthểđểcảithiệnchấtlượngcủacâutrảlời.
Hiểu ngôn ngữ tựnhiên: Phát triển cáck ỹ t h u ậ t đ ể x ử l ý c á c đ ặ c đ i ể m p h ứ c tạp của ngôn ngữ tự nhiên như sự nhập nhằng, biểu đạt ẩn dụ và biến thể ngôn ngữ làrất quan trọng đểh i ệ u q u ả t r o n g v i ệ c x ử l ý v à d i ễ n g i ả i c â u h ỏ i v à t ạ o r a c â u t r ả l ờ i có ý nghĩa.
Các tiêu chí đánh giá: Xác định các tiêu chí đánh giá phù hợp là rất quan trọngđể đánh giá hiệu suất của hệ thống hỏi đáp Các tiêu chí như độ chính xác, độ phủ,F1-score và độ chính xác có thể được sử dụng để đo lường khả năng của hệ thốngcung cấpcâu trảlờiđúngvàliên quan.
Tóm lại, xây dựng hệ thống hỏi đáp đòi hỏi phải vượt qua các thách thức liênquan đến hiểu ý nghĩa của câu hỏi, trích xuất câu trả lời phù hợp, xem xét các mốiquan hệ phụ thuộc vào ngữ cảnh và hiệu quả xử lý các đặc điểm phức tạp của ngônngữ tự nhiên Để giải quyết những thách thức này, cần áp dụng các kỹ thuật tiên tiếntrong xử lý ngôn ngữ tự nhiên và học máy, kết hợp với một khung đánh giá toàn diệnđểđánhgiáhiệusuất củahệ thống.
Mụctiêu nghiêncứu
Xây dựng hệ thống khai thác dữ liệu hỏi đáp trực tuyến cung cấp cho chínhquyền tỉnh Tây Ninh để xác định các vấn đề đang tồn đọng, những lĩnh vực mà ngườidânđịaphươngquantâmđểthựcthichínhsáchchophùhợpvà tựđộnghóaquytrìnhtiếp nhậncủachínhquyềnđịaphương.
Xây dựng bộ công cụ AI phân tích các yêu cầu câu hỏi để tự động hóa quytrìnhtiếpnhậnchuyểnchocác đơnvịmộtcáchtựđộngtrênđịabàntỉnh.
Mục đích của nghiên cứu trên là xây dựng hệ thống hỏi đáp trực tuyến bằngphương pháp máy học để tự động hóa quy trình tiếp nhận câu hỏi áp dụng cho chínhquyền địaphương tỉnhTâyNinh.
Nghiên cứu nhằm giải quyết các vấn đề thời gian, nhân lực và chất lượng màhệ thống hỏi đáp trực tuyến hiện tại gặp phải Mục tiêu là tiết kiệm thời gian và nhânlực trong quá trình tiếp nhận và giải quyết các yêu cầu của người dân trên địa bàntỉnh, đồng thời cung cấp câu trả lời chính xác và hữu ích cho người dùng Nghiên cứucũnghướngđếnviệcápdụngcácphươngphápxửlýngônngữtựnhiên,tìmkiế m thôngtinvàrúttríchthôngtinđểxácđịnhýnghĩacủacâuhỏi,tìmkiếmcâutrảlờivàtrích xuấtthôngtinliên quan.
Mụctiêucuốicùng làxâydựngmộthệthốnghỏiđáp trựctuyếnhiệuquả,giúptối ưu hóa tài nguyên và cải thiện trải nghiệm của người dùng khi tương tác với chínhquyền địaphương.
Đốitượngvà phạmvinghiêncứu
Đốitượngnghiêncứu Đối tượng nghiên cứu của đề án này là cơ sở dữ liệu của hệ thống hỏi đáp trựctuyếnđịaphươngtỉnhTâyNinh.Nghiêncứusẽsửdụngcácphươngphápmáyhọc để xây dựng hệ thống tự động hóa quy trình tiếp nhận câu hỏi của người dân chuyểncho cácđơnvịtrảlờicâuhỏi.
Kếtquảcủanghiêncứusẽđượcsửdụngđểcảithiệnhiệuquảcủahệthốnghỏiđ áptrựctuyến vàgiảiquyếtnhữngnhucầucủa ngườidân mộtcáchhiệuquảhơn.
Nghiên cứu phân tích cơ sở dữ liệu của hệ thống hỏi đáp trực tuyến này bằngcách sử dụng phương pháp máy học để xác định nhu cầu của người dân và tự độnghóa quy trình tiếp nhận, phân loại câu hỏi Nghiên cứu sẽ bao gồm việc tổng quan vềCổnghỏiđáptrựctuyếnvàhệthốngtựđộnghóaquytrìnhtiếpnhậncâuhỏi,phân tích các công trình liên quan trong và ngoài nước, đề xuất thuật toán máy học và môphỏng và thực nghiệm thuật toán đề xuất Kết quả nghiên cứu sẽ được đánh giá bằngcáctiêu chí phùhợp.
Hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh chỉ trả lời các câu hỏi thuộc thẩmquyền, chức năng của các cơ quan nhà nước Người phản ánh thông tin, đặt câu hỏicần cung cấp đầy đủ thông tin liên hệ để đơn vị trả lời có thể liên hệ khi cần thiết. Hệthống hỏi đáp trực tuyến tỉnh Tây Ninh không là cơ sở pháp lý để giải quyết các quanhệdân sự.
Hệ thống hỏi đáp trực tuyến của tỉnh Tây Ninh là một trong số ít tỉnh có lượngdữliệuđángkểvềtươngtácgiữacơquan nhànướcvàngườidân, doanhnghiệpđượclưu trữ tại trung tâm tích hợp dữ liệu của tỉnh trên nền tảng kỹ thuật số Hệ thống nàyđã giúp người dân tiếpcận thông tin từ chínhq u y ề n m ộ t c á c h n h a n h c h ó n g , c h í n h xác, minhbạch,rõràngvàthuận tiện.
Phươngphápnghiêncứu
TổngquanvềCổnghỏi đáptrựctuyến
Hệthốnghỏiđáptrựctuyếnlàhệthống thôngtinđiệntửđểngườidân,tổchứcvà doanh nghiệp phản ánh thông tin và đặt ra những câu hỏi liên quan đến các vấn đềcần quan tâm.Hệ thống dựa vào thông tin đầu vào là câu hỏi dưới dạng ngôn ngữ tựnhiên của người dùng, trả lại các đoạn văn bản ngắn chứa câu trả lời trực tiếp cho câuhỏi hoặcchứanhữngthôngtinsátvới mong muốncủangườidùng.
Hệ thống Tự động hóa quy trình tiếp nhận câu hỏi dựa vào một số kỹ thuật vàcáctiêuchíkhác nhau,cóthể đượcphânloạinhưsau:
- Phân loại theo miền ứng dụng: Các câu hỏi được phân loại dựa trên miềnứng dụng cụ thể mà hệ thống đang xử lý như: miền như luật pháp, y tế, giáo dục, giaothông giúp hệ thống hiểu rõ ngữ cảnh và áp dụng kiến thức chuyên môn liên quanđến miền đó.
- Phân loại theo khả năng trả lời mẫu hỏi: dựa trên khả năng có sẵn của hệthống để trả lời mẫu hỏi Có thể có các danh sách câu trả lời mẫu hoặc cơ sở dữ liệukiếnthứcđểhệthốngtrả lờinhữngcâuhỏiphổbiếnmộtcách tựđộng.
- Phân loại theo mức độ dài, ngắn của đoạn đối thoại giữa người dùng và hệthống thànhcácloạingắn gọn,trungbìnhhoặcdàiđể xửlýhiệu quả.
- Phân loại theo hướng tiếp cận: hướng tiếp cận dựa trên quy tắc, hướng tiếpcận thống kê, hướng tiếp cận dựa trên máy học hoặc hướng tiếp cận dựa trên tríchxuấtthôngtin.
Những phân loại này giúp xác định và tự động hóa quy trình tiếp nhận câu hỏimột cách hiệu quả, đồng thời cung cấp cho hệ thống khả năng xử lý đa dạng các loạicâuhỏivàcungcấpcâutrả lờiphùhợpchongườidùng.
Tỉnh Tây Ninh đã xây dựng hệ thống hỏi đáp trực tuyến từ năm 2016 nhằmgiải đáp nhanh chóng, minh bạch các vấn đề mà dư luận quan tâm Hệ thống này hiệnđanghoạtđộngởmứchỏiđápcủacôngdânvàchínhquyềntrảlời,chưaxâydựng đượchệthốngtổnghợp,khaithácvàsửdụngdữliệukiếnnghịcủacôngdânphụcvụcô ng tácquản lýnhànước.
Hệ thống hỏi đáp trực tuyến tỉnh Tây Ninh là kênh thông tin kết nối giữa cơquan nhà nước với người dân, tổ chức, doanh nghiệp thông qua Internet.H ệ t h ố n g này cócác chứcnăng và nhiệmvụsau:
- Là kênh thông tin để người dân, tổ chức, doanh nghiệp phản ánh thông tin,đặtcâuhỏiđếncáccơquannhà nước.
- Trả lời các câu hỏi của người dân, tổ chức, doanh nghiệp một cách chính xác,kịp thời,đáp ứngnhu cầucủangười dân.
1 Ngườidân,tổchức,doanhnghiệptruycậpvàohệthốnghỏiđáptrựctuyếntỉnh TâyNinhđểphảnánhthôngtin,đặtcâuhỏi.
- Nếu thuộc thẩm quyền, chức năng của đơn vị trả lời thì đơn vị trả lờithực hiện giao bộ phận, phòng, ban, đơn vị thuộc hoặc trực thuộc liênquan xửlý.
4 Bộ phận, phòng, ban, đơn vị thuộc hoặc trực thuộc đơn vị trả lời xem xétnộidungthôngtin,câuhỏiđể thựchiện việctrảlời.
- Nếu chưa đủ dữ kiện thì liên hệ ngườiphản ánh thông tin, đặt câu hỏiđểthuthậpthêm dữkiện.
5 Hệ thống hỏi đáp trực tuyến gửi thông báo kết quả xử lý thông tin, câu hỏicho ngườiphảnánhthôngtin, đặtcâuhỏi.
- Thời gian để đơn vị điều phối xử lý thông tin, câu hỏi là không quá 24giờ.
Cáccôngtrìnhnghiên cứutrênthếgiới
- Y a n g , Z v à đ ồ n g n g h i ê n c ứ u ( 2 0 1 9 ) B ài b á o n ày g i ớ i t h i ệ u m ô hình XLNet,một môhình học sâusửdụng phương pháp huấn luyện tựđ ộ n g M ô hình này có khả năng hiểu ngữ nghĩa và mối quan hệ giữa các từ trong câu, từ đó tạora câutrả lờichínhxác.
2 “BERT:Pre- trainingofDeepBidirectionalTransformersforLanguageUnderstanding” - Devlin, J và đồng nghiên cứu (2018) Tài liệu này giới thiệu môhình BERT, một mô hình họcs â u đ ã đ ạ t đ ư ợ c n h i ề u t h à n h c ô n g t r o n g H ỏ i v à Đ á p Nó trình bày cách BERT được huấn luyện trước và áp dụng cho nhiều tác vụ ngônngữ tựnhiên, baogồmcảHỏivàĐáp.
3 “Attention Is All You Need” - Vaswani, A và đồng nghiên cứu (2017). Tàiliệu này giới thiệu mô hình Transformer, một kiến trúc quan trọng trong Hỏi và Đáp.Mô hình này sử dụng cơ chế attention để xử lý thông tin từ ngữ cảnh và tạo ra câu trảlời chínhxác.
4 “SQuAD 2.0: 100,000+ Questions for Machine Comprehension of Text” - Rajpurkar, P và đồng nghiên cứu (2018) Tài liệu này là phiên bản mở rộng của tậpdữ liệu SQuAD SQuAD 2.0 bao gồm cả các câu hỏi mà câu trả lời không có sẵntrong văn bản Điều này tạo ra thách thức lớn hơn cho các hệ thống trả lời câu hỏi vàyêucầukhảnăngsuyluậnvà hiểubiếtrộnghơntừmôhình AI.
5 “NeuralApproachestoQuestionAnswering”-Rajpurkar,P.vàđ ồ n g nghiên cứu (2016) Bài báo này tập trung vào các phương pháp sử dụng mô hình họcsâu trong Hỏi và Đáp Nó giới thiệu các kiến trúc mạng như LSTM, CNN và các kiếntrúc đanhiệmđểxâydựnghệthốngtrảlờicâuhỏi.
6 “DeepLearningforAnswerSentenceSelection:AReview”-Zhou,M.và đồng nghiên cứu (2018) Tài liệu này tập trung vào bài toán chọn câu trả lời phù hợptrong Hỏi và Đáp Nó giới thiệu các phương pháp sử dụng học sâu như ConvolutionalNeural Networks (CNN) và Recurrent Neural Networks (RNN) để giải quyết bài toánnày.
7 “Question Answering Systems: A Survey” - Li, S và đồng nghiên cứu(2017) Bài báo này tổng hợp các phương pháp và tiến bộ trong lĩnh vực Hỏi và Đáp,từ các kiến trúc truyền thống đến sử dụng học sâu Nó cung cấp một cái nhìn tổngquan về cáccôngtrìnhnghiêncứu vàthách thứctrong lĩnhvựcnày.
8 “Language Models are Unsupervised Multitask Learners” - Radford, A. vàđồng nghiên cứu (2019) Tài liệu này giới thiệu mô hình ngôn ngữ GPT (GenerativePre-trained Transformer) GPT là một mô hình học sâu tự động cải thiện khả nănghiểungữnghĩavàtạoracâutrảlờitựnhiênthôngquahuấnluyệnkhônggiá msáttrên mộtlượng lớndữliệu.
9 “The Stanford Question Answering Dataset” - Rajpurkar, P và đồng nghiêncứu (2016) Tài liệu này giới thiệu tập dữ liệu SQuAD, một tập dữ liệu quan trọngtrong lĩnh vực Hỏi và Đáp. SQuAD chứa cáccặp câu hỏi và câu trảlời đúng,đ ư ợ c thu thập từ các nguồn tin trực tuyến, và được sử dụng rộng rãi trong việc đánh giá vàhuấnluyệncácmôhìnhtrảlờicâuhỏitựđộng.
10 “MS MARCO: A Human-Generated MAchine Reading COmprehensionDataset” - Nguyen, T và đồng nghiên cứu (2016) Tài liệu này giới thiệu tập dữ liệuMS MARCO, một tập dữ liệu được tạo ra bởi con người cho bài toán đọc hiểu máytính Nó chứa các cặp câu hỏi và văn bản liên quan, được sử dụng để đào tạo và đánhgiácácmô hìnhtrảlờicâuhỏitựđộng.
Những tài liệu trên cung cấp cái nhìn sâu hơn về các mô hình học sâu, tập dữliệu và thách thức trong lĩnh vực Hỏi và Đáp từc á c k i ế n t r ú c t r u y ề n t h ố n g đ ế n c á c môhìnhhọc sâutiêntiếnnhưTransformer,BERTvàXLNet…
Cáccôngtrìnhnghiên cứu trongnước
1 “Xây dựng hệ thống trả lời tự động tiếng Việt dựa trên mô hình BERT” - Trần Văn Hiến, Nguyễn Thị Minh Huyền, Phạm Quỳnh Ngân (2020): Công trình nàytập trung xây dựng hệ thống trả lời tự động tiếng Việt sử dụng mô hình BERT. TrìnhbàycáchhuấnluyệnmôhìnhvàápdụngchoviệctrảlờicâuhỏitiếngViệt.
2 “Phát triển hệ thống hỏi đáp y tế tự động tiếng Việt” - Đặng Văn Bảo, LêThanh Hòa, Nguyễn Quốc Bảo (2018): Công trình này tập trung vào xây dựng hệthống hỏi đáp y tế tự động sử dụng tiếng Việt Giới thiệu các phương pháp xử lý ngônngữtựnhiênvàmôhìnhhọcmáyđểđưara câutrảlờichocáccâuhỏiytế.
3 “Dự đoán trả lời chính xác câu hỏi tự nhiên tiếng Việt bằng phương phápSVM” - Trần Minh Tâm, Trần Thị Thanh Thảo (2017): Công trình này tập trung vàodự đoán trả lời chính xác cho câu hỏi tự nhiên tiếng Việt bằng cách sử dụng phươngpháp máy vector hỗ trợ (SVM) Nó giới thiệu cách tiền xử lý dữ liệu và xây dựng môhìnhSVMđểphânloạicâuhỏivàtìmra câutrảlờiphùhợp.
4 “Phát triển hệ thống trả lời câu hỏi tự động tiếng Việt dựa trên phương pháptìm kiếm trích dẫn” - Nguyễn Minh Thành, Nguyễn Huy Hùng, Lê Hồng Phong(2016): Công trình này tập trung vào phát triển hệ thống trả lời câu hỏi tự động tiếngViệtbằngcáchsửdụngphươngpháptìmkiếmtrích dẫn.Nógiớithiệucáchxâydựngmột công cụ tìm kiếm và trích dẫn thông tin từ tài liệu để đưa ra câu trả lời cho cáccâu hỏitiếng Việt.
5 “Hệ thống trả lời câu hỏi tự động về lịch sử Việt Nam” - Lê Thị Kim Oanh,Trần Văn Thoại (2015): Công trình này tập trung vào xây dựng hệ thống trả lời câuhỏi tự động về lịch sử Việt Nam Nó sử dụng các phương pháp xử lý ngôn ngữ tựnhiênvàcáctàiliệulịchsửđểtrảlờicáccâuhỏiliênquanđếnlịchsửViệtNam.
Những công trình nghiên cứu này là ví dụ về những nỗ lực của các nhà nghiêncứu Việt Nam trong lĩnh vực Hỏi và Đáp, áp dụng trí tuệ nhân tạo và xử lý ngôn ngữtựnhiênđểxâydựngcáchệthốngtrảlờicâuhỏitựđộngtiếngViệttrongnước.
TổngquanvềAIvàMachine Learning
[10]cólẽlàlĩnhvựckhoahọcmáytínhlâuđờinhấtvàrấtrộng,xửlýtấtcảcáckhíacạn hcủaviệcbắtchướccácchứcnăngnhậnthứcđểgiải quyết vấn đề trong thế giới thực và xây dựng công trình. xây dựng hệ thống họchỏi và suy nghĩ như con người Nên nó là thường được gọi là trí thông minh máy(Poole, Mackworth, & Goebel, 1998) để đối lập với trí thông minh của con người(Russell & Norvig, 2010) Lĩnh vực này xoay quanh sự giao thoa giữa khoa học nhậnthức và khoahọcmáy tính (Tenenbaum, Kemp, Griffiths, &G o o d m a n ,
2 0 1 1 ) A I hiện đang thu hút rất nhiều sự quan tâm do những thành công thực tế trong học máy(ML) Trong AI đã tồn tại luôn được kết hợp chặt chẽ với khả năng diễn giải, và mộtví dụ ban đầu là lời khuyên Taker do McCarthy đề xuất vào năm
1958 như một“chương trình của nhận thức chung” (McCarthy, 1960) Có lẽ đây là lần đầu tiênnhững khả năng suy luận bình thường như Phím AI Các nghiên cứu gần đây ngàycàng nhấn mạnh rằng các hệ thống AI sẽ có thể xây dựng các mô hình nhân quả củathế giới hỗ trợ giải thích và hiểu, thay vì chỉ giải quyết các vấn đề nhận dạng mẫu(Lake,Ullman,Tenenbaum,&Gershman,2017).
Trí tuệ Nhân là lĩnh vực nghiên cứu và phát triển các hệ thống máy tính có khảnăng thực hiện các nhiệm vụ thông minh mà thông thường chỉ có con người mới cóthể thực hiện AI có mục tiêu tạo ra các hệ thống thông minh có khả năng học hỏi, tưduy và tự động hóa các hoạt động Trong AI, Học máy (Machine Learning) là mộtlĩnh vực quan trọng, tập trung vào việc phát triển các thuật toán và mô hình để máytínhcó thểhọc hỏitừdữliệuvàcảithiệnhiệusuất theothời gian.
Học máy (ML) [5], [10] là một lĩnh vực rất thực tế của AI với mục đích pháttriển phần mềm có thể tự động học hỏi từ dữ liệu trước đó để đạt được kiến thức từkinh nghiệm và để dần dần cải thiện hành vi học tập của nó để đưa ra dự đoán dựatrêndữliệumới ( M i c h a l s k i , Carbonell, & M i t c h e l l , 1984) Họ c m á y d ự a t rê n v i ệ c máytínhxửlýdữliệuvàtìmhiểucácmẫuvàquyluậttiềmẩntrongdữliệumàkhôngcần được lập trình cụ thể Các thuật toán học máy xử lý và phân tích dữ liệu để xâydựng các mô hình và quy tắc Nhờ đó, máy tính có khả năng dự đoán, phân loại vàđưa ra quyết định trên dữ liệu mới Những thách thức lớn nằm ở việc đưa ra ý nghĩa,hiểu bối cảnh và đưa ra quyết định tạo ra sự không chắc chắn (Holzinger, 2017) MLcó thể được coi là công việc của AI và ứng dụng ML chuyên sâu về dữ liệu của nótrong khi đó, các phương pháp có thể được tìm thấy ở khắp mọi nơi trong khoa học,kỹ thuật và kinh doanh, dẫn đến việc dựa trên bằng chứng nhiều hơn ra quyết định(Jordan & Mitchell, 2015) Tiến bộ rất lớn trong ML đã được thúc đẩy bởi sự pháttriểncủacácthuậttoánhọcthốngkêmớicùngvớisựsẵncócủacácbộdữliệulớnvà tính toán chi phí thấp (Abadi và cộng sự, 2016) Sử dụng các thuật toán phân lớpcủa ML để tiến hành phân lớp các tác vụ dựa trên các đặc trưng của yêu cầu để thựchiệnviệccânbằng tải.
[11], Học không giám sát (Unsupervised Learning) [12], và Học tăngcường(Reinforcement Learning) [13] Mỗi phương pháp có ứng dụng và tiềm năngriêng trongviệcgiảiquyếtcácbàitoánphứctạp.
Phươngphápbiểudiễndữliệu
Trong nghiên cứu này, tôi đã chọn các phương pháp biểu diễn dữ liệu như: Tf- idf Vector, CountVector, FastText để thực hiện trước khi huấn luyện vào bài toánphânlớpthôngtinchohệ thốnghỏiđáptrực tuyến.
Tf-idf Vector là một phương pháp biểu diễn dữ liệu trong lĩnh vực xử lý ngônngữ tự nhiên Được sử dụng phổ biến trong tách từ, phân loại văn bản và truy vấnthông tin, Tf-idf Vector định lượng tầm quan trọng của một từ trong một văn bản.
Frequency - TF) và tần suất nghịch đảo của một từ trong tập văn bản (InverseDocumentFrequency -IDF).
TF đo lường tần số xuất hiện của một từ trong một văn bản cụ thể IDF đolường tần suất nghịch đảo của một từ trong toàn bộ tập văn bản TfidfVector tính toángiá trị TF-IDF cho mỗi từ trong tập văn bản và tạo ra một vectơ đặc trưng cho từngvăn bản, trong đó mỗi phần tử của vectơ đại diện cho giá trị TF-IDF của một từ cụthể.
TF(t,d):tầnsuấtxuấthiệncủatừt(term)trongtàiliệud(document).
IDF(t):ngượccủatầnsuấtnghịchcủatừt(term)trongtậpcáctàiliệu.Côngthứcc hínhxáccủaIDFđượctínhnhưsau:
TrongđóN làtổngsố lượngtàiliệutrongtập văn bản, df(t)làsốlượngtàiliệucó chứa từt (term).
CountVector là một phương pháp đơn giản để biểu diễn dữ liệu văn bản thànhcác vectơ đặc trưng.Trongphươngpháp này,mỗiv ă n b ả n đ ư ợ c c h u y ể n đ ổ i t h à n h mộtvectơ,trongđómỗithànhphầncủavectơđạidiệnchotầnsốxuấthiệncủa mộttừtrong vănbản tươngứng.
Quá trình CountVectorization bao gồm ba bước: tách từ, xây dựng từ điển vàbiểudiễnvănbản.Đầutiên,vănbảnđượctáchthànhcáctừriêngbiệt.Sauđó,mộttừ điểnđượcxâydựngtừcác từxuấthiệntrongtậpvănbản.Cuốicùng,mỗivănbản đượcbiểudiễnthànhmộtvectơ,trongđógiátrịcủamỗithành phầnlàtầnsốxuấthiện củatừtươngứng trongvănbản.
Không giống như Tf-idfVector, CountVector khôngs ử d ụ n g t h ố n g k ê
FastText là một phương pháp biểu diễn dữ liệu và xử lý ngôn ngữ tự nhiên.ĐượcpháttriểnbởiFacebookAIResearch,FastTextsửdụngmôhìnhwordembeddin gsđểbiểudiễntừvàvănbảndướidạngcácvectơsốthực.
FastText sử dụng phương pháp n-gram để xây dựng từ điển Một từ được chiathành các n-gram (ví dụ: các từ “openai” có thể được chia thành các n-gram
“op”,“pe”,“en”,“ai”) vàcácn- gramnàyđượccoilàcác từtrong quátrình huấnluyện Cáctừtrongvănbảnsauđóđ ượcbiểudiễnthànhtổngcủacácvectơtừtươngứng.
FastText cungcấpkhảnăng biểudiễncho các từ hiếm và cáct ừ c h ư a t ừ n g xuất hiện trong quá trình huấn luyện Nó cũng hữu ích trong xử lý ngôn ngữ tự nhiênđa ngôn ngữ, vì nó cho phép biểu diễn từ và văn bản không chỉ bằng các vectơ đặctrưng,màcònbằngcácvectơn-gram.
Cácphươngphápphân lớp
Phân lớp là một hình thức học có giám sát trong đó tập dữ liệu huấn luyệnchứa các cặp (input, output) được sử dụng để giải quyết bài toán phân lớp Mục tiêucủa phân lớp là áp dụng hàm học được vào dữ liệu chưa biết để xác định lớp phân lớptươngứng.
Phân lớp dữ liệu là một kỹ thuật trong lĩnh vực khai phá dữ liệu, được sử dụngrộng rãi và đang được nghiên cứu mở rộng Nhiệm vụ của phân lớp là dự đoán nhãnphân lớp cho các bộ dữ liệu hoặc mẫu mới Đầu vào của phân lớp là một tập các mẫudữliệuhuấnluyện,trongđómỗimẫudữliệuđượcgánnhãnthuộcvàomộtlớpc ụ thể Đầu ra của phân lớp là một bộ phân lớp dựa trên tập huấn luyện hoặc các nhãnphânlớpđãbiếttrước.Cácbướcthựchiệnkỹthuậtphânlớpdữliệubaogồm:
Bước 1: Tiền xử lýdữ liệu: Chuẩn bị và làms ạ c h d ữ l i ệ u đ ể l o ạ i b ỏ n h i ễ u , điềuchỉnhđặctrưngvàchuẩnhóadữliệu.
Bước tiền xử lý dữ liệu cần thiết trong ML để chuẩn bị và làm sạch dữ liệu đểloại bỏ nhiễu, điều chỉnh đặc trưng và chuẩn hóa dữ liệu Bước tiền xử lý dữ liệu baogồm nhiều phương pháp, bao gồm loại bỏ dữ liệu bị thiếu, xử lý dữ liệu ngoại lai(outliers) và phân lớp, bình quân hóa và chuẩn hóa dữ liệu Sử dụng các phương phápnày giúp giảm nhiễu và cải thiện độ chính xác của mô hình Machine Learning. Bướctiềnxửlýdữliệuthườnglàquantrọnghơncảviệcxâydựngmôhìnhvìnóảnhhưởngrất nhiềuđến kếtquảcủangườidùng.
Bước 2: Xây dựng mô hình: Xây dựng một mô hình phân lớp từ tập dữ liệuhuấnluyệnsửdụngcácthuậttoánvàphươngphápphùhợp.
Bước quan trọng trong Machine Learning, xây dựng một mô hình phân lớp từtập dữ liệu huấn luyện sử dụng các thuật toán và phương pháp phù hợp Bước nàythườngđượcchiathànhbagiaiđoạn:huấnluyện,đánhgiávàsửdụngmôhình.Tronggiaiđoạn huấnluyện,cầnsửdụngthuậttoánphùhợpđểxácđịnhcácthamsốcủamô hình và điều chỉnh để đạt được độ chính xác cao nhất Sau đó, sử dụng tập dữ liệukiểm tra để đánh giá độ chính xác của mô hình và tinh chỉnh các tham số để cải thiệnkết quả Khi mô hình đã được huấn luyện và tối ưu hóa, tôi có thể sử dụng nó để phânlớp các dữ liệumớivàđưaradựđoán.
Một số thuật toán phân lớp dữ liệu phổ biến trong học máy bao gồm: SupportVectorMachines(SVM),NaiveBayes,k-NearestNeighbors(k-
NN),LogisticRegression, Decision Trees, Random Forest, Gradient Boosting, Neural Networks(DeepLearning).
Các thuật toán này được sử dụng rộng rãi trong các bài toán phân lớp dữ liệuvàcóưu điểmriêng biệttùy thuộcvàoloạidữliệuvàmụctiêucủabàitoán.Việclựa chọnthuậttoánphùhợplàmộtphầnquantrọngtrongquátrìnhxâydựngmôhìnhMachine Learning.
Support Vector Machines (SVM) là một phương pháp học có giám sát trongMachine Learningvà AI [9] SVM là một mô hìnhp h â n l o ạ i s ử d ụ n g đ ư ờ n g r a n h giới để phân chia giữa các lớp dữ liệu và xác định vị trí của các điểm dữ liệu mớitrong không gian đó SVM có khả năng xử lý các bài toán phân loại tuyến tính và phituyến tính và thường được sử dụngc h o c á c b à i t o á n p h â n l o ạ i n h ị p h â n h o ặ c p h â n loại đa lớp SVM có rất nhiều ứng dụng trong các lĩnh vực như nhận dạng ảnh, xử lýngônngữtựnhiên,nhậndạnggiọngnóivànhiềuứngdụngkhác. Ý tưởng cơ bản của SVM là tìm ra một siêu phẳng trong không gian đa chiều(cao hơnso với số chiều củadữ liệubanđầu) để tối đahóakhoảngcách giữa cácđiểm dữ liệu thuộc các lớp khác nhau Siêu phẳng này được chọn sao cho có thể táchbiệthailớpdữliệuvàcóđộdựđoántốttrêncácđiểm dữliệumới. ƯuđiểmcủaSVM
1 Tínhkhảdiễngiải:SVMcókhảnănghiểuđượcquyếtđịnhcủanóthôngquasi êu phẳng tốiưu.
2 Hiệusuấttốttrongkhônggianchiềucao:SVMvẫnhoạtđộngtốtkhisốch iều dữliệulớn hơnsốlượngđiểmdữliệu.
4 Hỗtrợc ác hàmkernel: SVMsửdụngcáchàm kernel đểchuyển đổidữ liệuvàokhônggiancaochiềuvàgiảiquyếtcác bàitoánphituyếntính.
2 Độp h ứ c t ạ p t í n h t o á n c a o : V i ệ c t ì m k i ế m s i ê u p h ẳ n g t ố i ư u c ó t hể t ố n nhiều thờigian vàtàinguyêntínhtoán.
Tácgiảcủamôhình SVMlàVladimirVapnikđãchorằng”Đườngthẳngphântách 2 lớp dữ liệu sao cho khoảng cách đều giữa các điểm dữ liệu và đường thẳng làlớn nhất sẽ đem lại khả năng tổng quát tốt nhất” Khái niệm khoảng cách đều nàyđược gọi là margin (lề) Trong hình trên trên, đường thẳng H2 được chọn là đườngthẳngtốtnhấtđểphântách2lớp.Dođó,môhìnhSVMchỉtìmkiếmđườngth ẳngvớimarginlớnnhấtnhưýtưởngcơbảncủanó.
1 Chuẩn bị dữ liệu huấn luyện: Thu thập và chuẩn bị các mẫu dữ liệu huấnluyện,trongđómỗimẫuđượcgánnhãnthuộcvề mộtlớpcụthể.
2 Chọn mô hình SVM: Xác định loại SVM và các tham số liên quan,baogồm hàm kernel, siêu tham số C (điều chỉnh độ lỏng) và siêu tham số khác tùy thuộcvào loạiSVM cụthể.
3 Tiến hành huấn luyện mô hình: Áp dụng thuật toán SVM vào dữ liệu huấnluyện để tìm ra đường ranh giới tốt nhất để phân chia các lớp Quá trình này thườngbao gồm tối ưu hóa hàm mục tiêu, cố gắng tìm ra giá trị tối ưu cho các tham số củamôhình SVM.
4 Đánh giá mô hình: Sử dụng dữ liệu kiểm tra hoặc phân đoạn để đánh giáhiệu suất của mô hình SVM Điều này giúp đánh giá khả năng tổng quát của mô hìnhvàkiểmtratínhchínhxáccủacácdựđoánphân lớp.
5 Tinh chỉnh mô hình: Dựa trên kết quả đánh giá, có thể điều chỉnh các thamsố của mô hình SVM hoặc thử nghiệm các loại kernel khác nhau để cải thiện hiệusuất.
6 Dự đoán và phân loại:S ử d ụ n g m ô h ì n h S V M đ ã h u ấ n l u y ệ n đ ể d ự đ o á n và phân loại các mẫu dữ liệu mới không có nhãn Mô hình SVM sẽ sử dụng đườngranhgiớiđãhọcđượcđể xác địnhlớp tươngứngchomỗimẫudữliệu.
7 Triển khai và ứng dụng: Áp dụng mô hình SVM đã huấn luyện vào các bàitoán thực tế, như phân loại email spam, nhận dạng chữ viết tay, nhận dạng đối tượngtrong hìnhảnh vànhiềuứng dụngkhác.
Phân lớp với Naive Bayes là một phương pháp phân loại trong lĩnh vực họcmáy, dựa trên nguyên tắc của định lý Bayes và giả định Naive Bayes Giả định NaiveBayes cho rằng các đặc trưng của dữ liệu đầu vào là độc lập tuyến tính đối với nhau,điềunàygiúpđơngiảnhóa quátrìnhtính toán.
Phương pháp này sử dụng xác suất để dự đoán lớp của một mẫu dữ liệu dựatrên các đặc trưng của nó Đầu tiên, Naive Bayes tính xác suất của mỗi lớp dựa trêntập dữ liệu huấn luyện Sau đó, khi có một mẫu dữ liệu mới, nó sử dụng các đặc trưngcủa mẫu đó để tính toán xác suất thuộc về mỗi lớp, và sau đó dự đoán lớp có xác suấtcao nhất.
Mô hình phân lớp Naive Bayes là một phương pháp phân loại dựa trên nguyêntắccủađịnhlýBayesvàgiảđịnhNaiveBayes[6].Môhìnhnàyđượcsửdụngrộng rãitronglĩnhvựchọcmáyđểdựđoánlớpcủa mộtmẫudữliệudựatrêncácđặctrưngcủa nó.
TheoĐịnhlýBayeslàmộtđịnhlýquantrọngtrongxácsuấtthốngkê,đặcbiệtđược sử dụng trong các bài toán liên quan đến phân loại và dự đoán Định lý Bayeschophépcậpnhậtxácsuấtcủamộtgiảthuyếtdựatrêndữliệumớiđượcquansát.
P(A|B) là xác suất của sự kiện A xảy ra khi đã biết rằng sự kiện B đã xảy ra.P(B|A) là xác suất của sự kiện B xảy ra khi đã biết rằng sự kiện A đã xảy ra.P(A) làxácsuấttiênnghiệmcủasựkiện A.
Công thức này cho phép tính toán xác suất hậu nghiệm (xác suất của A khi đãbiết B) dựa trên xác suất tiên nghiệm (xác suất của A) và xác suất có điều kiện (xácsuất của B khi đã biết A) Định lý Bayes là một công cụ quan trọng trong việc cậpnhậtvàđiềuchỉnhkiếnthứcdựatrêndữliệuquansát[7].
Môhìnhthựcnghiệmbàitoán
- Đầu tiên tôi thu thập dữ liệu câu hỏi của người dân từ các hệ thống: hệthống hỏi đáp trực tuyến, hệ thống dịch vụ công, hệ thống Một Cửa củatỉnh Tây Ninh.
Việc tiền xử lý không bao gồm việc sửa lỗi chính tả, mà dữ liệu được giả địnhlàđúngchínhtảvàcúpháp trướckhiđưavàoquátrìnhhuấnluyện.
- Bước Huấn luyện: Tập dữ liệu được chia thành ba nhóm: tập dữ liệu huấnluyện, tập dữ liệu kiểm tra và tập dữ liệu xác nhận Tập dữ liệu kiểm trađược sử dụng để kiểm tra mô hình sau khi huấn luyện, và tôi dựa trên kếtquả phân lớp chính xác trên tập dữ liệu kiểm tra để chọn ra mô hình máyhọcphùhợpnhất.
Thuthậpdữ liệu
Quá trình thu thập dữ liệu được thực hiện thông qua các hệ thống hệ thống hỏiđáptrựctuyến,hệthốngdịchvụcông,hệthốngMộtCửacủatỉnhTâyNinh.
Tổng lượng dữ liệu thu thập được 26.005 câu thuộc 47 đơn vị khác được lưutrữdướiđịnh dạngfilecó cấutrúcJSON.
Chuẩn hóadữ liệu
Dữ liệu thu thập là các câu hỏi được người dân đưa ra dưới dạng văn bản,nhưng chúngkhông tuân theo ngữ điệu chuẩn, có chứa từngữ viết sai, sửd ụ n g c á c từđịaphương.Tuynhiên,nhữngcâuhỏinàyđãđượcngườiquảntrịđọ cvàsửalạiđểđảmbảotínhchínhxác.
Một số câu hỏi có nội dung gửi kèm theo phần ký hiệu gửi, nhưng phần nàythường không đúng với đơn vị mục tiêu Người quản trị đã tiến hành sửa đổi phần kýhiệu gửi để phân loại câu hỏi một cách chính xác và không ảnh hưởng đến quá trìnhhuấn luyệnphân loại.
Ví dụ:Câu hỏip h ả i g ử i c h o S ở T à i n g u y ê n v à M ô i t r ư ờ n g n h ư n g n g ư ờ i d â n có chúthíchgửichoUBNDhuyệntrongnộidung.
1 Chuẩn hóa các kiểu Unicode tiếng Việt về một dạng duy nhất Điều nàygiúp tránh việc mô hình hiểu nhầm một ký tự giống nhau là hai ký tự khác nhau.Nguyên nhâncóthểlàdongười dùngsửdụngcácbộmãkhácnhaukhigõtiếngViệt.Do đó, tôi thực hiện thay thế các cách gõ Unicode tổ hợp bằng cách gõ Unicode dựngsẵn từ đầu vào.
2 Chuẩn hóa kiểu gõ dấu tiếng Việt Hiện nay, tiếng Việt có hai kiểu gõ dấukhácnhau, gọi làkiểumới(vídụ: oà,uý) vàkiểucũ(vídụ: òa,úy).Điềunàydẫnđến các từ giống nhau nhưng lại có cách viết khác nhau khi sử dụng trong dữ liệu văn bảncho các bài toán học máy Vì vậy, tôi chuyển đổi các từ dùng kiểu gõ mới về kiểu gõcũ để đồngnhấtdữ liệu.
3 Tách từ sử dụng thư viện ViTokenizer để tách từ trong câu hỏi Điều nàygiúp chia câu thành các từ riêng biệt để phục vụ cho quá trình phân loại câu hỏi saunày.
4 Chuyển chữ hoa thành chữ thường tôi chuyển đổi tất cả chữ hoa thành chữthường để tránh việc máy tính không phân biệt dữ liệu đầu vào dựa trên việc sử dụngchữ hoahaychữthường.
5 Xóa các đoạn mã HTML không cần thiết Do dữ liệu thu thập từ đầu vào làvăn bản HTML được nhập trong trường textarea, nên có thể có các định dạng HTMLkhôngcầnthiết.Tôiloạibỏnhữngđoạnmãnàyđểgiảmsốlượngtừtrongcâuhỏi.
6 Xóa các từ không cần thiết (stopwords) Các từ stopwords là các từ thườngxuất hiện nhiều trong ngôn ngữ tự nhiên nhưng không mang nhiều ý nghĩa. Chúngkhông đóng góp đáng kể cho quá trình phân loại câu hỏi, do đó chúng cần được loạibỏ.
Mục tiêu của quá trình tiền xử lý dữ liệu này là chuẩn hóa và tiếp tục xử lý câuhỏiđểtạoradữliệuđầuvàophùhợpchoquátrìnhphânloại câuhỏi.
Saukhitiếnhànhchuẩnhóadữliệu,tôiđãthốngkêlạitoànbộdữliệuvànhậnthấy rằng một số đơn vị có số lượng câu hỏi rất ít so với tổng số câu hỏi của các đơnvị khác Vì số lượng câu hỏi này quá thấp, không đủ để xử lý và huấn luyện mô hìnhhiệuquả,tôiđãquyếtđịnhnhómnhữngđơnvịnàyvàomộtphânloại“Khác”.
Phânloại“Khác”.sẽbao gồmc á c đơnvịcó sốlượng c âu hỏithu th ập dưới
100 Điều này giúp tránh việc tiêu tốn tài nguyên và thời gian huấnl u y ệ n m ô h ì n h cho các đơn vị có dữ liệu rất hạn chế Thayv à o đ ó , t ô i s ẽ x ử l ý c á c c â u h ỏ i t h u ộ c phân loại “Khác”.một cách đặc biệt hoặc có thể chuyển hướng người dùng đến cácnguồnthôngtinphùhợpkhácđể giảiđápcâuhỏicủahọ.
Việc nhóm đơn vị vào phân loại “Khác”.giúp tối ưu hóa quá trình xử lý vàhuấn luyện mô hình, đồng thời giữcho mô hình hoạt động hiệu quảt r ê n c á c đ ơ n v ị có dữ liệu đángkể.
Cácbướcthựchiện
1 Tiền xử lý dữ liệu: Đầu tiên, tôi xử lý dữ liệu thô bằng cách sửa lỗi chínhtả, loại bỏ ký tự đặc biệt và phân loại các ký hiệu thành nhóm tích cực, tiêu cực hoặcbìnhthường.tôicũngbìnhthườnghóamộtsốtừcócảmtính.
2 Thu thập và gán nhãn dữ liệu: Sau khi tiền xử lý, tôi thu thập dữ liệu huấnluyệnvàgắnnhãnchotừngcâuhỏi.Cáccâuhỏiđượcgánnhãntheo26loại.
3 Huấn luyện và phân loại: Tiếp theo, tôi áp dụng 3 phương pháp phân lớpphổ biến như Support Vector Machines (SVM), k-Nearest Neighbors (k-NN), NaiveBayes để huấn luyện dữ liệu tôi sử dụng tỷ lệ kiểm tra dữ liệu 80/20 để mở rộng quymôdữliệu đàotạo.
4 Đánh giá mô hình: Cuối cùng, tôi sử dụng mô hình đã được huấn luyện đểdựđoánnhãntrêntậpdữliệukiểmtra.
Bảng đánh giá bên dưới kết quả thực nghiệm bao gồm hai phần chính: bảngđánhgiá(classificationreport)vàđộchínhxác(accuracy).
Precision (độ chính xác): Tính tỷ lệ giữa số lượng dự đoán đúng thuộc một lớpcụ thể và tổng số dự đoán được gán cho lớp đó Nó cho biết khả năng mô hình phânloạichínhxáccácmẫudữliệu củalớpđó.
Recall(độphủ):Tínhtỷlệgiữasốlượngdựđoánđúngthuộcmộtlớpcụthểvà tổng số mẫu thực tế thuộc lớp đó Nó cho biết khả năng mô hình tìm ra tất cả cácmẫuthực tếthuộclớpđó.
F1-score: Kết hợp giữa precision và recall để đánh giá hiệu suất tổng thể củamô hình F1-score là trung bình điều hòa của precision và recall và được sử dụng đểđánh giásựcânbằnggiữađộchínhxácvàđộphủ.
Support:Sốlượngmẫutrongtậpdữliệukiểmtrathuộcmỗilớp. Độchínhxác(accuracy) Độ chính xác tính tỷ lệ phần trăm các dự đoán chính xác trên tổng số dữ liệukiểm tra Nó cho biết khả năng mô hình dự đoán đúng tổng thể trên tập dữ liệu kiểmtra.
Hàm classification_report(Y_test, Y_RF_pred) trả về bảng đánh giá, trong khihàm accuracy_score(Y_test, Y_RF_pred) trả về độ chính xác Kết quả đánh giá đượcin ramànhình đểhiểnthị chongườidùng.
Môitrườngvàdữliệuthựcnghiệm
- CPUinfo:Intel(R)Xeon(R)CPU@2.20GHz.
4.1.2 Dữliệuthựcnghiệm Đểchạythựcnghiệmtôitiếnhànhthuthậpdữliệutrựctiếptừcáchệthốngnhưb ảng4.1vớitổngsố 26.005câuhỏithuộc26đơnvị:
1 https://hoidap.tayninh.gov.vn/
2 https://dichvucong.tayninh.gov.vn/
3 https://motcua.tayninh.gov.vn/
question_conten:Nộidungcâuhỏi.Dạngtextcóchứahtml,kýtựđặcbiệt, có cảký tựunicodevàvni.
diachi:Địachỉcủahồsơđượcgửiđếnđơnvị.địachỉthườngcóthêm“tỉnhTây Ninh”.Thôngtinnàysẽđượcloạibỏkhixửlý.
Dữliệuđã đượctiềnxửlý vàgộplạitrướckhiđưa vàohuấn luyệnvàsử dụngcó2đặcđiểmtrườngtendonvi,question_content.
Tôitiếnhànhhuấnluyệndữliệuvớitậpdữ liệuđượcchianhưsau:Kíchthướccủa tập kiểm tra là 20% sẽ được sử dụng cho đánh giá, và 80% còn lại sẽ được sửdụng cho huấn luyện.
Kết quả thựcnghiệm
Bảng4.4:KếtquảmôhìnhSVMsửdụngTF-IDF Đơnvị precision recall f1-score support
Khác 0.98 0.97 0.97 606 Đơnvị precision recall f1-score support
UBNDhuyệnDươngMinhChâu 0.98 0.97 0.97 642 Đơnvị precision recall f1-score support
Bảng4.5:KếtquảmôhìnhSVMsửdụngCountVectorizer Đơnvị precisio n recall fl-score suppor t
SởGiaothôngVậntải 0.81 0.84 0.82 428 Đơnvị precisio n recall fl-score suppor t
UBNDhuyệnTânChâu 0.94 0.80 0.87 640 Đơnvị precisio n recall fl-score suppor t
Bảng4.6:KếtquảmôhìnhSVMsửdụngFasttext Đơnvị precisio n recall fl-score suppor t
SởXâydựng 0.86 0.76 0.81 216 Đơnvị precisio n recall fl-score suppor t
Bảng4.7:KếtquảmôhìnhNaiveBayessửdụngTF-IDF Đơnvị precision recall fl-score support
SởGiaothôngVậntải 0.94 0.21 0.34 428 Đơnvị precision recall fl-score support
UBNDhuyệnTânChâu 0.91 0.40 0.56 640 Đơnvị precision recall fl-score support
Bảng4.8:KếtquảmôhìnhNavieBayssửdụngCountVectorizer Đơnvị precisio n recall fl-score support
SởXâydựng 0.89 0.69 0.78 216 Đơnvị precisio n recall fl-score support
DomôhìnhNaiveBayestrongscikit-learnyêucầuđầuvàolàcácgiátrịkhôngâm, trong khi vectơ đặc trưng FastText có thể chứa các giá trị âm Mô hình NaiveBayesđượcthiếtkếđểxửlýdữliệuđếm,trongđócácgiátrịkhôngthểlàâm. Để khắc phục vấn đề này, tôi sử dụng một biến thể khác của mô hìnhNaiveBayes,chẳnghạnnhưGaussianNB,phùhợpvớidữliệucógiátrị liêntục.
Bảng4.9:KếtquảmôhìnhNavieBays(GaussianNB)sửdụngFasttext Đơnvị precision recall fl-score support
SởYtế 0.77 0.47 0.58 660 Đơnvị precision recall fl-score support
Bảng4.10:KếtquảmôhìnhK-NNsửdụngTf-idf Đơnvị precision recall fl-score support
SởGiaothôngVậntải 0.80 0.68 0.73 428 Đơnvị precision recall fl-score support
UBNDhuyệnTânChâu 0.87 0.65 0.74 640 Đơnvị precision recall fl-score support
Bảng4.11:KếtquảmôhìnhK-NNsửdụngCountVectorizer Đơnvị precision recall fl-score support
SởYtế 0.83 0.64 0.72 660 Đơnvị precision recall fl-score support
Bảng4.12:Kếtquảmôhìnhk-NNsửdụngFastText Đơnvị precision recall fl-score suppor t
SởGiáodụcvàĐàotạo 0.67 0.86 0.75 599 Đơnvị precision recall fl-score suppor t
UBNDhuyệnTânChâu 0.81 0.60 0.69 640 Đơnvị precision recall fl-score suppor t
Dựa trên kết quả và thời gian training, tôi quyết định chọn mô hình SVM đểtiếnhànhđềxuấtphânlớpchocâuhỏimới vàohệthống.
Input:“Thân chào! Tôi tên Lê Hoàng Thọ Hiện tại tôi có trại nuôi gà côngsuất 7500 con, phương pháp nuôi thả vườn trại hở Nuôi gối vụ, 3 nhà gà mỗi nhàcông suất 2500 con Trại của tôi tại ấp Thạnh Hưng, xã Thạnh Đông, Tân Châu,TâyNinh Địa điểm cách xa khu dân cư, xung quanh là rẫy cao su, mì, mãng cầu nênkhông ảnh hưởng đến xung quanh Diện tích trại hơn 3.0ha Tôi muốn hỏi về thủ tụcxin giấy chứng nhận đủ điều kiện chăn nuôi gia cầm phương pháp thả vườn,giấychứngnhậnantoàndịchbệnh,giấychứngnhậnsảnphẩmđạttiêuchuẩnVietGAP.
Input:“Tôi có thửa đất 2 mặt tiền (thửa đất số 764, tại địa chỉ KP Long
Thới,Phường Long Thành Trung, Hòa Thành, Tây Ninh, theo Giấy chứng nhận quyền sửdụng đất số: CĐ296663 ), 1 mặt giáp lộ 10m, 1 mặt giáp lộ 4m Tuy nhiên lộ 4m nàytừlúctôimuađãbịnhàhàngxómlấnchiếmhết conlộ4m.”.
Kết luận thựcnghiệm
Từ kết quả thử nghiệm của mô hình SVM trong hệ thống hỏi đáp trên tập dữliệu thử nghiệm gồm26.005 câu hỏivà26 nhãnđạt độ chính xác cao nhất với84,45%.
Từ kết quả cho thấy, mô hình SVM đạt yêu cầu đề ra có thể ứng dụng triểnkhai tronghệthống hỏiđápthựctếtạitỉnh.