Luận văn phân tích câu hỏi tiếng việt trong hệ thống đón tiếp và phân loại bệnh nhân

MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC THUẬT NGỮ VÀ CÁC KÝ HIỆU VIẾT TẮT DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ DANH MỤC CÁC BẢNG BIỂU TÓM TẮT MỞ ĐẦU 10 CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN 13 Tổng quan hệ thống trả lời tự động 13 1.1 Hệ thống hƣớng nhiệm vụ hƣớng hội thoại 14 1.2 Tình hình nghiên cứu ngồi nƣớc 15 Xử lý ngôn ngữ tự nhiên ứng dụng 17 2.1 Sơ lƣợc ngôn ngữ tự nhiên 17 2.2 Các ứng dụng xử lý ngôn ngữ tự nhiên 18 2.3 Tiền xử lý văn 18 2.3.1 Chuẩn hóa biến đổi văn 18 2.3.2 Biểu diễn văn dƣới dạng vector 19 Bài toán phân loại văn 19 3.1 Bài toán phân loại văn 19 3.2 Một số thuật toán phân loại văn 20 3.2.1 Thuật toán Naive Bayes 20 3.2.2 Thuật toán SVM 23 3.2.3 Mạng nơ-ron nhân tạo 31 3.3 Các phƣơng pháp đánh giá hệ thống phân lớp 36 3.3.1 Đánh giá theo độ xác Accuracy 37 3.3.2 Ma trận nhầm lẫn 37 3.3.3 True/False Positive/Negative 39 3.3.4 Precision Recall 40 3.3.5 F1-Score 42 CHƢƠNG 2: PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG 44 Vấn đề hệ thống trả lời tự động 44 Bài toán phân loại câu hỏi 46 2.1 Phát biểu toán 46 2.2 Các phƣơng pháp phân loại câu hỏi 46 2.2.1 Phân loại câu hỏi dựa luật 47 2.2.2 Phƣơng pháp sử dụng mơ hình ngơn ngữ 48 2.2.3 Phân loại câu hỏi dựa vào học máy 48 Trích chọn đặc trƣng cho phân tích câu hỏi 51 2.3 2.3.1 Đặc trƣng từ vựng 51 2.3.2 Đặc trƣng cú pháp 53 2.3.3 Đặc trƣng ngữ nghĩa 54 Sự phân loại câu hỏi Taxonomy 55 3.1 Khái niệm Taxonomy 55 3.2 Taxonomy câu hỏi 55 3.3 Mơ hình phân lớp đa cấp 59 Một số kết nghiên cứu 60 CHƢƠNG 3: XÂY DỰNG MƠ HÌNH VÀ ĐÁNH GIÁ THỰC NGHIỆM 62 Kiến trúc ứng dụng 62 Xây dựng cài đặt mơ hình 63 2.1 Tập liệu thực nghiệm 63 2.2 Công cụ thực nghiệm 65 2.3 Lựa chọn đặc trƣng 66 Đánh giá kết thực nghiệm 67 KẾT LUẬN 69 TÀI LIỆU THAM KHẢO 70 DANH MỤC THUẬT NGỮ VÀ CÁC KÝ HIỆU VIẾT TẮT Từ viết tắt Từ chuẩn Diễn giải AI Artificial Intelligence Trí tuệ nhân tạo ML Machine Learning Máy học, máy móc có khả học tập ANN Artificial Nerual Network Mạng nơ ron nhân tạo NLP Natural Languague Xử lý ngôn ngữ tự nhiên Processing VNTK Vietnamese NLP Toolkit Bộ công cụ xử lý ngôn ngữ tiếng Việt for Node NLTK Natural Language Toolkit Bộ công cụ xử lý ngôn ngữ tự nhiên Python Python Python Ngơn ngữ lập trình python, tảng lập trình phía máy chủ SDK Support Development Kit Bộ cơng cụ hỗ trợ phát triển CPU Central Processing Unit Bộ xử lý trung tâm GPU Graphics Processing Unit Bộ vi xử lý chuyên dụng nhận nhiệm vụ tăng tốc, xử lý đồ họa cho vi xử lý trung tâm CPU API Application Programming Giao diện lập trình ứng dụng Interface QA Question Answering Các cặp câu hỏi đáp Agent Agent hay Software Agent Tác tử hay Tác tử phần mềm, chƣơng trình máy tính tồn môi trƣờng định, tự động hành động phản ứng lại thay đổi môi trƣờng nhằm đáp ứng mục tiêu đƣợc thiết kế trƣớc Conversational Conversational agents Các tác tử đàm thoại tác tử có khả agents giao tiếp thông qua văn lời nói NBC Naive Bayes Classifier Bộ phân lớp Nạve Bayes TREC Text REtrieval Conference Hội nghị truy hồi thông tin SVM Support Vector Machine Một thuật toán học máy có giám sát đƣợc sử dụng phổ biến ngày toán phân lớp (classification) hay hồi qui (Regression) DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 1: Mặt phân cách liệu 24 Hình Lề siêu phẳng 24 Hình Dữ liệu phi tuyến 27 Hình Khơng gian liệu phi tuyến 29 Hình Kiến trúc mạng nơ-ron nhân tạo 32 Hình Quá trình xử lý thông tin mạng nơ-ron nhân tạo 33 Hình Minh hoạ unnormalized confusion normalized confusion matrix 39 Hình Cách tính Precision Recall 41 Hình Các bƣớc hệ thống trả lời tự động 44 Hình 10 Mơ hình giai đoạn huấn luyện 49 Hình 11 Các bƣớc thực giai đoạn huấn luyện 50 Hình 12 Mơ hình giai đoạn phân lớp 51 Hình 13 Bộ phân lớp đa cấp Li Roth 60 Hình 14 Kiến trúc tổng quan hệ thống phân loại câu hỏi 63 Hình 15 Tập liệu huấn luyện 64 Hình 16 Tập liệu kiểm tra 64 DANH MỤC CÁC BẢNG BIỂU Bảng Một vài so sánh cách xếp trật tự câu 18 Bảng Dữ liệu tập mẫu tính xác suất theo phƣơng pháp Naive Bayes 21 Bảng Biểu diễn đặc trƣng câu hỏi 52 Bảng Taxonomy câu hỏi 56 Bảng Độ xác phân loại câu hỏi với thuật toán học máy khác 61 Bảng Thông tin phần cứng thực nghiệm 65 Bảng Các công cụ, thƣ viện sử dụng 65 Bảng Độ xác kết thực nghiệm SVM với đặc trƣng khác 67 TÓM TẮT Sự phát triển mạnh mẽ Công nghệ thông tin năm gần đây, đặc biệt bối cảnh cách mạng công nghiệp lần thứ tƣ tác động tới nhiều ngành nghề, nhiều lĩnh vực, có ngành y tế, đòi hỏi bệnh viện sở y tế phải không ngừng đổi để nâng cao chất lƣợng dịch vụ khám chữa bệnh, nâng cao hiệu suất làm việc bác sĩ, giảm chi phí khám chữa bệnh, giảm thời gian chờ đợi bệnh nhân Ứng dụng cơng nghệ nhƣ : Trí tuệ nhân tạo (AI), Dữ liệu lớn (Big Data), Điện toán đám mây (Cloud Computing), Kết nối vạn vật (IOT), Di động (Mobility), … giúp lãnh đạo bệnh viện sở y tế quản lý toàn hoạt động với số liệu xác, trung thực trực tuyến Việc ứng dụng công nghệ thông tin (CNTT) công tác bảo vệ, chăm sóc, nâng cao sức khỏe Việt Nam có bƣớc phát triển quan trọng, đặt móng xây dựng, triển khai vận hành y tế thơng minh Trí tuệ nhân tạo (AI – Artificial Intelligent) ngành Khoa học máy tính liên quan đến việc mơ q trình suy nghĩ học tập ngƣời cho máy móc, đặc biệt cho hệ thống máy tính Các q trình bao gồm việc học tập (thu thập thông tin thiết lập quy tắc sử dụng thông tin), lập luận (sử dụng quy tắc để đạt đƣợc kết luận gần xác định), tự sửa lỗi AI gần trở nên bùng nổ, nhận đƣợc nhiều quan tâm nhờ Dữ liệu lớn (Big data) phát triển, cho phép xử lý công nghệ AI với tốc độ nhanh hết Một số ứng dụng điển hình AI lĩnh vực y tế kể đến nhƣ : (1) Phẫu thuật với hỗ trợ Robot cho phép bác sĩ thực nhiều quy trình phức tạp với kiểm soát tốt ; (2) Trợ lý y tá ảo hƣớng dẫn tƣơng tác với bệnh nhân, thực biện pháp chăm sóc tránh việc thăm khám khơng cần thiết ; (3) Hỗ trợ chẩn đốn lâm sàng nhƣ phát ung thƣ, hay việc hỗ trợ đƣa phác đồ điều trị ; (4)Tự động hóa tác vụ quản trị giúp tiết kiệm thời gian, giúp giảm bớt khối lƣợng công việc nhiệm vụ quản trị ; (5) Phân tích hình ảnh giúp bác sĩ đƣa đƣợc kết luận xác tổn thƣơng hình ảnh X-Quang, CT, MRI, Đón tiếp phân loại bệnh nhân toán quan trọng việc đón tiếp bệnh nhân đến thăm khám điều trị chữa bệnh sở y tế bệnh viện Việc đón tiếp liên tục, tự động hóa nhanh chóng giúp phân luồng giảm tải cho sở khám chữa bệnh (KCB) để cứu chữa thăm khám đƣợc nhiều bệnh nhân hơn, đồng nghĩa cứu đƣợc nhiều mạng ngƣời Từ yêu cầu thực tế để xây dựng triển khai hệ thống tự động đón tiếp khám bệnh, đón tiếp làm cận lâm sàng, hƣớng dẫn tìm đƣờng, hƣớng dẫn thủ tục, phân loại khám bệnh cho bệnh nhân dựa vào tập câu hỏi cho trƣớc thay cho cán đón tiếp Để xây dựng đƣợc hệ thống đón tiếp nhƣ vậy, tơi thực nghiên cứu phƣơng pháp phân tích câu hỏi tiếng Việt để tiền xử lý tập lệnh cho hệ thống đón tiếp phân loại bệnh nhân cách tự động Phân loại văn trình gán nhãn phân nhóm cho văn theo nội dung Đây nhiệm vụ Xử lý ngôn ngữ tự nhiên với ứng dụng rộng rãi nhƣ : Phân tích cảm xúc (Sentiment analysis), gán nhãn chủ đề (Topic labeling), phát thƣ rác (Spam detection), phát ý định (Intent detection) Trong khuôn khổ đề tài này, nghiên cứu phƣơng pháp Phân tích câu hỏi tiếng Việt đƣa kiến trúc để xây dựng hệ thống đón tiếp phân loại bệnh nhân đƣợc ứng dụng bệnh viện sở khám chữa bệnh Kết mà tơi đạt đƣợc mơ hình phân loại văn để xác định ý định nhu cầu khám chữa bệnh ngƣời dân, nhóm đối tƣợng điều trị bệnh mãn tính, nhóm đối tƣợng tƣ vấn tổng qt Mơ hình ban đầu cho kết tính cực, giải đƣợc vấn đề ngữ nghĩa, ngữ cảnh tiến tới giải đƣợc yêu cầu cao việc phân loại hỗ trợ tự động MỞ ĐẦU Động lực nghiên cứu tính cấp thiết tốn thực tế Trong bối cảnh mạng Internet trở lên phổ biến nhƣ nay, ngƣời kết nối với ngƣời thông qua mạng xã hội, thời gian nơi đâu Sẽ thật tốt có hệ thống tự động thơng minh hỗ trợ ngƣời cách trị chuyện, có khả nhắc nhở, làm trợ lý công việc theo dõi tình trạng sức khỏe cá nhân lúc, nơi Hệ thống trả lời tự động hay trợ lý ảo chủ đề nóng từ đầu năm 2016, thức cơng ty lớn nhƣ Microsoft, Google, Facebook, Apple, Samsung, WeChat, Slack giới thiệu trợ lý ảo mình, hệ thống trả lời tự động Chính thức đặt cƣợc lớn vào chơi tạo những hệ trợ lý ảo, với mong muốn tạo trợ lý ảo thực thông minh tồn hệ sinh thái sản phẩm Trong nƣớc, số công ty nhƣ ERM Vietcare phát triển tạo hệ thống trả lời tự động kiến thức y khoa, hỏi đáp sức khỏe thông tin y tế, hay Subiz, Messnow, Harafunnel, Chatbot Vietnam, … cố gắng tạo cho hệ thống hỗ trợ, chăm sóc khách hàng bán hàng tự động Trong lĩnh vực y tế, số công ty ứng dụng Robot Đón tiếp nhƣ sản phẩm Trí tuệ nhân tạo, Robot sản phẩm trình chuyển đổi số y tế, nhân tố thiếu bệnh viện thông minh Hỗ trợ hƣớng dẫn tồn quy trình từ khám chữa bệnh đến dẫn, kết nối với hệ thống thông tin y tế khác Nhiều nhà nghiên cứu có hi vọng phát triển trợ lý ảo hiểu đƣợc ngơn ngữ tự nhiên ngƣời, đối thoại tƣơng tác đƣợc với ngƣời cách tự nhiên Nhiều ngƣời cho việc sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên NLP kỹ thuật học sâu Deep Learning để làm tăng đƣợc chất lƣợng hiệu hệ thống Nhƣng từ lý thuyết đến thực tế chặng đƣờng dài nhiều thách thức, cách đó, ngƣời tích hợp Trí tuệ nhân tạo vào sản phẩm cơng nghiệp Có thể thấy, hệ thống trả lời tự động có nhiệm vụ vai trị quan trọng, trợ giúp đƣợc ngƣời nhiều nhiều lĩnh vực: y tế, giáo dục, thƣơng mại điện tử, …, động lực to lớn để nghiên cứu đƣa sản phẩm phù hợp ứng dụng vào thực tế Mục tiêu luận văn Với sở thực tiễn trên, luận văn đặt mục tiêu nghiên cứu số phƣơng pháp xử lý ngơn ngữ tự nhiên để phân tích câu hỏi, câu mệnh lệnh, cho phép phân loại văn đầu vào câu nói tiếng Việt có tính chất sai khiến, u cầu lệnh Nhằm giải phần nhỏ hệ thống Hỏi đáp Đón tiếp bệnh nhân sở y tế Từ đó, xây dựng mơ hình phân loại văn để dự đoán đƣợc ý định văn đầu vào Từ kết thu đƣợc, đƣợc sử dụng để ứng dụng vào tốn Đón tiếp phân loại bệnh nhân đến phòng khám phù hợp sở khám chữa bệnh Cấu trúc luận văn Các nghiên cứu kết đƣợc mô tả luận văn đƣợc chia thành bố cục với nội dung nhƣ sau: CHƢƠNG 1: Giới thiệu tổng quan; Giới thiệu tổng quan hệ thống trả lời tự động, tình hình nghiên cứu ngồi nƣớc; Nghiên cứu sở xử lý ngơn ngữ tự nhiên ứng dụng;tìm hiểu tốn phân loại văn Các phƣơng pháp phân loại văn CHƢƠNG2: Phân tích câu hỏi hệ thống trả lời tự dộng; Nghiên cứu vấn đề hệ thống trả lời tự động, tìm hiểu phƣơng pháp xác định ý định ngƣời dùng phƣơng pháp học máy; Nghiên cứu phƣơng pháp đánh giá hệ thống thống phân lớp ý định CHƢƠNG3: Xây dựng mơ hình đánh giá thực nghiệm; Đề xuất mơ hình học máy kiến trúc ứng dụng, trình bày kỹ thuật tiền xử lý liệu đầu vào câu nói Tiếng Việt có tính chất sai khiến, yêu cầu lệnh.Liệt kê vấn đề giải pháp khắc phục huấn luyện mô hìnhdữ liệu KẾT LUẬN VÀ KIẾN NGHỊ: Phần đƣa kết luận đánh giá kết đạt đƣợc luận văn, số đề xuất để cải tiến mơ hình, nhƣ khả ứng dụng vào toán thực tế TÀI LIỆU THAM KHẢO: Đƣa danh sách báo đƣợc sử dụng làm tham khảo, tham chiếu cho luận văn 13 CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN Xây dựng hệ thống trả lời tự động tốn khó thuộc lĩnh vực xử lý ngơn ngữ tự nhiên Bởi tính nhập nhằng, đa nghĩa, đa ngữ cảnh ngôn ngữ tự nhiên Bài toán đặt nhiều thách thức để phát đƣợc câu trả lời phù hợp nhất, thơng tin hữu ích Chƣơng giới thiệu tổng quan hệ thống đối thoại ngƣời máy, nghiên cứu nƣớc để thấy đƣợc phƣơng pháp tiếp cận phong phú, sau tổng quan phân loại mơ hình trả lời tự động Tìm hiểu giới thiệu tốn phân loại văn bản, lý thuyết học máy, phƣơng pháp đánh giá hệ thống phân lớp Tổng quan hệ thống trả lời tự động Hệ thống hộp thoại (Dialogue systems), đƣợc gọi trợ lý tƣơng tác hội thoại, trợ lý ảo đƣợc gọi với thuật ngữ chatbot, đƣợc sử dụng rộng rãi ứng dụng khác nhau, từ dịch vụ kỹ thuật công cụ học ngơn ngữ giải trí [22] Các hệ thống đối thoại đƣợc chia thành hệ thống hướng mục tiêu, ví dụ nhƣ dịch vụ hỗ trợ kỹ thuật, hệ thống khơng có định hướng mục tiêu, ví dụ nhƣ cơng cụ học ngơn ngữ nhân vật trị chơi máy tính [23] Trong luận văn tập trung vào trƣờng hợp thứ nhất, thiết kế hệ thống hƣớng tới nhiệm vụ có mục tiêu, tức xây dựng mơ hình phân tích ý định ngƣời dùng cho tiếng Việt tập liệu đƣợc xây dựng theo kịch Một thách thức phát triển hệ thống đối thoại ngƣời máy hƣớng nhiệm vụ, việc mở rộng chúng nhiều miền ứng dụng, đƣợc nhắc đến [24], sẵn có liệu miền hội thoại cụ thể Hệ thống đối thoại cần kết hợp khai thác nhiều thành phần, ví dụ nhƣ nhận dạng giọng nói, hiểu ngơn ngữ tự nhiên, giám sát hội thoại, phát sinh ngôn ngữ tự nhiên, thành phần yêu cầu sẵn có nguồn liệu miền cụ thể, tài nguyên mơ hình Bao gồm mơ hình ngơn ngữ, mơ hình ngữ âm, mơ hình hiểu ngơn ngữ, miền thể Ontology, kịch tƣơng tác, mô hình sinh ngơn ngữ, … Mặc dù, nhiều vấn đề AI đƣợc hƣởng lợi ích từ nguồn liệu ngày lớn, thu thập liệu end-to-end cho hệ thống đối thoại hƣớng nhiệm 60 Hình 13 Bộ phân lớp đa cấp Li Roth Kết mà Li Roth đạt đƣợc tốt, độ xác 84.2% cho 50 lớp mịn 91% cho lớp thơ với thuật tốn SnoW Một số kết nghiên cứu Bộ liệu Li Roth sử dụng đƣợc công bố đƣợc nhiều nhóm nghiên cứu sử dụng để so sánh kết thực nghiệm với thuật toán đặc trƣng để nâng cao kết đạt đƣợc phân lớp câu hỏi Hacioglu Ward [10] sử dụng SVM với đặc trƣng bigram mã sửa lỗi đầu (errorcorrecting output code-ECOC ) đạt kết 80.2% 82.0% Dell Zhang Wee Sun Lee [16] tiến hành thử nghiệm năm thuật toán khác theo hƣớng học máy xây dựng phân lớp câu hỏi Năm thuật tốn đƣợc nhóm tác giả sử dụng thực nghiệm là: Nearest Neighbors (NN), Naïve Bayes (NB), Decision Tree (DT), Sparse Network of Winnows (SNoW) Support Vector Machine (SVM) Thực nghiệm nhóm tác giả cụ thể nhƣ sau:  Nguyên tắc phân loại đƣợc sử dụng thực nghiệm nguyên tắc phân loại hai lớp bao gồm lớp thô 50 lớp mịn Li Roth đƣợc trình bày Bảng 61  Tập liệu huấn luyện kiểm thử đƣợc cung cấp USC, UIUC TREC Có khoảng 5.500 câu hỏi đƣợc dán nhãn phân chia ngẫu nhiên thành tập liệu huấn luyện có kích thƣớc 1.000, 2.000, 3.000, 4.000 5.500 tƣơng ứng Tập liệu đƣợc gán nhãn thủ công Mỗi câu hỏi thuộc lớp định Tập liệu kiểm thử bao gồm 500 câu hỏi đƣợc gán nhãn  Lựa chọn đặc trƣng: tác giả sử dụng hai đặc trƣng bag-ofwords bag-of-ngrams thực nghiệm Sau lần thử nghiệm với tập liệu có số lƣợng câu hỏi khác nhau, kết thực nghiệm (độ xác) lớn đạt đƣợc 80.2% phân lớp mịn với đặc trƣng đƣợc bag-of-word Bảng Độ xác phân loại câu hỏi với thuật tốn học máy khác Thuật toán NN 1000 57.4% 2000 62.8% 3000 65.2% 4000 67.2% 5500 68.4% NB DT SNoW SVM 48.8% 67.0% 42.2% 68.0% 52.8% 70.0% 66.2% 75.0% 56.5% 73.6% 69.0% 77.2% 56.2% 75.4% 66.6% 77.4% 58.4% 77.0% 74.0% 80.2% Từ kết thực nghiệm trên, ta nhận thấy rằng:  Tập liệu huấn luyện lớn cho kết phân loại tốt  Thuật tốn SVM mang lại độ xác cao so với phƣơng pháp lại 62 CHƢƠNG 3: XÂY DỰNG MƠ HÌNH VÀ ĐÁNH GIÁ THỰC NGHIỆM Chƣơng tiến hành thực nghiệm mơ hình phân loại câu hỏi cho Tiếng Viết phƣơng pháp học máy SVM đa lớp Mô tả kiến trúc ứng dụng, mô hình cài đặt, cơng cụ sử dụng liệu thực nghiệm Từ đánh giá kết đạt đƣợc đề xuất hƣớng áp dụng cho thực tiễn đạt đƣợc mục tiêu luận văn, xây dựng hệ thống đón tiếp phân loại bệnh nhân Kiến trúc ứng dụng Bài tốn phân lớp câu hỏi coi toán phân lớp văn bản, câu hỏi đƣợc xem văn Tuy nhiên phân lớp câu hỏi có số đặc trƣng riêng so với phân lớp văn bản:  Số lƣợng từ câu hỏi nhiều văn bản, liệu câu hỏi rời rạc Việc biểu diễn câu hỏi theo tần suất từ (TF, IDF) hầu nhƣ không tăng hiệu phân lớp từ thƣờng xuất lần câu hỏi  Các từ dừng phân lớp văn quan trọng với phân lớp câu hỏi  Số lƣợng nhãn lớp thƣờng lớn Đối với thuật toán phân lớp, số lƣợng lớp tăng hiệu giảm [36]  Nhiều hệ thống Q&A áp dụng phân lớp đa cấp nhằm giảm số lƣợng lớp phân lớp cấp Cho đầu vào câu hỏi, phân loại trích rút đặc trƣng từ câu hỏi, kết hợp đặc trƣng phân loại câu hỏi vào lớp đƣợc định nghĩa trƣớc Giả sử không gian đặc trƣng kết hợp d chiều Một câu hỏi đƣợc biểu diễn nhƣ , đặc trƣng thứ i không gian kết hợp Bộ phân loại hàm ánh xạ câu hỏi tới lớp ci từ tập lớp Hàm đƣợc học tập liệu huấn luyện câu hỏi gán nhãn 63 Hình 14 Kiến trúc tổng quan hệ thống phân loại câu hỏi Hình 14 minh họa kiến trúc tổng thể hệ thống phân loại câu hỏi mà sử dụng để thực nghiệm ứng dụng Đầu tiên hệ thống trích rút tập đặc trƣng khác từ câu hỏi sau kết hợp chúng lại Kết hợp đặc trƣng đƣa vào phân loại huấn luyện dự báo nhãn lớp có khả Xây dựng cài đặt mơ hình 2.1 Tập liệu thực nghiệm Dựa theo kết nghiên cứu phân lớp câu hỏi đƣợc trình bày CHƢƠNG 2,bộ phân loại SVM-đa lớp đƣợc chứng minh vƣợt trội so với phân loại khác.Do đó, tơi sử dụng kỹ thuật này,tập trung xây dựng SVM để làm phân lớp cho hệ thống Đón tiếp Phân loại bệnh nhân:  Taxonomy câu hỏi: Sử dụng taxonomy Li Roth bao gồm lớp thô: ABBREVIATION (viết tắt), ENTITY (thực thể), DESCRIPTION (mô tả), HUMAN (con ngƣời), LOCATION (địa điểm) NUMERIC VALUE (giá trị số) 50 lớp mịn Tập taxonomy câu hỏi theo loại ngữ nghĩa câu trả lời đƣợc xem có khả bao phủ hầu hết trƣờng hợp ngữ nghĩa câu trả lời  Dữ liệu: Sử dụng tập 5500 câu hỏi tiếng Anh đƣợc công bố UIUC (bộ liệu đƣợc gán nhãn chuẩn), tiến hành chuẩn hóa dịch sang Tiếng Việt Quá trình dịch đƣợc tiến hành theo tiêu chí: hiểu nghĩa phân lớp câu tiếng Anh, từ đặt câu hỏi với nội dung tƣơng tự tiếng Việt theo văn phong tự nhiên ngƣời Việt, đảm bảo khơng có gƣợng ép 64 Hình 15 Tập liệu huấn luyện Hình 16 Tập liệu kiểm tra 65 2.2 Công cụ thực nghiệm Để xây dựng phân loại SVM, thƣ viện LIBSVM đƣợc áp dụng trình huấn luyện kiểm thử Bảng Thông tin phần cứng thực nghiệm STT Thành phần Chỉ số CPU Intel Core i7 2.4 GHZ RAM 8GB Hệ điều hành Windows 10 Bảng Các công cụ, thư viện sử dụng STT Công cụ Chức Nguồn LIBSVM 3.24 Phân loại câu hỏi sử https://www.csie.ntu.edu.tw dụng thuật tốn SVM /~cjlin/libsvm/ Multi-class Underthe Sea NLP Cơng cụ xử lý ngôn https://github.com/underthes ngữ tự nhiên Tiếng eanlp/underthesea Việt VNTK Các tiện ích xử lý https://www.npmjs.com/pac ngơn ngữ tự nhiên kage/vntk Tiếng Việt Visual Studio Code Công cụ lập trình https://code.visualstudio.co m/ Python 2.7.18 Ngơn ngữ lập trình https://www.python.org/do wnloads/release/python2718/ 66 2.3 Lựa chọn đặc trƣng Trong phần thực nghiệm nàysử dụng đặc trƣng unigram bigram để tiến hành phân loại.Tiến hành thử nghiệm đánh giá ảnh hƣởng đặc trƣng khác câu hỏi tới việc phân lớp câu hỏi  Đặc trƣng đƣợc sử dụng bag-of-unigram bag-ofword Để sử dụng bag-of-word, sử dụng công cụ mã nguồn mở tách từ Tiếng Việt Underthesea, tiện ích xử lý liệu VNTK  Trong tiếng Việt, nhiều cần dựa từ để hỏi nhƣ đâu, nào, ai, xác định đƣợc câu hỏi thuộc loại Vì vậy, tập liệu điều chỉnh bổ sung thêm từ để hỏi tiếng Việt làm đặc trƣng cho phân lớp câu hỏi Nhƣ đƣợc trình bày Chƣơng 2, câu hỏi đƣợc biểu diễn dƣới dạng vector Các đặc trƣng trích rút từ câu hỏi đƣợc bổ sung vào vectơ đặc trƣng với cặp (đặc trƣng, giá trị) Nếu trích rút đặc trƣng unigram, với câu hỏi “Bệnh_viện tốt cho chỉnh_hình đâu ?”,sẽ đƣợc chuyển thành vector đặc trƣng: {(Bệnh_viện, 1)(tốt, 1)(nhất, 1)(cho, 1)(chỉnh_hình, 1)(ở, 1)(đâu, 1)(?, 1)} Tuy nhiên thay sử dụng chuỗi, phần tử (đặc trƣng) đƣợc ánh xạ tới số nhất, số đặc trƣng Hơn tên lớp đƣợc ánh xạ tới số Mẫu định dạng dƣới tƣơng tự liệu TREC, đƣợc chuyển qua hình thức mà đƣợc chấp nhận thƣ viện LIBSVM Để sử dụng đƣợc thƣ viện LIBSVM, phải đƣa liệu huấn luyện kiểm tra theo cấu trúc tiêu chuẩn mà thƣ viện quy định nhƣ sau: [label] [index1]:[value1] [index2]:[value2] [label] [index1]:[value1] [index2]:[value2] Trong đó:  Mỗi dịng liệu quan sát 67  label: nhãn lớp câu hỏi, giá trị đích tập huấn luyện, SVM hiểu đƣợc số liệu số nên nhãn phải "số hóa" cách đặt cho giá trị số khác  index1, index2, số đại diện đặc trƣng có từ điển Là số nguyên  value1,value2, giá trị kiểu số thực ứng với vị trí đặc trƣng.Giá trị thể mức độ liên quan đặc trƣng phân loại nằm khoảng [-1,1] Do đặc trƣng phân loại câu hỏi đặc trƣng nhị phân nên lúc huấn luyện giá trị Đánh giá kết thực nghiệm Sau thử nghiệm với nhiều giá trị khác nhau, tham số trade off tỉ lệ sai liệu học kích thƣớc biên phân lớp SVM đƣợc đặt giá trị c = 10000 Kết tốt với SVM sử dụng đặc trƣng unigram kết hợp từ để hỏi với độ xác 82.08% Bảng Độ xác kết thực nghiệm SVM với đặc trưng khác Đặc trƣng Unigram Tách từ Unigram + từ hỏi Tách từ + từ hỏi Độ xác 81.26% 80.12% 82.08% 81.10% Đặc trƣng từ để hỏi có tác dụng nâng cao độ xác phân lớp câu hỏi Khi áp dụng với SVM, đặc trƣng từ để hỏi giúp tăng độ xác 0.82 % 0.98% tƣơng ứng kết hợp với đặc trƣng unigram tách từ Độ tăng không lớn đƣợc giải thích nhƣ sau: Trong đặc trƣng bag-of-unigram bag-of-word xét đến từ hỏi với vai trò giống với từ khác câu hỏi Việc xuất từ hỏi với tần suất lớn theo loại câu hỏi khác giúp SVM nhận diện đƣợc từ từ quan trọng phân lớp Ảnh hƣởng tách từ phân lớp câu hỏi áp dụng triển khai với SVM dƣờng nhƣ không hiệu Kết diễn giải nhƣ sau: Với SVM, liệu đƣợc biểu diễn dƣới dạng điểm không gian vec-tơ đặc 68 trƣng, SVM cố gắng tìm siêu phẳng ngăn cách liệu lớp câu hỏi, việc tách từ ảnh hƣởng đến phân bố liệu không gian, dẫn đến siêu phẳng phân cách lớp không tốt nhƣ siêu phẳng tìm đƣợc dùng unigram 69 KẾT LUẬN Nhu cầu có đƣợc hệ thống hỏi đáp Tiếng Việt lớn nhận đƣợc quan tâm đặc biệt nhà nghiên cứu doanh nghiệp ngành nghề có ứng dụng cơng nghệ thơng tin Phân tích câu hỏi có vai trò đặc biệt quan trọng hệ thống hỏi đáp tự động Khóa luận khảo sát phƣơng pháp phân tích câu hỏi lựa chọn phƣơng pháp tối ƣu phù hợp cho việc giải toán xây dựng hệ thống Đón tiếp Phân loại bệnh nhân số sở khám chữa bệnh, đặc biệt Bệnh Viện tuyến đầu, nơi thƣờng xuyên xảy ùn tắc việc đón tiếp ngƣời bệnh Phân loại câu hỏi vấn đề khó Thực tế máy cần phải hiểu đƣợc câu hỏi phân loại vào loại xác Điều đƣợc thực loạt bƣớc phức tạp Luận văn đƣa lý thuyết vấn đề trình thiết lập, huấn luyện xây dựng hệ thống hỏi đáp tự động cho Tiếng Việt Qua kết đạt đƣợc ban đầu, chúng nhận thấy nhiều việc phải làm, cần phải tối ƣu Với cách tiếp cận ban đầu cho kết tích cực đắn, giải đƣợc vấn đề ngữ nghĩa, ngữ cảnh hệ thống trả lời tự động Ứng dụng hiệu vào toán thực tế nhƣ Hỗ trợ đón tiếp phân loại bệnh nhân, tra cứu kết xét nghiệm, tra cứu kết chẩn đoán hình ảnh, hỏi đáp quy trình khám chữa bệnh thăm khám BHYT, tìm đƣờng bệnh viện, … cách tự động hệ thống mơ hình khám chữa bệnh, chăm sóc sức khỏe thơng minh, đáp ứng phù hợp với nhu cầu đổi công nghệ thông tin ngành y tế 70 TÀI LIỆU THAM KHẢO Tiếng Anh: Yang & Xiu (1999), “A re-examination of text categorization methods”, Proceedings ofACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’ 99) Xin Li, Dan Roth, “Learning Question Classifier”, In Proceedings of the 19th International Conference on Computational Linguistics (COLING’02), 2002 Sanda M Harabagiu, Marius A Paşca, Steven J Maiorano Experiments with open-domain textual Question Answering International Conference On Computational Linguistics Proceedings of the 18th conference on Computational linguistics – Volume 1, 2000, tr 292 - 298 Boser, B.E., Guyon, I.M., Vapnik, V.N., (1992), A training algorithm for optimal margin classifiers, in Proceedings of the fifth annual workshop on Computational learning theory - COLT, 92, 144-152 Vapnik V N., (1995), The nature of statistical learning theory Springer Håkan Sundblad,2007 Question Classification in Question Answering Systems Thesis No 1320 R Courant, D Hilbert, Methods of Mathematical Physics Wiley, New York (1953) Saxena A., Sambhu G., Kaushik S., Subramaniam L IITD-IBMIRL System for Question Answering Using Pattern Matching, Semantic Type and Semantic Category Recognition TREC 2007 Clark S., Steedman M., Curran R Object-Extraction and QuestionParsing using CCG Proceedings of the SIGDAT Conference on Empirical Methods in Natural Language Processing, pp.111-118, 2004 10.Kadri Hacioglu, Wayne Ward 2003 Question Classification with Support Vector Machines and Error Correcting Codes The Association for Computational Linguistics on Human Language Technology, vol 2, tr.28–30 11.Harabagiu H., Maiorano J., Pasca A Open-Domain Textual Question Answering Techniques Natural Language Engineering, 1(1):1-38, 2003 71 12.Kocik K Question classification using maximum entropy models Honours thesis, University of Sydney, 2004 13.Li W Question Classification Using Language Modeling In CIIR Technical Report: University of Massachusetts, Amherst, 2002 14.Nguyen M.L., Shimazu A., Nguyen T.T Subtree mining for question classification problem Twentieth International Joint Conference on Artificial Intelligence (IJCAI 2007) Hyderabad, India, January 6-12, 2007 15.Nguyen T.T., Nguyen L.M., Shimazu A Using Semi-supervised Learning for Question Classification Information and Media Technologies, Vol 3, No 1, pp.112-130, 2008 16.Zhang D., Lee W S Question classification using support vector machines Proceedings of SIGIR2003, 2003 17.Chen, Z., Lin, F., Liu, H., Liu, Y., Ma, W Y., & Wenyin, L (2002) User intention modeling in web applications using data mining World Wide Web, 5(3), 181-191 18 Bernardo Magnini Open Domain Question Answering: Techniques, Resources and Systems RANLP 2005 19.Zamora, Juan, Marcelo Mendoza, and Héctor Allende "Query Intent Detection Based on Query Log Mining." J Web Eng 13.1&2 (2014): 2452 20.Frumkina R M., Mikhejev A V Meaning and Categorization New York: Nova Science Publishers, Inc, 1996 21.Yang and Xin Liu “A re-examination of text categorization methods”, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99), 1999 22.Young, M Gasic, B Thomson, and J D Williams, 2013 “POMDP-based statistical spoken dialog systems: A review Proceedings of the IEEE”, 101(5):1160–1179 23.Iulian V Serban, Alessandro Sordoni, Yoshua Bengio, Aaron Courville, Joelle Pineau, Apr 2016 “Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models” 72 24.Walter S Lasecki, Ece Kamar, Dan Bohus, January 2013 “Conversations in the Crowd: Collecting Data for Task-Oriented Dialog Learning”, pp110 25.Russell, S., Dewey, D., Tegmark, M (2015) “Research Priorities for Robust and Beneficial Artificial Intelligence” AI Magazine, 36 (4):105– 114 26.Alan M Turing 1950 “Computing machinery and intelligence” Mind, 59(236):433–460 27.Joseph Weizenbaum 1966 “Elizaa computer program for the study of natural language communication between man and machine” Communications of the ACM, 9(1):36–45 28 Roger C Parkinson, Kenneth Mark Colby, and William S Faught 1977 “Conversational language comprehension using integrated patternmatching and parsing” Artificial Intelligence, 9(2):111–134 29 Richard S Wallace 2009 “The anatomy of ALICE” Springer 30 Jurgen Schmidhuber 2015 “Deep learning in neural networks: An overview Neural Networks”, 61:85–117 31 Yann LeCun, Yoshua Bengio, and Geoffrey Hinton 2015 Deep learning Nature, 521(7553):436–444 32 Alan Ritter, Colin Cherry, and Bill Dolan 2010 “Unsupervised modeling of twitter conversations” In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, HLT ’10, pages 172–180, Stroudsburg, PA, USA Association for Computational Linguistics 33 Rafael E Banchs and Haizhou Li 2012 “Iris: a chat-oriented dialogue system based on the vector space model” In Proceedings of the ACL 2012 System Demonstrations, pages 37–42, Jeju Island, Korea, July Association for Computational Linguistics 34 Karthik Narasimhan, Tejas Kulkarni, and Regina Barzilay 2015 “Language understanding for text-based games using deep reinforcement learning” In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1–11, Lisbon, Portugal, September Association for Computational Linguistics 73 35 T.-H Wen, D Vandyke, N Mrksic, M Gasic, L M Rojas-Barahona, P.H Su, S Ultes, and S Young 2016 A Network-based End-to-End Trainable Task-oriented Dialogue System ArXiv eprints, April 36 Heriberto Cuayahuitl 2016 Simpleds: “A simple deep reinforcement learning dialogue system” CoRR, abs/1601.04574 37.Lester, J., Branting, K., and Mott, B, 2004 “Conversational agents In Handbook of Internet Computing Chapman & Hall” 38 Will, T, 2007 “Creating a Dynamic Speech Dialogue” VDM Verlag Dr 39.Zhiheng Huang, Marcus Thint, Zengchang Qin (2008), Question Classification Using Head Words and Their Hypernyms, In Proceedings of the Conference on Empirical Methods in Natural Language Processing, Honolulu, Hawaii, Association for Computational Linguistics, pp 927– 936 Tiếng Việt: 40 Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM Tạp chí CNTT&TT, Tháng năm 2006 41 Nguyễn Ngọc Bình, “Dùng lý thuyết tập thô kỹ thuật khác để phân loại, phân cụm văn tiếng Việt”, Kỷ yếu hội thảo ICT.rda’04 Hà nội 2004 42 Nguyễn Linh Giang, Nguyễn Duy Hải, “Mơ hình thống kê hình vị tiếng Việt ứng dụng”, Chun san “Các cơng trình nghiên cứu, triển khai Công nghệ Thông tin Viễn thông, Tạp chí Bƣu Viễn thơng, số 1, tháng 7-1999, trang 61-67 1999 43 Huỳnh Quyết Thắng, Đinh Thị Thu Phƣơng, “Tiếp cận phƣơng pháp học không giám sát học có giám sát với tốn phân lớp văn tiếng Việt đề xuất cải tiến cơng thức tính độ liên quan hai văn mơ hình vectơ”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005 44 Đỗ Phúc, Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào toán phân loại văn tiếng Việt có xem xét ngữ nghĩa, Tạp chí phát triển KH&CN, tập 9, số 2, pp 23-32, năm 2006 74 45.Nguyễn Minh Tuấn Phân lớp câu hỏi hƣớng tới tìm kiếm ngữ nghĩa tiếng việt lĩnh vực y tế Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2008 ... dựng đƣợc hệ thống đón tiếp nhƣ vậy, tơi thực nghiên cứu phƣơng pháp phân tích câu hỏi tiếng Việt để tiền xử lý tập lệnh cho hệ thống đón tiếp phân loại bệnh nhân cách tự động Phân loại văn trình... β=0.5 44 CHƢƠNG 2: PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG Chƣơng nghiên cứu lý thuyết cụ thể cho toán phân loại câu hỏi Tiếng Việt, nghiên cứu phƣơng pháp phân loại câu hỏi, đặc trƣng ngôn... detection) Trong khuôn khổ đề tài này, nghiên cứu phƣơng pháp Phân tích câu hỏi tiếng Việt đƣa kiến trúc để xây dựng hệ thống đón tiếp phân loại bệnh nhân đƣợc ứng dụng bệnh viện sở khám chữa bệnh

Định dạng
Số trang	71
Dung lượng	1,76 MB