1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ ngành Máy tính: Phân tích câu hỏi tiếng Việt trong hệ thống đón tiếp và phân loại bệnh nhân

75 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 75
Dung lượng 2,04 MB

Nội dung

Kết quả nghiên cứu của đề tài là một mô hình phân loại văn để xác định ý định và nhu cầu khám chữa bệnh của người dân, đối với nhóm đối tượng điều trị bệnh mãn tính, nhóm đối tượng tư vấn tổng quát. Mời các bạn cùng tham khảo.

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM  Lƣu Thị Vân PHÂN TÍCH CÂU HỎI TIẾNG VIỆT TRONG HỆ THỐNG ĐÓN TIẾP VÀ PHÂN LOẠI BỆNH NHÂN LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH HÀ NỘI - 2020 VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM  Lƣu Thị Vân PHÂN TÍCH CÂU HỎI TIẾNG VIỆT TRONG HỆ THỐNG ĐÓN TIẾP VÀ PHÂN LOẠI BỆNH NHÂN Chuyên ngành: Hệ thống thông tin Mã số: 48 01 04 LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS.Nguyễn Nhƣ Sơn Nguyễn Nhƣ Sơn HÀ NỘI – 2020 LỜI CAM ĐOAN Tôi Lƣu Thị Vân, học viên khóa I, ngành Cơng nghệ thơng tin, chuyên ngành Hệ Thống Thông Tin Tôi xin cam đoan luận văn “Phân tích câu hỏi Tiếng Việt hệ thống đón tiếp phân loại bệnh nhân” tơi nghiên cứu, tìm hiểu phát triển dƣới hƣớng dẫn TS Nguyễn Nhƣ Sơn Luận văn chép từ tài liệu, công trình nghiên cứu ngƣời khác mà khơng ghi rõ tài liệu tham khảo Tôi xin chịu trách nhiệm lời cam đoan Hà Nội, tháng 10 năm 2020 Học viên Lƣu Thị Vân LỜI CẢM ƠN Đầu tiên xin gửi lời cảm ơn tới thầy cô Học viện Khoa học Công nghệ nghệ Việt nam, Viện Hàn lâm Khoa học Công nghệ Việt Nam tận tình giảng dạy truyền đạt kiến thức cho tơi suốt khóa học cao học vừa qua.Tôi xin đƣợc gửi lời cảm ơn đến thầy cô Bộ môn Hệ thống thông tin nhƣ Khoa công nghệ thông tin mang lại cho kiến thức vô quý giá bổ ích trình học tập trƣờng Đặc biệt xin chân thành cảm ơn thầy giáo, TS Nguyễn Nhƣ Sơn, ngƣời định hƣớng, giúp đỡ, trực tiếp hƣớng dẫn tận tình bảo tơi suốt q trình nghiên cứu, xây dựng hồn thiện luận văn Tơi xin đƣợc cảm ơn tới gia đình, ngƣời thân, đồng nghiệp bạn bè thƣờng xuyên quan tâm, động viên, chia sẻ kinh nghiệm, cung cấp tài liệu hữu ích thời gian học tập, nghiên cứu nhƣ suốt trình thực luận văn tốt nghiệp Hà Nội, tháng 10 năm 2020 Học viên Lƣu Thị Vân MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC THUẬT NGỮ VÀ CÁC KÝ HIỆU VIẾT TẮT DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ DANH MỤC CÁC BẢNG BIỂU TÓM TẮT MỞ ĐẦU 10 CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN 13 Tổng quan hệ thống trả lời tự động 13 1.1 Hệ thống hƣớng nhiệm vụ hƣớng hội thoại 14 1.2 Tình hình nghiên cứu ngồi nƣớc 15 Xử lý ngôn ngữ tự nhiên ứng dụng 17 2.1 Sơ lƣợc ngôn ngữ tự nhiên 17 2.2 Các ứng dụng xử lý ngôn ngữ tự nhiên 18 2.3 Tiền xử lý văn 18 2.3.1 Chuẩn hóa biến đổi văn 18 2.3.2 Biểu diễn văn dƣới dạng vector 19 Bài toán phân loại văn 19 3.1 Bài toán phân loại văn 19 3.2 Một số thuật toán phân loại văn 20 3.2.1 Thuật toán Naive Bayes 20 3.2.2 Thuật toán SVM 23 3.2.3 Mạng nơ-ron nhân tạo 31 3.3 Các phƣơng pháp đánh giá hệ thống phân lớp 36 3.3.1 Đánh giá theo độ xác Accuracy 37 3.3.2 Ma trận nhầm lẫn 37 3.3.3 True/False Positive/Negative 39 3.3.4 Precision Recall 40 3.3.5 F1-Score 42 CHƢƠNG 2: PHÂN TÍCH CÂU HỎI TRONG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG 44 Vấn đề hệ thống trả lời tự động 44 Bài toán phân loại câu hỏi 46 2.1 Phát biểu toán 46 2.2 Các phƣơng pháp phân loại câu hỏi 46 2.2.1 Phân loại câu hỏi dựa luật 47 2.2.2 Phƣơng pháp sử dụng mơ hình ngơn ngữ 48 2.2.3 Phân loại câu hỏi dựa vào học máy 48 Trích chọn đặc trƣng cho phân tích câu hỏi 51 2.3 2.3.1 Đặc trƣng từ vựng 51 2.3.2 Đặc trƣng cú pháp 53 2.3.3 Đặc trƣng ngữ nghĩa 54 Sự phân loại câu hỏi Taxonomy 55 3.1 Khái niệm Taxonomy 55 3.2 Taxonomy câu hỏi 55 3.3 Mơ hình phân lớp đa cấp 59 Một số kết nghiên cứu 60 CHƢƠNG 3: XÂY DỰNG MÔ HÌNH VÀ ĐÁNH GIÁ THỰC NGHIỆM 62 Kiến trúc ứng dụng 62 Xây dựng cài đặt mô hình 63 2.1 Tập liệu thực nghiệm 63 2.2 Công cụ thực nghiệm 65 2.3 Lựa chọn đặc trƣng 66 Đánh giá kết thực nghiệm 67 KẾT LUẬN 69 TÀI LIỆU THAM KHẢO 70 DANH MỤC THUẬT NGỮ VÀ CÁC KÝ HIỆU VIẾT TẮT Từ viết tắt Từ chuẩn Diễn giải AI Artificial Intelligence Trí tuệ nhân tạo ML Machine Learning Máy học, máy móc có khả học tập ANN Artificial Nerual Network Mạng nơ ron nhân tạo NLP Natural Languague Xử lý ngôn ngữ tự nhiên Processing VNTK Vietnamese NLP Toolkit Bộ công cụ xử lý ngôn ngữ tiếng Việt for Node NLTK Natural Language Toolkit Bộ công cụ xử lý ngôn ngữ tự nhiên Python Python Python Ngôn ngữ lập trình python, tảng lập trình phía máy chủ SDK Support Development Kit Bộ công cụ hỗ trợ phát triển CPU Central Processing Unit Bộ xử lý trung tâm GPU Graphics Processing Unit Bộ vi xử lý chuyên dụng nhận nhiệm vụ tăng tốc, xử lý đồ họa cho vi xử lý trung tâm CPU API Application Programming Giao diện lập trình ứng dụng Interface QA Question Answering Các cặp câu hỏi đáp Agent Agent hay Software Agent Tác tử hay Tác tử phần mềm, chƣơng trình máy tính tồn mơi trƣờng định, tự động hành động phản ứng lại thay đổi môi trƣờng nhằm đáp ứng mục tiêu đƣợc thiết kế trƣớc Conversational Conversational agents Các tác tử đàm thoại tác tử có khả agents giao tiếp thơng qua văn lời nói NBC Naive Bayes Classifier Bộ phân lớp Naïve Bayes TREC Text REtrieval Conference Hội nghị truy hồi thông tin SVM Support Vector Machine Một thuật tốn học máy có giám sát đƣợc sử dụng phổ biến ngày toán phân lớp (classification) hay hồi qui (Regression) DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 1: Mặt phân cách liệu 24 Hình Lề siêu phẳng 24 Hình Dữ liệu phi tuyến 27 Hình Không gian liệu phi tuyến 29 Hình Kiến trúc mạng nơ-ron nhân tạo 32 Hình Q trình xử lý thơng tin mạng nơ-ron nhân tạo 33 Hình Minh hoạ unnormalized confusion normalized confusion matrix 39 Hình Cách tính Precision Recall 41 Hình Các bƣớc hệ thống trả lời tự động 44 Hình 10 Mơ hình giai đoạn huấn luyện 49 Hình 11 Các bƣớc thực giai đoạn huấn luyện 50 Hình 12 Mơ hình giai đoạn phân lớp 51 Hình 13 Bộ phân lớp đa cấp Li Roth 60 Hình 14 Kiến trúc tổng quan hệ thống phân loại câu hỏi 63 Hình 15 Tập liệu huấn luyện 64 Hình 16 Tập liệu kiểm tra 64 DANH MỤC CÁC BẢNG BIỂU Bảng Một vài so sánh cách xếp trật tự câu 18 Bảng Dữ liệu tập mẫu tính xác suất theo phƣơng pháp Naive Bayes 21 Bảng Biểu diễn đặc trƣng câu hỏi 52 Bảng Taxonomy câu hỏi 56 Bảng Độ xác phân loại câu hỏi với thuật toán học máy khác 61 Bảng Thông tin phần cứng thực nghiệm 65 Bảng Các công cụ, thƣ viện sử dụng 65 Bảng Độ xác kết thực nghiệm SVM với đặc trƣng khác 67 TÓM TẮT Sự phát triển mạnh mẽ Công nghệ thông tin năm gần đây, đặc biệt bối cảnh cách mạng công nghiệp lần thứ tƣ tác động tới nhiều ngành nghề, nhiều lĩnh vực, có ngành y tế, địi hỏi bệnh viện sở y tế phải không ngừng đổi để nâng cao chất lƣợng dịch vụ khám chữa bệnh, nâng cao hiệu suất làm việc bác sĩ, giảm chi phí khám chữa bệnh, giảm thời gian chờ đợi bệnh nhân Ứng dụng cơng nghệ nhƣ : Trí tuệ nhân tạo (AI), Dữ liệu lớn (Big Data), Điện toán đám mây (Cloud Computing), Kết nối vạn vật (IOT), Di động (Mobility), … giúp lãnh đạo bệnh viện sở y tế quản lý tồn hoạt động với số liệu xác, trung thực trực tuyến Việc ứng dụng công nghệ thông tin (CNTT) cơng tác bảo vệ, chăm sóc, nâng cao sức khỏe Việt Nam có bƣớc phát triển quan trọng, đặt móng xây dựng, triển khai vận hành y tế thơng minh Trí tuệ nhân tạo (AI – Artificial Intelligent) ngành Khoa học máy tính liên quan đến việc mơ trình suy nghĩ học tập ngƣời cho máy móc, đặc biệt cho hệ thống máy tính Các q trình bao gồm việc học tập (thu thập thông tin thiết lập quy tắc sử dụng thông tin), lập luận (sử dụng quy tắc để đạt đƣợc kết luận gần xác định), tự sửa lỗi AI gần trở nên bùng nổ, nhận đƣợc nhiều quan tâm nhờ Dữ liệu lớn (Big data) phát triển, cho phép xử lý công nghệ AI với tốc độ nhanh hết Một số ứng dụng điển hình AI lĩnh vực y tế kể đến nhƣ : (1) Phẫu thuật với hỗ trợ Robot cho phép bác sĩ thực nhiều quy trình phức tạp với kiểm sốt tốt ; (2) Trợ lý y tá ảo hƣớng dẫn tƣơng tác với bệnh nhân, thực biện pháp chăm sóc tránh việc thăm khám khơng cần thiết ; (3) Hỗ trợ chẩn đoán lâm sàng nhƣ phát ung thƣ, hay việc hỗ trợ đƣa phác đồ điều trị ; (4)Tự động hóa tác vụ quản trị giúp tiết kiệm thời gian, giúp giảm bớt khối lƣợng công việc nhiệm vụ quản trị ; (5) Phân tích hình ảnh giúp bác sĩ đƣa đƣợc kết luận xác tổn thƣơng hình ảnh X-Quang, CT, MRI, Đón tiếp phân loại bệnh nhân toán quan trọng việc đón tiếp bệnh nhân đến thăm khám điều trị chữa bệnh sở y tế bệnh viện Việc đón tiếp liên tục, tự động hóa nhanh chóng giúp phân luồng giảm tải cho sở khám chữa bệnh (KCB) để cứu chữa thăm khám đƣợc nhiều bệnh nhân hơn, đồng nghĩa cứu đƣợc nhiều mạng ngƣời Từ yêu cầu thực tế để xây dựng triển khai hệ thống tự động đón tiếp khám bệnh, đón tiếp làm cận lâm sàng, hƣớng dẫn tìm đƣờng, hƣớng dẫn thủ tục, phân loại khám bệnh cho bệnh nhân dựa vào tập câu hỏi cho trƣớc thay cho cán đón tiếp Để xây dựng đƣợc hệ thống đón tiếp nhƣ vậy, tơi thực nghiên cứu phƣơng pháp phân tích câu hỏi tiếng Việt để tiền xử lý tập lệnh cho hệ thống đón tiếp phân loại bệnh nhân cách tự động Phân loại văn trình gán nhãn phân nhóm cho văn theo nội dung Đây nhiệm vụ Xử lý ngôn ngữ tự nhiên với ứng dụng rộng rãi nhƣ : Phân tích cảm xúc (Sentiment analysis), gán nhãn chủ đề (Topic labeling), phát thƣ rác (Spam detection), phát ý định (Intent detection) Trong khuôn khổ đề tài này, nghiên cứu phƣơng pháp Phân tích câu hỏi tiếng Việt đƣa kiến trúc để xây dựng hệ thống đón tiếp phân loại bệnh nhân đƣợc ứng dụng bệnh viện sở khám chữa bệnh Kết mà tơi đạt đƣợc mơ hình phân loại văn để xác định ý định nhu cầu khám chữa bệnh ngƣời dân, nhóm đối tƣợng điều trị bệnh mãn tính, nhóm đối tƣợng tƣ vấn tổng qt Mơ hình ban đầu cho kết tính cực, giải đƣợc vấn đề ngữ nghĩa, ngữ cảnh tiến tới giải đƣợc yêu cầu cao việc phân loại hỗ trợ tự động 60 Hình 13 Bộ phân lớp đa cấp Li Roth Kết mà Li Roth đạt đƣợc tốt, độ xác 84.2% cho 50 lớp mịn 91% cho lớp thô với thuật toán SnoW Một số kết nghiên cứu Bộ liệu Li Roth sử dụng đƣợc cơng bố đƣợc nhiều nhóm nghiên cứu sử dụng để so sánh kết thực nghiệm với thuật toán đặc trƣng để nâng cao kết đạt đƣợc phân lớp câu hỏi Hacioglu Ward [10] sử dụng SVM với đặc trƣng bigram mã sửa lỗi đầu (errorcorrecting output code-ECOC ) đạt kết 80.2% 82.0% Dell Zhang Wee Sun Lee [16] tiến hành thử nghiệm năm thuật toán khác theo hƣớng học máy xây dựng phân lớp câu hỏi Năm thuật tốn đƣợc nhóm tác giả sử dụng thực nghiệm là: Nearest Neighbors (NN), Naïve Bayes (NB), Decision Tree (DT), Sparse Network of Winnows (SNoW) Support Vector Machine (SVM) Thực nghiệm nhóm tác giả cụ thể nhƣ sau:  Nguyên tắc phân loại đƣợc sử dụng thực nghiệm nguyên tắc phân loại hai lớp bao gồm lớp thô 50 lớp mịn Li Roth đƣợc trình bày Bảng 61  Tập liệu huấn luyện kiểm thử đƣợc cung cấp USC, UIUC TREC Có khoảng 5.500 câu hỏi đƣợc dán nhãn phân chia ngẫu nhiên thành tập liệu huấn luyện có kích thƣớc 1.000, 2.000, 3.000, 4.000 5.500 tƣơng ứng Tập liệu đƣợc gán nhãn thủ công Mỗi câu hỏi thuộc lớp định Tập liệu kiểm thử bao gồm 500 câu hỏi đƣợc gán nhãn  Lựa chọn đặc trƣng: tác giả sử dụng hai đặc trƣng bag-ofwords bag-of-ngrams thực nghiệm Sau lần thử nghiệm với tập liệu có số lƣợng câu hỏi khác nhau, kết thực nghiệm (độ xác) lớn đạt đƣợc 80.2% phân lớp mịn với đặc trƣng đƣợc bag-of-word Bảng Độ xác phân loại câu hỏi với thuật toán học máy khác Thuật toán NN 1000 57.4% 2000 62.8% 3000 65.2% 4000 67.2% 5500 68.4% NB DT SNoW SVM 48.8% 67.0% 42.2% 68.0% 52.8% 70.0% 66.2% 75.0% 56.5% 73.6% 69.0% 77.2% 56.2% 75.4% 66.6% 77.4% 58.4% 77.0% 74.0% 80.2% Từ kết thực nghiệm trên, ta nhận thấy rằng:  Tập liệu huấn luyện lớn cho kết phân loại tốt  Thuật toán SVM mang lại độ xác cao so với phƣơng pháp cịn lại 62 CHƢƠNG 3: XÂY DỰNG MƠ HÌNH VÀ ĐÁNH GIÁ THỰC NGHIỆM Chƣơng tiến hành thực nghiệm mơ hình phân loại câu hỏi cho Tiếng Viết phƣơng pháp học máy SVM đa lớp Mô tả kiến trúc ứng dụng, mơ hình cài đặt, cơng cụ sử dụng liệu thực nghiệm Từ đánh giá kết đạt đƣợc đề xuất hƣớng áp dụng cho thực tiễn đạt đƣợc mục tiêu luận văn, xây dựng hệ thống đón tiếp phân loại bệnh nhân Kiến trúc ứng dụng Bài toán phân lớp câu hỏi coi tốn phân lớp văn bản, câu hỏi đƣợc xem văn Tuy nhiên phân lớp câu hỏi có số đặc trƣng riêng so với phân lớp văn bản:  Số lƣợng từ câu hỏi nhiều văn bản, liệu câu hỏi rời rạc Việc biểu diễn câu hỏi theo tần suất từ (TF, IDF) hầu nhƣ khơng tăng hiệu phân lớp từ thƣờng xuất lần câu hỏi  Các từ dừng phân lớp văn quan trọng với phân lớp câu hỏi  Số lƣợng nhãn lớp thƣờng lớn Đối với thuật toán phân lớp, số lƣợng lớp tăng hiệu giảm [36]  Nhiều hệ thống Q&A áp dụng phân lớp đa cấp nhằm giảm số lƣợng lớp phân lớp cấp Cho đầu vào câu hỏi, phân loại trích rút đặc trƣng từ câu hỏi, kết hợp đặc trƣng phân loại câu hỏi vào lớp đƣợc định nghĩa trƣớc Giả sử không gian đặc trƣng kết hợp d chiều Một câu hỏi đƣợc biểu diễn nhƣ , đặc trƣng thứ i khơng gian kết hợp Bộ phân loại hàm ánh xạ câu hỏi tới lớp ci từ tập lớp Hàm đƣợc học tập liệu huấn luyện câu hỏi gán nhãn 63 Hình 14 Kiến trúc tổng quan hệ thống phân loại câu hỏi Hình 14 minh họa kiến trúc tổng thể hệ thống phân loại câu hỏi mà sử dụng để thực nghiệm ứng dụng Đầu tiên hệ thống trích rút tập đặc trƣng khác từ câu hỏi sau kết hợp chúng lại Kết hợp đặc trƣng đƣa vào phân loại huấn luyện dự báo nhãn lớp có khả Xây dựng cài đặt mơ hình 2.1 Tập liệu thực nghiệm Dựa theo kết nghiên cứu phân lớp câu hỏi đƣợc trình bày CHƢƠNG 2,bộ phân loại SVM-đa lớp đƣợc chứng minh vƣợt trội so với phân loại khác.Do đó, tơi sử dụng kỹ thuật này,tập trung xây dựng SVM để làm phân lớp cho hệ thống Đón tiếp Phân loại bệnh nhân:  Taxonomy câu hỏi: Sử dụng taxonomy Li Roth bao gồm lớp thô: ABBREVIATION (viết tắt), ENTITY (thực thể), DESCRIPTION (mô tả), HUMAN (con ngƣời), LOCATION (địa điểm) NUMERIC VALUE (giá trị số) 50 lớp mịn Tập taxonomy câu hỏi theo loại ngữ nghĩa câu trả lời đƣợc xem có khả bao phủ hầu hết trƣờng hợp ngữ nghĩa câu trả lời  Dữ liệu: Sử dụng tập 5500 câu hỏi tiếng Anh đƣợc công bố UIUC (bộ liệu đƣợc gán nhãn chuẩn), tiến hành chuẩn hóa dịch sang Tiếng Việt Q trình dịch đƣợc tiến hành theo tiêu chí: hiểu nghĩa phân lớp câu tiếng Anh, từ đặt câu hỏi với nội dung tƣơng tự tiếng Việt theo văn phong tự nhiên ngƣời Việt, đảm bảo khơng có gƣợng ép 64 Hình 15 Tập liệu huấn luyện Hình 16 Tập liệu kiểm tra 65 2.2 Công cụ thực nghiệm Để xây dựng phân loại SVM, thƣ viện LIBSVM đƣợc áp dụng trình huấn luyện kiểm thử Bảng Thông tin phần cứng thực nghiệm STT Thành phần Chỉ số CPU Intel Core i7 2.4 GHZ RAM 8GB Hệ điều hành Windows 10 Bảng Các công cụ, thư viện sử dụng STT Công cụ Chức Nguồn LIBSVM 3.24 Phân loại câu hỏi sử https://www.csie.ntu.edu.tw dụng thuật toán SVM /~cjlin/libsvm/ Multi-class Underthe Sea NLP Công cụ xử lý ngôn https://github.com/underthes ngữ tự nhiên Tiếng eanlp/underthesea Việt VNTK Các tiện ích xử lý https://www.npmjs.com/pac ngôn ngữ tự nhiên kage/vntk Tiếng Việt Visual Studio Code Cơng cụ lập trình https://code.visualstudio.co m/ Python 2.7.18 Ngơn ngữ lập trình https://www.python.org/do wnloads/release/python2718/ 66 2.3 Lựa chọn đặc trƣng Trong phần thực nghiệm nàysử dụng đặc trƣng unigram bigram để tiến hành phân loại.Tiến hành thử nghiệm đánh giá ảnh hƣởng đặc trƣng khác câu hỏi tới việc phân lớp câu hỏi  Đặc trƣng đƣợc sử dụng bag-of-unigram bag-ofword Để sử dụng bag-of-word, sử dụng công cụ mã nguồn mở tách từ Tiếng Việt Underthesea, tiện ích xử lý liệu VNTK  Trong tiếng Việt, nhiều cần dựa từ để hỏi nhƣ đâu, nào, ai, xác định đƣợc câu hỏi thuộc loại Vì vậy, tập liệu điều chỉnh bổ sung thêm từ để hỏi tiếng Việt làm đặc trƣng cho phân lớp câu hỏi Nhƣ đƣợc trình bày Chƣơng 2, câu hỏi đƣợc biểu diễn dƣới dạng vector Các đặc trƣng trích rút từ câu hỏi đƣợc bổ sung vào vectơ đặc trƣng với cặp (đặc trƣng, giá trị) Nếu trích rút đặc trƣng unigram, với câu hỏi “Bệnh_viện tốt cho chỉnh_hình đâu ?”,sẽ đƣợc chuyển thành vector đặc trƣng: {(Bệnh_viện, 1)(tốt, 1)(nhất, 1)(cho, 1)(chỉnh_hình, 1)(ở, 1)(đâu, 1)(?, 1)} Tuy nhiên thay sử dụng chuỗi, phần tử (đặc trƣng) đƣợc ánh xạ tới số nhất, số đặc trƣng Hơn tên lớp đƣợc ánh xạ tới số Mẫu định dạng dƣới tƣơng tự liệu TREC, đƣợc chuyển qua hình thức mà đƣợc chấp nhận thƣ viện LIBSVM Để sử dụng đƣợc thƣ viện LIBSVM, phải đƣa liệu huấn luyện kiểm tra theo cấu trúc tiêu chuẩn mà thƣ viện quy định nhƣ sau: [label] [index1]:[value1] [index2]:[value2] [label] [index1]:[value1] [index2]:[value2] Trong đó:  Mỗi dòng liệu quan sát 67  label: nhãn lớp câu hỏi, giá trị đích tập huấn luyện, SVM hiểu đƣợc số liệu số nên nhãn phải "số hóa" cách đặt cho giá trị số khác  index1, index2, số đại diện đặc trƣng có từ điển Là số nguyên  value1,value2, giá trị kiểu số thực ứng với vị trí đặc trƣng.Giá trị thể mức độ liên quan đặc trƣng phân loại nằm khoảng [-1,1] Do đặc trƣng phân loại câu hỏi đặc trƣng nhị phân nên lúc huấn luyện giá trị Đánh giá kết thực nghiệm Sau thử nghiệm với nhiều giá trị khác nhau, tham số trade off tỉ lệ sai liệu học kích thƣớc biên phân lớp SVM đƣợc đặt giá trị c = 10000 Kết tốt với SVM sử dụng đặc trƣng unigram kết hợp từ để hỏi với độ xác 82.08% Bảng Độ xác kết thực nghiệm SVM với đặc trưng khác Đặc trƣng Unigram Tách từ Unigram + từ hỏi Tách từ + từ hỏi Độ xác 81.26% 80.12% 82.08% 81.10% Đặc trƣng từ để hỏi có tác dụng nâng cao độ xác phân lớp câu hỏi Khi áp dụng với SVM, đặc trƣng từ để hỏi giúp tăng độ xác 0.82 % 0.98% tƣơng ứng kết hợp với đặc trƣng unigram tách từ Độ tăng khơng lớn đƣợc giải thích nhƣ sau: Trong đặc trƣng bag-of-unigram bag-of-word xét đến từ hỏi với vai trò giống với từ khác câu hỏi Việc xuất từ hỏi với tần suất lớn theo loại câu hỏi khác giúp SVM nhận diện đƣợc từ từ quan trọng phân lớp Ảnh hƣởng tách từ phân lớp câu hỏi áp dụng triển khai với SVM dƣờng nhƣ khơng hiệu Kết diễn giải nhƣ sau: Với SVM, liệu đƣợc biểu diễn dƣới dạng điểm không gian vec-tơ đặc 68 trƣng, SVM cố gắng tìm siêu phẳng ngăn cách liệu lớp câu hỏi, việc tách từ ảnh hƣởng đến phân bố liệu không gian, dẫn đến siêu phẳng phân cách lớp khơng tốt nhƣ siêu phẳng tìm đƣợc dùng unigram 69 KẾT LUẬN Nhu cầu có đƣợc hệ thống hỏi đáp Tiếng Việt lớn nhận đƣợc quan tâm đặc biệt nhà nghiên cứu doanh nghiệp ngành nghề có ứng dụng cơng nghệ thơng tin Phân tích câu hỏi có vai trị đặc biệt quan trọng hệ thống hỏi đáp tự động Khóa luận khảo sát phƣơng pháp phân tích câu hỏi lựa chọn phƣơng pháp tối ƣu phù hợp cho việc giải tốn xây dựng hệ thống Đón tiếp Phân loại bệnh nhân số sở khám chữa bệnh, đặc biệt Bệnh Viện tuyến đầu, nơi thƣờng xuyên xảy ùn tắc việc đón tiếp ngƣời bệnh Phân loại câu hỏi vấn đề khó Thực tế máy cần phải hiểu đƣợc câu hỏi phân loại vào loại xác Điều đƣợc thực loạt bƣớc phức tạp Luận văn đƣa lý thuyết vấn đề trình thiết lập, huấn luyện xây dựng hệ thống hỏi đáp tự động cho Tiếng Việt Qua kết đạt đƣợc ban đầu, chúng nhận thấy nhiều việc phải làm, cần phải tối ƣu Với cách tiếp cận ban đầu cho kết tích cực đắn, giải đƣợc vấn đề ngữ nghĩa, ngữ cảnh hệ thống trả lời tự động Ứng dụng hiệu vào tốn thực tế nhƣ Hỗ trợ đón tiếp phân loại bệnh nhân, tra cứu kết xét nghiệm, tra cứu kết chẩn đốn hình ảnh, hỏi đáp quy trình khám chữa bệnh thăm khám BHYT, tìm đƣờng bệnh viện, … cách tự động hệ thống mơ hình khám chữa bệnh, chăm sóc sức khỏe thông minh, đáp ứng phù hợp với nhu cầu đổi công nghệ thông tin ngành y tế 70 TÀI LIỆU THAM KHẢO Tiếng Anh: Yang & Xiu (1999), “A re-examination of text categorization methods”, Proceedings ofACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’ 99) Xin Li, Dan Roth, “Learning Question Classifier”, In Proceedings of the 19th International Conference on Computational Linguistics (COLING’02), 2002 Sanda M Harabagiu, Marius A Paşca, Steven J Maiorano Experiments with open-domain textual Question Answering International Conference On Computational Linguistics Proceedings of the 18th conference on Computational linguistics – Volume 1, 2000, tr 292 - 298 Boser, B.E., Guyon, I.M., Vapnik, V.N., (1992), A training algorithm for optimal margin classifiers, in Proceedings of the fifth annual workshop on Computational learning theory - COLT, 92, 144-152 Vapnik V N., (1995), The nature of statistical learning theory Springer Håkan Sundblad,2007 Question Classification in Question Answering Systems Thesis No 1320 R Courant, D Hilbert, Methods of Mathematical Physics Wiley, New York (1953) Saxena A., Sambhu G., Kaushik S., Subramaniam L IITD-IBMIRL System for Question Answering Using Pattern Matching, Semantic Type and Semantic Category Recognition TREC 2007 Clark S., Steedman M., Curran R Object-Extraction and QuestionParsing using CCG Proceedings of the SIGDAT Conference on Empirical Methods in Natural Language Processing, pp.111-118, 2004 10.Kadri Hacioglu, Wayne Ward 2003 Question Classification with Support Vector Machines and Error Correcting Codes The Association for Computational Linguistics on Human Language Technology, vol 2, tr.28–30 11.Harabagiu H., Maiorano J., Pasca A Open-Domain Textual Question Answering Techniques Natural Language Engineering, 1(1):1-38, 2003 71 12.Kocik K Question classification using maximum entropy models Honours thesis, University of Sydney, 2004 13.Li W Question Classification Using Language Modeling In CIIR Technical Report: University of Massachusetts, Amherst, 2002 14.Nguyen M.L., Shimazu A., Nguyen T.T Subtree mining for question classification problem Twentieth International Joint Conference on Artificial Intelligence (IJCAI 2007) Hyderabad, India, January 6-12, 2007 15.Nguyen T.T., Nguyen L.M., Shimazu A Using Semi-supervised Learning for Question Classification Information and Media Technologies, Vol 3, No 1, pp.112-130, 2008 16.Zhang D., Lee W S Question classification using support vector machines Proceedings of SIGIR2003, 2003 17.Chen, Z., Lin, F., Liu, H., Liu, Y., Ma, W Y., & Wenyin, L (2002) User intention modeling in web applications using data mining World Wide Web, 5(3), 181-191 18 Bernardo Magnini Open Domain Question Answering: Techniques, Resources and Systems RANLP 2005 19.Zamora, Juan, Marcelo Mendoza, and Héctor Allende "Query Intent Detection Based on Query Log Mining." J Web Eng 13.1&2 (2014): 2452 20.Frumkina R M., Mikhejev A V Meaning and Categorization New York: Nova Science Publishers, Inc, 1996 21.Yang and Xin Liu “A re-examination of text categorization methods”, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’99), 1999 22.Young, M Gasic, B Thomson, and J D Williams, 2013 “POMDP-based statistical spoken dialog systems: A review Proceedings of the IEEE”, 101(5):1160–1179 23.Iulian V Serban, Alessandro Sordoni, Yoshua Bengio, Aaron Courville, Joelle Pineau, Apr 2016 “Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models” 72 24.Walter S Lasecki, Ece Kamar, Dan Bohus, January 2013 “Conversations in the Crowd: Collecting Data for Task-Oriented Dialog Learning”, pp110 25.Russell, S., Dewey, D., Tegmark, M (2015) “Research Priorities for Robust and Beneficial Artificial Intelligence” AI Magazine, 36 (4):105– 114 26.Alan M Turing 1950 “Computing machinery and intelligence” Mind, 59(236):433–460 27.Joseph Weizenbaum 1966 “Elizaa computer program for the study of natural language communication between man and machine” Communications of the ACM, 9(1):36–45 28 Roger C Parkinson, Kenneth Mark Colby, and William S Faught 1977 “Conversational language comprehension using integrated patternmatching and parsing” Artificial Intelligence, 9(2):111–134 29 Richard S Wallace 2009 “The anatomy of ALICE” Springer 30 Jurgen Schmidhuber 2015 “Deep learning in neural networks: An overview Neural Networks”, 61:85–117 31 Yann LeCun, Yoshua Bengio, and Geoffrey Hinton 2015 Deep learning Nature, 521(7553):436–444 32 Alan Ritter, Colin Cherry, and Bill Dolan 2010 “Unsupervised modeling of twitter conversations” In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, HLT ’10, pages 172–180, Stroudsburg, PA, USA Association for Computational Linguistics 33 Rafael E Banchs and Haizhou Li 2012 “Iris: a chat-oriented dialogue system based on the vector space model” In Proceedings of the ACL 2012 System Demonstrations, pages 37–42, Jeju Island, Korea, July Association for Computational Linguistics 34 Karthik Narasimhan, Tejas Kulkarni, and Regina Barzilay 2015 “Language understanding for text-based games using deep reinforcement learning” In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1–11, Lisbon, Portugal, September Association for Computational Linguistics 73 35 T.-H Wen, D Vandyke, N Mrksic, M Gasic, L M Rojas-Barahona, P.H Su, S Ultes, and S Young 2016 A Network-based End-to-End Trainable Task-oriented Dialogue System ArXiv eprints, April 36 Heriberto Cuayahuitl 2016 Simpleds: “A simple deep reinforcement learning dialogue system” CoRR, abs/1601.04574 37.Lester, J., Branting, K., and Mott, B, 2004 “Conversational agents In Handbook of Internet Computing Chapman & Hall” 38 Will, T, 2007 “Creating a Dynamic Speech Dialogue” VDM Verlag Dr 39.Zhiheng Huang, Marcus Thint, Zengchang Qin (2008), Question Classification Using Head Words and Their Hypernyms, In Proceedings of the Conference on Empirical Methods in Natural Language Processing, Honolulu, Hawaii, Association for Computational Linguistics, pp 927– 936 Tiếng Việt: 40 Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM Tạp chí CNTT&TT, Tháng năm 2006 41 Nguyễn Ngọc Bình, “Dùng lý thuyết tập thơ kỹ thuật khác để phân loại, phân cụm văn tiếng Việt”, Kỷ yếu hội thảo ICT.rda’04 Hà nội 2004 42 Nguyễn Linh Giang, Nguyễn Duy Hải, “Mơ hình thống kê hình vị tiếng Việt ứng dụng”, Chuyên san “Các cơng trình nghiên cứu, triển khai Cơng nghệ Thơng tin Viễn thơng, Tạp chí Bƣu Viễn thơng, số 1, tháng 7-1999, trang 61-67 1999 43 Huỳnh Quyết Thắng, Đinh Thị Thu Phƣơng, “Tiếp cận phƣơng pháp học khơng giám sát học có giám sát với toán phân lớp văn tiếng Việt đề xuất cải tiến cơng thức tính độ liên quan hai văn mơ hình vectơ”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005 44 Đỗ Phúc, Nghiên cứu ứng dụng tập phổ biến luật kết hợp vào tốn phân loại văn tiếng Việt có xem xét ngữ nghĩa, Tạp chí phát triển KH&CN, tập 9, số 2, pp 23-32, năm 2006 74 45.Nguyễn Minh Tuấn Phân lớp câu hỏi hƣớng tới tìm kiếm ngữ nghĩa tiếng việt lĩnh vực y tế Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2008 ... KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM  Lƣu Thị Vân PHÂN TÍCH CÂU HỎI TIẾNG VIỆT TRONG HỆ THỐNG ĐÓN TIẾP VÀ PHÂN LOẠI BỆNH NHÂN Chuyên ngành: Hệ thống thông... dựng đƣợc hệ thống đón tiếp nhƣ vậy, tơi thực nghiên cứu phƣơng pháp phân tích câu hỏi tiếng Việt để tiền xử lý tập lệnh cho hệ thống đón tiếp phân loại bệnh nhân cách tự động Phân loại văn trình... ngành Hệ Thống Thông Tin Tôi xin cam đoan luận văn ? ?Phân tích câu hỏi Tiếng Việt hệ thống đón tiếp phân loại bệnh nhân? ?? tơi nghiên cứu, tìm hiểu phát triển dƣới hƣớng dẫn TS Nguyễn Nhƣ Sơn Luận văn

Ngày đăng: 26/04/2021, 02:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w