Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
783,72 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH TƯỜNG NGHIÊNCỨUMÔHÌNHPHÂNLỚPCÂUHỎIVÀỨNGDỤNG LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH TƯỜNG NGHIÊNCỨUMÔHÌNHPHÂNLỚPCÂUHỎIVÀỨNGDỤNG Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ thống Thông Tin Mã số chuyên ngành: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Trí Thành Hà Nội – 2016 MỤC LỤC DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT Error! Bookmark not defined DANH MỤC CÁC BẢNG Error! Bookmark not defined DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Error! Bookmark not defined MỞ ĐẦU Chương 1: Giới thiệu phânlớpcâuhỏi 1.1 Giới thiệu 1.2 Tìm hiểu loại câuhỏi 1.3 Taxonomy câuhỏi 1.4 Mục tiêu luận văn Chương 2: Các phương pháp tiếp cận toán phânlớpcâuhỏi 11 2.1 Môhìnhphânlớpcâuhỏi 11 2.1.1 Môhìnhphânlớp phẳng 11 2.1.2 Môhìnhphânlớpphân cấp .12 2.2 Giải thuật phânlớpcâuhỏi 13 2.2.1 Giải thuật học máy có giám sát 14 2.2.2 Giải thuật học máy bán giám sát .15 Chương 3: Đề xuất cải tiến môhìnhphânlớp Error! Bookmark not defined 3.1 Thực trạng Error! Bookmark not defined 3.2 Môhình đề xuất .Error! Bookmark not defined 3.3 Môhình xử lý liệu Error! Bookmark not defined 3.3.1 Thu thập liệu Error! Bookmark not defined 3.3.2 Xử lý liệu Error! Bookmark not defined Chương 4: Ứngdụng vào hệ thống hỏi đáp thắc mắc Trung tâm đào tạo ELearning Error! Bookmark not defined 4.1 Giới thiệu trung tâm E-Learning Error! Bookmark not defined 4.2 Tình trạng hệ thống hỏi đáp .Error! Bookmark not defined 4.3 Chuẩn bị liệu thực nghiệm Error! Bookmark not defined 4.3.1 Thu thập liệu Error! Bookmark not defined 4.3.2 Xử lý liệu Error! Bookmark not defined 4.3.3 Áp dụngmôhình đề xuất Error! Bookmark not defined 2 4.4 Kết thực nghiệm Error! Bookmark not defined 4.4.1 Cài đặt môi trường thực nghiệm .Error! Bookmark not defined 4.4.2 Thực nghiệm với liệu Li Roth Error! Bookmark not defined 4.4.3 Thực nghiệm với liệu Trung tâm E-LearningError! Bookmark not defined 4.5 Kết luận Error! Bookmark not defined Kết luận hướng phát triển tương lai Error! Bookmark not defined TÀI LIỆU THAM KHẢO 20 MỞ ĐẦU Sự phát triển sở hạ tầng công nghệ đặc biệt công nghệ mạng thúc đẩy nhu cầu trao đổi, chia sẻ liệu người, đưa Internet trở thành kho liệu khổng lồ Những tri thức kho liệu lại cung cấp sở để giải đáp vấn đề, thắc mắc hàng ngày người Với mục đích phục vụ nhiều nhu cầu người, hệ thống hỏi đáp tự động đời Kiến trúc bên hệ thống hỏi đáp phức tạp Những câuhỏi người dùng hệ thống phân tích, xử lý Dựa vào thông tin phân tích, hệ thống hỏi đáp tìm kiếm câu trả lời tiềm Cuối cùng, hệ thống trả cho người dùng kết ngắn gọn, súc tích xác Để tìm kiếm câu trả lời tiềm giai đoạn xử lý câu hỏi, hệ thống phải phânlớp xác câuhỏi Khi đó, không gian tìm kiếm câu trả lời giới hạn rõ ràng Vì vậy, giai đoạn xử lý câuhỏi hệ thống hỏi đáp, phânlớpcâuhỏi nhiệm vụ quan trọng Tuy nhiên, việc nghiêncứu giải pháp cho nhiệm vụ phânlớp gặp không khó khăn Các môhìnhphân lớp, giải thuật phânlớp áp dụng có ưu điểm nhược điểm định Bên cạnh đó, vấn đề khác việc xử lý ngôn ngữ tự nhiên Trên giới, số ngôn ngữ có cấu tạo từ loại, ngữ nghĩa đa dạng phức tạp Hệ thống phải xác định đặc trưng đưa chiến lược xử lý phù hợp Do đó, vấn đề cần nhận quan tâm nghiêncứu nhiều Trong luận văn nghiêncứu này, tác giả trình bày chương với nội dung tóm tắt sau: Chương Giới thiệu phânlớpcâuhỏi trình bày định nghĩa, mục tiêu nhiệm vụ phânlớpcâuhỏi đôi nét khái niệm taxonomy câuhỏi Mục tiêu luận văn nêu phần cuối chương Chương Các phương pháp tiếp cận toán phânlớpcâuhỏinghiêncứumôhìnhphânlớpcâuhỏi sử dụng phổ biến môhìnhphânlớp phẳng, môhìnhphânlớp cấp bậc Chương trình bày số giải thuật phânlớp học máy có giám sát bán giám sát Chương Đề xuất cải tiến môhìnhphânlớp nêu lên vấn đề thực tế ảnh hướng đến kết phânlớp Dựa vào số nghiên cứu, tác giả đề xuất môhìnhphânlớp cải tiến trình bày bước xử lý liệu môhình Chương Ứngdụng vào hệ thống hỏi đáp thắc mắc Trung tâm đào tạo E-Learning giới thiệu Trung tâm đào tạo E-Learning thực trạng hệ thống hỏi đáp thắc mắc Sau đó, trình bày kết thực nghiệm áp dụngmôhình đề xuất với liệu câuhỏi trung tâm Cuối nhận xét, đánh giá môhình đề xuất 4 Phần Kết luận hướng phát triển tương lai trình bày kết đạt hạn chế luận văn Các vấn đề hạn chế giải hướng phát triển tương lai luận văn 5 Chương 1: Giới thiệu phânlớpcâuhỏi 1.1 Giới thiệu Phânlớpcâuhỏi [6, tr.9-10] nhiệm vụ gán giá trị sai tới cặp 𝑞𝑗 , 𝑐𝑖 ∈ 𝑄 × 𝐶, Q miền câuhỏi 𝐶 = 𝐶1 , 𝐶2 , … , 𝐶 𝐶 tập lớp định nghĩa trước Các lớp mang nghĩa khác ràng buộc với câu trả lời tiềm Phânlớpcâuhỏi bước xử lý quan trọng hệ thống hỏi đáp Mục đích hệ thống hỏi đáp đưa câu trả lời ngắn gọn, súc tích tài liệu liên quan chứa câu trả lời Trong ngôn ngữ tự nhiên, câuhỏi liên quan ảnh hưởng nhiều lĩnh vực khác nên lượng câu trả lời liên quan lớn Việc phânlớpcâuhỏi cung cấp thông tin ràng buộc loại câu trả lời Nhờ đó, hệ thống đưa nhiều chiến lược làm giảm không gian tìm kiếm câu trả lời tiềm kho ngữ liệu khổng lồ Ví dụ, với câuhỏi “Điều kiện công nhận tốt nghiệp cho sinh viên Elearning?”, từ khóa “điều kiện”, “tốt nghiệp”, “sinh viên Elearning” sở để tìm câu trả lời phù hợp Mục đích câuhỏi tìm điều kiện để công nhận tốt nghiệp cho sinh viên điều kiện vượt qua môn học hay điều kiện để đạt học bổng học tập dành cho sinh viên Elearning Một câuhỏi khác “Xem thông tin tuyển sinh đào tạo Elearning đâu?” câu trả lời tiềm phải nơi công bố thức thông tin tuyển sinh Địa điểm vị trí quan, tổ chức làm việc qua vị trí ảo mạng Internet - website điện tử Câu trả lời cho câuhỏi địa Tầng Nhà A - B101 Đường Nguyễn Hiền - Quận Hai Bà Trưng - Hà Nội địa website http://tuyensinh.ehou.edu.vn Trong phânlớpcâu hỏi, việc xác định ngữ nghĩa rõ ràng câuhỏi mang lại lợi ích to lớn Tuy nhiên, câuhỏi lúc đơn giản mà thường chúng phức tạp có nhiều ngữ nghĩa mập mờ, không xác định Nếu biết ngữ nghĩa câuhỏiphân loại vào lớp chi tiết Nhưng công việc xác định xác ngữ nghĩa cho câuhỏi thách thức không nhỏ Chẳng hạn câuhỏi “Chương trình đào tạo Elearning hoạt động theo quy chế nào?”, câu trả lời liên quan tới lớp “quy chế đào tạo” có ích biết câuhỏi thuộc lớp quy chế Quy chế bao gồm nhiều loại quy chế đào tạo, quy chế tuyển sinh, quy chế học tập xử lý vi phạm, quy chế thi quy chế khác Nếu hệ thống xác định mục đích câuhỏi quy chế đào tạo không gian tìm kiếm câu trả lời giảm nhiều Trong trình phânlớpcâu hỏi, hạn chế làm ảnh hưởng tới hiệu suất phânlớp hệ thống phải dự đoán nhiều lớp cho câuhỏi thời điểm Nếu hệ thống hạn chế số lượng lớp phải dự đoán hiệu suất phânlớp tăng lên Vì vậy, việc xác định ngữ nghĩa câu hỏi, việc lựa chọn sử dụngmôhìnhphânlớp quan trọng Đó bước đầu thực cần nhiệm vụ phânlớp 1.2 Tìm hiểu loại câuhỏi Xác định loại câuhỏi mang ý nghĩa to lớn việc phân tích câuhỏi loại câuhỏi có đặc trưng cách tiếp cận khác Có nhiều loại câuhỏi như: câuhỏi định nghĩa, liệt kê, mô tả, kiện, tổng hợp, đánh giá, … Ví dụ câuhỏi định nghĩa “Học trực tuyến gì”, câuhỏi liệt kê “Những thuận lợi học trực tuyến gì” Trong câu hỏi, người ta sử dụng từ ngữ phức tạp đa dạng để diễn đạt nội dung làm cho việc xác định lớpcâuhỏi phù hợp trở lên khó khăn Các loại câuhỏi cần đưa thành hai dạng chung loại câuhỏi đơn giản loại câuhỏi phức tạp Mỗi loại câuhỏi cần có chiến lược phânlớp phù hợp Hệ thống không cần xử lý thêm loại câuhỏi đơn giản lại yêu cầu xử lý tinh vi loại câuhỏi phức tạp Việc đơn giản hóa câuhỏi phức tạp chiến lược đáng xem xét Câuhỏi phức tạp định nghĩa tập câuhỏi đơn giản Câu trả lời câu trả lời tiềm đáp ứng cho tập câuhỏi đơn giản câu trả lời phù hợp Vì vậy, việc xác định loại câuhỏi có ý nghĩa việc lựa chọn đặc trưng phânlớp 1.3 Taxonomy câuhỏi Trong nhiều lĩnh vực khoa học thực tiễn, khái niệm taxonomy mang nhiều ý nghĩa khác Nhưng chất, taxonomy định danh, phân loại số tính chất, đặc điểm Taxonomy xem hình thức hệ phân cấp có chứa phần tử gọi nút Mối quan hệ chủ yếu nút quan hệ cha – nút đồng cấp với không tồn mối quan hệ Taxonomy phân cấp khái niệm, nút (trừ nút gốc) biểu diễn khái niệm nút có quan hệ is-a-kind-of (là kiểu/loại nút cha) với nút cha Ví dụ, nút khái niệm “number” có nút chứa khái niệm “code”, “count”, “date”, “distance”, “money”, “order” Một taxonomy mô tả theo cấu trúc hình cây, đỉnh cấu trúc nút gốc nút con, tập nút nút cha không giao Khi duyệt từ nút cha đến nút con, thông tin nút chi tiết rõ ràng nút cha Khi xác định nút cha, nút xác định Điều mang lại hiệu tìm kiếm, truy vấn liệu dựa vào nút cha, việc xác định miền thông tin cần tìm rõ ràng giới hạn Cùng nghiêncứu vấn đề này, hai nhà nghiêncứu Li Roth [14, tr.5] đưa taxonomy câuhỏiphân cấp hội nghị TREC Taxonomy câuhỏi liệu gán nhãn gồm 5000 câuhỏi có độ phủ lớn vấn đề thực tế Chi tiết thể Bảng 1.1 Bảng 1.1 Taxonomy câuhỏi Li Roth Số lượng câuhỏi Số lượng kiểm tra Nhãn lớp Ý Nghĩa ABBREV Sự tóm tắt abbreviation Tóm tắt 16 expansion ý nghĩa viết tắt 70 ENTITY Thực thể animal Động vật 112 16 body Cơ thể 16 color Màu sắc 40 10 creative Sự sáng tạo 207 currency Tiền tệ disease/ medical Bệnh tật y học 103 event Sự kiện 56 food Thực phẩm 103 instrument Dụng cụ chơi nhạc 10 language Ngôn ngữ 16 letter Ký tự other Thực thể khác 217 12 plant Thực vật 13 product Sản phẩm 42 religion Tín ngưỡng sport Thể thao 62 substance Nguyên tố 41 15 symbol Ký hiệu 11 technique Kỹ thuật 38 term Thuật ngữ 93 vehicle Phương tiện giao thông 27 word Từ ngữ 26 DESCRIPTION Mô tả definition Định nghĩa 421 123 description Mô tả 274 manner Bộ dạng cử 276 reason Lý 191 HUMAN Con người group Nhóm 189 individual Cá nhân, cá thể 962 55 title Danh nghĩa 25 description Mô tả 47 LOCATION Địa điểm city Thành phố 129 18 country Đất nước 155 mountain Ngọn núi 21 other Địa điểm khác 464 50 state Bang, tỉnh thành 66 NUMERIC Số học code Mã count Số lượng 363 date Ngày tháng 218 47 distance Khoảng cách 34 16 money Giá 71 order Thứ hạng other Khác 52 12 period Giai đoạn 75 percent Phần trăm 27 speed Tốc độ temperature Nhiệt độ size Kích thước 13 weight Cân nặng 11 1.4 Mục tiêu luận văn Trong nhiều nghiêncứuphânlớpcâu hỏi, nhà khoa học đề xuất áp dụng nhiều môhìnhphânlớp miền liệu khác Ban đầu, phânlớpcâuhỏi tập trung vào phânlớp phẳng sau có nhiều vấn đề nảy sinh cần phải giải nên phânlớp phẳng trở lên không phù hợp mà thay vào môhìnhphânlớp khác phânlớp cục (Local Classifier), phânlớp toàn cục (Global Classifier hay Big-Bang), phânlớpphân cấp (Hierarchical Classifier), … Mỗi hướng tiếp cận có tính chất đặc điểm khác Hướng tiếp cận phânlớp phẳng đơn giản dễ hiểu có nhược điểm lớn việc phải xây dựngphânlớp để phân biệt với số lượng lớp lớn Phânlớp phẳng sử dụng toàn lớp lần dự đoán nhãn lớpcâuhỏi Hướng tiếp cận phânlớp cấp bậc phương pháp tốt giúp tổ chức lượng lớn thông tin Trong năm gần đây, hướng tiếp cận nhận ngày nhiều quan tâm đặc biệt nhà nghiêncứu giới Trong hướng tiếp cận phânlớp cục bộ, thông tin coi trung tâm sử dụng để xây dựngphânlớp cục theo phương cách khác Để phân loại phânlớp cục bộ, nhà nghiêncứu dựa vào cách sử dụng thông tin cục phânlớp cục cho nút, phânlớp cục cho nút cha, phânlớp cục cho cấp Phânlớp cục sử dụng vòng lặp đệ quy để dự đoán cấp độ Việc phânlớpdừng lại dự đoán đặc biệt thực Nhưng vấn đề nút lá, việc dự đoán không xảy Điều gây lỗi ảnh hưởng xuống cấp nhỏ không xử lý ngăn chặn điều Với hướng tiếp cận phânlớp toàn cục, có hai vấn đề cần xem toàn lớpphân cấp thời điểm thiếu module huấn luyện cục Sau số tìm hiểu, nghiêncứu miền câuhỏi cụ thể, tác giả thấy kết phânlớp số lớp đạt tỉ lệ xác cao số khác lại thấp Giả sử rằng, ta tính toán, dự đoán lớp có độ xác cao loại bỏ liệu gán nhãn đó, ta tiến hành phânlớp với lớp có độ xác thấp Phânlớp sử dụngphânlớp chứa lớp có độ xác làm tăng độ xác chung nhiệm vụ phânlớp 10 Trong luận văn “Nghiên cứumôhìnhphânlớpcâuhỏiứng dụng” tác giả trình bày số nghiêncứumôhìnhphânlớpcâu hỏi, đề xuất môhìnhphânlớp cải tiến ứngdụng với liệu cụ thể thực nghiệm để kiểm chứng môhình 11 Chương 2: Các phương pháp tiếp cận toán phânlớpcâuhỏi 2.1 Môhìnhphânlớpcâuhỏi 2.1.1 Môhìnhphânlớp phẳng Môhìnhphânlớp phẳng biết đến hướng tiếp cận đơn giản môhìnhphânlớp Với việc sử dụngphânlớp phẳng, mối quan hệ bên nhãn lớp bị bỏ qua phân lớp, toàn nhãn lớp sử dụng thời điểm để dự đoán cho liệu câuhỏi Ví dụ, Dragomir Radev [5, tr.575] đưa phânlớp phẳng gồm 17 lớp để áp dụng trình phânlớp Với câu hỏi, Dragomir Radev phải sử dụng tới 17 lớp lần dự đoán nhãn lớp cho câuhỏi Bộ phânlớp trình bày Bảng 2.1 Bảng 2.1 Bộ phânlớpcâuhỏi Radev STT Nhãn lớp Ý nghĩa PERSON Người PLACE Địa điểm DATE Ngày tháng NUMBER Số học DEFINITION Định nghĩa ORGANIZATION Tổ chức DESCRIPTION Mô tả ABBREVIATION Viết tắt KNOWNFOR Nổi tiếng 10 RATE Tỉ lệ 11 LENGTH Chiều dài 12 MONEY Tiền tệ 13 REASON Lý 14 PURPOSE Mục đích 15 DURATION Thời gian 16 NOMINAL Quy định 12 17 OTHER Khác Việc sử dụngmôhìnhphânlớp phẳng gây khó khăn trình lựa chọn đặc trưng cho nhãn lớp Tập thuộc tính lựa chọn phải chứa đặc điểm xác định, phân biệt nhãn lớp với nhãn lớp xây dựng Đôi khi, số trường hợp đặc biệt xảy ảnh hưởng nhiều đến trình phânlớp Đó thuộc tính phân biệt tốt lại ích, không mang lại hiệu việc phânlớp 2.1.2 Môhìnhphânlớpphân cấp Môhìnhphânlớpphân cấp có nhiều ưu điểm độ xác, cách tổ chức thông tin môhình xem bổ sung cải tiến số môhìnhphânlớp khác Ý tưởng môhình giảm số lượng nhãn lớp phải dự đoán cho câuhỏi cấp Đầu phânlớp cấp một tập nhãn lớp sử dụng làm phânlớpPhânlớp cấp dự đoán câuhỏi vào nhãn lớp tổng thể, nhãn lớp có độ bao quát lớn nên gặp rủi ro có nhiều đặc trưng Li Roth[14, tr.8] đề xuất áp dụngmôhìnhphânlớp hai cấp với phânlớpMôhình kết hợp hai phânlớp liên tiếp, theo thứ tự Đầu tiên, câuhỏi đưa vào phânlớp cấp - phânlớp thô, phânlớp gồm lớp ABBREVIATION, ENTITY, DESCRIPTION, HUMAN, LOCATION, NUMBERIC VALUE Mỗi lớp thô lại chứa số lớp chi tiết bên Các lớp mịn thuộc vào lớp thô Tổng số lượng lớp mịn môhìnhphânlớpphân cấp 50 lớp trình bày Bảng 1.1 Phânlớp cấp hai - phânlớp mịn phải dựa vào phânlớp cấp để câuhỏi qua phânlớp cấp hai, vấn đề không rõ ràng câuhỏi giải Chi tiết môhình xử lý phânlớp trình bày sau: Ban đầu, định nghĩa tập tất lớp thô 𝐶0 = 𝑐1 , 𝑐2 , 𝑐3 , … , 𝑐𝑛 cho câuhỏi q Phânlớp thô xác định tập nhãn 𝐶1 𝐶1 = 𝐶𝑜𝑎𝑟𝑠𝑒_𝐶𝑙𝑎𝑠𝑠𝑖𝑓𝑖𝑒𝑟(𝐶0 , 𝑞), 𝐶1 ⊂ 𝐶0 𝐶1 ≤ Sau đó, lớp thô 𝐶1 mở rộng thành tập hợp lớp mịn định nghĩa trước phânlớp cấp bậc Giả sử, lớp thô 𝑐𝑖 ánh xạ thành tập 𝑐′𝑖 = 𝑓𝑖1 , 𝑓𝑖2 , 𝑓𝑖3 , … , 𝑓𝑖𝑚 lớp mịn, tập 𝐶2 tập hợp tất lớp mịn xác định lớp thô 𝐶1 Phânlớp mịn xác định tập hợp nhãn 𝐶3 dựa vào 𝐶2 𝐶3 = 𝐹𝑖𝑛𝑒_𝐶𝑙𝑎𝑠𝑠𝑖𝑓𝑖𝑒𝑟(𝐶2 , 𝑞), 𝐶3 ⊂ 𝐶2 𝐶3 ≤ 13 Kết thúc trình, ta có tập 𝐶1 𝐶3 tập nhãn lớp dự đoán qua hai lần phânlớp Các nhãn lớp sử dụng để đánh giá hiệu Hình 2.1 Môhìnhphânlớp Li Roth 2.2 Giải thuật phânlớpcâuhỏi Về bản, phânlớpcâuhỏi thường sử dụng hai hướng tiếp cận hướng tiếp cận dựa luật hướng tiếp cận dựa học máy Bên cạnh đó, kết hợp hướng tiếp cận dựa luật học máy đưa đến hướng tiếp cận Trong hướng tiếp cận dựa luật, luật xây dựng cách thủ công cần nhiều thời gian để tạo luật áp dụng cho liệu thực tế Việc phânlớp đạt hiệu tốt số miền đặc biệt với liệu chuẩn, liệu kết đạt lại không khả quan Vì vậy, môhình hóa luật việc làm cần thiết áp dụng hướng tiếp cận dựa luật vô khó khăn Hướng tiếp cận dựa học máy gần đối lập với hướng tiếp cận dựa luật việc lựa chọn đặc trưng để xây dựngphânlớp Các đặc trưng câuhỏi trích xuất để huấn luyện phânlớp Công việc thực cách thủ công hoàn toàn nên không nhiều thời gian Ví dụ, nội dungcâuhỏi biểu diễn thành câuhỏi có cú pháp khác Các câuhỏi gán nhãn lớp đặc trưng trích xuất từ câuhỏi có số khác Do vậy, điều gây khó khăn hướng tiếp cận dựa 14 luật lại đơn giản hướng tiếp cận học máy Các thực nghiệm áp dụng hướng tiếp cận dựa học máy thành công công bố nhiều báo Trong luận văn này, tác giả xin trình bày chủ yếu hướng tiếp cận dựa học máy 2.2.1 Giải thuật học máy có giám sát Trong học máy có giám sát, chương trình học cung cấp hai tập liệu, tập liệu huấn luyện tập liệu kiểm tra Ý tưởng phương pháp chương trình học “học” từ liệu gán nhãn lớp tập liệu huấn luyện để phát quy luật, chương trình hay thủ tục phân loại liệu Ban đầu, tập liệu huấn luyện chứa n cặp 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … 𝑥𝑛 , 𝑦𝑛 , 𝑥𝑖 tập đặc trưng cho liệu huấn luyện riêng, 𝑦𝑖 nhãn lớp gắn cho liệu 𝑥𝑖 Ví dụ, 𝑥𝑖 có số đặc trưng sinh viên tham gia trình học tập điểm tổng kết, tín tích lũy, bị kỷ luật, khen thường, hạnh kiểm yi nhãn lớp tương ứng cho sinh viên tốt nghiệp hay không tốt nghiệp Tập liệu kiểm tra tập khác với m đặc trưng mà chưa gán nhãn Mục đích gán nhãn cho tập liệu kiểm tra tốt nghiệp không tốt nghiệp cách suy diễn dựa vào đặc trưng học tập liệu huấn luyện Để làm vậy, ta cần sử dụng giải thuật kết hợp với môhìnhphânlớp cụ thể Mỗi toán lựa chọn áp dụng giải thuật khác Hiện nay, số giải thuật phânlớp phổ biến sử dụng hướng tiếp cận học máy có giám sát kể tới Support Vector Machines (SVM), Maximum Entropy Model (MEM), Spare Network of Winnows (SNoW), Trong chương này, tác giả xin trình bày giải thuật SVM sử dụng thực nghiệm Giải thuật SVM Support Vector Machines (SVM) Cortes Vapnik giới thiệu lần đầu vào năm 1995, giải thuật mạnh mẽ việc giải toán có số chiều lớn SVM phương pháp phânlớp nhanh, có hiệu suất cao giải vấn đề overfitting tốt Ý tưởng SVM tìm siêu phẳng với biên độ cao nhất, tức siêu phẳng phải tối ưu, có khoảng cách tới điểm gần lớn Cho tập liệu D= 𝑥𝑖 , 𝑦𝑖 , 𝑖 = 1, … , 𝑛 với 𝑥𝑖 = (𝑥𝑖1 , … , 𝑥𝑖ℎ ) mẫu có h chiều 𝑦𝑖 ∈ −1, +1 nhãn tương ứng xác định cho 𝑥𝑖 , nhận giá trị liệu dương hay âm Bộ phânlớp tuyến tính xác định siêu phẳng: 𝑥: 𝑓 𝑥 = 𝑤 𝑇 𝑥 + 𝑤0 15 Một liệu thuộc lớp dương 𝑦𝑖 = +1 𝑓 𝑥 ≥ +1 𝑓 𝑥 ≤ −1 liệu thuộc lớp âm 𝑦𝑖 = −1 Đây điều kiện cần đủ để tìm siêu phẳng tối ưu Để xác định 𝑤 𝑇 𝑤0 ta dùng bất đẳng thức sau đây: 𝑦𝑖 𝑤 𝑇 𝑥𝑖 + 𝑤0 ≥ 1, ∀𝑖 = 1, 2, … , 𝑛 Hàm tuyến tính tối ưu đạt cách tối thiểu hóa phương trình sau: 𝑤 𝑇 𝑤 − 𝑛 𝑛 𝛼𝑖 𝑦𝑖 𝑤 𝑇 𝑥𝑖 + 𝑤0 − 𝑣ớ𝑖 𝑤 = 𝑖=1 𝛼𝑖 𝑦𝑖 𝑥𝑖 𝑖=1 Và 𝛼𝑖 ≥ 𝑣ớ𝑖 𝑖 = 1, 2, … , 𝑛 hệ số Lagrange Đây chiến lược để tìm giá trị cực đại cực tiểu cục theo số ràng buộc Trong việc phân lớp, không gian đặc trưng nên ánh xạ sang không gian có số chiều lớn điều làm SVM đạt hiệu suất cao Việc ánh xạ không gian đặc trưng có tên gọi khác hàm nhân Các hàm nhân sử dụngnghiêncứuphânlớpcâuhỏi đa dạng Mỗi hàm nhân có hiệu suất phânlớp khác tùy thuộc vào nghiêncứu Ba hàm nhân phổ biến nhân tuyến tính, nhân đa thức nhân xích ma Nhân tuyến tính thường sử dụng trường hợp có vector liệu lớn thưa thớt phân loại văn Nhân đa thức phổ biến phân tích xử lý ảnh nhân xích ma chủ yếu sử dụng cho mạng nơ-ron Nhân tuyến tính hàm đơn giản loại hàm nhân nên nhiều thực nghiệm, lựa chọn sử dụng nhiều 2.2.2 Giải thuật học máy bán giám sát Trong học máy bán giám sát, ý tưởng việc tận dụng đặc trưng có liệu chưa gán nhãn việc tự học tự huấn luyện Chương trình học sử dụng liệu gán nhãn có độ tin cậy xác cao Sau chương trình tự động thu nhận liệu khác trình kiểm tra liệu chưa gán nhãn Việc sử dụng liệu chưa gán nhãn kết hợp với liệu gán nhãn học máy bán giám sát giúp hạn chế lỗi chủ quan người xây dựng tập liệu huấn luyện ban đầu Giả sử ta có tập liệu sau 𝑋1 = (𝑥1 , 𝑥2 , … , 𝑥𝑙 ) tương ứng với nhãn 𝑌1 = (𝑦1 , 𝑦2 , … , 𝑦𝑙 ) tập 𝑋𝑢 = 𝑥𝑙+1 , 𝑥𝑙+2 , … , 𝑥𝑙+𝑢 chưa gán nhãn Bước đầu tiên, ta tiến hành huấn luyện với liệu gán nhãn có phânlớp sau 𝑥 ′ , 𝑦1 , 𝑥 ′ , 𝑦2 , … , (𝑥 ′ 𝑛 , 𝑦𝑛 ) 𝑥′𝑖 tập đặc trưng dùng để xác định nhãn lớp 𝑦𝑖 Ta dùngphânlớp để tiến hành gán nhãn cho phần tử 𝑥′𝑢 tập liệu chưa gán nhãn 𝑋𝑢 Với liệu vừa gán nhãn, ta lại 16 sử dụng học máy có giám sát để huấn luyện lại phânlớp tiếp tục dùngphânlớp dự đoán nhãn cho phần tử tập liệu 𝑋𝑢 Quá trình lặp lặp lại đến duyệt hết liệu tập liệu chưa gán nhãn 𝑋𝑢 Các giải thuật điển hình hướng tiếp cận học máy bán giám sát kể đến Self-training, Co-training, Tri-training, … Giải thuật Self-training Self-training giải thuật học máy bán giám sát sử dụng phổ biến Nó bắt đầu cách huấn luyện liệu gán nhãn Trong bước tiếp theo, liệu chưa gán nhãn dự đoán, gán nhãn xác có độ tin cậy cao theo huấn luyện liệu thêm vào tập liệu gán nhãn để xây dựngphânlớp Sau phương pháp học có giám sát huấn luyện lại phânlớp với liệu gán nhãn ban đầu liệu bổ sung thêm Giải thuật mô tả Hình 2.2 Đầu vào: L tập liệu gán nhãn, U tập liệu chưa gán nhãn Đầu ra: Bộ phânlớp huấn luyện Lặp 𝑈 = ∅ Huấn luyện phânlớp giám sát tập L Sử dụngphânlớp vừa huấn luyện để phânlớp liệu U Tìm tập 𝑈 ′ ∈ 𝑈 có độ tin cậy cao 𝑳 + 𝑼′ ⇒ 𝑳 , 𝑼′ − 𝑼 ⇒ 𝑼 Hình 2.2 Sơ đồ thực giải thuật Self-training Giải thuật Co-traning Co-training giải thuật áp dụng rộng rãi lĩnh vực xử lý ngôn ngữ tự nhiên Ý tưởng giải thuật sử dụng hai tập chứa đặc trưng riêng biệt, không trùng lặp với liệu gán nhãn tập 𝑥 𝑖 𝑥 𝑖 Hai tập đặc trưng sử 17 dụng để tạo hai phânlớp khác Các phânlớp dự đoán liệu chưa gán nhãn tìm liệu vừa gán nhãn tin cậy để thêm vào tập liệu gán nhãn Để nâng cao độ xác, việc thêm liệu vào tập liệu gán nhãn tiến hành với liệu chưa gán nhãn mà hai phânlớp cho kết Bước tiếp theo, phânlớp huấn luyện lại với liệu vừa thêm vào tập liệu gán nhãn Quá trình lặp diễn đến liệu tập chưa gán nhãn sử dụng hết Giải thuật Hình 2.3 Đầu vào: Tập liệu gán nhãn 𝐿 = 𝑥𝑖 , 𝑦𝑖 với 𝑖 = 1, 2, … , 𝑛 Tập liệu chưa gán nhãn 𝑈 = 𝐿1 = 𝐿2 = 𝑥𝑗 với 𝑗 = 1, 2, … , 𝑛 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , (𝑥𝑙 , 𝑦𝑙 ) Đầu ra: phânlớp huấn luyện Lặp 𝑈 = ∅ Huấn luyện phânlớp giám sát 𝑓 tập 𝐿1 𝑓 tập 𝐿2 Sử dụng riêng phânlớp với liệu chưa gán nhãn Thêm liệu (𝑥, 𝑓 1,2 (𝑥)) có độ tin cậy cao vào tập 𝐿1 , 𝐿2 Loại bỏ liệu sử dụng từ tập liệu chưa gán nhãn Hình 2.3 Sơ đồ giải thuật Co-training Vấn đề giải thuật Co-training sử dụng hai tập đặc trưng riêng biệt gây hạn chế đặc trưng tập biểu diễn đầy đủ thông tin liệu Do vậy, để hai phânlớp dự đoán kết điều khó khăn Giải thuật Tri-training Được coi phiên giải thuật Co-training, thay sử dụng hai tập đặc trưng Tri-training sử dụng ba tập đặc trưng Giải thuật đề xuất đặt tên Zhi-Hua Zhou đồng nghiệp Khởi tạo ban đầu, ba tập liệu tạo cách sử dụng BootstrapSample - phương pháp lấy mẫu từ tập liệu 18 gán nhãn huấn luyện thành ba phânlớp Việc lựa chọn sử dụng ba tập để áp dụng dựa theo nguyên tắc đa số thắng thiểu số, hai ba phânlớp độc lập có chung dự đoán với liệu chưa gán nhãn phânlớp lại ba phânlớp bị áp đặt việc huấn luyện theo liệu Giải thuật mô tả Hình 2.4 Đầu vào: L tập liệu gán nhãn, U tập liệu chưa gán nhãn Đầu ra: Các phânlớp huấn luyện Xây dựng tập liệu huấn luyện BootstrapSample Huấn luyện thành phânlớp 𝑓𝑖 Lặp đến không 𝑓𝑖 thay đổi Khởi tạo tập 𝐿𝑖 = ∅ lưu liệu gán nhãn từ tập chưa gán nhãn Lặp đến liệu chưa gán nhãn sử dụng hết Sai 𝑓𝑖 𝑥 = 𝑓𝑗 (𝑥) 𝑳𝒊 = 𝑳𝒊 + (𝒙, 𝒇𝒊 (𝒙)) Huấn luyện lại 𝑓𝑖 với tập 𝐿𝑖 Hình 2.4 Sơ đồ giải thuật Tri-training Đúng 19 Giải thuật Tri-training thể tính hiệu so với giải thuật khác Tuy nhiên, vấn đề cố hữu xảy việc không sử dụng hết toàn thông tin liệu gán nhãn trình tạo thành tập đặc trưng Việc sử dụng phương pháp lấy mẫu BootstrapSample bỏ qua đặc trưng số lớp dẫn đến việc làm cho phânlớp có kết Vấn đề gặp số miền liệu đặc biệt Để giải vấn đề này, PGS.TS Nguyễn Trí Thành đồng nghiệp[11] đề xuất cải tiến giải thuật cách xây dựng ba tập huấn luyện lấy toàn liệu từ tập liệu gán nhãn khác môhình trích xuất đặc trưng Tập đặc trưng thứ xây dựng dựa theo môhình bag-of-word Tập thứ hai xây dựng theo môhình bag-of-POS tập đặc trưng thứ ba kết hợp hai môhình bagof-word bag-of-POS Để huấn luyện, tập đặc trưng thứ thứ hai sử dụng SVM Tập đặc trưng thứ ba sử dụng MEM Kết thực nghiệm nhà nghiêncứu cho thấy độ xác phânlớp tăng tận dụng tốt liệu chưa gán nhãn 20 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá liệu Web, Nhà xuất Giáo dục Việt Nam Tiếng Anh Anders Søgaard (2010), Simple semi-supervised training of part-of-speech taggers, The 48th Annual Meeting of the Association for Computational Linguistics (ACL) Uppsala, Sweden Chih-Chung Chang and Chih-jen Lin (2013), LibSVM: A library for Support Vector Machine, Department of Computer Science National Taiwan University, Taipei, Taiwan David Tom, Claudio Giuliano (2009), A semi-supervised approach to question classification, European Symposium on Artificial Neural Networks - Advances in Computational Intelligence and Learning Dragomir Radev, Weiguo Fan, Hong Qi, Harris Wu, Amardeep Grewal (2002), Probabilistic question answering on the web, Journal of the American society for Information Science and Technology 2005 Hakan Sundblad (2007), Question Classification in Question Answering systems, Submitted to Linköping Institute of Technology at Linköping University John Burger, Claire Cardie, Vinay Chaudhri, Robert Gaizauskas, Sanda Harabagiu, David Israel, Christian Jacquemin, Chin-Yew Lin, Steve Maiorano, George Miller, Dan Moldovan , Bill Ogden,John Prager, Ellen Riloff, Amit Singhal, Rohini Shrihari, Tomek Strzalkowski, Ellen Voorhees, Ralph Weishedel (2002), Issues, Tasks and Program Structures to Roadmap Research in Question & Answering Q&A Roadmap Paper Oliver Chapelle, Bernhard Scholkopf, Alexander Zien (2006), Semi supervised learning, The MIT Press Cambridge, Massachusetts, London, England Pierre Baldi, Paolo Frasconi, Padhraic Smyth Modeling the Internet and the Web: Probabilistic Methods and Algorithms, Published by John Wiley & Sons Ltd, The Southern Gate, Chichester West Sussex PO19 8SQ, England - 2003 10 Le Hong Phuong (2010), An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts Actes du Traitement Automatique des Langues Naturelles (TALN-2010), Montreal, Canada 11 Nguyen Tri Thanh, Nguyen Le Minh and Akira Shimazu (2008) Using Semisupervised Learning for Question Classification, Journal of Natural Language Processing (15) 21 12 Nguyen Tri Thanh, Nguyen Le Minh and Akira Shimazu (2007), Improving the Accuracy of Question Classification with Machine Learning, Institute of Electrical and Electronics Engineers(IEEE) 13 Xin Li, Dan Roth (2002), Learning question classifiers, In Proceedings of the 19th International Conference on Compuatational Linguistics (COLING), pp.556–562 14 Xin Li, Dan Roth (2004) Learning question classifiers: the role of semantic information, Cambridge University Press ... Nghiên cứu mô hình phân lớp câu hỏi ứng dụng tác giả trình bày số nghiên cứu mô hình phân lớp câu hỏi, đề xuất mô hình phân lớp cải tiến ứng dụng với liệu cụ thể thực nghiệm để kiểm chứng mô. .. cận toán phân lớp câu hỏi 11 2.1 Mô hình phân lớp câu hỏi 11 2.1.1 Mô hình phân lớp phẳng 11 2.1.2 Mô hình phân lớp phân cấp .12 2.2 Giải thuật phân lớp câu hỏi ... taxonomy câu hỏi Mục tiêu luận văn nêu phần cuối chương Chương Các phương pháp tiếp cận toán phân lớp câu hỏi nghiên cứu mô hình phân lớp câu hỏi sử dụng phổ biến mô hình phân lớp phẳng, mô hình phân