Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Một số mô hình học máy trong phân loại câu hỏi

23 82 0
Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Một số mô hình học máy trong phân loại câu hỏi

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Lý do này mà tác giả chọn và nghiên cứu đề tài “Một số mô hình học máy trong phân loại câu hỏi” đó là một phân loại tốt sẽ giúp đưa ra câu trả lời chính xác hơn. Đã có nhiều phương pháp tiếp cận được đưa ra cho bài toán phân loại này, tuy nhiên phương pháp học máy là được áp dụng nhiều hơn cả.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ TUYẾN MỘT SỐ MƠ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI Ngành: Công nghệ thông tin Chun ngành: Hệ thống thơng tin Mã số: 60480104 TĨM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội -2016 MỤC LỤC MỤC LỤC LỜI MỞ ĐẦU Chương 1: TỔNG QUAN VỀ PHÂN LOẠI CÂU HỎI 1.1 Tổng quan hệ thống hỏi đáp 1.1.1.Đặt vấn đề 1.1.2 Hệ thống hỏi đáp (Question Answering System) 1.1.2.1 Giới thiệu 1.1.2.2 Cấu trúc hệ thống hỏi đáp 1.1.2.3 Tại phải phân loại câu hỏi? 1.2 Bài toán phân loại câu hỏi 1.2.1 Định nghĩa phân loại câu hỏi 1.2.2 Phát biểu toán phân loại câu hỏi 1.3 Các cáchtiếp cận toán phân loại câu hỏi 1.3.1 Tiếp cận dựa luật 1.3.2 Tiếp cận dựa học máy 1.4 Biểu diễn câu hỏi 1.5 Taxonomy câu hỏi 1.5.1 Khái niệm Taxonomy 1.5.2 Các taxonomytheo kiểu câu trả lời 1.6 Các đặc trưng phân loại 1.6.1 Các đặc trưng từ vựng 1.6.2 Các đặc trưng cú pháp 1.6.2.1 POS Tags Tagged Unigrams 1.6.2.2 Từ đầu (head word) 1.6.2.3 Biểu thức quy 10 1.6.3 Các đặc trưng ngữ nghĩa 11 Chương 2: MỘT SỐ MƠ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI 12 2.1 Thuật tốn Nạve Bayes 12 2.1.1 Định lý 12 2.1.2 Thuật toán 13 2.2 Thuật toán k-láng giềng gần (k- Nearst Neighbours) 14 2.3 Máy Vector hỗ trợ - SVM 15 2.4 Hiệu suất phân loại câu hỏi 18 Chương 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 19 3.1 Lựa chọn phân loại 19 3.2 Môi trường công cụ sử dụng thực nghiệm 19 3.3 Tập liệu thử nghiệm 19 3.4 Xử lý liệu 20 3.5 Huấn luyện kiểm thử với LibSVM 20 3.6 Kết thực nghiệm 21 3.7 Kết luận 21 TỔNG KẾT 22 LỜI MỞ ĐẦU Ngày nay, với phát triển mạnh mẽ Internet tồn cầu với nhu cầu tìm kiếm thơng tin ngày cao người đòi hỏi hệ thống hỏi đáp ngày thông minh hơn.Những thắc mắc người dùng dướidạng truy vấn cần tìm kiếm trả cách ngắn gọn, súc tích xác mà họ mong muốn Một thành phần quan trọng ảnh hưởng trực tiếp đến kết tìm kiếm hệ thống hỏi đáp giai đoạn phân loại câu hỏi.Một phân loại tốt giúp đưa câu trả lời xác hơn.Đã có nhiều phương pháp tiếp cận đưa cho toán phân loại này, nhiên phương pháp học máy áp dụng nhiều Chính lý mà tác giả chọn nghiên cứu đề tài “Một số mơ hình học máy phân loại câu hỏi” Luận văn bao gồm phần sau: Chương 1: Tổng quan phân loại câu hỏi Chương trình bày tổng quan phân loại câu hỏi, giới thiệu hệ thống hỏi đáp, toán phân loại câu hỏi, cách tiếp cận giải toán, tổng quan tiếp cận học máy như: biểu diễn câu hỏi, phân lớp câu hỏi, đặc trưng câu hỏi Chương 2: Một số mô hình học máy phân loại câu hỏi Chương tập trung trình bày phân loại thường sử dụng: Naïve Bayes, K-láng giềng gần, Máy vector hỗ trợ liệt kê số phân loại khác So sánh hiệu suất phân loại phân loại dựa kết tham khảo Chương 3: Thực nghiệm đánh giá Áp dụng phân loại SVM thực thí nghiệm tập liệu UIUC, lựa chọn đặc trưng bag-of-word.Nhận xét kết trả 4 Chương 1: TỔNG QUAN VỀ PHÂN LOẠI CÂU HỎI 1.1 Tổng quan hệ thống hỏi đáp 1.1.1.Đặt vấn đề Với số lượng ngày tăng nhanh chóng tri thức Web, máy tìm kiếm cần có nhiều trí thơng minh Trong vài trường hợp người sử dụng cần phần xác thơng tin thay danh sách tài liệu.Thay bắt người sử dụng phải đọc tồn tài liệu, thường ưa chuộng cách đưa cho người sử dụng câu trả lời xác ngắn gọn.Các hệ thống hỏi đáp (Question Answering systems-QA) phải cung cấp phần thơng tin xác cho câu hỏi tương ứng Một hệ thống hỏi đáp miền mở trả lời câu hỏi viết ngôn ngữ tự nhiên giống người Một thành phần đóng vai trò quan trọng hệ thống hỏi đáp phân loại câu hỏi.Nhiệm vụ phân loại câu hỏi sau: Cho câu hỏi, ánh xạ câu hỏi tới k lớp, lớp cung cấp gợi ý ngữ nghĩa câu trả lời sau tìm kiếm Mục đích phân loại giảm thiểu câu trả lời khơng có tiềm năng, giai đoạn xử lý trình hạ lưu để lựa chọn câu trả lời xác từ lượng câu trả lời có tiềm 1.1.2 Hệ thống hỏi đáp (Question Answering System) 1.1.2.1 Giới thiệu QA system: mộthệ thống đóng vai trò phổ biến việc tìm kiếm thơng tin xác hiệu Nhiệm vụ đưa câu trả lời đầy đủ xác ứng với yêu cầu người dùng câu trả lời thể ngơn ngữ tự nhiên Người dùng nhanh chóng lấy thơng tin cần thiết thay tìm kiếm thơng tin khối lượng lớn văn Có loại hệ thống hỏi đáp:  Hệ thống hỏi đáp miền đóng (Closed-domain Question Answering): hệ thống liên quan đến câu hỏi lĩnh vực cụ thế, chẳng hạn lĩnh vực y học  Hệ thống hỏi đáp miền mở (Open-domain Question Answering): hệ thống liên quan đến câu hỏi gần tất thứ 1.1.2.2 Cấu trúc hệ thống hỏi đáp Có nhiều hệ thống QA đưa ra, hầu hết chúng tuân theo khung làm việc chung Thông thường, hệ thống hỏi đáp xử lý nhiệm vụ sau [6]: xử lý câu hỏi, xử lý tài liệu xử lý câu trả lời Hình 1.1 kiến trúc tổng quan hệ thống hỏi đáp Hình 1.1: Kiến trúc hệ thống hỏi đáp 1.1.2.3 Tại phải phân loại câu hỏi? Về có hai động thúc đẩy phân loại câu hỏi: xác định câu trả lời lựa chọn chiến lược tìm kiếm Xác định câu trả lời: biết loại câu hỏi khơng thu gọn khơng gian tìm kiếm cần tìm câu trả lời, tìm kiếm xác câu trả lời tập lớn ứng viên trả lời Cho ví dụ biết loại câu hỏi “Who was the president of U.S in 1934?” có kiểu “human”, hệ thống trả lời quan tâm đến ứng viên tên thực thể có kiểu “human” mà khơng cần phải kiểm tra tồn đoạn văn để tìm đâu chứa câu trả lời khơng Lựa chọn chiến lược tìm kiếm: lớp câu hỏi sử dụng để lựa chọn chiến lược tìm kiếm câu hỏi viết dạng truy vấn để tìm kiếm máy tìm kiếm Cho ví dụ đưa câu hỏi “What is a pyrotechnic display ?” Xác định lớp câu hỏi “definition”, mẫu tìm kiếm cho việc xác định câu trả lời dùng “pyrotechnic display is a ” or “pyrotechnic displays are ”, tốt nhiều việc tìm kiếm đơn giản từ để hỏi 1.2 Bài toán phân loại câu hỏi 1.2.1 Định nghĩa phân loại câu hỏi Có nhiều định nghĩa khác phân loại câu hỏi, áp dụng định nghĩa phân loại văn bản, Håkan Sundblad[6] đưa định nghĩa phân loại câu hỏi sau: Phân loại câu hỏi nhiệm vụ gán giá trị kiểu boolean cho cặp , Q miền chứa câu hỏi { | |} tập phân loại cho trước Cặp (qj,ci) gán cho giá trị T câu hỏi qj thuộc phân loại ci gán cho giá trị F qj không thuộc phân loại ci Trong bối cảnh học máy, nhiệm vụ phân loại câu hỏi làm cho hàm mục tiêu từ chưa rõ ràng ̂ trở nên gần với hàm mục tiêu lý tưởng , ̂ Ф trùng nhiều tốt 1.2.2 Phát biểu toán phân loại câu hỏi Bài toán phân loại câu hỏi phát biểu sau: Input: - Cho trước tập câu hỏi - Tập chủ đề (phân loại) định nghĩa Output: - Nhãn ci câu hỏi qj 1.3 Các cáchtiếp cận tốn phân loại câu hỏi Theo [3,6]có cách tiếp cận để phân loại câu hỏi: dựa luật (rule-based)và dựa học máy (machine learning based) Ngoài ra, có vài cách tiếp cận lai kết hợp tiếp cận dựa luật học máy 1.3.1 Tiếp cận dựa luật Đây cách tiếp cận cho đơn giản để phân loại câu hỏi Trong cách tiếp cận việc phân loại câu hỏi dựa vào luật ngữ pháp viết tay Các luật có đề xuất từ chuyên gia Đối với cách tiếp cận này, loạt biểu thức quy (regular expression) tạo để so khớp với câu hỏi từ định phân loại câu hỏi loại câu trả lời 7 1.3.2 Tiếp cận dựa học máy Đây cách tiếp cận sử dụng phổ biến để giải toán phân loại câu hỏi.Cách tiếp cận thay kiến thức chuyên môn tập lớn câu hỏi gán nhãn (tập liệu mẫu).Sử dụng tập này, phân lớp huấn luyện có giám sát Một số thuật toán thường sử dụng là: Mạng nơ-ron (Neural NetWork), tính xác suất Nạve Bayes, Maximum Entropy , định (decision Tree) , lân cận (Nearest-Neighbors), Mạng lọc thưa (Sparse Network of Winnows - SNoW), Máy Vector hỗ trợ (Support Vector machine-SVM) Cách tiếp cận học máy giải hạn chế cách tiếp cận dựa luật 1.4 Biểu diễn câu hỏi Một nhiệm vụ việc xử lý phân loại câu hỏi chọn mơ hình biểu diễn câu hỏi thích hợp Tùy thuộc vào thuật toán phân loại khác mà có mơ hình biểu diễn riêng Một mơ hình đơn giản thường sử dụng mơ hình khơng gian vector Trong mơ hình này, câu hỏi thể khơng gian có số chiều lớn, chiều khơng gian tương ứng với từ câu hỏi Phương pháp biểu diễn cách hình tượng sau: câu hỏi biểu diễn dạng ⃗ (vector đặc trưng câu hỏi đó) Trong đó, ⃗ lượng đặc trưng hay số chiều vector câu hỏi, n số trọng số đặc trưng thứ i với 1.5 Taxonomy câu hỏi 1.5.1 Khái niệm Taxonomy Khái niệm tanonomy sử dụng nhiều lĩnh vực khác nhau, mà có nhiều định nghĩa khác Trong lĩnh vực công nghệ thông tin, taxonomy định nghĩa sau [2]: Định nghĩa: Taxonomy phân loại tồn thơng tin hệ phân cấp theo mối quan hệ có trước thực thể giới thực mà biểu diễn 1.5.2 Các taxonomytheo kiểu câu trả lời Taxonomy theo kiểu câu trả lời chia thành loại [6]: taxonomy phẳng (flat) taxonomy phân cấp (hierarchical) Taxonomy phẳng có mức phân loại, khơng phân loại theo nghĩa từ Taxonomy phân cấp bao gồm phân loại lớn tập phân loại nhỏ bên 8 Hầu hết tiếp cận dựa học máy gần sử dụng taxonomy đề xuất Li Roth[13] từ tác giả công bố tập giá trị 6000 câu hỏi gán nhãn Tập liệu bao gồm hai tập riêng rẽ 5500 500 câu hỏi tập sử dụng tập liệu huấn luyện tập thứ hai sử dụng tập kiểm tra độc lập Tập liệu xuất lần University of Illinois Urbana-Champaign (UIUC), thường gọi tập liệu UIUC coi tập liệu TREC kể từ mở rộng sử dụng hội nghị truy hồi thông tin (Text REtrieval Conference-TREC) Taxonomy câu hỏi Li Roth đưa ragồm cấp theosự phân loại ngữ nghĩa tựnhiên câu trả lời hội nghị TREC Cấu trúc phân cấp bao gồm lớp thô: ABBREVIATION (viết tắt), ENTITY (thực thể),DESCRIPTION (mô tả), HUMAN (con người), LOCATION (địa điểm) NUMERIC VALUE (giá trị số) với 50 lớp (fine class) 1.6 Các đặc trưng phân loại 1.6.1 Các đặc trưng từ vựng Các đặc trưng từ vựng câu hỏi thường rút trích dựa ngữ cảnh từ câu hỏi, nghĩa là, từ xuất câu hỏi Trong nhiệm vụ phân loại câu hỏi, câu hỏi biểu diễn giống biểu diễn tài liệu mơ hình không gian vectơ, tức là, câu hỏi vectơ mà mô tả từ bên Do câu hỏi x biểu diễn sau: Trong đó: xi tần số xuất từ i câu hỏi x N tổng số từ Do thưa thớt đặc trưng, đặc trưng có giá trị khác không giữ lại vectơ đặc trưng Vì đơi câu hỏi biểu diễn hình thức sau: { ( )} Trong đó: ti từ thứ i câu hỏi x fi tần số xuất ti câu hỏi x Không gian đặc trưng gọi đặc trưng bag-of-words thứ tự từ câu hỏi không quan trọng cách biểu diễn Việc biểu diễn câu hỏi theo công thức (1.2) làm cho kích thước tập mẫu tương đối nhỏ kích thước khơng gian đặc trưng lớn Tần số xuất từ câu hỏi (các giá trị đặc trưng) xem giá trị trọng số, biểu thị cho tầm quan trọng từ câu hỏi Khơng gian đặc trưng bag-of-word gọi unigram Unigram trường hợp đặc biệt đặc trưng n-gram.Để trích xuất đặc trưng n-gram, n từ liên tiếp câu hỏi xem đặc trưng.Ngồi unigram, có thêm loại n-gram thường sử dụng bigram, trigram Cụ thể: + Bigram: lấy từ liên tiếp câu + Trigram : lấy từ liên tiếp câu 1.6.2 Các đặc trưng cú pháp Một vài loại đặc trưng khác trích rút từ cấu trúc cú pháp câu hỏi.Sau loại đặc trưng thường sử dụng 1.6.2.1 POS Tags Tagged Unigrams POS tags cho biết nhãn từ loại từ câu hỏi NN (Noun- danh từ), JJ (adjective- tính từ), RB (Adverb – trạng từ),… Việc gán nhãn từ loại (POS tags) đóng vai trò quan trọng việc phân loại câu hỏi Các danh từ câu hỏi đại diện cho đối tượng hay thực thể cần hỏi tới Vì thế, ta cần xác định từ loại từ câu hỏi Ngồi ra, có đặc trưng khác tên tagged unigram Đặc trưng đơn giản unigrams tăng cường với POS tags Xét tagged unigram thay unigrams bình thường giúp phân loại phân biệt từ với thẻ khác hai đặc trưng khác 1.6.2.2 Từ đầu (head word) Để trích xuất head word câu hỏi, phân tích cú pháp đưa Nhiệm vụ phân tích cú pháp phân tích câu đưa vào thành thành phần chủ từ, động từ, chủ ngữ, động ngữ, Kết trả phân tích cú pháp cú pháp có nút gốc ROOT Các nút khác thành phần câu nói kèm theo nhãn từ loại Mỗi từ câu đóng vai trò nút Đối với câu viết ngôn ngữ tự nhiên Hình 1.6 phân tích cú pháp sử dụng phân tích cú pháp Berkeley với câu hỏi “What is Australia’s national flower?” 10 Hình 1.2: Cây phân tích cú pháp sử dụng phân tích Berkeley Ý tưởng việc trích rút từ đầu từ cú pháp giới thiệu Collins [6] Ông đề xuất vài luật, biết luật Collins, để xác định từ đầu câu Xem xét luật ngữ pháp X → Y1 Yn X Yi nonterminal cú pháp Một thuật toán sử dụng tập luật có sẵn để xác định Y1 Yn từ đầu chứa Quá trình lặp lại head word tìm thấy 1.6.2.3 Biểu thức quy Trong thực tế, số câu hỏi vốn từ đầu Chẳng hạn với câu hỏi “What is biosphere ?”, khơng có từ đầu phù hợp để góp phần phân loại “definition” Vấn đề tương tự xuất câu hỏi “Why does the moon turn orange ?”, khơng có từ câu hỏi ngoại trừ từ để hỏi giúp phân loại phân loại câu hỏi “reason” Để định nghĩa đặc trưng thay cho từ đầu câu hỏi, nhóm tác giả Huang giới thiệu vài mẫu biểu thức quy để ánh xạ kiểu câu hỏi tới mẫu sau sử dụng mẫu tương ứng đặc trưng Danh sách mẫu Huang [15] sau: DESC:def pattern Các câu hỏi bắt đầu what is/are, khơng bắt buộc theo sau a, an, the nhiều từ DESC:def pattern Các câu hỏi bắt đầu what do/does kết thúc mean ENTY:substance pattern Các câu hỏi bắt đầu what is/are kết thúc composed of/made of/made out of DESC:desc pattern Các câu hỏi bắt đầu với what does kết thúc ENTY:term Các câu hỏi bắt đầu what you call DESC:reason pattern Các câu hỏi bắt đầu what causes/cause 11 DESC:reason pattern Các câu hỏi bắt đầu What is/are kết thúc used for ABBR:exp pattern Các câu hỏi bắt đầu What does/do kết thúc với stand for HUM:desc pattern Các câu hỏi bắt đầu với Who is/was theo sau từ bắt đầu kí tự viết hoa Nếu câu hỏi so khớp với vài luật đặc trưng tương ứng sử dụng Biểu diễn đặc trưng tương tự công thức (2.2), tên mẫu xem xét phần tử giá trị đặc trưng câu hỏi so khớp với mẫu Ví dụ cho câu hỏi “What is biosphere ?”, đặc trưng biểu diễn sau: {(DESC:def-pattern1, 1)} 1.6.3 Các đặc trưng ngữ nghĩa WordNet kho từ vựng tiếng anh lớn, tập hợp từ đồng nghĩa nhóm lại với gọi synset.WordNet công cụ hữu ích để phân tích ngữ nghĩa từ sử dụng rộng rãi phân loại câu hỏi Sử dụng WordNet để phân loại câu hỏi thông qua hypernyms: Y hypernyms X ý nghĩa Y bao hàm ý nghĩa nhiều từ khác loại X Ví dụ, hypernyms từ “city” “municipality”, hypernyms “municipality” “urban area” vậy, cấu trúc từ nghĩa cụ thể đến nghĩa khái quát Ví dụ cho cấu trúc hypernyms từ “capital”: Capital (a seat of govement) =>seat (a center of authority (as a city from which authority is exercised)) =>center, centre, middle, heart, eye (an are that is approximantely central within some larger region) =>area, country (a particular geographical region of indefinite boundary) =>region (a large indefinite location on the surface of the Earth) =>location (a point or extent in space) =>object, physical object (a tangible and visible entity) =>physical entity (an entity that has physical existence) =>entity (that which is perceived or known or inferred to have its own distinct existence) 12 Chương 2: MỘT SỐ MÔ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI 2.1 Thuật tốn Nạve Bayes 2.1.1 Định lý Thuật tốn Nạve Bayesdựa định lý Bayes phát biểu sau: | | Trong đó: * P(X): Xác suất kiện X xảy ra, không quan tâm đến Y * P(Y): Xác suất kiện Y xảy ra, không quan tâm đến X * P(X|Y): Xác suất (có điều kiện)của kiệnX xảy ra, biết kiệnY xảy * P(Y|X): Xác suất hậu nghiệm Y biết X Naïve Bayes classifer phân loại xác suất dựa việc ứng dụng định lý Bayes với giả định độc lập bền vững [13] Một Naïve Bayes classifer độc lập điều kiện giả định diện (hay không diện) đặc trưng lớp học không liên quan đến có mặt (hay thiếu vắng) đặc trưng khác Áp dụng cho toán phân loại, kiện cần có: * D: tập liệu huấn luyện vector hóa dạng ⃗ * Ci: phân lớp i, với i={1,2,…,m} * Các thuộc tính x1,x2,…,xn độc lập điều kiện đôi với Theo định lý Bayes: | | Theo tính chất độc lập điều kiện: | ∏ | | | Khi đó, luật phân lớp cho tài liệu ∏ Trong đó: | | là: 13 * P(Ci): tính dựa tần suất xuất tài liệu tập huấn luyện * P(xk|Ci): tính từ tập thuộc tính tính q trình huấn luyện 2.1.2 Thuật tốn Các bước thực thuật tốn Nạve Bayes sau: Bước 1: Huấn luyện Naïve Bayes dựa vào tập liệu:  Tính xác suất P(Ci)  Tính xác suất P(xk|Ci) Bước 2: Xnew gán vào lớp có giá trị lớn theo cơng thức: ∏ | Thuật tốn Nạve Bayes áp dụng cho toán phân loại câu hỏi sau: Giai đoạn huấn luyện: Input: - Các vector đặc trưng câu hỏi huấn luyện - Tập nhãn/lớp cho vector đặc trưng tập huấn luyện Output: - Các giá trị xác suất Giai đoạn phân lớp: Input: - Các vector đặc trưng câu hỏi huấn luyện - Các giá trị xác suất ( ) Output: - Nhãn/phân loại câu hỏi Gọi P(ck|qj) xác suất mà câu hỏi qj có khả thuộc vào loại ck Theo định lý Bayes: ( ) 14 Thuật tốn Nạve Bayes tiến hành cách tính trọng số cácđặc trưng câu hỏi ứng với loại Phương pháp entropy weighting giới thiệu để tính tốn trọng số sau: ∑ Trong đó: trọng số từ i N tổng số phân loại fit tần số xuất từ i câu hỏi t ni tổng số lần xuất từ i tất câu hỏi Khi đó, phân loại cho câu hỏi là: Với ck loại có xác suất hậu nghiệm lớn (xác suất mà câu hỏi qj có khả thuộc vào lớp ckđược tính cơng thức (2.5)) Phân lớp Nạve Bayes giả định độc lập điều kiệnP(qj|ck) sau: ∏ ( ) 2.2 Thuật toán k-láng giềng gần (k- Nearst Neighbours) Thuật toán phân lớp k-NN phương pháp phân loại câu hỏi dựa mơ hình khơng gian vector Theo mơ hình này, câu hỏi vector: Mỗi chiều vector biểu diễn thành một từ riêng biệt câu hỏi Ý tưởng thuật toán sau: Để phân loại câu hỏi mới, thuật toán tính khoảng cách (có thể dựa vào cơng thức tính khoảng cách Euclide, Cosine, …) câu hỏi đến tất câu hỏi tập huấn luyện để tìm k câu hỏi có khoảng cách gần nhất, gọi k nearest neighbours (k láng giềng gần) Dùng khoảng cách này, đánh trọng số cho tất chủ đề có.Khi đó, trọng số chủ đề tính tổng khoảng cách từ câu hỏi cần phân loại đến câu hỏi k láng giềng mà có chủ đề đó.Chủ đề khơng xuất tập k câu hỏi có trọng số Sau đó, chủ đề xếp theo độ giảm dần trọng số chủ đề có trọng số cao chọn làm chủ đề câu hỏi cần phân loại Trọng số chủ đề Ci câu hỏi d tính sau: ∑ Trong đó: ( ) ( ) 15 - KNN(d) k láng giềng gần câu hỏi d - ( )xác định câu hỏi djthuộc vào phân loại Ci với: ( ) { - sim(d,dj) độ giống câu hỏi cần phân loại d câu hỏi dj Để tính khoảng cách này, người ta sử dụng độ đo cosin sau: ∑ ∑ Trong đó: trọng số từ đặc trưng thứ i câu hỏi d1 d2 2.3 Máy Vector hỗ trợ - SVM Giải thuật máy vector hỗ trợ SVM (Support Vector Machine) đời từ lý thuyết học thống kê Vapnik Chervonenkis xây dựng năm 1995 [2] Đây giải thuật phân lớp có hiệu cao áp dụng nhiều lĩnh vực khai phá liệu nhận dạng Ban đầu thuật toán SVM thiết kế để giải toán phân lớp nhị phân.Bài toán sau: Cho trước n điểm không gian d chiều (mỗi điểm thuộc vào lớp kí hiệu +1 -1), mục đích giải thuật SVM tìm siêu phẳng (hyperplane) phân hoạch tối ưu cho phép chia điểm thành hai phần cho điểm lớp nằm phía với siêu phẳng này.Hình 2.2 minh họa phân lớp với SVM mặt phẳng Cho tập liệu huấn luyện {( với số nguyên xác định lớp xi Siêu phẳng tối ưu phân tập liệu thành hai lớp siêu phẳng tách rời liệu thành hai lớp riêng biệt với lề lớn Mỗi siêu phẳng viết dạng tập hợp điểm x thỏa mãn: Trong đó: w vector pháp tuyến siêu phẳng b đóng vai trò tham số mơ hình Để tìm siêu phẳng phân cách có lề cực đại, xây dựng vector hỗ trợ siêu phẳng H1, H2 song song với H có khoảng cách đến H Khi đó, với xi tập huấn luyện ta có bất phương trình sau: w.xi + b +1 với yi = +1 w.xi + b -1 với yi = -1 16 Và viết lại sau: yi(w.xi + b) +1 yi(w.xi + b) - Hình 2.2: Siêu phẳng với lề cực đại cho SVM phân tách liệu thuộc hai lớp Lúc này, support vector xi thỏa mãn phương trình w.xi + b -1 nằm siêu phẳng H1, thỏa mãn phương trình w.xi + b +1 nằm siêu phẳng H2 Khoảng cách lề siêu phẳng H1 H2 tính sau: Gọi x0 điểm nằm siêu phẳng H x1 điểm nằm siêu phẳng H1 Như vậy, (x0-x1)vuông góc với siêu phẳng Các điểm thỏa mãn hệ phương trình sau: { Lấy hai đẳng thức của(2.12) trừ cho nhau, ta được: Vì vng góc với siêu phẳng H w vng góc với siêu phẳng H, mãn: w song song với nhau, liệu thêm vào thỏa | | ‖ ‖ ‖ ‖ Từ công thức (3.13) (3.14) ta có khoảng cách siêu phẳng H H1 là: ‖ ‖ ‖ ‖ 17 Tương tự vậy, gọi x0 điểm nằm siêu phẳng H x2 điểm nằm siêu phẳng H2 Ta có hệ phương trình sau: { Như vậy, khoảng cách siêu phẳng H H2 là: ‖ ‖ ‖ ‖ Từ (2.15) (2.17) suy ra, khoảng cách phân hoạch siêu phẳng H1và H2là ‖ ‖ Do đó, để có biên lớn ‖ ‖ phải nhỏ hay nói cách khác giải tốn tối ưu tìm ‖ ‖ với ràng buộc gi(x)= yi(w.xi + b) với i=1,2,…,n ‖ ‖ với ràng buộc gi(x)=yi(w.xi + b) Để giải toán tối ưu tìm với i=1,2,…,n Ta đưa phương trình Lagrange, toán trở thành: { ‖ ‖ ∑ Trong } 0} nhân tử Lagrange Khi đó, tất điểm khơng nằm lề nghĩa không ảnh hưởng đến giá trị hàm mục tiêu ta chọn Áp dụng điều kiện Karush–Kuhn–Tucker, vector w tính theo cơng thức sau: ∑ Để liệu tách rời tuyến tính, không gian đặc trưng nên ánh xạ vào không gian nhiều chiều Việc ánh xạ thực hàm hạt nhân có điểm từ không gian đầu vào Cho hàm hạt nhân ánh xạ đến số thực độ tương tự Với điểm , hàm hạt nhân thỏa mãn: ( Trong ) ⟨ ( )⟩ ánh xạ từ không gian đầu vào X đến điểm liệu không gian đặc trưng H Để ứng dụng hàm hạt nhân phân lớp SVM, công thức (2.18) viết lại sau: 18 ∑ Với ∑∑ hạt nhân đo độ tương tự Cơng thức (2.21) viết lại dạng sau: ∑ ∑∑ Có loại hàm hạt nhân giới thiệu: linear, popynomial, radial basis sigmoid Loại đơn giản hàm hạt nhân tuyến tính cho hai câu hỏi xác định sau: ( ) ∑ 2.4 Hiệu suất phân loại câu hỏi Thông thường hiệu suất phân loại câu hỏi đo việc tính tốn xác phân loại vào tập kiểm tra cụ thể Độ xác phân loại câu hỏi định nghĩa sau: 19 Chương 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Lựa chọn phân loại Như trình bày phần 2.7, phân loại SVM chứng minh vượt trội so với phân loại khác.Chính vậy, khóa luận định lựa chọn phân loại SVM để thực thực nghiệm đánh giá.Để xây dựng phân loại SVM, thư viện LIBSVM áp dụng trình huấn luyện kiểm thử 3.2 Môi trường công cụ sử dụng thực nghiệm Cấu hình phần cứng, phần mềm gói kèm thực nghiệm sử dụng luận văn mô tả hai bảng sau đây: Bảng 3.1: Thông tin phần cứng STT Thành phần Chỉ số CPU Intel Core i3 1.8GHZ RAM 2GB Hệ điều hành Windows Bảng 3.2: Các công cụ phần mềm sử dụng STT Tên phần mềm Chức Nguồn LIBSVM 3.21 Phân loại câu hỏi http://www.csie.ntu.edu.tw/ ~cjlin/libsvm/ Eclipse Java EE Tạo mơi trường để viết chương trình xây dựng tập tin huấn luyện http://www.eclipse.org/dow nloads/index-helios.php Python 2.7.12 Tạo môi trường để kiểm https://www.python.org/dow thử với LibSVM nloads/release/python-2712/ 3.3 Tập liệu thử nghiệm Tập liệu sử dụng thực nghiệm tạo Li Roth.Chúng cung cấp tập liệu câu hỏi sử dụng rộng rãi nghiên cứu phân loại câu hỏi biết tập liệu UIUC tập liệu TREC.Đối với tập liệu TREC cung cấp loại câu hỏi dạng tập tin theo định dạng giống XML Trên trang web UIUC cung cấp tập tin danh sách câu hỏi mà câu hỏi gán nhãn phân loại sẵn Các tập tin xếp theo thứ tự 1000,2000, 3000, 4000 5500 câu hỏi gán nhãn Thêm vào đó, UIUC cung cấp tập tin để kiểm tra gồm 500 câu hỏi TREC 10.Từ đó, em 20 định chọn tập huấn luyện dựa kho liệu câu hỏi UIUC cho trình thực nghiệm Ví dụ dòng liệu tập liệu UIUC: HUM:ind Who was The Pride of the Yankees ? Nguyên tắc phân loại sử dụng để gán nhãn cho câu hỏi nguyên tắc phân loại giải thích chương 1.Nó bao gồm lớp thô 50 lớp mịn 3.4 Xử lý liệu Để bắt đầu sử dụng với thư viện này, ta cần phải xây dựng tập tin huấn luyện theo dịnh dạng Định dạng tập tin chứa liệu huấn luyện tập tin kiểm thử là: :: Trong đó: giá trị đích tập huấn luyện Đối với việc phân loại, số nguyên xác định lớp số nguyên Cụ thể tốn phân loại đại diện cho đặc trưng số thực Giá trị thể mức độ liên quan đặc trưng phân loại nằm khoảng [-1,1] Do đặc trưng phân loại câu hỏi đặc trưng nhị phân nên lúc huấn luyện giá trị Câu hỏi “Who was the Pride of Yankees” chuyển thành sau: 44 1:1 15:2 24:2 98:1 235:1 1934:1 4376:1 số (44) cho biết số lớp cặp lại (đặc trưng, giá trị) phân cách khoảng trống trong cặp phân cách dấu hai chấm (:) Hơn cặp đặc trưng nên xếp theo thứ tự tăng dần số đặc trưng Khi tất tập liệu huấn luyện kiểm tra chuyển định dạng trên, sau thực huấn luyện phân loại với tập liệu huấn luyện kiểm tra lại tập liệu kiểm tra độc lập 3.5 Huấn luyện kiểm thử với LibSVM Sau có file với định dạng chấp nhận thư viện LIBSVM, thực huấn luyện test Trong giai đoạn này, khóa luận sử dụng ngơn ngữ lập trình Python để thực tính đơn giản tiện lợi Cụ thể sau: - Load thư viện Libsvm : 21 from svmutil import * - Đọc liệu: Load liệu huấn luyện: yTrain tập nhãn lớp, xTrain liệu để train yTrain, xTrain = svm_read_problem('train_5000_fine_unigram.txt') Load liệu test: yTest tập nhãn lớp, xTest liệu để test yTest, xTest = svm_read_problem('TREC_10_fine_unigram.txt') - Xây dựng mơ hình phân lớp: m = svm_train(yTrain, xTrain, '-t -h 0') Ở đây, tham số „-t 0‟ loại hàm nhân lựa chọn tuyến tính (Linear), tham số „-h 0‟ tức khơng dùng tính co lại khoảng cách lớp - Phân loại câu hỏi dựa liệu test mơ hình thu trên: p_label, p_acc, p_val = svm_predict(yTest, xTest, m) Kết thu p_label: danh sách nhãn dự đoán câu hỏi, p_acc độ xác phân lớp 3.6 Kết thực nghiệm Độ xác phân loại sau thử nghiệm với phân loại SVM, lựa chọn đặc trưng unigram, bigram, sử dụng cách tính trọng số entropy sau: Bảng 3.3: Độ xác phân loại tập thô với đặc trưng unigram bigram Đặc trưng Unigram Bigram Độ xác 88,2% 85,6% Bảng 3.4: Độ xác phân loại tập mịn với đặc trưng unigram bigram Đặc trưng Unigram Bigram Độ xác 80,2% 73,8% 3.7 Kết luận Như vậy, sau thực nghiệm đánh giá phân loại SVM sử dụng đặc trưng unigram bigram, nhận thấy kết phân loại đạt với độ xác cao (80.2% tập mịn) Đặc trưng unigram cho kết phân loại cao đặc trưng bigram 22 TỔNG KẾT Phân loại câu hỏi vấn đề khó.Thực tế máy cần phải hiểu câu hỏi phân loại vào loại xác.Điều thực loạt bước phức tạp.Luận văn trình bày kiến thức toán phân loại câu hỏi giới thiệu số thuật toán để giải toán phân loại.Tuy nhiên, luận văn mang tính tìm hiểu ứng dụng có, khơng có đề xuất hay cải tiến để làm tăng độ xác phân loại Ngoài ra, luận văn thực nghiệm ngôn ngữ Tiếng Anh mà chưa mở rộng thực nghiệm sang ngôn ngữ Tiếng Việt Trong tương lai gần, hướng phát triển trước mắt luận văn cần tìm hiểu kết hợp đặc trưng khác để làm tăng độ xác phân loại.Thực phân loại nhiều ngôn ngữ ... phân loại câu hỏi 1.2.1 Định nghĩa phân loại câu hỏi Có nhiều định nghĩa khác phân loại câu hỏi, áp dụng định nghĩa phân loại văn bản, Håkan Sundblad[6] đưa định nghĩa phân loại câu hỏi sau: Phân. .. phân loại câu hỏi Chương trình bày tổng quan phân loại câu hỏi, giới thiệu hệ thống hỏi đáp, toán phân loại câu hỏi, cách tiếp cận giải toán, tổng quan tiếp cận học máy như: biểu diễn câu hỏi, phân. .. lớp câu hỏi, đặc trưng câu hỏi Chương 2: Một số mơ hình học máy phân loại câu hỏi Chương tập trung trình bày phân loại thường sử dụng: Naïve Bayes, K-láng giềng gần, Máy vector hỗ trợ liệt kê số

Ngày đăng: 15/01/2020, 22:50

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan