1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt 04

55 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 1,78 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ NƯƠNG CÁC PHƯƠNG PHÁP XÁC ĐỊNH MỐI QUAN HỆ ĐA NHÃN VÀ ỨNG DỤNG TRONG PHÂN LỚP ĐA NHÃN TIẾNG VIỆT LUẬN VĂN THẠC SỸ HÀ NỘI - 2015 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ NƯƠNG CÁC PHƯƠNG PHÁP XÁC ĐỊNH MỐI QUAN HỆ ĐA NHÃN VÀ ỨNG DỤNG TRONG PHÂN LỚP ĐA NHÃN TIẾNG VIỆT Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ Thống Thông Tin Mã số: 60480104 LUẬN VĂN THẠC SỸ CÁN BỘ HƯỚNG DẪN: TS Nguyễn Cẩm Tú HÀ NỘI - 2015 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc đến Cô Nguyễn Cẩm Tú người tận tình bảo tơi suốt trình thực luận văn Em xin chân thành cảm ơn Thầy Cô giáo trường Đại Học Cơng Nghệ, người tận tình bảo dạy dỗ trang bị cho kiến thức quý báu suốt thời gian học trường Em xin gửi lời cảm ơn tới thầy cô, anh chị, bạn em sinh viên phịng thí nghiệm KT-Sislab giúp em nhiều việc hỗ trợ kiến thức chun mơn để hồn thành tốt nghiệp luận văn Tôi muốn gửi lời cảm ơn tới bạn khoa CNTT người đồng hành suốt thời gian học tập Các bạn động viên giúp đỡ nhiều thời gian làm luận văn Cuối cùng, muốn gửi lời cảm ơn vô hạn đến gia đình bạn người ln bên động viên tơi để tơi hồn thành tốt luận văn Tôi xin chân thành cảm ơn! Hà Nội, ngày 07 tháng 07 năm 2015 Học viên Đỗ Thị Nương i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cam đoan Tôi xin cam đoan giải pháp tích hợp độ gần nhãn vào phương pháp học máy đa nhãn cho toán gán nhãn tiếng Việt trình bày luận văn thực hướng dẫn Tiến sỹ Nguyễn Cẩm Tú Tất tham khảo từ nghiên cứu liên quan đề nêu nguồn gốc rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 07 tháng 07 năm 2015 Tác giả Đỗ Thị Nương ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC MỞ ĐẦU Chương nhãn Giới thiệu chung toán phân lớp đa nhãn mối quan hệ 1.1 Đa nhãn – phân lớp đa nhãn .3 1.1.1 Đa nhãn – phân lớp đa nhãn 1.1.2 Bài toán phân lớp văn 1.1.3 Thách thức toán phân lớp đa nhãn 1.2 Phân lớp đa nhãn mối quan hệ nhãn .7 1.3 Kết luận chương Chương nhãn Các phương pháp phân lớp đa nhãn sử dụng độ gần 10 2.1 Mối quan hệ giữ nhãn (từ) 10 2.2 Xác định độ gần nhãn sử dụng Word2vec 10 2.2.1 Giới thiệu công cụ word2vec 10 2.2.2 Một số kỹ thuật sử dụng Word2Vec 11 2.2.3 Sử dụng word2vec để đo độ gần từ 13 2.3 Các phương pháp phân lớp đa nhãn sử dụng độ gần nhãn .14 2.3.1 Binary Relevance (BR) .14 2.3.2 Classifier Chain (CC) 15 2.3.3 Calibrated Label Ranking (CLR) 18 2.3.4 Collective Multi-Label Classifier (CML) 21 2.4 Phương pháp số độ đo đánh giá mơ hình phân lớp đa nhãn 24 2.4.1 Phương pháp đánh giá mơ hình phân lớp đa nhãn 24 2.4.2 Một số độ đo để đánh giá mơ hình phân lớp đa nhãn 24 2.5 Kết luận chương 27 Chương Mơ hình phân lớp đa nhãn cho văn tiếng việt sử dụng mối quan hệ nhãn 28 3.1 Mô tả phương pháp 28 3.2 Mơ hình tiếp cận toán .28 3.3 Pha Huấn luyện mơ hình 30 3.3.1 Quá trình tiền xử lý văn [3] 30 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.3.2 Biểu diễn văn mơ hình vector [3] .30 3.3.3 Học máy đa nhãn 32 3.3.4 Học máy đa nhãn tích hợp độ gần nhãn 32 3.4 Pha Phân lớp sử dụng mơ hình 33 3.5 Kết luận chương 34 Chương Thực nghiệm đánh giá 35 4.1 Giới thiệu thực nghiệm 35 4.2 Môi trường công cụ sử dụng thực nghiệm 35 4.2.1 Cấu hình phần cứng 35 4.2.2 Các phần mềm sử dụng .35 4.3 Mô tả tập liệu 36 4.3.1 Tập liệu đầu vào cho học máy đa nhãn 36 4.3.2 Tính khoảng cách nhãn 38 4.4 Thực nghiệm 40 4.5 Kết thực nghiệm 41 Kết luận 43 Tài liệu tham khảo 44 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH SÁCH HÌNH VẼ Hình 1.1: Ví dụ liệu đa nhãn Hình 1.2: Học đơn nhãn Hình 1.3: Học đa nhãn đơn thể Hình 1.4: Mơ hình phân lớp Hình 2.1: Mơ hình CBOW 11 Hình 2.2: Mơ hình Skip-gram liên tục 12 Hình 2.3: Ví dụ xác định độ gần từ sử dụng Word2Vec 13 Hình 2.4: Mã giả phương pháp Binary Relevance 15 Hình 2.5: Mã giả phương pháp CC 17 Hình 2.6: Mã giả phương pháp CLR 20 Hình 2.7: Mã giả phương pháp CML .23 Hình 3.1: Mơ hình phân lớp đa nhãn văn tiếng việt .29 Hình 4.1: Dạng tệp liệu ARFF 38 Hình 4.2: Biểu đồ ví dụ kết khoảng cách nhãn từ công cụ word2vec .39 Hình 4.3: Biểu đồ so sánh kết thực nghiệm 42 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH SÁCH BẢNG BIỂU Bảng 2.1: Các tệp nguồn Word2Vec 10 Bảng 2.2: Tập liệu ví dụ 14 Bảng 2.3: Minh họa phương pháp k-fold cross validation 24 Bảng 4.1: Cấu hình hệ thống thử ngiệm 35 Bảng 4.2: Một số phần mềm sử dụng 35 Bảng 4.3: Danh sách số nhãn 36 Bảng 4.4: Mô tả tệp liệu đầu vào cho thực nghiệm 39 Bảng 4.5: Kết thực nghiệm 41 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH SÁCH TỪ VIẾT TẮT MLL Multi Label Learning BR Binary Relevance MLkNN Multi – Label k-Nearest Neighbors CC Classifier Chain CLR Calibrated Label Ranking CML Collective Multi Label Classifier RLOSS Rank-Loss HLOSS Hamming-Loss AP Average Precision MAP Mean Average Precision SVN Support Vector Machine CBOW Continuous Bag Of Word vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TỔNG KẾT NHỮNG KÍ PHÁP TỐN HỌC ĐƯỢC SỬ DỤNG TRONG LUẬN VĂN Kí pháp Thuật ngữ tiếng Anh Ý nghĩa 𝒳 Instance Space Không gian thể d-chiều ℝ𝑑 𝑜𝑟 ℤ𝑑 𝒴 Label space Không gian nhãn với q nhãn {y1, y2, …, yq} 𝑥 Feature vector Vector đặc trưng d chiều thể x (x1, x2, …, xd)T (x ∈ 𝒳) 𝑌 Tagged label set Tập nhãn liên quan tới x (𝑌 ⊆ 𝒴) 𝑌̅ Complementary set Tập bù Y 𝒴 𝒟 Training set Tập huấn luyện đa nhãn {(𝑥𝑖 , 𝑌𝑖 ) | ≤ 𝑖 ≤ 𝑚} 𝑆 Test set Tập kiểm thử đa nhãn {(𝑥𝑖 , 𝑌𝑖 ) | ≤ 𝑖 ≤ 𝑝} Classifier Bộ phân lớp đa nhãn ℎ ∶ 𝒳 → 2𝑦 , h(x) trả tập nhãn phù hợp với x Real-valued function Hàm giá trị thực 𝑓 ∶ 𝒳 × 𝒴 → ℝ; f(x, y) trả độ tin cậy cho nhãn phù hợp x | | Cardinaity of A |𝐴| số phần tử A ⟦ ⟧ Predicate ⟦𝜋⟧ trả vị từ 𝜋 đúng, ngược lại ℎ( ) 𝑓( , ) 𝜙( , ) - 𝒟𝑗 Binary Training DataSet for j-th Label Tập huấn luyện nhị phân {(𝑥𝑖 , 𝜙(𝑌𝑖 , 𝑦𝑗 ))| ≤ 𝑖 ≤ 𝑚} dẫn xuất từ tập 𝒟 𝜓( , , ) - 𝜓(𝑌, 𝑦𝑗 , 𝑦𝑘 ) trả +1 𝑦𝑗 ∈ 𝑌 𝑦𝑘 ∉ 𝑌 -1 𝑦𝑗 ∉ 𝑌 𝑦𝑘 ∈ 𝑌 𝐷𝑗𝑘 Binary Training DataSet for Label Pair (yj, yk) Tập Binary learning algorithm Giải thuật học nhị phân ℬ 𝜙(𝑌, 𝑦) trả x 𝑦 ∈ 𝑌, -1 ngược lại cho nhãn thứ j huấn luyện nhị phân {(𝑥𝑖 , 𝜓(𝑌, 𝑦𝑗 , 𝑦𝑘 ))| 𝜙(𝑌𝑖 , 𝑦𝑗 ) ≠ 𝜙(𝑌𝑖 , 𝑦𝑘 ), ≤ 𝑖 ≤ 𝑚} dẫn xuất từ tập 𝒟 viii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Luận văn sử dụng biểu diễn văn dạng vector với số chiều đặc trưng sau lựa chọn Trọng số từ khóa khác Cách đơn giản gán trọng số giá trị nhị phân từ mục có mặt hay khơng có mặt văn Khi văn thành vector đặc trưng theo dạng sau: , , … Trong đó:  biểu diễn số nguyên dương, tham chiếu đến tập đặc trưng lựa chọn trình tiền xử lý liệu  biểu diễn độ quan trọng thuộc tính tập liệu học giá trị thuộc tính số nguyên dương (ví dụ giá trị 1) 3.3.2.3 Quá trình lựa chọn đặc trưng Biểu diễn văn theo vector đặc trưng nảy sinh vấn đề như: cần phải lựa chọn từ để biểu diễn cho văn đó? Và làm để lựa chọn từ đó? Các đặc trưng văn biểu diễn dạng vector:  Số chiều không gian đặc trưng thường lớn  Việc kết hợp đặc trưng độc lập thường không mang lại kết  Vector biểu diễn văn có nhiều giá trị khơng có đặc trưng văn Khi tập văn có kích thước lớn, ví dụ gần 3000 tài liệu, tập hợp tài liệu có số lượng từ mục khác vơ lớn Do đó, lựa chọn đặc trưng quan trọng cho tập văn lớn Lựa chọn đặc trưng chọn từ, cụm từ mang nhiều thông tin loại bỏ từ, cụm từ chứa lượng thông tin thấp Đối với toán phân lớp đa nhãn, số lượng nhãn từ lớn nên việc quản lý chúng trở nên khó khăn, đồng thời làm cho việc xử lý liệu thời gian học phân lớp tăng lên đáng kể Hướng giải lựa chọn đặc trưng: chọn nhãn, chọn từ theo tần suất văn (Document Frequency) Tần suất văn số tài liệu mà từ mục xuất Để lựa chọn từ mục theo phương pháp tần suất văn bản, ta cần phải tính tần suất văn với từ mục tập liệu học Sau đó, ta loại bỏ từ mục có tần suất nhỏ ngưỡng (ví dụ 2000 từ mục) để thu không gian từ mục nhỏ Đây kĩ thuật mà luận văn áp dụng để làm giảm số lượng tập đặc trưng 31 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.3.3 Học máy đa nhãn Luận văn sử dụng phương pháp phân lớp đa nhãn trình chương 2: Binary Relevance, Classifier Chain, Calibrated Label Ranking Collective MultiLabel Classifier Với phương pháp MLL, luận văn sử dụng tảng khác nhau:  Binary relevance: Naïve Bayes  Classifier Chain: J48  Calibrated Label Ranking: SVN  Collective Multi-Label Classifier: Maximun Entropy Phương pháp Naïve Bayes cổ điển sử dụng Maron vào năm 1991 Naïve Bayes dựa vào xác suất p (x|y) x đặc trưng, y nhãn xét Ý tưởng thuật toán sử dụng xác suất có điều kiện từ chủ đề để tính xác suất văn cần phân loại thuộc vào chủ đề Phương pháp giả định xuất tất từ văn độc lập với Như không đánh giá phụ thuộc cụm từ vào chủ đề cụ thể Điều giúp phương pháp tính tốn nhanh phương pháp khác với độ phức tập theo số mũ Cây định cấu trúc giống biểu đồ luồng, nút kiểm tra giá trị cho đặc trưng xác định Mỗi nhánh thể kết trình kiểm tra đại diện cho lớp phân bố lớp Nút nút gốc Thuật toán máy vector hỗ trợ (Support Vector Machine – SVM): Corters Vapnik giới thiệu vào năm 1995 SVM hiệu để giải tốn với liệu có số chiều lớn (như vector biểu diễn văn bản) Ý tưởng thuật toán cho trước tập huấn luyện biểu diễn khơng gian vector văn điểm, phương pháp tìm siêu mặt phẳng h định tốt chia điểm không gian thành lớp riêng biệt tương ứng lớp + lớp - Hiệu xác định siêu mặt phẳng định khoảng cách điểm gần mặt phẳng lớp Khoảng cách lớn mặt phẳng định tốt đồng nghĩa với việc phân loại xác ngược lại Mục đích cuối phương pháp tìm khoảng cách biên lớn 3.3.4 Học máy đa nhãn tích hợp độ gần nhãn Sử dụng phương pháp học máy đa nhãn trình bày trên, luận văn đưa vào việc tích hợp độ gần nhãn, từ vào phương pháp trình bày Cụ thể, sau tiền xử lý văn đầu vào, luận văn sử dụng công cụ word2vec để huấn luyện vector biểu diễn từ tập văn đầu vào tính khoảng cách nhãn (mà xác định sau trình lựa trọn đặc trưng) cho 32 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com việc phân lớp Khoảng cách nhãn sử dụng để tích hợp vào giải thuật học đa nhãn theo phương pháp đề xuất chương Chương tiếp thep trình bày rõ thực nghiệm cho việc tích hợp độ gần nhãn vào phương pháp học máy đa nhãn 3.4 Pha Phân lớp sử dụng mô hình Luận văn sử dụng mơ hình phân lớp đa nhãn kết hợp với việc phân lớp đa nhãn có tích hợp độ gần nhãn Từ đó, luận văn đánh giá mơ hình số độ đo 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.5 Kết luận chương Chương ba, luận văn trình bày tư tưởng phương pháp đề xuất cho toán phân lớp đa nhãn dựa việc tích hợp độ gần nhãn vào học máy đa nhãn Luận văn giới thiệu chi tiết pha bước phương pháp đề xuất Trong chương tiếp theo, luận văn tiến hành thực nghiệm phương pháp xây dựng đánh giá kết đạt phương pháp đề xuất 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Giới thiệu thực nghiệm Dựa vào mơ hình đề xuất chương theo phương pháp MLL có tích hợp độ gần từ trình bày chương 2, luận văn tiến hành thực nghiệm việc đánh giá phân lớp liệu tiếng Việt với gần 3000 báo http://vn.expresss.net Cụ thể, luận văn thực nghiệm để làm rõ kết mơ hình đề xuất cho phương pháp Clasiffier Chain với thực nghiệm sau: Thực nghiệm: Thực phân lớp liệu tiếng Việt với phương pháp Clasiffier Chain phương pháp Clasiffier Chain cập nhật để tích hợp kết độ gần nhãn 4.2 Môi trường cơng cụ sử dụng thực nghiệm 4.2.1 Cấu hình phần cứng Bảng 4.1: Cấu hình hệ thống thử ngiệm Thành phần CPU RAM OS Bộ nhớ Chỉ số Pentium (R) Dual Core 2GB Windows 210GB 4.2.2 Các phần mềm sử dụng Bảng 4.2: Một số phần mềm sử dụng STT Tên phần mềm Eclipse-SDKKepler-win32 Word2vec Tác giả Chức Nguồn Môi trường pháp http://www.eclipse.org triển /downloads - Mikolov cộng Lấy vector Google năm diễn từ 2013 biểu https://code.google.co m/p/word2vec/ Ngồi cơng cụ trên, luận văn tiến hành cài đặt chỉnh sửa mô đun xử lý dựa ngôn ngữ Java C, bao gồm package sau: Mô đun l-distance: Được cài đặt sử dụng ngôn ngữ C, mô đun lấy đầu vào vector biểu diễn từ sinh sử dụng công cụ Word2Vec để đưa tệp đầu tệp gồm tập khoảng cách cặp nhãn 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mô đun w2vmodel: Được cài đặt sử dụng ngôn ngữ Java, mô đun đọc vào tệp tin khoảng cách cặp nhãn từ mô đun l-distance để xây dựng đối tượng cho việc lấy khoảng cách nhãn dựa số nhãn Mô đun jdocTag: Được cài đặt sử dụng ngôn ngữ Java, mô đun gọi thư viện weka mulan http://mulan.source-forge.net/starting.html) sau có tệp arff để chạy phương pháp phân lớp đa nhãn Classifier chain, phân rã toán thành phân lớp nhị phân, đồng thời tiến hành đánh giá phương pháp số độ đo Mơ đun jdocTag_m: Được cài đặt sử dụng ngôn ngữ Java, mô đun gọi thư viện weka sử dụng mã nguồn mulan http://mulan.sourceforge.net/starting.html) để chỉnh sửa hàm xây dựng phân lớp classifier chain theo phương pháp đề xuất Chương Khoảng cách cặp nhãn lấy sử dụng mô đun w2vmodel Sau tiến hành việc phân lớp đa nhãn đánh giá phương pháp mô đun jdocTag 4.3 Mô tả tập liệu 4.3.1 Tập liệu đầu vào cho học máy đa nhãn Luận văn sử dụng tập liệu xử lý [3] Tập liệu báo trang http://vnexpress.net với lĩnh vực Xã-hội, Kinh-doanh, Thế-giới, Khoahọc, Ơ-tơ-xe-máy, Bạn-đọc Dữ liệu thu thập báo có cấu trúc: dịng đầu nhãn (tags) báo, dòng lại nội dung báo Tập liệu 2694 báo sau loại bỏ báo trùng lặp loại bỏ số khơng có nhãn top 100 nhãn có tần số cao Tổng hợp tất nhãn có 2694 báo, sau lấy 100 nhãn có tần số lớn làm nhãn liệu Sau đây, danh sách 100 nhãn ứng với định dạng nhãn (DF) Bảng 4.3: Danh sách số nhãn Tên nhãn (DF) Tên nhãn (DF) Tên nhãn (DF) Tên nhãn (DF) mỹ (210) honda (57) điếu (39) động_vật (29) tết (179) tranh_chấp (56) senkaku (39) cháy (29) xe (154) chia_tay (54) ngư (39) đà_nẵng (28) tiên (112) môtô (53) biển (39) yamaha (28) trung_quốc (106) tình_yêu (51) cặp_bồ (38) tập_trận (28) người (101) mơ_tơ (49) mâu_thuẫn (37) khoa_học (28) gia_đình (100) phú (48) đức (36) hải_quân (28) 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com giao_thơng (96) nhà (48) sóc_trăng (36) bắt_giữ (28) nhật_bản (90) chồng (48) giết_người (36) đảo (27) vàng (87) (47) cướp (36) tài_sản (27) tai_nạn (85) xe_hơi (46) quân_sự (35) thử (27) hạnh_phúc (84) việt (46) tỷ (34) (27) hà_nội (80) công_an (46) tỵ (34) nạn_nhân (26) quê_hương (77) ngân_hàng (45) tên_lửa (34) jong (26) ôtô (74) máy_bay (44) thanh_hóa (34) cưỡng_hiếp (26) nga (73) cảnh_sát (44) bình_dương (34) cơng_nghệ (26) (71) anh (43) tổng_thống (33) đường (25) việt_nam (70) hiếp_dâm (42) tàu (33) scooter (25) ly_hơn (70) tịa_án (41) sjc (33) khơng (25) xuân (67) thứ_ba (41) hỏa (33) thế_giới (24) triều (66) siêu (41) tử_vong (32) năm_mới (24) ô_tô (63) lừa_đảo (41) quảng_ngãi (32) độ (23) xe_máy (62) hàn_quốc (41) quý (32) xe_buýt (23) giá (62) chứng_khoán (41) quốc (31) vợ (23) hạt_nhân (60) ấn_độ (40) tư_vấn (30) triển_lãm (15) Sau đó, ta xây dựng tệp chứa 100 nhãn có tần số xuất lớn nhất, tiến hành loại bỏ số báo mà khơng có nhãn thuộc top 100 nhãn mà ta xét Sau đó, tổng hợp tệp word chứa tất từ báo mà vừa có Theo phương pháp TF, xây dựng tệp word chứa 2000 từ (đặc trưng) có tần số lớn báo Theo mẫu liệu Mulan, Tệp ARFF tệp chứa liệu: định nghĩa đặc trưng nhãn liệu có dạng sau: 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 4.1: Dạng tệp liệu ARFF Tệp ARFF gồm tên mối tương quan (@relation); danh sách đặc trưng từ 1-> 2000 phương pháp TF danh sách nhãn từ 1-> 100; liệu định nghĩa sau @data dòng báo Sau xây dựng tệp liệu thử nghiệm, ta chia tệp liệu thành tập liệu học liệu kiểm tra theo phương pháp k-fold cross validation 4.3.2 Tính khoảng cách nhãn Từ tập liệu từ tách từ báo, luận văn sử dụng liệu đầu vào công cụ word2vec để sinh vector biểu diễn từ khoảng cách nhãn Sau đó, luận văn tính độ gần nhãn 100 nhãn đầu vào xuất tệp tin txt Tệp tin sử dụng giải thuật phân lớp đa nhãn Classifier 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chain để tích hợp độ gần nhãn vào phương pháp Classifier Chain ban đầu Biểu đồ sau trình bày ví dụ khoảng cách nhãn “tết” với nhãn lại tập nhãn với giá trị khoảng cách sinh từ word2vec: Biểu đồ biểu diễn khoảng cách nhãn "tết" với nhãn tập nhãn 0.6 0.5 0.4 0.3 0.2 0.1 tịa_án chồng hải_qn hiếp_dâm trung_quốc tỷ tập_trận cơng_nghệ hạt_nhân đảo sjc nạn_nhân yamaha vàng năm_mới đà_nẵng việt người không nhà lừa_đảo xe quý_tỵ thanh_hóa -0.2 quê_hương -0.1 xn -0.3 Hình 4.2: Biểu đồ ví dụ kết khoảng cách nhãn từ công cụ word2vec Luận văn sử dụng tệp liệu đầu vào cho việc chạy thực nghiệm sau: Bảng 4.4: Mô tả tệp liệu đầu vào cho thực nghiệm STT Tên Tệp tin Mô tả tệp tin Tệp chứa 2000 từ (đặc trưng) có docs.txt tần số lớn báo, xây dựng từ phương pháp TF Tệp chứa kết paritition theo partitions.txt phương pháp k-fold cross validation vnexp.arff Tệp liệu ARFF vnexp.xml Tệp xml định nghĩa nhãn Sử dụng Tập từ vựng đầu vào cho word2vec tool để lấy vector biểu diễn từ Tệp partition đầu vào cho việc phân lớp đa nhãn Tệp liệu đầu vào cho việc phân lớp đa nhãn Tệp định nghĩa nhãn đầu vào cho việc phân lớp đa nhãn 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.4 Thực nghiệm Q trình thực nghiệm gồm bước sau đây: Bước 1: Sinh tệp vectors biểu diễn tất từ sử dụng công cụ word2vec Bước 2: Sinh tệp chứa khoảng cách cặp nhãn Bước 3: Chạy với thực nghiệm mục 4.1 Bước 4: Đánh giá phương pháp MLL đánh giá thực nghiệm mục 4.1 qua số độ đo: thời gian, hloss, oneError, rloss, AP, MAP 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.5 Kết thực nghiệm Luận văn thực nghiệm với lần 3-fold-cross-validation cho thực nghiệm, kết ghi lại với thực nghiệm sau: Thực nghiệm: Thực phân lớp liệu tiếng Việt với phương pháp Clasiffier Chain (CC) phương pháp Clasiffier Chain (CC-m) cập nhật để tích hợp kết độ gần nhãn, đánh giá phương pháp MLL với số độ đo: Bảng 4.5: Kết thực nghiệm k Thuật toán Thời gian (s) ↓ hloss ↓ oneError ↓ Coverage rloss ↓ AP ↑ MAP ↑ CC 1974446 0.0231 0.6337 42.5307 0.2717 0.3897 0.2407 CC-m 1910255 0.0228 0.6190 42.5816 0.2716 0.3950 0.2507 CC 2099641 0.0235 0.6203 40.7567 0.2616 0.4060 0.2318 CC-m 1936269 0.0235 0.6136 38.9813 0.2459 0.4156 0.2365 CC 1995075 0.0230 0.6337 40.3275 0.2607 0.3997 0.2391 CC-m 2012868 0.0230 0.6350 40.8877 0.2662 0.3974 0.2450 Sau biểu đồ thể so sánh độ xác trung bình (AP) Độ xác trung bình N xếp hạng (MAP) phương pháp thực nghiệm với lần thử nghiệm đầu k=0 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Biểu đồ so sánh kết AP MAP hai phương pháp CC CC-m 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 AP ↑ MAP ↑ CC CC-m Hình 4.3: Biểu đồ so sánh kết thực nghiệm Dựa kết thực nghiệm, luận văn đưa nhật xét sau: Độ xác trung bình độ xác trung bình N xếp hạng phương pháp Classifier Chain chỉnh sửa để tích hợp độ gần nhãn vào thuật toán học đa nhãn so với phương pháp Classifier Chain ban đầu từ thư viện mulan cho kết tốt Ngoài ra, dựa vào bảng kết thực nghiệm với phương pháp đánh giá hloss - MAP 3-fold cross validation, so sánh kết CC vs CC-m ta thấy tỉ lệ: tốt hơn/tương đương/kém 12/2/4 Như vậy, thấy rõ CC-m tốt CC 12 lần, lần tương đương thua lần Kết luận chung CC-m tốt CC 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN Qua trình tìm hiểu nghiên cứu, luận văn thấy vai trò quan trọng tính cấp thiết tốn phân lớp đa nhãn Luận văn đưa số phương pháp phân lớp đa nhãn áp dụng phương pháp vào liệu tiếng Việt Đồng thời, luận văn trình bày phương pháp xác định độ gần nhãn đưa đề xuất tích hợp độ gần vào phương pháp phân lớp đa nhãn trình bày Từ đó, luận văn đề xuất mơ hình giải toán phân lớp đa nhãn Luận văn đạt kết sau: 1) Giới thiệu toán phân lớp đa nhãn làm rõ số phương pháp phân lớp đa nhãn 2) Giới thiệu phương pháp xác định độ gần nhãn đưa đề xuất để tích hợp độ gần nhãn, từ phương pháp phân lớp đa nhãn tìm hiểu 3) Nghiên cứu đánh giá phương pháp phân lớp đa nhãn với phương pháp đề xuất dựa thực nghiệm 4) Áp dụng phương pháp học máy đa nhãn cho toán gán nhãn tiếng Việt Tuy nhiên, hạn chế mặt thời gian nên luận văn số hạn chế như: chưa áp dụng thực nghiệm miền liệu phong phú, chưa cài đặt tiến hành thực nghiệm tất phương pháp đề xuất Trong thời gian tới, tiếp tục mở rộng luận văn cách cài đặt thực nghiệm phương pháp đề xuất vào việc phân lớp đa nhãn Đồng thời, luận văn đưa thêm số độ đo để đánh giá phương pháp phân lớp đa nhãn Bên cạnh kết được, luận văn cịn có nhiều thiếu sót hạn chế, tơi mong đóng góp ý kiến thầy bạn bè 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO Tiếng Việt: [1] T T L Hương, Nghiên cứu phân lớp tự động văn báo chí tiếng Việt tài ngun mơi trường, Hà Nội: Luận văn thạc sỹ, Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội, 2012 [2] N T T Linh, Phân lớp tài liệu web độc lập ngơn ngữ, Hà Nội: Khóa luận tốt nghiệp, Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội, 2006 [3] N T Thảo, Các phương pháp phân lớp đa nhãn văn tiếng Việt, Hà Nội: Khóa luận tốt nghiệp, Trường Đại học Cơng Nghệ - Đại học Quốc Gia Hà Nội, 2013 [4] H Q Thụy, Bài giảng nhập môn khai phá liệu, Trường Đại học Công Nghệ Đại học Quốc Gia Hà Nội, 2013 Tiếng Anh: [5] N V Cuong, N T T Linh, P X Hieu and H Q Thuy, "A Maximum entropy model for text classification," Proceedings of the 6th International Conference on Internet Information Retrieval (IRC 2006), p 143–149, 2006 [6] N Ghamrawi and A McCallum, "Collective multi-label classification," Computer Science Department Faculty Publication Series, 2005 [7] T Grigorios and V Ioannis, "Random k-Labelsets: An ensemble method for multilabel classification," Lecture Notes in Computer Science, pp 406-417, 2007 [8] R Jesse, P Bernhard, H Geoff and F Eibe, "Classifier chains for multi-label classification," Machine Learning and Knowledge Discovery in Databases, vol 5782, pp 254-269, 2009 [9] F Johannes, H Eyke and L Eneldo, "Multilabel classification via calibrated label ranking," Machine Learning, vol 73, no 2, pp 133-153 [10] R B Matthew , L Jiebo , S Xipeng and M B C.M.Christopher, "Learning multi label scene classification," Pattern Recognition, vol 37, no 9, pp 1757-1771, 2004 [11] Mikolov, T., Chen, K., Corrado, G and Dean, J., "Efficient Estimation of Word Representations," no in Proceedings of Workshop at ICLR, 2013 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [12] Z Min-Ling and Z Kun, "Multi-label learning by exploiting label dependency," Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 999-1008, 2010 [13] Z Min-Ling and Z Zhi-Hua, "A review on multi-Label learning algorithms," Knowledge and Data Engineering, IEEE Transactions on, vol 26, no 8, pp 819 837, 2014 [14] Z Min-Ling and Z Zhi-Hua, "ML-KNN: A lazy learning approach to multi-label learning," National Laboratory for Novel Software Technology Nanjing University, Nanjing 210093, China, pp 2038-2048, 2007 [15] Sorower and S Mohammad, "A literature survey on algorithms for multi-label learning," Corvallis, OR, Oregon State University, 2010 [16] "https://code.google.com/p/word2vec/," [Online] 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... NGHỆ ĐỖ THỊ NƯƠNG CÁC PHƯƠNG PHÁP XÁC ĐỊNH MỐI QUAN HỆ ĐA NHÃN VÀ ỨNG DỤNG TRONG PHÂN LỚP ĐA NHÃN TIẾNG VIỆT Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ Thống Thông Tin Mã số: 6048 0 104 LUẬN VĂN... BÀI TOÁN PHÂN LỚP ĐA NHÃN VÀ MỐI QUAN HỆ GIỮA CÁC NHÃN 1.1 Đa nhãn – phân lớp đa nhãn 1.1.1 Đa nhãn – phân lớp đa nhãn Trong nhiệm vụ học giám sát truyền thống toán đơn nhãn, thể liên tới nhãn xét... tận dụng mối quan hệ nhãn phân lớp đa nhãn Chương tiếp theo, luận văn giới thiệu phương pháp xác định độ gần nhãn, số phương pháp phân lớp đa đề xuất cho việc tích hợp độ gần nhãn vào phương pháp

Ngày đăng: 05/12/2022, 15:26

HÌNH ẢNH LIÊN QUAN

Hình 1.2: Học đơn nhãn - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
Hình 1.2 Học đơn nhãn (Trang 14)
Hình 1.4: Mơ hình phân lớp - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
Hình 1.4 Mơ hình phân lớp (Trang 16)
Ý tưởng của mơ hình CBOW là mơ hình dự đốn từ hiện tại dựa trên các từ xung quanh hay các từ trong cùng ngữ cảnh - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
t ưởng của mơ hình CBOW là mơ hình dự đốn từ hiện tại dựa trên các từ xung quanh hay các từ trong cùng ngữ cảnh (Trang 21)
Hình 2.2: Mơ hình Skip-gram liên tục - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
Hình 2.2 Mơ hình Skip-gram liên tục (Trang 22)
Hình 2.3: Ví dụ về xác định độ gần nhau giữa các từ sử dụng Word2Vec - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
Hình 2.3 Ví dụ về xác định độ gần nhau giữa các từ sử dụng Word2Vec (Trang 23)
Phần này sẽ trình bày về một số phương thức đa nhãn điển hình cho các cách tiếp cận về mối quan hệ đa nhãn - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
h ần này sẽ trình bày về một số phương thức đa nhãn điển hình cho các cách tiếp cận về mối quan hệ đa nhãn (Trang 24)
Hình 2.5: Mã giả của phương pháp CC - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
Hình 2.5 Mã giả của phương pháp CC (Trang 27)
Hình 2.6: Mã giả của phương pháp CLR - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
Hình 2.6 Mã giả của phương pháp CLR (Trang 30)
Hình 2.7: Mã giả của phương pháp CML - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
Hình 2.7 Mã giả của phương pháp CML (Trang 33)
2.4 Phương pháp và một số độ đo đánh giá các mơ hình phân lớp đa nhãn - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
2.4 Phương pháp và một số độ đo đánh giá các mơ hình phân lớp đa nhãn (Trang 34)
Hình 3.1: Mơ hình phân lớp đa nhãn văn bản tiếng việt - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
Hình 3.1 Mơ hình phân lớp đa nhãn văn bản tiếng việt (Trang 39)
4.2.1 Cấu hình phần cứng - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
4.2.1 Cấu hình phần cứng (Trang 45)
Dựa vào mơ hình đề xuất ở chương 3 theo các phương pháp MLL cĩ tích hợp độ gần  nhau  của  các  từ  đã  trình  bày  ở  chương  2,  luận  văn  tiến  hành  thực  nghiệm  việc  đánh giá phân lớp dữ liệu tiếng Việt với gần 3000 bài báo trên http://vn.expresss - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
a vào mơ hình đề xuất ở chương 3 theo các phương pháp MLL cĩ tích hợp độ gần nhau của các từ đã trình bày ở chương 2, luận văn tiến hành thực nghiệm việc đánh giá phân lớp dữ liệu tiếng Việt với gần 3000 bài báo trên http://vn.expresss (Trang 45)
Bảng 4.3: Danh sách một số nhãn - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
Bảng 4.3 Danh sách một số nhãn (Trang 46)
Hình 4.2: Biểu đồ ví dụ về kết quả khoảng cách nhãn từ cơng cụ word2vec - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
Hình 4.2 Biểu đồ ví dụ về kết quả khoảng cách nhãn từ cơng cụ word2vec (Trang 49)
Bảng 4.5: Kết quả thực nghiệm - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
Bảng 4.5 Kết quả thực nghiệm (Trang 51)
Hình 4.3: Biểu đồ so sánh kết quả thực nghiệm - Luận văn thạc sĩ VNU UET các phương pháp xác định mối quan hệ đa nhãn và ứng dụng trong phân lớp đa nhãn tiếng việt  04
Hình 4.3 Biểu đồ so sánh kết quả thực nghiệm (Trang 52)