MÔ HÌNH HÓA CHỦ ĐỀ SUỐT ĐỜI VÀ ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

44 3 0
MÔ HÌNH HÓA CHỦ ĐỀ SUỐT ĐỜI VÀ ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Thị Minh Tươi MƠ HÌNH HĨA CHỦ ĐỀ SUỐT ĐỜI VÀ ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Hệ thống thơng tin HÀ NỘI - 2018 HÀ NỘI - 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Thị Minh Tươi MƠ HÌNH HĨA CHỦ ĐỀ SUỐT ĐỜI VÀ ỨNG DỤNG VÀO PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Hệ thống thông tin Cán hướng dẫn: PGS TS Hà Quang Thụy Cán đồng hướng dẫn: TS Phạm Thị Ngân HÀ NỘI - 2018 LỜI CAM ĐOAN Tôi xin cam đoan kết trình bày khóa luận tơi thực hướng dẫn PGS TS Hà Quang Thụy TS Phạm Thị Ngân Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày 26 tháng 04 năm 2018 Người cam đoan Trần Thị Minh Tươi i LỜI CẢM ƠN Đầu tiên, xin gửi lời cảm ơn sâu sắc đến PGS TS Hà Quang Thụy TS Phạm Thị Ngân, người trực tiếp tận tình bảo hướng dẫn từ ngày bước chân vào lĩnh vực nghiên cứu Thầy, Cô động lực nguồn cảm hứng lớn lao giúp giữ lửa đam mê nỗ lực không ngừng suốt trình học tập tham gia nghiên cứu trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Tôi xin gửi lời cảm ơn đến quý Thầy, Cô giáo thuộc trường Đại học Công nghệ - Đại học Quốc gia Hà Nội nói chung, khoa Cơng nghệ thơng tin nói riêng, truyền đạt nhiều kiến thức quý báu tạo điều kiện học tập thuận lợi cho suốt bốn năm đại học Tôi xin gửi lời cảm ơn chân thành đến thầy cô giáo, anh chị, bạn em sinh viên thuộc phịng thí nghiệm Khoa học liệu Công nghệ tri thức, khoa Công nghệ thông tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, đặc biệt thành viên thuộc nhóm nghiên cứu hỗ trợ tơi nhiệt tình kiến thức chun mơn, vật chất tinh thần để tơi hồn thành tốt khóa luận Cuối cùng, tơi gửi lời cảm ơn sâu sắc tới gia đình bạn bè tôi, người đồng hành, ủng hộ động viên tơi để tơi vượt qua nhiều thử thách khó khăn sống Tơi xin chân thành cảm ơn! Hà Nội, ngày 26 tháng 04 năm 2018 Sinh viên Trần Thị Minh Tươi ii TÓM TẮT Tóm tắt: Học máy suốt đời lên năm gần nhờ vào khả sử dụng tri thức học khứ cho việc học tại, giải số vấn đề mơ hình học máy lập như: địi hỏi lượng lớn ví dụ học, phù hợp với nhiệm vụ hẹp xác định… Mục đích khóa luận nghiên cứu giải thuật mơ hình hóa chủ đề suốt đời AMC (Z Chen B Liu, 2014), qua đề xuất phương pháp mơ hình hóa chủ đề suốt đời học thiên mức miền sử dụng mơ hình chủ đề suốt đời vào toán phân lớp đa nhãn văn tiếng Việt Phương pháp đề xuất bao gồm hai pha chính: (1) mơ hình hóa chủ đề suốt đời (2) phân lớp đa nhãn Tại pha thứ nhất, ý tưởng sử dụng miền gần việc sinh mơ hình chủ đề Các miền gần xác định thông qua độ tương tự hai chủ đề Tại pha thứ hai, giải thuật phân lớp đa nhãn bán giám sát sử dụng để đánh giá đóng góp mơ hình chủ đề đề xuất phân lớp đa nhãn Mơ hình chủ đề sinh từ pha (1) dùng để biểu diễn đặc trưng phân lớp đa nhãn Một vài thực nghiệm thực miền liệu tiếng Việt giải thuật phân lớp đa nhãn MULTICS (Pham cộng sự, 2017) Dữ liệu thực nghiệm chia thành tập có kích thước từ nhỏ tới lớn nhằm khai thác ảnh hưởng mơ hình đề xuất lên tập liệu nhỏ - vấn đề có ý nghĩa quan trọng học suốt đời Các kịch thực nghiệm so sánh hiệu suất phương pháp đề xuất với phương pháp mơ hình chủ đề khác LDA, AMC Kết thực nghiệm cho thấy phương pháp đề xuất tốt phương pháp LDA AMC trường hợp Từ khóa: học máy suốt đời, chủ đề suốt đời, miền gần, chủ đề gần, học thiên mức miền, độ đo tương tự hai túi từ, phân lớp đa nhãn iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT iii MỤC LỤC iv DANH SÁCH THUẬT NGỮ vii DANH SÁCH HÌNH VẼ viii DANH SÁCH BẢNG ix MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ HỌC MÁY SUỐT ĐỜI, PHÂN LỚP ĐA NHÃN VÀ SƠ BỘ BÀI TOÁN ĐỀ XUẤT 1.1 Học máy suốt đời 1.1.1 Định nghĩa LML 1.1.2 Mơ hình học máy suốt đời 1.2 Phân lớp đa nhãn 1.3 Sơ toán khóa luận CHƯƠNG CÁC PHƯƠNG PHÁP LDA, AMC, MULTICS 2.1 Mơ hình chủ đề suốt đời 2.1.1 Mơ hình chủ đề 2.1.2 Mô hình chủ đề suốt đời 2.1.3 Must-Links Cannot-Links 2.2 Mô hình chủ đề ẩn LDA 10 2.3 Mơ hình chủ đề suốt đời AMC 11 2.3.1 Tổng quan AMC 11 2.3.2 Mơ hình AMC 14 iv 2.4 Thuật toán phân lớp đa nhãn bán giám sát MULTICS 15 2.4.1 Phân lớp đa nhãn bán giám sát 15 2.4.2 Thuật toán phân lớp đa nhãn bán giám sát MULTICS 15 2.5 TF-IDF 18 2.5.1 TF (term-frequency) 19 2.5.2 IDF (inverse document frequency) 19 Tóm tắt chương 19 CHƯƠNG PHƯƠNG PHÁP ĐỀ XUẤT 20 3.1 Xây dựng toán 20 3.2 Xác định miền gần 20 3.2.1 Độ đo tương tự hai túi từ 20 3.2.2 Chủ đề gần 21 3.2.3 Xác định miền gần 21 3.3 Phương pháp mô hình hóa chủ đề suốt đời đề xuất 22 3.4 Phân lớp đa nhãn văn tiếng Việt áp dụng chủ đề suốt đời 23 Tóm tắt chương 24 CHƯƠNG THỰC NGHIỆM VÀ KẾT QUẢ 25 4.1 Tập liệu 25 4.2 Các kịch thực nghiệm đánh giá 26 4.3 Kết thực nghiệm đánh giá 27 4.1.1 Đánh giá chất lượng chủ đề mơ hình đề xuất với chủ đề mơ hình LDA, AMC 28 4.1.2 Đánh giá hiệu suất phân lớp đa nhãn sử dụng mơ hình chủ đề đề xuất với mơ hình chủ đề LDA, AMC 28 Tóm tắt chương 30 KẾT LUẬN 31 Kết luận 31 v Các công việc tương lai 31 TÀI LIỆU THAM KHẢO 32 vi DANH SÁCH THUẬT NGỮ Từ cụm từ Từ viết tắt Knowledge Base (Hệ sở tri thức) KB Trí tuệ nhân tạo AI Học máy suốt đời LML Term Frequency - Inverse Document Frequency TF-IDF vii DANH SÁCH HÌNH VẼ Hình 1.1 Mơ hình học máy suốt đời…………………………………………………….4 Hình 1.2 Mơ hình tổng quan tốn………………………………………………… Hình 2.1 Mơ hình AMC………………………………………………………………14 Hình 2.2 Khung phân lớp đa nhãn bán giám sát với việc giảm làm giàu đặc trưng…16 Hình 3.1 Mơ hình chủ đề suốt đời đề xuất…………………………………………… 22 Hình 3.2 Mơ hình phân lớp đa nhãn văn tiếng Việt sử dụng chủ đề suốt đời…… 24 viii Geogre Kingsley Zipf: Trong văn ngôn ngữ người, từ thứ n phổ biến xảy với tần số tỉ lệ nghịch với n Có nghĩa là, ln có tập từ mà tần số xuất hiện, sử dụng nhiều từ khác Vì vậy, cần phương pháp để cân mức độ quan trọng từ - phương pháp TF-IDF TF-IDF gồm hai số liệu thống kê: TF IDF, tính cơng thức: TF-IDF = TF*IDF Trong khố luận này, tơi sử dụng TF-IDF để xác định top từ có xác suất xuất cao tập văn để tính tốn độ đo miền gần 2.5.1 TF (term-frequency) TF dùng để ước tính tần suất xuất từ t văn d: TF(t, d) = (số lần xuất t d)/(tổng số từ d) Do TF mức độ phổ biến từ văn 2.5.2 IDF (inverse document frequency) Các từ quan trọng từ xuất nhiều số văn bản, đặc trưng cho văn chứa nó, từ xuất nhiều nhiều văn khơng quan trọng, ví dụ từ dừng Do đó, cần giảm giá trị từ không quan trọng tăng giá trị từ quan trọng cách sử dụng IDF Do IDF dùng để ước lượng mức độ quan trọng từ t văn d thuộc tập văn D IDF(t, D) = 𝑙𝑜𝑔𝑒 (tổng số văn d D/số văn d chứa t) Tóm tắt chương Chương trình bày nội dung trọng tâm lý thuyết công nghệ sử dụng tốn: mơ hình hóa chủ đề suốt đời, mơ hình chủ đề ẩn LDA, mơ hình chủ đề suốt đời AMC, giải thuật phân lớp đa nhãn bán giám sát MULTICS Chương tập trung vào chi tiết phương pháp đề xuất khóa luận 19 CHƯƠNG PHƯƠNG PHÁP ĐỀ XUẤT 3.1 Xây dựng toán Cho 𝑇1 , 𝑇2 , … , 𝑇𝑁 N nhiệm vụ mơ hình hố chủ đề thực khứ (gọi nhiệm vụ khứ) 𝐷𝑖 , 𝑉𝑖 , 𝑇𝑜𝑝𝑖𝑐𝑠𝑖 tập liệu, từ vựng, mơ hình chủ đề 𝑇𝑖 với i = 1, 2, , N Các 𝑡𝑜𝑝𝑖𝑐𝑠𝑖 xây dựng mơ hình chủ đề ẩn mơ hình chủ đề suốt đời Gọi S KB, lưu trữ tất thông tin, tri thức từ N nhiệm vụ khứ (S = ∅ N = 0) 𝑇𝑁+1 nhiệm vụ (hay nhiệm vụ mới) với tập liệu 𝐷𝑁+1 , từ vựng 𝑉𝑁+1 Bài toán đặt xây dựng mơ hình chủ đề suốt đời 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 dựa tri thức miền gần với miền từ S Mơ hình chủ đề suốt đời 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 sử dụng để xây dựng đặc trưng cho văn phân lớp đa nhãn, kết phân lớp dùng để đánh giá ảnh hưởng phương pháp đề xuất tới hiệu suất phân lớp đa nhãn (Hình 1.1) Phương pháp đề xuất tiến hành theo bước: Bước Xác định miền gần với miền phương pháp xác định miền gần giới thiệu phần 3.2 Bước Khi có miền gần, ta sử dụng tri thức miền để giúp mơ hình hóa chủ đề cho miền Bước Kết mô hình chủ đề miền sử dụng để xây dựng đặc trưng phân lớp đa nhãn 3.2 Xác định miền gần 3.2.1 Độ đo tương tự hai túi từ Cho hai túi từ A = {(𝑤𝑎𝑖 , 𝑝𝑎𝑖 )}, B = {(𝑤𝑏𝑖 , 𝑝𝑏𝑖 )}, 𝑤𝑎𝑖 , 𝑤𝑏𝑖 từ, 𝑝𝑎𝑖 , 𝑝𝑏𝑖 trọng số từ tương ứng, C tập từ vựng từ A B, C = {𝑤𝑎𝑖 } ∪ {𝑤𝑏𝑖 } Gọi 𝑣𝑎 , 𝑣𝑏 véc tơ trọng số A B xây dựng dựa C Độ đo tương tự A B, gọi similarity(A, B), định nghĩa độ đo cosine hai véc tơ 𝑣𝑎 , 𝑣𝑏 : Similarity(A, B) = cosine(𝑣𝑎 , 𝑣𝑏 ), 20 (1) Ví dụ, có hai túi từ A = {(trang_phục, 0.034586), (mũ, 0.024568), (đắt, 0.045683)} B = {(mũ, 0.012648), (đẹp, 0.021345), (áo, 0.048588)} Khi C = {trang_phục, mũ, đắt, đẹp, áo} Véc tơ trọng số A B có dạng: 𝑣𝑎 = (0.034586, 0.024568, 0.045683, 0, 0), 𝑣𝑏 = (0, 0.012648, 0, 0.021345, 0.048588) Độ tương tự A B tính sau: Similarity(A, B) = cosine(𝑣𝑎 , 𝑣𝑏 ) = 0.09136 3.2.2 Chủ đề gần Cho hai chủ đề A, B từ hai tập chủ đề khác nhau, hai chủ đề A B coi gần nếu: Similiaty(𝑇𝑜𝑝𝑀 (𝐴), 𝑇𝑜𝑝𝑀 (𝐵)) ≥ 𝜃, (2) Trong đó, 𝑡𝑜𝑝𝑀 (𝐴) 𝑡𝑜𝑝𝑀 (𝐵) tập M từ có xác suất xảy cao A B, 𝜃 ngưỡng chọn trước Similiaty(𝑇𝑜𝑝𝑀 (𝐴), 𝑇𝑜𝑝𝑀 (𝐵)) gọi độ đo chủ đề gần Độ đo chủ đề gần sử dụng để xác định miền gần 3.2.3 Xác định miền gần Cho hai tập liệu 𝐷𝑖 , 𝐷𝑗 nhiệm vụ 𝑇𝑖 , 𝑇𝑗 𝑉𝑖 , 𝑉𝑗 𝑇𝑜𝑝𝑖𝑐𝑠𝑖 , 𝑇𝑜𝑝𝑖𝑐𝑠𝑗 hai tập từ vựng chủ đề tương ứng 𝐷𝑖 , 𝐷𝑗 Miền tập 𝐷𝑗 gọi gần với miền tập 𝐷𝑖 thỏa mãn tất điều kiện sau: (i) Mức từ vựng: |𝑉𝑖 ∩𝑉𝑗 | |𝑉𝑗 | Thành phần |𝑉𝑖 ∩𝑉𝑗| |𝑉𝑖 ∩𝑉𝑗 | ( |𝑉𝑗 | |𝑉𝑖 | + |𝑉𝑖 ∩𝑉𝑗| |𝑉𝑖 | ≥ 𝜃1 (3) ) biểu thị mức độ 𝑉𝑗 (𝑉𝑖 ) có 𝑉𝑖 (𝑉𝑗 ) Trong thuật ngữ truy vấn thông tin, mức độ miền khứ 𝑉𝑖 thuộc miền 𝑉𝑗 có ý nghĩa độ xác, mức độ miền 𝑉𝑗 thuộc miền khứ 𝑉𝑖 có ý nghĩa độ đo hồi tưởng (ii) Mức từ: Similarity(𝑇𝑜𝑝𝑀 (𝑉𝑖 ), 𝑇𝑜𝑝𝑀 (𝑉𝑗 )) ≥ 𝜃2 21 (4) Trong đó, 𝑇𝑜𝑝𝑀 (𝑉𝑖 ), 𝑇𝑜𝑝𝑀 (𝑉𝑗 ) tập M từ có xác suất cao 𝑉𝑖 𝑉𝑗 , xác định phương pháp TF-IDF (iii) Mức chủ đề: Số chủ đề 𝑇𝑗 tương tự với chủ đề 𝑇𝑖 chia cho số chủ đề 𝑇𝑗 lớn ngưỡng cho trước: |{𝑡1 ∈𝑇𝑜𝑝𝑖𝑐𝑠(𝑇𝑖 )}|{{𝑡2 ∈𝑇𝑜𝑝𝑖𝑐𝑠(𝑇𝑗 )}⋀𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑡2 ,𝑡1 )≥𝜃3 | |𝑇𝑜𝑝𝑖𝑐𝑠(𝑇𝑗 )| ≥ 𝜃4 (5) Các giá trị 𝜃1 , 𝜃2 , 𝜃3 , 𝜃4 ngưỡng dương cho trước Như vậy, 𝐷𝑖 , i = 1, 2, …, N, trình xác định miền gần 𝐷𝑖 𝐷𝑁+1 gồm ba bước: (i) bước thực mức từ vựng, chuyển sang bước (ii) điều kiện (3) thỏa mãn, (ii) bước thứ hai thực mức top từ, chuyển sang bước (iii) thỏa mãn điều kiện (4), (iii) bước thứ ba thực mức chủ đề, thỏa mãn điều kiện (5) chứng tỏ miền 𝐷𝑖 gần với 𝐷𝑁+1 , tri thức học từ 𝐷𝑖 sử dụng để học 𝐷𝑁+1 3.3 Phương pháp mơ hình hóa chủ đề suốt đời đề xuất Phương pháp đề xuất mơ tả Hình 3.1 Hình 3.1 Mơ hình chủ đề suốt đời đề xuất Chi tiết mơ hình đề xuất trình bày sau: 22 Bước Cho N tập liệu 𝐷1 , 𝐷2 , … , 𝐷𝑁 N nhiệm vụ mô hình chủ đề thực khứ 𝑇1 , 𝑇2 , … , 𝑇𝑁 𝐷𝑁+1 tập liệu nhiệm vụ 𝑇𝑁+1 Bước Áp dụng mơ hình LDA cho tập 𝐷𝑁+1 , sinh tập chủ đề ẩn Nếu S rỗng (trong S chưa có tri thức khứ), có nghĩa 𝑇𝑁+1 nhiệm vụ đầu tiên, thêm toàn tập chủ đề ẩn 𝑇𝑁+1 vào S Nếu S khơng rỗng (trong S có tri thức q khứ), chuyển sang thực bước Bước Gọi S* KB tạm thời chứa tất tri thức miền khứ gần với miền từ S Các miền gần miền thỏa mãn điều kiện phần 3.2.2 Bước Bước áp dụng thuật toán AMC [2] để tinh chỉnh chủ đề, nhiên sử dụng tri thức từ S* Bước Các chủ đề kết tích hợp vào S, sử dụng cho nhiệm vụ mơ hình chủ đề tương lai Kết từ pha sử dụng pha phân lớp đa nhãn 3.4 Phân lớp đa nhãn văn tiếng Việt áp dụng chủ đề suốt đời Để tận dụng lợi ích liệu khơng nhãn, phương pháp đề xuất sử dụng mơ hình phân lớp đa nhãn bán giám sát MULTICS[] Trong MULTICS[], mơ hình chủ đề ẩn LDA sử dụng để xây dựng đặc trưng Khóa luận đề xuất sử dụng mơ hình chủ đề suốt đời đề xuất thay mơ hình chủ đề LDA (Hình 3.2) 23 Hình 3.2 Mơ hình phân lớp đa nhãn văn tiếng Việt sử dụng chủ đề suốt đời Các chủ đề 𝑇𝑁+1 (𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 ) sử dụng cho pha phân lớp đa nhãn chủ đề thu từ pha mơ hình hóa chủ đề suốt đời Các chủ đề sử dụng để xây dựng đặc trưng cho văn bản: gọi 𝑝(𝑑, 𝑗) xác suất mà văn d thuộc chủ đề 𝑗 ∈ 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 , véc tơ (𝑝(𝑑, 1), 𝑝(𝑑, 2), … , 𝑝(𝑑, 𝑘 )) (trong k số chủ đề) gọi véc tơ đặc trưng chủ đề ẩn Các đặc trưng sử dụng MULTICS để xây dựng đặc trưng cho phân lớp Để tránh rò rỉ ngoại lệ tương lai, tập liệu kiểm thử 𝐷𝑡𝑒𝑠𝑡 không sử dụng để xây dựng tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 Điều có ý nghĩa vơ quan trọng học máy suốt đời, tập liệu (hay tập liệu kiểm thử) nên xem đến từ tương lai Tóm tắt chương Chương trình bày chi tiết tốn đề xuất khóa luận Nội dung chương trình bày kết thực nghiệm đánh giá phương pháp đề xuất 24 CHƯƠNG THỰC NGHIỆM VÀ KẾT QUẢ 4.1 Tập liệu Khóa luận thực nghiệm hiệu suất phương pháp đề xuất bốn tập liệu đánh giá người dùng thuộc bốn miền khác nhau, bao gồm ba tập liệu khơng nhãn tập liệu có nhãn Tập liệu có nhãn sử dụng làm tập liệu pha mơ hình hóa chủ đề để sinh tập chủ đề (không sử dụng nhãn) pha phân lớp đa nhãn để đánh giá hiệu suất phương pháp đề xuất phân lớp đa nhãn (sử dụng nhãn) Tập liệu không nhãn sử dụng pha mơ hình hóa chủ đề Bảng 4.1 Các tập liệu thực nghiệm Tập liệu Số đánh giá Miền 𝐷1 26800 𝐷2 6479 Các đánh giá miền bảo tàng 𝐷3 1441 Các đánh giá miền điện thoại 𝐷4 1493 Các đánh giá miền khách sạn Các đánh giá miền du lịch Bốn tập liệu mô tả Bảng 4.1 Tập liệu 𝐷1 , 𝐷2 , 𝐷3 tập liệu không nhãn Tập liệu 𝐷4 tập liệu có nhãn, đánh giá 𝐷4 có nhiều nhãn: vị trí giá cả: bao gồm đánh giá tiện ích vị trí giá khách sạn, nhân viên: đánh giá tính chuyên nghiệp, thái độ nhân viên, nhân viên vệ sinh, nhân viên bảo vệ…, đồ ăn: đánh giá đồ ăn, đồ uống khách sạn, trang thiết bị : đánh giá tiện ích nội thất khách sạn, chất lượng phòng: đánh giá chất lượng phòng, chất lượng khách sạn Tập 𝐷4 sử dụng làm tập liệu tại, 𝐷1 , 𝐷2 , 𝐷3 tập liệu khứ Chia 𝐷4 thành hai phần: 𝐷4𝑡𝑒𝑠𝑡 𝐷4𝑡𝑟𝑎𝑖𝑛 𝐷4𝑡𝑒𝑠𝑡 gồm 300 đánh giá dùng làm tập liệu kiểm thử cho pha phân lớp; 𝐷4𝑡𝑟𝑎𝑖𝑛 gồm 1000 đánh giá, chia thành năm tập liệu huấn luyện 𝐷4𝑎 , 𝐷4𝑏 , 𝐷4𝑐 , 𝐷4𝑑 , 𝐷4𝑒 tương ứng với năm tập liệu pha mơ hình hố chủ đề, với kích thước tương ứng 100, 200, 400, 600, 1000 đánh giá 25 4.2 Các kịch thực nghiệm đánh giá Tiến hành ba kịch thực nghiệm với tập liệu 𝐷𝑁+1 {𝐷4𝑎 , 𝐷4𝑏 , 𝐷4𝑐 , 𝐷4𝑑 , 𝐷4𝑒 }: (i) Kịch thực nghiệm 1: Học lập: áp dụng mơ hình chủ đề LDA tập 𝐷𝑁+1 sinh tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 (ii) Kịch thực nghiệm 2: Học suốt đời: áp dụng mơ hình chủ đề suốt đời AMC [2] tập 𝐷𝑁+1 sinh tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 (iii) Kịch thực nghiệm 3: Học suốt đời: áp dụng mơ hình chủ đề suốt đời đề xuất khóa luận tập 𝐷𝑁+1 sinh tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 Các giá trị tham số để xác định miền gần công thức (1) – (5) là: 𝜃 = 0.1, 𝜃1 = 0.8, 𝜃2 = 0.1, 𝜃3 = 0.1, 𝜃4 = 0.2, M = 20 cho hai công thức (2) (4) Với kịch bản, sau sinh tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 , tiến hành hai kịch đánh giá: (i) Kịch đánh giá - Đánh giá chất lượng chủ đề mơ hình đề xuất với chủ đề mơ hình LDA, AMC Đánh giá chất lượng chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 sinh từ ba kịch thực nghiệm độ đo topic cohenrence giới thiệu [23] Topic cohenrence số đánh giá chất lượng chủ đề mà không sử dụng tập liệu tham chiếu bên ngoài, [23] rằng, chủ đề tiêu chuẩn không sử dụng đầy đủ thơng tin sẵn có, khơng cần tập liệu tham chiếu bên Độ lớn giá trị topic cohenrence tỉ lệ thuận với chất lượng chủ đề Cơng thức tính topic cohenrence [23] sau: 𝑀 𝑚−1 𝐶(𝑡; 𝑉 (𝑡) ) = ∑ ∑ log 𝑚=2 𝑙=1 (𝑡) (𝑡) (𝑡) 𝐷(𝑣𝑚 , 𝑣𝑙 ) + (𝑡) 𝐷(𝑣𝑙 ) (𝑡) Trong đó, 𝑉 (𝑡) = (𝑣1 , … , 𝑣𝑚 ) danh sách top 𝑀 từ có xác suất xảy chủ đề 𝑡 Thực nghiệm cho kịch đánh giá thực với số lượng chủ đề 10, 15, 20, 25 top M = 20 từ chủ đề (ii) Kịch đánh giá – Đánh giá hiệu suất phân lớp đa nhãn sử dụng mơ hình chủ đề đề xuất với mơ hình chủ đề LDA, AMC 26 Áp dụng mơ hình phân lớp đa nhãn mơ tả Hình 3.2 tập liệu huấn luyện 𝐷𝑁+1 với tập chủ đề tương ứng 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 sinh từ ba kịch thực nghiệm để so sánh hiệu suất phân lớp đa nhãn Đánh giá hiệu suất phân lớp đa nhãn khoá luận sử dụng ba số precision, recall, 𝐹1 tính sau: Precision(𝑇𝑃𝑗 , 𝐹𝑃𝑗 , 𝑇𝑁𝑗 , 𝐹𝑁𝑗 ) = Recall(𝑇𝑃𝑗 , 𝐹𝑃𝑗 , 𝑇𝑁𝑗 , 𝐹𝑁𝑗 ) = 𝐹1 = 2( 𝑇𝑃𝑗 𝑇𝑃𝑗 + 𝐹𝑃𝑗 𝑇𝑃𝑗 𝑇𝑃𝑗 + 𝐹𝑁𝑗 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛∗𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 ) Trong đó: - TP (true positive): mẫu mang nhãn dương phân lớp vào lớp dương FN (false negative): mẫu mang nhãn dương phân lớp sai vào lớp âm FP (false positive): mẫu mang nhãn âm phân lớp sai vào lớp dương - TN (true negative): mẫu mang nhãn âm phân lớp vào lớp âm Trong phân lớp đa nhãn, giá trị số cao hiệu suất phân lớp mơ hình tốt, giá trị đối đa số đánh giá Trong [4, 5] hiệu suất thuật toán MULTICS mang lại kết tốt với số lượng chủ đề 15 25, thực nghiệm cho kịch đánh giá thực với số lượng chủ đề 10, 15, 20, 25 4.3 Kết thực nghiệm đánh giá Đầu tiên cần xác định miền gần từ tập liệu khứ với tập liệu Bảng 4.2 thống kê kết tính tốn tập liệu 𝐷1 , 𝐷2 𝐷3 với 𝐷4𝑎 , 𝐷4𝑏 , 𝐷4𝑐 , 𝐷4𝑑 và𝐷4𝑒 Kết cho thấy có năm cặp miền gần: (𝐷1 , 𝐷4𝑎 ), (𝐷1 , 𝐷4𝑏 ), (𝐷1 , 𝐷4𝑐 ), (𝐷1 , 𝐷4𝑑 ), (𝐷1 , 𝐷4𝑒 ) Do đó, có tập liệu 𝐷1 sử dụng để tinh chỉnh mơ hình chủ đề miền liệu 𝐷𝑁+1 {𝐷4𝑎 , 𝐷4𝑏 , 𝐷4𝑐 , 𝐷4𝑑 , 𝐷4𝑒 } 27 Bảng 4.2 Số liệu kiểm tra miền gần Tập liệu D1 V W D2 T D3 C V W T C V W T C D4a 0.95 0.34 0.33 Y 0.86 0.13 N 0.41 0.03 0.06 N D4b 0.97 0.25 0.33 Y 0.86 0.03 0.13 N 0.46 0.06 N D4c 0.96 0.38 0.6 Y 0.84 0.03 0.13 N 0.45 0 N D4d 0.95 0.34 0.27 Y 0.82 0.03 0.13 N 0.44 0.13 N D4e 0.95 0.38 Y 0.81 0.03 0.13 N 0.44 0.06 N 0.4 (V: mức từ vựng, W: mức top từ, T: mức chủ đề, C: gần hay khơng, Y: có, N: khơng) 4.1.1 Đánh giá chất lượng chủ đề mơ hình đề xuất với chủ đề mơ hình LDA, AMC 4.1.2 Đánh giá hiệu suất phân lớp đa nhãn sử dụng mơ hình chủ đề đề xuất với mơ hình chủ đề LDA, AMC Tập chủ đề 𝑇𝑜𝑝𝑖𝑐𝑠𝑁+1 sử dụng để biểu diễn đặc trưng cho phân lớp đa nhãn Kết kịch thực nghiệm: phương pháp LDA cô lập, phương pháp học máy suốt đời AMC phương pháp đề xuất khóa luận đưa Bảng 4.2 Các so sánh hiệu suất mơ hình trình bày với trường hợp số lượng chủ đề khác nhau: 5, 10, 15, 20 chủ đề Trong hầu hết kịch bản, tất hệ thống có kết tốt tăng kích thước tập liệu huấn luyện từ 100 (𝐷4𝑎 ) lên 1000 (𝐷4𝑒 ) Trong kịch học LDA cô lập, kết tốt 77.64% trường hợp thực nghiệm với số chủ đề 20 tập liệu huấn luyện 1000 đánh giá (𝐷4𝑒 ) Hiệu suất mơ hình cải thiện hầu hết trường hợp với kịch thực nghiệm thứ hai: phương pháp AMC [2] tất trường hợp với kịch thứ ba: phương pháp đề xuất khóa luận Khi kích thước tập liệu huấn luyện nhỏ (𝐷4𝑎 , 𝐷4𝑏 ), độ cải thiện khoảng 2%, điều có ý nghĩa lớn học máy suốt đời Phương pháp đề xuất chí mang lại kết tốt AMC [2] tất thực nghiệm Trong trường hợp, độ cải thiện tăng khoảng 1% Các biểu diễn 28 rằng, kích thước tập liệu có ảnh hướng tới hiệu suất phân lớp Cụ thể, mơ hình phương pháp đề xuất hoạt động tốt thực lượng nhỏ đánh giá tập liệu huấn luyện Điều có nghĩa đặc trưng xây dựng từ cách tiếp cận đề xuất cung cấp hỗ trợ tốt cho việc phân lớp Bảng 4.3 Kết kịch thực nghiệm Các phương Học cô lập Học suốt đời Học suốt đời pháp LDA AMC[2] Phương pháp đề xuất NoT 10 15 20 TDS P R F1 P R F1 P R F1 % % % % % % % % % 𝐷4𝑎 63.26 50.38 56.09 65.19 52.42 58.11 62.94 54.72 58.54 𝐷4𝑏 70.68 55.24 62.01 74.68 58.52 65.62 75.32 59.03 66.19 𝐷4𝑐 80.72 67.43 73.48 𝐷4𝑑 82.42 68.96 75.09 84.38 𝐷4𝑒 82.31 𝐷4𝑎 62.94 50.13 55.81 63.14 52.72 57.46 62.18 53.64 57.59 𝐷4𝑏 71.13 54.76 61.88 𝐷4𝑐 84.01 68.19 75.28 84.01 68.19 75.28 84.01 69.19 75.89 𝐷4𝑑 84.47 69.21 76.08 84.74 69.21 76.19 84.74 69.21 76.19 𝐷4𝑒 82.26 72.11 76.58 83.58 71.25 76.92 84.52 72.26 77.91 𝐷4𝑎 62.94 50.13 55.81 63.14 51.27 56.59 𝐷4𝑏 72.7 𝐷4𝑐 84.01 68.19 75.28 84.01 68.19 75.28 84.01 68.19 75.28 𝐷4𝑑 84.47 69.21 76.08 84.74 69.21 76.19 84.78 69.47 76.36 𝐷4𝑒 84.23 72.01 77.64 83.58 73.68 78.32 84.82 73.52 78.77 𝐷4𝑎 61.18 49.17 54.53 63.14 50.13 55.89 𝐷4𝑏 72.43 71.5 67.18 74.05 83.07 67.43 74.44 68.7 75.74 85.05 69.47 76.47 76.53 83.58 71.25 76.92 83.28 72.99 55.76 63.11 54.7 82.5 62.33 73.7 73.7 73.7 29 57.76 64.76 73.7 62.5 77.8 58.36 65.14 52.62 57.14 57.76 64.76 74.03 58.02 65.05 62.5 51.62 56.54 57.76 64.76 73.38 57.51 64.48 25 𝐷4𝑐 83.93 67.12 74.59 84.01 68.19 75.28 84.01 68.19 75.28 𝐷4𝑑 84.35 69.42 76.16 84.74 69.21 76.19 84.78 69.47 76.36 𝐷4𝑒 83.93 71.52 77.23 83.58 71.25 76.92 84.82 72.52 78.19 (NoT: số lượng chủ đề, TDS: tập liệu huấn luyện, P: precision, R: recall) Mặt khác, mơ hình đề xuất mang lại kết tốt 78.77% thực nghiệm trường hợp số chủ đề 20 Khi số lượng chủ đề 25, hiệu suất hệ thống theo ba cách tiếp cận (tương ứng với ba kịch thực nghiệm) dường giảm Tình giải thích với số lượng chủ đề lớn gây tác động tới mối quan hệ chủ đề độ gần hai miền, tập liệu mơ hình Tóm tắt chương Chương trình bày kịch thực nghiệm khoá luận đánh giá, so sánh hiệu suất phương pháp đề xuất với phương pháp LDA, AMC[2] Kết cho thấy phương pháp đề xuất mang lại kết tốt so với phương pháp so sánh 30 KẾT LUẬN Kết luận Trong khóa luận tơi đưa kiến thức tổng quan học máy suốt đời phân lớp đa nhãn, đồng thời trình bày cơng nghệ, sở lí thuyết sử dụng tốn như: mơ hình chủ đề suốt đời, mơ hình chủ đề ẩn LDA, mơ hình chủ đề suốt đời AMC, phương pháp phân lớp đa nhãn bán giám sát MULTICS Cuối giới thiệu phương pháp mơ hình hóa chủ đề suốt đời, ứng dụng vào phân lớp đa nhãn văn tiếng Việt Phương pháp đề xuất gồm hai pha chính: mơ hình hóa chủ đề suốt đời dựa phương pháp AMC phân lớp đa nhãn dựa phương pháp MULTICS Chúng khai thác ảnh hưởng miền gần mơ hình chủ đề suốt đời sử dụng chủ đề suốt đời để biểu diễn đặc trưng phân lớp văn Các thực nghiệm cho thấy rằng, phương pháp đề xuất mang lại kết tốt so với phương pháp so sánh LDA, AMC [2] Các công việc tương lai Trong tương lai, tiến hành thực nghiệm miền liệu khác, với tùy chỉnh số chủ đề, ngưỡng 𝜃, kích thước tập liệu 𝐷𝑁+1 (có thể nhỏ kích thước 100) nhằm khai thác ảnh hưởng thông số thuật tốn đề xuất đánh giá mơ hình 31 TÀI LIỆU THAM KHẢO [1] Zhiyan Chen and Bing Liu, “Lifelong Machine Learning”, Synthesis Lectures on Artificial Intelligence and Machine Learning, Morgan & Claypool Publishers, 2006, Vol 10, pp 1- 11 [2] Zhiyan Chen and Bing Liu, “Mining Topics in documents: standing on the shoulders of big data”, In KDD 2014, pp 1116-1125 [3] Richard J Haier and Loyd G Humphreys, “Intelligence A Multidisciplinary Journal", Vol 3, 1979, pp 105-120 [4] Thi-Ngan Pham, Van-Quang Nguyen, Van-Hien Tran, Tri-Thanh Nguyen, and Quang-Thuy Ha, “A semi-supervised multi-label classification framework with feature reduction and enrichment”, Journal of Information anf Telecommunication, 2017, pp [5] Thi-Ngan Pham, Van-Quang Nguyen, Duc-Trong Dinh, Tri-Thanh Nguyen, and Quang-Thuy Ha, “MASS: a Semi-supervised Multi-label Classification Algorithm With specific Feature”, Studies in Computational Intelligence, Vol 170 (ACIIDS 2017), pp 37-47, 2017 [6] Sebastian Thrun and Tom M Mitchell, “Lifelong robot learning”, Robotics and Autonomous Systems, 1995, pp 25-46 [7] Sebastian Thrun, “Explanation-Based Neural Network Learning: A Lifelong Learning Approach”, Springer US, 1996 [8] David M Blei, Andrew Y Ng and Michael I Jordan, “Latent Dirichlet Allocation”, Journal of Machine Learning Research, 2003, P 994 - 997 [9] T Hofmann, “Probabilistic Latent Semantic Analysis”, Uncertainly in Artificial Intelligence (UAI), 1999 [10] Grigorios Tsoumakas and Ioannis Katakis, “Multi-Label Classification: An Overview”, Dept of Informatics, Aristotle University of Thessaloniki, pp 1-2 [11] M.-L Z S.-J H a Y.-F L Zhi-Hua Zhou, “Multi-Instance Multi-Label Learning with Application to Scene Classification”, National Key Laboratory for Novel Software Technology, pp 2291-2320, 2012 [12] Eva Gibaja and Sebastián Ventura, “A Tutorial on Multi-Label Learning”, ACM Computing Surveys (CSUR), vol 3, p 52, 2015 32 [13] Nguyen Van Quang, “An algorithm adaptation multi-label classification method and expriments on Vietnamese text”, Graduation Thesis, University of Engineering and Technology - VNUH, 2017, pp 13-14 [14] Geli Fei, Shuai Wang, and Bing Liu, “Learning Cumulatively to Become More Knowledgeable”, In KDD, 2016 [15] Lei Shu, Hu Xu, and Bing Liu, “Lifelong Learning CRF for Supervised Aspect Extraction”, Proceedings of Annual Meeting of the Association for Computational Linguistics, 2017 [16] Lei Shu, Hu Xu, and Bing Liu, “DOC: Deep Open Classification of Text Documents”, Proceedings of 2017 Conference on Empirical Methods in Natural Language Processing, 2017 [17] J K Pritchard, M Stephens and P Donnelly, “Inference of population structure using multilocus genotype data”, Vol 155 [18] D Andrzejewski, X Zhu M Craven, “Incorporating domain knowledge into topic modeling via Dirichlet Forest priors”, ICML, pp.25-32, 2009 [19] Z Chen, A Mukherjee, B.Liu, M.Hsu, M.Castellanos and R Ghosh, “Exploiting Domain Knowledge in Aspect Extraction”, EMNLP, pp.1655-1667, 2013 [20] Z Chen and B Liu, “Topic Modeling using Topics from Many Domains, Lifelong Learning and Big Data”, ICML, 2014 [21] B Liu, W Hsu Y Ma, “Mining association rules with multiple minimum supports”, KDD, pp 337-341, 1999 [22] Gauthier Doquire and Michel Verleysen, “Feature Selection with Mutual Information for Uncertain Data”, 2011 [23] 33

Ngày đăng: 10/05/2021, 01:12

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan