1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng

27 76 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,47 MB

Nội dung

Luận án tập trung vào chủ đề nghiên cứu phân lớp đa nhãn, tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn. Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụng vào phân lớp văn bản tiếng Việt.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thơng tin Mã số: 62.48.01.04 TĨM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2017 Cơng trình hồn thành tại: Trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS TS Hà Quang Thụy PGS.TS Phan Xuân Hiếu Phản biện: PGS TS Lương Chi Mai Viện CNTT, Viện Hàn lâm KH&CNVN Phản biện: PGS.TS Đỗ Văn Thành Bộ Kế hoạch Đầu tư Phản biện: TS Nguyễn Thị Minh Huyền Trường Đại học Khoa học Tự nhiên, ĐHQGHN Luận án bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp Đại học Công nghệ, ĐHQGHN vào hồi 09 ngày 12 tháng 12 năm 2017 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà MỞ ĐẦU Tính cấp thiết luận án Phân lớp tốn điển hình khai phá liệu; ứng dụng phân lớp xuất nhiều lĩnh vực đời sống Tính ứng dụng cao phân lớp làm cho tốn phân lớp tiến hóa từ đơn giản tới phức tạp theo hướng từ phân lớp đơn nhãn tới phân lớp đa nhãn phân lớp đa thể hiện, phân lớp đa nhãn đa thể Phân lớp đơn nhãn (phân lớp truyền thống) quy ước đối tượng liệu có nhãn Phân lớp đa nhãn quy ước đối tượng liệu có nhãn Phân lớp đa thể quy ước đối tượng liệu tương ứng với nhiều thể tương ứng với nhãn Phân lớp đa nhãn đa thể quy ước đối tượng liệu tương ứng với nhiều thể thể tương ứng với nhiều nhãn Phân lớp đa nhãn đòi hỏi tiến hóa phương pháp học máy cho giải pháp thích hợp với phần tử liệu đa nhãn vấn đề mối quan hệ nhãn, chi phí tính toán thuật toán, vấn đề cân nhãn, vấn đề đa chiều liệu Phân lớp đa nhãn chủ đề nghiên cứu, triển khai hút cộng đồng nghiên cứu rộng rãi với số nhóm nghiên cứu bật nhóm nghiên cứu Zhi-Hua Zhou, Min-Ling Zhang cộng sự, Ioannis P Vlahavas, Grigorios Tsoumakas cộng sự, Sebastián Ventura Soto cộng sự, v.v Luận án tập trung vào chủ đề nghiên cứu phân lớp đa nhãn, tiếp nối nghiên cứu trước tốn phân lớp đa nhãn, phương pháp biểu diễn liệu, lựa chọn đặc trưng tiếp tục giải vấn đề tồn liên quan đến tốn phân lớp đa nhãn Luận án tập trung nghiên cứu phân lớp đa nhãn ứng dụng vào phân lớp văn tiếng Việt Thứ nhất, luận án đề nghị thuật toán phân lớp đa nhãn khai thác đặc trưng riêng biệt dựa phân cụm bán giám sát (Thuật toán MULTICS [PTNgan5], [PTNgan6]) sở áp dụng chiến lược tham lam tích hợp hai thuật toán LIFT TESC Thứ hai, luận án đề nghị hai mơ hình biểu diễn liệu cho phân lớp đa nhãn mơ hình biểu diễn liệu đồ thị khoảng cách [PTNgan4] khai thác thông tin bậc cao trật tự khoảng cách đặc trưng văn mơ hình biểu diễn liệu chủ đề ẩn [PTNgan3] khai thác thông tin ngữ nghĩa ẩn văn làm giàu thêm đặc trưng cho mơ hình Đồng thời, luận án đề xuất hai mơ hình phân lớp đơn nhãn văn tiếng Việt tương ứng với hai toán ứng dụng thực tiễn bao gồm mơ hình gán nhãn thực thể có tên đề xuất [PTNgan1] mơ hình hệ tư vấn xã hội đề xuất [PTNgan2] Luận án thực thi thực nghiệm kiểm chứng thuật tốn mơ hình đề xuất Dữ liệu thực nghiệm thu thập từ trang web tiếng Việt liên quan tới miền ứng dụng Luận án cung cấp nghiên cứu tổng quan học máy đa nhãn Bố cục luận án gồm phần mở đầu bốn chương nội dung, phần kết luận danh mục tài liệu tham khảo Hình 0.1 cung cấp khung nhìn sơ phân bố chủ đề bốn chương luận án Chương cung cấp khái quát từ phân lớp đơn nhãn tới phân lớp đa nhãn; tập trung vào vấn đề học đa nhãn bao gồm phương pháp tiếp cận, rút gọn đặc trưng; độ đo phương pháp đánh giá Chương đề xuất hai mơ hình phân lớp đơn nhãn thơng qua hai tốn gán nhãn thực thể có tên hệ tư vấn xã hội tiếng Việt Hình 0.1 Phân bố chủ đề chương luận án Chương đề xuất hai mơ hình biểu diễn liệu cho phân lớp đa nhãn: sử dụng mơ hình chủ đề ẩn LDA mơ hình đồ thị khoảng cách kết hợp với mơ hình LDA Chương phân tích đề xuất tiếp cận phân lớp đa nhãn bán giám sát với đặc trưng riêng biệt dựa kỹ thuật phân cụm Chương TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN 1.1 Từ phân lớp đơn nhãn đơn thể tới phân lớp đa nhãn đa thể Mục cung cấp khung tổng quát tiến hóa tốn phân lớp từ phân lớp truyền thống đơn nhãn tới phân lớp đa nhãn đơn thể hiện, phân lớp đơn nhãn đa thể phân lớp đa nhãn đa thể 1.2 Giới thiệu chung phân lớp đa nhãn 1.2.1 Kỹ thuật phân lớp đa nhãn Kỹ thuật phân lớp đa nhãn định hướng theo hai tiếp cận kỹ thuật theo tiếp cận chuyển đổi toán kỹ thuật theo tiếp cận thích nghi thuật toán Kỹ thuật chuyển đổi toán đưa toán phân lớp đa nhãn trở toán phân lớp truyền thống sử dụng kỹ thuật vốn có Kỹ thuật thích nghi thuật tốn cải biên tht tốn vốn có cho tốn phân lớp truyền thống thích nghi với tốn phân lớp 1.2.2 Biểu diễn liệu cho phân lớp đa nhãn Ngồi đặc thù liệu tương ứng với nhiều nhãn lớp, liệu đầu vào tốn phân lớp đa nhãn có thêm số đặc điểm bổ sung so với liệu đầu vào toán phân lớp đơn nhãn Một số đặc điểm cần quan tâm độ đo liệu đa nhãn, phân bố nhãn tập liệu miền ứng dụng, quan hệ nhãn,… 1.2.3 Đánh giá phân lớp đa nhãn Trong toán học máy truyền thống, hiệu hệ thống học đánh giá thông qua độ đo thơng thường độ xác (accuracy), độ hồi tưởng (recall), độ đo hài hoà F-measure,… Tuy nhiên, việc đánh giá hiệu thực thi học đa nhãn phức tạp nhiều so với học đơn nhãn truyền thống mẫu đồng thời thuộc nhiều lớp Do đó, số độ đo đánh giá hiệu hệ thống học đa nhãn đề xuất M.L Zhang Z.H Zhou [Zhang14] chia độ đo thành hai nhóm độ dựa mẫu độ đo dựa nhãn 1.3 Giảm chiều liệu phân lớp đa nhãn Xu liệu lớn làm nảy sinh tượng “bủng nổ chiều liệu” làm ảnh hưởng trực tiếp đến việc áp dụng thuật tốn vốn có Mặt khác, tập đặc trưng tồn đặc trưng không liên quan dư thừa tác động khơng tốt tới hiệu học mơ hình phân lớp Hai vấn đề giảm chiều liệu đề xuất bao gồm giảm chiều đặc trưng đầu vào giảm chiều không gian nhãn đầu 1.4 Học bán giám sát cho phân lớp đa nhãn Việc gán nhãn cho liệu đòi hỏi nhiều cơng sức thời gian liệu khơng có nhãn sẵn có dễ dàng thu Tiếp cận học bán giám sát nhận quan tâm cộng đồng 1.5 Kết luận chương Chương trình bày dạng tốn phân lớp với bước phát triển từ phân lớp đơn nhãn, phân lớp đa nhãn đến phân lớp đa nhãn đa thể Chương tập trung vào trình bày tổng quan phân lớp đa nhãn bao gồm liệu đa nhãn biểu diễn liệu đa nhãn; kỹ thuật phân lớp đa nhãn phương pháp đánh giá phân lớp đa nhãn Chương HAI MƠ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG VIỆT 2.1 Mơ hình nhận diện thực thể có tên dựa trường ngẫu nhiên có điều kiện tiêu chuẩn kỳ vọng tổng quát 2.1.1 Nhận diện thực thể có tên Nhận diện thực thể có tên (NER) tốn nhóm tốn trích chọn thơng tin Bài tốn có nhiệm vụ tìm kiếm rút thơng tin liên quan đến thực thể văn bản, thông thường loại thực thể 2.1.2 Mơ hình đề xuất Tiêu chuẩn kỳ vọng tổng quát [Druck08] điều kiện hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mơ hình [Gideon08, Gideon10] Luận án đề xuất mơ hình gán nhãn bán giám sát [PTNgan1] sử dụng tiêu chuẩn kỳ vọng tổng quát [Gideon08] nhằm kết hợp tri thức tiền nghiệm vào mơ hình huấn luyện, khai thác mơ hình xác suất theo chủ đề ẩn Latent Dirichlet Allocation (LDA) để xây dựng tập ràng buộc phân phối xác suất đặc trưng tập thực thể cho trước, từ tính tốn kỳ vọng có điều kiện mơ hình Tiêu chuẩn kỳ vọng tổng qt sử dụng để xác định tham số ước lượng cho hàm mục tiêu mơ hình trường ngẫu nhiên có điều kiện CRFs tập đặc trưng mức từ đặc trưng từ loại (POS), đặc trưng theo ký tự đặc trưng theo cửa sổ trượt để bổ sung thêm quan hệ trước sau nhằm nâng cao hiệu cho mơ hình Bài tốn nhận diện thực thể có tên: Đầu vào: - D: tập liệu văn liên quan đến miền ứng dụng - DL ⊂ D: tập ví dụ mẫu chứa thực thể gán nhãn - DU ⊂ D: tập ví dụ mẫu chứa liệu văn chưa gán nhãn - L: tập thực thể có tên Đầu ra: - Bộ gán nhãn thực thể có tên M: DL Mơ hình giải tốn trình bày Quy trình 2.1 hình 2.1 Pha 1: Các bước tiền xử lý liệu Bước 1: Module tách câu, tách từ Bước 2: Gán nhãn từ loại cho từ POS Bước 3: Gán nhãn thực thể NER Pha 2: Xây dựng phân lớp bán giám sát dựa mơ hình trường điều kiện ngẫu nhiên CRF kết hợp tiêu chuẩn tổng quát Bước 1: Xây dựng tập ràng buộc tập DU Bước 2: Lựa chọn tập thuộc tính DL Bước 3: Xây dựng gán nhãn Bước 4: Đánh giá mơ hình Quy trình 2.1 Thủ tục giải tốn 2.1.3 Ứng dụng mơ hình Mơ hình áp dụng miền ứng dụng nhận diện thực thể có tên tiếng Việt văn pháp luật Thực nghiệm tiến hành số tập ràng buộc khác kết hợp với tập liệu huấn luyện khác để đánh giá mức độ ảnh hưởng ràng buộc liệu có nhãn đến mơ hình Đồng thời, chúng tơi tiến hành thực nghiệm gán nhãn thực thể sử dụng mơ hình CRF làm sở để so sánh với phương pháp đề xuất Hình 2.1 Mơ hình đề xuất Kết thực nghiệm Bảng 2.3 cho thấy, mơ hình đề xuất cho kết tốt 90.14% cao mơ hình sở ER PR% ORG PER LOC ALL 90.00 100.00 12.50 58.33 ORG PER LOC ALL 90.00 100.00 56.25 77.78 ORG PER LOC ALL 100.00 100.00 75.00 88.89 CRF RE% F1 % PR% 500 tokens of training data 75.00 81.82 90.00 66.67 80.00 100.00 100.00 22.22 25.00 72.41 64.62 63.89 1000 tokens of training data 100.00 94.74 90.00 83.33 90.91 100.00 81.82 66.67 56.25 87.50 82.35 77.78 1500 tokens of training data 71.43 83.33 100.00 100.00 100.00 100.00 100.00 85.71 75.00 88.89 88.89 88.89 CRF-GE RE% F1 % 100.00 66.67 100.00 82.14 94.74 80.00 40.00 71.88 100.00 90.91 75.00 87.50 94.74 95.24 64.29 82.35 83.33 90.91 100.00 91.43 90.91 95.24 85.71 90.14 Bảng 2.1 Kêt thực nghiệm mơ hình gán nhãn thực thể có tên 2.2 Một mơ hình phân lớp đơn nhãn hệ tư vấn xã hội 2.2.1 Sơ tư vấn xã hội Hệ tư vấn xã hội định nghĩa hai khía cạnh: theo nghĩa hẹp theo nghĩa rộng Trong đó, theo nghĩa hẹp, hệ tư vấn xã hội hệ tư vấn truyền thống có sử dụng quan hệ xã hội trực tuyến quan hệ niềm tin, quan hệ bạn bè, quan hệ thành viên, quan hệ theo dõi,… đầu vào bổ sung cho hệ thống Theo nghĩa rộng, hệ tư vấn xã hội hệ tư vấn hướng tới lĩnh vực phương diện xã hội 2.2.2 Mơ hình đề xuất Luận án đề xuất hệ thống tư vấn xã hội sử dụng mơ hình lọc cộng tác với phương pháp hướng người dùng xây dựng tập đặc trưng từ mối quan hệ xã hội độ tương đồng người dùng [PTNgan2] Mơ hình đề xuất xây dựng tập người dùng tin cậy dựa kết hợp kỹ thuật phân tích quan điểm người dùng, tính tốn độ tương đồng người dùng xây dựng tập đặc trưng khác nhằm đánh giá ảnh hưởng đặc trưng đền định tư vấn, phân tích thống kê sản phầm yêu thích người dụng tin cậy, lựa chọn sản phẩm có khả cao tư vấn cho người dùng Trong mơ hình, tập sản phẩm xem xét coi tập nhãn xác định trước, việc tư vấn sản phẩm gán cho người dùng sản phẩm tập sản phẩm xem xét Bài toán tư vấn xã hội: Đầu vào: - D: Tập liệu tập bình luận người dùng sản phẩm Chia tập D thành tập Dtrain làm liệu huấn luyện Dtest làm liệu kiểm thử - L: Danh sách sản phẩm quan tâm Đầu ra: - Hệ tư vấn sản phẩm cho người dùng M:DtrainL LDA [Blei03, Blei12] 3.1.2 Mơ hình phân lớp đa nhãn văn dựa biểu diễn liệu theo chủ đề ẩn Phát biểu toán phân lớp sử dụng phương pháp biểu diễn liệu theo chủ đề ẩn sau: Đầu vào: - : tập liệu văn đa nhãn chia thành tập Dtrain làm tập liệu huấn luyện tập Dtest làm tập liệu kiểm thử - DU: tập liệu không nhãn liên quan đến chủ đề thuộc miền ứng dụng để xây dựng mô hình chủ đề ẩn - L: tập nhãn cho trước gồm q nhãn Đầu ra: - Mơ hình phân lớp đa nhãn M cho M đánh giá kiểm thử đạt hiệu cao Mơ hình đề xuất thể Quy trình 3.1 mơ hình đề xuất hình 3.1 Pha 1: Huấn luyện mơ hình Bước 1: Tiền xử lý liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa liệu biểu diễn liệu theo đặc trưng TF.IDF cho tập Dtrain Bước 2: Xây dựng mơ hình chủ đề ẩn LDA tập DU tập đặc trưng phân phối chủ đề ẩn câu tập Dtrain Bước 3: Lựa chọn đặc trưng dựa phương pháp thông tin tương hỗ MI [Doquire11] để rút gọn tìm tập đặc trưng tiêu biểu cho trình phân lớp Bước 4: Xây dựng phân lớp đa nhãn Pha 2: Phân lớp đa nhãn sử dụng mơ hình huấn luyện Bước 1: Tiền xử lý liệu kiểm thử Dtest Bước 2: Xây dựng tập đặc trưng cho liệu kiểm thử Dtest Bước 3: Phân lớp sử dụng phân lớp đa nhãn Pha Quy trình 3.1 Thủ tục giải tốn 11 Hình 3.1 Mơ hình đề xuất Trọng tâm mơ hình xây dựng tập đặc trưng bao gồm đặc trưng TF.IDF đặc trưng phân phối xác suất chủ đề ẩn LDA văn thực bước 1, pha huấn luyện mơ hình Mơ hình chủ đề ẩn LDA cung cấp đặc trưng ngữ nghĩa ẩn văn nhằm biểu diễn văn đầy đủ Ngồi ra, mơ hình áp dụng kỹ thuật lựa chọn đặc trưng nhằm làm loại bỏ đặc trưng dư thừa, chọn lọc đặc trưng hữu ích Đây bước mơ hình học máy nhằm tăng cường thực thi mơ hình 3.1.3 Ứng dụng phân lớp đa nhãn đánh giá khách sạn Mô hình đề xuất áp dụng tốn đánh giá danh tiếng khách sạn, tập trung vào lĩnh vực: phục vụ nhân viên, chất lượng phòng, khách sạn, chất lượng đồ ăn, vị trí giá cả, trang thiết bị Dữ liệu thực nghiệm thu thập từ website du lịch, xây dựng tập liệu bao gồm tập liệu có gán nhãn làm tập huấn luyện kiểm thử, tập liệu khơng nhãn để xây dựng mơ hình chủ đề ẩn LDA Để đánh giá hiệu 12 mô hình chúng tơi thiết kế thực nghiệm với tập đặc trưng khác bao gồm: đặc trưng TF.IDF; TF.IDF đặc trưng xác suất chủ đề ẩn LDA với số lượng chủ đề ẩn khác nhau; TF.IDF+đặc trưng LDA+kỹ thuật rút gọn đặc trưng MI Kết thực nghiệm thể Bảng 3.2 cho thấy kết tốt nhận kết hợp đặc trưng theo cách thứ TF.IDF + LDA + MI Average of 5-folds valuation TF.IDF TF.IDF + LDA_15 topics TF.IDF + LDA_20 topics TF.IDF + LDA_25 topics TF.IDF + LDA_20 topics + Feature Selection Precision 0.6764 0.6798 0.6827 0.6793 0.6835 Recall 0.7025 0.7056 0.7125 0.7075 0.7108 F1 0.6804 0.6842 0.6883 0.6844 0.6890 Bảng 3.1 Kết mơ hình đề xuất 3.2 Phân lớp đa nhãn văn dựa đồ thị khoảng cách mơ hình chủ đề ẩn 3.2.1 Mơ hình biểu diễn văn theo đồ thị khoảng cách Mục trình bày biểu diễn liệu theo đồ thị khoảng cách [Aggarwal13] Luận án giới thiêu số phát so sánh biểu diễn liệu văn theo n-gram theo đồ thị khoảng cách 3.2.2 Mơ hình phân lớp đa nhãn văn dựa biểu diễn liệu theo đồ thị khoảng cách chủ đề ẩn Mơ hình chủ đề ẩn [Blei03, Blei12] sử dụng hiệu nhiều toán, khai thác đặc trưng ngữ nghĩa ẩn, đặc trưng tổng qt tài liệu Bên cạnh đó, mơ hình đồ thị khoảng cách [Aggarwal13] biểu diễn thông tin bậc cao bao gồm đặc trưng tần suất, đặc trưng trật tự khoảng cách từ văn Luận án đề xuất tiếp cận làm giàu đặc trưng kết hợp hai mơ hình theo hướng khai thác đặc trưng chủ đề ẩn tài liệu, sau sử dụng đồ thị khoảng cách biểu diễn cấu trúc kết nối chủ đề (thay cấu trúc từ [Aggarwal13]) thể Bước 1, 13 pha huấn luyện mô hình nhằm khai thác thơng tin tần suất chủ đề, khoảng cách chủ đề, thứ tự chủ đề… làm giàu thêm đặc trưng cho mơ hình Phát biểu tốn trình bày mục 3.1.2 Mơ hình giải tốn thể Quy trình 3.2.và Hình 3.2 Pha 1: Huấn luyện mơ hình Bước 1: Xây dựng mơ hình chủ đề ẩn LDA tập DU biểu diễn câu chủ đề tập liệu Dtrain Bước 2: Biểu diễn đồ thị khoảng cách câu chủ đề tập Dtrain Bước 3: Xây dựng phân lớp đa nhãn Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện Bước 1: Xây dựng tập đặc trưng dựa mơ hình chủ đề ẩn biểu diễn đồ thị khoảng cách cho tập Dtest Bước 2: Phân lớp đánh giá hiệu mơ hình Quy trình 3.2 Thủ tục giải tốn Hình 3.2 Mơ hình phân lớp đa nhãn dựa đồ thị khoảng cách mơ hình chủ đề ẩn 3.2.3 Ứng dụng phân lớp đa nhãn đánh giá khách sạn Mô hình ứng dụng giải tốn đánh giá danh tiếng khách sạn trình bày mục 3.1.3 Đầu tiên, xây dựng mơ hình chủ 14 đề ẩn LDA với số lượng chủ đề ẩn khác 10, 15, 25 50 100 Bảng 3.2 Kết mơ hình đề xuất Dựa mơ hình chủ đề ẩn, chuyển đổi liệu biểu diễn theo từ sang biểu diễn câu chủ đề Xây dựng mơ hình đồ thị khoảng cách câu chủ đề với số bậc khác là: 0,1,2,3 Kết phân lớp thể Bảng 3.2 cho thấy mơ hình đề xuất cho kết tốt phương pháp sở sử dụng đặc trưng tần suất xuất theo mơ hình khơng gian vectơ tốt phương pháp biểu diễn sử dụng mơ hình đồ thị khoảng cách tập từ 3.3 Kết luận chương Chương trình bày hai phương pháp biểu diễn liệu cho phân lớp đa nhãn bao gồm mơ hình biểu diễn dựa mơ hình chủ 15 đề ẩn LDA mơ hình biểu diễn dựa đồ thị khoảng cách kết hợp chủ đề ẩn LDA Các kết nghiên cứu Chương công [PTNgan3, PTNgan4] Chương KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT 4.1 Tiếp cận phân cụm bán giám sát Mục giới thiệu kỹ thuật phân cụm bán giám sát nói chung gồm tiếp cận dựa ràng buộc tiếp cận dựa khoảng cách 4.2 Mơ hình phân lớp đa nhãn bán giám sát 4.2.1 Phát biểu toán phân lớp đa nhãn bán giám sát Phát biểu toán phân lớp đa nhãn bán giám sát theo tiếp cận phân cụm bán giám sát thể sau: Gọi D = {D , D } tập văn bản, D và D tương ứng tập liệu gán nhãn tập liệu chưa gán nhãn, L tập bao gồm q nhãn định nghĩa trước L = l , l , … , l ; Trong bước huấn luyện, mục tiêu xây dựng phân hoạch C tập liệu D = {D , D }, C = {C , … , C } () () C = d , … , d| (1 ≤ i ≤ m), đó, ⋃ C = D và C ∩ C = ∅ (1 ≤ i ≠ j ≤ m) Các văn hoạch C gán | nhãn cụm l Sau thu phân hoạch C, chúng tơi xây dựng mơ hình phân lớp sử dụng phương pháp tìm kiếm láng giềng gần để dự đoán tập nhãn cho liệu không nhãn theo công thức l(d ) = l Trong đó, C = arg dis d , c , c (4.1) tâm cụm C dis( ) độ đo khoảng cách sử dụng để xác định độ tương tự liệu Theo đó, văn chưa gán nhãn d gán nhãn cụm C cụm gần với d Mơ hình tận dụng liệu chưa gán nhãn đưa vào q trình phân hoạch xây dựng mơ hình phân lớp f 16 để dự đoán nhãn cho liệu khơng nhãn d 4.2.2 Thuật tốn phân lớp đa nhãn dựa kỹ thuật phân cụm bán giám sát Ý tưởng thuật toán phát triển từ tiếp cận khai thác đặc trưng riêng nhãn đặc trưng mang tính chất phân biệt nhãn LIFT M L Zhang L Wu đề xuất [Zhang15] tiếp cận phân cụm bán giám sát TESC W Zhang cộng đề xuất [Zhang15] Trong việc xây dựng tập đặc trưng riêng nhãn LIFT dựa tập âm, dương (tập chứa nhãn khơng chứa nhãn), tiếp cận luận có khác biệt phân chia tập liệu kết hợp chiến thuật tham lam, tập đặc trưng riêng biệt tạo khơng cho nhãn mà cho tập nhãn Trong LIFT sử dụng kỹ thuật phân cụm giám sát (Kmeans), luận án sử dụng kỹ thuật phân cụm bán giám sát TESC nhằm tận dụng nguồn tài nguyên không nhãn phong phú để nâng cao thực thi mơ hình TESC nguyên thủy sử dụng cho liệu đơn nhãn, thuật tốn đề xuất có bước chuyển đồi thích hợp mà khơng làm tính chất liệu đa nhãn Sau phân cụm liệu, bước phân lớp dựa kỹ thuật láng giềng gần để gán nhãn cụm gần cho liệu khơng nhãn Mơ hình gồm hai bước: Bước – phân cụm liệu Bản chất xây dựng tập đặc trưng riêng biệt cho nhãn theo trình tự nhãn chiếm ưu Bước – phân lớp nhằm xác định tập nhãn cho liệu dựa kỹ thuật láng giềng gần khai thác tập nhãn cụm láng giềng gần Thuật toán phân cụm đặt tên MULTICSLearn(.) trình bày theo dạng giả mã (pseudo-code) sau: ( , 1, 2, ) Đầu vào: : Tập liệu có nhãn khơng nhãn 17 ={ , }, Trong tập liệu có nhãn khơng nhãn Khởi tạo ban đầu toàn tập liệu huấn luyện : tập nhãn mặc định cho tất liệu Khởi tạo ban đầu tập rỗng : tập nhãn (ngồi ) thêm vào liệu ( = \ ) Khởi tạo ban đầu tập tất nhãn Đầu ra: : tập cụm gán nhãn Gọi nhãn tập có tần xuất xuất lớn tập liệu Xây dựng tập nhãn giả ∗ = { , , }, ← ∪ { }, { } {" : ạặ Ì \{ }}, ← \{ } ← ( , { , , }); ∗ ← ( , ∗) Chia tập liệu thành tập dựa phân hoạch ∗ : a : tập chứa liệu có nhãn khơng nhãn liệu có nhãn gãn nhãn b : tập chứa liệu có nhãn khơng nhãn liệu có nhãn gãn nhãn c : tập chứa liệu có nhãn khơng nhãn liệu có nhãn gãn nhãn Đối với tập : ( , ∪ { }) ← ∪ Đối với tập a Nếu liệu có tập nhãn, gọi tập nhãn ( , ) ← ∪ b Ngược lại ( , È{ λ }, \{λ}, ) Đối với tập a Nếu liệu có tập nhãn, gọi tập nhãn ( , ) ← ∪ b Ngược lại ( , , \{λ}, ) Return Thủ tục 4.1 Thủ tục phân cụm MULTICSLearn Để tìm phân hoạch C rỗng tập liệu, khởi tạo tập ={}, sau gọi thủ tục phân cụm với tham số sau: ( , { }, , ) Phân hoạch sở xây dựng mơ hình phân lớp bước Trong bước phân lớp liệu, đầu vào phân hoạch 18 tập liệu xây dựng bước huấn luyện liệu cần gán nhãn Đầu bước tập nhãn tương ứng với văn cần gán nhãn Phương pháp 1NN áp dụng bước theo hướng tính khoảng cách văn cần gán nhãn với tâm cụm để tìm cụm gần nhất, nhãn cụm gần gán cho văn cần gán nhãn Giả mã bước phân lớp thể sau: Thủ tục MULTICSClassifier Đầu vào: : tập cụm liệu gán nhãn = { ,…, } : tập liệu chưa gán nhãn Đẩu ra: : Tập nhãn tương ứng với văn Với văn ∈ = // cụm xét đến = // nhãn cụm Với cụm ∈ , = − //tính khoảng cách If , > , = End if End for 10 = 11 Thêm vào tập 12 End for Thủ tục 4.2 Thủ tục MULTICSClassification Do tính chất phức tạp phân chia liệu, độ phức tạp thuật toán đề xuất khó để đưa trường hợp tổng quát Một số trường hợp đơn giản xác định thuật tốn thực thi tương đối tốt - Trường hợp vùng |D2| ≈ |D3| ≈ | |/2 Thời gian thực thi bao gồm thời gian phân hoạch theo TESC lần đệ quy MULTICS D2 D3: ( ) ≈ ( + ( /2) Độ phức tạp trường hợp ) - Trường hợp vùng |D1| ≈ |D2| ≈ |D3| ≈ | |/3 Tương tự, tính thời gian thực thi: ( ) ≈ tạp trường hợp ( + ) 19 /9 + × ( /3) Độ phức 4.2.3 Mơ hình phân lớp đa nhãn bán giám sát đề xuất Quy trình bước giải toán thực sau: Pha 1: Xây dựng mơ hình phân lớp đa nhãn dựa kỹ thuật phân cụm bán giám sát Bước 1: Tiền xử lý xây dựng tập đặc trưng cho liệu huấn luyện bao gồm liệu có nhãn liệu không nhãn Bước 2: Làm giàu đặc trưng Bước 3: Rút gọn đặc trưng Bước 4: Xây dựng phân lớp theo thuật toán MULTICSLearn Pha 2: Phân lớp liệu đánh giá Bước 1: Tiền xử lý xây dựng tập đặc trưng cho liệu kiểm thử Bước 2: Làm giàu đặc trưng Bước 3: Biểu diễn liệu kiểm thử theo tập đặc trưng rút gọn Bước 4: Sử dụng phân lớp tập liệu kiểm thử đánh giá Quy trình 4.1 Các bước giải tốn theo mơ hình đề xuất Mơ hình biểu diễn cho quy trình thể Hình Hình 4.1 Mơ hình phân lớp bán giám sát đề xuất 4.3 Một mơ hình ứng dụng phân lớp đa nhãn văn bán giám sát Thừa hưởng kết thu từ mơ hình biểu diễn liệu theo chủ đề ẩn (đã trình bày Chương 3) nhằm khai thác ngữ nghĩa ẩn làm giàu cho tập đặc trưng tiếp cận bán giám sát phân lớp đa nhãn theo thuật tốn MULTICS trình bày trên, luận án 20 đề xuất mơ hình phân lớp đa nhãn bán giám sát cho miền ứng dụng văn tiếng Việt trình bày mục 3.1.3 bước giải toán thực theo Quy trình 4.2 Pha 1: Huấn luyện mơ hình Bước 1: Tiền xử lý liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa liệu biểu diễn liệu theo đặc trưng TF.IDF / Nhị phân Bước 2: Xây dựng mơ hình chủ đề ẩn LDA tập đặc trưng chủ đề ẩn Bước 3: Lựa chọn đặc trưng dựa phương pháp thông tin tương hỗ MI Doquire Verleysen đề xuất để rút gọn tìm tập đặc trưng tiêu biểu cho trình phân lớp Bước 4: Xây dựng phân lớp đa nhãn sử dụng thuật toán MULTICS Pha 2: Phân lớp đa nhãn sử dụng mơ hình huấn luyện Bước 1: Tiền xử lý liệu kiểm thử xây dựng tập đặc trưng Bước 2: Bổ sung tập đặc trưng phân phối chủ đề ẩn cho liệu huấn luyện Bước 3: Biểu diễn liệu kiểm thử theo tập đặc trưng lựa chọn Bước 4: Phân lớp sử dụng phân lớp đa nhãn Pha Quy trình 4.2 Quy trình giải tốn Hình 4.2 Mơ hình phân lớp đa nhãn bán giám sát mở rộng 21 Để đánh giá hiệu mô hình đề xuất, thực nghiệm thiết kế sau : - Thực nghiệm (BN): Chỉ sử dụng tập đặc trưng nhị phân - Thực nghiệm (BN+LDA): Sử dụng đặc trưng nhị phân đặc trưng phân phối xác suất chủ đề ẩn LDA - Thực nghiệm (TFIDF+LDA): Sử dụng tập đặc trưng TFIDF đặc trưng phân phối xác suất chủ đề ẩn LDA - Thực nghiệm (TFIDF+LDA+MI): Sử dụng tập đặc trưng TFIDF đặc trưng chủ đề ẩn LDA với kỹ thuật lựa chọn đặc trưng Thực nghiệm (BN+MI): Sử dụng đặc trưng nhị phân lựa chọn đặc trưng sử dụng thông tin tương hỗ Training dataset size 500 750 1000 Unlabeled dataset size Precisionmicro (%) BN Recallmicro (%) F1micro (%) Precisionmicro (%) 50 100 200 300 50 100 200 300 50 100 200 300 77.4 81.4 80.6 83 79.6 77.7 82.4 82.1 80.7 79 80.1 80.7 81.3 81 82.4 81.1 77.7 78.7 82.5 80.4 81.5 81.3 82.3 82.5 82.3 79.6 81 83.3 84.4 83.9 79.2 79.5 79.7 82.7 80 79.6 81.8 82.2 81.6 80.6 79.8 80.9 82.3 82.6 83.2 74.3 76.3 73.1 74.8 81 75.7 77 74.8 74.1 79.9 80.3 78.4 83.1 75.9 78.2 BN + MI Recallmicro (%) 75.8 78.7 78.5 76.4 76.1 76.8 78.2 78.2 81.2 80.4 78.1 81.2 82.7 84.6 80.9 F1micro (%) 75 77.5 75.7 75.6 78.5 76.2 77.6 76.4 77.5 80.2 79.1 79.8 82.8 80 79.5 Unlabeled dataset size Bảng 4.2 Kết thực nghiệm thực nghiệm BN+LDA F1micro (%) TFIDF+LDA F1micro (%) Number of topics TFIDF+LDA+MI F1 micro (%) Number of topics Number of topics 10 15 25 50 100 10 15 25 50 100 10 15 25 50 100 79.4 79.1 79.2 80.5 80.6 79.2 81.5 82.4 80 80.9 79.5 82.4 80.5 80.7 80.6 50 79.5 80.1 80 80.9 80.9 78.4 82.5 85.3 81.5 82.2 82 83.9 81.8 83.7 82.8 100 81.1 81.1 79.6 80.3 80.2 84.9 84.4 82.3 83.5 83.4 83.5 82.8 83.6 82.7 200 79.8 80.6 79.8 80 79.8 81.3 79.4 81.9 81.2 81.4 82.3 82.3 81.4 83.5 83.8 83.6 80.2 79.8 80.6 79.7 80.3 80.8 81.9 82.6 81.7 83.8 80.5 83.4 84 83.6 83.9 300 Bảng 4.3 Kết thực nghiệm 3, thực nghiệm thực nghiệm Kết thực nghiệm 1, Bảng 4.2 Bảng 4.3 cho thấy mơ hình đề xuất bổ sung đặc trưng chủ đề ẩn LDA kết hợp đặc trưng 22 TFIDF cho kết tốt thực thi thuật toán MULTICS Đồng thời, việc sử dụng lựa chọn đặc trưng khơng cho hiệu tốt Điều lý giải thuật tốn MULTICS, khơng phải toàn tập đặc trưng lựa chọn mà sử dụng đặc trưng liên quan có ý nghĩa việc lựa chọn đặc trưng liên quan bỏ đặc trưng dư thừa Mặt khác với đặc trưng phân phối xác suất chủ đề ẩn LDA, nên đặc trưng TFIDF kết hợp LDA cho kết tốt đặc trưng nhị phân BN kết hợp LDA 4.5 Kết luận chương Chương đề xuất thuật toán phân lớp đa nhãn dựa phân cụm bán giám sát (MULTICSLearn, MULTICSClassification) sở tích hợp thuật tốn phân lớp đa nhãn LIFT thuật toán phân cụm đơn nhãn TESC Một chiến thuật “tham lam” phương thức gán “nhãn giả” áp dụng tích hợp hai thuật tốn Thuật toán đề xuất áp dụng vào mơ hình phân lớp đa nhãn văn tiếng Việt Các kết nghiên cứu Chương công bố [PTNgan5 ,PTNgan6] KẾT LUẬN I Những kết luận án Luận án đạt số đóng góp sau phân lớp đơn nhãn đa nhãn văn tiếng Việt Thứ nhất, luận án đề xuất hai mơ hình phân lớp đơn nhãn Mơ hình gán nhãn thực thể có tên đề xuất mơ hình học bán giám sát trường ngẫu nhiên có điều kiện CRFs dựa tiêu chuẩn kỳ vọng tổng qt Mơ hình hệ tư vấn xã hội dựa kỹ thuật phân tích quan điểm người dùng, sử dụng mơ hình lọc cộng tác hướng người dùng dựa vào tương đồng người dùng mạng xã hội Thứ hai, luận án đề xuất hai giải pháp biểu diễn liệu phân lớp đa nhãn văn tiếng Việt bao gồm phương pháp biểu diễn 23 liệu theo mơ hình chủ đề ẩn phương pháp biểu diễn liệu theo đồ thị khoảng cách nhằm khai thác thông tin ngữ nghĩa ẩn mơ hình chủ đề ẩn LDA khai thác thông tin trật tự khoảng cách thành phần liệu văn Thứ ba, luận án đề xuất thuật toán MULTICS phân lớp liệu đa nhãn dựa kỹ thuật phân cụm bán giám sát nhằm khai thác thông tin đặc trưng riêng biệt cho nhãn/tập nhãn dựa kỹ thuật phân cụm bán giám sát phân lớp xây dựng dựa khoảng cách với tâm cụm phân cụm phân hoạch Đồng thời, luận án cung cấp khảo sát khái quát phân lớp đa nhãn II Hạn chế luận án Luận án số hạn chế Một là, luận án tập trung vào phân lớp đa nhãn đơn thể hiện, chưa đề cập tới phân lớp đa nhãn đa thể Hai là, thuật toán phân lớp đa nhãn luận án đề xuất cần nghiên cứu công phu độ phức tạp thời gian nâng cấp cải tiến Ba là, vấn đề giảm chiều liệu phân lớp đơn nhãn phân lớp đa nhãn đề cập mức độ III Định hướng nghiên cứu Thời gian tới, Nghiên cứu sinh tập trung nghiên cứu giải hạn chế luận án: quan tâm toán phân lớp đa nhãn đa thể liệu ảnh liệu văn bản, cải tiến kỹ thuật tìm nhãn để phân hoạch tập liệu theo nhãn giả theo hướng tìm nhãn có ảnh hưởng lớn mạng xã hội tập nhãn thời [Szymanski16] , nghiên cứu áp dụng kỹ thuật tiên tiến [Cheng16, Jian16, Li16] giảm chiều liệu phân lớp đa nhãn 24 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN [PTNgan1] Thi-Ngan Pham, Le-Minh Nguyen, Quang-Thuy Ha (2012) Named Entity Recognition for Vietnamese documents using semi-supervised learning method of CRFs with Generalized Expectation Criteria IALP 2012: 85-89 (Scopus1, DBLP2) [PTNgan2] Thi-Ngan Pham, Thi-Hong Vuong, Thi-Hoai Thai, MaiVu Tran, Quang-Thuy Ha (2016) Sentiment Analysis and User Similarity for Social Recommender System: An Experimental Study Lecture Notes in Electrical Engineering (376): 1147-1156 (Scopus) [PTNgan3] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha (2013) Hidden Topic Models for Multi-label Review Classification: An Experimental Study Computational Collective Intelligence Technologies and Applications, Lecture Notes in Computer Science Volume 8083:603-611 (Scopus, DBLP) [PTNgan4] Thi-Ngan Pham, Van-Hien Tran, Tri-Thanh Nguyen, Quang-Thuy Ha (2017) Exploiting Distance graph and Hidden Topic Models for Multi-label Text Classification ACIIDS 2017 Studies in Computational Intelligence, Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 321331 (Scopus) [PTNgan5] Thi-Ngan Pham, Van-Quang Nguyen, Duc-Trong Dinh, Tri-Thanh Nguyen, Quang-Thuy Ha (2017) MASS: a Semisupervised Multi-label Classification Algorithm With specific Features ACIIDS 2017 Studies in Computational Intelligence, Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 37-47 (Scopus) [PTNgan6] Thi-Ngan Pham, Van-Quang Nguyen, Van-Hien Tran, Tri-Thanh Nguyen, and Quang-Thuy Ha (2017) A semi-supervised multi-label classification framework with feature reduction and enrichment Journal of Information and Telecommunication, 1(2), 141-154 (DBLP) https://www.scopus.com/authid/detail.uri?authorId=56013971500 http://dblp.uni-trier.de/pers/hd/p/Pham:Thi=Ngan ... tốn phân lớp đa nhãn Luận án tập trung nghiên cứu phân lớp đa nhãn ứng dụng vào phân lớp văn tiếng Việt Thứ nhất, luận án đề nghị thuật toán phân lớp đa nhãn khai thác đặc trưng riêng biệt dựa phân. .. án Luận án số hạn chế Một là, luận án tập trung vào phân lớp đa nhãn đơn thể hiện, chưa đề cập tới phân lớp đa nhãn đa thể Hai là, thuật toán phân lớp đa nhãn luận án đề xuất cần nghiên cứu công. .. đơn nhãn tới phân lớp đa nhãn phân lớp đa thể hiện, phân lớp đa nhãn đa thể Phân lớp đơn nhãn (phân lớp truyền thống) quy ước đối tượng liệu có nhãn Phân lớp đa nhãn quy ước đối tượng liệu có nhãn

Ngày đăng: 17/01/2020, 00:18

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w