Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn, tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn.
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Người hướng dẫn khoa học: PGS TS Hà Quang Thụy
PGS.TS Phan Xuân Hiếu
Phản biện: PGS TS Lương Chi Mai
Viện CNTT, Viện Hàn lâm KH&CNVN
Phản biện: PGS.TS Đỗ Văn Thành
Bộ Kế hoạch và Đầu tư
Phản biện: TS Nguyễn Thị Minh Huyền
Trường Đại học Khoa học Tự nhiên, ĐHQGHN Luận án được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại Đại học Công nghệ, ĐHQGHN vào hồi 09 giờ ngày 12 tháng 12 năm 2017
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia Việt Nam
- Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà
Trang 3MỞ ĐẦU Tính cấp thiết của luận án
Phân lớp là một trong những bài toán điển hình trong khai phá
dữ liệu; ứng dụng của phân lớp xuất hiện trong rất nhiều lĩnh vực của đời sống Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp được tiến hóa từ đơn giản tới phức tạp hơn theo hướng từ phân lớp đơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, và cho tới phân lớp đa nhãn đa thể hiện Phân lớp đơn nhãn (phân lớp truyền thống) quy ước mỗi đối tượng dữ liệu có duy nhất một nhãn Phân lớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng với nhiều thể hiện và tương ứng với một nhãn Phân lớp đa nhãn đa thể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiện
và các thể hiện này tương ứng với nhiều nhãn
Phân lớp đa nhãn đòi hỏi những tiến hóa mới đối với các phương pháp học máy cho các giải pháp thích hợp với các phần tử dữ liệu đa nhãn như vấn đề mối quan hệ giữa các nhãn, chi phí tính toán của thuật toán, vấn đề mất cân bằng nhãn, vấn đề đa chiều của dữ liệu Phân lớp đa nhãn là một chủ đề nghiên cứu, triển khai cuốn hút một cộng đồng nghiên cứu rộng rãi với một số nhóm nghiên cứu nổi bật như các nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộng
sự, Ioannis P Vlahavas, Grigorios Tsoumakas và cộng sự, Sebastián Ventura Soto và cộng sự, v.v
Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn, tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn
Trang 4Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụng
vào phân lớp văn bản tiếng Việt
Thứ nhất, luận án đề nghị một thuật toán phân lớp đa nhãn khai thác đặc trưng riêng biệt dựa trên phân cụm bán giám sát (Thuật toán MULTICS [PTNgan5], [PTNgan6]) trên cơ sở áp dụng một chiến lược tham lam khi tích hợp hai thuật toán LIFT và TESC
Thứ hai, luận án đề nghị hai mô hình biểu diễn dữ liệu cho phân lớp đa nhãn là mô hình biểu diễn dữ liệu đồ thị khoảng cách [PTNgan4] khai thác các thông tin bậc cao về trật tự và khoảng cách đặc trưng trong văn bản và
mô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] khai thác các thông tin ngữ nghĩa ẩn trong văn bản làm giàu thêm các đặc trưng cho mô hình
Đồng thời, luận án cũng đề xuất hai mô hình phân lớp đơn nhãn văn bản tiếng Việt tương ứng với hai bài toán ứng dụng thực tiễn bao gồm mô hình gán nhãn thực thể có tên đề xuất trong [PTNgan1] và
mô hình hệ tư vấn xã hội đề xuất trong [PTNgan2]
Luận án cũng thực thi các thực nghiệm kiểm chứng các thuật toán
và mô hình đề xuất Dữ liệu thực nghiệm được thu thập từ các trang web tiếng Việt liên quan tới miền ứng dụng Luận án cũng cung cấp một nghiên cứu tổng quan về học máy đa nhãn
Bố cục của luận án gồm phần mở đầu và bốn chương nội dung,
phần kết luận và danh mục tài liệu tham khảo Hình 0.1 cung cấp một khung nhìn sơ bộ về phân bố các chủ đề trong bốn chương của luận án Chương 1 cung cấp một khái quát từ phân lớp đơn nhãn tới phân lớp
đa nhãn; tập trung vào các vấn đề cơ bản của học đa nhãn bao gồm phương pháp tiếp cận, rút gọn đặc trưng; độ đo và phương pháp đánh giá Chương 2 đề xuất hai mô hình phân lớp đơn nhãn thông qua hai bài toán là gán nhãn thực thể có tên và hệ tư vấn xã hội tiếng Việt
Trang 5Hình 0.1 Phân bố các chủ đề trong các chương của luận án
Chương 3 đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đa nhãn: sử dụng mô hình chủ đề ẩn LDA và mô hình đồ thị khoảng cách kết hợp với mô hình LDA
Chương 4 phân tích và đề xuất một tiếp cận phân lớp đa nhãn bán giám sát với đặc trưng riêng biệt dựa trên kỹ thuật phân cụm
Chương 1
TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN 1.1 Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện
Mục này cung cấp một khung tổng quát về sự tiến hóa trong bài toán phân lớp từ phân lớp truyền thống đơn nhãn tới phân lớp đa nhãn đơn thể hiện, phân lớp đơn nhãn đa thể hiện và phân lớp đa nhãn đa thể hiện
1.2 Giới thiệu chung về phân lớp đa nhãn
1.2.1 Kỹ thuật phân lớp đa nhãn
Kỹ thuật phân lớp đa nhãn được định hướng theo hai tiếp cận là
Trang 6các kỹ thuật theo tiếp cận chuyển đổi bài toán và các kỹ thuật theo tiếp cận thích nghi thuật toán
Kỹ thuật chuyển đổi bài toán là đưa bài toán phân lớp đa nhãn trở về bài toán phân lớp truyền thống và sử dụng các kỹ thuật vốn có
Kỹ thuật thích nghi thuật toán là cải biên các thuât toán vốn có cho bài toán phân lớp truyền thống thích nghi được với bài toán phân lớp
1.2.2 Biểu diễn dữ liệu cho phân lớp đa nhãn
Ngoài đặc thù mỗi dữ liệu có thể tương ứng với nhiều nhãn lớp,
dữ liệu đầu vào của bài toán phân lớp đa nhãn có thêm một số đặc điểm bổ sung so với dữ liệu đầu vào của bài toán phân lớp đơn nhãn Một số đặc điểm cần quan tâm là độ đo dữ liệu đa nhãn, phân bố nhãn trong tập dữ liệu miền ứng dụng, mỗi quan hệ giữa các nhãn,…
1.2.3 Đánh giá phân lớp đa nhãn
Trong bài toán học máy truyền thống, hiệu quả của hệ thống học được đánh giá thông qua các độ đo thông thường như độ chính xác (accuracy), độ hồi tưởng (recall), độ đo hài hoà F-measure,… Tuy nhiên, việc đánh giá hiệu quả thực thi trong học đa nhãn phức tạp hơn nhiều so với học đơn nhãn truyền thống vì mỗi một mẫu có thể đồng thời thuộc về nhiều lớp Do đó, một số độ đo đánh giá hiệu quả của hệ thống học đa nhãn được đề xuất M.L Zhang và Z.H Zhou [Zhang14] chia các độ đo thành hai nhóm là độ do dựa trên mẫu và
độ đo dựa trên nhãn
1.3 Giảm chiều dữ liệu trong phân lớp đa nhãn
Xu thế của dữ liệu lớn làm nảy sinh hiện tượng “bủng nổ chiều
dữ liệu” làm ảnh hưởng trực tiếp đến việc áp dụng các thuật toán vốn
có Mặt khác, tập đặc trưng có thể tồn tại các đặc trưng không liên quan hoặc dư thừa tác động không tốt tới hiệu quả học mô hình và
Trang 7phân lớp Hai vấn đề về giảm chiều dữ liệu được đề xuất bao gồm giảm chiều đặc trưng đầu vào và giảm chiều không gian nhãn đầu ra
1.4 Học bán giám sát cho phân lớp đa nhãn
Việc gán nhãn cho dữ liệu đòi hỏi nhiều công sức và thời gian trong khi dữ liệu không có nhãn thì rất sẵn có và dễ dàng thu được Tiếp cận học bán giám sát nhận được sự quan tâm của cộng đồng
1.5 Kết luận chương 1
Chương 1 trình bày về các dạng bài toán phân lớp với bước phát triển từ phân lớp đơn nhãn, phân lớp đa nhãn đến phân lớp đa nhãn đa thể hiện Chương này tập trung vào trình bày tổng quan về phân lớp đa nhãn bao gồm dữ liệu đa nhãn và biểu diễn dữ liệu đa nhãn; kỹ thuật phân lớp đa nhãn và phương pháp đánh giá phân lớp đa nhãn
Chương 2 HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN
TIẾNG VIỆT 2.1 Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên
có điều kiện và tiêu chuẩn kỳ vọng tổng quát
2.1.1 Nhận diện thực thể có tên
Nhận diện thực thể có tên (NER) là bài toán khá cơ bản trong nhóm các bài toán trích chọn thông tin Bài toán có nhiệm vụ tìm kiếm và rút ra những thông tin liên quan đến thực thể trong văn bản, thông thường là loại thực thể
2.1.2 Mô hình đề xuất
Tiêu chuẩn kỳ vọng tổng quát [Druck08] là những điều kiện trong hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mô hình [Gideon08, Gideon10] Luận án đề xuất một mô hình gán nhãn bán giám sát [PTNgan1] sử dụng các tiêu chuẩn kỳ vọng tổng quát [Gideon08] nhằm kết hợp những tri thức tiền nghiệm vào mô hình huấn luyện, khai
Trang 8thác mô hình xác suất theo chủ đề ẩn Latent Dirichlet Allocation (LDA)
để xây dựng tập ràng buộc về phân phối xác suất của các đặc trưng và tập thực thể cho trước, từ đó tính toán kỳ vọng có điều kiện của mô hình Tiêu chuẩn kỳ vọng tổng quát được sử dụng để xác định tham số ước lượng cho hàm mục tiêu của mô hình trường ngẫu nhiên có điều kiện CRFs trên tập đặc trưng mức từ như đặc trưng từ loại (POS), đặc trưng theo ký tự và đặc trưng theo cửa sổ trượt để bổ sung thêm quan hệ trước sau nhằm nâng cao hiệu quả cho mô hình Bài toán nhận diện thực thể có tên:
Đầu vào:
- D: tập mọi dữ liệu văn bản liên quan đến miền ứng dụng
- DL ⊂ D: tập ví dụ mẫu chứa thực thể đã được gán nhãn
- DU ⊂ D: tập ví dụ mẫu chứa dữ liệu văn bản chưa gán nhãn
- L: tập các thực thể có tên
Đầu ra:
- Bộ gán nhãn thực thể có tên M: DL
Mô hình giải quyết bài toán trình bày ở Quy trình 2.1 và hình 2.1
Pha 1: Các bước tiền xử lý dữ liệu
- Bước 1: Module tách câu, tách từ
- Bước 2: Gán nhãn từ loại cho mỗi từ POS
- Bước 3: Gán nhãn thực thể NER
Pha 2: Xây dựng bộ phân lớp bán giám sát dựa trên mô hình trường điều kiện ngẫu nhiên CRF kết hợp tiêu chuẩn tổng quát
- Bước 1: Xây dựng tập ràng buộc trên tập DU
- Bước 2: Lựa chọn tập thuộc tính trên DL
- Bước 3: Xây dựng bộ gán nhãn
- Bước 4: Đánh giá mô hình
Quy trình 2.1 Thủ tục giải quyết bài toán
2.1.3 Ứng dụng mô hình
Mô hình áp dụng trong miền ứng dụng nhận diện thực thể có tên tiếng Việt trên văn bản pháp luật Thực nghiệm được tiến hành trên một số tập ràng buộc khác nhau kết hợp với các tập dữ liệu huấn luyện khác nhau để đánh giá mức độ ảnh hưởng của các ràng buộc và
dữ liệu có nhãn đến mô hình Đồng thời, chúng tôi tiến hành thực
Trang 9nghiệm gán nhãn thực thể sử dụng mô hình CRF làm cơ sở để so sánh với phương pháp đề xuất
Trang 102.2 Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội
2.2.1 Sơ bộ về tư vấn xã hội
Hệ tư vấn xã hội được định nghĩa trên hai khía cạnh: theo nghĩa hẹp và theo nghĩa rộng Trong đó, theo nghĩa hẹp, hệ tư vấn xã hội là
hệ tư vấn truyền thống có sử dụng các quan hệ xã hội trực tuyến như quan hệ niềm tin, quan hệ bạn bè, quan hệ thành viên, quan hệ theo dõi,… là một đầu vào bổ sung cho hệ thống Theo nghĩa rộng, hệ tư vấn xã hội là hệ tư vấn bất kỳ hướng tới lĩnh vực phương diện xã hội
2.2.2 Mô hình đề xuất
Luận án đề xuất một hệ thống tư vấn xã hội sử dụng mô hình lọc cộng tác với phương pháp hướng người dùng xây dựng tập đặc trưng
từ mối quan hệ xã hội và độ tương đồng giữa người dùng [PTNgan2]
Mô hình đề xuất xây dựng tập người dùng tin cậy dựa trên sự kết hợp
kỹ thuật phân tích quan điểm người dùng, tính toán độ tương đồng người dùng và xây dựng tập đặc trưng khác nhau nhằm đánh giá sự ảnh hưởng đặc trưng đền quyết định tư vấn, bằng phân tích thống kê sản phầm yêu thích của người dụng tin cậy, lựa chọn sản phẩm có khả năng cao nhất tư vấn cho người dùng Trong mô hình, tập sản phẩm xem xét được coi là tập nhãn được xác định trước, việc tư vấn sản phẩm chính là gán cho người dùng một sản phẩm trong tập các sản phẩm xem xét Bài toán tư vấn xã hội:
Đầu vào:
- D: Tập dữ liệu là tập các bình luận của người dùng về sản phẩm Chia tập D thành tập Dtrain làm dữ liệu huấn luyện và
Dtest làm dữ liệu kiểm thử
- L: Danh sách các sản phẩm quan tâm
Đầu ra:
- Hệ tư vấn các sản phẩm cho người dùng mới M:DtrainL
Trang 11Phương pháp giải quyết bài toán được trình bày ở Quy trình 2.2
Pha 1: Xây dựng tập dữ liệu về người dùng
- Bước 1: Lựa chọn các danh mục sản phẩm để tư vấn – tập nhãn L
- Bước 2: Phân tích quan điểm người dùng trên tập dữ liệu D để tìm ra tập sản phẩm người dùng quan tâm
Pha 2: Xây dựng hệ thống tư vấn cho người dùng mới về sản phẩm
- Bước 1: Tập dữ liệu về người dùng được chia ngẫu nhiên thành 2 tập dữ liệu huấn luyện (D train ) và tập kiểm thử (D test )
- Bước 2: Xác định độ tương đồng trên tập người dùng Dtrain và mỗi người dùng trên tập D test để tìm ra tập người dùng tin cậy trên D train
- Bước 3: Xác định tập sản phẩm ưa thích của tập người dùng tin cậy để tư vấn cho người dùng mới
- Bước 4: Đánh giá hiệu quả của hệ tư vấn
Quy trình 2.2 Thủ tục giải quyết bài toán
Hình 2.2 Mô hình đề xuất
2.2.3 Ứng dụng mô hình
Mô hình được áp dụng trong xây dựng hệ tư vấn xã hội cho người dùng về sản phẩm điện thoại di động (ĐTDĐ) trên mạng xã hội Facebook bao gồm 7 thương hiệu sản phẩm ĐTDĐ nổi tiếng Dữ liệu
Trang 12về người dùng được thu thập và phân tích quan điểm để xây dựng danh sách sản phẩm yêu thích Mô hình cũng đề xuất xây dựng 2 loại tập tập đặc trưng bao gồm đặc trưng tiểu sử và đặc trưng xã hội được đánh giá riêng biệt và kết hợp để xác định độ tương đồng giữa người dùng và tập người dùng tin cậy làm cơ sở tư vấn sản phẩm
Kết quả thực nghiệm ở Bảng 2.2 cho thấy, việc sử dụng tập đặc trưng khác nhau ảnh hưởng đến quyết định tư vấn, trong đó đặc trưng xã hội có ảnh hưởng tốt hơn đặc trưng tiểu sử, đồng thời việc kết hợp cả hai loại đặc trưng cho kết quả tốt nhất Mặt khác, tại mỗi thực nghiệm, độ chính xác bậc thấp luôn cao hơn độ chính xác bậc cao cho thấy kết quả tư vấn với số lượng ít sản phẩm cho kết quả tốt
Chương này trình bày về hai mô hình phân lớp đơn nhãn do luận án đề xuất bao gồm mô hình gán nhãn thực thể có tên và mô hình hệ tư vấn xã hội Các kết quả nghiên cứu trong Chương 2 được công bố trong [PTNgan1], [PTNgan2]
Chương 3 PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ
LIỆU THEO CHỦ ĐỀ ẨN 3.1 Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn
3.1.1 Biểu diễn dữ liệu theo chủ đề ẩn
Mục này trình bày về biểu diễn dữ liệu theo mô hình chủ đề ẩn
Trang 13LDA [Blei03, Blei12]
3.1.2 Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn
Phát biểu bài toán phân lớp sử dụng phương pháp biểu diễn dữ liệu theo chủ đề ẩn như sau:
Pha 1: Huấn luyện mô hình
- Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ
từ dừng, chuẩn hóa dữ liệu và biểu diễn dữ liệu theo đặc trưng TF.IDF cho tập Dtrain
- Bước 2: Xây dựng mô hình chủ đề ẩn LDA trên tập DU và tập đặc trưng về phân phối chủ đề ẩn trên mỗi câu của tập Dtrain
- Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thông tin tương hỗ MI [Doquire11] để rút gọn và tìm ra tập đặc trưng tiêu biểu nhất cho quá trình phân lớp
- Bước 4: Xây dựng bộ phân lớp đa nhãn
Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện
- Bước 1: Tiền xử lý dữ liệu kiểm thử Dtest
- Bước 2: Xây dựng tập đặc trưng cho dữ liệu kiểm thử test
D Bước 3: Phân lớp sử dụng bộ phân lớp đa nhãn ở Pha 1
Quy trình 3.1 Thủ tục giải quyết bài toán