.7 Bảng phân phối tập từ trên mỗi chủ đề ẩn

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 109 - 134)

Với phân phối tập từ trên mỗi chủ đề ẩn thu được từ mơ hình chủ đề ẩn, câu văn bản sau khi loại bỏ từ dừng ở Hình 3.7 “Khách_sạn đẹp, phịng tuyệt_vời, nhân_viên tuyệt_vời, đánh_giá khách_sạn tốt.” sẽ được chuyển thành câu chủ đề như sau: “topic1 topic2 topic1 topic 2 topic4 topic2 topic 3 topic1 topic2”. Khi đĩ, ta cĩ biểu diễn đồ thị khoảng cách cho câu chủ đề Hình 3.9. Số lượng nút đồ thị bây giờ là số chủ đề ẩn chứ khơng phải là số từ trong tập từ. Theo đĩ, số lượng nút của đồ thị sẽ giảm đi đáng kể, kèm theo đĩ trọng số các cạnh của đồ thị sẽ biến đổi theo hướng tăng cường các thơng tin cĩ liên quan thể hiện ở các từ thuộc cùng một chủ đề.

Trong thực nghiệm, chúng tơi cũng thay đối số bậc của đồ thị nhằm tìm được biểu diễn mang lại nhiều thơng tin hữu ích nhất cho mơ hình. Số bậc của đồ thị được thiết lập các giá trị 0,1,2…

c. Xây dựng bộ phân lớp đa nhãn

Để xây dựng bộ phân lớp, cĩ thể sử dụng các thuật tốn phân lớp khác nhau như đã trình bày ở Chương 1. Trong mơ hình phân lớp thực nghiệm, sau khi thực nghiệm với các thuật tốn ML-kNN, BR, CC, CLR, v.v., chúng tơi lựa chọn thuật tốn phân lớp đa nhãn k láng giềng gần nhất ML-kNN vì ML-kNN cho kết quả tốt nhất.

Ý tưởng chính của thuật tốn là sử dụng kỹ thuật k láng giềng gần nhất để giải quyết bài tốn học đa nhãn, trong đĩ sử dụng luật cực đại hậu nghiệm để đưa ra dự đốn bằng việc xem xét các thơng tin liên quan đến nhãn từ các láng giềng.

3.2.2.2.Pha phân lớp sử dụng mơ hình huấn luyện

Sau pha xây dựng mơ hình huấn luyện, chúng tơi thu được một bộ phân lớp đa nhãn cho dữ liệu là các câu nhận xét của người dùng về các Khách sạn ở Việt Nam. Ở pha này, bộ phân lớp được sử dụng đốn nhận nhãn của tập dữ liệu kiểm thử; nhãn đốn nhận sẽ so sánh với nhãn thực của dữ liệu để đánh giá mức độ hiệu quả của mơ hình.

a.Xây dựng tập đặc trưng dựa trên mơ hình chủ đề ẩn và biểu diễn đồ thị khoảng cách

Dữ liệu kiểm thử cũng được ánh xạ vào mơ hình xác suất tham chiếu chủ đề ẩn LDA đã xây dựng ở Pha 1 để biến đổi câu văn bản thành câu chủ đề. Sau đĩ câu

chủ đề sẽ được tiếp tục biểu diễn theo mơ hình đồ thị khoảng cách để thu được tập đặc trưng về thơng tin trật tự và khoảng cách của chủ đề trong câu. Bậc của đồ thị biểu diễn dữ liệu kiểm thử cũng được thiết lập tương ứng với dữ liệu huấn luyện.

b.Phân lớp và đánh giá hiệu quả của mơ hình

Bước này tiến hành phân lớp dữ liệu kiểm thử bằng cách đưa tập đặc trưng của dữ liệu kiểm thử thu được ở bước trên được đưa vào bộ phân lớp đa nhãn xây dựng ở pha 1. Kết quả phân lớp được đối sánh với dữ liệu phân lớp thực để đánh giá mơ hình thơng qua các độ đo.

Trong mơ hình này, chúng tơi sử dụng các độ đo dựa trên mẫu, trong đĩ đánh giá kết quả mơ hình trên từng mẫu kiểm thử độc lập sau đĩ trả về kết quả trung bình trên tồn tập dữ liệu kiểm thử. Các độ đo bao gồm: độ đo hamming loss – đánh giá tỷ lệ cặp thể hiện – nhãn bị phân lớp sai; one-error – đánh giá số lần nhãn được xếp hạng cao nhất khơng nằm trong tập nhãn cĩ thể; coverage – xác định độ đo của một hệ thống đối với tất cả các nhãn cĩ thể của tài liệu là khoảng cách trung bình cho tất cả các nhãn thích hợp được gán cho một ví dụ thử nghiệm; ranking loss – phân bố trung bình của các cặp nhãn và average precision – đánh giá thành phần trung bình của các nhãn liên quan được xếp hạng cao hơn một nhãn cụ thể. Các độ đo

hamming loss, one-error, coverage ranking loss giá trị càng thấp thì thực thi của hệ thống càng tốt; riêng độ đo Average Precision thì giá trị càng cao thì thể hiện hệ thống thực thi càng tốt.

3.2.3. Ứng dụng phân lớp đa nhãn đánh giá khách sạn

Mơ hình được ứng dụng để giải quyết bài tốn đánh giá danh tiếng khách sạn ở Việt Nam dựa trên tập nhận xét của người dùng được trình bày ở Chương 3 mục 3.2.1 Chúng tơi cũng sử dụng lại bộ dữ liệu về tập nhận xét của người dùng về các Khách sạn của Việt Nam như trong ví dụ bài tốn ở Chương 3 mục 3.1

Quá trình thực nghiệm gồm các bước chính sau đây

 Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mơ hình phân lớp, kho tài liệu cho mơ hình LDA.

 Xây dựng mơ hình chủ đề ẩn và biểu diễn câu chủ đề. Tiến hành xây dựng mơ hình chủ đề ẩn với số lượng chủ đề ẩn khác nhau để so sánh và đánh giá. Sau đĩ, dữ liệu học được chuyển hĩa thành dữ liệu câu chủ đề.

 Biểu diễn đồ thị khoảng cách : Áp dụng mơ hình đồ thị khoảng cách trên tập dữ liệu câu chủ đề phục vụ để xây dựng tập đặc trưng của mơ hình.

 Tiến hành đánh giá danh tiếng cho 1000 khách sạn theo mơ hình tối ưu

Để so sánh hiệu quả của mơ hình, chúng tơi thực hiện thêm 2 thực nghiệm cơ sở: một là thực nghiệm trên dữ liêu nguyên thủy với tập đặc trưng TFIDF và sử dụng phương pháp chuyển đổi thuật tốn thành q bộ phân lớp nhị phân trên nền thuật tốn SVM; hai là thực nghiệm với tập đặc trưng biểu diễn đồ thị khoảng cách trên dữ liệu văn bản theo mơ hình của C.C. Aggarwal và P. Zhao [10] và cùng sử dụng thuật tốn phân lớp đa nhãn k láng giềng gần nhất ML-kNN như trong mơ hình đề xuất.

Kết quả thực nghiệm được thể hiện ở Bảng 3.8 cho thấy, sự kết hợp của mơ hình chủ đề ẩn và đồ thị khoảng cách mang lại kết quả tốt hơn với hai thực nghiệm cơ sở ở hầu hết 5 đơn vị đo: hloss, oneError, coverage, rloss, average preicision (AP). Điều này đã minh chứng cho sự đĩng gĩp của tri thức cung cấp từ mơ hình chủ đề ẩn đã bổ sung thêm cho mơ hình đồ thị khoảng cách. Trong đĩ, kết quả tốt nhất được ghi nhận với số lượng chủ đề ẩn là 25. Mặc dù, theo đánh giá của C.C. Aggarwal và P. Zhao [10] khi thực nghiệm với bậc của đồ thị lớn hớn 5 thì kết quả thực thi khơng được cải thiện tăng. Tuy nhiên, bằng kết quả thực nghiệm, chúng tơi nhận thấy khi bậc đồ thị lớn hơn 3 thì kết quả mơ hình khơng được cải thiện nữa mà đi xuống. Điều này cĩ thể lý giải bởi nút trong đồ thị đang xét của mơ hình là chủ đề ẩn chứ khơng phải từ như đồ thị khoảng cách nguyên thủy, nên mẫu về thứ tự xuất hiện và khoảng cách giữa các nút trong đồ thị sẽ giảm đi đáng kể so với đồ thị với nút là các từ. Kết quả này cũng cĩ thể bị ảnh hưởng từ miền dữ liệu và đặc điểm văn bản ngắn trong ứng dụng của chúng tơi.

Thực nghiệm hloss ↓ oneError ↓ Coverage ↓ rloss ↓ AP ↑

Đặc trưng tần suất theo mơ hình khơng gian vectỏ

0.0547±0.0050 0.6626±0.0186 0.9473±0.1438 0.0733±0.0123 0.7487±0.0201 Mơ hình đồ thị khoảng cách nguyên thủy 0.1401±0.0148 0.2459±0.0405 0.9693±0.1355 0.1586±0.0301 0.8250±0.0296 Mơ h ìn h kết hợp đ ồ th ị k ho ản g cá ch v à ch ủ đề ẩn B ậc 0 10 chủ đề 0.1369±0.0136 0.2184±0.0193 0.8204±0.1006 0.1255±0.0172 0.8542±0.0136 15 chủ đề 0.1359±0.0211 0.2136±0.0341 0.8217±0.0962 0.1263±0.0171 0.8559±0.0197 25 chủ đề 0.1283±0.0167 0.2056±0.0359 0.7695±0.0955 0.1150±0.0208 0.8645±0.0222 50 chủ đề 0.1398±0.0157 0.2157±0.0263 0.8566±0.1094 0.1338±0.0212 0.8507±0.0188 100 chủ đề 0.1473±0.0104 0.2464±0.0227 0.9215±0.1063 0.1513±0.0184 0.8318±0.0172 B ậc 1 10 chủ đề 0.1518±0.0178 0.2384±0.0283 0.8567±0.1227 0.1351±0.0215 0.8405±0.0203 15 chủ đề 0.1479±0.0140 0.2384±0.0274 0.8707±0.0865 0.1390±0.0160 0.8397±0.0168 25 chủ đề 0.1310±0.0167 0.2056±0.0305 0.8384±0.1010 0.1300±0.0206 0.8565±0.0195 50 chủ đề 0.1401±0.0111 0.2317±0.0311 0.9082±0.1076 0.1458±0.0234 0.8364±0.0209 100 chủ đề 0.1642±0.0146 0.2913±0.0361 0.9966±0.1133 0.1677±0.0223 0.8041±0.0213 B ậc 2 10 chủ đề 0.1412±0.0113 0.2103±0.0194 0.7910±0.1050 0.1163±0.0151 0.8592±0.0117 15 chủ đề 0.1360±0.0133 0.2203±0.0280 0.8090±0.1152 0.1238±0.0210 0.8541±0.0207 25 chủ đề 0.1271±0.0161 0.1995±0.0286 0.7835±0.0935 0.1175±0.0178 0.8646±0.0194 50 chủ đề 0.1546±0.0098 0.2719±0.0315 0.9236±0.0897 0.1508±0.0171 0.8197±0.0183 100 chủ đề 0.1546±0.0098 0.2719±0.0315 0.9236±0.0897 0.1508±0.0171 0.8197±0.0183 B ậc 3 10 chủ đề 0.0997±0.0047 0.6380±0.0270 0.4182±0.0471 0.0659±0.0114 0.8364±0.0250 15 chủ đề 0.0983±0.0066 0.6356±0.0254 0.4455±0.0472 0.0731±0.0110 0.8302±0.0227 25 chủ đề 0.0918±0.0062 0.6200±0.0273 0.4196±0.0497 0.0642±0.0098 0.8487±0.0204 50 chủ đề 0.0985±0.0070 0.6476±0.0303 0.4810±0.0400 0.0809±0.0111 0.8113±0.0246 100 chủ đề 0.0991±0.0066 0.6449±0.0280 0.4664±0.0368 0.0779±0.0093 0.8170±0.0194

Bảng 3.8 Kết quả thực nghiệm của mơ hình phân lớp đa nhãn dựa trên mơ hình chủ đề ẩn và đồ thị khoảng cách

3.3. Kết luận chương 3

nhãn bao gồm mơ hình biểu diễn dựa trên mơ hình chủ đề ẩn LDA và mơ hình biểu diễn dựa trên đồ thị khoảng cách kết hợp chủ đề ẩn LDA. LDA là một mơ hình học máy khơng giám sát trong đĩ giả thiết rằng mỗi văn bản được tạo ra là một sự kết hợp của nhiều chủ đề và mỗi chủ đề là một phân phối trên các từ. Luận án khai thác mơ hình LDA theo hai mức thơng tin. Đặc trưng phân phối xác suất của các chủ đề ẩn đối với một văn bản được bổ sung kết hợp với các đặc trưng phổ biến (TFIDF) để làm giàu thêm đặc trưng cho mơ hình. Tiếp cận này đã thể hiện ưu thế do phương pháp biểu diễn dữ liệu dựa trên mơ hình chủ đề ẩn mang lại và được tiếp tục vận dụng trong các tiếp cận tiếp theo của luận án. Kỹ thuật khai thác đặc trưng về phân phối chủ đề ẩn mức văn bản được cơng bố trong cơng trình [PTNgan1] (năm 2013) và kỹ thuật này cũng đã được minh chứng sử dụng cĩ hiệu quả trong cơng trình của A.H.Razavi và D.Inkpen [2] (năm 2014), J.V. Carrera-Trejo và cộng sự [71] (năm 2015) trên ngơn ngữ tiếng Anh cho thấy tính tổng quát của mơ hình đề xuất khơng chỉ trên miền ngơn ngữ tiếng Việt trong thực nghiệm.

Ở tiếp cận mơ hình LDA theo mức từ, luận án cũng đề xuất mơ hình kết hợp phương pháp biểu diễn dữ liệu theo mơ hình đồ thị khoảng cách và phân phối của tập từ trên mỗi chủ đề ẩn nhằm khai thác được đặc trưng về mối quan hệ về thứ bậc của các chủ đề ngữ nghĩa ẩn trong văn bản. Sự kết hợp này đã khai thác được các đặc trưng thơng tin ngữ nghĩa ẩn ở mức cao hơn, tổng quát hơn mang lại tính hiệu quả của mơ hình.

Các mơ hình đề xuất được ứng dụng trong bài tốn đánh giá danh tiếng khách sạn Việt Nam dựa trên nhận xét của người dùng đã thể hiện hiệu quả so với các mơ hình cơ sở.

Chương 4. KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT

Học máy bán giám sát là một tiếp cận nhận được nhiều sự quan tâm trong cộng đồng nhiên cứu nhờ sự kết hợp hiệu quả giữa dữ liệu cĩ nhãn làm định hướng và dữ liệu khơng cĩ nhãn phong phú sẵn cĩ trong miền ứng dụng. Trong chương này, tác giả đề xuất một thuật tốn phân lớp đa nhãn bán giám sát về bản chất là sử dụng kỹ thuật phân cụm bán giám sát trên miền dữ liệu đa nhãn. Từ đĩ đề xuất một mơ hình phân lớp bán giám sát tổng quát và một mơ hình ứng dụng phân lớp đa nhãn bán giám sát trên miền dữ liệu văn bản kết hợp các kỹ thuật biểu diễn dữ liệu dữ liệu sử dụng mơ hình chủ đề ẩn và kỹ thuật rút gọn đặc trưng nhằm nâng cao hiệu quả mơ hình. Mơ hình đề xuất được cơng bố trong [PTNgan5, PTNgan6].

4.1. Tiếp cận phân cụm bán giám sát

4.1.1.Tiếp cận dựa trên ràng buộc

Trong tiếp cận dựa trên ràng buộc, thuật tốn phân cụm sẽ tự thay đổi để các nhãn hoặc ràng buộc cĩ sẵn được sử dụng để tìm kiếm một phân cụm phù hợp với dữ liệu. Dữ liệu cĩ nhãn xác định nhĩm mà thực thể thuộc về, trong khi các ràng buộc cặp đơi xác định hai thực thể sẽ thuộc về cùng một cụm hay hai cụm khác nhau. Tiếp cận phân cụm bán giám sát dựa vào ràng buộc sử dụng một số kỹ thuật: thay đổi hàm mục tiêu cụm để thỏa mãn ràng buộc, phân cụm sử dụng thơng tin theo khía cạnh từ phân bố cĩ điều kiện trong khơng gian phụ, các ràng buộc phải được thỏa mãn trong suốt quá trình phân cụm; khởi tạo cụm và các ràng buộc phân cụm dựa trên kỹ thuật k láng giềng gần nhất; Thuật tốn COP-Kmeans và SS-SOM thay đổi pha cập nhật mối quan hệ cụm của thuật tốn K-means và thuật tốn ánh xạ Self Organizing để đảm bảo các phân hoạch đồng nhất với các ràng buộc cặp đơi cho trước. Trong thuật tốn COP- Kmeans, các tâm cụm đầu tiên được khởi tạo ngẫu nhiên, mỗi điểm dữ liệu sau đĩ được gán với tâm cụm gần nhất để đảm bảo khơng cĩ ràng buộc nào bị vi phạm. Các tâm cụm được cập nhật theo trung bình các điểm dữ liệu được gán trong cùng một cụm giống như thuật tốn K-means. Thuật tốn cực đại hĩa kỳ vọng tổng quát được thay đổi sao cho chỉ các mơ hình hỗn hợp thỏa mãn các ràng buộc mới được xem xét. Tiếp cận

này coi các thơng tin bổ sung là các ràng buộc cứng và đảm bảo rằng tất cả các ràng buộc đều được thỏa mãn một cách nghiêm ngặt. Cách tiếp cận này cĩ thể giải quyết vấn đề phân cụm theo trực giác và các vấn đề khác của phân cụm.

Một số tiếp cận sử dụng thơng tin bổ sung để tạo ra các ràng buộc mềm. Thay vì thỏa mãn tất cả các ràng buộc, các tiếp cận này chỉ yêu cầu thỏa mãn nhiều nhất càng ràng buộc cĩ thể và đưa ra điểm trừ đối với những ràng buộc khơng thỏa mãn. Các nhà nghiên cứu đã thay đổi mơ hình trộn cho phân cụm dữ liệu bằng cách định nghĩa lại quá trình sinh dữ liệu thơng qua các biến ẩn.

4.1.2.Tiếp cận dựa trên khoảng cách

Trong tiếp cận này, một số thuật tốn phân cụm sử dụng độ đo khoảng cách. Tuy nhiên, độ đo khoảng cách trước tiên được huấn luyện để thỏa mãn các nhãn hoặc ràng buộc trong dữ liệu huấn luyện. Các tiếp cận phân cụm bán giám sát được chia thành 2 nhĩm: các điểm dữ liệu trong ràng buộc must-link được phân cách bằng khoảng cách nhỏ và điểm dữ liệu trong ràng buộc cannot-link được phân cách bằng khoảng cách lớn. Khoảng cách giữa hai điểm dữ liệu bất kỳ và được biểu diễn như sau:

( ) ‖ ‖ ( ) ( ) (4.1) Trong đĩ, là độ đo khoảng cách bao gồm khoảng cách chuỗi chỉnh sửa sử dụng kỹ thuật Maximum Entropy, độ phân kỳ Jensen-Shannon giảm độ nghiêng, khoảng cách Euclide biến đổi theo thuật tốn đường đi ngắn nhất, khoảng cách Mahalanobis tối ưu.

Một số kỹ thuật học độ đo khoảng cách được nghiên cứu rộng rãi trong học bán giám sát và khơng giám sát như: Độ đo khoảng cách địa phương chỉ tập trung vào các ràng buộc trong miền cục bộ và được sử dụng điển hình trong phân lớp bán giám sát. Mặt khác, độ đo khoảng cách tồn cục xem xét đồng thời tất cả các ràng buộc cặp đơi. Ví dụ, vấn đề tối ưu lồi - cực tiểu khoảng cách giữa các điểm dữ liệu cĩ quan hệ ràng buộc must-link và cực đại khoảng cách giữa các điểm dữ liệu cĩ quan hệ ràng buộc cannot-link – được giải quyết để tìm độ đo tối ưu. Kỹ thuật học độ đo khoảng cách phi tuyến.

rộng thành học nhãn biểu diễn độ tương đồng dữ liệu cặp đơi. Tương tự như học dựa trên độ đo khoảng cách, hàm tính độ tương đồng dựa trên nhân (kernel similarity function) được thay đổi để phù hợp với các ràng buộc cặp đơi cho trước, ví dụ: các điểm dữ liệu trong quan hệ must-link cĩ độ tương tự lớn và các điểm dữ

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 109 - 134)