.5 Kết quả thực nghiệm

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 80 - 94)

Đồng thời, tại mỗi mẫu thực nghiệm, độ chính xác bậc thấp luơn cho kết quả tốt hơn độ chính xác bậc cao. Điều này thể hiện kết quả tư vấn với số lượng ít sản phẩm cho kết quả tốt hơn tư vấn nhiều sản phẩm.

2.3. Kết luận chương

Chương này trình bày về hai mơ hình phân lớp đơn nhãn do luận án đề xuất bao gồm mơ hình gán nhãn thực thể cĩ tên và mơ hình hệ tư vấn xã hội. Hai kết quả này này là việc vận dụng, thừa kế và phát triển các nghiên cứu về phân lớp đơn nhãn. Trong đĩ, mơ hình gán nhãn thực thể cĩ tên là mơ hình bán giám sát vận dụng mơ hình trường ngẫu nhiên cĩ điều kiện với tham số ước lượng mơ hình được xây dựng từ tiêu chuẩn kỳ vọng tổng quát trên tập ràng buộc về phân phối xác xuất của tập nhãn cho trước một đặc trưng thu được từ tri thức tiền nghiệm ước lượng từ dữ liệu. Mơ hình đề xuất sử dụng mơ hình chủ đề ẩn LDA trên kho dữ liệu thuộc miền ứng dụng để xây dựng tập ràng buộc. Mơ hình hệ tư vấn xã hội đề xuất theo tiếp cận sử dụng mơ hình lọc cộng tác dựa trên bộ nhớ và đặc biệt là phương pháp hướng người dùng với đĩng gĩp chính từ việc tìm kiếm tập người dùng tin cậy theo tiếp cận khai phá quan điểm người dùng về sản phẩm và mối quan hệ người dùng trên mạng xã hội dựa trên các đặc trưng người dùng về tiểu sử và xã hội.

Kỹ thuật sử dụng tiêu chuẩn kỳ vọng tổng quát trên cơ sở xây dựng tập ràng buộc về phân phối xác suất tập thực thể là định hướng và cơ sở ý tưởng cho việc xây dựng phân phối chủ đề ẩn, khai thác thơng tin ngữ nghĩa ẩn, làm giàu tập đặc trưng cho mơ hình được sử dụng ở chương tiếp theo.

Ngồi ra, việc nghiên cứu tư vấn danh sách sản phẩm trong tập sản phẩm cho trước trong mơ hình hệ tư vấn xã hội cĩ thể mở rộng lên mức tư vấn nhiều sản phẩm cho người dùng. Theo cách đĩ, cĩ thể coi bài tốn tư vấn là bài tốn phân lớp đa nhãn khi cĩ thể đồng thời tư vấn nhiều sản phẩm theo thứ tự ưu tiên.

Trong các chương tiếp theo, luận án tiếp tục nghiên cứu các đặc điểm trên miền dữ liệu đa nhãn và đề xuất các tiếp cận mới cho bài tốn phân lớp đa nhãn theo hướng khai thác các biểu diễn dữ liệu, làm giàu tập đặc trưng cho mơ hình phân lớp và xây dựng kỹ thuật phân lớp đa nhãn bán giám sát khai thác đặc trưng

riêng nhãn và tận dụng nguồn tài nguyên khơng nhãn phong phú để nâng cao hiệu quả của phân lớp đa nhãn.

Chương 3. PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ LIỆU THEO CHỦ ĐỀ ẨN

Xây dựng tập đặc trưng là một bước quan trọng trong xây dựng mơ hình. Một tập đặc trưng tốt sẽ thể hiện được các đặc điểm đặc trưng nhất và khơng chứa nhiễu sẽ giúp nâng cao hiệu quả phân lớp. Chương này sẽ trình bày hai phương pháp biểu diễn dữ liệu dựa trên mơ hình chủ đề ẩn Latent Dirichlet Allocation (LDA) [15], [16] làm giàu thêm các đặc trưng hữu ích cho mơ hình và biểu diễn dữ liệu theo mơ hình đồ thị khoảng cách. Với giả thiết là mỗi văn bản được tạo ra bằng việc kết hợp của nhiều chủ đề ẩn và mỗi chủ đề ẩn là một phân phối trên các từ. Mơ hình chủ đề ẩn LDA cung cấp một phương pháp khai thác ngữ nghĩa ẩn trong văn bản để làm giàu thêm đặc trưng cho mơ hình. Trên cơ sở dữ liệu được đề xuất về tập các đánh giá của khách hàng về khách sạn Việt Nam, một mơ hình phân lớp đa nhãn được đề xuất dựa trên tập đặc trưng được làm giàu từ mơ hình chủ đề ẩn LDA và lựa chọn dựa trên thơng tin tương hỗ MI để làm tăng hiệu quả mơ hình phân lớp. Kết quả nghiên cứu này được cơng bố trong [PTNgan3].

Phương pháp biểu diễn theo mơ hình khơng gian vectơ tuy được sử dụng rộng rãi nhưng vẫn tồn tại những nhược điểm. C.C. Aggarwal và P. Zhao [10] đã đề xuất một phương pháp biểu diễn dữ liệu mới theo mơ hình đồ thị khoảng cách nhằm khắc phục những tồn tại của mơ hình khơng gian vectơ và khai thác được các đặc trưng về thứ bậc của các thành phần dữ liệu. Cách tiếp cận kết hợp mơ hình chủ đề ẩn LDA và mơ hình biểu diễn dữ liệu theo đồ thị khoảng cách được đề xuất nhằm khai thác các thơng tin ngữ nghĩa ẩn phục vụ cho mơ hình phân lớp. Kết quả của mơ hình đề xuất được trình bày trong [PTNgan04].

3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn

3.1.1.Biểu diễn dữ liệu theo chủ đề ẩn

Mơ hình chủ đề là mơ hình học máy khơng giám sát trong đĩ giả thiết rằng mỗi văn bản được tạo ra là một sự kết hợp của nhiều chủ đề và mỗi chủ đề là một phân phối trên các từ. Mơ hình chủ đề về cơ bản là mơ hình sinh văn bản, nĩ quan

tâm quá trình xác suất mà văn bản được tạo ra. Đầu ra của mơ hình chủ đề là các cụm từ. Mỗi cụm từ là dạng của một chủ đề và phân phối xác suất của cụm trên các từ. Trong quá trình mơ hình hĩa xác suất, dữ liệu được xem như tạo ra từ quá trình sinh trong đĩ cĩ chứa các biến ẩn. Quá trình sinh này định nghĩa một phân bố xác suất đồng thời trên cả biến quan sát và biến ẩn. Phân bố cĩ điều kiện của biến ẩn cho trên các biến quan sát được tính thơng qua phân tích dữ liệu sử dụng phân bố đồng thời đĩ.

Mơ hình LDA được D.M. Blei và cộng sự [15] đề xuất đầu tiên vào năm 2003, trong đĩ đưa ra giả thiết về quá trình sinh ngẫu nhiên văn bản. Khái niệm chủ đề là một phân bố xác suất trên tập từ vựng cố định. Trong giả thiết sinh văn bản thì các chủ đề đã được tồn tại trước quá trình sinh. Ý tưởng của mơ hình là mỗi tài liệu là sự trộn lẫn của nhiều chủ đề, mỗi chủ đề là một phân phối xác suất trên tập các từ.

Ví dụ, xem xét một bài báo ở Hình 3.1 cĩ tiêu đề “Seeking Life’s Bare (Genetic) Necessities”, bài báo trình bày về ý tưởng sử dụng phân tích dữ liệu để xác định số gen mà một sinh vật cần để sống sĩt. Nếu làm thủ cơng, cĩ thể đánh dấu các từ khác nhau được sử dụng trong bài báo theo màu sắc: Đánh dấu màu xanh cho các từ về phân tích dữ liệu như “computer” và “prediction”; đánh dấu màu hồng cho các từ về sinh vật học tiến hĩa như “life” và “organism”; đánh dấu màu vàng cho các từ gen như “sequenced” và “genes”. Việc đánh dấu này cho thấy bài báo là sự pha trộn các chủ đề gen, phân tích dữ liệu và sinh vật học tiến hĩa theo các phân bố khác nhau. Xét một cách hình thức, mỗi chủ đề là một phân bố trên tập từ vựng cố định thì chủ đề gen sẽ chứa các từ về gen với xác suất cao, chủ đề về sinh vật học tiến hĩa sẽ chứa các từ về sinh vật học tiến hĩa với xác suất cao… Ngồi ra việc xác định được các chủ đề pha trộn trong bài báo cũng giúp cho việc phân bài báo này vào các tập bài báo khoa học. Việc sử dụng mơ hình LDA sẽ giúp thực hiện được các cơng việc này một cách tự động.

Về bản chất, LDA là một mơ hình sinh 3 mức: - Mức tập dữ liệu (corpus level)

- Mức tài liệu (document level) - Mức từ ( word level)

Hình 3.1 Phân phối các chủ đề trong bài báo, tập các từ và xác suất các từ trong chủ đề [16]

Trong đĩ, mỗi phần của mơ hình được coi như một mơ hình trộn hữu hạn trên cơ sở tập các xác suất của chủ đề. Các khái niệm sử dụng trong mơ hình

- Từ: được lấy từ tập từ vựng * + - Tài liệu: là một dãy các từ ( )

- Tập dữ liệu: là một tập hợp của các tài liệu * + - Chủ đề: là một phân phối xác suất trên tập các từ

Cho một tập dữ liệu gồm M tài liệu * +, trong đĩ tài liệu m

chứa từ lấy từ tập từ vựng * +. Mục tiêu của LDA là tìm một cấu trúc ẩn của các chủ đề hàm chứa ý nghĩa của văn bản. Mặc dù thuật ngữ “chủ đề ẩn” đã được đề cập đến trong các mơ hình LSA và pLSA, LDA cung cấp một mơ hình sinh đầy đủ cho kết quả tốt hơn các tiếp cận trước đĩ.

Xem xét biểu diễn mơ hình đồ họa của LDA ở Hình 3.2, quá trình LDA sinh

một tập các từ được phân bố trong tài liệu ⃗ được mơ tả như sau:

- Đối với mỗi tài liệu ⃗ , một phân phối chủ đề ⃗ được tạo ra và từ đây các từ trên mỗi chủ đề được xác định.

- Sinh ra chỉ số chủ đề dựa vào phân phối chủ đề

- Từ w được sinh ra dựa vào phân phối từ ⃗⃗ . Các chủ đề ⃗⃗ được lấy mẫu một lần cho tồn bộ tập dữ liệu.

Hình 3.2 Mơ hình sinh trong LDA [15]

Thuật tốn sinh trong LDA được thể hiện như sau:

for tất cả chủ đề , - do

Sinh ra phân phối từ ⃗⃗ ( )

end for

for tất cả tài liệu , -do

Sinh ra phân phối chủ đề ⃗m ~ Dir ( )

Sinh ra độ dài tài liệu ( )

for tất cả các từ , -do

Sinh ra chỉ số chủ đề ( ⃗ ) Sinh ra từ ( ⃗⃗ )

end for end for

Hình 3.3 Thuật tốn sinh trong mơ hình LDA

Chú thích: Dir, Poiss Mult lần lượt là các phân phối Dirichlet, Poisson và Multinomial.

Các tham số và các biến trong thuật tốn như sau: - M là số tài liệu trong tập dữ liệu

- V là độ lớn của tập từ vựng

- và : tham số mức tập hợp tập dữ liệu – là các tham số của phân phối Dirichlet.

- ⃗m: phân bố chủ đề trên tài liệu m (tham số mức tài liệu), nĩ biểu diễn tham số cho ( ), thành phần trộn chủ đề cho tài liệu m

- Và Θ = * ⃗ + : ma trận

- m,n: chỉ số chủ đề của từ thứ n trong tài liệu m

- ⃗⃗ phân phối các từ cho chủ đề thứ k, nĩ biểu diễn tham số cho ( ), thành phần trộn của chủ đề k

- Φ = * ⃗⃗ + : ma trận - m,n: từ thứ n của văn bản m - số lượng các tài liệu

- m: số lượng từ trong tài liệu m (độ dài văn bản sau khi đã loại bỏ các từ dừng) Các phân phối được sử dụng trong mơ hình

- Phân phối Dirichlet: Phân phối Dirichlet của biến ngẫu nhiên ( ) ∑ với tham số ( )

( )

( )∏

(3.1) Với ( ) là hàm beta, được triển khai dựa trên hàm gamma:

( ) ∏ ( )

(∑ ) (3.2)

Hàm gamma được định nghĩa như sau:

( ) ∫ (3.3)

Với là số phức cĩ phần thực dương ( ( ) )

- Phân phối đa thức (Multinomial) là trường hợp tổng quát của phân phối nhị phân. Phân phối đa thức của biến ngẫu nhiên ( )

với tham số n là số đặc trưng, N là số lần thực hiện phép thử, ( ) ( ) là các xác suất của phép thử Bernoulli,

∑ ): ( ) { ∑ ∑ (3.4)

Luận án đã khai thác thơng tin ngữ nghĩa ẩn từ mơ hình sinh của mơ hình chủ đề ẩn LDA trên các mức tài liệu và mức từ nhằm bổ sung các đặc trưng tăng cường biểu diễn dữ liệu cho các mơ hình phân lớp trong phần tiếp theo.

3.1.2.Mơ hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn

Hầu hết các ứng dụng học máy nĩi chung và bài tốn phân lớp nĩi riêng xây dựng tập đặc trưng theo mơ hình khơng gian vectơ, trong đĩ mỗi văn bản được biểu diễn thành một vectơ cĩ chiều dài cố định và mỗi thành phần vectơ được xác định là giá trị của một đặc trưng xác định trước. Trong ứng dụng phân lớp văn bản, đặc trưng được xét ở đây thơng thường là một từ trong tập từ vựng xây dựng trên tồn bộ tập văn bản. Một số kiểu đặc trưng về từ phổ biến như đặc trưng nhị phân (xuất hiện/khơng xuất hiện), đặc trưng về độ đo tần số xuất hiện của cụm từ trong văn bản (Term Frequency – TF), đặc trưng về độ đo nghịch đảo sự phổ biến của một từ trong một tập văn bản (Inverse Document Frequency – IDF), và đặc trưng về độ đo đánh giá ý nghĩa, độ quan trọng của một cụm từ với văn bản, lớp (TFIDF). Trong đĩ, TFIDF là độ đo được sử dụng phổ biến. Nguyên lý cơ bản của TFIDF là độ quan trọng của một từ sẽ tăng lên cùng với tần số xuất hiện của nĩ trong văn bản và sẽ giảm xuống nếu từ đĩ xuất hiện trong nhiều văn bản khác.

Theo T. N. Rubin và cộng sự [117], tiếp cận khai thác mơ hình chủ đề ẩn LDA theo hướng thích nghi mơ hình khơng giám sát cho bài tốn phân lớp giám sát từ phân lớp đơn nhãn đến phân lớp đa nhãn đang được quan tâm và ứng dụng trong nhiều bài tốn học máy. Ở đây, luận án chỉ đề cập đến các ứng dụng của LDA trong phân lớp đa nhãn. D.Ramage và cộng sự [19] đã đề xuất một tiếp cận sử dụng mơ hình LDA cĩ gán nhãn L-LDA (Labeled LDA) theo hướng biến đổi mơ hình khơng giám sát LDA để thích nghi cho phân lớp đa nhãn. T.N. Rubin và cộng sự [117]

cũng đề xuất một bộ mơ hình sử dụng mơ hình LDA (Flat-LDA, Prior-LDA và Dependency-LDA) để khai thác các thơng tin về nhãn như tần suất nhãn và mối quan hệ phụ thuộc giữa các nhãn.

Luận án đề xuất một tiếp cận sử dụng mơ hình LDA truyền thống ở mức tài liệu với mục đích bổ sung các đặc trưng phân phối xác suất tập chủ đề ẩn trên mỗi văn bản cho mơ hình phân lớp (điều này thể hiện ở Bước 2 của Pha 1 trong Quy trình giải quyết bài tốn), sau đĩ vận dụng các thuật tốn phân lớp đã biết. Các đặc trưng được bổ sung từ mơ hình chủ đề ẩn LDA cĩ chất lượng tốt, đặc biệt là trong việc thực thi trên tài liệu khơng nằm trong tập dữ liệu học, từ đĩ cĩ thể cải tiến kết quả của bộ phân lớp dữ liệu đa nhãn. Hướng tiếp cận này, sau đĩ cũng được một số tác giả sử dụng và cải tiến với kết quả khả quan. A.H.Razavi và D.Inkpen [2] cũng bổ sung đặc trưng về phân phối xác suất chủ đề ẩn trên mỗi văn bản nhưng cĩ sự cải tiến trong việc sử dụng đa bậc mơ hình LDA để làm mịn phân phối xác suất thu được. J.V. Carrera-Trejo và cộng sự [71] cũng sử dụng ý tưởng kết hợp đặc trưng phân phối xác suất chủ đề ẩn cĩ sự bổ sung các đặc trưng unigram (TFIDF), đặc trưng bigrams và unigrams.

Các bước giải quyết bài tốn được trình bày ở Quy trình 3.1 và mơ hình của phương pháp đề xuất thể hiện ở Hình 3.4

Đầu vào:

- : tập dữ liệu văn bản đa nhãn liên quan đến chủ đề thuộc miền ứng dụng, chia thành 2 tập Dtrain làm tập dữ liệu huấn luyện và tập Dtest làm tập dữ liệu kiểm thử.

- DU: tập dữ liệu khơng nhãn liên quan đến chủ đề thuộc miền ứng dụng để xây dựng mơ hình chủ đề ẩn.

- L: tập nhãn cho trước gồm q nhãn

Đầu ra:

- Mơ hình phân lớp đa nhãn M sao cho M được đánh giá kiểm thử đạt hiệu quả cao.

Pha 1: Huấn luyện mơ hình

- Bước 1: Tiền xử lý dữ liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hĩa dữ liệu và biểu diễn dữ liệu theo đặc trưng TFIDF cho tập Dtrain

- Bước 2: Xây dựng mơ hình chủ đề ẩn LDA trên tập DU và tập đặc trưng về phân phối xác suất chủ đề ẩn trên mỗi câu của tập Dtrain.

- Bước 3: Lựa chọn đặc trưng dựa trên phương pháp thơng tin tương hỗ

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 80 - 94)