.5 Tập dữ liệu cho mơ hình chủ đề ẩn

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 98)

3.1.3.2.Thực nghiệm

Quá trình thực nghiệm gồm các bước chính sau đây

 Xử lý dữ liệu : Tiền xử lý dữ liệu, xây dựng tập tài liệu học cho mơ hình phân lớp, tập tài liệu cho mơ hình LDA và vectơ hĩa dữ liệu.

 Xây dựng hàm lựa chọn đặc trưng : Tiến hành lựa chọn tập đặc trưng từ tập đặc trưng đã cĩ bằng cách sử dụng đơ đo tương hỗ MI.

 Xây dựng hàm phân lớp : Tiến hành xây dựng hàm phân lớp dữ liệu đa nhãn bằng cách xây dựng các bộ phân lớp nhị phân chuyển đổi dựa trên kỹ thuật cực đại hĩa kỳ vọng EM (Maximum Entropy).

 Tiến hành đánh giá danh tiếng cho 1000 khách sạn theo mơ hình xây dựng ở trên. Trong mơ hình này, chúng tơi sử dụng phương pháp chuyển đổi nhị phân để xây dựng các bộ phân lớp nhị phân cho mỗi nhãn. Các lĩnh vực được quan tâm cho bài tốn phân lớp là: Sự phục vụ của nhân viên; Chất lượng phịng, khách sạn; Chất lượng đồ ăn; Vị trí và giá cả; Trang thiết bị,…

Tuy nhiên, với yêu cầu của bài tốn quản lý danh tiếng thì các nhận xét của khách hàng cịn phải được đánh giá xem nĩ thuộc vào lớp tích cực hay tiêu cực. Từ đĩ, bộ phân lớp của hệ thống sẽ bao gồm hai bộ phân lớp nhỏ:

Bộ phân lớp thứ nhất: Bao gồm 5 bộ phân lớp nhị phân cho năm lớp: Sự phục vụ của nhân viên; chất lượng phịng, khách sạn; Chất lượng đồ ăn; Vị trí và

giá cả; Trang thiết bị

Bộ phân lớp thứ hai: Bao gồm 10 bộ phân lớp nhị phân cho 2 lớp: Lớp tích cực và lớp tiêu cực cho mỗi lớp lớn ở trên.

Thiết kế thực nghiệm

Để đánh giá sử ảnh hưởng của chủ đề ẩn và việc lựa chọn đặc trưng đối với kết quả của bộ phân lớp, chúng tơi tiến hành cài đặt 3 thực nghiệm như sau :

Thực nghiệm 1: Thực hiện việc phân lớp chỉ sử dụng tập đặc trưng TFIDF của tập dữ liệu đầu vào (khơng sử dụng đặc trưng chủ đề ẩn).

Thực nghiệm 2: Thực hiện việc phân lớp sử dụng tập đặc trưng TFIDF của tập dữ liệu đầu vào và tập đặc trưng chủ đề ẩn. Số lượng chủ đề sẽ được thay đổi từ 15, 20 và 25 chủ đề để đánh giá mức độ ảnh hưởng của số lượng chủ đề ẩn khác nhau đến kết quả của bộ phân lớp.

Thực nghiệm 3: Thực hiện việc phân lớp qua hai giai đoạn: làm giàu đặc trưng gồm tập đặc trưng TFIDF, tập đặc trưng chủ đề ẩn và lựa chọn đặc trưng sử dụng độ đo thơng tin tương mỗ MI. Các thực nghiệm được thực hiện với số lượng chủ đề ẩn là 20.

3.1.3.3.Kết quả thực nghiệm

Thực nghiệm Precisionmicro (%) Recallmicro (%) F1micro(%)

TFIDF 67.64 70.25 68.04 TFIDF + LDA_15 chủ đề 67.98 70.56 68.42 TFIDF + LDA_20 chủ đề 68.27 71.25 68.83 TFIDF + LDA_25 chủ đề 67.93 70.75 68.44 TFIDF + LDA_20 chủ đề + Lựa chọn đặc trưng 68.35 71.08 68.9 Bảng 3.6 Kết quả phân lớp

Kết quả thực nghiệm được thể hiện ở Bảng 3.6 cho thấy việc sử dụng tập đặc trưng được bổ sung thêm đặc trưng chủ đề ẩn cho kết quả cao hơn các thực nghiệm chỉ sử dụng đặc trưng TFIDF ở tất cả các thực nghiệm với số lượng chủ đề ẩn khác nhau.

Mặt khác việc sử dụng phương pháp lựa chọn đặc trưng nhằm rút gọn tập đặc trưng dựa trên độ đo MI cho kết quả tốt nhất trong các thực nghiệm.Hệ thống cịn

tiến hành đánh giá các nhận xét của người dùng ở các mặt tích cực và tiêu cực.

Hình 3.5 Phân tích nhận xét của người dùng về khách sạn Romana

Hình 3.5 minh họa về kết quả thực nghiệm đánh giá các nhận xét của người dùng về khách sạn Romana ở tỉnh Phan Thiết. Theo các đánh giá của người dùng, Romana là khách sạn tốt. Dựa trên năm lĩnh vực đánh giá, số lượng đánh giá tích cực nhiều hơn số lượng đánh giá tiêu cực, đặc biệt là về Sự phục vụ của nhân viên (19 nhận xét tích cực – 0 nhận xét tiêu cực) và Chất lượng phịng, khách sạn (30 nhận xét tích cực – 4 nhận xét tiêu cực).

Ví dụ, xem xét một nhận xét sau: "Phịng ở: mình ở villa pool ocean view, phịng và view khá đẹp, phịng tắm lộ thiên, hồ bơi riêng rất đẹp, nằm trong phịng nhìn ra hồ rất đã". Câu nhận xét này được phân lớp vào 3 lĩnh vực: Sự phục vụ của nhân viên (Hàng 1), Vị trí và giả cả (Hàng 2) và Trang thiết bị (Hàng 3). Câu nhận xét này cũng được xếp vào lớp đánh giá tích cực trong mỗi lĩnh vực.

3.2. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn cách các chủ đề ẩn

Trong hầu hết các thuật tốn khai phá và quản lý dữ liệu văn bản, dữ liệu thường được biểu diễn dưới dạng chuỗi mà phổ biến nhất là mơ hình khơng gian vectơ. Mơ hình khơng gian vectơ được G.Salton và cộng sự [39] đề xuất vào khi giải quyết bài tốn truy vấn thơng tin. Theo cách biểu diễn này, mỗi văn bản được

biểu diễn trong một khơng gian nhiều chiều, mỗi chiều tương ứng với một từ trong văn bản. Một từ với độ quan trọng của nĩ được xác định bằng một phương pháp đánh trọng số trong văn bản và giá trị trọng số được chuẩn hĩa trong đoạn [0,1]. Hình 3.6 mơ tả hai văn bản d1 và d2 được biểu diễn bằng các vectơ ký hiệu là v1 và v2, gồm 3 chiều T1, T2, T3, trong đĩ mỗi từ cĩ một trọng số khác nhau đặc trưng cho độ quan trọng của từ đĩ trong văn bản.

Tổng quát hơn, một văn bản d trong khơng gian vectơ ký hiệu là vd sẽ được biểu diễn trong một khơng gian vectơ gồm N chiều, trong đĩ N là số lượng từ cĩ trong tập văn bản. Mỗi thành phần của vectơ là trọng số của từ tương ứng.

[ ]

Điểm hạn chế của phương pháp biểu diễn này là coi mỗi văn bản là một “túi các từ” khơng cĩ trật tự nên khơng thể hiện được các thơng tin liên quan đến trật tự cĩ cấu trúc của các từ trong văn bản, nên phương pháp này cĩ thể khơng cho kết quả tốt khi phân tích sâu văn bản trong các ứng dụng mà trật tự cĩ cấu trúc của văn bản đĩng vai trị quan trọng trong phân tích ngữ nghĩa. Để khắc phục được nhược điểm của phương pháp này, C. C. Aggarwal và P. Zhao [10] đã đề xuất một phương pháp biểu diễn bằng đồ thị khoảng cách, phương pháp này sẽ giữ lại được các đặc trưng về trật tự từ mà khơng làm mất tính linh động và hiệu quả trong việc xử lý dữ liệu.

Hình 3.6 Biểu diễn văn bản theo khơng gian vectơ, v1 và v2 là hai văn bản trong khơng gian vectơ ba chiều T1, T2, T3 trong đĩ Ti là từ

C. Aggarwal và P. Zhao [10] đã minh chứng bằng thực nghiệm về hiệu quả của việc sử dụng biểu diễn theo mơ hình đồ thị khoảng cách trên các ứng dụng như

T3

T2

T1 v1 v2

phân cụm, phân lớp, đánh chỉ mục,… Q.T. Ha và cộng sự [103] đã ứng dụng mơ hình đồ thị khoảng cách biểu diễn vết cho bài tốn phân cụm vết trong khai phá quy trình và thực nghiệm đã chứng tỏ về tính hữu hiệu quả của biểu diễn vết sự kiện theo đồ thị khoảng cách. M. Poyraz và cộng sự [88] đề xuất một mơ hình tương tự mơ hình đồ thị khoảng cách dựa trên biểu diễn đồ thị vơ hướng trên tập từ của tập dữ liệu huấn luyện; mơ hình đồ thị này cũng cho kết quả tốt trong ứng dụng làm trơn bậc cao cho thuật tốn Nạve Bayes trong phân lớp văn bản.

Luận án đề xuất một mơ hình phân lớp đa nhãn với một số cải tiến kết hợp mơ hình chủ đề ẩn nhằm khai thác các thơng tin ngữ nghĩa ẩn trong văn bản, sau đĩ áp dụng biểu diễn theo mơ hình đồ thị khoảng cách trên tập chủ đề ẩn của văn bản. Kỹ thuật này sẽ khai thác được các thơng tin bậc cao hơn về thứ tự và khoảng cách giữa các chủ đề ẩn trong văn bản, qua đĩ làm giàu tập đặc trưng nhằm nâng cao thực thi của phân lớp.

3.2.1.Mơ hình biểu diễn văn bản theo đồ thị khoảng cách

3.2.1.1.Biểu diễn dữ liệu theo đồ thị khoảng cách

Biểu diễn dữ liệu bằng đồ thị khoảng cách là cách biểu diễn cĩ thể giữ được các thơng tin giàu ý nghĩa về trật tự và khoảng cách giữa các từ trong văn bản. Đồng thời, cách biểu diễn cĩ cấu trúc theo đồ thị khoảng cách khá hiệu quả cho bài tốn xử lý văn bản. Đồ thị khoảng cách cĩ thể được xác định theo các bậc khác nhau tùy thuộc vào mức thơng tin khoảng cách muốn lưu giữ. Đặc biệt là, đồ thị khoảng cách bậc k sẽ lưu giữ thơng tin về các cặp từ cĩ khoảng cách tối đa là trong văn bản. Đồ thị khoảng cách được định nghĩa như sau:

Một đồ thị khoảng cách bậc k của một văn bản được lấy ra từ tập dữ liệu được định nghĩa ( ) ( ( ) ( )) trong đĩ, ( ) là tập các đỉnh được xác định trong tập dữ liệu và ( ) là tâp các cạnh trong văn bản. Tập ( ) ( ) được xác định như sau:

 ( ): là tập các đỉnh, trong đĩ mỗi đỉnh là một từ trong tập các từ được xây dựng từ tồn bộ tập dữ liệu . Số lượng từ trong tập dữ liệu cĩ thể lớn và trật tự từ trong tập từ này là khơng đổi khi biểu diễn trên tập văn bản khác trong .

 ( ): là tập các cạnh từ đỉnh i nối đỉnh j nếu từ i đứng trước từ j nhiều nhất k vị trí. Ví dụ, k = 1 được hiểu là thứ tự tuần tự các từ. Tần suất của các cạnh là số lần từ i đứng trước từ j nhiều nhất k vị trí trong văn bản.

Tập ( ) luơn chứa một cạnh từ mỗi nút đến chính nĩ. Tần số của mỗi cạnh là số lần một từ đứng trước từ khác trong văn bản với khoảng cách nhiều nhất

k vị trí. Vì mỗi từ được coi là đứng trước nĩ với khoảng cách k=0, tần số của mỗi cạnh ít nhất bằng tần số của từ tương ứng trong văn bản.

Hầu hết các tập dữ liệu chứa nhiều từ xuất hiện với tần xuất lớn như giới từ, mạo từ và liên từ - hay cịn gọi là từ dừng. Do đĩ, trước khi biểu diễn đồ thị khoảng cách, cần loại bỏ các từ dừng, giảm số lượng cạnh trong biểu diễn đồ thị khoảng cách.

Hình 3.7 Minh họa biểu diễn đồ thị khoảng cách

Biểu diễn bậc 0 tương ứng với tần suất xuất hiện của từ nên biểu diễn này khá giống với biểu diễn theo khơng gian vectơ. Biểu diễn của các bậc khác nhau thể hiện được lượng thơng tin thu được về khoảng cách cho một câu văn bản được thể hiện ở Hình 3.7. Hình thể hiện đồ thị khoảng cách bậc 0, 1 và 2 đối với tập đỉnh là

tập từ. Đồ thị khoảng cách này được xây dựng dựa vào tập từ trong văn bản sau khi loại bỏ từ dừng. Đồ thị khoảng cách bậc 0 chỉ bao gồm tần suất. Tần suất của từ trong trong văn bản là số lần một từ xuất hiện với khoảng cách 0. Số cạnh trong biểu diễn sẽ tăng đối với đồ thị khoảng cách với số bậc cao hơn. Tần suất của từ tự lặp trong đồ thị khoảng cách bậc 2 cao hơn trong đồ thị khoảng cách bậc 1 và bậc 0. Sự lặp lại này khơng thay đổi tần suất bậc 1 và bậc 0 đồ thị khoảng cách nhưng ảnh hưởng tới đồ thị khoảng cách bậc 2. Đồ thị khoảng cách cĩ bậc cao hơn cĩ thể chứa nhiều thơng tin hơn nhưng đồ thị bậc quá cao như bậc 5 hoặc bậc 10 thì cĩ thể khơng cịn đúng do mẫu dữ liệu mà hai từ cách nhau với khoảng cách lơn (5-10) từ thường khơng cĩ nhiều ý nghĩa đối với mơ hình. Đồ thị khoảng cách bậc 0 khơng chứa nhiều thơng tin hữu ích.

Một đặc điểm quan trọng của đồ thị khoảng cách là nĩ tương đối thưa và chứa một lượng nhỏ các cạnh đối với đồ thị bậc nhỏ. Nhưng qua các thực nghiệm, C. Aggarwal và P. Zhao [10] đã cho thấy, đồ thị khoảng cách bậc nhỏ mang lại hiệu quả xử lý trong hầu hết các ứng dụng khai phá như phân lớp, phân cụm,... Một số tính chất của đồ thị khoảng cách như sau:

- Cho ( ) là số từ trong văn bản (tính cả trường hợp lặp) và ( ) là số từ phân biệt trong (khơng tính trường hợp lặp). Khi đĩ, đồ thị khoảng cách bậc k chứa ít nhất ( ) ( ) ( ) cạnh và nhiều nhất là ( ) ( ) cạnh.

- Các đồ thị khoảng cách bậc 2 hoặc bậc thấp hơn trong các văn bản chỉ chứa các từ đơn lẻ là mặt phẳng (hai chiều).

- Cho và là hai văn bản trong tập dữ liệu , là một tập con của . Khi đĩ, đồ thị khoảng cách ( ) là đồ thị con của đồ thị khoảng cách ( ) - Cho và là hai văn bản trong tập dữ liệu và chúng cĩ tập từ chung

liền kề kí hiệu là . Khi đĩ, đồ thị khoảng cách ( ) và ( ) cĩ chúng đồ thị con ( )

- Cho là một đồ thị hai chiều chứa m đỉnh và là một văn bản trong tập dữ liệu . Gọi E là tập giao cạnh của tập các cạnh trong đồ thị ( ) với

các cạnh trong . Gọi q là tổng tần suất các cạnh trong . Khi đĩ, q chính là số lần từ khĩa trong các đỉnh tương ứng với xuất hiện trong một khoảng cách với k của một đỉnh khác trong văn bản.

3.2.1.2.Mơ hình đồ thị khoảng cách và mơ hình n-gram

Cĩ thể thấy mơ hình đồ thị khoảng cách cĩ một số điểm tương đồng với biểu diễn đặc trưng n-grams [14]. Trong đĩ, đặc trưng n-grams là chuỗi n phần tử liên tiếp nhau của một dãy các phần tử cho trước trong văn bản; nhiệm vụ là tính xác suất một chuỗi trong văn bản. ( )

Khi đĩ, theo luật dãy của xác suất:

( ) ( ) ( ) ( ) ( ) ∏ ( )

(3.7)

Áp dụng luật dãy vào các từ, ta cĩ:

( ) ( ) ( ) ( ) ( ) ∏ ( )

(3.8)

Luật dãy thể hiện mối liên kết giữa việc tính xác suất của một chuỗi và xác suất cĩ điều kiện của một từ cho trước các từ đứng trước nĩ. Cơng thức (3.8) gợi ý rằng, cĩ thể ước lượng xác suất của một chuỗi các từ bằng tích các xác suất cĩ điều kiện.

Khởi xướng ban đầu của mơ hình n-grams là mơ hình bigram, trong đĩ, thay vì tính xác suất của một từ khi biết tất cả các từ đứng trước nĩ ( ) thì chỉ quan tâm đến các từ đứng trước nĩ bằng cách sử dụng xác suất cĩ điều kiện của từ đứng trước nĩ ( ). Giả thiết coi xác suất của một từ chỉ phụ thuộc vào từ đứng trước nĩ gọi là giả thiết Markov.

Từ đĩ, cơng thức tổng quát cho xấp xỉ n-gram với xác suất cĩ điều kiện của từ tiếp theo trong chuỗi là:

( ) ( ) (3.9)

Trong đĩ N là kích thước chuỗi xem xét. Đặc trưng n-gram sử dụng phổ biến là n-gram cĩ kích thước 1 (unigram), n-gram cĩ kích thước 2 (bigram) và n-gram cĩ kích thước 3 (trigram),…

Qua phân tích về mơ hình n-gram cho thấy, mơ hình biểu diễn đồ thị khoảng cách cũng bao trùm các đặc trưng n-grams phổ biến này. Điểm khác biệt hơn là mơ hình biểu diễn đồ thị khoảng cách tích hợp các thơng tin từ bậc thấp đến bậc cao và mang tính tổng quát hơn.

3.2.2.Mơ hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị

khoảng cách chủ đề ẩn

Phát biểu bài tốn xây dựng mơ hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách chủ đề ẩn như sau:

Đầu vào:

- : tập dữ liệu văn bản đa nhãn liên quan đến chủ đề thuộc miền ứng dụng, chia thành tập Dtrain là tập dữ liệu huấn luyện và Dtest là tập dữ liệu kiểm thử - DU: tập dữ liệu khơng nhãn liên quan đến chủ đề thuộc miền ứng dụng để

xây dựng mơ hình chủ đề ẩn. - L: tập nhãn cho trước gồm q nhãn

Đầu ra:

- Mơ hình phân lớp đa nhãn M sao cho M được đánh giá kiểm thử đạt hiệu quả cao.

Quy trình giải quyết bài tốn được thể hiện trong Quy trình 3.2 và mơ hình phân lớp được mơ tả ở Hình 3.8.

Pha 1: Huấn luyện mơ hình

- Bước 1: Xây dựng mơ hình chủ đề ẩn LDA trên tập DU và biểu diễn câu chủ

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 98)