.5 Mơ hình hệ thống tư vấn xã hội

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 77 - 86)

pha chính:

Pha 1: Xây dựng tập dữ liệu về người dùng bao gồm tập các sản phẩm mà

người dùng quan tâm

Bước 1: Danh sách các sản phẩm điện thoại di động được xây dựng dựa trên các thương hiệu nổi tiếng như Iphone, Samsung, Nokia, Oppo, Sony,…

Bước 2: Các dữ liệu được tải về từ Facebook được trích xuất ra thơng tin về người dùng và các bình luận liên quan đến danh sách sản phẩm.

Dữ liệu được đưa qua module phân tích quan điểm dựa trên tập những bình luận dựa trên 3 tập từ điển về quan điểm như trong ví dụ sau:

 BAD_SENTIMENT = {“chả”, “chê”, “xấu”, “tệ”, “kém”, “tồi”, “chán”, “ghét”, “thua”, “chậm”}

 GOOD_SENTIMENT = {“ngon”, “tốt”, “bền”, “được”, “chuẩn”, “thích”, “yêu”, “nhanh”, “khỏe”, “hay”, “tiện”}

 WEIGHT_SENTIMENT = {“ghê”, “hơn”, “khá”, “nhất”, “rất”, “được”, “hơi”, “tạm”}

Sau bước này thu được tập dữ về tập người dùng và danh sách 4 sản phẩm mà người đĩ quan tâm nhất.

Pha 2: Xây dựng hệ thống tư vấn xã hội dựa trên mối quan hệ giữa người dùng

Bước 1: Dữ liệu về người dùng được chia ngẫu nhiên thành tập dữ liệu huấn luyện Dtrain và tập dữ liệu kiểm thử Dtest theo hướng đánh giá kiểm thử chéo 4-fold (Trong đĩ, ba phần dữ liệu làm tập dữ liệu huấn luyện và một phần làm dữ liệu kiểm thử). Theo đĩ, mỗi người dùng trong tập Dtest được coi như một người dùng mới cần tư vấn. Tập sản phẩm do mơ hình tư vấn sẽ được so sánh với tập sản phẩm trong thơng tin người dùng để đánh giá hiệu quả mơ hình.

Bước 2: Xác định mối quan hệ giữa người dùng dựa trên độ tương đồng để tìm ra tập người dùng tin cậy. Đây là những người dùng cĩ quan hệ gần gũi với người dùng mới dựa trên độ đo về các đặc trưng. Cĩ nhiều cách thiết lập độ tương đồng, trong cơng trình này, nhĩm tác giả sử dụng độ đo Cosin trên tập đặc trưng về người dùng bao gồm: giới tính, năm sinh, thành phố, giáo dục, cơ quan, sở thích… Trước đĩ, các đặc trưng được ánh xạ theo mã và kiểu giá trị thuộc tính, ví dụ:

- Đặc trưng giới tính bao gồm {nam, nữ}  {1,0}

- Đặc trưng tuổi được phân chia theo nhĩm {0-10, 10-20, 20-30,…}  {1,2,3,…}

Bước 3: Sau khi thu được tập người dùng tin cậy, thực hiện thống kê trên tập dữ liệu để đưa ra sản phẩm cĩ tần suất xuất hiện lớn nhất trong nhĩm người này. Những sản phẩm này được coi là các tư vấn của hệ thống do người dùng tin cậy đề xuất.

Bước 4: Đánh giá hiệu quả mơ hình bằng cách so sánh tập sản phẩn do người dùng tin cậy tư vấn ở Bước 2 và tập sản phẩm người dùng yêu thích khi phân tích thơng tin người dùng.

Để đánh giá hiệu quả mơ hình, luận án sử dụng các độ đo thơng tin về độ chính xác xếp hạng bao gồm: độ chính xác bậc k (P@K); độ chính xác trung bình AP và độ chính xác trung bình bình quân MAP, trong đĩ:

- P@K: là độ chính xác của K đối tượng đầu bảng xếp hạng; Gọi Match@K là số đối tượng đúng ở K vị trí đầu tiên, khi đĩ độ chính xác bậc K sẽ được tính như sau:

(2.9)

- AP : độ chính xác trung bình là một độ đo kết hợp độ chính xác ở các mức bao phủ. Xét một tập gồm N truy vấn, độ chính xác của truy vấn thứ i ký hiệu là APi , gọi mi số đối tượng liên quan đến truy vấn thứ i, khi đĩ cơng thức tính độ chính xác trung bình như sau:

(2.10)

- MAP: Độ chính xác trung bình bình quân trên N truy vấn. Một hệ thống tìm kiếm được chạy thử nghiệm trên nhiều truy vấn, mỗi truy vấn cĩ một thứ tự xếp hạng kết quả tương ứng. Do đĩ, MAP được định nghĩa là bình quân của độ chính xác trung bình của tất cả các truy vấn trên tập kiểm thử.

∑ (2.11)

2.2.3.Ứng dụng mơ hình

Mơ hình trên được ứng dụng để xây dựng hệ thống tư vấn cho người dùng khi tìm kiếm sản phẩm điện thoại di dộng cho khách hàng trên trang facebook của nhà cung cấp.

Luận án xây dựng tập dữ liệu như sau:

Xperia Z3, Blackberry, Lumia 730, Z3, Lumia 830, Galaxy Alpha.

- Tập dữ liệu về người dùng bao gồm 2904 người dùng với các mức độ quan tâm đến số lượng sản phẩm khác nhau. Trong đĩ, thiết lập cơ sở dữ liệu người dùng bao gồm 3 sản phẩm yêu thích nhất và mơ hình cũng chọn ba sản phẩm do hệ tư vấn cung cấp để so sánh.

Để xác định mức độ ảnh hưởng của tập đặc trưng về người dùng đến quan hệ và kết quả tư vấn, thực hiện thực nghiệm với các tập đặc trưng khác nhau bao gồm đặc trưng về tiểu sử và đặc trưng xã hội như Bảng 2.4.

Các đặc trưng về tiểu sử Các đặc trưng xã hội Location (Vị trí) Interest (Sở thích)

Hometown (Quê quán) Favourit_teams (Đội bĩng yêu thích) Work (Job) (Cơng việc) Favourit_athletes (Vận động viên yêu thích

Education (Giáo dục) Music (Âm nhạc yêu thích) School (Trường học) Films (Phim yêu thích)

Gender (Giới tính) Television (Tivi)

Age (Tuổi) Games (Game yêu thích)

Relation_status (Trang thái quan hệ)

Inspirational_People (người truyền cảm hứng)

Book (Sách yêu thích) Facebook_page (Trang Facebook)

Bảng 2.4 Bảng đặc trưng tiểu sử và đặc trưng xã hội của người dùng

Kết quả thực nghiệm được thể hiện tại Bảng 2.5. Các thực nghiệm cho thấy, các đặc trưng xã hội ảnh hưởng nhiều hơn đến mối tương đồng giữa người dùng nên cĩ tác dụng lớn hơn trong hệ thống tư vấn. Việc kết hợp cả hai bộ đặc trưng cho kết quả tốt nhất trong các mẫu thực nghiệm.

Features P@1 P@2 P@3 MAP@3

Đặc trưng tiểu sử 0.416 0.385 0.353 0.377 Đặc trưng xã hội 0.456 0.429 0.407 0.424 Kết hợp 2 loại đặc trưng 0.512 0.487 0.446 0.481

Đồng thời, tại mỗi mẫu thực nghiệm, độ chính xác bậc thấp luơn cho kết quả tốt hơn độ chính xác bậc cao. Điều này thể hiện kết quả tư vấn với số lượng ít sản phẩm cho kết quả tốt hơn tư vấn nhiều sản phẩm.

2.3. Kết luận chương

Chương này trình bày về hai mơ hình phân lớp đơn nhãn do luận án đề xuất bao gồm mơ hình gán nhãn thực thể cĩ tên và mơ hình hệ tư vấn xã hội. Hai kết quả này này là việc vận dụng, thừa kế và phát triển các nghiên cứu về phân lớp đơn nhãn. Trong đĩ, mơ hình gán nhãn thực thể cĩ tên là mơ hình bán giám sát vận dụng mơ hình trường ngẫu nhiên cĩ điều kiện với tham số ước lượng mơ hình được xây dựng từ tiêu chuẩn kỳ vọng tổng quát trên tập ràng buộc về phân phối xác xuất của tập nhãn cho trước một đặc trưng thu được từ tri thức tiền nghiệm ước lượng từ dữ liệu. Mơ hình đề xuất sử dụng mơ hình chủ đề ẩn LDA trên kho dữ liệu thuộc miền ứng dụng để xây dựng tập ràng buộc. Mơ hình hệ tư vấn xã hội đề xuất theo tiếp cận sử dụng mơ hình lọc cộng tác dựa trên bộ nhớ và đặc biệt là phương pháp hướng người dùng với đĩng gĩp chính từ việc tìm kiếm tập người dùng tin cậy theo tiếp cận khai phá quan điểm người dùng về sản phẩm và mối quan hệ người dùng trên mạng xã hội dựa trên các đặc trưng người dùng về tiểu sử và xã hội.

Kỹ thuật sử dụng tiêu chuẩn kỳ vọng tổng quát trên cơ sở xây dựng tập ràng buộc về phân phối xác suất tập thực thể là định hướng và cơ sở ý tưởng cho việc xây dựng phân phối chủ đề ẩn, khai thác thơng tin ngữ nghĩa ẩn, làm giàu tập đặc trưng cho mơ hình được sử dụng ở chương tiếp theo.

Ngồi ra, việc nghiên cứu tư vấn danh sách sản phẩm trong tập sản phẩm cho trước trong mơ hình hệ tư vấn xã hội cĩ thể mở rộng lên mức tư vấn nhiều sản phẩm cho người dùng. Theo cách đĩ, cĩ thể coi bài tốn tư vấn là bài tốn phân lớp đa nhãn khi cĩ thể đồng thời tư vấn nhiều sản phẩm theo thứ tự ưu tiên.

Trong các chương tiếp theo, luận án tiếp tục nghiên cứu các đặc điểm trên miền dữ liệu đa nhãn và đề xuất các tiếp cận mới cho bài tốn phân lớp đa nhãn theo hướng khai thác các biểu diễn dữ liệu, làm giàu tập đặc trưng cho mơ hình phân lớp và xây dựng kỹ thuật phân lớp đa nhãn bán giám sát khai thác đặc trưng

riêng nhãn và tận dụng nguồn tài nguyên khơng nhãn phong phú để nâng cao hiệu quả của phân lớp đa nhãn.

Chương 3. PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ LIỆU THEO CHỦ ĐỀ ẨN

Xây dựng tập đặc trưng là một bước quan trọng trong xây dựng mơ hình. Một tập đặc trưng tốt sẽ thể hiện được các đặc điểm đặc trưng nhất và khơng chứa nhiễu sẽ giúp nâng cao hiệu quả phân lớp. Chương này sẽ trình bày hai phương pháp biểu diễn dữ liệu dựa trên mơ hình chủ đề ẩn Latent Dirichlet Allocation (LDA) [15], [16] làm giàu thêm các đặc trưng hữu ích cho mơ hình và biểu diễn dữ liệu theo mơ hình đồ thị khoảng cách. Với giả thiết là mỗi văn bản được tạo ra bằng việc kết hợp của nhiều chủ đề ẩn và mỗi chủ đề ẩn là một phân phối trên các từ. Mơ hình chủ đề ẩn LDA cung cấp một phương pháp khai thác ngữ nghĩa ẩn trong văn bản để làm giàu thêm đặc trưng cho mơ hình. Trên cơ sở dữ liệu được đề xuất về tập các đánh giá của khách hàng về khách sạn Việt Nam, một mơ hình phân lớp đa nhãn được đề xuất dựa trên tập đặc trưng được làm giàu từ mơ hình chủ đề ẩn LDA và lựa chọn dựa trên thơng tin tương hỗ MI để làm tăng hiệu quả mơ hình phân lớp. Kết quả nghiên cứu này được cơng bố trong [PTNgan3].

Phương pháp biểu diễn theo mơ hình khơng gian vectơ tuy được sử dụng rộng rãi nhưng vẫn tồn tại những nhược điểm. C.C. Aggarwal và P. Zhao [10] đã đề xuất một phương pháp biểu diễn dữ liệu mới theo mơ hình đồ thị khoảng cách nhằm khắc phục những tồn tại của mơ hình khơng gian vectơ và khai thác được các đặc trưng về thứ bậc của các thành phần dữ liệu. Cách tiếp cận kết hợp mơ hình chủ đề ẩn LDA và mơ hình biểu diễn dữ liệu theo đồ thị khoảng cách được đề xuất nhằm khai thác các thơng tin ngữ nghĩa ẩn phục vụ cho mơ hình phân lớp. Kết quả của mơ hình đề xuất được trình bày trong [PTNgan04].

3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn

3.1.1.Biểu diễn dữ liệu theo chủ đề ẩn

Mơ hình chủ đề là mơ hình học máy khơng giám sát trong đĩ giả thiết rằng mỗi văn bản được tạo ra là một sự kết hợp của nhiều chủ đề và mỗi chủ đề là một phân phối trên các từ. Mơ hình chủ đề về cơ bản là mơ hình sinh văn bản, nĩ quan

tâm quá trình xác suất mà văn bản được tạo ra. Đầu ra của mơ hình chủ đề là các cụm từ. Mỗi cụm từ là dạng của một chủ đề và phân phối xác suất của cụm trên các từ. Trong quá trình mơ hình hĩa xác suất, dữ liệu được xem như tạo ra từ quá trình sinh trong đĩ cĩ chứa các biến ẩn. Quá trình sinh này định nghĩa một phân bố xác suất đồng thời trên cả biến quan sát và biến ẩn. Phân bố cĩ điều kiện của biến ẩn cho trên các biến quan sát được tính thơng qua phân tích dữ liệu sử dụng phân bố đồng thời đĩ.

Mơ hình LDA được D.M. Blei và cộng sự [15] đề xuất đầu tiên vào năm 2003, trong đĩ đưa ra giả thiết về quá trình sinh ngẫu nhiên văn bản. Khái niệm chủ đề là một phân bố xác suất trên tập từ vựng cố định. Trong giả thiết sinh văn bản thì các chủ đề đã được tồn tại trước quá trình sinh. Ý tưởng của mơ hình là mỗi tài liệu là sự trộn lẫn của nhiều chủ đề, mỗi chủ đề là một phân phối xác suất trên tập các từ.

Ví dụ, xem xét một bài báo ở Hình 3.1 cĩ tiêu đề “Seeking Life’s Bare (Genetic) Necessities”, bài báo trình bày về ý tưởng sử dụng phân tích dữ liệu để xác định số gen mà một sinh vật cần để sống sĩt. Nếu làm thủ cơng, cĩ thể đánh dấu các từ khác nhau được sử dụng trong bài báo theo màu sắc: Đánh dấu màu xanh cho các từ về phân tích dữ liệu như “computer” và “prediction”; đánh dấu màu hồng cho các từ về sinh vật học tiến hĩa như “life” và “organism”; đánh dấu màu vàng cho các từ gen như “sequenced” và “genes”. Việc đánh dấu này cho thấy bài báo là sự pha trộn các chủ đề gen, phân tích dữ liệu và sinh vật học tiến hĩa theo các phân bố khác nhau. Xét một cách hình thức, mỗi chủ đề là một phân bố trên tập từ vựng cố định thì chủ đề gen sẽ chứa các từ về gen với xác suất cao, chủ đề về sinh vật học tiến hĩa sẽ chứa các từ về sinh vật học tiến hĩa với xác suất cao… Ngồi ra việc xác định được các chủ đề pha trộn trong bài báo cũng giúp cho việc phân bài báo này vào các tập bài báo khoa học. Việc sử dụng mơ hình LDA sẽ giúp thực hiện được các cơng việc này một cách tự động.

Về bản chất, LDA là một mơ hình sinh 3 mức: - Mức tập dữ liệu (corpus level)

- Mức tài liệu (document level) - Mức từ ( word level)

Hình 3.1 Phân phối các chủ đề trong bài báo, tập các từ và xác suất các từ trong chủ đề [16]

Trong đĩ, mỗi phần của mơ hình được coi như một mơ hình trộn hữu hạn trên cơ sở tập các xác suất của chủ đề. Các khái niệm sử dụng trong mơ hình

- Từ: được lấy từ tập từ vựng * + - Tài liệu: là một dãy các từ ( )

- Tập dữ liệu: là một tập hợp của các tài liệu * + - Chủ đề: là một phân phối xác suất trên tập các từ

Cho một tập dữ liệu gồm M tài liệu * +, trong đĩ tài liệu m

chứa từ lấy từ tập từ vựng * +. Mục tiêu của LDA là tìm một cấu trúc ẩn của các chủ đề hàm chứa ý nghĩa của văn bản. Mặc dù thuật ngữ “chủ đề ẩn” đã được đề cập đến trong các mơ hình LSA và pLSA, LDA cung cấp một mơ hình sinh đầy đủ cho kết quả tốt hơn các tiếp cận trước đĩ.

Xem xét biểu diễn mơ hình đồ họa của LDA ở Hình 3.2, quá trình LDA sinh

một tập các từ được phân bố trong tài liệu ⃗ được mơ tả như sau:

- Đối với mỗi tài liệu ⃗ , một phân phối chủ đề ⃗ được tạo ra và từ đây các từ trên mỗi chủ đề được xác định.

- Sinh ra chỉ số chủ đề dựa vào phân phối chủ đề

- Từ w được sinh ra dựa vào phân phối từ ⃗⃗ . Các chủ đề ⃗⃗ được lấy mẫu một lần cho tồn bộ tập dữ liệu.

Hình 3.2 Mơ hình sinh trong LDA [15]

Thuật tốn sinh trong LDA được thể hiện như sau:

for tất cả chủ đề , - do

Sinh ra phân phối từ ⃗⃗ ( )

end for

for tất cả tài liệu , -do

Sinh ra phân phối chủ đề ⃗m ~ Dir ( )

Sinh ra độ dài tài liệu ( )

for tất cả các từ , -do

Sinh ra chỉ số chủ đề ( ⃗ ) Sinh ra từ ( ⃗⃗ )

end for end for

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 77 - 86)