Hình 2.4 biểu diễn so sánh kết quả thực nghiệm mơ hình đề xuất trên các tập ràng buộc khác nhau. Kết quả cho thấy khi tăng số lượng ràng buộc đã cải thiện kết quả mơ hình. Cụ thể là thực thi của mơ hình đề xuất với tập ràng buộc 614 cho kết quả thấp nhất trong cả 3 trường hợp thực nghiệm với các tập huấn luyện khác nhau. Thực nghiệm với tập ràng buộc 669 cho kết quả tốt hơn thực nghiệm với tập ràng buộc 914 khi kết hợp với tập dữ liệu huấn luyện 1000 thực thể. Tuy nhiên khi kết hợp với tập dữ liệu huấn luyện 1500 thực thể, thực nghiệm với tập ràng buộc 914 cho kết quả vượt hơn và là kết quả tốt nhất trong mọi thực nghiệm 90,14%. Cĩ thể lý giải vấn đề này là do khi sử dụng tập huấn luyện 1000 thực thể, tập ràng buộc 699 là phù hợp và đủ để thể hiện quan hệ thực thể trong tập dữ liệu huấn luyện, cịn tập ràng buộc 914 thực thể bị dư thừa, vượt ra ngồi các quan hệ thực thể trong tập dữ liệu huấn luyện nên kết quả mơ hình khi kết hợp với tập ràng buộc 699 cho kết quả tốt hơn.
Nhưng khi tăng số lượng thực thể lên 1500 trong tập dữ liệu huấn luyện thì tập ràng buộc 914 với số lượng ràng buộc lớn hơn sẽ biểu diễn tốt hơn quan hệ thực thể tốt hơn, nên cho kết quả tốt nhất.
Hình 2.4 Kết quả mơ hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát trên các tập ràng buộc khác nhau
60 65 70 75 80 85 90 95 100 Tập huấn luyện 500 Tập huấn luyện 1000 Tập huấn luyện 1500 F- m e asu re ( % ) Tập 614 ràng buộc Tập 669 ràng buộc Tập 914 ràng buộc
Kết quả tại Bảng 2.3 và Hình 2.4 cho thấy mơ hình đề xuất đối sánh được với các cơng trình nhận diện thực thể tiếng Việt cơng bố trước đĩ như mơ hình trong [104] đạt 87.75%, mơ hình trong [52] đạt 83.39%, mơ hình trong [13] đạt 83% trên cùng độ đo F1,… Mơ hình trong [52] dựa trên một kho ngữ liệu vàng NER (NER golden corpus) trong khi mơ hình đề xuất đạt độ đo F1 là 90.14% khơng dựa trên một tài nguyên dữ liệu nào khác.
2.2. Một mơ hình phân lớp đơn nhãn trong hệ tư vấn xã hội
2.2.1.Sơ bộ về tư vấn xã hội
Theo F.Ricci và cộng sự [30], hệ tư vấn (recommender system hoặc
recommendation system, cịn được gọi là hệ gợi ý) là cơng cụ phần mềm và kỹ thuật cung cấp các tư vấn về các mục ví dụ như sản phẩm, dịch vụ,… cho một người dùng. Các tư vấn này thường liên quan đến quá trình ra quyết định khác nhau của người dùng nhất định như nên mua sản phẩm nào, nghe loại nhạc nào, đọc quyển sách nào,…
Hệ tư vấn từ khi ra đời đã mang đến nhiều lợi ích cho người dùng bằng sự thu thập và chọn lọc thơng tin để đưa ra các gợi ý như hệ tư vấn trên các trang bán hàng trực tuyến: Amazon.com, Youbtube, Netflix, Yahoo,…
Bài tốn hệ tư vấn được mơ tả như sau [70]:
Cho tập người dùng * + và tập mục * + trong đĩ, n là số lượng người dùng và m là số lượng mục. Một người dùng sẽ đánh giá điểm cho một tập con của tập mục. Ma trận đánh giá được xây dựng trong đĩ là điểm số người dùng đánh giá mục , trường hợp chưa đánh giá mục nào thì sử dụng dấu “?”. Nhiệm vụ của hệ tư vấn là dự đốn hạng mà người dùng đánh giá mục chưa được đánh giá hoặc gợi ý một số mục cho người dùng.
Học máy SVM, lý thuyết xấp xỉ, các kỹ thuật dựa trên kinh nghiệm,… là các kỹ thuật điển hình được sử dụng để dự đốn, ước lượng hạng cho các mục. Các kỹ thuật được sử dụng trong hệ tư vấn thuộc ba nhĩm là phương pháp dựa trên nội dung, phương pháp lọc cộng tác và phương pháp kết hợp (lai) hai phương pháp trên, trong đĩ, phương pháp lọc cộng tác được sử dụng rộng rãi hơn cả [70].
Như vậy, nĩi theo ngơn ngữ của bài tốn phân lớp, tập các sản phẩm xem xét là tập nhãn được xác định trước, việc tư vấn các sản phẩm là gán nhãn sản phẩm cho đối tượng người dùng.
Hiện nay, tư vấn xã hội là một chủ đề nghiên cứu, triển khai nhận được sự quan tâm đặc biệt do tính phổ biến rộng rãi của các mạng xã hội và tính phức tạp trong cấu trúc và kỹ thuật của mạng xã hội so với hệ tư vấn truyền thống. Trong đĩ, nhiều tiếp cận tập trung vào khai thác mối quan hệ giữa người dùng trong hệ thống là đặc trưng cơ bản trong hệ tư vấn xã hội. Trong hệ tư vấn xã hội, dựa trên thơng tin về người dùng, lịch sử tìm kiếm và các tương tác của người dùng trong mạng xã hội để đưa ra các tư vấn về lĩnh vực tìm kiếm.
Cĩ hai định nghĩa cho “tư vấn xã hội” là định nghĩa theo nghĩa hẹp và định nghĩa theo nghĩa rộng [70]. Theo nghĩa hẹp, hệ tư vấn xã hội là hệ tư vấn truyền thống cĩ sử dụng các quan hệ xã hội trực tuyến như quan hệ niềm tin, quan hệ bạn bè, quan hệ thành viên, quan hệ theo dõi,… là một đầu vào bổ sung cho hệ thống. Định nghĩa này giả định rằng người dùng cĩ liên quan với nhau khi họ thiết lập mối quan hệ xã hội. Khi đĩ, sở thích của người dùng cĩ thể sẽ tương đương hoặc bị ảnh hưởng bởi kết nối bạn bè của họ. Theo nghĩa rộng, hệ tư vấn xã hội đề cập tới (1) tư vấn về đối tượng bất kỳ trong phương tiện xã hội: mục (như định nghĩa hẹp), thẻ (tag), người, cộng đồng; (2) sử dụng khơng chỉ quan hệ xã hội mà mọi dữ liệu phương tiện sẵn cĩ như gán thẻ xã hội, tương tác người dùng, hành vi kích chuột....
Luận án nghiên cứu tiếp cận về tư vấn xã hội theo nghĩa hẹp. Khi đĩ, mối quan hệ giữa người dùng được bổ sung vào hệ thống thơng qua ma trận quan hệ với nếu giữa người dùng và cĩ quan hệ kết nối, ngược lại .
Các phương pháp đề xuất cho hệ tư vấn xã hội hầu hết dựa trên phương pháp lọc cộng tác kết hợp với các phân tích mạng xã hội về thơng tin người dùng. Do đĩ, một khung hệ tư vấn xã hội tổng quát được xây dựng gồm hai phần: mơ hình lọc cộng tác và mơ hình thơng tin xã hội. Theo sự phân chia của hệ thống tư vấn dựa trên lọc cộng tác, tiếp cận cho hệ tư vấn xã hội cũng chia thành hai nhĩm chính bao gồm hệ tư vấn xã hội dựa vào bộ nhớ và hệ tư vấn xã hội dựa trên mơ hình [70].
- Tiếp cận hệ tư vấn xã hội sử dụng mơ hình lọc cộng tác dựa trên bộ nhớ và đặc biệt là phương pháp hướng người dùng. Trong đĩ, các đánh giá cịn thiếu của một người dùng đối với một sản phẩm được xác định thơng qua đánh giá của tập người dùng cĩ liên quan đến người đĩ mà những đánh giá này thu được từ cả thơng tin đánh giá và thơng tin xã hội. Hệ thống tư vấn xã hội theo tiếp cận này thường theo hai bước. Bước 1: Tìm kiếm tập những người dùng cĩ liên quan đến người dùng đang xem xét. Bước 2: Kết hợp các đánh giá từ các người dùng liên quan thu được ở bước 1 để suy diễn các đánh giá về sản phẩm bị thiếu. Các đề xuất theo tiếp cận này sử dụng các kỹ thuật khác nhau để thu được tập người dùng liên quan ở bước 1 như trung bình trọng số dựa trên xã hội [101], [102], TidalTrust [58], MoleTrust [96], [97], [98], TrustWalker [81].
- Tiếp cận hệ tư vấn xã hội dựa trên mơ hình chọn các mơ hình lọc cộng tác dựa trên mơ hình làm mơ hình cơ bản, trong đĩ phổ biến là sử dụng các kỹ thuật tìm thừa số ma trận [3], [17]. Tiếp cận này thừa hưởng được các ưu điểm từ kỹ thuật tìm thừa số ma trận như: (1) áp dụng được nhiều phương pháp tối ưu (phương pháp dựa trên độ nghiêng) với quy mơ hàng nghìn người dùng với hàng triệu quan hệ tin cậy; (2) kỹ thuật tìm thừa số ma trận cĩ thể biểu diễn xác suất với nhiễu Gauxơ; (3) cho phép linh hoạt bổ sung các tri thức đã cĩ. Sự khác biệt với hệ tư vấn truyền thống dựa trên kỹ thuật tìm thừa số ma trận là mỗi mối quan hệ xã hội cĩ ý nghĩa tác động khác nhau đến quyết định của người dùng, một số cơng trình đề xuất gán trọng số cho mỗi quan hệ xã hội xem xét, thơng thường qua việc tính tốn độ tương đồng giữa các người dùng. Tùy thuộc vào cách thức định nghĩa sự đĩng gĩp của thơng tin xã hội, các đề xuất cho tiếp cận này được chia thành ba nhĩm phương pháp: phương pháp đồng tìm thừa số (co-factorization methods) [49], [69], phương pháp tích hợp (ensemble methods) [50], [68] và phương pháp chính quy (regularization methods) [80], [48].
2.2.2.Mơ hình đề xuất
Khảo sát các cơng trình liên quan về hệ thống tư vấn, nghiên cứu sinh nhận thấy một số cơng trình sử dụng kết hợp các kỹ thuật về phân tích quan điểm cho kết quả khả quan. Tác giả D.Yang và cộng sự [20] đề xuất mơ hình tư vấn lai dựa trên thơng tin đăng ký và dữ liệu hỗ trợ thu được từ kỹ thuật phân tích quan điểm người dùng, sau đĩ mở rộng tiếp cận tìm thừa số ma trận (matrix factorization) kết hợp ảnh hưởng của sự tương đồng về mặt xã hội và sự tương đồng trong đặc điểm của tuyến đường đưa vào hệ thống tư vấn địa điểm. P.V.Krishna và cộng sự [100] đề xuất mơ hình máy tự động học (Learning Automata) kết hợp với phân tích quan điểm cho bài tốn tư vấn địa điểm trong đĩ phân tích và tính điểm các hồi đáp của người dùng về các địa điểm để nâng cao hiệu quả của mơ hình. M.V.Tran và cộng sự [90] cũng đề xuất một hệ tư vấn tin tức cho tiếng Việt sử dụng mơ hình lọc dựa trên nội dung kết hợp với kỹ thuật chủ đề ẩn phân tích sở thích trong thơng tin hồ sơ người dùng.
Như vậy, một số cơng trình kể trên đã kết hợp phân tích quan điểm trên các thơng tin liên quan của người dùng (như các hồi đáp, bình luận, hồ sơ người dùng…) để khai thác đặc trưng cho mơ hình. Mơ hình đề xuất trong luận án cho hệ tư vấn xã hội trong luận án thuộc nhĩm tiếp cận sử dụng mơ hình lọc cộng tác dựa trên bộ nhớ với một vài điểm cụ thể hĩa khác biệt.
Một là ở bước chọn tập người dùng cĩ liên quan: Khác với các cơng trình nêu ở 2.2.1, mơ hình này đề xuất tập người dùng liên quan dựa trên việc thu thập dữ liệu trực tiếp từ website của nhà cung cấp sản phẩm, trong đĩ tập người dùng tham gia đánh giá sản phẩm chính là những người dùng cĩ cùng sự quan tâm tới sản phẩm đĩ. Trong số tập người dùng thu được, mơ hình tiếp tục tính tốn sự tương đồng giữa các người dùng để tìm ra tập con người dùng tin cậy cĩ ảnh hưởng nhất đến quyết định của người dùng đang xem xét. Hai là, mơ hình đã kết hợp sử dụng phương pháp phân tích quan điểm người dùng trên các bình luận về sản phẩm với các trọng số khác nhau để tạo danh sách các sản phẩm ưa thích. Ba là, mơ hình đã
xem xét đến sự ảnh hưởng của các loại đặc trưng khác nhau bao gồm đặc trưng về tiểu sử và đặc trưng xã hội đến quyết định của người dùng.
Trong mơ hình, tập sản phẩm xem xét được coi là tập nhãn được xác định trước, việc tư vấn sản phẩm chính là gán cho người dùng một sản phẩm cĩ khả năng nhất trong tập các sản phẩm xem xét. Bài tốn tư vấn xã hội được trình bày như dưới đây.
Đầu vào:
- D: Tập dữ liệu là tập các bình luận của người dùng về sản phẩm. (Sau khi biến đổi tập dữ liệu D thành tập dữ liệu về người dung, tiến hành chia tập dữ liệu về người dùng thành tập Dtrain làm dữ liệu huấn luyện và tập Dtest làm dữ liệu kiểm thử.
- L: Danh sách các sản phẩm quan tâm
Đầu ra:
- Hệ tư vấn các sản phẩm cho người dùng mới M:DtrainL sao cho M được đánh giá kiểm thử trên tập ví dụ mẫu Dtest đạt kết quả cao
Quy trình giải quyết bài tốn theo mơ hình đề xuất được trình bày ở Quy trình 2.2
Pha 1: Xây dựng tập dữ liệu về người dùng
- Bước 1: Lựa chọn các danh mục sản phẩm để tư vấn – tập nhãn L
- Bước 2: Phân tích quan điểm người dùng trên tập dữ liệu D để tìm ra tập sản phẩm người dùng quan tâm
Pha 2: Xây dựng hệ thống tư vấn cho người dùng mới về sản phẩm
- Bước 1: Tập dữ liệu về người dùng được chia ngẫu nhiên thành 2 tập dữ liệu huấn luyện (Dtrain) và tập dữ liệu kiểm thử (Dtest)
- Bước 2: Xác định độ tương đồng trên tập người dùng Dtrain và mỗi người dùng trên tập Dtest để tìm ra tập người dùng tin cậy trên Dtrain.
- Bước 3: Xác định tập sản phẩm ưa thích của tập người dùng tin cậy trên Dtrain để tư vấn cho người dùng mới.
- Bước 4: Đánh giá hiệu quả của hệ tư vấn.
Hệ thống đưa ra lời tư vấn cho người dùng mới khi tìm kiếm thơng tin về sản phẩm trên trang Facebook của nhà cung cấp sản phẩm thi hành Quy trình 2.1 được thể hiện tại Hình 2.5 Mơ hình hệ thống tư vấn xã hội. Mơ hình đề xuất gồm 2 pha chính:
Pha 1: Xây dựng tập dữ liệu về người dùng bao gồm tập các sản phẩm mà
người dùng quan tâm
Bước 1: Danh sách các sản phẩm điện thoại di động được xây dựng dựa trên các thương hiệu nổi tiếng như Iphone, Samsung, Nokia, Oppo, Sony,…
Bước 2: Các dữ liệu được tải về từ Facebook được trích xuất ra thơng tin về người dùng và các bình luận liên quan đến danh sách sản phẩm.
Dữ liệu được đưa qua module phân tích quan điểm dựa trên tập những bình luận dựa trên 3 tập từ điển về quan điểm như trong ví dụ sau:
BAD_SENTIMENT = {“chả”, “chê”, “xấu”, “tệ”, “kém”, “tồi”, “chán”, “ghét”, “thua”, “chậm”}
GOOD_SENTIMENT = {“ngon”, “tốt”, “bền”, “được”, “chuẩn”, “thích”, “yêu”, “nhanh”, “khỏe”, “hay”, “tiện”}
WEIGHT_SENTIMENT = {“ghê”, “hơn”, “khá”, “nhất”, “rất”, “được”, “hơi”, “tạm”}
Sau bước này thu được tập dữ về tập người dùng và danh sách 4 sản phẩm mà người đĩ quan tâm nhất.
Pha 2: Xây dựng hệ thống tư vấn xã hội dựa trên mối quan hệ giữa người dùng
Bước 1: Dữ liệu về người dùng được chia ngẫu nhiên thành tập dữ liệu huấn luyện Dtrain và tập dữ liệu kiểm thử Dtest theo hướng đánh giá kiểm thử chéo 4-fold (Trong đĩ, ba phần dữ liệu làm tập dữ liệu huấn luyện và một phần làm dữ liệu kiểm thử). Theo đĩ, mỗi người dùng trong tập Dtest được coi như một người dùng mới cần tư vấn. Tập sản phẩm do mơ hình tư vấn sẽ được so sánh với tập sản phẩm trong thơng tin người dùng để đánh giá hiệu quả mơ hình.
Bước 2: Xác định mối quan hệ giữa người dùng dựa trên độ tương đồng để tìm ra tập người dùng tin cậy. Đây là những người dùng cĩ quan hệ gần gũi với người dùng mới dựa trên độ đo về các đặc trưng. Cĩ nhiều cách thiết lập độ tương đồng, trong cơng trình này, nhĩm tác giả sử dụng độ đo Cosin trên tập đặc trưng về người dùng bao gồm: giới tính, năm sinh, thành phố, giáo dục, cơ quan, sở thích… Trước đĩ, các đặc trưng được ánh xạ theo mã và kiểu giá trị thuộc tính, ví dụ:
- Đặc trưng giới tính bao gồm {nam, nữ} {1,0}
- Đặc trưng tuổi được phân chia theo nhĩm {0-10, 10-20, 20-30,…} {1,2,3,…}
Bước 3: Sau khi thu được tập người dùng tin cậy, thực hiện thống kê trên tập dữ liệu để đưa ra sản phẩm cĩ tần suất xuất hiện lớn nhất trong nhĩm người này. Những sản phẩm này được coi là các tư vấn của hệ thống do người dùng tin cậy đề xuất.