Wang và cộng sự 2016 vàsử dụng mô hình chủ đề đích vào một mô hình phân lớp đa nhãn khai phá quan điểm mức khía cạnh đối với các văn bản đánh giá tiếng Việt.. Mô hình đề xuất bao gồm hai
Trang 1KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Hệ thống thông tin
HÀ NỘI - 2019
Trang 2KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Hệ thống thông tin
Cán bộ hướng dẫn: PGS TS Hà Quang Thụy
HÀ NỘI - 2019
Trang 3hiện dưới sự hướng dẫn của PGS TS Hà Quang Thụy
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ
về tài liệu tham khảo
Hà Nội, ngày tháng năm 2019
Người cam đoan
Nguyễn Thị Thu Trang
Trang 4LỜI CẢM ƠN
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo, PGS TS Hà Quang Thụy đã tận tình chỉ bảo, hướng dẫn, động viên, giúp đỡ em trong suốt quá trình thực hiện đề tài
Em xin gửi lời cảm ơn sâu sắc tới quí Thầy Cô trong Khoa Công nghệ thông tin
đã truyền đạt kiến thức quí báu cho em trong những năm học vừa qua
Em cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên tại phòng thí nghiệm KT-Lab đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận
Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn chăm sóc, động viên, khích lệ con trên mỗi bước đường học vấn của con
Cuối cùng, xin chân thành cảm ơn các Anh Chị và bạn bè, đặc biệt là các thành viên lớp K60T đã ủng hộ và giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực hiện đề tài
Hà Nội, ngày tháng năm 2019
Sinh viên
Nguyễn Thị Thu Trang
Trang 5TÓM TẮT Tóm tắt: Một trong những nhiệm vụ bao quát của phân tích tài liệu là tìm hiểu về những chủ
đề được đề cập trong tài liệu và mô hình chủ đề là một kỹ thuật rất phổ biến Nhiều mô hình chủ đề đã được đề xuất và sử dụng, tuy nhiên, các mô hình đó thường thực hiện tìm ra mọi chủ đề có thể Trong nhiều trường hợp, người dùng thường quan tâm chi tiết hơn về các chủ
đề liên quan tới một khía cạnh cụ thể nào đó Mục đích chính của khóa luận này là nghiên cứu
mô hình chủ đề đích TTM của S Wang và cộng sự (2016) và sử dụng mô hình chủ đề đích vào một mô hình phân lớp đa nhãn khai phá quan điểm mức khía cạnh đối với các văn bản đánh giá tiếng Việt
Mô hình đề xuất bao gồm hai pha chính: (1) xử lý dữ liệu và tìm ra tập các chủ đề ẩn bằng mô hình chủ đề đích và (2) phân lớp đa nhãn khai phá quan điểm tiếng Việt mức khía cạnh Tại pha thứ nhất, dữ liệu được hiệu chỉnh sao cho phù hợp với yêu cầu đầu vào của mô hình TTM để tìm ra các chủ đề ẩn về khía cạnh người dùng quan tâm trong các đánh giá Tiếng Việt Từ đó sinh ra được tập các chủ đề về khía cạnh mà người đùng quan tâm Tại pha thứ hai, sau khi tìm được các chủ đề liên quan đến khía cạnh mà người dùng quan tâm và tập các từ trong mỗi chủ đề từ pha 1 Thực hiện biểu diễn dữ liệu theo vector và đưa vào mô hình phân lớp
Khóa luận đã tiến hành thực nghiệm trên miền dữ liệu tiếng Việt đánh giá khách sạn
Dữ liệu thực nghiệm sẽ được đưa qua các mô hình phân lớp khác nhau với tập chủ đề ẩn 6,
10, 15 để cho thấy ảnh hưởng của tập chủ đề ẩn lên kết quả của quá trình phân lớp
Từ khóa: mô hình chủ đề đích, khía cạnh quan tâm, khai phá quan điểm mức khía cạnh, phân
lớp đa nhãn, phân tích khía cạnh đích, phân tích tập trung, khía cạnh đích,
Trang 6MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
TÓM TẮT iii
DANH SÁCH THUẬT NGỮ vii
DANH SÁCH HÌNH ẢNH viii
DANH SÁCH BẢNG ix
MỞ ĐẦU 1
CHƯƠNG 1 BIỂU DIỄN DỮ LIỆU VĂN BẢN, KHAI PHÁ QUAN ĐIỂM VÀ SƠ BỘ BÀI TOÁN KHÓA LUẬN 2
1.1 Biểu diễn dữ liệu văn bản 2
1.1.1 Một số phương pháp đánh trọng số 3
1.1.1.1 Phương pháp boolean 3
1.1.1.2 Phương pháp dựa trên tần số 3
1.1.2 Một số mô hình biểu diễn văn bản phổ biến 5
1.1.2.1 Mô hình boolean 5
1.1.2.2 Mô hình xác suất 5
1.1.2.3 Mô hình không gian vecter 5
1.2 Khái quát về khai phá quan điểm và phân lớp dữ liệu 6
1.2.1 Khái quát về khai phá quan điểm 6
1.2.2 Phân lớp dữ liệu 7
1.2.2.1 Quá trình phân lớp dữ liệu 9
1.2.2.2 Một số thuật toán dùng trong mô hình phân lớp phổ biến 10
1.3 Khai phá quan điểm 21
1.3.1 Khái niệm khai phá quan điểm 21
1.3.2 Các bài toán khai phá quan điểm chính 24
1.4 Sơ bộ về bài toán trong khóa luận 26
1.4.1 Về bài toán chung 26
1.4.2 Bài toán khóa luận 26
Trang 7CHƯƠNG 2 MỘT SỐ CÁCH TIẾP CẬN GIẢI QUYẾT BÀI TOÁN 28
2.1 Cách 1: Sử dụng mô hình phân tích chủ đề LDA trên toàn bộ tập dữ liệu 28
2.2 Cách 2 : Xử lý kho dữ liệu theo mong muốn rồi mới áp dụng mô hình LDA 28
2.2.1 Tìm ra tho dữ liệu C1 từ dữ liệu ban đầu C 29
2.3 So sánh hai cách tiếp cận trên 30
2.4 Các kỹ thuật để giải quyết bài toán 30
2.4.1 Mô hình chủ đề đích 30
2.4.2 Giải thích các thành phần 31
2.4.3 Mô tả thuật toán 32
2.4.4 Các phân phối được sử dụng trong thuật toán 34
2.4.4.1 Phân phối Beta 34
2.4.4.2 Phân phối Dirichlet 35
2.4.4.3 Phân phối Bernoulli 35
2.4.4.4 Phân phối đa thức 36
2.4.5 Gibbs Sampling cho mô hình suy luận 36
Tóm tắt chương 37
CHƯƠNG 3 MÔ HÌNH GIẢI QUYẾT BÀI TOÁN TRONG KHÓA LUẬN 38
3.1 Giới thiệu 38
3.2 Quy trình giải quyết bài toán 39
3.2.1 Pha 1 – Áp dụng mô hình chủ đề đích và huấn luyện mô hình 40
3.2.1.1 Quá trình tiền xử lý dữ liệu 40
3.2.1.2 Xây dựng mô hình TTM 41
3.2.1.3 Lựa chọn đặc trưng 42
3.2.1.4 Xây dựng bộ phân lớp 42
3.2.2 Pha 2: Phân lớp đa nhãn sử dụng mô hình huấn luyện và đánh giá mô hình 43
3.2.2.1 Tiền xử lý dữ liệu 43
3.2.2.2 Xây dựng tập đặc trưng 43
3.2.2.3 Phâp lớp và đánh giá độ chính xác của hệ thống 43
Trang 8CHƯƠNG 4 THỰC NGHIỆM VÀ KẾT QUẢ 46
4.1 Tập dữ liệu, định hướng thực nghiệm 46
4.2 Phần mềm thực nhiệm 47
4.3 Xây dựng tập dữ liệu thực nghiệm 50
4.4 Thực nghiệm và đánh giá 52
4.4.1 Tham số mô hình TTM 52
4.4.2 Kết quả 53
Tóm tắt chương 56
KẾT LUẬN 58
Kết luận 58
Các công việc trong tương lai 58
TÀI LIỆU THAM KHẢO 59
Trang 9DANH SÁCH THUẬT NGỮ
Latent Dirichlet Allocation - Partial Data LDA-PD
Trang 10DANH SÁCH HÌNH ẢNH
Hình 1.1 Ảnh minh họa học đa nhãn[19] 9
Hình 1.2 Ảnh minh họa học đa nhãn đa thể hiện[19] 9
Hình 1.3 Minh họa kết quả thuật toán KNN vào phân lớp 11
Hình 1.4 Hình ảnh mô tả cây quyết định 15
Hình 1.5 Hình mô tả các đường phân cách giữa 2 lớp (mẫu dương và mẫu âm) 19
Hình 1.6 Hình ảnh biểu diễn khoảng cách của hai đường vector hỗ trợ 20
Hình 1.7 Hình ảnh ví dụ về một siêu phẳng trong không gian nhiều chiều 21
Hình 2.1 Mô hình TTM 31
Hình 2.2 Thuật toán sinh trong mô hình 33
Hình 3.1 Mô hình tổng quan của bài toán 38
Hình 3.2 Quy trình giải quyết bài toán 39
Hình 3.3 Biểu diễn dữ liệu(Y) trong phân lớp 44
Hình 4.1 Hình ảnh mô tả tập dữ liệu khách sạn sau khi đã xử lý 51
Hình 4.2 Mô tả tập dữ liệu đầu vào của mô hình chủ đề đích TTM 51
Hình 4.3 Hình ảnh mô tả dữ liệu đầu ra của mô hình chủ đề đích TTM 52
Trang 11DANH SÁCH BẢNG
Bảng 3.1 Ví dụ về kết quả của mô hình TTM 42
Bảng 3.2 Ví dụ về dữ liệu đa nhãn 42
Bảng 4.1 Cấu hình hệ thống thi hành thực nghiệm 47
Bảng 4.2 Danh sách các phần mềm sử dụng trong thực nghiệm 47
Bảng 4.3 Danh sách một số từ dừng 49
Bảng 4.4 Dữ liệu đầu vào của TTM 49
Bảng 4.5 Tập dữ liệu thực nghiệm 50
Bảng 4.6 Tập dữ liệu huấn luyện 50
Bảng 4.7 Kết quả thực nghiệm sử dụng các bộ phân lớp Cây quyết định 53
Bảng 4.8 Kết quả thực nghiệm sử dụng các bộ phân lớp KNN 54
Bảng 4.9 Kết quả thực nghiệm sử dụng các bộ phân lớp Rừng ngẫu nhiên 55
Bảng 4.10 Kết quả thực nghiệm sử dụng các bộ phân lớp SVM 56
Trang 12nay, việc đưa ra ý kiến riêng của mỗi cá nhân về một chủ đề, một đối tượng nào đó diễn ra rất sôi nổi Các diễn đàn và phương tiện xã hội trở thành nguồn cung cấp thông tin dồi dào cho việc nghiên cứu về lĩnh vực khai phá quan điểm
Tuy nhiên, dữ liệu lấy được từ các diễn đàn, phương tiện xã hội thuộc nhiều dạng khác nhau như âm thanh, hình ảnh, văn bản, Việc tìm hiểu chi tiết hơn về vấn
đề mà người dùng muốn trình bày, nhận định trong một bài viết hay một cuộc thảo luận hoặc trong các đánh giá về sản phẩm thu hút sự quan tâm của người dùng nói chung và các nhà nghiên cứu về khai phá dữ liệu nói riêng Song, việc tìm ra những thông tin chi tiết và đáng giá chỉ liên quan đến vấn đề mà một người dùng cụ thể quan tâm trong một bộ dữ liệu lớn về các ý kiến đánh giá khác là điều không hề dễ ràng
Mô hình chủ đề hiện tại thường làm việc trên toàn bộ tập dữ liệu và đưa ra tất
cả các chủ đề được đề cập đến miền ứng dụng Các chủ đề tạo ra có thể là quá thô, thậm chí có những chủ đề mà người dùng không quan tâm Do vậy, mô hình chủ đề là một phương pháp biểu diễn tốt, nhưng trong một số tình huống, nó có thể không hiệu quả theo yêu cầu của người dùng Mô hình chủ đề hướng người sử dụng (Targeted Topic Model: TTM) là một mô hình chủ đề có thể đưa ra được chỉ các chủ đề cụ thể về khía cạnh đích (khía cạnh mà người dùng quan tâm) Khóa luận này sẽ trình bày về mô hình chủ đề hướng yêu cầu người sử dụng (TTM) và áp dụng vào phân lớp đa nhãn văn bản tiếng Việt
Khóa luận này được tổ chức thành bốn chương như sau:
Chương 1: Biểu diễn dữ liệu văn bản, khai phá quan điểm và sơ bộ bài toán khóa luận Chương này sẽ trình bày các nội dung về biểu diễn dữ liệu văn bản, phân lớp
dữ liệu, khai phá quan điểm và sơ bộ bài toán trong khóa luận
Chương 2: Mô hình chủ đề khía cạnh đích và các nội dung liên quan Chương này
Chương 3: Mô hình giải quyết bài toán
Chương 4: Thực nghiệm và kết quả
Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát triển trong tương lai
Trang 13CHƯƠNG 1 BIỂU DIỄN DỮ LIỆU VĂN BẢN, KHAI PHÁ QUAN ĐIỂM VÀ SƠ BỘ BÀI TOÁN KHÓA LUẬN
1.1 Biểu diễn dữ liệu văn bản
Như chúng ta đã biết, dữ liệu văn bản là một dạng dữ liệu phổ biến được dùng
để lưu trữ thông tin kể từ khi máy in ra đời cho đến nay Khi lượng thông tin ngày càng lớn dần theo thời gian và theo đó là sự thay đổi của môi trường, việc lưu trữ dữ liệu trên giấy gặp nhiều khó khăn Máy tính xuất hiện đã mở ra một cách thức mới cho việc lưu trữ và sử dụng dữ liệu Vấn đề khó khăn nhất ở đây là làm thế nào để máy tính thể hiện đúng nội dung của dữ liệu Công việc này được gọi là đánh chỉ số văn bản Ban đầu với lượng dữ liệu nhỏ con người có thể sử dụng phương pháp thủ công
để đánh chỉ số nhưng khi dữ liệu ngày càng lớn thì việc đánh chỉ số tự động là vô cùng cần thiết
Có rất nhiều cách đánh chỉ số khác nhau tùy theo mục đích của người dùng Song nó đều thỏa mãn ba mục đích sau [1]:
Cho phép vị trí của từ đó liên quan tới chủ đề người dùng quan tâm
Gắn kết các từ và các chủ đề liên quan với nhau bằng cách phân biệt được các
từ riêng biệt (cụ thể) đối với các lĩnh vực/miền
Dự đoán được mức độ liên quan của từ đó tới thông tin yêu cầu của người dùng, với lĩnh vực và chuyên ngành cụ thể
Vậy các từ trong văn bản được phân bố như thế nàovà chúng ta có cần đánh chỉ số tất cả các từ trong văn bản hay không? hầu hết các phương pháp đánh chỉ số đều bắt đầu bằng lập luận rằng, tần số xuất hiện của các từ đóng vai trò quan trọng trong biểu diễn văn bản Chúng ta có thể dễ dàng thấy rằng, trong văn bản tiếng Anh các giới từ như “a” “the” “and” có tần suất xuất hiện rất cao nhưng lại không thể hiện được các đặc trưng nội dung văn bản, đồng thời những từ chỉ xuất hiện một, hai lần thì mức độ ảnh hưởng của từ đó tới văn bản cũng không nhiều Vậy có thể đi đến kết
Trang 14luận rằng những từ có tần số xuất hiện trung bình là những từ quan trọng trong văn bản
Trong những nghiên cứu của mình, Luhn đưa ra một phương pháp đánh trọng
số cho các từ trong văn bản như sau [1]:
Đầu vào là một tập n văn bản, tính tần số của mỗi từ trong một văn bản
Tính tần số xuất hiện của mỗi từ trong toàn bộ n văn bản
Sắp xếp từ theo tần số giảm dần
Chọn một ngưỡng trên để loại bỏ các từ có tần số cao và một ngưỡng dưới
để loại bỏ những từ không quan trọng
Các từ còn lại là những từ được dùng để đánh chỉ số văn bản được tập hợp trong tập từ vựng V
1.1.1 Một số phương pháp đánh trọng số
Input: cho một từ ∈ V và một văn bản thuộc miền ứng dụng
Output: giá trị là trọng số của từ trong văn bản
1.1.1.1 Phương pháp boolean
Giả sử, một tập gồm m văn bản D = { , , … , } tập từ vựng V gồm có n từ khóa V = { , , … , }, W = ( ) là ma trận trọng số
Phương pháp boolean là phương pháp đánh trọng số đơn giản nhất với giá trị trọng số của từ khóa trong văn bản được xác định như sau:
= 1 với ∈ = 0 với ∉
1.1.1.2 Phương pháp dựa trên tần số
Phương pháp này xác định các số trong ma trận W=( ) dựa vào tần số xuất hiện của các từ khóa trong văn bản và tần số xuất hiện của văn bản trong tập D gồm m
Trang 151.1.1.2.1 Phương pháp dựa trên tần số từ khóa (TF - Term Frequency)
Phương pháp dựa trên tần số từ khóa (Term Frequency: TF) cho thấy rằng nếu một từ xuất hiện nhiều lần trong một văn bản thì thường quan trọng hơn những từ xuất hiện ít
Giá trị của một từ khóa được tính dựa trên số lần xuất hiện của từ khóa đó trong văn bản Gọi vf là số lần xuất hiện của từ khóa trong văn bản , khi đó có thể chọn cách tính theo một trong các công thức :
= vf Hoặc
= 1 + log vf Hoặc
= vf
1.1.1.2.2 Phương pháp dựa trên nghịch đảo tần số văn bản
Phương pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document Frequency) được giải thích như sau, một từ xuất hiện nhiều trong văn bản D (từ phổ biến) sẽ không quan trọng bằng những từ xuất hiện ít hoặc xuất hiện trong một văn bản hoặc một tập nhỏ các văn bản trong D
Gọi df là số lượng văn bản có chứa từ khóa trong tập m văn bản đang xét Công thức tính giá trị trọng số:
= log = log - log df
1.1.1.2.3 Phương pháp TFIDF
Đây là phương pháp tổng hợp của TF và IDF
Trang 161.1.2 Một số mô hình biểu diễn văn bản phổ biến
1.1.2.1 Mô hình boolean
Giả sử, cho một tập gồm m văn bản D = { , , … , } tập từ vựng V gồm có
n từ khóa V = { , , … , }, W = ( ) là ma trận trọng số, trong đó là trọng số của từ khóa trong văn bản
Trọng số các từ trong văn bản sẽ là 0 hoặc 1 Mỗi văn bản sẽ được biểu diễn dưới dạng tập hợp như sau:
= { }, trong đó là từ có trọng số trong văn bản là 1
1.1.2.2 Mô hình xác suất
Văn bản trong mô hình xác suất được coi như một quan sát trong tập Y, trong
đó các từ trong văn bản được giả thiết là độc lập, không phụ thuộc vào vị trí và ngữ pháp Văn bản sẽ bao gồm các từ chứa trong đó, vì vậy đây còn gọi là phương pháp biểu diễn túi-các-từ (hay túi từ)
Theo thuật ngữ toán học, một mô hình xác suất được coi như một cặp (Y, P) Trong đó Y là tập quan sát được, P là mô hình xác suất trên Y Sử dụng các phương pháp hồi quy hoặc Bayes để đưa ra kết luận về các phần tử của tập Y
1.1.2.3 Mô hình không gian vecter
Đây là mô hình được sử dụng rộng rãi nhất trong biểu diễn văn bản Mỗi văn bản được biểu diễn trong một không gian nhiều chiều, trong đó mỗi chiều tương ứng với một từ của văn bản Độ quan trọng của từ được xác định bằng phương pháp đánh chỉ số trong văn bản và giá trị trọng số được chuẩn hóa trong đoạn [0,1]
Tổng quát, một văn bản d trong không gian vecter, ký hiệu là sẽ được biểu diễn trong không gian vecter gồm N chiều, trong đó N là số lượng từ có trong tập văn bản
= [ , , , , … , , ]T
Trang 17Độ giống nhau giữa hai văn bản được tính bằng công thức:
= ( )
| || |
1.2 Khái quát về khai phá quan điểm và phân lớp dữ liệu
1.2.1 Khái quát về khai phá quan điểm
Khai phá quan điểm hay còn gọi là khai thác ý kiến là một lĩnh vực thực hiện tìm hiểu, nghiên cứu về tình cảm, cảm xúc, ý kiến, thái độ và đánh giá của con người trên những thực thể như sản phẩm, dịch vụ, tổ chức, sự kiện, vấn đề hay một cá nhân nào đó [16] Thông tin văn bản có thể được chia ra thành hai loại chính, đó là sự kiện
và quan điểm Thông tin sự kiện thể hiện khách quan về những thực thể, sự kiện hay các thuộc tính của chúng Thông tin quan điểm thể hiện chủ quan của con người, miêu
tả quan điểm, ý kiến hướng đến thực thể, sự kiện hay thuộc tính Khai phá quan điểm đang là một lĩnh vực thu hút sự quan tâm đặc biệt không chỉ của các nhà khoa học trong giới học thuật mà còn của các nhà sản xuất, các công ty,… trên thế giới nói chung và ở Việt Nam nói riêng
Khai phá quan điểm là một trong những bài toán quan trọng trong khai phá dữ liệu văn bản Nó thực hiện các phương pháp trong xử lý ngôn ngữ tự nhiên, khai phá
dữ liệu và công nghệ mạng để trích xuất và xác định quan điểm trong nguồn dữ liệu là các đánh giá, nhận định của con người [17] Khái niệm “quan điểm” là một khái niệm rất rộng, nó có thể được thể hiện ở nhiều hình thức và mức độ khác nhau
Bo Pang and Lillian Lee [18] chỉ ra 4 miền ứng dụng chính của khai phá quan điểm
Ứng dụng cho các website đánh giá: việc khai thác ý kiến người dùng trong website đánh giá là việc vô cung quan trọng Người dùng có thể đánh giá không chỉ ở một chủ đề giới hạn như sản phẩm mà có thể đánh giá cả về các vấn đề như chính trị Các trang web có thể thu thập tóm tắt đánh giá của người dùng và đôi khi thực hiện sửa chữa một số lỗi trong xếp hạng người dùng như: người dùng đánh giá tích cực nhưng lại vô tình chọn sếp hạng thấp Một số trường
Trang 18hợp cho thấy xếp hạng của người dùng có thể sai lệch hoặc cần sửa chữa và các phân lớp tự động có thể update lại vấn đề này
Thành phần phụ trong các hệ thống tư vấn, hỏi đáp: Các hệ thông phân tích quan điểm cũng có vai trò tiềm năng quan trọng là trao quyền công nghệ cho các hệ thống khác Một ứng dụng rất hữu ích hiện nay là khi các hệ thống hiển thị trực tuyến các quảng cáo sẽ hiện lên và việc phát hiện các nội dung quảng cáo nhạy cảm không phù hợp sẽ được phát hiện và kịp thời xử lý
Các ứng dụng trong kinh doanh và tình báo chính phủ: trong doanh nghiệp việc khai thác quan điểm của khách hàng để đưa ra chiến lược kinh doanh là điều vô cùng quan trọng, các doanh nghiệp luôn quan tâm đến việc khách hàng của họ mua gì, tần suất ra sao, đánh giá tích cực hay tiêu cực, họ còn có thể có nhu cầu nào khác liên quan đến sản phầm hiện dùng hay không; từ đó tìm được xu hướng bán hàng hoặc các dữ liệu liên quan Tình báo chính phủ là một ứng dụng khác cũng được xem xét ví dụ như giám sát và tác động để tăng sự thù địch hoặc truyền thông tiêu cực[3]
Ứng dụng trên các miền các nhau: Khai phá quan điểm áp dụng trên nhiều miền khác nhau ví dụ như trong chính trị có một số công việc cụ thể như tìm hiểu xem các cử tri đang nghĩ gì trong khi đó những công việc khác có mục tiêu dài hạn là tìm hiểu vị trí của các chính trị gia trong lòng công chúng, họ ủng hộ hay phản đối để tăng cường chất lượng thông tin mà có có thể truy cập[4]
1.2.2 Phân lớp dữ liệu
Bài toán phân lớp là một trong những bài toán quan trọng trong lĩnh vực phân tích dữ liệu Quá trình phân lớp là quá trình gán nhãn cho đối tượng dữ liệu vào vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp Như vậy, nhiệm vụ của bài toán phân lớp là cần tìm một mô hình phân lớp để khi có dữ liệu mới thì có thể xác định được dữ liệu đó thuộc vào lớp nào
Trang 19Các bài toán phân lớp cơ bản: phân lớp nhị phân (binary), phân lớp đa lớp (multiclass), phân lớp đa trị
Bài toán phân lớp nhị phân là bài toán gắn nhãn dữ liệu cho đối tượng vào một trong hai lớp khác nhau dựa vào dữ liệu đó có hay không có các đặc trưng (feature) của bộ phân lớp
Bài toán phân lớp đa lớp là quá trình phân lớp dữ liệu với số lượng lớp lớn hơn hai Như vậy với từng dữ liệu chúng ta phải xem xét và phân lớp chúng vào những lớp khác nhau chứ không phải là hai lớp như bài toán phân lớp nhị phân Và thực chất bài toán phân lớp nhị phân là một bài toán đặt biệt của phân lớp đa lớp khi số lớp bằng hai
Ứng dụng của bài toán này được sử dụng rất nhiều và rộng rãi trong thực tế ví
dụ như bài toán nhận dạng khuôn mặt, nhận diện giọng nói, phát hiện email spam…
Phân lớp dữ liệu có thể có phân lớp đơn nhãn hoặc phân lớp đa nhãn Phân lớp
đa nhãn ngày càng được chú ý và ứng dụng trong nhiều lĩnh vực như phân lớp văn bản, phân lớp hình ảnh, phân loại web, dự đoán chức năng gen, phân lớp chức năng protein, phân lớp âm nhạc [19] … Trong phân lớp đơn nhãn mỗi đối tượng chỉ được gắn vào một nhãn, phân lớp đa nhãn là bài toán cải tiến của phân lớp đơn nhãn, ở đây mỗi tài liệu được gắn nhiều nhãn khác nhau (Hình 1.1) Khóa luận này thực hiện tìm hiểu và áp dụng phân lớp đa nhãn
Theo Zhi-Hua Zhou và cộng sự [19], phân lớp đa nhãn được phát biểu như sau: Cho X ϵ ℝ biểu thị một không gian phần tử n chiều và Y = { , , … , } biểu thị không gian nhãn gồm q nhãn lớp Nhiệm vụ của học đa nhãn là học hàm số f: X→ 2 từ dữ liệu huấn luyện đa nhãn D = {( , |1 ≤ ≤ ), trong đó với mỗi phần
tử ( , ), ∈ X là một véc tơ đặc trưng n chiều = ( , , … , ) và ⊆ Y là tập các nhãn của Với một phần tử (thể hiện) mới x ∈ X, hàm số f(x) trả về y là một tập các nhãn dự đoán cho x
Trang 20Hình 1.1 Ảnh minh họa học đa nhãn[19]
Mức cao nhất của bài toán phân lớp là phân lớp đa nhãn đa thể hiện (Hình 1.2)
được M.L Zhang và Z.H Zhou lần đầu tiên hình thức hóa trong [19] và được khái quát hóa trong [20] Khái quát bài toán phân lớp đa nhãn đa thể hiện như sau: Cho một tập nhãn lớp trước tiên, mỗi phần tử dữ liệu được phân lớp có thể cùng lúc thuộc nhiều lớp
và mỗi phần tử dữ liệu có thể được biểu diễn qua nhiều thể hiện Khung phân lớp đa nhãn - đa thể hiện quan tâm tới sự nhập nhằng đồng thời trong biểu diễn của không gian đầu vào và đầu ra; nó cung cấp một khung nhìn mang tính tự nhiên và gần với thực tế hơn
Hình 1.2 Ảnh minh họa học đa nhãn đa thể hiện[19]
1.2.2.1 Quá trình phân lớp dữ liệu
Quá trình giải bài toán phân lớp dữ liệu bao gồm hai pha: xây dựng mô hình (bộ) phân lớp và sử dụng bộ phân lớp đã được xây dựng
Pha 1 Xây dựng mô hình
Pha xây dựng mô hình gồm hai bước chính là học (huấn luyện) mô hình và đánh giá
mô hình Tập dữ liệu mẫu (tập dữ liệu có nhãn ) được chia một cách ngẫu nhiên thành tập dữ liệu học và tập dữ liệu kiểm thử
Trang 21 Bước1: Xây dựng mô hình phân lớp
Sử dụng tập dữ liệu học để xây dựng mô hình phân lớp Mục đích của xây dựng
mô hình phân lớp là tìm ra hàm f(x) sao cho f(x) = y Những thuật toán học giám sát thường được dùng cho quá trình training để xây dựng mô hình phân lớp là: KNN, SVM, Cây quyết định (Decision Trees), Phân lớp Bay-et (Navie Bayers), Rừng ngẫu nhiên (Random Forest)
Bước 2: Đánh giá mô hình phân lớp và chọn ra mô hình tốt nhất
Bước thứ hai thực hiện đánh giá mô hình bằng cách đánh giá mức độ lỗi khi áp dụng mô hình đã xây dựng được tới dữ liệu kiểm thử Tùy thuộc vào kết quả đánh giá tốt hay xấu để thực hiện thay đổi các tham số của thuật toán cho phù hợp Cuối cùng, chọn ra mô hình phân lớp tốt nhất cho bài toán
Mô hình thực nghiệm trong Chương 3 mô tả pha xây dựng mô hình phân lớp
Pha 2 Sử dụng mô hình phân lớp
Mô hình phân lớp xây dựng được có hiệu năng hoạt động tốt được áp dụng cho toàn
bộ dữ liệu trong miền ứng dụng Đây là các dữ liệu chưa có nhãn hiện có và sẽ có trong tương lai
1.2.2.2 Một số mô hình phân lớp phổ biến
- Mô hình cây quyết định (Decision tree classification)
- Phân lớp Bayesian (Bayesian classifier)
- Mô hình K-láng giềng gần nhất (K-nearest neighbor classifier)
- Mô hình phân lớp SVM (Support Vector Machine)
- Mô hình Random Forest
- Phương pháp tập thô (Rough set Approach)
1.2.2.2.1 Thuật toán K láng giềng gần nhất - KNN
Trang 22Ý tưởng chính của thuật toán này là sử dụng kỹ thuật k láng giềng gần nhất để
xác định các láng giềng gần nhất của dữ liệu cần gán nhãn, sau đó sử dụng luật cực đại hậu nghiệm trên các thông tin liên quan đến nhãn từ các láng giềng để đưa ra tập nhãn
dự đoán Trong đó, k là số nguyên dương và được xác định trước
Thuật toán được mô tả như sau:
Bước 1: Xác định tham số k (số láng giềng gần nhất)
Bước 2: Tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng
khác trong tập dữ liệu training Bước 3: Sắp xếp khoảng cách thăng dần và xác định k láng giêng gần nhất với
điểm phân lớp Bước 4: Lấy tất cả các lớp của k láng giềng gần nhất đã xác định
Bước 5: Dựa vào phân lớp của k láng giềng gần nhất dự đoán lớp cho điểm
phân lớp
Để hiểu rõ hơn ta nhìn vào hình minh họa sau:
Hình 1.2 Minh họa kết quả thuật toán KNN vào phân lớp
Trên Hình 1.3, các chấm tròn thể hiện cho dữ liệu training, màu vàng thể hiện tài liệu
thuộc lớp A, màu tím thể hiện tài liệu thuộc lớp B
Trang 23nhất của điểm sao
Với k = 3 xác định được 3 điểm gần nhất trong đó có 2 điểm thuộc lớp B 1 điểm thuộc lớp A, vậy đối tượng sẽ được dự đoán là mang nhãn lớp B
Với k = 6 xác định được 6 điểm gần nhất trong đó có 4 điểm thuộc lớp A và 2 điểm thuộc lớp B, vậy đối tượng sẽ được dự đoán là mang nhãn lớp A
1.2.2.2.2 Thuật toán cây quyết định
Khái niệm cây quyết định:
Gốc: tên thuộc tính không có cung vào và không/một cung ra
Nút trong: tên thuộc tính; có chính xác một cung vào và một số cung ra (gắn với điều kiện kiểm tra giá trị thuộc tính của nút)
Lá hoặc nút kết thúc: giá trị lớp; có chính xác một cung vào và không có cung ra
Thuật toán phân lớp cây quyết định (Decision Tree: ML-DT) là thuật toán phổ
biến được sử dụng trong cả phân lớp và hồi quy Cây quyết định là cây mà mỗi nút thể hiện một đặc trưng mỗi nhãn thể hiện một quy luật và mỗi lá biểu diễn một kết quả, kết quả có thể là giá trị chụ thể có thể là một nhánh tiếp tục Có một vài thuật toán để tạo ra cây quyết định như CART(Classification and Regression Trees) dùng Gini index
để kiểm tra và ID3 (Interative Dichotomiser 3) dùng Entropy funtion và Information
gain để kiểm tra
Thuật toán cây quyết định ID3:
Trang 24Độ đo GINI:
Đo tính phức tạp của một tập ví dụ mẫu theo “lớp”
Công thức tính độ đo Gini cho lớp T:
) (
j
t j p t
G i n i
Trong đó p(j|t) là tần suất liên quan của lớp j tại nút t
Gini (t) lớn nhất = 1-1/nc (với nc là số các lớp tại nút t): khi các bản ghi tại t phân bố đều cho nc lớp; tính hỗn tạp cao nhất, không có phân biệt giữa các lớp
Gini (t) nhỏ nhất = 0 khi tất cả các bản ghi thuộc một lớp duy nhất
Chia tập theo độ đo GINI:
Dùng trong các thuật toán CART, SLIQ, SPRINT
Trang 25 Khi một nút t được phân hoạch thành k phần (k nút con của t) thì chất lượng của việc chia tính bằng
trong đó
n là số bản ghi của tập bản ghi tại nút t,
ni là số lượng bản ghi tại nút con I (của nút t)
Chọn thuộc tính IG:
Độ đo Information Gain:
Thông tin thu được sau khi phân hoạch tập ví dụ
Dùng cho các thuật toán ID3, họ C4.5
Entropy (t) nhỏ nhất = 0 khi tất cả các bản ghi thuộc một lớp duy nhất
Lấy loga cơ số 2 thay cho loga tự nhiên
Tính toán entropy (t) cho một nút tương tự như Gini (t)
Hình 1.4 minh họa một ví dụ về cây quyết định
Trang 26Hình 1.3 Hình ảnh mô tả cây quyết định
Chúng ta có một tập giá trị X và giá trị Y (yes hay no) Chúng ta cần tìm sự ánh xạ của
X và Y Chọn ID3 cho phân lớp nhị phân Trước tiên cần chọn IG cao nhất trong ID3,
để xác định chính xác IG cần sử dụng thước đo entropy
Tiếp theo ứng dụng IG cho việc tìm gốc:
Bước 1: Tính toán entropy cho tập dữ liệu
Bước 2: Trong toàn bộ đặc trưng:
Tính toán entropy của tất cả các giá trị
Tính entropy trung bình cho thuộc tính đang thực hiện
Bước 3: Chọn đặc trưng có IG cao nhất
Bước 4: Lặp lại cho đến khi thu được cây như mong muốn
1.2.2.2.3 Thuật toán máy vector hỗ trợ - SVM
SVM là phương pháp học có giám sát liên quan đến phân loại và phân tích hồi quy SVM giải quyết vấn đề overfitting (dữ liệu bị nhiễu và tách rời nhóm hoặc dữ liệu training nhỏ) rất tốt Thuật toán SVM giải quyết vấn đề là tìm ra một siêu phẳng (đường thẳng, mặt phẳng, mặt cong, ) có thể thực hiện phân chia dữ liệu thành 2 nửa Trong trường hợp nếu dữ liệu là không tuyến tính thì nó sẽ sử dụng một hàm nhân để
Trang 27Ý tưởng của thuật toán SVM là chuyển tập mẫu từ không gian biểu diễn Rn của chúng sang không gian Rd có số chiều lớn hơn Trong không gian Rd, tìm một siêu phẳng tối ưu để phân hoạch tập mẫu này dựa trên phân lớp của chúng, đồng nghĩa với việc tìm ra miền phân bố của từng lớp trong không gian Rn để từ đó xác định được phân lớp của 1 mẫu cụ thể
Đầu vào:
Tập dữ liệu D = { }
Tập các lớp , , , mỗi dữ liệu d thuộc một lớp
Tập ví dụ = + + + với = {d thuộc : d thuộc }
Tập ví dụ đại diện cho tập D
D gồm m dữ liệu thuộc không gian n chiều
Đầu ra:
Mô hình phân lớp : ánh xạ từ D sang C
Sử dụng mô hình:
d thuộc : xác định lớp của đối tượng d
Mục đích của thuật toán SVM là tìm ra hàm phân lớp hiệu quả nhất để phân biệt thành phần của các lớp trong việc huấn luyện dữ liệu Xét bài toán phân lớp văn
bản thành các lớp mẫu dương và mẫu âm: Cho một tập huấn luyện các cặp (x i , y i ), i =
1, …, l; trong đó x i R n là không gian vector đặc trưng n chiều; y i {-1, 1}, các mẫu dương là các mẫu x i thuộc lĩnh vực quan tâm và được gán nhãn y i = 1 và các mẫu âm
là các mẫu x i không thuộc lĩnh vực quan tâm và được gán nhãn yi = −1 Bài toán đặt ra
là khi đưa ra một vector đặc trưng x mới, cần dự đoán được y sao cho khả năng lỗi xảy
ra là tối thiểu
Trường hợp khả tách tuyến tính[2]:
Trong trường hợp này, bộ phân lớp SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với lề cực đại, được xác định bằng khoảng cách giữa các
Trang 28phẳng trong không gian đối tượng có phương trình là w T x + b = 0, trong đó w là vector pháp tuyến, b là tham số mô hình phân lớp Khi thay đổi w và b, hướng và
khoảng cách từ gốc tọa độ đến mặt siêu phẳng thay đổi
Bộ phân lớp SVM được định nghĩa như sau: f(x) = sign(w T x + b)(1.1), trong
đó:
sign(z) = +1 nếu z ≥ 0 và sign(z) = −1 nếu z < 0
Nếu f(x) = +1 thì x thuộc về lớp dương, và ngược lại, nếu f(x) = −1 thì x
thuộc về lớp âm
Mục tiêu của phương pháp SVM là ước lượng w và b để cực đại hóa lề giữa các
lớp dữ liệu dương và âm.Các giá trị khác nhau của lề cho ta các họ mặt siêu phẳng khác nhau, và lề càng lớn thì lỗi tổng quát hóa của bộ phân lớp càng giảm
Tập dữ liệu huấn luyện là khả tách tuyến tính, ta có các ràng buộc sau:
y x
- Tham số b được xác định sử dụng điều kiện Karush–Kuhn–
Tucker(KKT) như sau:
i [ y i (w T x i + b) – 1] = 0 Các mẫu x i tương ứng với αi> 0 là những mẫu nằm gần mặt siêu phẳng quyết định nhất và được gọi là các vector hỗ trợ Những vector hỗ trợ là những thành phần quan trọng nhất của tập dữ liệu huấn luyện Bởi vì nếu chỉ có các vector hỗ trợ, ta vẫn có thể xây dựng mặt siêu phẳng lề tối ưu như khi có một tập dữ liệu huấn luyện đầy đủ
Trang 29Trường hợp không khả tách tuyến tính[2]:
Với dữ liệu huấn luyện không khả tách tuyến tính thì ta có thể giải quyết theo hai cách
Cách thứ nhất sử dụng một mặt siêu phẳng lề mềm, nghĩa là cho phép một số
mẫu huấn luyện nằm về phía sai của mặt siêu phẳng phân tách hoặc vẫn ở vị trí đúng nhưng rơi vào vùng giữa mặt siêu phẳng phân tách và mặt siêu phẳng hỗ trợ tương ứng Trong trường hợp này, các hệ số Lagrange của bài toán quy hoạch toàn phương
có thêm một cận trên C dương - tham số do người sử dụng lựa chọn Tham số này tương ứng với giá trị phạt đối với các mẫu bị phân loại sai
Cách thứ hai sử dụng một ánh xạ phi tuyến Φ để ánh xạ các điểm dữ liệu đầu
vào sang một không gian mới có số chiều cao hơn
Trong không gian này, các điểm dữ liệu trở thành khả tách tuyến tính, hoặc có thể phân tách với ít lỗi hơn so với trường hợp sử dụng không gian ban đầu Một mặt quyết định tuyến tính trong không gian mới sẽ tương ứng với một mặt quyết định phi tuyến trong không gian ban đầu
Với k là một hàm nhân thoản mãn:
k(x i , x j ) = Φ(x i ) T Φ(x j )
Nếu chọn một hàm nhân phù hợp, ta có thể xây dựng được nhiều bộ phân loại khác nhau Có một số hàm nhân cơ bản sau đây:
- Hàm nhân đa thức:
k(x i , x j ) = ( amma.xg T i x jcoef0)degree
- Hàm vòng RBF (Radial Basic Function):
k(x i , x j ) = tan(gamma x x .i T jcoef 0)
trong đó gamma, coef0 và degree là các tham số nhân
Trang 30Tính chất nổi trội của SVM là đồng thời cực tiểu lỗi phân lớp và cực đại khoảng cách lề giữa các lớp
Giả sử có 1 số điểm dữ liệu thuộc một trong hai lớp và mục tiêu của ta là xác định xem dữ liệu mới thêm vào sẽ thuộc lớp nào Ta coi mỗi điểm dữ liệu như một vector p chiều và chúng ta muốn biết là liệu có tách được những điểm đó bằng một siêu phẳng p-1 chiều hay không (được gọi là phân loại tuyến tính)
Xem dữ liệu đầu vào như 2 tập vector n chiều, một SVM sẽ xây dựng một siêu phẳng riêng biệt trong không gian đó sao cho nó tối đa hóa biên lề giữa hai tập dữ liệu
Để tính lề, hai siêu phẳng song song được xây dựng, mỗi cái nằm ở một phía của siêu phẳng phân biệt và chúng được đẩy về phía hai tập dữ liệu Một cách trực quan, một phân biệt tốt sẽ thu được bởi siêu phẳng có khoảng cách lớn nhất đến các điểm lân cận của hai lớp, vì lề càng lớn thì sai số tổng quát hóa của bộ phân lớp càng tốt hơn
Hình 1.5 cho một ví dụ trong không gian 2 chiều như sau:
Hình 1.4 Hình mô tả các đường phân cách giữa 2 lớp (mẫu dương và mẫu âm)
Trang 31Như hình trên ta thấy rằng có nhiều đường có thể chia dữ liệu thành 2 miền nhưng câu hỏi đặt ra là đường nào mới là đường tối ưu nhất ? ta cần tìm tiêu chuẩn cho đường đó
Với bộ phân lớp nhị phận: Cho tâp dữ liêu hoc gồm n dữ liệu gắn nhãn D = {(x1, y1), (x1, y1), , (xn, yn)} với yi ∈ {-1,1} là môt số nguyên xác định lớp của xi Môi xi là một văn bản được biểu diễn dưới dạng 1 vector thực d chiều Bộ phân lớp tuyên tinh (mô hình phân lớp) được xác định thông qua một siêu phẳng có dạng: f(x) = w.x – b = 0 trong đó: w là vector pháp tuyến của siêu phẳng và b đóng vai trò là tham
số mô hình - Bộ phân lớp nhị phân được xác định thông qua dấu của f(x):
Để tìm được siêu phẳng phân cách có lề cực đại, xây dựng các vector hỗ trợ và các siêu phẳng song song với siêu phẳng phân cách và gần vector hỗ trợ nhất, đó là các hàm: w.x – b = 1 w.x – b = -1 Khoảng cách giữa 2 siêu phẳng là w do đó cần phải cực tiểu hóa w để đảm bảo với mọi i ta có: w.x – b > 1 cho lớp thứ nhất
Hình 1.5 Hình ảnh biểu diễn khoảng cách của hai đường vector hỗ trợ
Chúng ta cần tìm một lề bằng nhau và lớn nhất có thể Trong trường hợp tập dữ liệu không khả tách tuyến tính cần sử dụng các hàm nhân để chuyển đổi không gian biểu diễn dữ liệu nhiều chiều hơn để tập dữ liệu khả tách tuyến tính (Hình 1.7)
Trang 32Hình 1.6 Hình ảnh ví dụ về một siêu phẳng trong không gian nhiều chiều
1.3 Khai phá quan điểm
1.3.1 Khái niệm khai phá quan điểm
Khai phá quan điểm hay còn gọi là khai thác ý kiến là một lĩnh vực thực hiện tìm hiểu, nghiên cứu về tình cảm, cảm xúc, ý kiến, thái độ và đánh giá của con người trên những thực thể như sản phẩm, dịch vụ, tổ chức, sự kiện, vấn đề hay một cá nhân nào đó [16] Thông tin văn bản có thể được chia ra thành hai loại chính, đó là sự kiện
và quan điểm Thông tin sự kiện thể hiện khách quan về những thực thể, sự kiện hay các thuộc tính của chúng Thông tin quan điểm thể hiện chủ quan của con người, miêu
tả quan điểm, ý kiến hướng đến thực thể, sự kiện hay thuộc tính Khai phá quan điểm đang là một lĩnh vực thu hút sự quan tâm đặc biệt không chỉ của các nhà khoa học trong giới học thuật mà còn của các nhà sản xuất, các công ty,… trên thế giới nói chung và ở Việt Nam nói riêng
Khai phá quan điểm là một trong những bài toán quan trọng trong khai phá dữ liệu văn bản Nó thực hiện các phương pháp trong xử lý ngôn ngữ tự nhiên, khai phá
dữ liệu và công nghệ mạng để trích xuất và xác định quan điểm trong nguồn dữ liệu là các đánh giá, nhận định của con người [17] Khái niệm “quan điểm” là một khái niệm rất rộng, nó có thể được thể hiện ở nhiều hình thức và mức độ khác nhau
Trang 33Các khái niệm sử dụng trong khai phá quan điểm:
Đối tượng(object): một đối tượng là một thực thể (người, sự kiện, sản phẩm,
chủ đề, )
Đặc trưng(feature): mỗi đối tượng có một tập các thành phần (component)
hoặc thuộc tính (attributes), mỗi thành phần lại bao gồm một tập các thành phần con
và thuộc tính con Các thành phần hoặc thuộc tính này được gọi là đặc trưng
sijkl quan điểm tích cực, tiêu cực hoặc trung tính, hoặc thể hiện với mức độ sức mạnh / cường độ khác nhau
Lớp thực thể và thể hiện thực thể: Một lớp thực thể biểu diễn cho một thực
thể duy nhất, trong khi một thể hiện thực thể là một từ hoặc cụm từ thực tế xuất hiện trong văn bản chỉ dẫn một lớp thực thể
Lớp khía cạnh và thể hiện khía cạnh: Một lớp khía cạnh của một thực thể
biểu diễn cho một khía cạnh duy nhất của thực thể, trong khi một thể hiện khía cạnh là một từ hoặc cụm từ thực tế xuất hiện trong văn bản cho thấy một lớp khía cạnh
Thể hiện khía cạnh hiển - rõ: thể hiện khía cạnh là danh từ và cụm danh từ
được gọi là thể hiện khía cạnh hiện
Thể hiện khía cạnh hiển - rõ: thể hiện khía cạnh là danh từ và cụm danh từ
được gọi là thể hiện khía cạnh hiện
Thể hiện khía cạnh ẩn: Thể hiện khía cạnh không là danh từ hoặc cụm danh từ
được gọi là thể hiện khía cạnh ẩn
Trang 34Bo Pang và Lillian Lee [18] chỉ ra 4 miền ứng dụng chính của khai phá quan điểm
Ứng dụng cho các website đánh giá: việc khai thác ý kiến người dùng trong website đánh giá là việc vô cung quan trọng Người dùng có thể đánh giá không chỉ ở một chủ đề giới hạn như sản phẩm mà có thể đánh giá cả về các vấn đề như chính trị Các trang web có thể thu thập tóm tắt đánh giá của người dùng và đôi khi thực hiện sửa chữa một số lỗi trong xếp hạng người dùng như: người dùng đánh giá tích cực nhưng lại vô tình chọn sếp hạng thấp Một số trường hợp cho thấy xếp hạng của người dùng có thể sai lệch hoặc cần sửa chữa và các phân lớp tự động có thể update lại vấn đề này
Thành phần phụ trong các hệ thống tư vấn, hỏi đáp: Các hệ thông phân tích quan điểm cũng có vai trò tiềm năng quan trọng là trao quyền công nghệ cho các hệ thống khác Một ứng dụng rất hữu ích hiện nay là khi các hệ thống hiển thị trực tuyến các quảng cáo sẽ hiện lên và việc phát hiện các nội dung quảng cáo nhạy cảm không phù hợp sẽ được phát hiện và kịp thời xử
lý
Các ứng dụng trong kinh doanh và tình báo chính phủ: trong doanh nghiệp việc khai thác quan điểm của khách hàng để đưa ra chiến lược kinh doanh là điều vô cùng quan trọng, các doanh nghiệp luôn quan tâm đến việc khách hàng của họ mua gì, tần suất ra sao, đánh giá tích cực hay tiêu cực, họ còn
có thể có nhu cầu nào khác liên quan đến sản phầm hiện dùng hay không; từ
đó tìm được xu hướng bán hàng hoặc các dữ liệu liên quan Tình báo chính phủ là một ứng dụng khác cũng được xem xét ví dụ như giám sát và tác động để tăng sự thù địch hoặc truyền thông tiêu cực[3]
Ứng dụng trên các miền các nhau: Khai phá quan điểm áp dụng trên nhiều miền khác nhau ví dụ như trong chính trị có một số công việc cụ thể như tìm hiểu xem các cử tri đang nghĩ gì trong khi đó những công việc khác có mục
Trang 35tiêu dài hạn là tìm hiểu vị trí của các chính trị gia trong lòng công chúng, họ ủng hộ hay phản đối để tăng cường chất lượng thông tin mà có có thể truy cập[4]
1.3.2 Các bài toán khai phá quan điểm chính
Mục tiêu ứng dụng của khai phá quan điểm là cho một tập các tài liệu đánh
giá về một đối tượng, cần chỉ ra một bản tổng hợp khai phá quan điểm từ mỗi đánh giá trong tập các đánh giá đó
Như vậy, bài toán khai phá quan điểm cơ bản liên quan từ một tài liệu Cụ thể là: Cho một tài liệu quan điểm d, phát hiện tất cả các bộ năm quan điểm (ei, aij, sijkl, hk,
tl) trong d lần lượt là thực thể, khía cạnh của thực thể, quan điểm về khía cạnh của thực thể, chủ quan điểm, thời gian đánh giá
Cho một tập các tài liệu quan điểm D, khai phá quan điểm bao gồm 6 bài toán chủ yếu sau đây[1]:
Bài toán 1 (trích xuất và phân lớp thực thể): Trích xuất tất cả các thể hiện thực thể
trong D, và phân lớp hoặc nhóm các thể hiện thực thể đồng nghĩa thành các nhóm (hoặc loại) thực thể Mỗi cụm thể hiện thực thể cho thấy một thực thể ei duy nhất
Bài toán 2 (trích xuất và phân lớp khía cạnh): Trích xuất tất cả các thể hiện khía
cạnh của các thực thể, và phân lớp các thể hiện khía cạnh thành các cụm Mỗi cụm thể hiện khía cạnh của thực thể ei trình bày một khía cạnh cụ thể aij
Bài toán 3 (trích xuất và phân lớp chủ quan điểm): Trich xuất người cho quan điểm
đối với quan điểm từ văn bản hoặc dữ liệu có cấu trúc và phân lớp chúng Bài toán là tương tự với hai bài toán trên
Bài toán 4 (trích xuất và chuẩn hóa thời gian): Trích xuất thời gian khi các quan
điểm được đưa ra và chuẩn hóa các định dạng thời gian khác nhau Bài toán này cũng tương tự với các bài toán trên
Bài toán 5 (phân lớp khía cạnh quan điểm): Xác định quan điểm về khía cạnh aij là khía cạnh tích cực, tiêu cực hoặc trung tính, hoặc gán một đánh giá tâm lý bằng số cho khía cạnh
Bài toán 6 (sinh bộ năm quan điểm): Đưa ra tất cả các bộ năm quan điểm (ei, aij,