Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
0,91 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - Nguyễn Hồng Hạnh PHÂN TÍCH Ý KIẾN CHỦ QUAN CỦA NGƯỜI DÙNG TỪ DỮ LIỆU WEB Chuyên ngành: Truyền liệu mạng máy tính Mã số: 60.48.15 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS Từ Minh Phương Phản biện 1: ……………………………………………… Phản biện 2: …………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Khi đưa định sử dụng dịch vụ, hay mua hàng đó, đa số muốn tham khảo ý kiến người sử dụng chúng Sự phát triển Web khiến lượng thông tin ý kiến dồi Tuy nhiên điều mà việc tìm nguồn ý kiến theo dõi Web trở thành nhiệm vụ khó khăn Do vậy, nhu cầu hệ thống tập trung xử lý, phân tích ý kiến chủ quan trở nên rõ ràng thiết yếu Cụ thể, nhiệm vụ phân tích ý kiến chủ quan phân loại văn (có thể câu, đoạn văn) chứa ý kiến đối tượng thành ý kiến tích cực hay tiêu cực Có nhiều nghiên cứu khai phá ý kiến thực Tuy nhiên, nghiên cứu tập trung vào việc xử lý tiếng Anh tập liệu lớn Các nghiên cứu tự động phân tích ý kiến người dùng từ tài liệu tiếng Việt cịn ít, gây khó khăn cho việc xây dựng ứng dụng thực tế, kiểm chứng kỹ thuật áp dụng thành cơng phân tích ý kiến tiếng Anh Vì vậy, luận văn thực nghiên cứu “Phân tích ý kiến chủ quan ngƣời dùng từ liệu Web“ với liệu thu thập từ trang web sử dụng tiếng Việt Đề tài tập trung nghiên cứu vấn đề, phương pháp dùng phân tích ý kiến Từ xây dựng kiểm nghiệm vài mơ hình thực nghiệm cho mục đích phân tích ý kiến khả áp dụng cho tiếng Việt Luận văn gồm chương: Chƣơng 1: Tổng quan phân tích ý kiến chủ quan Chƣơng 2: Các phương pháp phân tích ý kiến sử dụng kỹ thuật phân loại xử lý ngôn ngữ tự nhiên Chƣơng 3: Thử nghiệm đánh giá Trong đề tài tập trung vào chương nhằm nghiên cứu áp dụng kỹ thuật phân tích ý kiến việc xây dựng mơ hình ứng dụng có tính xác cao cho tiếng Việt 2 Chƣơng – TỔNG QUAN VỀ PHÂN TÍCH Ý KIẾN CHỦ QUAN Chương giới thiệu tổng quan vấn đề phân tích ý kiến, khái niệm số khó khăn q trình phân tích ý kiến Tiếp đến số dạng phân tích ý kiến như: phân loại ý kiến, phân tích cảm nhận người dùng đặc tính sản phẩm, xác định xu hướng tình cảm từ câu so sánh sản phẩm, số nghiên cứu thực tế dạng cơng bố 1.1 Phân tích ý kiến 1.1.1 Giới thiệu Thơng tin chia làm hai loại chính, thật ý kiến Sự thật phát biểu khách quan thực thể kiện giới Ý kiến phát biểu chủ quan phản ánh tình cảm nhận thức người thực thể kiện Nội dung nhiệm vụ phân tích ý kiến chủ quan (opinion mining) hay cịn gọi phân tích xu hướng tình cảm (sentiment analysis) phân tích văn chứa ý kiến nhận xét đánh giá người sử dụng đối tượng để xác định ý kiến tích cực, tiêu cực hay trung lập 1.1.1.1 Khái niệm mơ hình phân tích ý kiến Giống vấn đề khoa học nào, trước giải cần định nghĩa mơ hình hóa vấn đề Việc mơ hình hóa đưa định nghĩa bản, khái niệm cốt lõi vấn đề đối tượng mục tiêu Chúng ta sử dụng thuật ngữ đối tượng để gọi thực thể mục tiêu nhận xét Một đối tượng có tập hợp thành phần, thuộc tính, gọi chung đặc tính Đối tƣợng: đối tượng o thực thể, sản phẩm, người, kiện, tổ chức chủ đề Nó gắn liền với cặp o: (T, A), T phân cấp thành phần, thành phần con, A tập thuộc tính o Mỗi thành phần lại có tập thành phần thuộc tính riêng Gọi tài liệu ý kiến d, nhận xét sản phẩm, viết diễn đàn, nhật ký cá nhân, đánh giá tập đối tượng Trong trường hợp tổng quát nhất, d bao gồm chuỗi câu d = < S1, S2, S3…,Sm> Đoạn ý kiến đặc tính: đoạn ý kiến đặc tính f đối tượng o đánh giá d nhóm câu nối tiếp d thể ý kiến tích cực tiêu cực f Đặc tính ẩn đặc tính rõ ràng: đặc tính f từ đồng nghĩa xuất câu s, f gọi đặc tính rõ ràng Nếu khơng có f hay từ đồng nghĩa xuất hiện, lại ám f mó gọi đặc tính ẩn câu s Ngƣời giữ ý kiến: người tổ chức đưa ý kiến Người giữ ý kiến gọi nguồn ý kiến Ý kiến xu hƣớng ý kiến: Ý kiến đặc tính f quan điểm, thái độ, tình cảm hay đánh giá tích cực tiêu cực f người nắm giữ ý kiến Xu hướng ý kiến ý kiến đặc tính f ý kiến tích cực, tiêu cực, hay trung lập Bây giờ, kết hợp tất lại để định nghĩa mơ hình phân tích ý kiến dựa đặc tính Mơ hình đối tượng o biểu diễn tập hữu hạn đặc tính F={f1, f2,…fn}, chứa đối tượng đặc tính đặc biệt Mỗi đặc tính fi Є F thể với tập hữu hạn từ cụm từ Wi = {Wi1, Wi2,…Wim} từ đồng nghĩa đặc tính, ám tập từ đặc tính ii={ii1, ii2,…iiq} đặc tính Mơ hình văn ý kiến: văn ý kiến d chứa ý kiến tập đối tượng { o1, o2, …, oq} từ tập người đưa ý kiến {h1, h2, …, hp} Ý kiến đối tượng o j thể tập Fj đặc tính oj Một ý kiến hai loại sau: Ý kiến trực tiếp: Một ý kiến trực tiếp ( oj, fjk, ooijkl, hi, tl) oj đối tượng, fjk đặc tính đối tượng oj, ooijkl xu hướng thái cực ý kiến đặc tính fjk đối tượng oj, hi người đưa ý kiến tl thời gian mà ý kiến thể hi Xu hướng ý kiến ooijkl tích cực, tiêu cực, trung tính Ý kiến so sánh: Một ý kiến so sánh thể quan hệ tương đồng khác biệt hai nhiều đối tượng, sở thích người nắm ý kiến dựa vài đặc tính chung hai đối tượng Mục đích việc phai phá ý kiến trực tiếp: Cho tài liệu ý kiến d, (1) phát tất ý kiến ( o j, fjk, ooijkl, hi, tl) d, (2) xác định tất từ đồng nghĩa (Wjk) từ đặc tính ijk đặc tính fjk d Câu chủ quan: Một câu khách quan thể vài thông tin thực tế giới, câu chủ quan thể cảm giác niềm tin cá nhân Ý kiến rõ ràng ý kiến không rõ ràng: Một ý kiến rõ ràng đặc tính f ý kiến thể cách rõ ràng f câu chủ quan Một ý kiến không rõ ràng đặc tính f ý kiến ám câu khách quan Câu có ý kiến: câu có ý kiến câu thể rõ ràng ám ý kiến tích cực hay tiêu cực 1.1.1.2 Nhu cầu thông tin ý kiến 1.1.1.3 Các ứng dụng với phân tích ý kiến - Ứng dụng cho trang web liên quan đến việc đánh giá - Ứng dụng công nghệ thành phần - Ứng dụng kinh doanh phủ thơng minh - Ứng dụng miền lĩnh vực khác 1.1.2 Các thách thức phân tích ý kiến 1.1.2.1 Tƣơng quan với việc phân tích văn truyền thống Thường phân loại văn tìm phân văn thành nhóm chủ đề khác nhau, có nhiều nhóm Với nhiệm vụ vậy, phải giải với hai loại (phân loại nhị phân) hàng nghìn loại Ngược lại, với phân loại xu hướng ý kiến, thường có tương đối loại (tích cực, tiêu cực) tạo từ miền ứng dụng người dùng Thêm nữa, loại khác biệt phân loại theo chủ đề hồn tồn khơng liên quan đến nhau, cịn nhãn ý kiến xem xét số nghiên cứu hồn tồn trái ngược (nếu nhiệm vụ phân loại nhị phân), loại đánh số - tính điểm (nếu việc phân loại dựa nhiều yếu tố) 1.1.2.2 Các thách thức mặt kỹ thuật - Xác định đối tượng - Trích chọn đặc tính nhóm từ đồng nghĩa - Phân loại xu hướng ý kiến - Tích hợp 1.1.2.3 Thách thức xây dựng ứng dụng - Nếu ứng dụng tích hợp vào chế tìm kiếm đa cần phải xác định xem người dùng có thực tìm kiếm liệu mang tính chủ quan hay không - Xác định tài liệu phần tài liệu chứa ý kiến đánh giá - Xác định xu hướng ý kiến tổng thể thể đoạn tài liệu chứa ý kiến - Biểu diễn thông tin ý kiến phân tích dạng hợp lý 1.2 Một số dạng phân tích ý kiến 1.2.1 Phân loại ý kiến khách quan – chủ quan, tích cực – tiêu cực Dạng xem phân tích ý kiến vấn đề phân loại văn Hai chủ đề nhỏ nghiên cứu mở rộng gồm: – Phân loại văn chứa ý kiến ý kiến tích cực hay tiêu cực, – phân loại câu mệnh đề câu chủ quan hay khách quan, câu mệnh đề chủ quan xem thể ý kiến tích cực, tiêu cực, hay trung lập 1.2.2 Tổng hợp phân tích ý kiến dựa đặc tính sản phẩm Mơ hình trước tiên khám phá đối tượng thể ý kiến câu, sau xác định xem ý kiến tích cực, tiêu cực, hay trung lập Mục tiêu nhận xét đối tượng thành phần nó, đặc tính chức năng… Một đối tượng sản phẩm, dịch vụ, cá nhân hay tổ chức đó, kiện, chủ đề v.v Cụ thể, câu nhận xét sản phẩm, xác định đặc điểm sản phẩm nhận xét xác định xem nhận xét tích cực hay tiêu cực 1.2.3 Phân tích ý kiến dựa câu so sánh Việc đánh giá đối tượng thực theo hai cách chính, trực tiếp thẩm định so sánh Trực tiếp thẩm định, gọi ý kiến trực tiếp, đưa ý kiến tích cực, tiêu cực đối tượng mà khơng nhắc tới đối tượng tương tự khác So sánh có nghĩa so sánh đối tượng với đối tượng tương tự ( sản phẩm cạnh tranh) 1.3 Một số nghiên cứu phân tích ý kiến có Nghiên cứu khai phá ý kiến bắt đầu với việc xác định từ thể ý kiến (hoặc cảm nhận) như: tốt, tuyệt, tuyệt vời, chán, dở … Rất nhiều nhà nghiên cứu làm việc khai phá từ xác định xu hướng ngữ nghĩa chúng (tích cực hay tiêu cực) Trong [9], tác giả xác định vài quy tắc ngữ pháp dùng để xác định từ ý kiến xu hướng ngữ nghĩa chúng từ tập liệu lớn Sự phát triển phân loại cảm nhận nhận xét sản phẩm mức văn Mục tiêu nhiệm vụ phân loại phê bình xem chúng thể cảm nhận tích cực hay tiêu cực đối tượng đóMột vài nhà nghiên cứu thực việc phân loại cảm nhận mức câu, xem câu thể tình cảm tích cực hay tiêu cực 7 Chƣơng – CÁC PHƢƠNG PHÁP PHÂN TÍCH Ý KIẾN SỬ DỤNG KỸ THUẬT PHÂN LOẠI VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN Cách tiếp cận chủ yếu nhiều ứng dụng khai phá ý kiến dựa kỹ thuật phân loại văn Nội dung chương bao gồm số kỹ thuật phân tích ý kiến dựa phương pháp phân loại: phân loại ý kiến mức văn bản, mức câu, kỹ thuật sinh từ vựng ý kiến dùng để phân tích ý kiến 2.1 Phân loại ý kiến mức văn Cho tập văn ý kiến D, nhiệm vụ phân loại xác định xem văn d Є D ý kiến tích cực hay tiêu cực đối tượng hay khơng Một cách hình thức, nhiệm vụ định nghĩa sau: Cho văn ý kiến d nhận xét đối tượng o, xác định xu hướng mà ý kiến thể o, cụ thể, khám phá xu hướng ý kiến oo đặc tính f năm (o, f, so, h, t), f=o, h, t, o giả sử biết không liên quan 2.1.1 Phân loại dựa học có giám sát Phân loại, hay phân lớp, ý kiến trường hợp riêng học có giám sát (supervised learning), đoạn bình luận câu chứa ý kiến nhận hai nhãn phân loại:“tích cực”, “tiêu cực” (một số phát biểu cho phép phân biệt thêm nhãn “trung tính”) Q trình phân loại thực theo bước mô tả sau - Thu thập liệu nhận xét đánh giá từ trang web, gán nhãn phân loại cho liệu - Huấn luyện phân loại liệu chuẩn bị: lựa chọn kỹ thuật phân loại trích chọn đặc trưng Quá trình huấn luyện lặp lặp lại nhiều lần để có mơ hình tốt - Hiệu mơ hình phân loại sau đánh giá tập liệu kiểm tra chuẩn bị 2.1.1.1 Mơ hình ngơn ngữ n-gram Nhiệm vụ mơ hình ngơn ngữ cho biết xác suất câu w w w m Theo công thức Bayes: P(AB) = P(B|A) * P(A), thì: P(w1 w …w m ) = P(w1 ) * P(w2 |w ) * P(w3 |w w2 ) *…* P(wm|w1w2 …wm-1 ) Theo công thức này, mô hình ngơn ngữ cần phải có lượng nhớ vơ lớn để lưu hết xác suất tất chuỗi độ dài nhỏ m Rõ ràng, điều m độ dài văn ngôn ngữ tự nhiên (m tiến tới vơ cùng) Để tính xác suất văn với lượng nhớ chấp nhận được, ta sử dụng xấp xỉ Markov bậc n: P(wm|w1,w2,…, wm-1 ) = P(wm|wm-n,wn-m+1 , …,wm-1 ) Nếu áp dụng xấp xỉ Markov, xác suất xuất từ (wm) coi phụ thuộc vào n từ đứng liền trước (wm-nwm-n+1…wm-1 ) khơng phải phụ thuộc vào tồn dãy từ đứng trước (w1w2 …wm-1 ) Như vậy, cơng thức tính xác suất văn tính lại theo cơng thức: P(w1 w …w m ) = P(w1 ) * P(w2 |w ) * P(w3 |w w2 ) *…* P(wm-1|wm-n-1 wm-n …wm-2 )* P(wm|wm-nwm-n+1…wm-1 ) Với công thức này, ta xây dựng mơ hình ngơn ngữ dựa việc thống kê cụm có n+1 từ Mơ hình ngơn ngữ gọi mơ hình ngôn ngữ N-gram Một cụm N-gram dãy gồm n phần tử liên tiếp dãy phần tử cho trước (trong liệu huấn luyện), cụm ngram khơng thiết phải có nghĩa Ví dụ: cụm 2-gram “hát của” thuộc câu “Giọng hát cô thật điêu luyện” Các phần tử xét thường kí tự, từ cụm từ; tùy vào mục đích sử dụng Dựa vào số phần tử cụm N-gram, ta có tên gọi cụ thể: N = 1: Unigram; N = 2: Bigram; N = 3: Trigram 2.1.1.2 Phân loại Naïve Bayes Phân loại Naïve Bayes sử dụng trường hợp ví dụ cho tập thuộc tính cần xác định nhãn phân loại y, y nhận giá trị từ tập nhãn hữu hạn C Trong giai đoạn huấn luyện, liệu huấn luyện cung cấp dạng mẫu Sau huấn luyện xong, phân loại cần dự đoán nhãn cho mẫu x Theo lý thuyết học Bayes, nhãn phân loại xác định cách tính xác suất điều kiện nhãn quan sát thấy tổ hợp giá trị thuộc tính Thuộc tính chọn, ký hiệu cMAP thuộc tính có xác suất điều kiện cao (MAP viết tắt maximum a posterior), tức là: 𝒚 = 𝒄𝑴𝑨𝑷 = 𝒂𝒓𝒈𝒎𝒂𝒙𝒄𝒋 𝝐 𝑪 𝑷 𝒄𝒋 𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 ) Sử dụng quy tắc Bayes, biểu thức viết lại sau: 𝑷 𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 𝒄𝒋 𝑷(𝒄𝒋 ) 𝒄𝑴𝑨𝑷 = 𝒂𝒓𝒈𝒎𝒂𝒙𝒄𝒋 ∈𝑪 𝑷(𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 ) = 𝒂𝒓𝒈𝒎𝒂𝒙𝒄𝒋 ∈𝑪 𝑷 𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 𝒄𝒋 𝑷(𝒄𝒋 ) Hai thành phần biểu thức tính từ liệu huấn luyện Giá trị P(cj) tính tần suất quan sát thấy nhãn cj tập huấn luyện, tức số mẫu có nhãn c j chia cho tổng số mẫu Việc tính P(x1,x2,…,xn|cj) khó khăn nhiều Vấn đề số tổ hợp giá trị n thuộc tính với nhãn phân loại lớn n lớn Để tính xác suất xác, tổ hợp giá trị thuộc tính phải xuất nhãn phân loại đủ nhiều, số mẫu huấn luyện thường không đủ lớn Để giải vấn đề trên, ta giả sử thuộc tính độc lập xác suất với biết nhãn phân loại cj Trên thực tế, thuộc tính thường khơng độc lập với vậy, chẳng hạn ví dụ chơi tennis, trời nắng xác suất nhiệt độ cao lớn Chính dựa giả thiết độc lập xác suất đơn giản nên phương pháp có tên gọi “Bayes đơn giản” Tuy nhiên, ta thấy sau đây, giả thiết cho phép tính xác suất điều kiện đơn giản nhiều 10 thực tế phân loại Bayes có độ xác tốt nhiều ứng dụng Với giả thiết tính độc lập xác suất có điều kiện viết: 𝑷 𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 |𝒄𝒋 = 𝑷 𝒙𝟏 |𝒄𝒋 𝑷 𝒙𝟐 |𝒄𝒋 … 𝑷(𝒙𝒏 , 𝒄𝒋 ) Tức xác suất đồng thời quan sát thấy thuộc tính tích xác suất điều kiện thuộc tính riêng lẻ Thay vào biểu thức trên, ta phân loại Nạve Bayes (có đầu ký hiệu CNB sau): 𝑪𝑵𝑩 = 𝒂𝒓𝒈𝒎𝒂𝒙𝒄𝒋 𝝐 𝑪 𝑷 𝒄𝒋 𝝅𝒊 𝑷(𝒙𝒊 |𝒄𝒋 ) Trong P(xi|cj) tính từ liệu huấn luyện số lần xi xuất với cj chia cho số lần xi xuất Việc tính xác suất địi hỏi liệu nhiều so với tính P(x1, x2, …, xn | cj) Quá trình học Bayes đơn giản q trình tính xác suất P(cj) xác suất điều kiện P(xi|cj) cách đếm tập liệu 2.1.1.3 Phân loại máy vector tựa (Support Vector Machines) Máy vec tơ tựa (SVM) kỹ thuật học máy xây dựng cho tốn phân loại nhị phân, tức ví dụ nhận hai nhãn Các ví dụ phải biểu diễn thuộc tính liên tục, ví dụ tương ứng với vec tơ không gian SVM dựa hai nguyên tắc sau: - SVM tìm cách phân chia ví dụ có nhãn khác siêu phẳng cho khoảng cách từ siêu phẳng tới ví dụ có nhãn khác lớn Nguyên tắc gọi nguyên tắc lề cực đại (max margin) Trong q trình huấn luyện, thuật tốn SVM xác định siêu phẳng có lề cực đại cách giải toán tối ưu cho hàm mục tiêu bậc - Để giải trường hợp ví dụ khơng thể phân chia siêu phẳng, phương pháp SVM ánh xạ khơng gian ban đầu ví dụsang khơng gian khác thường có số chiều cao hơn, sau tìm siêu phẳng với lề cực đại 11 khơng gian Để tăng tính hiệu ánh xạ, kỹ thuật sử dụng kỹ thuật dùng hàm nhân (kernel function) thay cho tích có hướng vec tơ Có hàm kernel phổ biến đề cập thuật toán SVM là: Linear Radial basis function (RBF) Polyminal Sigmoid 2.1.2 Phân loại dựa học không giám sát 2.1.2.1 Sử dụng từ vựng Phương pháp [33] thực phân loại dựa vài cụm từ cú pháp cố định có khả dùng để bày tỏ ý kiến tiếng Anh Thuật toán bao gồm ba bước: Bƣớc 1: Trích chọn cụm từ chứa tính từ trạng từ Lý để làm điều nghiên cứu chứng tỏ tính từ trạng từ từ báo tốt ý kiến tính chủ quan Tuy nhiên, tính từ độc lập báo tính chủ quan, ngữ cảnh khơng đủ để xác định xu hướng ngữ nghĩa Do đó, thuật tốn trích chọn hai từ liền nhau, từ cặp tính từ/ trạng từ từ từ ngữ cảnh Hai từ liền trích chọn POS tag chúng phù hợp với mẫu bảng Ví dụ, mẫu dịng nghĩa từ liền trích chọn từ trạng từ từ thứ hai tính từ từ thứ (khơng trích chọn) khơng phải danh từ Bảng 1: Bảng quy tắc trích chọn từ loại Từ thứ Từ thứ hai Từ thứ ba (khơng trích chọn) Tính từ Danh từ Bất từ loại Trạng từ Tính từ Khơng phải danh từ Tính từ Tính từ Khơng phải danh từ Danh từ Tính từ Khơng phải danh từ Trạng từ Động từ Bất từ loại 12 Bƣớc 2: Ước lượng xu hướng cụm từ trích chọn cách sử dụng cơng thức tính pointwise mutual information (PMI) sau: 𝐏𝐫 𝒕𝒆𝒓𝒎𝟏 ∩ 𝒕𝒆𝒓𝒎𝟐 𝑷𝑴𝑰 𝒕𝒆𝒓𝒎𝟏 , 𝒕𝒆𝒓𝒎𝟐 = 𝐥𝐨𝐠 𝟐 (𝟏) 𝐏𝐫 𝒕𝒆𝒓𝒎𝟏 𝐏𝐫 𝒕𝒆𝒓𝒎𝟐 Trong đó: Pr(term1 ∩ term2) xác suất xuất đồng thời term1 term2 Pr(term1)Pr(term2) xác suất xuất đồng thời term1 term2 độc lập Do Pr(term1 ∩ term2) Pr(term1)Pr(term2) phép đo mức độ độc lập thống kê chúng Hàm log tỉ số lượng thông tin lấy có mặt từ quan sát từ lại Xu hướng ý kiến (oo) cụm từ tính dựa quan hệ với từ tham chiếu tích cực, “excellent”, với từ tham chiếu tiêu cực, ”poor”: oo(term)= PMI(term, “excellent”) −PMI(term, “poor”) (2) Các xác suất tính cách sử dụng câu truy vấn để tìm kiếm thu thập số lần xuất từ Với tìm kiếm truy vấn, chế tìm kiếm thường cho số lượng tài liệu có liên quan đến truy vấn, ta lấy số làm số lần xuất từ/cụm từ Do đó, cách tìm kiếm từ đồng thời, riêng biệt, tính xác suất biểu thức Bƣớc 3: cho đánh giá, thuật tốn tính oo trung bình tất cụm từ bài, phân loại thành “nên dùng” (tích cực) oo tính dương “khơng nên dùng” (tiêu cực) oo âm 2.1.2.2 Một số phƣơng pháp không giám sát khác 2.2 Phân loại ý kiến mức câu Nhiệm vụ: Cho câu s, hai nhiệm vụ sau thực hiện: 13 (1) Phân loại tính chủ quan: xác định xem s câu chủ quan hay câu khách quan (2) Phân loại ý kiến cho câu chủ quan: Nếu s chủ quan, xác định xem thể ý kiến tích cực hay tiêu cực 2.2.1 Xác định câu mang ý kiến chủ quan Công việc phân loại xu hướng tình cảm thường giả sử tài liệu đầu vào tài liệu mang ý kiến chủ quan Tuy nhiên, với nhiều ứng dụng cần xác định xem tài liệu có chứa thơng tin chủ quan hay không, xác định phần tài liệu chủ quan Các kỹ thuật Support Vector Machine, hay Navie Bayes áp dụng để thực nhiệm vụ phân loại ý kiến 2.2.2 Phân tích xu hướng cho câu ý kiến chủ quan Công việc phát biểu sau: Cho đoạn văn chứa ý kiến, giả sử tồn ý kiến nói vấn đề vật đó, phân loại ý kiến thành hai cực tình cảm trái ngược (thích, khơng thích), xem mức độ hai cực Các kỹ thuật học máy áp dụng cho nhiệm vụ 2.3 Kỹ thuật sinh từ vựng ý kiến Để thu thập danh sách từ ý kiến, phương pháp nghiên cứu: thủ công, dựa từ điển, dựa văn Phương pháp thủ công tốn thời gian dó thường khơng dùng riêng mà kết hợp với phương pháp tự động bước kiểm tra cuối phương pháp tự động gây lỗi Sau bàn hai phương pháp tự động 2.3.1 Kỹ thuật dựa từ điển Một kỹ thuật đơn giản phương pháp dựa bootstrapping sử dụng tập nhỏ từ ý kiến từ điển trực tuyến, WordNet [8] Đầu tiên thu thập lượng nhỏ từ ý kiến cách thủ công với xu hướng ý kiến biết, sau phát triển tập từ vặng lên cách 14 tìm kiếm WordNet từ đồng nghĩa trái nghĩa chúng Từ tìm thêm vào danh sách từ vựng Và lặp lại Quá trình kết thúc khơng tìm thêm từ 2.3.2 Kỹ thuật dựa quan hệ từ tính quán Các phương pháp thuộc loại phụ thuộc vào từ đồng nghĩa mẫu xuất đồng thời, danh sách từ ý kiến ban đầu để tìm từ ý kiến khác tập văn lớn Một ý tưởng đưa Hazivassiloglou McKeown Kỹ thuật bắt đầu danh sách tính từ ý kiến, dùng chúng với số ràng buộc ngôn ngữ (hay quy ước) kết nối để xác định tính từ ý kiến bổ sung xu hướng chúng Một ràng buộc liên từ “và” tính từ kết nối thường có chung xu hướng tình cảm Các quy tắc ràng buộc thiết kế cho liên từ khác “hoặc”, “nhưng”… 2.4 Phân loại dựa thông tin quan hệ 2.4.1 Quan hệ câu văn Một đặc trưng phân loại ý kiến mức văn văn gồm nhiều đơn vị văn nhỏ (như đoạn văn hay câu) với nhãn phân loại khác nhau, chí trái ngược nhau, nhãn phân loại tổng thể tồn văn hàm tập hợp nhãn phân loại mức thành phần Do đó, biện pháp thay xem văn túi đặc tính, có nhiều nỗ lực thực để mơ hình cấu trúc văn theo phân tích đơn vị thành phần văn bản, để tính hữu ích mối quan hệ đơn vị để có nhãn phân loại tổng thể cho toàn văn cách xác Việc mơ hình hóa quan hệ đơn vị thành phần văn dẫn tới việc gán nhãn phân loại thành phần tốt 2.4.2 Quan hệ thành phần thảo luận 15 Một điều thú vị phân tích ý kiến văn phân tích tạo thành phần một bàn luận, trường hợp lượt tranh luận trị, viết diễn đàn tranh luận, hay nhận xét viết cá nhân Việc sử dụng quan hệ đặc biệt hữu ích nhiều văn trường hợp nói phức tạp, khó phân loại, dễ dàng phân loại văn phức tạp tìm từ báo đồng tình với văn rõ xu hướng tích cực hay tiêu cực 2.4.3 Quan hệ đặc tính sản phẩm Popescu Etzioni xem việc gán nhãn từ ý kiến liên quan đến đặc tính sản phẩm trình gán nhãn tập thể Họ đưa thuật giải lặp việc gán xu hướng cho từ riêng biệt điều chỉnh tập thể thơng qua q trình gán nhãn nới lỏng Bắt đầu từ nhãn từ “global” tính tốn tập văn thể xu hướng tình cảm cho từ cụ thể trường hợp chung, Popescu Etzioni định nghĩa lại nhãn từ nhãn chung tới nhãn riêng cho văn đánh giá, tới nhãn riêng cho đặc tính sản phẩm, cuối tới nhãn riêng cho ngữ cảnh cụ thể mà từ xuất Họ đảm bảo xem xét ràng buộc cụ mức câu mà ý kiến kết nối quan hệ từ “nhưng”, “hoặc”, “và” để phân loại thành loại hay loại đối ngược Trên em trình kỹ thuật phân tích ý kiến, gồm có giám sát không giám sát Chương sau luận văn tiến hành thử nghiệm số ý tưởng từ kỹ thuật để xem xét tính hiệu chúng 16 Chƣơng – THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Mơ hình phân tích ý kiến lựa chọn 3.1.1 Mơ hình thử nghiệm Hình 1: Mơ hình phân tích ý kiến Hình 3.1 mơ tả q trình phân tích ý kiến mức câu: - Bước 1: Tiến hành thu thập liệu nhận xét người dùng - Bước 2: Phân loại nhận xét thành hai loại chủ quan, khách quan - Bước 3: Phân tích xu hướng ý kiến cho câu ý kiến chủ quan phân loại bước ý kiến tích cực hay tiêu cực Luận văn tập trung kiểm nghiệm phương pháp phân tích ý kiến có giám sát không giám sát cho bước Cụ thể, hai thuật tốn phân loại học máy Nạve Bayes Support Vector Machine kết hợp với mơ ngơn ngữ ngram nói đến chương sử dụng, phương pháp dựa từ vựng - Đối với phƣơng pháp học máy có giám sát, luận văn sử dụng WEKA làm thư viện để giải việc phân loại nhị phân ý kiến tích cực/ tiêu cực WEKA có tích hợp sẵn nhiều thuật tốn phân loại Nạve Bayes, định, SVM…Tuy nhiên, ngồi thuật tốn Nạve Bayes có sẵn, để hiệu hơn, luận văn tích hợp thêm thư viện 17 - libSVM vào WEKA để sử dụng cho thuật toán phân loại SVM, với hàm nhân lựa chọn Radial Basic Function Đối với phƣơng pháp dựa từ vựng không giám sát, để xác định xu hướng ý kiến câu, nhiệm vụ nhỏ thực Thứ nhất, tập tính từ (thường dùng để thể ý kiến, tình cảm) xác định cách sử dụng phương pháp xử lý ngôn ngữ tự nhiên Những từ gọi từ ý kiến Thứ hai, với từ đó, ta xác định xu hướng ngữ nghĩa nó, tích cực (thích) hay tiêu cực (khơng thích) Cuối cùng, dựa xu hướng ngữ nghĩa từ, xác định xu hướng ngữ nghĩa câu Chi tiết cụ thể bước phương pháp trình bày phần 3.2 3.1.2 Dữ liệu sử dụng Dữ liệu luận văn sử dụng tập câu nhận xét thuộc nhiều chủ đề (sản phẩm, công nghệ, người tiếng …) thu thập diễn đàn mạng báo điện tử VnExpress, Vietnamnet, Dantri Mỗi câu đặt file riêng gán nhãn phân loại tích cực (pos) tiêu cực (neg) Tập liệu sau trình gán nhãn sau: - Tổng số: 2940 câu ý kiến - Tích cực (pos): 1684 câu - Tiêu cực (neg): 1256 câu 3.2 Các thủ tục phân tích ý kiến mức câu 3.2.1 Xây dựng từ vựng Trong luận văn này, em sử dụng phương pháp đơn giản cách xây dựng thủ công từ vựng chủ yếu tính từ tiếng Việt để phán đốn xu hướng ngơn ngữ tính từ tách từ ý kiến người dùng Các từ trạng thái mong muốn (như: đẹp, tuyệt vời, tốt…) có xu hướng tích cực, từ trạng thái khơng mong muốn (như xấu, thất vọng, dở…) có xu hướng tiêu cực Bên cạnh đó, để phục vụ cho mục đích xử lý câu có ý kiến nhận xét thể dạng 18 phủ định từ tích cực “khơng đẹp”, “chưa tốt”, em tạo thêm từ vựng chứa từ phủ định Luận văn xây dựng sử dụng từ vựng gồm: - Từ tích cực: 82 từ - Từ tiêu cực: 78 từ - Từ phủ định: 10 từ 3.2.2 Phân tích câu tách từ thể ý kiến Để xác định tính từ mang ý kiến, phải thực việc gán nhãn từ loại cho câu ý kiến Luận văn sử dụng thư viện vnTokenizer kết hợp với gán nhãn từ loại JvnTagger để thực nhiệm vụ Sau ví dụ kết việc gán nhãn từ loại Với câu đầu vào „Máy ảnh chụp nét“ Câu gán nhãn từ loại đầy đủ có dạng: “Máy_ảnh/N chụp/V nét/A./.” Trong đó, N danh từ, V động từ, A tính từ 3.2.3 Xác định xu hướng ngữ nghĩa cho từ câu Thủ tục đơn giản, tiến hành tìm so sánh tính từ có với hai từ tích cực tiêu cực, tính từ nằm từ mang xu hướng ngữ nghĩa từ Tuy nhiên, q trình xác định xu hướng tình cảm từ câu, khơng đơn giản lấy xu hướng ngữ nghĩa từ ý kiến tập từ làm xu hướng tồn câu Chúng ta cịn xem xét có từ phủ định (như: không, chưa …) xuất gần từ hay khơng Nếu có xu hướng ý nghĩa câu ngược lại Gần có nghĩa khoảng cách từ phủ định từ ý kiến không vượt ngưỡng cho phép, luận văn đặt ngưỡng 3.2.4 Xác định xu hướng ngữ nghĩa cho câu Nhìn chung, sử dụng xu hướng từ ý kiến câu để xác định xu hướng câu Tức là, ý kiến tích cực/ tiêu cực chiếm đa số tồn câu mang ý nghĩa Trong trường hợp số lượng từ mang ý kiến tích cực tiêu 19 cực câu nhận xét gán ý kiến câu trước 3.3 Đánh giá kết 3.3.1 Phương pháp đánh giá Phƣơng pháp đánh giá: Sử dụng tập liệu kiểm thử (tập liệu gán nhãn thủ công) đưa vào phân lớp xây dựng tập huấn luyện Sau tính tốn giá trị độ xác, độ bao phủ Có nhiều cách chọn tập kiểm thử tập huấn luyện Ở đây, sử dụng phương pháp kiểm thử chéo 10 lần (10 fold cross-vadidation ), phương pháp cho độ đánh giá tương đối khách quan Cách tiến hành đánh giá chéo 10 lần (10-fold cross validation): Chia tập liệu thành 10 phần Sử dụng phần 1, 2,…,10 làm tập kiểm thử, phần lại làm tập huấn luyện Lấy độ xác, độ bao phủ lần thử nghiệm Tính độ đo cách lấy giá trị trung bình tất lần Bên cạnh đó, luận văn sử dụng cơng cụ phát triển cho mục đích phân loại ý kiến thành tích cực, tiêu cực LingPipe để so sánh với kết phân tích phương pháp chọn lựa 3.3.2 Kết thử nghiệm đánh giá Bảng 3.2 kết thực nghiệm với phương pháp trình bày Ta tổng kết lại ngắn gọn sau: - Tập liệu huấn luyện kiểm thử: Sử dụng tập liệu mô tả phần 3.2.1, từ vựng xây dựng - Các thuật tốn phân lớp: Nạve Bayes, SVM (có giám sát) với mơ hình ngơn ngữ unigram bigram, dựa từ vựng (không giám sát) - Phƣơng pháp đánh giá: đánh giá chéo 10 lần (10-fold cross validation) với độ đo: độ bao phủ độ xác 20 - Thƣ viện công cụ: Weka, libSVM, vnTokenizer, JvnTagger, LingPipe Bảng 1: Kết kiểm nghiệm phƣơng pháp phân loại ý kiến Phƣơng pháp Naïve Bayes SVM LingPipe Dùng từ vựng Ngram Độ xác Độ bao phủ Neg Pos TB Neg Pos TB Unigram 0.725 0.814 0.776 0.760 0.785 0.774 Bigram 0.732 0.785 0.762 0.703 0.808 0.763 Unigram 0.838 0.872 0.858 0.827 0.881 0.858 Bigram 0.825 0.842 0.835 0.779 0.877 0.835 Unigram 0.662 0.708 0.688 0.565 0.785 0.691 Bigram 0.748 0.805 0.781 0.735 0.815 0.781 0.638 0.932 0.843 0.866 0.787 0.811 Đối với phương pháp có giám sát Naïve Bayes SVM, vấn đề nhận thấy suốt q trình kiểm nghiệm việc loại bỏ từ stopword Thật rõ ràng để thấy từ xuất cách thường xun đặc trưng ngram chiếm lĩnh mơ hình phân loại Việc lựa chọn từ stopword phải thật cẩn thận để tránh việc loại bỏ từ khóa quan trọng, hay làm cho phân loại bị ảnh hưởng tư cá nhân người kiểm nghiệm Ở đây, từ stopword gồm 570 từ tiếng Việt sử dụng giai đoạn tiền xử lý liệu Theo bảng kết quả, ta thấy loại đặc trưng (unigram bigram), hầu hết trường hợp phân loại 21 SVM cho kết tốt phân loại Nạve Bayes độ xác Đối với unigram bigram, hai phương pháp chênh lệch khoảng 7-8% độ xác Điều hợp lý nhiều cơng trình nghiên cứu trước đưa kết luận SVM cho kết tốt Nạve Bayes Trong đó, độ xác phân loại SVM tốt, lên tới xấp xỉ 86% với unigram, độ bao phủ SVM cao Naïve Bayes Với hai thuật tốn phân loại này, độ xác độ bao phủ chúng không chênh lệch đáng kể Đặc trưng unigram hai phương pháp Naïve Bayes SVM cho kết (độ xác độ bao phủ) tốt so với đặc trưng bigram So với LingPipe, phân loại SVM cho độ xác cao Tuy nhiên, LingPipe cho kết với bigram tốt unigram Đối với phương pháp sử dụng từ vựng (không giám sát), kết thu khả quan, độ xác bao phủ cao 80% Theo quan sát ta thấy độ xác cho câu nhận xét tích cực cao hẳn so với câu nhận xét tiêu cực, phân loại câu tiêu cực có độ xác 63.8% phân loại câu tích cực độ xác lên đến 93.2% Điều phân bố từ tích cực, tiêu cực từ vựng Kết phân loại dựa từ vựng thấp so với phân loại có giám sát dùng SVM Như vậy, phương pháp phân loại ý kiến cho kết khả quan Chúng ta sử dụng chúng để xây dựng ứng dụng cho biết ý kiến người dùng đối tượng tích cực hay tiêu cực với độ xác chấp nhận Tuy nhiên, phương pháp điểm hạn chế Hiệu phương pháp phân loại ý kiến có giám sát (Nạve Bayes SVM) phụ thuộc nhiều vào q trình trích chọn đặc trưng Rõ ràng việc đơn áp dụng mơ hình ngram vào kỹ thuật phân loại chưa cho kết tốt 22 với phân loại ý kiến – kiểu liệu ý kiến có đặc trưng riêng rõ rệt Chúng ta cải thiện phân loại cách trích chọn đặc trưng cách cẩn thận cách sử dụng mẫu ý kiến đặc thù, hay dùng gán nhãn từ loại (POS tagger) lựa chọn để kết hợp với ngram Nhờ cách lợi dụng tối đa ưu điểm phương pháp học máy có giám sát vào trình phân loại ý kiến Trong tính xác phương pháp phân loại dựa từ vựng phụ thuộc vào từ vựng ý kiến chuẩn bị, hiệu công cụ sử dụng vnTokenizer JvnTagger Bộ từ vựng xây dựng thủ công nên tránh khỏi cảm nhận thiếu tính khách quan Với chủ đề, hay lĩnh vực khác từ thể ý kiến khen, chê khác Bởi vậy, việc áp dụng tập từ vựng xây dựng chung vào miền lĩnh vực đưa lại kết không ý Bởi từ ý kiến tích cực nói đến lĩnh vực lại trở thành tiêu cực lĩnh vực khác Nhược điểm cải thiện cách xây dựng từ vựng cẩn thận, phong phú xác hơn, kết hợp bổ sung với việc phân tích dựa miền lĩnh vực Vấn đề xác định miền lĩnh vực đưa xu hướng ý kiến xác cho từ vấn đề chưa giải triệt để, cần tiến hành nghiên cứu chuyên sâu thêm Một điểm mà phương pháp dựa từ vựng luận văn chưa xử lý thơng tin trích dẫn Cụ thể, người trích dẫn ý kiến người khác, thể ý kiến đồng tình hay khơng đồng tình với ý kiến trích dẫn Nếu xác định ý kiến trích dẫn tiêu cực hay tích cực, ý kiến người trích dẫn đồng tình/khơng đồng tình với ta phân loại ý kiến người tích cực hay tiêu cực Việc phân loại đơn dựa vào từ ý kiến hay xu hướng câu trước gây nhầm lẫn trường hợp trích dẫn 23 KẾT LUẬN Trong luận văn, em trình bày số kỹ thuật để khai phá phân tích người dùng đối tượng thuộc nhiều chủ đề khác (thương hiệu, sản phẩm, người tiếng) thông qua nhận xét họ mạng Mục đích tạo phán đốn xác xu hướng tích cực hay tiêu cực câu nhận xét để hỗ trợ người sử dụng đưa định đắn, hợp lý Các phương pháp phân loại ý kiến em thử nghiệm liệu tiếng Việt cho độ xác khả quan, sử dụng để xây dựng ứng dụng phân tích ý kiến cho kết chấp nhận So với phương pháp áp dụng cho tiếng Anh, độ xác chênh lệch khơng đáng kể Công việc khai phá ý kiến không phục vụ cá nhân, mà cịn có ích công ty, tổ chức muốn nắm bắt phản hồi khách hàng sản phẩm Và ngày trở nên quan trọng có ngày nhiều người biểu ý kiến tình cảm sản phẩm, dịch vụ diễn đàn, mạng xã hội Hiện tại, luận văn thực việc phán đoán xu hướng ý kiến nhận xét dựa từ vựng tính từ tích cực, tiêu cực xây dựng thủ công Hiệu việc phân tích phán đốn phụ thuộc vào từ vựng Do xây dựng thủ công, từ vựng khơng đầy đủ mang nhiều quan điểm chủ quan người xây dựng, khiến cho hiệu phán đốn nhiều bị ảnh hưởng Để mở rộng cải thiện hiệu cho nhiệm vụ mà luận văn thực hiện, lương lai em tìm hiểu kỹ thuật xây dựng từ vựng tính từ cách tự động Nhờ từ vựng trở nên phong phú, mang tính khách quan hiệu việc phân tích xu hướng ý kiến câu nhận xét tăng lên Đồng thời, em xem xét việc trích chọn đặc trưng kết hợp với ngram để phân loại có giám sát xác ... TỔNG QUAN VỀ PHÂN TÍCH Ý KIẾN CHỦ QUAN Chương giới thiệu tổng quan vấn đề phân tích ý kiến, khái niệm số khó khăn q trình phân tích ý kiến Tiếp đến số dạng phân tích ý kiến như: phân loại ý kiến, ... giữ ý kiến: người tổ chức đưa ý kiến Người giữ ý kiến gọi nguồn ý kiến Ý kiến xu hƣớng ý kiến: Ý kiến đặc tính f quan điểm, thái độ, tình cảm hay đánh giá tích cực tiêu cực f người nắm giữ ý kiến. .. thuật phân tích ý kiến dựa phương pháp phân loại: phân loại ý kiến mức văn bản, mức câu, kỹ thuật sinh từ vựng ý kiến dùng để phân tích ý kiến 2.1 Phân loại ý kiến mức văn Cho tập văn ý kiến D,