Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
791,07 KB
Nội dung
Đồ án tốt nghiệp đại học TRƢỜNG ĐẠI HỌC VINH 004.693 KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Sinh viên thực Mã sinh viên Lớp Giáo viên hƣớng dẫn :Nguyễn Thị Thảo : 1051070424 :51K2 - CNTT :ThS Nguyễn Thị Uyên Nghệ An, tháng 12 năm 2014 Nguyễn Thị Thảo - Lớp 51K2 Khoa CNTT Đồ án tốt nghiệp đại học LỜI CÁM ƠN Trong khoảng thời gian học tập rèn luyện trƣờng Đại học Vinh, em xin chân thành cảm ơn tất thầy cô trƣờng nói chung Khoa Cơng nghệ thơng tin nói riêng tận tình giảng dạy, hƣớng dẫn, truyền đạt kiến thức, kinh nghiệm quý báu cho em Với kiến thức đó, em thực tự tin trở thành kỹ sƣ công nghệ thông tin Đặc biệt, em xin gửi lời cảm ơn chân thành đến giáo Ngun Thị Un, ngƣời tận tình hƣớng dẫn, định hƣớng, giúp đỡ truyền đạt kinh nghiệm, phƣơng pháp nghiên cứu khoa học cho em suốt trình thực đề tài đồ án tốt nghiệp Cuối cùng, xin gửi lời cảm ơn đến ngƣời thân, bạn bè đứng bên cạnh để động viên, ủng hộ vật chất lẫn tinh thần suốt thời gian qua Em xin chân thành cảm ơn ! Vinh, ngày 10 tháng 12 năm 2014 Ngƣời viết báo cáo Nguyễn Thị Thảo Nguyễn Thị Thảo - Lớp 51K2 Khoa CNTT Đồ án tốt nghiệp đại học LỜI MỞ ĐẦU Trong thời đại kinh tế thị trƣờng với phát triển nhƣ vũ bão Công nghệ thông tin làm thay đổi giới, đặc biệt lĩnh vực kinh doanh Khi mà thƣơng mại điện tử đời khoảng cách khánh hàng ngƣời bán dƣờng nhƣ xích lại gần hơn, hiểu dễ dàng cách ngƣời bán hàng luôn phải biết đƣợc khách hàng tiềm muốn để đƣa vào sản xuất sản phẩm theo nhƣ mong muốn họ Nhƣ vậy, ngày ngƣời mua lẫn ngƣời bán phải đọc hàng trăm, hàng triệu lời nhận xét sản phẩm có đƣợc thông tin cần thiết trƣớc đƣa định mua sản phẩm sản xuất sản phẩm Việc làm nhiều thời gian không hiệu ngƣời đọc phân loại hết đƣợc lời nhận xét Có nhiều nghiên cứu khai thác ý kiến đƣợc thực Tuy nhiên, nghiên cứu tập trung vào việc xử lý tiếng Anh tập liệu lớn Các nghiên cứu tự động phân tích ý kiến ngƣời dùng từ tài liệu tiếng Việt cịn ít, gây khó khăn cho việc xây dựng ứng dụng thực tế, nhƣ kiểm chứng kỹ thuật đƣợc áp dụng thành công phân tích ý kiến tiếng Anh Vì vậy,đồ án với nội dung “Tìm hiểu phƣơng pháp thu thập phân tích ý kiến cảm xúc từ trang mạng xã hội “Đề tài tập trung nghiên cứu vấn đề phƣơng pháp đƣợc dùng phân tích ý kiến Từ xây dựng kiểm nghiệm vài mơ hình thực nghiệm cho mục đích phân tích ý kiến khả áp dụng cho tiếng Việt Đồ án gồm chƣơng: Chƣơng 1:Giới thiệu đề tài Chƣơng 2: Tổng quan phân tích ý kiến chủ quan Chƣơng 3: Các phƣơng pháp phân tích ý kiến sử dụng kỹ thuật phân loại xử lý ngôn ngữ tự nhiên Chƣơng 4: Thử nghiệm Nguyễn Thị Thảo - Lớp 51K2 Khoa CNTT Đồ án tốt nghiệp đại học MỤC LỤC LỜI CÁM ƠN LỜI MỞ ĐẦU MỤC LỤC CHƢƠNG I:GIỚI THIỆU ĐỀ TÀI 1.1.Lý chọn đề tài 1.2.Mục tiêu đề tài 1.3.Phạm vi đề tài CHƢƠNG II: TỔNG QUAN VỀ PHÂN TÍCH Ý KIẾN CHỦ QUAN 2.1 Phân tích ý kiến 2.1.1 Khái niệm mơ hình phân tích ý kiến 2.1.2.Các ứng dụng với phân tích ý kiến 2.2 Một số dạng phân tích ý kiến 2.2.1 Phân loại ý kiến khách quan-chủ quan,tích cực-tiêu cực 2.2.2 Tổng hợp phân tích ý kiến dựa đặc tính sản phẩm 2.2.3 Phân tích ý kiến dựa câu so sánh 10 2.3 Một số ví dụ 10 2.3.1.Ví dụ 10 2.3.2.Ví dụ 10 2.3.2.Ví dụ 10 2.4.Các nghiên cứu liên quan 11 2.4.1.Khai thác đánh giá lời bình phẩm khách hàng 11 2.4.2 Phân tích ý kiến dự đốn trang Web 12 2.4.3 Xây dựng miền Ontology tự động từ mạng ngữ nghĩa 13 CHƢƠNG I I I : CÁC PHƢƠNG PHÁP PHÂN TÍCH Ý KIẾN SỬ DỤNG KỸ THUẬT PHÂN LOẠI VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 18 3.1 Phân loại ý kiến 18 3.2.Các phƣơng pháp phân loại ý kiến 18 3.2.1.Các phƣơng pháp phân loại ý kiến mức văn 18 2.2.2.Phƣơng pháp phân loại ý kiến mức câu 23 Nguyễn Thị Thảo - Lớp 51K2 Khoa CNTT Đồ án tốt nghiệp đại học 2.3 Phân loại dựa thông tin quan hệ 24 2.3.1 Quan hệ câu văn 24 2.3.2 Quan hệ thành phần thảo luận 24 2.3.3 Quan hệ đặc tính sản phẩm 24 CHƢƠNG IV: THỬ NGHIỆM 26 3.1.Kỹ thuật giải toán 26 3.1.1 Kỹ thuật tiếp cận dựa từ điển 26 3.1.2 Kỹ thuật tiếp cận dựa vào kho ngữ liệu 26 3.2 Chƣơng trình minh họa 26 3.2.1 Bài toán 26 3.2.2 Ý tƣởng giải toán 26 3.3.3.Chƣơng trình 26 KẾT LUẬN 28 TÀI LIỆU THAM KHẢO 29 Nguyễn Thị Thảo - Lớp 51K2 Khoa CNTT Đồ án tốt nghiệp đại học CHƢƠNG I: GIỚI THIỆU ĐỀ TÀI 1.1 Lý chọn đề tài Khi đƣa định sử dụng dịch vụ hay mua hàng đa số muốn tham khảo ý kiến ngƣời sử dụng dich vụ hay sản phẩm Do vậy, nhu cầu hệ thống tập trung xử lí,phân tích ý kiến trở nên rõ ràng thiết yếu Phân tích ý kiến cảm xúc toán lĩnh vực Xử lý ngôn ngữ tự nhiên 1.2 Mục tiêu đề tài Mục tiêu tìm hiểu đề tài khai thác tổng hợp lại ý kiến bày tỏ, nhận xét khách hàng sản phẩm dịch vụ đƣợc thu thập từ internet nhằm đạt đƣợc kết nhƣ sau: Xây dựng hệ thống xử lý nhằm phân tích mức tình cảm đoạn bình luận bao gồm nhiều câu nhận xét, sau đánh giá xem ứng với câu đoạn nhận xét tích cực hay khơng tích cực Loại trừ đƣợc câu nhận xét vô nghĩa không liên quan tới sản phẩm dịch vụ liên quan Tìm hiểu giải thuật vấn đề khai thác ý kiến phân tích tình cảm (Opinion Mining and Sentiment Analysis) 1.3.Phạm vi đề tài Có nhiều lĩnh vực mà đề tài áp dụng để khai thác nhƣ đánh giá sản phẩm, tổ chức, trị, mạng xã hội Nhƣng lý khách quan mà định áp dụng hệ thống vào việc khai thác tổng hợp hai loại sản phẩm điện thoại di động máy tính xách tay Các phƣơng pháp đƣợc sử dụng cho việc khai thác tổng hợp phạm vi đề tài đề cập đến việc dùng Ontology kết hợp với số kỹ thuật xử lý ngôn ngữ tự nhiên cách để giải vấn đề Nguyễn Thị Thảo - Lớp 51K2 Khoa CNTT Đồ án tốt nghiệp đại học CHƢƠNG II: TỔNG QUAN VỀ PHÂN TÍCH Ý KIẾN CHỦ QUAN Chƣơng giới thiệu tổng quan vấn đề phân tích ý kiến, khái niệm số dạng phân tích ý kiến nhƣ: phân loại ý kiến, phân tích cảm nhận ngƣời dùng đặc tính sản phẩm, xác định xu hƣớng tình cảm từ câu so sánh sản phẩm, số nghiên cứu thực tế dạng đƣợc cơng bố 2.1 Phân tích ý kiến 2.1.1 Khái niệm mơ hình phân tích ý kiến Giống vấn đề khoa học nào, trƣớc giải cần định nghĩa mơ hình hóa vấn đề Việc mơ hình hóa đƣa định nghĩa bản, khái niệm cốt lõi vấn đề nhƣ đối tƣợng mục tiêu Chúng ta sử dụng thuật ngữ đối tƣợng để gọi thực thể mục tiêu đƣợc nhận xét Một đối tƣợng có tập hợp thành phần, thuộc tính, gọi chung đặc tính Đối tƣợng: đối tƣợng thực thể, sản phẩm, ngƣời, kiện, tổ chức chủ đề Gọi tài liệu ý kiến d, nhận xét sản phẩm, viết diễn đàn, nhật ký cá nhân, đánh giá tập đối tƣợng Trong trƣờng hợp tổng quát nhất, d bao gồm chuỗi câu d = < S1, S2, S3…,Sm> Đoạn ý kiến đặc tính: đoạn ý kiến đặc tính đối tƣợng đánh giá nhóm câu nối tiếp d thể ý kiến tích cực tiêu cực đối tƣợng Đặc tính ẩn đặc tính rõ ràng: đặc tính từ đồng nghĩa xuất câu, đặc tính đƣợc gọi đặc tính rõ ràng Nếu khơng có đặc tính hay từ đồng nghĩa xuất hiện, nhƣng lại ám đặc tính đƣợc gọi đặc tính ẩn câu Ngƣời giữ ý kiến: ngƣời tổ chức đƣa ý kiến Ngƣời giữ ý kiến đƣợc gọi nguồn ý kiến Câu chủ quan: Một câu khách quan thể vài thông tin thực tế giới, câu chủ quan thể cảm giác niềm tin cá nhân Ý kiến rõ ràng ý kiến không rõ ràng: Một ý kiến rõ ràng đặc tính f ý kiến đƣợc thể cách rõ ràng f câu chủ quan Một ý kiến khơng rõ ràng đặc tính f ý kiến đƣợc ám câu khách quan Câu có ý kiến: câu có ý kiến câu thể rõ ràng ám ý kiến tích cực hay tiêu cực Nguyễn Thị Thảo - Lớp 51K2 Khoa CNTT Đồ án tốt nghiệp đại học Xác định ý kiến: Một ý kiến đƣợc mơ hình hóa gồm thànhphần tốn học nhƣ sau: (ei, aij, sijkl, hk, tl), Trong đó: • ei : Thực thể(đối tượng) • aij : Khía cạnh khác ei • sijkl : Ý kiến khía cạnh aij thực thể ei(đặc tính) • hk: Người nêu ý kiến • tl: Thời điểm đưa ý kiến người hk Xác định thực thể Ví dụ : cameras Xác định khía cạnh thực thể Ví dụ: picture, image, and photo Xác định cách biểu diễn rõ khía cạnh thực thể: Ví dụ, " picture quality” in “The picture quality of this camera is great” "là biểu khía cạnh rõ ràng Phân tích mục đích ý kiến dựa vào thành phần tài liệu d(document) Xác định cách biểu diễn ẩn khía cạnh thực thể Ví dụ: “expensive” ngụ ý nói “This camera is expensive” biểu ẩn khía cảnh thực thể máy ảnh Mơ hình văn ý kiến: Mơ hình thực thể (Model of entity): e i đại diện cho tập khía cạnh a i j : A i = {a i , a i , …, a i n } Với a i j єA i thực thể e i ta biểu diễn {ae i j , ae i j , …, ae i j m } Mơ hình ý kiến tài liệu(Model of opinion document): Là tập hợp thực thể {e , e , …,e r } tập hợp đối tƣợng đƣa ý kiến thời điểm xác định cụ thể : {h , h , …,h p } Để tổng hợp ý kiến ta thực nhiệm vụ(Task) sau đây: - Task1: Xác định thực thể nhóm lại thành nhóm - Task2: Xác định khía cạnh liên quan nhóm thành nhóm - Task 3: Xác định ngƣời đƣa ý kiến ngƣời nhận ý kiến - Task 4:Xác định thời gian đƣa ý kiến chuẩn hóa định dạng thời gian khác - Task 5: Xác định cảm xúc câu ý kiến tài liệu Nguyễn Thị Thảo - Lớp 51K2 Khoa CNTT Đồ án tốt nghiệp đại học - Task 6: Xác định thành phần: (ei, aij, sijkl, hk, tl) Mục đích việc phai phá ý kiến trực tiếp: Cho tài liệu ý kiến d: Phát tất ý kiến (ei, aij, sijkl, hk, tl) d Xác định tất từ đồng nghĩa từ đặc tính sijkl khía cạnh d 2.1.2.Các ứng dụng với phân tích ý kiến Trong thực tế, doanh nghiệp tổ chức ln ln muốn tìm hiểu ngƣời tiêu dùng ý kiến họ họ sản phẩm dịch vụ cơng ty Cịn ngƣời tiêu dùng cần tham khảo ý kiến ngƣời khác sản phẩm trƣớc mua sản phẩm Với phát triển cơng nghệ nhƣ việc tham khảo ý kiến ngƣời khác diễn dàn mạng xã hội phổ biển mang lại nhiều lợi ích cho ngƣời sử dụng dịch vụ cơng ty sản xuất Hiện có nhiều ứng dụng lĩnh vực Phân tích cảm xúc tham khảo ý kiến (“Sentiment Analysis and Opinion Mining”) đƣợc triển khai giới 2.2 Một số dạng phân tích ý kiến 2.2.1 Phân loại ý kiến khách quan-chủ quan,tích cực-tiêu cực Dạng xem phân tích ý kiến nhƣ vấn đề phân loại văn Hai chủ đề nhỏ đƣợc nghiên cứu mở rộng gồm: – Phân loại văn chứa ý kiến ý kiến tích cực hay tiêu cực, – Phân loại câu mệnh đề câu chủ quan hay khách quan, câu mệnh đề chủ quan xem thể ý kiến tích cực, tiêu cực, hay trung lập 2.2.2 Tổng hợp phân tích ý kiến dựa đặc tính sản phẩm Mơ hình trƣớc tiên khám phá đối tƣợng đƣợc thể ý kiến câu, sau xác định xem ý kiến tích cực, tiêu cực, hay trung lập Mục tiêu nhận xét đối tƣợng thành phần nó, đặc tính chức năng… Một đối tƣợng sản phẩm, dịch vụ, cá nhân hay tổ chức đó, kiện, chủ đề Cụ thể, câu nhận xét sản phẩm, xác định đặc điểm sản phẩm đƣợc nhận xét xác định xem nhận xét tích cực hay tiêu cực Nguyễn Thị Thảo - Lớp 51K2 Khoa CNTT Đồ án tốt nghiệp đại học 2.2.3 Phân tích ý kiến dựa câu so sánh Việc đánh giá đối tƣợng thực theo hai cách chính, trực tiếp thẩm định so sánh Trực tiếp thẩm định, gọi ý kiến trực tiếp, đƣa ý kiến tích cực, tiêu cực đối tƣợng mà không nhắc tới đối tƣợng tƣơng tự khác So sánh có nghĩa so sánh đối tƣợng với đối tƣợng tƣơng tự ( nhƣ sản phẩm cạnh tranh) 2.3 Một số ví dụ 2.3.1 Ví dụ Ví dụ câu:“Chất lượng điện thoại iPhone gọi tốt, tuổi thọ pin lại ngắn“ • Đánh giá hai khía cạnh, chất lượng gọi pin, iPhone (thực thể) • Tình cảm chất lƣợng gọi iPhone tích cực, nhƣng tình cảm tuổi thọ pin tiêu cực Chất lƣợng gọi Tuổi thọ pin iPhone mục tiêu cần đánh giá • Dựa mức độ phân tích cấp độ Entity and Aspect bao gồm hai cấp độ Document Sentence 2.3.2 Ví dụ This camera sucks,” nhƣng hiểu theo ví dụ “This vacuum cleaner really sucks Can you tell me which Sony camera is good?” and “If I can find a good camera in the shop, I will buy it.” Nhƣng hai câu khơng nêu rõ tình cảm tiêu cực hay tiêu cực mà nêu ý kiến chung chung dạng câu hỏi What a great car! It stopped working in two days Ngụ ý chê bai xe có chất lƣợng kém, nhƣng lại nghe theo kiểu châm biếm This washer uses a lot of water Mặc dù câu khơng có yếu tố từ vững tình cảm nhƣng nói lên ý tiêu cực máy giặt tốn nước 2.3.2 Ví dụ Posted by: bigJohn Date: Sept 15, 2011 (1) I bought a Samsung camera and my friends brought a Canon camera yesterday (2) In the past week, we both used the cameras a lot (3) The photos from my Samy are not that great, and the battery life is short too (4) My friend was very happy with his camera and loves its picture quality (5) I want a camera that can take good photos (6) I am going to return it tomorrow Nguyễn Thị Thảo - Lớp 51K2 10 Khoa CNTT Đồ án tốt nghiệp đại học thể xếp gộp vào bị xếp gộp vào lớp khác Mối quan hệ xếp gộp đƣợc sử dụng để tạo cấu trúc có thứ bậc lớp, thƣờng với lớp thông dụng kiểu Thing đỉnh lớp rõ ràng kiểu đời xe, tên xe bậc thấp Nhƣ vậy, hệ quan trọng quan hệ xếp gộp tính kế thừa thuộc tính từ lớp cha đến lớp Do vậy, thứ hiển nhiên với lớp cha hiển nhiên với lớp Trong số Ontology, lớp đƣợc cho phép có lớp cha, nhƣng hầu hết Ontology, lớp cho phép có số lƣợng lớp cha trƣờng hợp sau tất thuộc tính hiển nhiên lớp cha đƣợc kế thừa lớp c) Các thuộc tính (Properties) Các đối tƣợng Ontology đƣợc mơ tả thơng qua việc khai báo thuộc tính chúng Mỗi thuộc tính có tên giá trị thuộc tính Các thuộc tính đƣợc sử dụng để lƣu trữ thơng tin mà đối tƣợng có Ví dụ, sản phẩm gồm có thuộc tính nhƣ: Tên sản phẩm, Ngày phát hành, Kích thƣớc, Xuất xứ, …Giá trị thuộc tính có kiểu liệu phức Nhƣ vậy, Ontology mang đầy đủ ý nghĩa khái niệm có liên hệ với khái niệm khác (các khái niệm có thuộc tính) Nếu khơng rơi vào trƣờng hợp này, ta có phân loại (nếu quan hệ bao hàm tồn khái niệm) từ điển có kiểm sốt Những thứ hữu ích nhƣng khơng đƣợc xem Ontology d) Các mối quan hệ (Relation) Một ứng dụng quan trọng việc sử dụng thuộc tính để mô tả mối liên hệ đối tƣợng Ontology Một mối quan hệ thuộc tính có giá trị đối tƣợng Ontology.Một kiểu quan hệ quan trọng kiểu quan hệ xếp gộp (subsumption) Kiểu quan hệ mô tả đối tƣợng thành viên lớp đối tƣợng Ví dụ, Ontology chứa khái niệm “Con ngƣời” khái niệm “Quốc gia”, mối quan hệ hai khái niệm Phần lớn sức mạnh Ontology nằm khả diễn đạt quan hệ Tập hợp quan hệ mô tả ngữ nghĩa domain Tập dạng quan hệ đƣợc sử dụng (lớp quan hệ) phân loại thứ bậc chúng thể sức mạnh diễn đạt ngôn ngữ dùng để biểu diễn Ontology Ngoài ra, Ontology thƣờng chứa thêm số dạng quan hệ làm trau chuốt ngữ nghĩa mà chúng mơ hình hóa Ontology thƣờng phân biệt nhóm quan hệ khác Ví dụ nhóm quan hệ về: Nguyễn Thị Thảo - Lớp 51K2 15 Khoa CNTT Đồ án tốt nghiệp đại học Quan hệ lớp Quan hệ thực thể Quan hệ thực thể lớp Quan hệ đối tƣợng đơn tập hợp Quan hệ tập hợp Vì dạng quan hệ đặc thù chuyên ngành sử dụng để lƣu trữ dạng kiện đặc thù trả lời cho loại câu hỏi cụ thể Nếu định nghĩa dạng quan hệ đƣợc chứa Ontology Ontology định ngơn ngữ định nghĩa Ontology cho Xây dựng miền Ontology tự động từ mạng ngữ nghĩa Khai thác ý kiến phân tích tình cảm (Opinion mining and sentiment analysis) nhánh NLP khai thác văn (text mining) nhằm mục đích khám phá khai thác tự động tri thức tình cảm ngƣời, đánh giá ý kiến từ liệu văn gốc nhƣ trang nhật ký ngƣời đó, nhận xét website phản hồi từ khách hàng Những tác giả cơng trình [Ashish Sureka, Vikram Goyal, Denzil Correa Anirban Mondal, 2010] đề xuất phƣơng pháp xây dựng miền Ontology tự động từ mạng ngữ nghĩa ConceptNet ConceptNet đƣợc xây dựng tình nguyện viên giới Và kết cơng trình sử dụng nhƣ nguồn từ vựng thực xác định mục tiêu đểphân tích tình cảm thời gian Khác với cơng trình trƣớc (đƣợc đề cập đến 2.1 2.2), cơng trình nghiên cứu [Ashish Sureka, Vikram Goyal, Denzil Correa Anirban Mondal, 2010] tác giả đƣa đƣợc giải pháp cải tiến so với giải pháp truyền thống Sự khác biệt giải pháp tác giả so với giải pháp khác tác giả đề xuất mạng ngữ nghĩa common-sense knowledge-base (ConceptNet) để tạo tự động miền ontology tính sản phẩm thuộc tính Những cơng trình trƣớc thƣờng đánh giá chung danh sách tính sản phẩm, tác giả tạo ontology tính sản phẩm nhƣ khái niệm nút mạng ngữ nghĩa đƣợc kết nối với nút khác sử dụng nhiều kiểu quan hệ ngữ nghĩa (semantic relationship - theo nhiều kiểu khác nhiều mối quan hệ khác nhau) Vì mà sản phẩm xuất miền ontology từ vựng tạo từ cách mang ngữ nghĩa phong phú từ vựng Nguyễn Thị Thảo - Lớp 51K2 16 Khoa CNTT Đồ án tốt nghiệp đại học Tác giả tận dụng ConceptNet để xây dựng miền ontology Các nút thể khái niệm, cạnh thể tính chất, thuộc tính, quan hệ Tác giả khơng đƣa mối quan hệ ngữ nghĩa giống nhƣ IsA, HasA mà nhiều mối quan hệ khác CreatedBy, MadeOf, PartOf, DesireOf DefineAs Phạm vi ConceptNet tri thức chung không giới hạn miền cụ thể nào, hữu dụng việc khai thác câu bình luận tính sản phẩm Nguyễn Thị Thảo - Lớp 51K2 17 Khoa CNTT Đồ án tốt nghiệp đại học CHƢƠNG I I I : CÁC PHƢƠNG PHÁP PHÂN TÍCH Ý KIẾN SỬ DỤNG KỸ THUẬT PHÂN LOẠI VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN Cách tiếp cận chủ yếu nhiều ứng dụng khai phá ý kiến dựa kỹ thuật phân loại văn Nội dung chương bao gồm số kỹ thuật phân tích ý kiến dựa phương pháp phân loại: phân loại ý kiến mức văn bản, mức câu, kỹ thuật sinh từ vựng ý kiến dùng để phân tích ý kiến 3.1 Phân loại ý kiến Có loại ý kiến: • Regular opinion: Ý kiến nêu lên nội dung chính( ý kiến trực tiếp ý kiến gián tiếp) Ví dụ: “The picture quality is great.” • Comparative opinion: Ý kiến so sánh hai hay nhiều thực thể Ví dụ: “Coke tastes better than Pepsi” • Explicit and Implicit Opinions : Ý kiến nêu rõ ràng nội dung, tình cảm Hay ý kiến mang ý nghĩa ẩn ý, ngụ ý nội dung, cảm xúc muốn nói Ví dụ: “Coke tastes great”, The battery life of Nokia phones is longer than Samsung phones 3.2.Các phƣơng pháp phân loại ý kiến 3.2.1.Các phƣơng pháp phân loại ý kiến mức văn Ta nghiên cứu lĩnh vực dựa cấp độ tài liệu Tức đánh giá phân tích ý kiến tích cực hay tiêu cực tồn tài liêu khơng phải xét câu Xem tồn tài liệu đơn vị để đánh giá • Phƣơng pháp học có giám sát: Có thể dùng thuật toán nhƣ: Bayes , SVM để giải toán phân tích cảm xúc • Phƣơng pháp học khơng giám sát: Kỹ thuật Turney đƣợc áp dụng cho phƣơng pháp Phƣơng pháp phân loại dựa học có giám sát Phân loại, hay phân lớp, ý kiến trƣờng hợp riêng học có giám sát (supervised learning), đoạn bình luận câu chứa ý kiến nhận hai nhãn phân loại:“tích cực”, “tiêu cực” (một số phát biểu cho phép phân biệt thêm nhãn “trung tính”) Q trình phân loại đƣợc thực theo bƣớc đƣợc mô tả sau đây: Nguyễn Thị Thảo - Lớp 51K2 18 Khoa CNTT Đồ án tốt nghiệp đại học • Thu thập liệu nhận xét đánh giá từ trang web, gán nhãn phân loại cho liệu • Huấn luyện phân loại liệu chuẩn bị: lựa chọn kỹ thuật phân loại trích chọn đặc trƣng Quá trình huấn luyện đƣợc lặp lặp lại nhiều lần để có đƣợc mơ hình tốt • Hiệu mơ hình phân loại sau đƣợc đánh giá tập liệu kiểm tra chuẩn bị a) Mơ hình ngơn ngữ n-gram Một số khái niệm • Ngữ liệu: Ngữ liệu (Corpus) liệu tập hợp văn bản, ngôn ngữ đƣợc số hố Cách dịch thơng thƣờng Việt Nam “kho ngữ liệu” tập huấn luyện số báo khoa học Ví dụ corpus nhƣ “tuyển tập tác phẩm Nam Cao”, hay “tuyển tập ca từ Trịnh Cơng Sơn” • N-gram: Là tần suất xuất n kí tự (hoặc từ) liên tiếp có liệu corpus + Với n = 1, unigram, tính kí tự, ta có thơng tin tần suất xuất nhiều chữ Điều đƣợc ứng dụng để làm keyboard: phím hay xuất vị trí dễ sử dụng (e,a,…) + Với n = 2, ta có khái niệm bigram Ví dụ với chữ tiếng Anh, „th‟,‟he‟,‟in‟,‟an‟,‟er‟ cặp kí tự hay xuất Ngồi ra, ta biết thêm sau kí tự „q‟ phần lớn kí tự „u‟ + Với n = 3, ta có trigram Nhƣng n lớn số trƣờng hợp lớn nên thƣờng ngƣời ta sử dụng với n = 1,2 đôi lúc Ví dụ với kí tự tiếng Việt, tiếng Việt sử dụng 29 kí tự, với n = số trƣờng hợp 29, n = số trƣờng hợp 29^2 = 841 trƣờng hợp, n = có 24389 trƣờng hợp Bigram đƣợc sử dụng nhiều việc phân tích hình thái (từ, cụm từ, từ loại) cho ngơn ngữ khó phân tích nhƣ tiếng Việt, tiếng Nhật, tiếng Trung, … Dựa vào tần suất xuất cạnh từ, ngƣời ta tính cách chia câu thành từ cho tổng bigram cao Với thuật giải phân tích hình thái dựa vào trọng số nhỏ nhất, ngƣời ta sử dụng n = để xác định tuần suất xuất từ tính trọng số Để đảm bảo tính thống kê xác địi hỏi corpus phải lớn có tính đại diện cao Nguyễn Thị Thảo - Lớp 51K2 19 Khoa CNTT Đồ án tốt nghiệp đại học • History (về ngôn ngữ): ta hiểu tiền ngữ, chẳng hạn “ngôn ngữ tự nhiên” “ngôn ngữ tự chế” có chung tiền ngữ “ngơn ngữ tự” Cụ thể, với n-gram w=w …w n 1 w n , history w n w w ,w …,w n 1 • N-gram khơng nhìn thấy (Unseen N-Grams): Giả sử ta nhìn thấy “xử lý ngơn ngữ” tập ngữ liệu, nhƣng ta hồn tồn khơng tìm thấy “xử lý ngơn ngữ tự”, đó, P(tự|xử lý ngơn ngữ) = Khi ta nói cụm “xử lý ngơn ngữ tự” khơng nhìn thấy, có xác suất Mơ hình ngơn ngữ N-Gram Nhiệm vụ mơ hình ngơn ngữ cho biết xác suất câu w1 w wm Theo công thức Bayes: P(AB) = P(B|A) * P(A) thì: P(w1 w2 …w m) = P(w1 ) * P(w2|w1) * P(w3|w1 w2 ) *…* P(wm|w1 w2…wm-1) Theo cơng thức này, mơ hình ngơn ngữ cần phải có lƣợng nhớ vơ lớn để lƣu hết xác suất tất chuỗi độ dài nhỏ m Rõ ràng, điều m độ dài văn ngơn ngữ tự nhiên (m tiến tới vơ cùng) Để tính đƣợc xác suất văn với lƣợng nhớ chấp nhận đƣợc, ta sử dụng xấp xỉ Markov bậc n: P(wm|w1,w2,…, wm-1) = P(wm|wm-n,wn-m+1, …,wm-1) Nếu áp dụng xấp xỉ Markov, xác suất xuất từ (wm) đƣợc coi nhƣ phụ thuộc vào n từ đứng liền trƣớc (wm-n wm-n+1 …wm-1) khơng phải phụ thuộc vào tồn dãy từ đứng trƣớc (w1 w2…wm-1) Nhƣ vậy, công thức tính xác suất văn đƣợc tính lại theo cơng thức: P(w1 w2 …w m) = P(w1 )*P(w2|w1)*P(w3|w1w2 )*…*P(wm-1|wm-n-1wm-n …wm-2)* P(wm|wm-nwm-n+1…wm-1) Theo cơng thức này, mơ hình ngơn ngữ cần phải có lƣợng nhớ vơ lớn để lƣu hết xác suất tất chuỗi độ dài nhỏ m Rõ ràng, điều m độ dài văn ngơn ngữ tự nhiên (m tiến tới vô cùng) b) Phân loại Naive Bayes Phân loại Naive Bayes sử dụng trƣờng hợp ví dụ đƣợc cho tập thuộc tính cần xác định nhãn phân loại y, y nhận giá trị từ tập nhãn hữu hạn C Nguyễn Thị Thảo - Lớp 51K2 20 Khoa CNTT Đồ án tốt nghiệp đại học Trong giai đoạn huấn luyện, liệu huấn luyện đƣợc cung cấp dƣới dạng mẫu Sau huấn luyện xong, phân loại cần dự đoán nhãn cho mẫu x Theo lý thuyết học Bayes, nhãn phân loại đƣợc xác định cách tính xác suất điều kiện nhãn quan sát thấy tổ hợp giá trị thuộc tính Thuộc tính đƣợc chọn, ký hiệu cMAP thuộc tính có xác suất điều kiện cao (MAP viết tắt maximum a posterior), tức là: Sử dụng quy tắc Bayes,biểu thức đƣợc viết lại nhƣ sau: Hai thành phần biểu thức đƣợc tính từ liệu huấn luyện Giá trị P(cj) đƣợc tính tần suất quan sát thấy nhãn cj tập huấn luyện, tức số mẫu có nhãn cj chia cho tổng số mẫu Việc tính P(x1,x2,…,xn|cj) khó khăn nhiều Vấn đề số tổ hợp giá trị n thuộc tính với nhãn phân loại lớn n lớn Để tính xác suất đƣợc xác, tổ hợp giá trị thuộc tính phải xuất nhãn phân loại đủ nhiều, số mẫu huấn luyện thƣờng không đủ lớn Để giải vấn đề trên, ta giả sử thuộc tính độc lập xác suất với biết nhãn phân loại cj Trên thực tế, thuộc tính thƣờng khơng độc lập với nhƣ vậy, chẳng hạn ví dụ chơi tennis, trời nắng xác suất nhiệt độ cao lớn Chính dựa giả thiết độc lập xác suất đơn giản nhƣ nên phƣơng pháp có tên gọi “Bayes đơn giản” Tuy nhiên, nhƣ ta thấy sau đây, giả thiết nhƣ cho phép tính xác suất điều kiện đơn giản nhiều thực tế phân loại Bayes có độ xác tốt nhiều ứng dụng Với giả thiết tính độc lập xác suất có điều kiện viết: Tức xác suất đồng thời quan sát thấy thuộc tính tích xác suất điều kiện thuộc tính riêng lẻ Thay vào biểu thức trên, ta đƣợc phân loại Naive Bayes (có đầu ký hiệu CNB nhƣ sau): Nguyễn Thị Thảo - Lớp 51K2 21 Khoa CNTT Đồ án tốt nghiệp đại học Trong P(xi|cj) đƣợc tính từ liệu huấn luyện số lần xi xuất với cj chia cho số lần xi xuất Việc tính xác suất địi hỏi liệu nhiều so với tính P(x1, x2, …, xn | cj) Q trình học Bayes đơn giản q trình tính xác suất P(cj) xác suất điều kiện P(xi|cj) cách đếm tập liệu c) Phân loại máy vector tựa (Support Vector Machines) Máy vec tơ tựa (SVM) kỹ thuật học máy đƣợc xây dựng cho tốn phân loại nhị phân, tức ví dụ nhận hai nhãn Các ví dụ phải đƣợc biểu diễn thuộc tính liên tục, ví dụ tƣơng ứng với vec tơ không gian SVM dựa hai nguyên tắc sau: • SVM tìm cách phân chia ví dụ có nhãn khác siêu phẳng cho khoảng cách từ siêu phẳng tới ví dụ có nhãn khác lớn Nguyên tắc đƣợc gọi nguyên tắc lề cực đại (max margin) Trong q trình huấn luyện, thuật tốn SVM xác định siêu phẳng có lề cực đại cách giải tốn tối ƣu cho hàm mục tiêu bậc • Để giải trƣờng hợp ví dụ khơng thể phân chia siêu phẳng, phƣơng pháp SVM ánh xạ khơng gian ban đầu ví dụ sang khơng gian khác thƣờng có số chiều cao hơn, sau tìm siêu phẳng với lề cực đại khơng gian Để tăng tính hiệu ánh xạ, kỹ thuật đƣợc sử dụng kỹ thuật dùng hàm nhân (kernel function) thay cho tích có hƣớng vec tơ Có hàm kernel phổ biến đƣợc đề cập thuật toán SVM là: - Linear - Radial basis function (RBF) - Polyminal - Sigmoid Phân loại dựa học không giám sát Sử dụng từ vựng Thuật toán bao gồm ba bƣớc: • Bƣớc 1: Trích chọn cụm từ chứa tính từ trạng từ Lý để làm điều nghiên cứu chứng tỏ tính từ trạng từ từ báo tốt ý kiến tính chủ quan Tuy nhiên, tính từ Nguyễn Thị Thảo - Lớp 51K2 22 Khoa CNTT Đồ án tốt nghiệp đại học độc lập báo tính chủ quan, nhƣng ngữ cảnh không đủ để xác định xu hƣớng ngữ nghĩa Do đó, thuật tốn trích chọn hai từ liền nhau, từ cặp tính từ/ trạng từ cịn từ từ ngữ cảnh Hai từ liền đƣợc trích chọn POS tag chúng phù hợp với mẫu bảng dƣới Ví dụ, mẫu dịng nghĩa từ liền đƣợc trích chọn từ trạng từ từ thứ hai tính từ nhƣng từ thứ (khơng đƣợc trích chọn) khơng phải danh từ • Bƣớc 2: Ƣớc lƣợng xu hƣớng cụm từ trích chọn cách sử dụng cơng thức tính pointwise mutual information (PMI) nhƣ sau: Trong đó: - Pr(term1 ∩ term2) xác suất xuất đồng thời term1 term2 - Pr(term1)Pr(term2) xác suất xuất đồng thời term1 term2 độc lập - Do Pr(term1 ∩ term2) Pr(term1)Pr(term2) phép đo mức độ độc lập thống kê chúng Hàm log tỉ số lƣợng thông tin lấy đƣợc có mặt từ quan sát từ cịn lại • Bƣớc 3: cho đánh giá, thuật tốn tính oo trung bình tất cụm từ bài, phân loại thành “nên dùng” (tích cực) oo tính đƣợc dƣơng “không nên dùng” (tiêu cực) oo âm 2.2.2 Phƣơng pháp phân loại ý kiến mức câu Nhiệm vụ: Cho câu s, hai nhiệm vụ sau đƣợc thực hiện: • Phân loại tính chủ quan: xác định xem s câu chủ quan hay câu khách quan • Phân loại ý kiến cho câu chủ quan: Nếu s chủ quan, xác định xem thể ý kiến tích cực hay tiêu cực Xác định câu mang ý kiến chủ quan Công việc phân loại xu hƣớng tình cảm thƣờng giả sử tài liệu đầu vào tài liệu mang ý kiến chủ quan Tuy nhiên, với nhiều ứng dụng cần xác định xem tài liệu có chứa thơng tin chủ quan hay không, xác định phần tài liệu chủ quan Các kỹ thuật nhƣ Support Vector Machine, hay Navie Bayes áp dụng để thực nhiệm vụ phân loại ý kiến Nguyễn Thị Thảo - Lớp 51K2 23 Khoa CNTT Đồ án tốt nghiệp đại học Phân tích xu hƣớng cho câu ý kiến chủ quan Công việc đƣợc phát biểu nhƣ sau: Cho đoạn văn chứa ý kiến, giả sử tồn ý kiến nói vấn đề vật đó, phân loại ý kiến thành hai cực tình cảm trái ngƣợc (thích, khơng thích), xem mức độ hai cực Các kỹ thuật học máy áp dụng cho nhiệm vụ 2.3 Phân loại dựa thông tin quan hệ 2.3.1 Quan hệ câu văn Một đặc trƣng phân loại ý kiến mức văn văn gồm nhiều đơn vị văn nhỏ (nhƣ đoạn văn hay câu) với nhãn phân loại khác nhau, chí trái ngƣợc nhau, nhãn phân loại tổng thể tồn văn hàm tập hợp nhãn phân loại mức thành phần Do đó, nhƣ biện pháp thay xem văn nhƣ túi đặc tính, có nhiều nỗ lực đƣợc thực để mơ hình cấu trúc văn theo phân tích đơn vị thành phần văn bản, để tính hữu ích mối quan hệ đơn vị để có đƣợc nhãn phân loại tổng thể cho toàn văn cách xác Việc mơ hình hóa quan hệ đơn vị thành phần văn dẫn tới việc gán nhãn phân loại thành phần tốt 2.3.2 Quan hệ thành phần thảo luận Một điều thú vị phân tích ý kiến văn đƣợc phân tích tạo thành phần một bàn luận, nhƣ trƣờng hợp lƣợt tranh luận trị, viết diễn đàn tranh luận, hay nhận xét viết cá nhân Việc sử dụng quan hệ đặc biệt hữu ích nhiều văn trƣờng hợp nói phức tạp, khó phân loại, nhƣng dễ dàng phân loại văn phức tạp tìm đƣợc từ báo đồng tình với văn rõ xu hƣớng tích cực hay tiêu cực 2.3.3 Quan hệ đặc tính sản phẩm Popescu Etzioni xem việc gán nhãn từ ý kiến liên quan đến đặc tính sản phẩm nhƣ trình gán nhãn tập thể Họ đƣa thuật giải lặp việc gán xu hƣớng cho từ riêng biệt đƣợc điều chỉnh tập thể thơng qua q trình gán nhãn nới lỏng Bắt đầu từ nhãn từ “global” đƣợc tính tốn tập văn thể xu hƣớng tình cảm cho từ cụ thể trƣờng hợp chung, Popescu Etzioni định nghĩa lại nhãn từ nhãn chung tới nhãn Nguyễn Thị Thảo - Lớp 51K2 24 Khoa CNTT Đồ án tốt nghiệp đại học riêng cho văn đánh giá, tới nhãn riêng cho đặc tính sản phẩm, cuối tới nhãn riêng cho ngữ cảnh cụ thể mà từ xuất Họ đảm bảo xem xét ràng buộc cụ mức câu mà ý kiến đƣợc kết nối quan hệ từ nhƣ “nhƣng”, “hoặc”, “và” để phân loại thành loại hay loại đối ngƣợc Nguyễn Thị Thảo - Lớp 51K2 25 Khoa CNTT Đồ án tốt nghiệp đại học CHƢƠNG IV: THỬ NGHIỆM 3.1.Kỹ thuật giải toán Để thu thập danh sách từ ý kiến, phƣơng pháp đƣợc nghiên cứu: • Kỹ thuật tiếp cận dựa từ điển • Kỹ thuật tiếp cận dựa vào kho ngữ liệu 3.1.1 Kỹ thuật tiếp cận dựa từ điển - Sử dụng từ điển để biên dịch từ tình cảm cách tiếp cận rõ ràng hầu hết từ điển (ví dụ, WordNet)có danh sách từ đồng nghĩa từ trái nghĩa với từ tình cảm đƣợc nêu từ điển - Dựa vào từ đồng nghĩa ta thêm từ mang ý nghĩa tích cực tiêu cực vào từ điển 3.1.2 Kỹ thuật tiếp cận dựa vào kho ngữ liệu Cách tiếp cận dựa ngữ liệu đƣợc áp dụng cho hai kịch chính: 1) Dựa vào danh sách từ tình cảm kho ngữ liệu 2) Tùy vào kho ngữ liệu khác từ mang sắc thái tình cảm đƣợc hiểu theo ý tích cực tiêu cực khác nhau( Sự thích ứng từ điển) Hay nói cách khác việc phụ thuộc vào ngữ cảnh mục đích từ tình cảm kho ngữ liệu thu thập đƣợc 3.2 Chƣơng trình minh họa 3.2.1 Bài tốn • Input: Nhập vào câu đơn • Output: Đƣa nhận xét câu câu tích cực, tiêu cực hay trung lập hay khơng phải câu thể cảm xúc 3.2.2 Ý tƣởng giải tốn • Nhập vào câu, sau chƣơng trình tách câu thành từ lƣu từ vào mảng • Tiếp theo chƣơng trình tìm sở liệu để kiểm chứng từ đƣa kết 3.3.3.Chƣơng trình Cơ sở liệu sử dụng - Cơ sở liệu vật lý Nguyễn Thị Thảo - Lớp 51K2 26 Khoa CNTT Đồ án tốt nghiệp đại học STT Tên trƣờng Kiểu Độ rộng STT int Khen Nvarchar 50 Che Nvarchar 50 Laplo nvarchar 50 Ràng buộc Khóa Giải thuật tốn • Bước 1: Nhập câu tùy ý • Bước 2: So sánh từ câu với từ sở liệu, Nếu từ nằm sở liệu sang bƣớc 3, Nếu khơng phải tiếp tục kiểm tra với từ cịn lại hết câu -> sang bƣớc • Bước 3: Xuất câu thơng báo (đây comment tích cực/ commemt tiêu cực/ comment lập lờ khơng rõ cảm xúc !) Chạy chƣơng trình Nguyễn Thị Thảo - Lớp 51K2 27 Khoa CNTT Đồ án tốt nghiệp đại học KẾT LUẬN Kết đạt đƣợc Trong trình thực đề tài này, em đạt đƣợc kết nhƣ sau: • Tìm hiểu tổng quan tốn phân tích ý kiến cảm xúc từ trang mạng xã hội • Tìm hiểu đƣợc số phƣơng pháp phân tích ý kiến cảm xúc • Xây dựng chƣơng trình minh họa phƣơng pháp thủ cơng • Tìm hiểu tảng lý thuyết nhƣ Ontology, WordNet, Ontology Web Language (OWL) làm sở để đề xuất phƣơng pháp thực hiệu Hƣớng phát triển • Tìm hiểu sâu tốn • Xây dựng chƣơng trình hồn chinh tự động trích lọc liệu từ web phân tích thành câu cảm xúc ý kiến khác • Tìm hiểu tốn phân tích cảm xúc tiếng Việt Nguyễn Thị Thảo - Lớp 51K2 28 Khoa CNTT Đồ án tốt nghiệp đại học TÀI LIỆU THAM KHẢO [1] Hu, M and Liu, B 2004 Mining and Summarizing Customer Reviews In Proceeding of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD – 2004), pp 166-177, ACM [2] Soo – Min Kim, Eduard Hovy 2007 Crystal: Analyzing Predictive Opinions on the Web In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP – CoNLL), pp 1056 -1064 [3] Alexander Fergus O‟Neill 2009 Sentiment Mining for Natural Language Documents Comp2006 – Computer Science Research Project, Department of Computer Science Australian National University [4] Alexandra Balahur, Jesús M Hermida, Andrès Montoyo 2011 Detecting Implicit Expressions of Sentiment in Text Based on Commonsense Knowledge In Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis (WASSA 2011), pp 53 – 60 [5] Khin Phyu Phyu Shein 2009 Ontology Based Combined Approach for Sentiment Classification In Proceedings of the 3th International Conference on Communications and Information Technology (CIT‟09), Vouliagmeni, Athens, Greece, pp 112 – 115 Nguyễn Thị Thảo - Lớp 51K2 29 Khoa CNTT ... sau: • Tìm hiểu tổng quan tốn phân tích ý kiến cảm xúc từ trang mạng xã hội • Tìm hiểu đƣợc số phƣơng pháp phân tích ý kiến cảm xúc • Xây dựng chƣơng trình minh họa phƣơng pháp thủ cơng • Tìm hiểu. .. gồm số kỹ thu? ??t phân tích ý kiến dựa phương pháp phân loại: phân loại ý kiến mức văn bản, mức câu, kỹ thu? ??t sinh từ vựng ý kiến dùng để phân tích ý kiến 3.1 Phân loại ý kiến Có loại ý kiến: • Regular... ? ?Tìm hiểu phƣơng pháp thu thập phân tích ý kiến cảm xúc từ trang mạng xã hội “Đề tài tập trung nghiên cứu vấn đề phƣơng pháp đƣợc dùng phân tích ý kiến Từ xây dựng kiểm nghiệm vài mơ hình thực