Luận văn thạc sĩ trích chọn và xếp hạng đặc trưng sản phẩm trong phân tích quan điểm 01

43 2 0
Luận văn thạc sĩ trích chọn và xếp hạng đặc trưng sản phẩm trong phân tích quan điểm  01

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ BÍCH NHẬT TRÍCH CHỌN VÀ XẾP HẠNG ĐẶC TRƯNG SẢN PHẨM TRONG PHÂN TÍCH QUAN ĐIỂM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội, năm 2015 z ĐẠI HỌ[.]

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ BÍCH NHẬT TRÍCH CHỌN VÀ XẾP HẠNG ĐẶC TRƯNG SẢN PHẨM TRONG PHÂN TÍCH QUAN ĐIỂM LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội, năm 2015 z ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ BÍCH NHẬT TRÍCH CHỌN VÀ XẾP HẠNG ĐẶC TRƯNG SẢN PHẨM TRONG PHÂN TÍCH QUAN ĐIỂM Chuyên ngành: Khoa học máy tính Mã số:60480101 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: PGS TS Lê Anh Cường XÁC NHẬN CỦA CTHĐ XÁC NHẬN CỦA GVHD PGS TS Phạm Bảo Sơn PGS TS Lê Anh Cường Hà Nội, năm 2015 z LỜI CAM ĐOAN Tôi xin cam đoan: (i) Luận văn sản phẩm nghiên cứu tôi, (ii) Số liệu luận văn điều tra trung thực, (iii) Tôi xin chịu trách nhiệm nghiên cứu Học viên Nguyễn Thị Bích Nhật z LỜI CẢM ƠN Tơi xin bày tỏ lịng biết ơn sâu sắc đến thầy hướng dẫn tơi, Phó giáo sư Tiến sĩ Lê Anh Cường Thầy cho hội quý giá để theo đuổi nghiên cứu lĩnh vực u thích Trong suốt q trình thực luận văn, thầy hướng dẫn tận tình cho tơi, đồng thời thầy cung cấp kiến thức, tài liệu cần thiết để tơi hồn thành luận văn Đó vinh dự cho tơi nhận Thạc sỹ Tôi xin chân thành cảm ơn thầy cô giáo Khoa Công nghệ Thông tin, Đại học Công nghệ - Đại học Quốc gia Hà Nội truyền đạt cho kiến thức kinh nghiệm vơ q báu q trình học tập nghiên cứu Tơi muốn cảm ơn bạn lớp đồng nghiệp cho tơi lời động viên, góp ý hỗ trợ chuyên môn vô quý báu Cuối cùng, tơi xin cảm ơn gia đình, bạn bè, người bên cạnh động viên ủng hộ z MỤC LỤC DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH VẼ CÁC KÍ HIỆU VÀ CỤM TỪ VIẾT TẮT TÓM TẮT CHƯƠNG 1: GIỚI THIỆU 1.1 Các khái niệm khai phá quan điểm 1.3 Bài toán trích chọn thuộc tính 12 1.4 Mục tiêu luận văn 13 CHƯƠNG 2: TRÍCH CHỌN THUỘC TÍNH 15 2.1 Mơ hình chung cho tốn phân tích quan điểm 15 2.2 Dữ liệu 15 2.3 Phương pháp trích chọn thuộc tính 16 2.3.1 Phương pháp lan truyền kép 16 2.3.2 Phương pháp trích chọn dựa vào quan hệ phận - toàn bộ, mẫu “No”…20 2.4 Trích chọn đặc trưng văn đánh giá Tiếng Việt 21 CHƯƠNG 3: THUẬT TỐN HITS SẮP XẾP THUỘC TÍNH 25 3.1 Đồ thị hai phía thuật toán HITS 25 3.2 Phân loại thuộc tính 27 3.3 Sắp xếp thuộc tính 28 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 30 4.1 Môi trường thực nghiệm 30 4.2 Xây dựng tập liệu 30 4.3 Các bước thực 31 4.4 Kết thực nghiệm 31 KẾT LUẬN 34 PHỤ LỤC 35 DANH MỤC TÀI LIỆU THAM KHẢO 40 z DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH VẼ Hình Mơ hình chung cho tốn phân tích quan điểm ……………………… 17 Hình 2.Quan hệ trực tiếp quan hệ gián tiếp …………………………………….19 Hình Các luật để trích từ quan điểm thuộc tính …………………………… 20 Hình Thuật tốn lan truyền kép …………………………………………………22 Hình Mối quan hệ số thuộc tính thuộc tính …………………………39 Hình Thuật tốn HITS ……………………… ………………………………….31 Hình Các bước thực nghiệm ……………………… ……………………………33 Bảng Danh sách xếp hạng 10 thuộc tính ……………………… ……………… 34 Bảng Bộ 10 thuộc tính ……………………… ……………………… ……… 35 Bảng Bộ 20 thuộc tính ……………………… ……………………… ……… 35 Bảng Bộ 30 thuộc tính……………………… ……………………… ……… 35 z CÁC KÍ HIỆU VÀ CỤM TỪ VIẾT TẮT STT Từ viết tắt HMM Mô hình Markov ẩn ( hidden Markov model) NER Nhận dạng tên thực thể (Named Entity Recognition) POS Gán nhãn từ (Part – of – speech) CRF Mô hình trường ngẫu nhiên có điều kiện (Conditional random field) DR Quan hệ trực tiếp (Direct Relation) IR Quan hệ gián tiếp (Indirect Relation) DP Lan truyền kép (Double Propagation) HITS Ý nghĩa Tìm kiếm dựa vào siêu liên kết (hyperlink-induced topic search) z TÓM TẮT Với phát triển nhanh chóng phong phú Web, nhiều hình thức kết nối, chia sẻ, trao đổi thơng tin xuất diễn đàn, nhóm thảo luận trang mạng xã hội blog, facebook … Web thay đổi đáng kể cách thức người dùng bày tỏ quan điểm internet Chúng ta dễ dàng bắt gặp ý kiến, cảm nghĩ, nhận xét, đánh giá người dùng sản phẩm mà họ sử dụng Tất gọi chung nội dung người dùng tạo Xu hướng tạo lượng khổng lồ nguồn thơng tin hữu ích đo lường có nhiều ứng dụng thực tế Ví dụ người muốn mua sản phẩm, họ không bị giới hạn góp ý bạn bè gia đình có nhiều đánh giá sản phẩm trang web Còn công ty, họ không thiết phải tốn nhiều chi phí để mở thăm dị khảo sát thuê tư vấn bên để thu thập ý kiến khách hàng liệu người dùng tạo cung cấp cho họ đầy đủ thông tin Trong nhiều năm trở lại đây, lĩnh vực khai phá thông tin tri thức phát triển toán nghiên cứu khai phá phân tích quan điểm Bài tốn có ý nghĩa quan trọng thương mại điện tử, kinh tế, trị, xã hội hóa Bài tốn khai phá quan điểm nhà khoa học nghiên cứu với chủ đề khác Mối quan tâm nhiều tập trung vào chủ đề tìm lọc viết giả (spam) nhằm làm hỏng danh tiếng sản phẩm, dịch vụ…hoặc với mục đích quảng cáo để bán sản phẩm, dịch vụ Sau đó, viết phân loại câu chủ quan, câu khách quan nhằm tìm ý kiến người dùng sản phẩm tích cực hay tiêu cực, thích hay khơng thích Ngồi ra, khai phá quan điểm cịn giải tốn xác định tên, xác định thuộc tính, xác định câu đánh giá quan trọng… Sản phẩm phong phú, đa dạng Ứng với sản phẩm lại có tính thuộc tính khác chúng thay đổi theo hướng ngày đại đa dạng Việc xác định thuộc tính theo phương pháp truyền thống ngày trở nên khó khăn Vì việc nghiên cứu phát triển hệ thống tự động phát thuộc tính sản phẩm mơi trường internet cần thiết Trích chọn đặc trưng sản phẩm toán quan trọng khai phá phân tích quan điểm Một câu nhận xét có nhiều đặc trưng, giới hạn luận văn tập trung vào việc trích chọn thuộc tính sản phẩm xếp hạng theo mức độ quan trọng thuộc tính z Chúng ta xét ví dụ sau : “I bought a Sony camera yesterday, and its picture quality is great” Hệ thống phân tích quan điểm tự động xác định quan điểm thuộc tính chất lượng hình ảnh Ở đây, Sony camera thực thể cịn picture quality thuộc tính thực thể Sony camera Trong luận văn này, sâu vào nghiên cứu tốn trích chọn xếp thuộc tính sản phẩm Điều có ý nghĩa quan trọng với liệu không xác định trước miền Bằng việc nghiên cứu, phân tích phương pháp áp dụng trước đó, tơi lựa chọn trích chọn thuộc tính phương pháp lan truyền kép, quan hệ toàn - phận, mẫu “No” sử dụng thuật toán HITS để xếp hạng thuộc tính sau trích chọn z CHƯƠNG 1: GIỚI THIỆU 1.1 Các khái niệm khai phá quan điểm Quan điểm sản phẩm, dịch vụ, cá nhân, tổ chức, kiện, chủ đề thể người tổ chức Thuật ngữ thực thể để đối tượng mục tiêu cần đánh giá Một thực thể bao gồm tập thành phần tập thuộc tính Mỗi thành phần lại có thành phần thuộc tính Do đó, BingLiu [5] định nghĩa thực thể sau: Thực thể (entity): Một thực thể sản phẩm, dịch vụ, người, kiện, tổ chức chủ đề Nó mô tả cặp e: (T, W), với T hệ phân cấp thành phần, thành phần v.v… W tập thuộc tính e Một thương hiệu tiếng điện thoại di động coi thực thể ví dụ Iphone Nó bao gồm thành phần: hình, pin, vỏ … tập thuộc tính chất lượng âm thanh, kích thước, trọng lượng…Thành phần pin có thuộc tính riêng nó: tuổi thọ pin, kích thước pin… Dựa khái niệm thực thể thể dạng phân cấp Trong đó, gốc thực thể, nút gốc thành phần thành phần Mỗi liên kết phần mối quan hệ Mỗi nút liên kết với tập hợp thuộc tính Một ý kiến thể nút thuộc tính nút Ví dụ việc đưa ý kiến điện thoại di động như: “Tơi khơng thích Iphone” thuộc tính “Chất lượng âm Iphone thật tệ hại” Chất lượng âm thuộc tính loa, loa thuộc tính điện thoại, thể thực thể Iphone “Khơng thích” “tệ hại” quan điểm người dùng Tương tự vậy, người ta đưa ý kiến thành phần thực thể thuộc tính thành phần Trong thực tế, việc sử dụng hữu dụng nhằm đơn giản hóa định nghĩa hai lý Thứ nhất, việc học xử lý ngôn ngữ tự nhiên văn cách chi tiết mơ tả khó Thứ hai, người sử dụng thường thấy phức tạp để sử dụng phân cấp Do đó, để đơn giản hóa san cịn hai cấp việc sử dụng thuộc tính (aspect) để biểu thị hai (thành phần thuộc tính) Cây lúc có nút gốc thực thể nó, nút mức hai thuộc tính khác thực thể Thuộc tính (aspect): Các thuộc tính thực thể e thành phần thuộc tính e Một thể thuộc tính từ cụm từ xuất z ... CÔNG NGHỆ NGUYỄN THỊ BÍCH NHẬT TRÍCH CHỌN VÀ XẾP HẠNG ĐẶC TRƯNG SẢN PHẨM TRONG PHÂN TÍCH QUAN ĐIỂM Chuyên ngành: Khoa học máy tính Mã số:604 8010 1 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng... tính sản phẩm mơi trường internet cần thiết Trích chọn đặc trưng sản phẩm tốn quan trọng khai phá phân tích quan điểm Một câu nhận xét có nhiều đặc trưng, giới hạn luận văn tập trung vào việc trích. .. từ quan điểm, trích chọn thuộc tính dựa vào từ quan điểm, trích chọn từ quan điểm sử dụng thuộc tính, trích chọn thuộc tính sử dụng thuộc tính Trong có ba mối quan hệ sử dụng thực để trích chọn:

Ngày đăng: 06/03/2023, 15:58

Tài liệu cùng người dùng

Tài liệu liên quan