Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 39 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
39
Dung lượng
1,67 MB
Nội dung
MỤC LỤC GIỚI THIỆU .2 CHƢƠNG 1: BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM 1.1 Nhu cầu thông tin quan điểm nhận xét .4 1.2 Lịch sử phân tích quan điểm khai thác quan điểm 1.3 Nhiệm vụ phân tích quan điểm CHƢƠNG 2: PHƢƠNG PHÁP TRÍCH VÀ SẮP XẾP ĐẶC TRƢNG SẢN PHẨM .9 2.1 Giới thiệu khai thác đặc trưng 2.2 Một số phương pháp khai thác đặc trưng 10 2.3 Phương pháp trích xếp đặc trưng quan điểm sản phẩm 12 2.3.1 Double propagation 16 2.3.2 Mối quan hệ phận - toàn (Part-whole relation) .20 2.3.2.1 Mẫu cụm từ (Phrases pattern) 21 2.3.2.2 Mẫu câu (Sentence pattern) .21 2.3.3 Mẫu “No” 22 2.3.4 Đồ thị hai nhánh thuật toán HITS .23 2.3.5 Sắp xếp đặc trưng .25 2.4 Kết thảo luận 26 2.4.1 Tập liệu 26 2.4.2 Đánh giá số liệu 26 2.4.3 Kết thử nghiệm 27 CHƢƠNG 3: THỰC NGHIỆM 30 3.1 Công cụ gán nhãn từ loại Stanford Parser .30 3.1.1 Giới thiệu 30 3.1.2 Cách sử dụng 31 3.2 Chương trình thực nghiệm .31 3.2.1 Bài toán 31 3.2.1.1 Bộ liệu 32 3.2.1.2 Phương pháp 32 3.2.2 Kết 33 KẾT LUẬN .37 TÀI LIỆU THAM KHẢO .39 Đồ án tốt nghiệp Ngành: Công nghệ thông tin GIỚI THIỆU Ngày nay, với phát triển mạnh mẽ Internet, hình thức kết nối chia sẻ thông tin cộng đồng mạng ngày phát triển thu hút lượng lớn người dùng tham gia Qua đó, họ dễ dàng trao đổi, chia sẻ thông tin, thảo luận vấn đề sở thích quan tâm Một số mạng xã hội phổ biến giới như: Facebook, Twitter, Việt Nam như: Zing, Go.vn có số lượng người tham gia ngày đông đảo Các nhận xét diễn đàn, trang dịch vụ trang tin tức hình thức thể khác phát triển ớng, quan điểm cộng đồng việc đánh giá vấn đề Các quan điểm, xu hướng có tác động mạnh mẽ đến định hướng, quan điểm người dùng khác Ví dụ người mua máy tính tìm hiểu thông tin sản phẩm mạng, thông thường ý đến loại sản phẩm mà đa số người sử dụng đánh giá tốt, loại sản phẩm đề cập nhiều; người du lịch chọn khách sạn có tiêu chí quan tâm cộng đồng đánh giá tích cực thống kê quan điểm, xu hướng ngườ ẽ giúp nhà sản xuất, nhà cung cấp dịch vụ hoạch định sách cần thiết để phát triển sản phẩm đáp ứng phù hợp nhu cầu thị trường Đặng Thị Ngọc Thanh CT1201 -2- Đồ án tốt nghiệp Ngành: Công nghệ thông tin ản phẩm, dịch vụ có ý nghĩa ề sản phẩm, quan trọ dịch vụ mà người dùng hay nhà sản xuất quan tâm Cũng lý đó, đồ án này, em nghiên cứu phương pháp trích xếp đặc trưng sản phẩm, từ xác định quan điểm hay nhận xét tới đặc trưng sản phẩm đó, phục vụ cho bước xử lý quan điểm Nội dung đồ án bao gồm chương Chương 1: Giới thiệu toán phân tích quan điểm Chương 2: Một số phương pháp trích xếp đặc trưng Chương 3: Giới thiệu chương trình thực nghiệm kết Cuối phần kết luận Đặng Thị Ngọc Thanh CT1201 -3- Đồ án tốt nghiệp Ngành: Công nghệ thông tin CHƢƠNG 1: BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM 1.1 Nhu cầu thông tin quan điểm nhận xét "Những người khác nghĩ" luôn phần quan trọ giới thiệu thợ khí tự động yêu cầu tài liệu tham khảo liên quan đến xin việc từ đồng nghiệp, tư vấ ngườ ộng lớn Và ngược lạ Theo hai khảo sát 2000 người Mỹ trưởng thành mỗi: 81% người dùng Internet (hoặc 60% người Mỹ) thực hiệ ực tuyến sản phẩm lần; 20% (15% tất người Mỹ) làm ngày Trong số độc giả đánh giá trực tuyến nhà hàng, khách sạ ịch vụ khác (ví dụ như, quan du lịch bác sĩ), 73% 87% báo cáo đánh giá có ảnh hưởng đáng kể mua hàng họ; Người tiêu dùng sẵn sàng trả từ 20% đến 99% mụ cao so với mục đánh giá 32% cung cấp đánh giá sản phẩm, dịch vụ thông qua hệ thống xếp hạng trực tuyến, có 18% công dân trực tuyến cao cấp, có đăng bình luận trực tuyến xem xét sản phẩm hay dịch vụ ịch vụ động nhấ ặc thể hiệ ực tuyế Ví dụ, khảo sát 2500 người Mỹ trưởng thành, Rainie Horrigan Đặng Thị Ngọc Thanh CT1201 -4- Đồ án tốt nghiệp Ngành: Công nghệ thông tin 31% người Mỹ - 60 triệu người - 2006 ngườ nghiên , người thu thập thông tin bầu cử năm 2006 trực tuyến trao đổ Trong số này: • 28% nói rằ hoạt động trực tuyế ể ợc quan điểm từ bên cộng đồng họ, 34% cho biết lý để ợc quan điểm từ bên cộng đồng họ • 27% xem đánh giá trực tuyến cho tán thành xếp hạng tổ chức bên • 28% cho biết hầu hết trang web mà họ sử dụng để chia sẻ quan điểm, 29% nói phần lớn trang web mà họ sử dụng thách thức quan điểm họ, nhiều người không đơn giản tìm kiế xác nhậ ực tuyến bình luận trị riêng họ ằng đa số người sử dụng internet Mỹ ệm tích cự ực tuyến, 58% cho thông tin trực tuyế t , khó hiể Vì vậ ự quan tâm mà ngườ ng ý kiến trực tuyến sản phẩm dịch vụ ảnh hưở , diễn đàn thảo luận, Với bùng nổ tả peer-to-peer mạng, loại khác củ Đặng Thị Ngọc Thanh CT1201 -5- Đồ án tốt nghiệp Ngành: Công nghệ thông tin • Thống kê Facebook: có 500 triệu người dùng trạng thái hoạt động (active) người có trung bình 130 bạn (friends), trao đổi qua lại 900 triệu đối tượng • Twitter (5/2011): có 200 triệu người dùng Một ngày có 300 nghìn tài khoản mới, trung bình 190 triệu tin nhắn, xử lý trung bình khoảng 1,6 tỷ câu hỏi • Ở Việt Nam: mạng xã hội zing.vn, go.vn … thu hút đông đảo người dùng tham gia ền chia sẻ kinh nghiệm ý kiến riêng họ cực hay tiêu cực Khi công ty lớn ngày nhận ra, tiếng nói người tiêu dùng vận dụng lớn ảnh hưởng việc hình thành ý kiến ngườ ệu ết định mua, vận động cho thương hiệu họ Công ty họ đáp ứng với nhữ ời tiêu dùng mà họ tạ ện truyền thông xã hội phân Tuy nhiên, nhà phân tích ngành công nghiệp lưu ý việc tận dụng phương tiện truyền thông cho mụ ình ảnh sản phẩm đòi ệ hỏ Các nhà tiếp thị luôn cần giám sát phương tiện truyền thông cho thông tin liên quan đến thương hiệu cho dù hoạt động quan hệ công chúng, vi phạm gian lận, tình báo cạnh tranh Nhưng phân mảnh phương tiện truyề ổi hành vi ngườ ền thống Technorati ước tính 75.000 blog tạo ngày, với 1,2 triệu viết n ều ý kiến người tiêu dùng thảo luận sản phẩm dịch vụ Đặng Thị Ngọc Thanh CT1201 -6- Đồ án tốt nghiệp Ngành: Công nghệ thông tin Vì vậ ệ thống có khả tự độ người tiêu dùng 1.2 Lịch sử phân tích quan điểm khai thác quan điểm (opinion mining) gần thu hút quan tâm rộ ấ ộng nhận thức vấn đề nghiên cứu hộ : • Sự gia tăng phương pháp học máy, xử lý ngôn ngữ tự nhiên khôi phục thông tin • Sự sẵn có củ ữ liệ Internet, cụ thể ật toán họ ự phát triể • Thực thách thức trí tuệ, thương mại ứng dụ lý tập hợp kết tìm kiếm cho mộ định, sinh danh sách thuộc tính sản phẩm (chất lượ vv) c tổng hợ , ) ụm từ song song củ "ở khía cạnh đị " biểu thị lĩnh vực nghiên cứu 1.3 Nhiệm vụ phân tích quan điểm Phân tích quan điể Có hai hướng : (Sentiment Extraction) Đặng Thị Ngọc Thanh CT1201 -7- Đồ án tốt nghiệp Ngành: Công nghệ thông tin ỹ thuật để : văn bả (tích cực, tiêu cực hay trung lập) : bao gồm nhiệm vụ là: ) Đặng Thị Ngọc Thanh CT1201 -8- Đồ án tốt nghiệp Ngành: Công nghệ thông tin CHƢƠNG 2: PHƢƠNG PHÁP TRÍCH VÀ SẮP XẾP ĐẶC TRƢNG SẢN PHẨM 2.1 Giới thiệu khai thác đặc trƣng Một nhiệm vụ để khai thác quan điểm người biểu thị đặc trưng thực thể Làm để khai thác đặc trưng từ kho ngữ liệu vấn đề quan trọng Đã có số nghiên cứu khai thác đặc trưng ( Hu Liu, 2004; Popescu Etzioni, 2005; Kobayashi v.v , 2007; Scaffidi v.v , 2007; Stoyanov Cardie, 2008; Wong v.v , 2008; Qiu v.v , 2009) Phương pháp Double propagation (truyền kép) (Qiu v.v , 2009) kỹ thuật không giám sát tiên tiến cho việc giải vấn đề Nó chủ yếu trích đặc trưng danh từ, hoạt động tốt ngữ liệu có kích thước trung bình Tuy nhiên, phương pháp nhiều liệu thừa (độ xác thấp), bỏ lỡ đặc trưng quan trọng Để đối phó với hai vấn đề này, Zhang cộng đề xuất phương pháp khai thác đặc trưng Họ cải tiến cho phương pháp Qiu cộng sự., 2009 dựa mẫu phận – toàn mẫu “No” giới thiệu để tăng độ hồi tưởng Bộ phận toàn hay meronymy quan hệ ngữ nghĩa quan trọng NLP, mà nhiều đối tượng phần đối tượng khác Quan hệ hữu ích cho khai thác đặc trưng, biết đối tượng phần lớp sản phẩm, đối tượng cần phải đặc trưng Mẫu “No” mẫu khai thác Dạng từ “No” theo sau danh từ/cụm danh từ Mọi người thường biểu thị bình luận ngắn hay quan điểm họ đặc trưng sử dụng mẫu Cả hai kiểu mẫu giúp tìm thấy đặc trưng bị lan truyền Đối với vấn đề độ xác thấp, họ giới thiệu đặc trưng cấp phương pháp tiếp cận để giải Họ xếp đặc trưng ứng cử viên dựa vào quan trọng họ bao gồm hai yếu tố: mức độ liên quan tần suất Đặng Thị Ngọc Thanh CT1201 -9- Đồ án tốt nghiệp Ngành: Công nghệ thông tin đặc trưng Ý tưởng xếp tầm quan trọng đặc trưng ứng cử viên đặc trưng xác thường xuyên đề cập kho ngữ liệu, cần phải xếp cao, không phải kết xếp thấp kết cuối Tần suất đặc trưng tần suất xuất đặc trưng kho ngữ liệu, mà dễ dàng để tồn Tuy nhiên, đánh giá thích hợp đặc trưng thách thức Họ mẫu hóa vấn đề đồ thị hai nhánh sử dụng trang Web tiếng sử dụng giải thuật HITS (Kleinberg, 1999) tới tìm kiếm tầm quan trọng đặc trưng xếp đặc trưng Thử nghiệm họ kết cho thấy trình diễn vượt trội Trong thực tế ứng dụng, họ tin xếp quan trọng khai thác đặc trưng xếp giúp người sử dụng khám phá đặc trưng quan trọng từ hàng trăm kết ứng cử viên có đặc trưng hiệu 2.2 Một số phƣơng pháp khai thác đặc trƣng Hu Liu (2004) áp dụng việc gán nhãn từ loại kĩ thuật xử lý ngôn ngữ tự nhiên nhằm rút tính từ từ quan điểm Ý tưởng người thường sử dụng từ ngữ giống họ bình luận đặc trưng sản phẩ : - Định nghĩa câu mà chứa hay nhiều dấu hiệu sản phẩm từ quan điểm xem câu quan điểm - ỗi câu liệu quan điểm, rút tất tính từ coi từ quan điểm - Kết thực nghiệm việc rút câu đánh giá quan điểm có độ xác (precision) khoảng 64.2% recall 69.3% - Sử dụng WordNet (Fellbaum, 1998) để xác định tính từ rút mang chiều hướng tích cực (positive) hay tiêu cực (negative) Đặng Thị Ngọc Thanh CT1201 - 10 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin nhánh Ý tưởng ứng cử viên đặc trưng có điểm quyền hạn cao, phải đặc trưng có liên quan cao Nếu dẫn đặc trưng có điểm trung tâm cao, phải dẫn đặc trưng tốt Hình 2: Mối quan hệ số đặc trưng đặc trưng 2.3.5 Sắp xếp đặc trƣng Mặc dù thuật toán HITS xếp đặc trưng dựa vào thích hợp đặc trưng, xếp cuối không xác định dựa vào thích hợp Tần suất đặc trưng nhân tố quan trọng khác ảnh hưởng đến thứ hạng cuối Mong muốn cao để xếp chúng xác đặc trưng thường xuyên nằm trên, chúng quan trọng so với đặc trưng xảy khai thác quan điểm (hoặc chí ứng dụng khác) Với ý kiến này, tác giả đặt tất chúng với để trình bày thuật toán mà họ sử dụng Họ sử dụng hai bước: Bƣớc 1: Tính toán điểm đặc trưng sử dụng HITS mà không cần xem xét tần suất Khởi tạo, họ sử dụng ba dẫn đặc trưng để xác định ứng cử viên đặc trưng, từ tạo thành đồ thị hai nhánh Mỗi ứng cử viên đặc trưng đóng vai trò nút quyền hạn đồ thị, dẫn đặc trưng đóng vai trò nút trung tâm Đối với nút s đồ thị, họ cho HS điểm trung tâm AS điểm quyền hạn Sau đó, họ khởi tạo HS AS từ đến tất nút đồ thị Họ cập nhật điểm HS AScho đến chúng hội tụ Đặng Thị Ngọc Thanh CT1201 - 25 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin cách sử dụng vòng lặp Cuối cùng, họ chuẩn hóa AS tính toán điểm S cho đặc trưng Bƣớc 2: Hàm điểm cuối xem xét tần suất đặc trưng đưa phương trình (6) Trong freq(f) đếm tần suất đặc trưng f, S(f) số điểm quyền hạn ứng cử viên đặc trưng f Ý tưởng đẩy vào đặc trưng ứng cử viên thường xuyên cách nhân với logarit tần suất Giá trị logarit sử dụng để giảm ảnh hưởng số đếm tần suất lớn 2.4 Kết thảo luận 2.4.1 Tập liệu Họ sử dụng bốn tập liệu khác để đánh giá kỹ thuật đề xuất Chúng thu từ công ty thương mại cung cấp dịch vụ khai thác quan điểm Bảng cho thấy lĩnh vực số câu liệu Dữ liệu "Cars" "Mattress" nhận xét sản phẩm trích từ số trang web nhận xét trực tuyến "Phone" "LCD" thảo luận diễn đàn rút từ số trang web diễn đàn trực tuyến Họ chia nhỏ nhận xét/bài viết thành câu câu được gán nhãn từ loại cách sử dụng Brill's tagger (Brill, 1995) Các câu dán nhãn đầu vào cho hệ thống tác giả Các tập liệu Cars Mattress Phone LCD Số câu 2223 13233 15168 1783 Bảng Thử nghiệm tập liệu 2.4.2 Đánh giá số liệu Bên cạnh độ xác hồi tưởng, họ áp dụng độ xác số liệu (precision@N metric) cho đánh giá thử nghiệm (Liu, 2006) Nó cung cấp tỷ lệ Đặng Thị Ngọc Thanh CT1201 - 26 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin đặc trưng xác nằm số N ứng cử viên đặc trưng hàng đầu danh sách xếp Họ so sánh phương pháp họ với kết phương pháp double propagation mà ứng cử viên trích tần xuất xuất 2.4.3 Kết thử nghiệm Đầu tiên họ so sánh kết họ với double propagation hồi tưởng độ xác cho kích thước kho ngữ liệu khác Kết trình bày Bảng 3, 4, cho bốn tập hợp liệu Họ đưa độ xác hồi tưởng 1000, 2000, 3000 câu từ tập liệu Họ không thử nhiều tự kiểm tra tay hồi tưởng xác trở nên khó khăn Có 3000 câu cho tập liệu "Cars" "LCD" Vì vậy, cột cho "Cars" "LCD" rỗng Bảng Trong bảng, "DP" đại diện cho phương pháp double propagation; "Ours" đại diện cho phương pháp đề xuất họ; "Pr" đại diện cho xác, "Re" đại diện hồi tưởng Cars Mattress Phone LCD Pr Re Pr Re Pr Re Pr Re DP 0.79 0.55 0.79 0.54 0.69 0.23 0.68 0.43 Ours 0.78 0.56 0.77 0.64 0.68 0.44 0.66 0.55 Bảng Kết 1000 câu Cars Mattress Phone LCD Pr Re Pr Re Pr Re Pr Re DP 0.70 0.65 0.70 0.58 0.67 0.42 0.64 0.52 Ours 0.66 0.69 0.70 0.66 0.70 0.50 0.62 0.56 Bảng Kết 2000 câu Đặng Thị Ngọc Thanh CT1201 - 27 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin Cars Mattress Phone Pr Re Pr Re DP 0.65 0.59 0.64 0.48 Ours 0.66 0.67 0.62 0.51 LCD Bảng Kết 3000 câu Từ bảng, thấy tất miền, phương pháp họ thực tốt double propagation hồi tưởng với mát nhỏ xác Trong tập liệu cho "Phone" "Mattress", độ xác chí tốt Họ thấy với gia tăng kích thước liệu, khoảng cách độ hồi tưởng hai phương pháp trở nên nhỏ dần độ xác hai phương pháp giảm Tuy nhiên, trường hợp này, xếp đặc trưng đóng vai trò quan trọng phát đặc trưng quan trọng So sánh xếp hai phương pháp thể Bảng 6, 7, 8, cung cấp độ xác kết 50, 100 200 tương ứng Lưu ý thực nghiệm báo cáo bảng chạy toàn tập liệu Không có nhiều kết cho liệu "LCD" vượt tốp 200 có số giới hạn đặc trưng thảo luận liệu Vì vậy, cột "LCD" Bảng rỗng Họ xếp ứng cử viên đặc trưng trích dựa tần suất cho phương pháp double propagation (DP) Sử dụng tần suất xuất cách tự nhiên để xếp đặc trưng Một đặc trưng thường xuyên xuất kho ngữ liệu, quan trọng Tuy nhiên, xếp dựa tần suất giả thuyết ứng cử viên trích đặc trưng xác Các bảng cho thấy phương pháp đề xuất họ (Ours) nhanh so với double propagation đáng kể Lý số ứng cử viên đặc trưng có tần suất xuất thường xuyên cao trích double propagation đặc trưng Phương pháp họ xem xét liên quan đặc trưng nhân tố quan trọng Vì vậy, cho xếp Đặng Thị Ngọc Thanh CT1201 - 28 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin tốt Cars Mattress Phone LCD DP 0.84 0.81 0.64 0.68 Ours 0.94 0.90 0.76 0.76 Bảng Độ xác top 50 Cars Mattress Phone LCD DP 0.82 0.80 0.65 0.68 Ours 0.88 0.85 0.75 0.73 Bảng Độ xác top 100 Cars Mattress Phone DP 0.75 0.71 0.70 Ours 0.80 0.79 0.76 LCD Bảng Độ xác top 200 Đặng Thị Ngọc Thanh CT1201 - 29 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin CHƢƠNG 3: THỰC NGHIỆM 3.1 Công cụ gán nhãn từ loại Stanford Parser 3.1.1 Giới thiệu Phân tích cú pháp ngôn ngữ tự nhiên chương trình hoạt động dựa vào cấu trúc ngữ pháp câu, ví dụ, với nhóm từ (như “phrases”) với từ chủ đề đối tượng động từ Xác xuất phân tích cú pháp sử dụng kiến thức ngôn ngữ có từ phân tích câu thủ công để tìm cách sản suất phân tích có khả câu Thống kê phân tích cú pháp số sai lầm, thường làm việc tốt Phát triển họ bước đột phá lớn việc xử lý ngôn ngữ tự nhiên năm 1990 Stanford biểu diễn kiểu phụ thuộc thiết kế để cung cấp mô tả đơn giản mối quan hệ ngữ pháp câu dễ dàng hiểu hiệu sử dụng người chuyên môn ngôn ngữ học, người muốn trích xuất văn quan hệ Gói sản phẩm cài đặt Java xác suất phân tích cú pháp ngôn ngữ tự nhiên, PCFG tối ưu hoá cao phân tích cú pháp từ vựng phụ thuộc, phân tích cú pháp từ vựng PCFG Các phiên gốc phân tích cú pháp chủ yếu viết Dan Klein, với mã hỗ trợ phát triển ngữ pháp ngôn ngữ Christopher Manning Mở rộng thêm công việc (quốc tế mẫu ngôn ngữ cụ thể, đầu vào / đầu linh hoạt, ngữ pháp nén chặt, mạng tinh thể phân tích cú pháp, k-phân tích cú pháp tốt nhất, đánh máy phụ thuộc đầu ra, hỗ trợ người dùng, vv) thực Roger Levy, Christopher Manning, TeG Grenager, Galen Andrew, Marie-Catherine de Marneffe, Bill MacCartney, Anna Rafferty, Spence Green, Huihsin Tseng, Pi-Chuan Chang, Wolfgang Maier, Jenny Finkel Phiên phân tích cú pháp yêu cầu Java (JDK1.6) phiên sau (Bạn tải phiên cũ phân tích cú Đặng Thị Ngọc Thanh CT1201 - 30 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin pháp, phiên 1.4, chạy theo JDK 1.4 phiên 2.0 mà chạy theo JDK 1.5, nhiên phiên cũ hỗ trợ) Phân tích cú pháp đòi hỏi dung lượng hợp lý nhớ (tại 100MB để chạy phân tích cú pháp PCFG câu lên đến 40 từ chiều dài, thường khoảng 500MB nhớ để phân tích cú pháp tương tự điển hình-của-Newswire câu cách sử dụng mẫu yếu tố) 3.1.2 Cách sử dụng ết kế sử dụng từ dòng lệnh lậ Có thể sử dụng phương pháp sau: Trên hệ thống Windows, bạn chạy giao diện phân tích cú pháp cách nhấp đúp vào biểu tượng lexparser-gui.bat, đưa lệnh lexparser-gui thư mục từ dấu nhắc lệnh Nhấp Load File, Browse, điều hướng đến chọn testsent.txt Nhấp Load Parser, Browse chọn thư mục tương tự mẫu jar Từ mẫu jar chọn englishPCFG.ser.gz Nhấp Parser để bắt đầu phân tích câu Trên hệ thống Ubuntu, đưa lệnh lexparser thư mục từ dấu nhắc lệnh: sh lexparser.sh file_dữ_liệu_nguồn > file_đích 3.2 Chƣơng trình thực nghiệm 3.2.1 Bài toán Input: Cho tập hợp câu văn đánh giá có quan điểm sản phẩm đối tượng Output: Tập từ quan điểm đặc trưng trích chọn xếp Đặng Thị Ngọc Thanh CT1201 - 31 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin 3.2.1.1 Bộ liệu 500 nhận xét để trích đặc trưng quan điểm đặc trưng sản phẩm 3.2.1.2 Phương pháp Khai thác đặc trưng cho thực thể nhiệm vụ quan trọng nhiệm vụ khai thác quan điểm Thuật toán gồm bước: Gán nhãn từ loại công cụ stanford parser Xác định câu có chứa hay nhiều dấu hiệu sản phẩm hay từ quan điểm xem câu quan điểm Trích chọn đặc trưng Với câu liệu quan điểm, rút tất danh từ / cụm danh từ coi từ đặc trưng tính từ coi từ quan điểm.Các quan điểm đặc trưng trích sử dụng để xác định quan điểm đặc trưng Quá trình lặp lặp lại tìm thấy từ quan điểm hay đặc trưng kết thúc Dựa vào mối quan hệ ngữ nghĩa quan điểm đặc trưng để xác định đặc trưng quan điểm liệu Áp dụng phân tích cú pháp phụ thuộc dựa vào ngữ pháp phụ thuộc Sử dụng luật Qiu cộng sự, 2009: - R1i để trích từ quan điểm (s) sử dụng từ quan điểm words (Si) - R2i để trích từ quan điểm (s) sử dụng đặc trưng (F) Đặng Thị Ngọc Thanh CT1201 - 32 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin - R3i để trích đặc trưng (f) sử dụng từ quan điểm (S) - R4i để trích đặc trưng (f) sử dụng đặc trưng trích (Fi) Sắp xếp đặc trưng sản phẩm áp dụng giải thuật HITS Các đặc trưng đóng vai điểm quyền hạn số đặc trưng đóng vai điểm trung tâm Khác từ thuật toán HITS chung, đặc trưng có điểm quyền hạn đặc trưng có điểm trung tâm trường hợp họ Hình thành đồ thị hai nhánh định hướng Chạy thuật toán HITS đồ thị hai nhánh Ý tưởng ứng cử viên đặc trưng có điểm quyền hạn cao, phải đặc trưng có liên quan Nếu đặc trưng có số điểm trung tâm cao, phải số đặc trưng tốt 3.2.2 Thực nghiệm Các luật, mẫu dựa mối quan hệ hai từ sử dụng để trích từ quan điểm hay đặc trưng: - conjunctions (word1_JJ, word2_JJ) Vd: Here 's the brief synopsis : the phone is tiny , cute , feels kind of " plastic-like " ( as if it might break ) , but seems pretty sturdy conj_but(tiny_JJ, sturdy_JJ) - {MR} (word1_JJ/NN, word2_JJ/NN) Trong đó: {MR} bao gồm mối quan hệ phụ thuộc mô tả mối quan hệ, thí dụ như: mod, subj, obj, Vd: I am a business user who heavily depend on mobile service amod(service_NN, mobile_JJ) Đặng Thị Ngọc Thanh CT1201 - 33 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin Vd: After years with that carrier 's expensive plans and horrible customer service , portability seemed heaven-sent amod(plans_NNS, expensive_JJ); amod(service_NN, horrible_JJ); nsubj(heaven-sent_NN, portability_NN) - conjunctions (word1_NN, word2_NN) Vd: My favorite features , although there are many , are the speaker phone , the radio and the infrared conj_and(phone_NN, radio_NN); conj_and(phone_NN, infrared_NN) - NP + Prep + CP : danh từ / cụm từ danh từ (NP) chứa đựng từ phận cụm khái niệm lớp (CP) có chứa từ toàn Chúng nối giới từ (Prep), thí dụ, “of”, “in”, “on”, “about”,… Vd: There is much which has been said in other reviews about the features of this phone , it is a great phone , mine worked without any problems right out of the box prep_in(said, reviews); prep_about(said, features); prep_of(features, phone); prep_without(worked, problems); … - CP + with + NP: CP cụm khái niệm lớp, NP cụm danh từ / danh từ Chúng nối với từ "with" Vd: The speaker phone is very functional and i use it in the car , very audible even with freeway noise prep_with(audible_JJ, noise_NN) - NP CP hay CP NP: danh từ / cụm danh từ (NP) cụm khái niệm lớp (CP) tạo thành từ ghép Ví dụ, "mattress pad" "Pad" đặc trưng "mattress" - CP Verb NP: CP cụm khái niệm lớp có chứa từ toàn bộ, NP cụm danh từ có chứa từ phận động từ có giới hạn xác Đặng Thị Ngọc Thanh CT1201 - 34 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin định Sử dụng động từ thể để tìm quan hệ phận - toàn câu, thí dụ, "has", "have" "include" "contain" "consist", “comprise”,… 3.2.3 Kết Chương trình thử nghiệm trích đặc trưng sản phẩm nhận xét cho đặc trưng dựa theo luật mẫu phận – toàn Giao diện chương trình Mở file liệu: Đặng Thị Ngọc Thanh CT1201 - 35 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin Trích đặc trưng: Đặng Thị Ngọc Thanh CT1201 - 36 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin KẾT LUẬN ề ểm vấn đề đặt với toán Tìm hiểu kỹ phương pháp trích xếp đặc trưng sản phẩm tài liệu chứa quan điểm tìm hiểu đặc trưng ngôn ngữ dùng cho toán trích đặc trưng như: phân tích cú pháp, gán nhãn từ loại cho ngôn ngữ ắp xếp đặc trưng sản phẩm tài liệu chứa quan điểm 500 nhận xét để trích đặc trưng quan điểm đặc trưng sản phẩm ặ xếp đặ Đặng Thị Ngọc Thanh ắp xế CT1201 - 37 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin ! Đặng Thị Ngọc Thanh CT1201 - 38 - Đồ án tốt nghiệp Ngành: Công nghệ thông tin TÀI LIỆU THAM KHẢO Tiếng Việt: Ths Nguyễn Thị Xuân Hương Ths Lê Thuỵ, Phân tích quan điểm số tiếp cận, Hội nghị khoa học CNTT lần thứ nhất, 2012 Nguyễn Mạnh Đức, Tìm hiểu khai thác quan điểm phân loại quan điểm mức câu, Khoá luận tốt nghiệp hệ đại học ngành Công nghệ thông tin, Đại học Dân lập Hải Phòng, 2011 Tiếng Anh: Extracting and Ranking Product Features in Opinion Documents Lei Zhang, Bing Liu, Suk Hwan Lim and Eamonn O’Brien-Strai, 2010 Expanting Domain Sentiment Lexicon through Double Propagation Guang Qiu, Bing Liu, Jiajun Bu and Chun Chen, 2009 http://nlp.stanford.edu/software/lex-parser.shtml http://www.cs.uic.edu/~liub/FBS/FBS.html http://nlp.stanford.edu/software/stanford-dependencie s.shtml Đặng Thị Ngọc Thanh CT1201 - 39 -