Phân loại quan điểm của du khách với du lịch phong nha kẻ bàng tỉnh quảng bình

25 115 0
Phân loại quan điểm của du khách với du lịch phong nha   kẻ bàng tỉnh quảng bình

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN HƯỚNG PHÂN LOẠI QUAN ĐIỂM CỦA DU KHÁCH VỚI DU LỊCH PHONG NHA - KẺ BÀNG TỈNH QUẢNG BÌNH Chun ngành: Khoa học máy tính Mã số: 8480101 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2018 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS ĐẬU MẠNH HOÀN Phản biện 1: TS LÊ THỊ MỸ HẠNH Phản biện 2: TS TRẦN THẾ VŨ Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Trường Đại học Bách khoa Đà Nẵng vào ngày 05 tháng 01 năm 2019 Có thể tìm hiểu luận văn tại: - Trung tâm Học liệu Truyền thông Trường Đại học Bách khoa Đại học Đà Nẵng - Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa Đại học Đà Nẵng MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Du lịch ngành kinh tế quan trọng, ngành kinh tế tổng hợp có tính liên ngành, liên vùng xã hội hóa cao Du lịch khơng có khả tạo nguồn thu nhập lớn cho xã hội mà góp phần thực sách mở cửa, giao lưu văn hố, thúc đẩy đổi phát triển nhiều ngành kinh tế khác, đồng thời giúp giải nhiều vấn đề mang tính chất xã hội Việt Nam, với tiềm đa dạng phong phú, vừa mang sắc văn hóa dân tộc vừa mang tính đại Đảng - Nhà nước ta xác định: "Phát triển du lịch thật trở thành ngành kinh tế mũi nhọn" sở khai thác triệt để tiềm sẵn có để hội nhập Quảng Bình, vùng đất thiên nhiên ưu ban tặng nhiều tài nguyên quý, độc đáo phục vụ cho việc phát triển ngành du lịch với nhiều loại sản phẩm du lịch, hình thức du lịch phong phú đa dạng Quảng Bình xác định “Du lịch ngành kinh tế mũi nhọn tỉnh” Quảng Bình vùng đất giàu tiềm năng, lợi để phát triển du lịch, nhiên du lịch Quảng Bình nhỏ bé, mức độ phát triển chưa tương xứng với tiềm to lớn thiên nhiên ban tặng Vị Quảng Bình nói chung du lịch Quảng Bình nói riêng thấp so với tỉnh, thành phố nước Vì vậy, để du lịch Quảng Bình nói chung Du lịch Phong Nha - Kẻ Bàng nói riêng phát triển lên ngày nhanh mạnh mẽ hơn, thu hút lượng khách du lịch đến thăm quan nhiều hơn, nâng cao sức cạnh tranh, nâng cao vị du lịch Quảng Bình vấn đề quan trọng cấp thiết cần đưa Phong Nha - Kẻ Bàng điểm đến lý tưởng có nhiều tiềm thu hút khách du lịch, thời gian gần thực trở thành điểm du lịch hấp dẫn du khách nước Tuy nhiên, việc nghiên cứu đánh giá quan điểm du khách, yếu tố ảnh hưởng đến hài lòng du khách để có giải pháp phù hợp nhằm nâng cao khả thu hút du khách để từ mang lại hiệu kinh tế cao Chính lý nên tơi chọn đề tài “Phân loại quan điểm du khách với du lịch Phong NhaKẻ Bàng tỉnh Quảng Bình” để nghiên cứu, qua mong muốn đóng góp phần ý nghĩa cho hoạt động du lịch tỉnh nhà MỤC ĐÍCH VÀ Ý NGHĨA CỦA ĐỀ TÀI 2.1 Mục đích Trên sở lý thuyết xử lý ngơn ngữ tự nhiên, phân tích từ vựng đoạn văn tiếng Việt, xây dựng ứng dụng Demo phân tích quan điểm đánh giá từ cụm từ hay đoạn văn Dữ liệu đầu vào chương trình khai thác từ trang Web + Nghiên cứu phương pháp, kỹ thuật khai phá liệu, khai phá văn + Nghiên cứu kỹ thuật phân loại quan điểm tiếng Việt + Phân loại quan điểm du khách điểm du lịch Phong NhaKẻ Bàng tỉnh Quảng Bình 2.2 Ý nghĩa khoa học + Nghiên cứu năm bắt kỹ thuật khai phá liệu, khai phá văn Qua vận dụng để khai thác liệu từ trang Web thông qua liệu để đánh giá ý kiến người dùng điểm du lịch Phong NhaKẻ Bàng tỉnh Quảng Bình từ sử dụng thơng tin để phục vụ cho cơng việc, kinh tế, xã hội hay mục đích trị khác tỉnh Quảng Bình + Từ liệu lớn thu thập từ trang mạng rút thơng tin hữu ích + Giải tốn phân loại quan điểm từ trang Web + Rút nhận xét có ý nghĩa toán nghiên cứu 2.3 Ý nghĩa thực tiễn + Thu thập liệu người dùng điểm du lịch Phong Nha - Kẻ Bàng tỉnh Quảng Bình Bước đầu xây dựng cơng cụ Demo để đánh giá quan điểm từ liệu rút trích từ + Nắm bắt ý kiến người dùng điểm du lịch Phong Nha Kẻ Bàng tỉnh Quảng Bình từ trang Web Cho đề xuất, giải pháp mang tính thực tiễn hỗ trợ du lịch tỉnh Quảng Bình + Có thể mở rộng nghiên cứu để xây dựng hệ thống đánh giá ý kiến chủ đề khác từ trang mạng xã hội MỤC TIÊU VÀ NHIỆM VỤ ĐỀ TÀI 3.1 Mục tiêu Mục tiêu đề tài đánh giá quan điểm từ trang Web điểm du lịch Phong NhaKẻ Bàng Để thực mục tiêu cần đạt mục tiêu cụ thể sau: + Nghiên cứu vận dụng tốt kỹ thuật xử lý ngôn ngữ tự nhiên + Nghiên cứu kỹ thuật khai phá liệu, khai phá văn + Nghiên cứu kỹ thuật phân loại quan điểm tiếng Việt + Xây dựng Demo ứng dụng phân loại quan điểm điểm du lịch Phong NhaKẻ Bàng 3.2 Nhiệm vụ Để đạt mục tiêu nhiệm vụ đặt đề tài là: + Nghiên cứu lý thuyết, nghiên cứu tài liệu khai phá văn bản, phân loại quan điểm vấn đề liên quan Tổng hợp thông tin thông tin liệu nghiên cứu + Nghiên cứu thực tiễn: nghiên cứu kỹ thuật liên quan đến toán + Xử lý liệu từ trang Web + Xây dựng toán, xử lý xây dựng ứng dụng Demo ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU 4.1 Đối tượng nghiên cứu + Tìm hiểu nghiên cứu, khảo sát ngơn ngữ tự nhiên tiếng Việt Cơ sở lý thuyết xử lý liệu văn bản, xử lý ngôn ngữ tự nhiên, phân loại quan điểm người dùng + Các kỹ thuật dùng để xử lý văn bản, kỹ thuật phân loại + Các công cụ phần mềm mã nguồn mở hỗ trợ nghiên cứu, thiết kế quy trình thực + Du khách đến du lịch quan điểm họ lấy từ liệu trang Web điểm du lịch Phong NhaKẻ Bàng 4.2 Phạm vi nghiên cứu Trong nghiên cứu giới hạn nghiên cứu vấn đề sau: + Các phương pháp, kỹ thuật khai phá liệu, khai phá văn + Phân loại quan điểm người dùng theo hai hướng tích cực tiêu cực + Dữ liệu từ trang Web điểm du lịch Phong NhaKẻ Bàng + Xây dựng Demo phân loại quan điểm người dùng từ liệu khai thác từ trang Web du lịch Phong NhaKẻ Bàng PHƯƠNG PHÁP NGHIÊN CỨU Tiến hành thu thập nghiên cứu tài liệu có liên quan đến đề tài Tổng hợp thông tin liệu nghiên cứu Nghiên cứu kỹ thuật có liên quan đến tốn Nghiên cứu công cụ xử lý việc ứng dụng cơng cụ cho tốn 5.1 Phương pháp lý thuyết Phương pháp phân tích tổng hợp từ tài liệu: Từ nghiên cứu xử lý văn bản, xử lý ngôn ngữ tự nhiên tiếng Anh, tiếng Trung, tiếng Việt, kỹ thuật đánh giá tìm thấy từ báo, kết nghiên cứu, qua mạng internet, Phương pháp thống kê: Tìm hiểu trạng kỹ thuật sử dụng lựa chọn đặc trưng văn phục vụ trình phân loại 5 Nghiên cứu hiệu kỹ thuật qua kết tìm Đánh giá hiệu thơng qua số liệu kết nghiên cứu có Phương pháp phân tích thiết kế: Phân tích đối tượng cần nghiên cứu để giải vấn đề liên quan thiết kế liệu, thiết kế quy trình xử lý liệu Phương pháp mơ hình hóa: Mơ hình hóa liệu, mơ hình hóa quy trình xử lý để thực phân tích tâm lý người sử dụng qua văn thu Phương pháp so sánh: So sánh liệu tìm được, so sánh kết nghiên cứu từ kỹ thuật khác 5.2 Phương pháp thực nghiệm + Nghiên cứu khai thác cơng cụ, phần mềm hỗ trợ q trình biên tập liệu đánh giá + Xây dựng ứng dụng Demo phân loại quan điểm từ trang Web điểm du lịch Phong NhaKẻ Bàng + Kiểm tra, thử nghiệm, nhận xét đánh giá kết CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 KHAI PHÁ DỮ LIỆU VÀ MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 1.1.1 Khai phá liệu Khai phá liệu tiến trình sử dụng cơng cụ phân tích liệu khác để khám phá mẫu nhiều góc độ khác nhằm phát mối quan hệ kiện, đối tượng bên sở liệu, kết việc khai phá xác định mẫu hay mơ hình tồn bên trong, chúng nằm ẩn khuất sở liệu Để từ rút trích mẫu, mơ hình hay thơng tin tri thức từ sở liệu Khai phá liệu bước quy trình khai phá tri thức sở liệu (Knowledge Discovery in Database - KDD) 6 1.1.2 Một số phương pháp kỹ thuật khai phá liệu a Khai thác tập phổ biến luật kết hợp: Đây tiến trình khám phá tập giá trị thuộc tính xuất phổ biến đối tượng liệu b Phân lớp liệu (Classification): tiến trình khám phá luật phân loại hay đặc trưng cho tập liệu xếp lớp Một số kỹ thuật thường sử dụng phân lớp: + Cây định (Decision tree): cấu trúc dạng hình biểu thị cho định Các định sinh quy tắc để phân lớp dự đoán (dự báo) tập liệu chưa phân lớp + Mạng Nơron (Neural Network - Nnet): Đây kỹ thuật ứng dụng phổ biến kỹ thuật bắt chước khả tìm kiếm mẫu não người c Gom cụm (Clustering): tiến trình nhận diện cụm tiềm ẩn tập đối tượng chưa xếp lớp 1.2 KHAI PHÁ QUAN ĐIỂM 1.2.1 Khai phá quan điểm Khai phá quan điểm lĩnh vực nghiên cứu chuyên sâu lĩnh vực nghiên cứu khai phá liệu văn bản, xử lý ngôn ngữ tự nhiên với mục đích thu thập thơng tin mong muốn quan điểm người dùng Khai phá quan điểm nghiên cứu tính tốn ý kiến người, thái độ, cảm xúc quan điểm người thực thể Khai phá quan điểm kỹ thuật để phát trích xuất thơng tin quan điểm người lưu sở liệu, để làm việc vấn đề quan trọng phân cực quan điểm, quan điểm vấn đề, hay nói cách khác gán nhãn cho tài liệu, đánh giá tích cực hay tiêu cực với đối tượng mục tiêu (chủ đề) Các ý kiến quan điểm thể theo hai hướng: + Quan điểm trực tiếp: cho ý kiến tích cực, tiêu cực trực tiếp đối tượng quan tâm + Quan điểm gián tiếp: so sánh đối tượng quan tâm với đối tượng tương tự khác để đưa ý kiến cá nhân 1.2.2 Bài toán phân loại quan điểm Bài toán phân loại quan điểm trường hợp đặc biệt toán phân loại văn mà giá trị phân loại nhận theo tính phân cực (tích cực tiêu cực trung tính), sử dụng lĩnh vực khác kinh doanh, trị tâm lý học, dự báo, kinh tế, du lịch,… Mục đích phân loại quan điểm người sử dụng xác định phân cực văn xử lý ngôn ngữ tự nhiên 1.2.3 Cấp độ phân loại quan điểm a Cấp độ từ b Cấp độ cụm từ c Cấp độ câu d Cấp độ văn 1.2.4 Kỹ thuật phân loại quan điểm a Phương pháp dựa vào từ vựng: Phương pháp dựa vào từ vựng sử dụng tập từ biểu thị ý kiến phụ thuộc vào tập từ vựng thể quan điểm Trong tập từ biên tập biên dịch sẵn, chúng sử dụng để phân tích văn b Phương pháp học máy Phương pháp dựa vào học máy sử dụng giải thuật học máy tiếng việc sử dụng cú pháp đặc trưng ngơn ngữ + Học có giám sát: + Học khơng có giám sát: + Học bán giám sát: CHƯƠNG 2: PHƯƠNG PHÁP TÁCH TỪ VÀ PHÂN LOẠI VĂN BẢN 2.1 MỘT SỐ PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT 2.1.1 Tổng quan Trong tiếng Việt, dấu cách (khoảng trắng) không mang ý nghĩa phân tách từ mà mang ý nghĩa phân tách âm tiết với nhau, việc phân tách từ phải dựa vào yếu tố khác Do đó, muốn phân loại văn cơng việc phải tách từ câu, tốn tách từ trở thành toán tiền đề cho ứng dụng xử lý ngôn ngữ tự nhiên khác phân loại văn Tách từ (Word Segmentation) trình xử lý văn để xác định ranh giới từ câu Hai phương pháp bật hướng tiếp cận dựa vào từ điển Longest Matching Maximal Matching 2.1.2 Phương pháp Maximum Matching Phương pháp so khớp dài (Longest Matching - LM) so khớp cực đại (Maximum Matching - MM) hai phương pháp tách từ kinh điển hướng tiếp cận dựa từ điển Phương pháp so khớp cực đại Maximum Matching xem phương pháp tách từ dựa từ điển đơn giản Cách thực phương pháp so khớp cực đại cố gắng so khớp với từ dài có từ điển 2.1.3 Phương pháp Weighted Finite State Transducer mạng Neural Ý tưởng mơ hình Weighted Finite State Transducer áp dụng WFST kết hợp với trọng số xác suất xuất từ ngữ liệu Hoạt động mơ hình: Đầu tiên cho câu văn qua phần tiền xử lý, bước loại bỏ lỗi cách trình bày câu Sau câu đưa vào mơ hình WFST Ở bước xử lý tất vấn đề tách từ, nhiên câu cần tách nhập nhằng (điều xác định thơng qua giá trị ngưỡng đó) mơ hình tự động gọi mơ hình mạng Neural để khử nhập nhằng chọn trường hợp tách từ phù hợp 2.1.4 Phương pháp MMSeg Mơ hình thực cách bổ sung cho mơ hình tách từ cực đại Maximum Matching nói thơng qua số luật Heuristic ngôn ngữ để đánh giá dựa mơ hình Maximum Matching Các hình thức giải Maximum Matching sau: + Đối với dạng đơn giản: Từ hợp lý từ so khớp dài Chúng ta lấy từ này, sau tiếp tục tiến trình từ cuối chuỗi nhận + Đối với dạng phức tạp: Quy tắc dạng phân đoạn hợp lý đoạn ba từ với chiều dài tối đa Thuật toán bắt đầu dạng đơn giản Các luật khử nhập nhằng: Dựa vào đặc điểm riêng tiếng Việt luật sau áp dụng: Luật 1: Sử dụng trường hợp đơn giản lấy từ với chiều dài dài nhất, trường hợp phức tạp lấy từ từ dãy với chiều dài dài Nếu có nhiều dãy với chiều dài dài nhất, áp dụng luật Luật 2: Hai từ hai tiếng không liền Luật 3: Chiều dài biến động nhỏ nhất: Có số điều kiện nhập nhằng mà luật luật giải Luật 4: Tần số tiếng cao hay log thấp 2.1.5 Phương pháp Maximum Entropy Phương pháp Maximum Entropy cực đại phương pháp dựa xác suất có điều kiện cho phép tích hợp thuộc tính đa dạng từ liệu mẫu nhằm hỗ trợ trình phân lớp Ý tưởng chủ đạo nguyên lý entropy cực đại ta phải xác định phân phối mơ hình cho phân phối tuân theo giả thiết quan sát từ thực 10 nghiệm, ngồi khơng cho thêm giả thiết khác Entropy độ đo tính đồng hay tính ko chắn phân phối xác suất 2.1.6 Phương pháp Pointwise Mô hình tách từ phương pháp Pointwise phương pháp tác giả Lưu Tuấn Anh nghiên cứu gần Phương pháp tỏ hiệu quả, đặc biệt sử dụng rộng rãi tiếng Nhật tiếng Trung mang lại hiệu thực nghiêm cao Đối với tiếng Việt, phương pháp ứng dụng tốn thêm dấu cho tiếng Việt khơng dấu thu kết tốt (gần 95%) [13] Phương pháp tiếp cận dạng pointwise sử dụng dạng thông tin đánh giá đặc trưng phương pháp là: n-gram âm tiết, ngram chủng loại âm tiết, đặc trưng từ điển, thực cách độc lập với Kỹ thuật tách từ phương pháp Pointwise với phương pháp liệu khơng đầy đủ vị trí chắn xác tách từ 2.2 MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN 2.2.1 Phương pháp Naive Bayes Một phương pháp phân loại văn phổ biến phương pháp Naive Bayes, phương pháp phân loại dựa xác suất, trình thực nhanh dễ dàng, sử dụng rộng rãi lĩnh vực máy học, sử dụng lần lĩnh vực phân loại Maron năm 1961 ngày trở nên phổ biến [26] Ý tưởng phương pháp sử dụng xác suất có điều kiện từ hay đặc trưng xuất văn với chủ đề để dự đoán chủ đề văn xét 2.2.2 Phương pháp Linear Least-Squares Fit Linear Least-Squares Fit - LLSF phương pháp phân loại văn phương pháp hồi quy Linear Least Square Fit cách tiếp cận ánh xạ phát triển Yang Chute năm 1992 11 Linear Least - Squares Fit sử dụng phương pháp hồi quy để học từ tập huấn luyện chủ đề có sẵn, văn tập huấn luyện biểu diễn dạng cặp vectơ đầu vào đầu 2.2.3 Phương pháp k–Nearest Neighbor Phương pháp phân loại k–Nearest Neighbor - kNN phương pháp tiếp cận dựa thống kê, phương pháp sử dụng truyền thống thời gian đầu Quá trình phân loại văn mới, thuật tốn tính khoảng cách (khoảng cách Euclide, Cosine ) tất văn tập huấn luyện đến văn để hệ thống tìm k văn tập huấn luyện thỏa mãn điều kiện có độ tương đồng với văn cần kiểm nghiệm cao (gọi “k láng giềng”) 2.2.4 Phương pháp định Phương pháp phân loại văn định phương pháp không sử dụng xác suất hay không sử dụng số học mà sử dụng mơ hình thể để tính tốn phân loại Phương pháp áp dụng vào toán phân loại văn Cách thức thực phương pháp dựa vào tập văn huấn luyện (tập huấn luyện), để xây dựng định 2.2.5 Phương pháp Mạng Nơron nhân tạo Mạng Nơron nhân tạo (Artificial Neural Network - ANN) phương pháp máy học nghiên cứu nhiều lĩnh vực trí tuệ nhân tạo ANN sử dụng để phân loại văn nghiên cứu Wiener, Wiener sử dụng hướng tiếp cận, thứ kiến trúc phẳng (không sử dụng lớp ẩn) hướng thứ mạng Nơron lớp (bao gồm lớp ẩn) [31] a Mơ hình mạng Neural Mơ hình mạng Neural gồm có ba thành phần chính: + Kiến trúc + Hàm chi phí + Thuật tốn tìm kiếm 12 Trong kiến trúc định nghĩa dạng chức liên quan giá trị nhập đến giá trị xuất Kiến trúc bao gồm: + Kiến trúc phẳng: + Kiến trúc Modun: b Thuật tốn lan truyền ngược Cho khơng gian chứa mẫu học (x,t), x giá trị cần huấn luyện, t giá trị kết đích trình huấn luyện, hệ số học Chúng ta qui ước số lớp lớn dần từ lớp đầu vào đến lớp đầu Khi thuật toán lan truyền ngược thực sau: B1: Tạo mạng truyền thẳng có nin Nơron đầu vào, nHidden Nơron lớp ẩn h lớp ẩn mạng, với nout Nơron đầu B2: Khởi tạo trọng cho mạng với giá trị nhỏ B3: Trong thực hiện: + Với cặp (x,t) không gian mẫu huấn luyện thực hiện: + Trường hợp lớp nhập: chuyển x qua mạng, lớp xác định đầu Nơron, trình thực lớp xuất tuỳ theo cấu trúc mạng cụ thể + Trường hợp lớp xuất:Đối với đầu ok Nơron k lớp xuất K, cần xác định sai số k nó: ok (1 ok )(tk ok ) k số l Sau tiến hành chuyển sang lớp ẩn L kế đặt L = K-1 + Trường hợp lớp ẩn:Với Nơron l lớp ẩn L, xác định sai nó: l ol (1 ol ) w il i i L Sau cập nhật lại trọng số có mạng wil w ji w ji w ji với w ji j o ji 13 +Nếu L > chuyển sang lớp ẩn kế tiếp: L = L - quay lại bước Ngược lại chọn cặp (x,t) không gian học quay lại bước 2.2.6 Phương pháp Support Vector Machines Thuật toán máy vector hỗ trợ (Support Vector Machines - SVM) phương pháp tiếp cận phân loại hiệu được Corters Vapnik giới thiệu năm 1995 [34, 35] để giải vấn đề nhận dạng mẫu hai lớp sử dụng nguyên lý cực tiểu hóa rủi ro có cấu trúc Thuật tốn SVM ban đầu thiết kế để giải toán phân lớp nhị phân tức số lớp hạn chế hai lớp Quá trình huấn luyện SVM q trình giải tốn quy hoạch tồn phương SVM Các phương pháp số giải toán quy hoạch yêu cầu phải lưu trữ ma trận có kích thước bình phương số lượng mẫu huấn luyện 2.2.7 Lựa chọn phương pháp Trong nghiên cứu chúng tôi, phương pháp tách từ, phân tích phần trước, có nhiều phương pháp tách từ cho tiếng Việt thực nghiệm cho kết khác nhau, với phương pháp có ưu điểm nhược điểm riêng Trong phương pháp kể đến thấy phương pháp MMSEG ứng dụng phổ biến để tách từ tiếng Việt, phương pháp có số cải tiến thực tế việc tách từ đơn giản hơn, nhanh sử dụng thuật toán so khớp tối đa, độ xác phương pháp phụ thuộc vào từ điển Do thực nghiệm cứu chúng tơi chọn phương pháp MMSEG để giải toán tách từ tiếng Việt Đối với kỹ thuật phân loại quan điểm, sử dụng kỹ thuật học máy Mạng Nơron nhân tạo (ANN: Artificial Neural Network) để giải toán phân loại quan điểm du khách điểm du lịch Phong Nha –Kẻ Bàng tỉnh Quảng Bình, sử dụng 14 mạng neuron nhận tạo ứng dụng phân loại, cấu trúc mạng neuron có cấu trúc 03 lớp (01 lớp ẩn) CHƯƠNG 3: XÂY DỰNG BÀI TOÁN PHÂN LOẠI QUAN ĐIỂM CỦA DU KHÁCH ĐỐI VỚI ĐIỂM DU LỊCH PHONG NHAKẺ BÀNG 3.1 YÊU CẦU CỦA BÀI TOÁN PHÂN LOẠI QUAN ĐIỂM Phân loại quan điểm trường hợp đặc biệt phân loại văn bản, q trình phân loại ánh xạ văn vào chủ đề biết (tích cực, hay tiêu cực) dựa ngữ nghĩa văn Yêu cầu việc phân loại quan điểm việc xác định văn sau xử lý xác định văn thuộc nhóm văn tích cực hay tiêu cực văn xác định trước Trong trường hợp văn xác định văn có tính “nhập nhằng” (chưa rõ thuộc loại nào) phải xử lý thơng báo thuộc loại trung tính 3.2 BÀI TỐN VÀ MƠ HÌNH CHO BÀI TỐN 3.2.1 Mơ tả tốn Dữ liệu thu thập từ Web tiến hành tiền xử lý tự động máy tính cách để phục vụ cho xử lý bước sau có hiệu Bài tốn phân loại quan điểm xác định thuộc hai trạng thái tích cực (positive) tiêu cực (negative) dựa việc phân tích đốn nhận ngữ nghĩa câu văn, đoạn văn Giải pháp đoán nhận ngữ nghĩa văn cho toán sử dụng kỹ thuật học máy, hệ thống huấn luyện có giám sát với liệu mẫu, văn phân loại thành mức tích cực tiêu cực Trong phạm vi nghiên cứu toán đặt ra, việc đoán nhận cảm xúc giới hạn phạm vi với ngữ cảnh thuộc du lịch, danh lam thắng cảnh 15 Tiêu cực Văn cần phân loại Học máy Tích cực Dữ liệu luyện học Hình 3.1: Sơ đồ tổng quát toán phân loại quan điểm 3.2.2 Mơ hình xử lý tốn Mơ hình tổng qt trình bày hình đây: Văn cần phân loại Tiền xử lý liệu Tách từ Loại bỏ từ dừng Vectơ hóa đặc trưng Chuyển đổi sang câu Học máy Đoán nhận cảm xúc câu văn Đánh giá cảm xúc đoạn văn Thống định Dữ liệu phân loại Lớp tiêu cực Lớp tích cực Dữ liệu khơng xác định 16 3.3 XỬ LÝ BÀI TOÁN 3.3.1 Chuẩn bị liệu Dữ liệu thực nghiệm có 828 file văn tập hợp để xây dựng máy học kiểm thử Sau tách từ loại bỏ từ dừng số từ có 62745 từ Như tập ngữ liệu cần mơ hình hóa ma trận chứa TF*IDF từ có kích thước 828×62745 phần tử Chúng tơi sử dụng 70% liệu có để làm liệu huấn luyện dùng 30% liệu lại làm liệu kiểm thử Trong có: Loại Số file Tích cực 390 Câu văn Tiêu cực 208 Tích cực 150 Đoạn văn, file văn Tiêu cực 80 Tổng cộng 828 Ngoài thu thập liệu luyện học phạm vi câu văn mô tả du lịch, danh lam thắng cảnh có 6700 từ bao gồm: - Danh từ: 2500 từ - Động từ: 900 từ - Tính từ: 1200 từ - Trạng từ: 600 từ - Từ khác: 1500 từ Các loại liệu bổ sung trình vận hành thuật tốn, q trình vận hành bổ sung liệu luyện học làm cho hệ thống ngày thông minh 3.3.2 Tiền xử lý liệu Dữ liệu tiến hành tách đoạn, tách câu, chuẩn hóa tả xác nhận câu văn có liên quan đến lĩnh vực mục đích đốn nhận ngữ cảnh cần thực (ở toán đốn nhận tính 17 tích cực, tiêu cực) nên câu văn thường xác định có liên quan đến nhận định, bình luận Quá trình tiền xử lý liệu tiến hành xử lý trường hợp chuẩn hóa tả luật tiếng sai khác mẫu tự; tiến hành chuẩn hóa dấu chấm câu bao gồm xử lý dấu chấm cuối câu, dấu chấm câu, chuỗi có chứa nhiều dấu chấm liên tục xử lý trường hợp viết tắt 3.3.3 Tách từ Tách từ vấn đề quan trọng chương trình, định chương trình thực xác việc phân loại hay khơng nhờ kết việc tách từ hay sai Tất tài liệu qua bước xử lý thành từ đầu vào cho bước xử lý 3.3.4 Loại bỏ từ Stopwords Trong giai đoạn này, đặc trưng liên quan rút trích từ văn Tất từ lấy từ văn xem đặc trưng khả thi Sau đó, tập từ qua bước lọc bỏ đặc trưng mà không mang thơng tin hữu ích Chúng từ chức hay phụ từ, hư từ, từ từ nối, từ số lượng từ không mang tính phân biệt phân loại 3.3.5 Chuyển đổi thành câu văn Đối với câu văn tự nhiên, sau sửa lỗi tả, chuẩn hóa việc lột tả ý tứ câu văn theo mục tiêu cần nhận dạng công việc quan trọng Tại đó, kỹ thuật học máy sử dụng để nhận dạng biến đổi từ câu văn phức tạp thành câu văn gồm thành phần chủ ngữ, vị ngữ, tính từ, trạng từ Các thành phần cấu thành câu văn mà việc nhận biết cảm xúc dễ dàng sáng sủa 3.3.6 Trích xuất tập đặc trưng biểu diễn văn Văn tiến hành phân loại xem tập hợp đặc trưng, trước sử dụng phương pháp học máy việc phân loại văn dựa vào đặc trưng Trọng số đặc trưng 18 (trọng số từ) tính dựa tần số xuất từ khóa văn bản, giá trị thường số thực Ma trận biểu diễn trọng số (ma trận tần suất) W ={wij} xác định dựa tần số xuất từ khóa ti văn dj Có nhiều phương pháp để xác định wij như: - Phương pháp Boolean weighting: giá trị số lần xuất từ khóa lớn ngưỡng đó, ngược lại - Phương pháp dựa tần số từ khóa (Term Frequency Weighting) - Phương pháp dựa nghịch đảo tần số văn (Inverse Document Frequency) - Phương pháp TFxIDF phương pháp kết hợp phương pháp dựa tần số từ khóa phương pháp dựa nghịch đảo tần số văn Trọng số wij tính tần số xuất từ khóa ti văn dj độ từ khóa ti tập văn Cơng thức tính wij: Trong đó: - weigh(i,j): trọng số từ thứ i văn thứ j - fij (term frequency): số lần xuất từ thứ i văn thứ j, fij cao từ miêu tả tốt nội dung văn - dfi (document frequency): số văn có chứa từ thứ i 3.3.7 Đốn nhận cảm xúc câu văn Trong toán nghiên cứu phạm vi đoạn văn mơ tả chủ đề đơn giản, có dụng lượng ngắn đánh giá du lịch Phong NhaKẻ Bàng tỉnh Quảng Bình Chúng tơi sử dụng kỹ thuật học máy Mạng Nơron nhân tạo (ANN: Aritificial Neural Network) hệ thống luyện học cho phân tích, đốn nhận cảm xúc, mạng Neuron nhận tạo ứng dụng phân loại, cấu trúc mạng Neuron có cấu trúc 03 lớp (01 lớp ẩn), gồm 02 mạng 19 Nơron có chức năng: ANN1- Nhận dạng danh từ, tính từ, trạng từ tham gia cấu trúc câu bản, ANN2- Đoán nhận quan điểm, cấu trúc sau: Mạng Nơron ANN1: Gồm lớp, lớp đầu vào (input) gồm 30 nút (bảo đảm tối đa số từ có câu), lớp ẩn (hidden) gồm 12 nút, lớp đầu (output) gồm nút (vector danh từ, động từ, tính từ, trạng từ từ khác) Mạng Nơron ANN2: Gồm lớp, lớp đầu vào (input) gồm nút (vector danh từ, động từ, tính từ, trạng từ từ khác), lớp ẩn (hidden) gồm nút, lớp đầu (output) gồm nút (tích cực, không xác định tiêu cực) Dữ liệu luyện học thu thập từ câu văn, văn tự nhiên du lịch, danh lam thắng cảnh gồm thành phần: danh từ, động từ, tính từ, trạng từ Trong đó, từ mơ tả mức độ tích cực tiêu cực gán nhãn phục vụ trình luyện học Kết đốn nhận phân thành 03 lớp tích cực, tiêu cực chưa rõ, kết sử dụng thống làm sở đánh giá cảm xúc đoạn văn 20 3.3.8 Đánh giá quan điểm đoạn văn Sau đánh giá câu văn cho kết quả, dựa kết đoán nhận cảm xúc câu văn, sử dụng phương pháp thống đánh giá cảm xúc đoạn văn Xem xét câu văn có quan điểm ngược mô tả vấn đề cụ thể, phân loại xác định câu văn thể quan điểm mạnh để dẫn dắt xác định 3.4 KẾT QUẢ THỰC NGHIỆM 3.4.1 Công cụ môi trường Môi trường thực nghiệm: Hệ điều hành Microsoft Windows 7, vi xử lý Intel 2.53 GHz, Ram 2.0 GB Chương trình viết ngôn ngữ C#, môi trường Visual Studio Express 2013 Sử dụng hệ quản trị sở liệu SQL Server 2008 3.4.2 Một số kết a Chức hệ thống: Một số hình ảnh chức hệ thống + Màn hình giao diện chính: + Chức phân loại liệu từ file: - Chọn tab phân loại file văn - Nhấn nút “Chọn tập tin” để chọn file văn (*.txt) - Nhất nút “Phân loại” để phân loại liệu - Kết thể hình ảnh thơng báo + Chức phân loại đoạn văn bản: - Chọn tab Phân loại đoạn văn - Nhập đoạn văn cần phân loại - Nhấn “Phân loại” để phân loại nội dung - Kết thể hình ảnh thơng báo - Kết phân tích tổng hợp tab Kết phân tích + Chức phân loại câu văn bản: - Chọn tab Phân loại câu văn - Nhập câu văn cần phân loại - Nhấn nút “Phân loại” để thực 21 - Nhấn nút “Phân tích” để phân tích câu văn Kết thể văn hình ảnh b Kết thực nghiệm Trong thực nghiệm có 828 văn sử dụng, chia làm hai loại Đánh giá độ xác thực theo tiêu chí: Độ xác (precision), độ bao phủ (Recall) F1 Trong đó: - TP: Tỷ lệ tích cực (True Positive) - FP: Tỷ lệ tích cực sai (False Positive) - FN: Tỷ lệ tiêu cực sai (False Negative) 3.4.3 Đánh giá kết - Theo kết thực nghiệm chúng tơi nhận thấy độ xác phân loại Câu văn 74% liệu thực nghiệm, trường hợp phân loại theo câu đánh giá xác Kết phân loại đoạn văn, file văn đạt độ xác 65% liệu thực Như kết phân loại trung bình liệu thực nghiệm đạt độ xác 70%, kết chưa cao so với phương pháp liệu ngôn ngữ khác chấp nhận Nguyên nhân lý giải theo cảm tính sau: - Thứ liệu thử nghiệm khác so với nghiên cứu tác giả nghiên cứu khác - Thứ hai liệu thực nghiệm chưa đủ lớn dẫn đến số liệu học chưa nhiều (mặc tỷ lệ huấn luyện 70% cao) nên chưa xử lý hết tình - Thứ ba, phân tích khó khăn vấn đề phân loại quan điểm tiếng Việt, ngôn ngữ giàu cảm xúc nhiều từ đa nghĩa Nguyên nhân thách thức toán phân loại quan điểm tiếng Việt 22 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Trong nghiên cứu này, chúng tơi đề cập đến tốn phân loại quan điểm du khách địa danh du lịch tỉnh Quảng Bình Để giải tốn chúng tơi nghiên cứu vấn đề khác khai phá liệu nói chung, khai phá liệu văn nói riêng, đặc biệt kỹ thuật phân loại quan điểm người dùng, trường hợp đặc biệt phân loại văn bản, tài liệu phân loại để dự đốn quan điểm tự động phân cực (tích cực hay tiêu cực) Qua nghiên cứu, khảo sát phương pháp đánh giá với ngôn ngữ tự nhiên tiếng Việt, nghiên cứu sử dụng kỹ thuật máy học để xử lý đoán nhận cảm xúc du khách điểm du lịch Phong Nha - Kẻ Bàng bước đầu cho kết tốt, khẳng định tính đắn hướng nghiên cứu Chúng tiến hành nghiên cứu sở tri thức, nghiên cứu phương pháp kỹ thuật tác động ngôn ngữ tự nhiên để phục vụ cho vấn đề phân loại quan điểm Xác định vấn đề quan trọng định đến trình phân loại văn tiếng Việt trình tách từ, chúng tơi giải tốt vấn đề mang lại hiệu cao trình phân loại Trên sở chúng tơi tiến hành nghiên cứu tiếng Việt với mục đích phân loại quan điểm du khách điểm du lịch Phong Nha - Kẻ Bàng tỉnh Quảng Bình Từ kết thực nghiệm ban đầu cho thấy hệ thống phân loại bước đầu hoạt động hiệu góp phần trợ giúp hoạt động du lịch tiết kiệm công sức lao động, nâng cao hiệu cho hoạt động du lịch tỉnh Quảng Bình Qua kết thực nghiệm 828 văn cho kết cao 74% câu văn sử dụng phương pháp học máy Kết sở minh chứng thành công ngôn ngữ tiếng Việt Tuy nhiên, kết có khả cải thiện tốt giải nguyên nhân phần đánh 23 giá nên cần tiếp tục thử nghiệm điều chỉnh để nâng cao tỷ lệ xác Q trình nghiên cứu chúng tơi nhận thấy kết nghiên cứu ứng dụng hạn chế đặc điểm đặc trưng ngôn ngữ tiếng Việt cấu trúc từ, câu có nhiều từ đa nghĩa nhiều bối cảnh khác Một khó khăn khác tiếng Việt chưa có kho ngữ liệu chuẩn để hỗ trợ cho trình thực nghiên cứu thực nghiệm Ngồi q trình thực liên quan đến số đặc trưng lựa chọn cho đảm bảo kỹ thuật mà không ý nghĩa văn bản, số đặc trưng khơng q, q không phản ảnh hết nội dung mà văn thể hiện, ngược lại số đặc trưng nhiều tạo khơng gian đặc trưng lớn, khó xử lý kiểm soát Bài toán phân loại quan điểm toán phức tạp đa dạng theo nghĩa đặc trưng ngôn ngữ tự nhiên, nâng cao hiệu phân loại văn mục đích mà nhiều nhà nghiên cứu hướng đến Trong tương lai tiếp tục nghiên cứu để xây dựng ứng dụng cụ thể tốt cho trình phân loại nhằm khai thác vào lĩnh vực đời sống xã hội HƯỚNG PHÁT TRIỂN Trong luận văn này, thực nghiệm phân loại đánh giá kỹ thuật học máy Mạng Nơron nhân tạo ANN để giải toán phân loại quan điểm du khách với du lịch Phong NhaKẻ Bàng tỉnh Quảng Bình mà chưa thử nghiệm phương pháp khác điều phần khách quan trình nghiên cứu Trên sở nghiên cứu hướng đến giải pháp để tiếp tục nghiên cứu nhằm nâng cao hiệu cho tốn phân loại quan điểm lựa chọn, xây dựng công cụ chuyên nghiệp hỗ trợ cho trình phân loại, nghiên cứu kỹ thuật phân loại mới, tốt Ngoài cần xây dựng liệu lớn đặc biệt vấn đề xử lý từ đa nghĩa, xử lý từ viết tắt để phân tích ý nghĩa văn rõ ràng tiếng Việt./ ... tặng Vị Quảng Bình nói chung du lịch Quảng Bình nói riêng thấp so với tỉnh, thành phố nước Vì vậy, để du lịch Quảng Bình nói chung Du lịch Phong Nha - Kẻ Bàng nói riêng phát triển lên ngày nhanh... phá liệu, khai phá văn + Nghiên cứu kỹ thuật phân loại quan điểm tiếng Việt + Phân loại quan điểm du khách điểm du lịch Phong Nha – Kẻ Bàng tỉnh Quảng Bình 2.2 Ý nghĩa khoa học + Nghiên cứu năm... hành nghiên cứu tiếng Việt với mục đích phân loại quan điểm du khách điểm du lịch Phong Nha - Kẻ Bàng tỉnh Quảng Bình Từ kết thực nghiệm ban đầu cho thấy hệ thống phân loại bước đầu hoạt động hiệu

Ngày đăng: 05/03/2019, 01:44

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan