Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
432,56 KB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN HƯỚNG PHÂNLOẠIQUANĐIỂMCỦADUKHÁCHVỚIDULỊCHPHONGNHA - KẺBÀNGTỈNHQUẢNGBÌNH Chun ngành: Khoa học máy tính Mã số: 8480101 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2018 Cơng trình hồn thành TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS ĐẬU MẠNH HOÀN Phản biện 1: TS LÊ THỊ MỸ HẠNH Phản biện 2: TS TRẦN THẾ VŨ Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Trường Đại học Bách khoa Đà Nẵng vào ngày 05 tháng 01 năm 2019 Có thể tìm hiểu luận văn tại: - Trung tâm Học liệu Truyền thông Trường Đại học Bách khoa Đại học Đà Nẵng - Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa Đại học Đà Nẵng MỞ ĐẦU LÝ DO CHỌN ĐỀ TÀI Dulịch ngành kinh tế quan trọng, ngành kinh tế tổng hợp có tính liên ngành, liên vùng xã hội hóa cao Dulịch khơng có khả tạo nguồn thu nhập lớn cho xã hội mà góp phần thực sách mở cửa, giao lưu văn hố, thúc đẩy đổi phát triển nhiều ngành kinh tế khác, đồng thời giúp giải nhiều vấn đề mang tính chất xã hội Việt Nam, với tiềm đa dạng phong phú, vừa mang sắc văn hóa dân tộc vừa mang tính đại Đảng - Nhà nước ta xác định: "Phát triển dulịch thật trở thành ngành kinh tế mũi nhọn" sở khai thác triệt để tiềm sẵn có để hội nhập Quảng Bình, vùng đất thiên nhiên ưu ban tặng nhiều tài nguyên quý, độc đáo phục vụ cho việc phát triển ngành dulịchvới nhiều loại sản phẩm du lịch, hình thức dulịchphong phú đa dạng QuảngBình xác định “Du lịch ngành kinh tế mũi nhọn tỉnh” QuảngBình vùng đất giàu tiềm năng, lợi để phát triển du lịch, nhiên dulịchQuảngBình nhỏ bé, mức độ phát triển chưa tương xứng với tiềm to lớn thiên nhiên ban tặng Vị QuảngBình nói chung dulịchQuảngBình nói riêng thấp so với tỉnh, thành phố nước Vì vậy, để dulịchQuảngBình nói chung DulịchPhongNha - KẻBàng nói riêng phát triển lên ngày nhanh mạnh mẽ hơn, thu hút lượng kháchdulịch đến thăm quan nhiều hơn, nâng cao sức cạnh tranh, nâng cao vị dulịchQuảngBình vấn đề quan trọng cấp thiết cần đưa PhongNha - KẻBàngđiểm đến lý tưởng có nhiều tiềm thu hút kháchdu lịch, thời gian gần thực trở thành điểmdulịch hấp dẫn dukhách nước Tuy nhiên, việc nghiên cứu đánh giá quanđiểmdu khách, yếu tố ảnh hưởng đến hài lòng dukhách để có giải pháp phù hợp nhằm nâng cao khả thu hút dukhách để từ mang lại hiệu kinh tế cao Chính lý nên tơi chọn đề tài “Phân loạiquanđiểmdukháchvớidulịchPhongNha – KẻBàngtỉnhQuảng Bình” để nghiên cứu, qua mong muốn đóng góp phần ý nghĩa cho hoạt động dulịchtỉnhnhà MỤC ĐÍCH VÀ Ý NGHĨA CỦA ĐỀ TÀI 2.1 Mục đích Trên sở lý thuyết xử lý ngơn ngữ tự nhiên, phân tích từ vựng đoạn văn tiếng Việt, xây dựng ứng dụng Demo phân tích quanđiểm đánh giá từ cụm từ hay đoạn văn Dữ liệu đầu vào chương trình khai thác từ trang Web + Nghiên cứu phương pháp, kỹ thuật khai phá liệu, khai phá văn + Nghiên cứu kỹ thuật phânloạiquanđiểm tiếng Việt + PhânloạiquanđiểmdukháchđiểmdulịchPhongNha – KẻBàngtỉnhQuảngBình 2.2 Ý nghĩa khoa học + Nghiên cứu năm bắt kỹ thuật khai phá liệu, khai phá văn Qua vận dụng để khai thác liệu từ trang Web thông qua liệu để đánh giá ý kiến người dùng điểmdulịchPhongNha – KẻBàngtỉnhQuảngBình từ sử dụng thơng tin để phục vụ cho cơng việc, kinh tế, xã hội hay mục đích trị khác tỉnhQuảngBình + Từ liệu lớn thu thập từ trang mạng rút thơng tin hữu ích + Giải tốn phânloạiquanđiểm từ trang Web + Rút nhận xét có ý nghĩa toán nghiên cứu 2.3 Ý nghĩa thực tiễn + Thu thập liệu người dùng điểmdulịchPhongNha - KẻBàngtỉnhQuảngBình Bước đầu xây dựng cơng cụ Demo để đánh giá quanđiểm từ liệu rút trích từ + Nắm bắt ý kiến người dùng điểmdulịchPhongNhaKẻBàngtỉnhQuảngBình từ trang Web Cho đề xuất, giải pháp mang tính thực tiễn hỗ trợ dulịchtỉnhQuảngBình + Có thể mở rộng nghiên cứu để xây dựng hệ thống đánh giá ý kiến chủ đề khác từ trang mạng xã hội MỤC TIÊU VÀ NHIỆM VỤ ĐỀ TÀI 3.1 Mục tiêu Mục tiêu đề tài đánh giá quanđiểm từ trang Web điểmdulịchPhongNha – KẻBàng Để thực mục tiêu cần đạt mục tiêu cụ thể sau: + Nghiên cứu vận dụng tốt kỹ thuật xử lý ngôn ngữ tự nhiên + Nghiên cứu kỹ thuật khai phá liệu, khai phá văn + Nghiên cứu kỹ thuật phânloạiquanđiểm tiếng Việt + Xây dựng Demo ứng dụng phânloạiquanđiểmđiểmdulịchPhongNha – KẻBàng 3.2 Nhiệm vụ Để đạt mục tiêu nhiệm vụ đặt đề tài là: + Nghiên cứu lý thuyết, nghiên cứu tài liệu khai phá văn bản, phânloạiquanđiểm vấn đề liên quan Tổng hợp thông tin thông tin liệu nghiên cứu + Nghiên cứu thực tiễn: nghiên cứu kỹ thuật liên quan đến toán + Xử lý liệu từ trang Web + Xây dựng toán, xử lý xây dựng ứng dụng Demo ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU 4.1 Đối tượng nghiên cứu + Tìm hiểu nghiên cứu, khảo sát ngơn ngữ tự nhiên tiếng Việt Cơ sở lý thuyết xử lý liệu văn bản, xử lý ngôn ngữ tự nhiên, phânloạiquanđiểm người dùng + Các kỹ thuật dùng để xử lý văn bản, kỹ thuật phânloại + Các công cụ phần mềm mã nguồn mở hỗ trợ nghiên cứu, thiết kế quy trình thực + Dukhách đến dulịchquanđiểm họ lấy từ liệu trang Web điểmdulịchPhongNha – KẻBàng 4.2 Phạm vi nghiên cứu Trong nghiên cứu giới hạn nghiên cứu vấn đề sau: + Các phương pháp, kỹ thuật khai phá liệu, khai phá văn + Phânloạiquanđiểm người dùng theo hai hướng tích cực tiêu cực + Dữ liệu từ trang Web điểmdulịchPhongNha – KẻBàng + Xây dựng Demo phânloạiquanđiểm người dùng từ liệu khai thác từ trang Web dulịchPhongNha – KẻBàng PHƯƠNG PHÁP NGHIÊN CỨU Tiến hành thu thập nghiên cứu tài liệu có liên quan đến đề tài Tổng hợp thông tin liệu nghiên cứu Nghiên cứu kỹ thuật có liên quan đến tốn Nghiên cứu công cụ xử lý việc ứng dụng cơng cụ cho tốn 5.1 Phương pháp lý thuyết Phương pháp phân tích tổng hợp từ tài liệu: Từ nghiên cứu xử lý văn bản, xử lý ngôn ngữ tự nhiên tiếng Anh, tiếng Trung, tiếng Việt, kỹ thuật đánh giá tìm thấy từ báo, kết nghiên cứu, qua mạng internet, Phương pháp thống kê: Tìm hiểu trạng kỹ thuật sử dụng lựa chọn đặc trưng văn phục vụ trình phânloại 5 Nghiên cứu hiệu kỹ thuật qua kết tìm Đánh giá hiệu thơng qua số liệu kết nghiên cứu có Phương pháp phân tích thiết kế: Phân tích đối tượng cần nghiên cứu để giải vấn đề liên quan thiết kế liệu, thiết kế quy trình xử lý liệu Phương pháp mơ hình hóa: Mơ hình hóa liệu, mơ hình hóa quy trình xử lý để thực phân tích tâm lý người sử dụng qua văn thu Phương pháp so sánh: So sánh liệu tìm được, so sánh kết nghiên cứu từ kỹ thuật khác 5.2 Phương pháp thực nghiệm + Nghiên cứu khai thác cơng cụ, phần mềm hỗ trợ q trình biên tập liệu đánh giá + Xây dựng ứng dụng Demo phânloạiquanđiểm từ trang Web điểmdulịchPhongNha – KẻBàng + Kiểm tra, thử nghiệm, nhận xét đánh giá kết CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 KHAI PHÁ DỮ LIỆU VÀ MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 1.1.1 Khai phá liệu Khai phá liệu tiến trình sử dụng cơng cụ phân tích liệu khác để khám phá mẫu nhiều góc độ khác nhằm phát mối quan hệ kiện, đối tượng bên sở liệu, kết việc khai phá xác định mẫu hay mơ hình tồn bên trong, chúng nằm ẩn khuất sở liệu Để từ rút trích mẫu, mơ hình hay thơng tin tri thức từ sở liệu Khai phá liệu bước quy trình khai phá tri thức sở liệu (Knowledge Discovery in Database - KDD) 6 1.1.2 Một số phương pháp kỹ thuật khai phá liệu a Khai thác tập phổ biến luật kết hợp: Đây tiến trình khám phá tập giá trị thuộc tính xuất phổ biến đối tượng liệu b Phân lớp liệu (Classification): tiến trình khám phá luật phânloại hay đặc trưng cho tập liệu xếp lớp Một số kỹ thuật thường sử dụng phân lớp: + Cây định (Decision tree): cấu trúc dạng hình biểu thị cho định Các định sinh quy tắc để phân lớp dự đoán (dự báo) tập liệu chưa phân lớp + Mạng Nơron (Neural Network - Nnet): Đây kỹ thuật ứng dụng phổ biến kỹ thuật bắt chước khả tìm kiếm mẫu não người c Gom cụm (Clustering): tiến trình nhận diện cụm tiềm ẩn tập đối tượng chưa xếp lớp 1.2 KHAI PHÁ QUANĐIỂM 1.2.1 Khai phá quanđiểm Khai phá quanđiểm lĩnh vực nghiên cứu chuyên sâu lĩnh vực nghiên cứu khai phá liệu văn bản, xử lý ngôn ngữ tự nhiên với mục đích thu thập thơng tin mong muốn quanđiểm người dùng Khai phá quanđiểm nghiên cứu tính tốn ý kiến người, thái độ, cảm xúc quanđiểm người thực thể Khai phá quanđiểm kỹ thuật để phát trích xuất thơng tin quanđiểm người lưu sở liệu, để làm việc vấn đề quan trọng phân cực quan điểm, quanđiểm vấn đề, hay nói cách khác gán nhãn cho tài liệu, đánh giá tích cực hay tiêu cực với đối tượng mục tiêu (chủ đề) Các ý kiến quanđiểm thể theo hai hướng: + Quanđiểm trực tiếp: cho ý kiến tích cực, tiêu cực trực tiếp đối tượng quan tâm + Quanđiểm gián tiếp: so sánh đối tượng quan tâm với đối tượng tương tự khác để đưa ý kiến cá nhân 1.2.2 Bài toán phânloạiquanđiểm Bài toán phânloạiquanđiểm trường hợp đặc biệt toán phânloại văn mà giá trị phânloại nhận theo tínhphân cực (tích cực tiêu cực trung tính), sử dụng lĩnh vực khác kinh doanh, trị tâm lý học, dự báo, kinh tế, du lịch,… Mục đích phânloạiquanđiểm người sử dụng xác định phân cực văn xử lý ngôn ngữ tự nhiên 1.2.3 Cấp độ phânloạiquanđiểm a Cấp độ từ b Cấp độ cụm từ c Cấp độ câu d Cấp độ văn 1.2.4 Kỹ thuật phânloạiquanđiểm a Phương pháp dựa vào từ vựng: Phương pháp dựa vào từ vựng sử dụng tập từ biểu thị ý kiến phụ thuộc vào tập từ vựng thể quanđiểm Trong tập từ biên tập biên dịch sẵn, chúng sử dụng để phân tích văn b Phương pháp học máy Phương pháp dựa vào học máy sử dụng giải thuật học máy tiếng việc sử dụng cú pháp đặc trưng ngơn ngữ + Học có giám sát: + Học khơng có giám sát: + Học bán giám sát: CHƯƠNG 2: PHƯƠNG PHÁP TÁCH TỪ VÀ PHÂNLOẠI VĂN BẢN 2.1 MỘT SỐ PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT 2.1.1 Tổng quan Trong tiếng Việt, dấu cách (khoảng trắng) không mang ý nghĩa phân tách từ mà mang ý nghĩa phân tách âm tiết với nhau, việc phân tách từ phải dựa vào yếu tố khác Do đó, muốn phânloại văn cơng việc phải tách từ câu, tốn tách từ trở thành toán tiền đề cho ứng dụng xử lý ngôn ngữ tự nhiên khác phânloại văn Tách từ (Word Segmentation) trình xử lý văn để xác định ranh giới từ câu Hai phương pháp bật hướng tiếp cận dựa vào từ điển Longest Matching Maximal Matching 2.1.2 Phương pháp Maximum Matching Phương pháp so khớp dài (Longest Matching - LM) so khớp cực đại (Maximum Matching - MM) hai phương pháp tách từ kinh điển hướng tiếp cận dựa từ điển Phương pháp so khớp cực đại Maximum Matching xem phương pháp tách từ dựa từ điển đơn giản Cách thực phương pháp so khớp cực đại cố gắng so khớp với từ dài có từ điển 2.1.3 Phương pháp Weighted Finite State Transducer mạng Neural Ý tưởng mơ hình Weighted Finite State Transducer áp dụng WFST kết hợp với trọng số xác suất xuất từ ngữ liệu Hoạt động mơ hình: Đầu tiên cho câu văn qua phần tiền xử lý, bước loại bỏ lỗi cách trình bày câu Sau câu đưa vào mơ hình WFST Ở bước xử lý tất vấn đề tách từ, nhiên câu cần tách nhập nhằng (điều xác định thơng qua giá trị ngưỡng đó) mơ hình tự động gọi mơ hình mạng Neural để khử nhập nhằng chọn trường hợp tách từ phù hợp 2.1.4 Phương pháp MMSeg Mơ hình thực cách bổ sung cho mơ hình tách từ cực đại Maximum Matching nói thơng qua số luật Heuristic ngôn ngữ để đánh giá dựa mơ hình Maximum Matching Các hình thức giải Maximum Matching sau: + Đối với dạng đơn giản: Từ hợp lý từ so khớp dài Chúng ta lấy từ này, sau tiếp tục tiến trình từ cuối chuỗi nhận + Đối với dạng phức tạp: Quy tắc dạng phân đoạn hợp lý đoạn ba từ với chiều dài tối đa Thuật toán bắt đầu dạng đơn giản Các luật khử nhập nhằng: Dựa vào đặc điểm riêng tiếng Việt luật sau áp dụng: Luật 1: Sử dụng trường hợp đơn giản lấy từ với chiều dài dài nhất, trường hợp phức tạp lấy từ từ dãy với chiều dài dài Nếu có nhiều dãy với chiều dài dài nhất, áp dụng luật Luật 2: Hai từ hai tiếng không liền Luật 3: Chiều dài biến động nhỏ nhất: Có số điều kiện nhập nhằng mà luật luật giải Luật 4: Tần số tiếng cao hay log thấp 2.1.5 Phương pháp Maximum Entropy Phương pháp Maximum Entropy cực đại phương pháp dựa xác suất có điều kiện cho phép tích hợp thuộc tính đa dạng từ liệu mẫu nhằm hỗ trợ trình phân lớp Ý tưởng chủ đạo nguyên lý entropy cực đại ta phải xác định phân phối mơ hình cho phân phối tuân theo giả thiết quan sát từ thực 10 nghiệm, ngồi khơng cho thêm giả thiết khác Entropy độ đo tính đồng hay tính ko chắn phân phối xác suất 2.1.6 Phương pháp Pointwise Mô hình tách từ phương pháp Pointwise phương pháp tác giả Lưu Tuấn Anh nghiên cứu gần Phương pháp tỏ hiệu quả, đặc biệt sử dụng rộng rãi tiếng Nhật tiếng Trung mang lại hiệu thực nghiêm cao Đối với tiếng Việt, phương pháp ứng dụng tốn thêm dấu cho tiếng Việt khơng dấu thu kết tốt (gần 95%) [13] Phương pháp tiếp cận dạng pointwise sử dụng dạng thông tin đánh giá đặc trưng phương pháp là: n-gram âm tiết, ngram chủng loại âm tiết, đặc trưng từ điển, thực cách độc lập với Kỹ thuật tách từ phương pháp Pointwise với phương pháp liệu khơng đầy đủ vị trí chắn xác tách từ 2.2 MỘT SỐ PHƯƠNG PHÁP PHÂNLOẠI VĂN BẢN 2.2.1 Phương pháp Naive Bayes Một phương pháp phânloại văn phổ biến phương pháp Naive Bayes, phương pháp phânloại dựa xác suất, trình thực nhanh dễ dàng, sử dụng rộng rãi lĩnh vực máy học, sử dụng lần lĩnh vực phânloại Maron năm 1961 ngày trở nên phổ biến [26] Ý tưởng phương pháp sử dụng xác suất có điều kiện từ hay đặc trưng xuất văn với chủ đề để dự đoán chủ đề văn xét 2.2.2 Phương pháp Linear Least-Squares Fit Linear Least-Squares Fit - LLSF phương pháp phânloại văn phương pháp hồi quy Linear Least Square Fit cách tiếp cận ánh xạ phát triển Yang Chute năm 1992 11 Linear Least - Squares Fit sử dụng phương pháp hồi quy để học từ tập huấn luyện chủ đề có sẵn, văn tập huấn luyện biểu diễn dạng cặp vectơ đầu vào đầu 2.2.3 Phương pháp k–Nearest Neighbor Phương pháp phânloại k–Nearest Neighbor - kNN phương pháp tiếp cận dựa thống kê, phương pháp sử dụng truyền thống thời gian đầu Quá trình phânloại văn mới, thuật tốn tính khoảng cách (khoảng cách Euclide, Cosine ) tất văn tập huấn luyện đến văn để hệ thống tìm k văn tập huấn luyện thỏa mãn điều kiện có độ tương đồng với văn cần kiểm nghiệm cao (gọi “k láng giềng”) 2.2.4 Phương pháp định Phương pháp phânloại văn định phương pháp không sử dụng xác suất hay không sử dụng số học mà sử dụng mơ hình thể để tính tốn phânloại Phương pháp áp dụng vào toán phânloại văn Cách thức thực phương pháp dựa vào tập văn huấn luyện (tập huấn luyện), để xây dựng định 2.2.5 Phương pháp Mạng Nơron nhân tạo Mạng Nơron nhân tạo (Artificial Neural Network - ANN) phương pháp máy học nghiên cứu nhiều lĩnh vực trí tuệ nhân tạo ANN sử dụng để phânloại văn nghiên cứu Wiener, Wiener sử dụng hướng tiếp cận, thứ kiến trúc phẳng (không sử dụng lớp ẩn) hướng thứ mạng Nơron lớp (bao gồm lớp ẩn) [31] a Mơ hình mạng Neural Mơ hình mạng Neural gồm có ba thành phần chính: + Kiến trúc + Hàm chi phí + Thuật tốn tìm kiếm 12 Trong kiến trúc định nghĩa dạng chức liên quan giá trị nhập đến giá trị xuất Kiến trúc bao gồm: + Kiến trúc phẳng: + Kiến trúc Modun: b Thuật tốn lan truyền ngược Cho khơng gian chứa mẫu học (x,t), x giá trị cần huấn luyện, t giá trị kết đích trình huấn luyện, hệ số học Chúng ta qui ước số lớp lớn dần từ lớp đầu vào đến lớp đầu Khi thuật toán lan truyền ngược thực sau: B1: Tạo mạng truyền thẳng có nin Nơron đầu vào, nHidden Nơron lớp ẩn h lớp ẩn mạng, với nout Nơron đầu B2: Khởi tạo trọng cho mạng với giá trị nhỏ B3: Trong thực hiện: + Với cặp (x,t) không gian mẫu huấn luyện thực hiện: + Trường hợp lớp nhập: chuyển x qua mạng, lớp xác định đầu Nơron, trình thực lớp xuất tuỳ theo cấu trúc mạng cụ thể + Trường hợp lớp xuất:Đối với đầu ok Nơron k lớp xuất K, cần xác định sai số k nó: ok (1 ok )(tk ok ) k số l Sau tiến hành chuyển sang lớp ẩn L kế đặt L = K-1 + Trường hợp lớp ẩn:Với Nơron l lớp ẩn L, xác định sai nó: l ol (1 ol ) w il i i L Sau cập nhật lại trọng số có mạng wil w ji w ji w ji với w ji j o ji 13 +Nếu L > chuyển sang lớp ẩn kế tiếp: L = L - quay lại bước Ngược lại chọn cặp (x,t) không gian học quay lại bước 2.2.6 Phương pháp Support Vector Machines Thuật toán máy vector hỗ trợ (Support Vector Machines - SVM) phương pháp tiếp cận phânloại hiệu được Corters Vapnik giới thiệu năm 1995 [34, 35] để giải vấn đề nhận dạng mẫu hai lớp sử dụng nguyên lý cực tiểu hóa rủi ro có cấu trúc Thuật tốn SVM ban đầu thiết kế để giải toán phân lớp nhị phân tức số lớp hạn chế hai lớp Quá trình huấn luyện SVM q trình giải tốn quy hoạch tồn phương SVM Các phương pháp số giải toán quy hoạch yêu cầu phải lưu trữ ma trận có kích thước bình phương số lượng mẫu huấn luyện 2.2.7 Lựa chọn phương pháp Trong nghiên cứu chúng tôi, phương pháp tách từ, phân tích phần trước, có nhiều phương pháp tách từ cho tiếng Việt thực nghiệm cho kết khác nhau, với phương pháp có ưu điểm nhược điểm riêng Trong phương pháp kể đến thấy phương pháp MMSEG ứng dụng phổ biến để tách từ tiếng Việt, phương pháp có số cải tiến thực tế việc tách từ đơn giản hơn, nhanh sử dụng thuật toán so khớp tối đa, độ xác phương pháp phụ thuộc vào từ điển Do thực nghiệm cứu chúng tơi chọn phương pháp MMSEG để giải toán tách từ tiếng Việt Đối với kỹ thuật phânloạiquan điểm, sử dụng kỹ thuật học máy Mạng Nơron nhân tạo (ANN: Artificial Neural Network) để giải toán phânloạiquanđiểmdukháchđiểmdulịchPhongNha –Kẻ BàngtỉnhQuảng Bình, sử dụng 14 mạng neuron nhận tạo ứng dụng phân loại, cấu trúc mạng neuron có cấu trúc 03 lớp (01 lớp ẩn) CHƯƠNG 3: XÂY DỰNG BÀI TOÁN PHÂNLOẠIQUANĐIỂMCỦADUKHÁCH ĐỐI VỚIĐIỂMDULỊCHPHONGNHA – KẺBÀNG 3.1 YÊU CẦU CỦA BÀI TOÁN PHÂNLOẠIQUANĐIỂMPhânloạiquanđiểm trường hợp đặc biệt phânloại văn bản, q trình phânloại ánh xạ văn vào chủ đề biết (tích cực, hay tiêu cực) dựa ngữ nghĩa văn Yêu cầu việc phânloạiquanđiểm việc xác định văn sau xử lý xác định văn thuộc nhóm văn tích cực hay tiêu cực văn xác định trước Trong trường hợp văn xác định văn có tính “nhập nhằng” (chưa rõ thuộc loại nào) phải xử lý thơng báo thuộc loại trung tính 3.2 BÀI TỐN VÀ MƠ HÌNH CHO BÀI TỐN 3.2.1 Mơ tả tốn Dữ liệu thu thập từ Web tiến hành tiền xử lý tự động máy tính cách để phục vụ cho xử lý bước sau có hiệu Bài tốn phânloạiquanđiểm xác định thuộc hai trạng thái tích cực (positive) tiêu cực (negative) dựa việc phân tích đốn nhận ngữ nghĩa câu văn, đoạn văn Giải pháp đoán nhận ngữ nghĩa văn cho toán sử dụng kỹ thuật học máy, hệ thống huấn luyện có giám sát với liệu mẫu, văn phânloại thành mức tích cực tiêu cực Trong phạm vi nghiên cứu toán đặt ra, việc đoán nhận cảm xúc giới hạn phạm vi với ngữ cảnh thuộc du lịch, danh lam thắng cảnh 15 Tiêu cực Văn cần phânloại Học máy Tích cực Dữ liệu luyện học Hình 3.1: Sơ đồ tổng quát toán phânloạiquanđiểm 3.2.2 Mơ hình xử lý tốn Mơ hình tổng qt trình bày hình đây: Văn cần phânloại Tiền xử lý liệu Tách từ Loại bỏ từ dừng Vectơ hóa đặc trưng Chuyển đổi sang câu Học máy Đoán nhận cảm xúc câu văn Đánh giá cảm xúc đoạn văn Thống kê định Dữ liệu phânloại Lớp tiêu cực Lớp tích cực Dữ liệu khơng xác định 16 3.3 XỬ LÝ BÀI TOÁN 3.3.1 Chuẩn bị liệu Dữ liệu thực nghiệm có 828 file văn tập hợp để xây dựng máy học kiểm thử Sau tách từ loại bỏ từ dừng số từ có 62745 từ Như tập ngữ liệu cần mơ hình hóa ma trận chứa TF*IDF từ có kích thước 828×62745 phần tử Chúng tơi sử dụng 70% liệu có để làm liệu huấn luyện dùng 30% liệu lại làm liệu kiểm thử Trong có: Loại Số file Tích cực 390 Câu văn Tiêu cực 208 Tích cực 150 Đoạn văn, file văn Tiêu cực 80 Tổng cộng 828 Ngoài thu thập liệu luyện học phạm vi câu văn mô tả du lịch, danh lam thắng cảnh có 6700 từ bao gồm: - Danh từ: 2500 từ - Động từ: 900 từ - Tính từ: 1200 từ - Trạng từ: 600 từ - Từ khác: 1500 từ Các loại liệu bổ sung trình vận hành thuật tốn, q trình vận hành bổ sung liệu luyện học làm cho hệ thống ngày thông minh 3.3.2 Tiền xử lý liệu Dữ liệu tiến hành tách đoạn, tách câu, chuẩn hóa tả xác nhận câu văn có liên quan đến lĩnh vực mục đích đốn nhận ngữ cảnh cần thực (ở toán đốn nhận tính 17 tích cực, tiêu cực) nên câu văn thường xác định có liên quan đến nhận định, bình luận Quá trình tiền xử lý liệu tiến hành xử lý trường hợp chuẩn hóa tả luật tiếng sai khác mẫu tự; tiến hành chuẩn hóa dấu chấm câu bao gồm xử lý dấu chấm cuối câu, dấu chấm câu, chuỗi có chứa nhiều dấu chấm liên tục xử lý trường hợp viết tắt 3.3.3 Tách từ Tách từ vấn đề quan trọng chương trình, định chương trình thực xác việc phânloại hay khơng nhờ kết việc tách từ hay sai Tất tài liệu qua bước xử lý thành từ đầu vào cho bước xử lý 3.3.4 Loại bỏ từ Stopwords Trong giai đoạn này, đặc trưng liên quan rút trích từ văn Tất từ lấy từ văn xem đặc trưng khả thi Sau đó, tập từ qua bước lọc bỏ đặc trưng mà không mang thơng tin hữu ích Chúng từ chức hay phụ từ, hư từ, từ từ nối, từ số lượng từ không mang tínhphân biệt phânloại 3.3.5 Chuyển đổi thành câu văn Đối với câu văn tự nhiên, sau sửa lỗi tả, chuẩn hóa việc lột tả ý tứ câu văn theo mục tiêu cần nhận dạng công việc quan trọng Tại đó, kỹ thuật học máy sử dụng để nhận dạng biến đổi từ câu văn phức tạp thành câu văn gồm thành phần chủ ngữ, vị ngữ, tính từ, trạng từ Các thành phần cấu thành câu văn mà việc nhận biết cảm xúc dễ dàng sáng sủa 3.3.6 Trích xuất tập đặc trưng biểu diễn văn Văn tiến hành phânloại xem tập hợp đặc trưng, trước sử dụng phương pháp học máy việc phânloại văn dựa vào đặc trưng Trọng số đặc trưng 18 (trọng số từ) tính dựa tần số xuất từ khóa văn bản, giá trị thường số thực Ma trận biểu diễn trọng số (ma trận tần suất) W ={wij} xác định dựa tần số xuất từ khóa ti văn dj Có nhiều phương pháp để xác định wij như: - Phương pháp Boolean weighting: giá trị số lần xuất từ khóa lớn ngưỡng đó, ngược lại - Phương pháp dựa tần số từ khóa (Term Frequency Weighting) - Phương pháp dựa nghịch đảo tần số văn (Inverse Document Frequency) - Phương pháp TFxIDF phương pháp kết hợp phương pháp dựa tần số từ khóa phương pháp dựa nghịch đảo tần số văn Trọng số wij tính tần số xuất từ khóa ti văn dj độ từ khóa ti tập văn Cơng thức tính wij: Trong đó: - weigh(i,j): trọng số từ thứ i văn thứ j - fij (term frequency): số lần xuất từ thứ i văn thứ j, fij cao từ miêu tả tốt nội dung văn - dfi (document frequency): số văn có chứa từ thứ i 3.3.7 Đốn nhận cảm xúc câu văn Trong toán nghiên cứu phạm vi đoạn văn mơ tả chủ đề đơn giản, có dụng lượng ngắn đánh giá dulịchPhongNha – KẻBàngtỉnhQuảngBình Chúng tơi sử dụng kỹ thuật học máy Mạng Nơron nhân tạo (ANN: Aritificial Neural Network) hệ thống luyện học cho phân tích, đốn nhận cảm xúc, mạng Neuron nhận tạo ứng dụng phân loại, cấu trúc mạng Neuron có cấu trúc 03 lớp (01 lớp ẩn), gồm 02 mạng 19 Nơron có chức năng: ANN1- Nhận dạng danh từ, tính từ, trạng từ tham gia cấu trúc câu bản, ANN2- Đoán nhận quan điểm, cấu trúc sau: Mạng Nơron ANN1: Gồm lớp, lớp đầu vào (input) gồm 30 nút (bảo đảm tối đa số từ có câu), lớp ẩn (hidden) gồm 12 nút, lớp đầu (output) gồm nút (vector danh từ, động từ, tính từ, trạng từ từ khác) Mạng Nơron ANN2: Gồm lớp, lớp đầu vào (input) gồm nút (vector danh từ, động từ, tính từ, trạng từ từ khác), lớp ẩn (hidden) gồm nút, lớp đầu (output) gồm nút (tích cực, không xác định tiêu cực) Dữ liệu luyện học thu thập từ câu văn, văn tự nhiên du lịch, danh lam thắng cảnh gồm thành phần: danh từ, động từ, tính từ, trạng từ Trong đó, từ mơ tả mức độ tích cực tiêu cực gán nhãn phục vụ trình luyện học Kết đốn nhận phân thành 03 lớp tích cực, tiêu cực chưa rõ, kết sử dụng thống kê làm sở đánh giá cảm xúc đoạn văn 20 3.3.8 Đánh giá quanđiểm đoạn văn Sau đánh giá câu văn cho kết quả, dựa kết đoán nhận cảm xúc câu văn, sử dụng phương pháp thống kê đánh giá cảm xúc đoạn văn Xem xét câu văn có quanđiểm ngược mô tả vấn đề cụ thể, phânloại xác định câu văn thể quanđiểm mạnh để dẫn dắt xác định 3.4 KẾT QUẢ THỰC NGHIỆM 3.4.1 Công cụ môi trường Môi trường thực nghiệm: Hệ điều hành Microsoft Windows 7, vi xử lý Intel 2.53 GHz, Ram 2.0 GB Chương trình viết ngôn ngữ C#, môi trường Visual Studio Express 2013 Sử dụng hệ quản trị sở liệu SQL Server 2008 3.4.2 Một số kết a Chức hệ thống: Một số hình ảnh chức hệ thống + Màn hình giao diện chính: + Chức phânloại liệu từ file: - Chọn tab phânloại file văn - Nhấn nút “Chọn tập tin” để chọn file văn (*.txt) - Nhất nút “Phân loại” để phânloại liệu - Kết thể hình ảnh thơng báo + Chức phânloại đoạn văn bản: - Chọn tab Phânloại đoạn văn - Nhập đoạn văn cần phânloại - Nhấn “Phân loại” để phânloại nội dung - Kết thể hình ảnh thơng báo - Kết phân tích tổng hợp tab Kết phân tích + Chức phânloại câu văn bản: - Chọn tab Phânloại câu văn - Nhập câu văn cần phânloại - Nhấn nút “Phân loại” để thực 21 - Nhấn nút “Phân tích” để phân tích câu văn Kết thể văn hình ảnh b Kết thực nghiệm Trong thực nghiệm có 828 văn sử dụng, chia làm hai loại Đánh giá độ xác thực theo tiêu chí: Độ xác (precision), độ bao phủ (Recall) F1 Trong đó: - TP: Tỷ lệ tích cực (True Positive) - FP: Tỷ lệ tích cực sai (False Positive) - FN: Tỷ lệ tiêu cực sai (False Negative) 3.4.3 Đánh giá kết - Theo kết thực nghiệm chúng tơi nhận thấy độ xác phânloại Câu văn 74% liệu thực nghiệm, trường hợp phânloại theo câu đánh giá xác Kết phânloại đoạn văn, file văn đạt độ xác 65% liệu thực Như kết phânloại trung bình liệu thực nghiệm đạt độ xác 70%, kết chưa cao so với phương pháp liệu ngôn ngữ khác chấp nhận Nguyên nhân lý giải theo cảm tính sau: - Thứ liệu thử nghiệm khác so với nghiên cứu tác giả nghiên cứu khác - Thứ hai liệu thực nghiệm chưa đủ lớn dẫn đến số liệu học chưa nhiều (mặc dù tỷ lệ huấn luyện 70% cao) nên chưa xử lý hết tình - Thứ ba, phân tích khó khăn vấn đề phânloạiquanđiểm tiếng Việt, ngôn ngữ giàu cảm xúc nhiều từ đa nghĩa Nguyên nhân thách thức toán phânloạiquanđiểm tiếng Việt 22 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Trong nghiên cứu này, chúng tơi đề cập đến tốn phânloạiquanđiểmdukhách địa danh dulịchtỉnhQuảngBình Để giải tốn chúng tơi nghiên cứu vấn đề khác khai phá liệu nói chung, khai phá liệu văn nói riêng, đặc biệt kỹ thuật phânloạiquanđiểm người dùng, trường hợp đặc biệt phânloại văn bản, tài liệu phânloại để dự đốn quanđiểm tự động phân cực (tích cực hay tiêu cực) Qua nghiên cứu, khảo sát phương pháp đánh giá với ngôn ngữ tự nhiên tiếng Việt, nghiên cứu sử dụng kỹ thuật máy học để xử lý đoán nhận cảm xúc dukháchđiểmdulịchPhongNha - KẻBàng bước đầu cho kết tốt, khẳng định tính đắn hướng nghiên cứu Chúng tiến hành nghiên cứu sở tri thức, nghiên cứu phương pháp kỹ thuật tác động ngôn ngữ tự nhiên để phục vụ cho vấn đề phânloạiquanđiểm Xác định vấn đề quan trọng định đến trình phânloại văn tiếng Việt trình tách từ, chúng tơi giải tốt vấn đề mang lại hiệu cao trình phânloại Trên sở chúng tơi tiến hành nghiên cứu tiếng Việt với mục đích phânloạiquanđiểmdukháchđiểmdulịchPhongNha - KẻBàngtỉnhQuảngBình Từ kết thực nghiệm ban đầu cho thấy hệ thống phânloại bước đầu hoạt động hiệu góp phần trợ giúp hoạt động dulịch tiết kiệm công sức lao động, nâng cao hiệu cho hoạt động dulịchtỉnhQuảngBình Qua kết thực nghiệm 828 văn cho kết cao 74% câu văn sử dụng phương pháp học máy Kết sở minh chứng thành công ngôn ngữ tiếng Việt Tuy nhiên, kết có khả cải thiện tốt giải nguyên nhân phần đánh 23 giá nên cần tiếp tục thử nghiệm điều chỉnh để nâng cao tỷ lệ xác Q trình nghiên cứu chúng tơi nhận thấy kết nghiên cứu ứng dụng hạn chế đặc điểm đặc trưng ngôn ngữ tiếng Việt cấu trúc từ, câu có nhiều từ đa nghĩa nhiều bối cảnh khác Một khó khăn khác tiếng Việt chưa có kho ngữ liệu chuẩn để hỗ trợ cho trình thực nghiên cứu thực nghiệm Ngồi q trình thực liên quan đến số đặc trưng lựa chọn cho đảm bảo kỹ thuật mà không ý nghĩa văn bản, số đặc trưng khơng q, q không phản ảnh hết nội dung mà văn thể hiện, ngược lại số đặc trưng nhiều tạo khơng gian đặc trưng lớn, khó xử lý kiểm soát Bài toán phânloạiquanđiểm toán phức tạp đa dạng theo nghĩa đặc trưng ngôn ngữ tự nhiên, nâng cao hiệu phânloại văn mục đích mà nhiều nhà nghiên cứu hướng đến Trong tương lai tiếp tục nghiên cứu để xây dựng ứng dụng cụ thể tốt cho trình phânloại nhằm khai thác vào lĩnh vực đời sống xã hội HƯỚNG PHÁT TRIỂN Trong luận văn này, thực nghiệm phânloại đánh giá kỹ thuật học máy Mạng Nơron nhân tạo ANN để giải toán phânloạiquanđiểmdukháchvớidulịchPhongNha – KẻBàngtỉnhQuảngBình mà chưa thử nghiệm phương pháp khác điều phầnkháchquan trình nghiên cứu Trên sở nghiên cứu hướng đến giải pháp để tiếp tục nghiên cứu nhằm nâng cao hiệu cho tốn phânloạiquanđiểm lựa chọn, xây dựng công cụ chuyên nghiệp hỗ trợ cho trình phân loại, nghiên cứu kỹ thuật phânloại mới, tốt Ngoài cần xây dựng liệu lớn đặc biệt vấn đề xử lý từ đa nghĩa, xử lý từ viết tắt để phân tích ý nghĩa văn rõ ràng tiếng Việt./ ... tặng Vị Quảng Bình nói chung du lịch Quảng Bình nói riêng thấp so với tỉnh, thành phố nước Vì vậy, để du lịch Quảng Bình nói chung Du lịch Phong Nha - Kẻ Bàng nói riêng phát triển lên ngày nhanh... phá liệu, khai phá văn + Nghiên cứu kỹ thuật phân loại quan điểm tiếng Việt + Phân loại quan điểm du khách điểm du lịch Phong Nha – Kẻ Bàng tỉnh Quảng Bình 2.2 Ý nghĩa khoa học + Nghiên cứu năm... hành nghiên cứu tiếng Việt với mục đích phân loại quan điểm du khách điểm du lịch Phong Nha - Kẻ Bàng tỉnh Quảng Bình Từ kết thực nghiệm ban đầu cho thấy hệ thống phân loại bước đầu hoạt động hiệu