Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (tt)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	53
Dung lượng	0,9 MB

Nội dung

Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (Luận văn thạc sĩ)

1 MỞ ĐẦU Phân tích tâm lý đối tượng (Sentiment analysis) - chủ đề thách thức học máy (Machine Learning - ML) Mọi người thể cảm nhận thơng qua ngơn ngữ tự nhiên có chất nhập nhằng, mơ hồ gây khơng khó khăn cho việc xử lý để máy tính hiểu Chưa kể, họ sử dụng cách chơi chữ, ẩn ý hay kí hiệu “:), :(, =)” để giải bày cảm xúc họ Đặt biệt cảm nhận, cảm xúc, ngôn từ mà đối tượng thể diễn đàn, mạng xã hội, website… nguồn thơng tin q giá để phân tích, tổng hợp, phán đốn tâm lý, nhu cầu, cảm xúc đối tượng Trong thời đại công nghệ thông tin ngày nay, thương mại điện tử, người có hội chia ý kiến, quan điểm mình, đưa đánh giá diễn đạt quan điểm họ sản phẩm Một cá nhân muốn mua sản phẩm, cá nhân khơng thiết phải giới hạn tham khảo thơng tin từ báo chí, nhà cung cấp sản phẩm, bạn bè gia đình có nhiều người đánh giá sản phẩm Website đưa ý kiến liên quan đến việc sử dụng sản phẩm Đây nguồn thông tin quan trọng, cung cấp cho người mua sản phẩm có nhìn tồn diện, bao qt xác sản phẩm mà họ định mua Còn nhà sản xuất, đánh giá khách hàng sở để tiến hành cải tiến, hoàn thiện sản phẩm mình, đồng thời giúp cho việc tổ chức chiến lược marketing hiệu Tuy nhiên, việc tìm kiếm nguồn ý kiến, đánh giá giám sát thông tin phản hồi Website công việc khó khăn có số lượng lớn nguồn khác nguồn có số lượng lớn văn ý kiến cảm nghĩ Trong nhiều trường hợp, ý kiến thường ẩn bên viết dài dòng, biểu tượng cảm xúc phức tạp, đa ngơn ngữ Điều gây khó khăn cho việc tìm kiếm nguồn thơng tin liên quan, xác, trích lọc câu liên quan đến quan điểm đánh giá, đọc, tóm tắt tổ chức chúng thành dạng sử dụng Do đó, việc nghiên cứu phát triển hệ thống tự động cần thiết việc phát hiện, tổng hợp phân loại ý kiến, phản hồi từ người dùng Đây toán lớn, nhiều thách thức lĩnh vực xử lý ngôn ngữ tự nhiên khai phá văn Và lý do, mục đích để tơi chọn đề tài “Hệ Thống Phân Tích Thơng Tin Phản Hồi Về Sản Phẩm Của Khách Hàng Trên Website Thương Mại” làm đề tài luận văn thạc sĩ Chương - TỔNG QUAN Chương tập trung vào việc khảo sát Máy Học (Machine Learning - ML) Xử Lý Ngôn Ngữ Tự Nhiên (Natural Language Processing - NLP) số cơng trình nghiên cứu liên quan Trên sở vấn đề mà luận văn cần hướng đến 1.1 Giới thiệu tổng quan Trong năm gần đây, Máy Học trở thành phần khơng thể thiếu q trình xử lý ngơn ngữ tự nhiên (Natural Language Processing - NLP) Từ việc xây dựng tập qui tắc tay đòi hỏi nhiều cơng sức, thời gian chi phí Các nghiên cứu hướng đến việc sử dụng sở liệu lớn (Big Data) để tự động (hoặc bán tự động) sinh qui tắc Phương pháp thu kết vô khả quan nhiều lĩnh vực khác NLP, đặc biệt lĩnh vực kinh tế thị trường cạnh tranh khóc liệt ngày Các doanh nghiệp đối mặt với “cơn lũ” liệu mặt: Feedback khách hàng, thông tin đối thủ cạnh tranh, emails khách hàng, tweets, thông tin họp báo, hồ sơ pháp lý, văn sản phẩm kĩ thuật…Việc khai thác liệu điểm mấu chốt để doanh nghiệp triển khai nhanh chóng định so với đổi thủ cạnh tranh Vậy vấn đề gì? Có q nhiều thơng tin để xử lý lúc (hơn 85% liệu giới khơng có cấu trúc) kích thước liệu ngày tăng Đối với nhiều doanh nghiệp, điều bất khả thi để điều động nhân đọc tất thứ cho quan trọng (các khách hàng nói sản phẩm, đối thủ cạnh tranh làm …) Được xây dựng ngôn ngữ phức tạp, nguyên lý thống kê thuật tốn mạng nơ ron (Neural NetWork Algorithms) Chương trình xử lý ngôn ngữ tự nhiên (NLP) giúp máy tính làm thay việc cho doanh nghiệp NLP có khả đọc hiểu văn với tốc độ cao Do đó, dù bạn có 1000 tài liệu hay chí hàng tỉ văn bản, chương trình NLP “tiêu hóa” nhanh chóng tất thơng tin này, từ rút trích tri thức (Knowledge) đáng giá cho doanh nghiệp như: tri thức khách hàng, tri thức đối thủ cạnh tranh, tri thức cá hoạt động doanh nghiệp điều hành, marketings, sales, kĩ thuật sản phẩm Thông qua thuật tốn tiên tiến, NLP ai, gì, đâu nội dung phi cấu trúc, từ cung cấp cấp độ hiểu biết cao công việc kinh doanh doanh nghiệp Trong ngữ cảnh hẹp luận văn, tốn Phân Tích Phản Hồi Về Sản Phẩm Của Khách Hàng Trên Website Thương Mại (Amazon Lazada) xem tốn phân lớp Cơng việc phân tích văn tự động phân loại văn theo hướng tích cực hay tiêu cực Nhiều kỹ thuật máy học khai khoáng liệu áp dụng vào tốn phân loại văn Ví dụ như:  Cây định (Decision Tree)  Phương pháp phân loại dựa vào thuật toán Naive Bayes  K- láng giềng gần (K-Nearest Neighbors - KNN)  Mạng nơ ron nhân tạo (Artificial Neural Network)  Support Vector Machine (SVM) Vấn đề phân loại văn thu hút quan tâm nhiều nhà nghiên cứu giới, tiêu biểu cơng trình nghiên cứu như:  “Text classification using machine learning” (Mohammed.Andul.Wajeed) [13]  “Machine Learning in Automated Text Categorization” (Fabrizio Sebastiani (2002)) [8] Và ứng dụng NLP vào lĩnh vực kinh tế như:  Tiếp thị (Marketing): phân tích giọng nói, nghiên cứu thị trường, phân tích khảo sát …  Những ứng dụng mail: tính quan trọng hệ thống mail khả tự động xác định thư rác, thư quảng cáo Đây ví dụ điển hình tốn phân loại văn tự động  Kinh doanh (Business): trí tuệ cạnh tranh, phân tích tâm lý, phân loại tài liệu, phân tích rủi ro …  Cơng nghiệp riêng: phát gian lận, nghiên cứu y khoa … 1.1.1 Mục tiêu nghiên cứu Xây dựng hệ thống phát hiện, thu thập, tổng hợp phân loại ý kiến, phản hồi từ người dùng (khách hàng) Phục vụ cho việc tổng hợp, xem xét, đánh giá, phân tích kinh doanh sản phẩm website thương mại điện tử Các yêu cầu cụ thể hệ thống:  Thu thập thông tin phản hồi từ khách hàng website thương mại điện tử  Phân tích tỉ lệ % độ tích cực phản hồi thu thập 1.1.2 Đối tượng phạm vi nghiên cứu  Đối tượng nghiên cứu: o Nghiên cứu chức hệ thống truy hồi thông tin o Nghiên cứu kỹ thuật web crawler o Nghiên cứu thuật toán phân loại văn o Khảo sát dựa vào nguồn thông tin ý kiến, phản hồi đánh giá sản phẩm từ khách khàng website thương mại điện tử mà hệ thống thu thập  Phạm vi nghiên cứu: o Đầu vào: nguồn thông tin ý kiến, phản hồi sản phẩm từ người dùng (khách hàng) mà hệ thống thu thập Định dạng văn tiếng Anh tiếng Việt o Đầu ra: kết % độ tích cực phản hồi từ khách hàng website Amazon (amazon.com) Lazada (lazada.vn) từ nhiều thuật toán  Những vấn đề luận văn quan tâm o Truy hồi thông tin o Phân loại văn o Cách đánh giá độ tích cực văn từ số thuật toán 1.1.3 Ý nghĩa luận văn Luận văn đưa cách thức triển khai ứng dụng phân loại, đánh giá phản hồi người dùng, hỗ trợ doanh nghiệp nắm bắt xác kịp thời kinh doanh 1.2 Kết luận chương Chương tổng quát Xử Lý Ngôn Ngữ Tự Nhiên (NLP), khảo sát số cơng trình nghiên cứu lĩnh vực truy hồi thông tin, phân loại ngữ nghĩa văn Hiểu lĩnh vực đầy thách thức Machine Learning Giúp ta cảm nhận lợi ích tầm quan trọng NLP chiến lượt kinh doanh doanh nghiệp thời đại kinh tế thị trường cạnh tranh Các chương luận văn trình bày chi tiết hướng tiếp cận lĩnh vực Chương - CƠ SỞ LÝ THUYẾT Chương trình bày mơ hình truy hồi thơng tin tốn phân loại văn Tìm hiểu trình thực phân loại văn đồng thời khảo sát số thuật toán lĩnh vực 2.1 Truy hồi thông tin Hệ thống truy hồi thơng tin (hay gọi Truy vấn thơng tin) hoạt động thu thập nguồn thông tin liên quan đến thơng tin cần tìm kiếm, dựa siêu liệu (metadata) việc đánh mục toàn văn (hoặc nội dung khác) Những hệ thống truy hồi thông tin tự động sử dụng để giảm thiểu “quá tải thông tin” Tập trung vào việc truy hồi tài liệu dựa nội dung thành phần khơng có cấu trúc Một câu truy vấn người dùng mô tả tính chất thành phần có cấu trúc khơng có cấu trúc tài liệu truy hồi Ví trường đại học thư viện công cộng sử dụng hệ thống truy hồi thông tin để cung cấp truy cập đến sách báo tài liệu khác máy tìm kiếm web coi ứng dụng truy hồi thông tin dễ nhận thấy như: google, bing … Hệ thống truy hồi thơng tin tìm kiếm tài liệu tập cho trước chủ đề thỏa mãn nhu cầu thơng tin Chủ đề nhu cầu thông tin biểu diễn câu truy vấn, phát sinh người dùng Các tài liệu thỏa mãn câu truy vấn xác định người dùng xem phù hợp Các tài liệu khơng nói chủ đề cho trước xem không phù hợp Một hệ thống truy hồi thơng tin sử dụng câu truy vấn để phân loại tài liệu, trả cho người dùng tập tài liệu thỏa mãn tiêu chuẩn phân loại Tỉ lệ tài liệu trả cho người dùng người dùng kết luận phù hợp cao nghĩa tiêu chuẩn phân loại tốt Ngoài ra, hệ thống truy hồi thơng tin xếp hạng tài liệu Tài liệu D1 xếp hạng cao câu truy vấn Q so với tài liệu D2 hiểu tài liệu D1 thỏa mãn câu truy vấn Q nhiều tài liệu D2 Điều tương đương với việc tài liệu D1 với nhu cầu thông tin người dùng nhiều tài liệu D2 Khái niệm “phù hợp” khái niệm mấu chốt hệ thống truy hồi thơng tin “Phù hợp” khái niệm mang tính chất chủ quan ngữ cảnh hài lòng người dùng tài liệu truy hồi cho câu truy vấn họ mục tiêu tối hậu Do đó, phán xét người dùng việc tài liệu truy hồi có thỏa mãn câu truy vấn họ hay không trở thành tiêu chuẩn khái niệm “phù hợp” Ngoài yếu tố câu truy vấn tập tài liệu ngữ cảnh đóng vai trò quan trọng ảnh hướng đến khái niệm “phù hợp” Mỗi người dùng có nhu cầu cá nhân khác nhau, sở thích khác nhau, kiến thức khác nhau, chuyên môn khác nhau, ngôn ngữ khác nhau,… Do đó, tài liệu truy hồi cho câu truy vấn “phù hợp” với người dùng A “khơng phù hợp” vời người dùng B Một hướng tiếp cận để giải vấn đề tổ chức lưu trữ thông tin cá nhân người dùng ảnh hưởng đến việc truy hồi thơng tin như: sở thích, kiến thức, chun mơn, ngơn ngữ,… từ làm sở để truy hồi tài liệu “phù hợp” người dùng Để đo đạc hiệu hệ thống truy hồi thơng tin, có độ đo độ xác độ phủ, độ đo dựa khái niệm “phù hợp” Độ xác định nghĩa tỉ lệ tài liệu phù hợp truy hồi tổng số tài liệu truy hồi xác suất tài liệu truy hồi phù hợp Độ phủ định nghĩa tỉ lệ tài liệu phù hợp truy hồi tổng số tài liệu phù hợp xác suất tài liệu phù hợp truy hồi Giữa độ đo tồn đánh đổi Nếu hệ thống truy hồi thông tin truy hồi tất tài liệu tập chắn truy hồi tất tài liệu phù hợp, lúc độ phủ đạt giá trị tối đa độ xác thấp ngược lại Giả định thông thường người dùng muốn hệ thống truy hồi thông tin đạt kết hợp tối ưu độ xác độ phủ nghĩa người dùng mong muốn truy hồi tất tài liệu phù hợp khơng có tài liệu khơng phù hợp truy hồi Nhưng giả định dẫn tới số điều bất cập Có trường hợp người dùng muốn tập nhỏ tập khổng lồ tài liệu phù hợp Tập tài liệu phù hợp chứa đựng dư thừa, vài tài liệu tập tài liệu phù hợp cung cấp đầy đủ thơng tin mà người dùng cần Người dùng cần tìm kiếm chứng để hỗ trợ cho giả thuyết làm giảm độ bất định giả thuyết, trường hợp vài tài liệu phù hợp cung cấp cho người dùng chứng Người dùng cần tài liệu cập nhật gần không cần tài liệu cũ, ví dụ tài liệu thơng tin giá thị trường vài sản phẩm Nhìn chung, thơng thường có nhiều tập tài liệu phù hợp mà tập làm hài lòng yêu cầu người dùng Ngoài ra, tài liệu phù hợp trình bày góc nhìn đối lập số vấn đề quan tâm người dùng, mà người dùng nhầm lẫn nghiêm trọng nhìn vào vài tài liệu phù hợp Trong thực tế, số người dùng quan tâm tới độ xác họ muốn duyệt qua tài liệu phù hợp mà không muốn phải duyệt qua nhiều tài liệu không phù hợp Một số người dùng khác quan tâm tới độ phủ họ muốn duyệt nhiều tài liệu liên quan tốt Do đó, Van Rijsbergen đề xuất độ đo E (Effectiveness), để biểu diễn quan hệ độ xác độ phủ [2]: E  1 1  ( )  (1   )( ) P R với P độ xác, R độ phủ a tham số biến thiên từ đến  α = người dùng khơng quan tâm đến độ xác  α = 0.5 người dùng quan tâm đến độ xác độ phủ  α = người dùng không quan tâm đến độ phủ 10 Tổng quan hướng tiếp cận truy hồi thông tin 2.1.1 Có hướng tiếp cận truy hồi thơng tin ngữ nghĩa thống kê Các cách tiếp cận ngữ nghĩa cố gắng thực số mức độ phân tích cú pháp ngữ nghĩa Trong cách tiếp cận thống kê, tài liệu truy hồi tài liệu xếp thứ hạng cao, nghĩa có mức độ phù hợp với câu truy vấn cao dựa độ đo thống kê Các hướng tiếp cận thống kê rơi vào mơ hình sau: boolean, boolean mở rộng, vector space xác suất Các hướng tiếp cận thống kê chia tài liệu câu truy vấn thành “term” Các “term” có tính chất phổ biến, đếm đo đạc dựa vào thống kê Các “term” từ xuất câu truy vấn cho trước tập tài liệu Các từ thường xuất dạng chưa xử lý, từ phải qua bước xử lý “stemmed” để nhận từ gốc Mục đích q trình loại trừ biến thể xuất thể văn phạm khác từ Ví dụ: “retrieve”, “retrieved”, “retrieves” Các từ ví dụ cần nhận diện thể từ Vì vậy, người dùng đưa câu truy vấn cần phải xác định thể có từ mà họ cho xuất tài liệu mà họ tìm kiếm Tuy nhiên, tiếng Việt, từ khơng có “stemming”, khơng cần q trình “stemmed” để tiền xử lý văn Một trình khác khâu tiền xử lý văn loại bỏ từ dùng chung khơng có nghĩa, từ gọi “stop word” Các công cụ thu thồi thông in (Information Retrieval - IR) thường cung cấp “stop list” để loại bỏ từ hay xuất câu khơng góp phần vào q trình học hệ thống tiền xử lý văn Trong tiếng Việt, có nhiều “stop word”, ví dụ như: “bị”, “bởi”, “càng”, “ôi”, “than ôi”, “trời ơi”,… Trong tiếng Anh như: “and”, “is”, “the”,… “Stemming” “stop word” phụ thuộc vào ngơn ngữ, ngơn ngữ khác có dạng “stemming” “stop word” khác 39 Trong vector X, Y thành phần xi, yi chuẩn hoá theo tần số xuất thuật ngữ ti văn X Y Vector W xác định tay tính vector W theo nghịch đảo tần suất văn idf văn biểu diễn dạng vector tần xuất tf*idf Nhìn chung, thuật tốn K-NN (K-nearest neighbor) thuật toán supervised-learning đơn giản (mà hiệu vài trường hợp) Machine Learning Khi training, thuật tốn khơng học điều từ liệu training (đây lý thuật toán xếp vào loại Học Lười Biếng - lazy learning), tính tốn thực cần dự đoán kết liệu Knearest neighbor áp dụng vào hai loại tốn Học Có Giám Sát (Supervised learning) Classification Regression KNN gọi thuật tốn Học Dưa Trên Các Trường Hợp (Instance-based) hay Học Trên Bộ Nhớ (Memory-based learning) 2.2.4 Thuật toán Support Vector Machine (SVM) [12] Phương pháp SVM coi công cụ mạnh cho tốn phân lớp phi tuyến tính tác giả Vapnik Chervonenkis phát triển mạnh mẽ năm 1995 Phương pháp thực phân lớp dựa nguyên lý Cực tiểu hóa Rủi ro có Cấu trúc SRM (Structural Risk Minimization), xem phương pháp phân lớp giám sát không tham số tinh vi Các hàm công cụ đa dạng SVM cho phép tạo không gian chuyên đổi để xây dựng mặt phẳng phân lớp Cho trước tập huấn luyện, biểu diễn không gian vector, tài liệu điểm, phương pháp tìm siêu phẳng định tốt chia điểm khơng gian thành hai lớp riêng biệt tương ứng lớp “+” lớp “-“ Chất lượng siêu phẳng định khoảng cách (gọi biên) điểm liệu gần lớp đến mặt phẳng Khi đó, khoảng cách biên lớn mặt phẳng định tốt, đồng thời việc phân loại xác 40 Tiến hành xét toán đơn giản tách hai lớp với tập liệu mẫu huấn luyện Và sau ta mở rộng phương pháp cho nhiều trường hợp tổng qt mà liệu chí khơng thể tách phân lớp Với xi, i = 1, , , n tập vector đặc trưng huấn luyện X Và thuộc hai lớp w1,w2 giả sử tập liệu phân lớp tuyến tính Với mục tiêu xây dựng mặt siêu phẳng(hyperplane) để tách xác phân lớp mẫu huấn luyện cho phương trình sau: g(x) = wTx + w0 =0 Trong w vector trọng số, w0 độ dịch Phương pháp máy học SVM tập mặt siêu phẳng phụ thuộc vào tham số w w0 Mục tiêu phương pháp SVM ước lượng hai giá trị để cực đại hóa lề(margin) Với giá trị lề lớn mặt siêu phẳng phân lớp tốt Nếu tập liệu huấn luyện khả tách tuyến tính ta có ràng buộc sau: wTxi + w0 ≥ +1 yi = +1 wTxi + w0 ≤ -1 yi = -1 Hai mặt siêu phẳng có phương trình wTxi + w0 = ± gọi mặt siêu phẳng hỗ trợ Tóm tắt Support Vector Machine (SVM): Với toán binary classification mà classes linearly separable, có vơ số siêu mặt phẳng giúp phân biệt hai classes, tức mặt phân cách Với mặt phân cách, ta có classifier Khoảng cách gần từ điểm liệu tới mặt phân cách gọi margin classifier Support Vector Machine tốn tìm mặt phân cách cho margin tìm lớn nhất, đồng nghĩa với việc điểm liệu an toàn so với mặt phân cách 41 Bài toán tối ưu SVM toán lồi với hàm mục tiêu stricly convex, nghiệm toán Hơn nữa, tốn tối ưu lập trình bậc hai (Quadratic Programming - QP) 2.3 Kết luận chương Chương trình bày mơ hình truy hồi thơng tin tốn phân loại văn bản, số giải thuật áp dụng NLP 42 Chương – XÂY DỰNG HỆ THỐNG Chương khảo sát cài đặt mơ hình áp dụng cho tốn phân tích phản hồi khách hàng website thương mại Amazon Lazada:  Mơ hình sử dụng thư viện Python để thu thập phản hồi người dùng trang Amazon cho tiếng Anh Lazada cho phần tiếng Việt  Mơ hình sử dụng Bag of words để tạo features vector  Mơ hình sử dụng ma trận term-document làm input cho hàm phân lớp  Mơ hình sử dụng nhiều thuật giải phân lớp khác để đưa mơ hình hiệu (KNN, Decision Tree, Naive Bayes, SVM) 3.1 Kiến trúc tổng quan hệ thống … … ……… … ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… ……… … … … PHÂN LOẠI SCORE VECTOR HĨA TỈ LỆ % TÍCH CỰC PHÂN TÍCH CÁC HÀM PHÂN LỚP 43 Hình 3.1: Tổng quan mục tiêu hệ thống  Phân loại điểm (score): sau thu thập làm liệu, hệ thống phân loại điểm (score - sao) phản hồi Để phân biệt rõ phản hồi tích cực (lớn sao) tiêu cực (bé sao)  Vector hóa: Sử dụng Bag of words để tạo features Bag of Words model xây dựng từ vựng thơng qua tập văn bản, sau mơ hình hóa văn (vector hóa) cách đếm số lần xuất từ xuất văn  Phân tích hàm phân lớp: Ta sử dụng tập hàm phân lớp khác để chọn mơ hình cho kết xác cao Mục tiêu hệ thống phân tích tỉ lệ phần trăm phản hồi tích cực khách hàng webstie thương mại Amazon Lazada cho danh mục sản phẩm Để thực mục tiêu này, ta xây dựng theo giải pháp sau: CRAWLER CLEAN DATA PHÂN % TÍCH Hình 3.2: Giải pháp tổng quan Trong giải pháp đề xuất trên, cần cài đặt web crawler để thực việc thu thập phản hồi từ khách hàng website thương mại Amazon Lazada 44 Quy trình xử lý hệ thống gồm bước:  Thu thập phản hồi từ Amazon Lazada web crawler thực  Tiền xử lý văn phản hồi thu thập  Vector hóa văn làm tham số cho hàm phân loại  Áp dụng thuật toán phân loại Các phần trình bày cụ thể bước xử lý 3.2 Xây dựng Web Crawler Web crawler chương trình tự động tìm kiếm internet, trình thu thập web (còn gọi mạng nhện) chương trình duyệt World Wide Web cách có phương pháp, cách tự động Web crawler loại bot hay gọi bọ tìm kiếm Các web crawler thường dùng vào nhiều mục đích khác Có nhiều loại web crawler sử dụng, phổ biến quan tâm nhiều bot “bóc tách” website thu thập tài liệu để xây dựng mục tìm kiếm, cho cơng cụ tìm kiếm khác Chương trình trang web sau liên kết trang Web kho thông tin lưu trữ tập trung, mà tập gồm hàng trăm, hàng nghìn nhà cung cấp khác độc lập nhau, nhà cung cấp có dịch vụ riêng họ, nhà cung cấp đối thủ cạnh tranh Nói cách khác, web xem kho thông tin liên hợp kết hợp với tập giao thức chuẩn liệu thống TCP (Transmission Control Protocol), DNS (Domain Name Service), HTTP (Hypertext Transfer Protocol), HTML (Hypertext Maker Language) Thuật toán web crawler đơn giản: cho tập URL, web crawler tải tất trang web cho URL, trích xuất hyperlink sau tải trang web cho hyperlink Tuy nhiên, web crawler có thách thức như: mở rộng liên tục web, đánh đổi lượng 45 thông tin thu trang web thông lượng web crawler, bị nghi ngờ tin tặc, ngăn chặn từ nhà cung cấp,… Do yêu cầu cụ thể đề tài thu thập phản hồi sản phẩm khách hàng từ website thương mại Amazon Lazada nên định cụ thể URL cho web crawler thực thiện việc thu thập xây dựng tập tin cấu hình bao gồm phần:  product/productId  review/score  review/summary  review/text Tuy nhiên, ta quan tâm số yếu tố sau, để phục vụ cho việc phân tích:  review/score: điểm đánh giá người dùng cụ thể  review/text: phản hồi người dùng Các phản hồi từ khách hàng web crawler thu thập được, lưu trữ vào tập tin để phục vụ cho bước xử lý sau Các bước thực cho hệ thống Web Crawler:  Đầu vào hệ thống đường dẫn link trang web thương mại điện tử (danh sách sản phẩm) như: Amazon, Lazada …  Hệ thống thực thu thập mã sản phẩm trang  Từ danh sách mã sản phẩm thu thập được, hệ thống thực crawler phản hồi khách hàng sản phẩm Trích lọc thơng tin cần láy cho việc phân tích sau  Từ danh sách mã sản phẩm phản hồi tương ứng, hệ thống lưu vào tập tin để sử dụng cho việc làm liệu phân tích sau 46 3.3 Tiền xử lý văn Văn ngôn ngữ phi cấu trúc, cần phải chuyển đổi văn thành dạng cấu trúc để phân loại tự động Giai đoạn tiền xử lý văn bước đệm để việc vector hóa văn bước sau tiến hành thuận lợi có hiệu suất tốt cho q trình phân loại Các cơng việc giai đoạn tiền xử lý văn là:  Loại bỏ thẻ HTML  Loại bỏ kí số, kí tự đặc biệt dấu chấm, dấu phẩy …  Tách từ loại bỏ từ nghĩa (stop words) Stop words từ xuất nhiều tất văn thuộc nhiều thể loại khác nhau, không mang ý nghĩa không chứa thơng tin đáng kể, khơng góp phần vào q trình học hệ thống, tiếng Anh: “a”, “and”, “is” “the”… tiếng Việt: “thì”, “là”, “ở”, “đi”, “theo”… Trong trình phân loại văn bản, xuất stop word khơng hỗ trợ mà làm giảm độ xác q trình phân loại làm tăng thời gian xử lý Do cần phải loại bỏ stop words Để loại bỏ stop words tiếng Anh, ta làm sau:  Chuyển văn sang chữ thường tách thành danh sách từ riêng biệt  Sử dụng stop words (hổ trợ thư viện Natural Language Toolkit - nltk python) để lọc danh sách từ có ý nghĩa Lưu kết đến tập tin mới, để sử dụng cho bước sau Đối với tiếng Việt: thứ không đơn giản tiếng Anh có thêm từ ghép Có thể tách từ theo nhiều cách khác gây nhập nhằng ngữ nghĩa Thật may mắn ta áp dụng công cụ mở “VnTokenizer - Vietnamese word segmentation” tác giả Lê Hồng Phương để đảm nhận việc  Sử dụng danh sách stop word tiếng Anh dịch sang tiếng Việt, đồng thời xây dựng thêm từ nguồn internet để xây dựng thành tập stop words cho tiếng Việt 47  Áp dụng thư viện VnTokenizer để ghép tách từ loại bỏ stop words tiếng Việt Sử dụng Bag Of Words để tạo features 3.4 Bag of Words model xây dựng từ vựng thông qua tập văn bản, sau mơ hình hóa văn (vector hóa) cách đếm số lần xuất từ xuất văn Ví dụ, ta có hai câu sau: Câu 1: “The cat sat on the hat” Câu 2: “The dog ate the cat and the hat” Từ hai câu trên, từ vựng là: { the, cat, sat, on, hat, dog, ate, and } Để có bags of words, ta đếm số lần xuất từ câu Trong câu 1, “the” xuất lần, từ “cat”, “sat”, “on”, “hat” đề xuất lần, nên ta có feature vector cho câu là: Câu 1: { 2, 1, 1, 1, 1, 0, 0, } Câu 2: { 3, 1, 0, 0, 1, 1, 1, 1} Áp dụng tương tự cách làm cho tập tiếng Việt 3.5 Vector hóa cho tập liệu xử lý Do liệu lớn điều kiện thiết bị hạn chế, nên ta lấy khoảng vài nghìn dòng quan sát để thực nghiệm Ta loại bỏ bớt phản hồi có số “3.0” để phân biệt rõ ràng phản hồi tích cực (positive – lớn sao) tiêu cực (negative – bé sao) Ở đây, ta đánh giá phản hồi tích cực có điểm đánh giá lớn “4.0” Tiếp theo, ta phân chia tập liệu train test theo tỉ lệ 80/20 Hàm “CountVectorizer” thư viện scikit-learn (sklearn) python 48 dùng để phát sinh Vector Bag Of Words Cuối cùng, ta sử dụng hàm “fit_transform” (kết trả từ CountVectorizer) để chuyển đổi thành ma trận “term-document” làm input cho hàm phân lớp Lưu ý, áp dụng cho tiếng Anh tiếng Việt qua xử lý Tuy nhiên tính chất luận văn thạc sĩ nên ta ưu tiên tập trung xử lý chi tiết cho phần tiếng Việt 3.6 Áp dụng hàm phân lớp Ta sử dụng tập hàm phân lớp khác (trong máy học có giám sát Supervised Learning) để chọn mơ hình cho kết xác cao như: KNN, Decision Tree, Naive Bayes, SVM Hình 3.3: Biểu đồ thống kê phần trăm tích cực phản hồi khách hàng theo hàm phân lớp khác – Amazon (tiếng Anh) Biểu đồ kết mơ hình thực nghiệm Amazon:  K-Nearest Neighbors (K-NN) accuracy: 80.03 %  Linear Support Vector Classification (Linear SVM) accuracy: 83.26 %  RBF SVM (Radial Basis Function kernel SVM) accuracy: 82.82 %  Decision Trees (DTs) accuracy: 82.88 % 49  Naive Bayes (Gaussian Naive Bayes - GaussianNB) accuracy: 78.72 % Hình 3.4: Biểu đồ thống kê phần trăm tích cực phản hồi khách hàng theo hàm phân lớp khác – Lazada (tiếng Việt) Biểu đồ kết mơ hình thực nghiệm Lazada:  K-Nearest Neighbors (K-NN) accuracy: 81.49 %  Linear Support Vector Classification (Linear SVM) accuracy: 85.34 %  RBF SVM (Radial Basis Function kernel SVM) accuracy: 81.97 %  Decision Trees (DTs) accuracy: 84.86 %  Naive Bayes (Gaussian Naive Bayes - GaussianNB) accuracy: 54.81 % Kết thúc trình huấn luyện đánh giá, ta thấy hàm phân lớp Linear SVN cho kết cao xử lý tiếng Anh lẫn tiếng Việt, nên nhận định phù hợp cho tốn 50 Precision Recall F1-score (độ xác) (độ phủ) (độ F) False (tiêu cực) 0.80 0.01 0.03 True (tích cực) 0.83 1.00 0.91 avg / total 0.83 0.83 0.76 (trung bình/ tổng văn bản) Bảng 3.1: Bảng đánh giá chi tiết Linear SVM - Amazon Precision Recall F1-score (độ xác) (độ phủ) (độ F) False (tiêu cực) 0.72 0.24 0.36 True (tích cực) 0.85 0.98 0.91 avg / total 0.83 0.84 0.81 (trung bình/ tổng văn bản) Bảng 3.2: Bảng đánh giá chi tiết Linear SVM – Lazada Trong đó:  Precision (độ xác): lấy  Recall (độ phủ): lấy  F1-Score (độ F): tính dựa vào Precision Recall 51 3.7 Các bước xử lý hệ thống Khai thác tính (Feature Extraction): Sau có tập liệu tiến hành số bước lựa chọn thuộc tính đầu vào cho tốn phân lớp Sẽ bao gồm số bước sau:  Tách từ (Words segmentation): bước quan trọng bậc xử lý ngôn ngữ tự nhiên Nhất Tiếng Việt, khơng đơn giản tiếng anh có thêm từ ghép Có thể tách từ theo nhiều cách khác gây sựu nhập nhằng mặt ngữ nghĩa Đây tốn khó Tuy nhiên, hệ thống sử dụng công cụ VnTokenizer [14]  Loại bỏ Stopwords (trích chọn đặc trưng): bước loại bỏ từ khơng có ý nghĩa việc phân loại hệ thống Trong Tiếng Anh danh sách stopwords hổ trợ sẵn thư viện Python Đối với Tiếng Việt cần định nghĩa danh sách stopwords phù hợp với lĩnh vực thương mại điện tử  Xây dựng từ điển từ: chuyển từ văn có thành dạng biểu diễn số Xây dựng từ điển sau thay từ thứ tự xuất từ điển  Khởi tạo Vector thuộc tính với Bag of Word: khởi tạo vector thuộc tính cho file tập liệu, dựa số lần xuất từ Mỗi vector có độ dài số từ từ điển Phân lớp văn bản: Sau có vector thuộc tính sử dụng phương pháp Bag of Word tiến hành phân loại văn Chia tập liệu thành hai phần, 80% liệu sử dụng cho việc training, 20% liệu cho testing Sử dụng số thuật toán phân lớp hổ trợ Python để training testing 3.8 Kết luận chương Chương khảo sát cài đặt mơ hình áp dụng cho tốn phân tích phản hồi khách hàng website thương mại Amazon Lazada: 52  Mơ hình sử dụng Bag Of Words để tạo Features vector  Mơ hình sử dụng ma trận Term-document làm input cho hàm phân lớp  Mơ hình sử dụng nhiều thuật giải phân lớp khác máy học có giám sát để đưa mơ hình hiệu 53 KẾT LUẬN VÀ KHUYẾN NGHỊ  Kết luận văn Đã xây dựng hệ thống thu thập, tổng hợp phân loại ý kiến, phản hồi từ người dùng (khách hàng) Có ý nghĩa phục vụ việc tổng hợp, xem xét, đánh giá, phân tích kinh doanh sản phẩm website thương mại điện tử Hiểu Máy học (Machine learning) nói chung xử lý ngơn ngữ tự nhiên nói riêng Nắm bắt quy trình khai phá liệu, khơng giúp ích cho báo cáo tốt nghiệp Thạc sĩ mà hành trang tuyệt vời cho đường hướng đến Khoa học liệu (Data science) em  Hạn chế Đối với phần xử lý văn cho tiếng Việt (trên tập liệu website Lazada.vn), sử dụng Vector Bags Of Word nên độ xác chưa cao Do từ vựng sau thực nghiệm chứa nhiều từ xuất nhiều khơng có nghĩa, khơng giúp ích cho q trình phân tích, đánh giá, làm giảm độ xác, tốc độ xử lý Giao diện hệ thống chưa đầy đủ, số yếu tố đầu vào thủ cơng  Hướng phát triển Dữ liệu nên giữ lại biểu tượng cảm xúc hay từ viết tắt phổ biến Thay đổi cập nhật số lượng từ vựng Bag Of Words cho đầy đủ phù hợp lĩnh vực thương mại Nên cần cải tiến thêm độ xác Vector Bags Of Word, cách áp dụng giải thuật tf-idf (Term frequency – Inverse document frequency) để loại bỏ từ xuất nhiều khơng có nghĩa, khơng giúp ích cho q trình phân tích, đánh giá Xây dựng website hồn thiện xử dụng thực tế ... hẹp luận văn, tốn Phân Tích Phản Hồi Về Sản Phẩm Của Khách Hàng Trên Website Thương Mại (Amazon Lazada) xem tốn phân lớp Cơng việc phân tích văn tự động phân loại văn theo hướng tích cực hay tiêu... nhiên khai phá văn Và lý do, mục đích để tơi chọn đề tài Hệ Thống Phân Tích Thơng Tin Phản Hồi Về Sản Phẩm Của Khách Hàng Trên Website Thương Mại làm đề tài luận văn thạc sĩ 3 Chương - TỔNG QUAN... thương mại điện tử Các yêu cầu cụ thể hệ thống:  Thu thập thông tin phản hồi từ khách hàng website thương mại điện tử  Phân tích tỉ lệ % độ tích cực phản hồi thu thập 1.1.2 Đối tượng phạm vi

Ngày đăng: 12/03/2018, 16:26