Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
350,37 KB
Nội dung
Header Page of 126 -1- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRƯƠNG TIẾN DƯỠNG NGHIÊN CỨU ỨNG DỤNG PHÂN LỚP DỮ LIỆU TRONG QUẢN LÝ KHÁCH HÀNG TRÊN MẠNG Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2012 Footer Page of 126 Header Page of 126 -2- Công trình ñược hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS PHAN HUY KHÁNH Phản biện 1: TS NGUYỄN TRẦN QUỐC VINH Phản biện 1: PGS.TS LÊ MẠNH THẠNH Luận văn ñược bảo vệ Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 03 tháng 03 năm 2012 Có thể tìm hiểu luận văn tại: • Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng • Trung tâm Học liệu, Đại học Đà Nẵng Footer Page of 126 Header Page of 126 -3- MỞ ĐẦU Lý chọn ñề tài Trong kinh doanh yếu tố khách hàng ñịnh ñến thành bại doanh nghiệp, thông tin ñang trở thành yếu tố ñịnh kinh doanh vấn ñề tìm thông tin hữu ích CSDL khổng lồ ngày trở thành mục tiêu quan trọng doanh nghiệp Vì giải pháp hữu hiệu nhằm khắc phục vấn ñề nêu tiến hành triển khai xây dựng hệ thống khai phá liệu (KPDL), khai thác quản lý nguồn khách hàng nói Đó hệ thống ñược thiết kế giúp cho lãnh ñạo doanh nghiệp nắm bắt ñược nguồn thông tin khách hàng hữu ích tri thức chiết xuất ñược từ CSDL nguồn tài liệu hỗ trợ cho lãnh ñạo xây dựng chiến lược kinh doanh Chính lý nêu trên, ñịnh chọn ñề tài “Nghiên cứu ứng dụng kỹ thuật phân lớp liệu quản lý khách hàng mạng” Mục ñích nghiên cứu Nghiên cứu phương pháp phân lớp liệu KPDL, thuật toán liên quan ñến quy nạp ñịnh, tìm hiểu ngôn ngữ mã lệnh siêu tìm kiếm Regurlation Expressions, Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu Tìm hiểu website TMĐT bán hàng trực tuyến với số lượng truy cập giao dịch lớn phong phú, ña dạng gây khó khăn công tác quản lý nguồn khách hàng Footer Page of 126 Header Page of 126 -4- Phạm vi nghiên cứu Ứng dụng thuật toán kỹ thuật phân lớp liệu ñể xây dựng phục vụ công việc khai thác nguồn khách hàng Phương pháp nghiên cứu Dựa thực trạng website TMĐT có ñể xây dựng ứng dụng quản lý khách hàng Ý nghĩa khoa học thực tiễn Ý nghĩa khoa học Đề xuất giải pháp ứng dụng kỹ thuật phân lớp liệu vào khai thác quản lý nguồn khách hàng mạng Ý nghĩa thực tiễn Sản phẩm hệ thống hỗ trợ ñắc lực, kịp thời có ñộ hiệu cao cho doanh nghiệp thu thập ñược thông tin ñưa sách phù hợp hoạt ñộng kinh doanh ñơn vị Cấu trúc luận văn Nội dụng luận văn ñược chia thành ba chương với nội dung sau: Chương Tổng quan khai phá liệu Chương Giải pháp phân lớp liệu kỹ thuật quy nạp ñịnh Chương Xây dựng hệ thống thử nghiệm Footer Page of 126 Header Page of 126 -5- CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá liệu 1.1.1 Khái niệm khai phá liệu Khai phá liệu (Data Mining) trình khảo sát phân tích khối lượng lớn liệu ñược lưu trữ CSDL, kho liệu,…ñể từ ñó trích xuất thông tin quan trọng, có giá trị tiềm ẩn bên [6][10] 1.1.2 Những lợi thách thức khai phá liệu 1.1.2.1 Lợi KPDL lĩnh vực liên quan tới nhiều ngành học khác như: hệ sở liệu, thống kê xác suất, trực quan hoá… Thêm vào ñó KPDL áp dụng kỹ thuật mạng nơron, lý thuyết tập thô, tập mờ, biểu diễn tri thức… 1.1.2.2 Thách thức Những hạn chế thuật toán: Hầu hết thuật toán ñều tổng quát, sinh nhiều luật Mặc dù luật sinh ña số ñều hữu ích ta phải ño ñộ ñáng quan tâm mẫu nên cần can thiệp chuyên gia nghiệp vụ 1.1.3 Những nhu cầu khai phá liệu kinh doanh Phân loại khách hàng ñể từ ñó phân ñịnh thị trường, thị phần Tăng sức cạnh tranh, làm ñể giữ ñược khách hàng cũ thu hút ñược thêm nhiều khách hàng Phân tích rủi ro trước ñịnh quan trọng chiến lược hoạt ñộng sản xuất kinh doanh Ra báo cáo giàu thông tin … Tất nhu cầu xã hội ñòi hỏi cần phải có phương thức, công cụ ñó hỗ trợ bên cạnh chuyên gia kinh tế Và KPDL chìa khoá hỗ trợ giải vấn ñề nêu Footer Page of 126 Header Page of 126 -6- 1.1.4 Khai phá liệu số lĩnh vực quan trọng khác 1.2 Các phương pháp khai phá liệu 1.2.1 Phân loại Phân loại tổ chức liệu lớp cho trước, ñược gọi học có quan sát Phân loại sử dụng nhãn lớp cho trước ñể xếp ñối tượng Trong ñó có tập huấn luyện gồm ñối tượng ñã ñược kết hợp với nhãn ñã biết Một số thuật toán dùng toán phân loại như: ñịnh, mạng nơron, Naive Bayes 1.2.2 Phân cụm Phân cụm kỹ thuật KPDL tương tự phân loại liệu Tuy nhiên, phân nhóm liệu trình học không ñược giám sát 1.2.3 Luật kết hợp 1.2.4 Hồi quy 1.2.5 Phân tích chuỗi 1.3 Các bước xây dựng giải pháp khai phá liệu 1.3.1 Mô hình luồng liệu Khai phá liệu Ứng dụng OLTP DW Xử lý giao dịch trực tuyến Kho liệu Hình 1.1 Mô hình luồng liệu Footer Page of 126 OLAP Xử lý phân tích trực tuyến Header Page of 126 1.3.2 -7- Vòng ñời hệ thống khai phá liệu Bước 1: Xác ñịnh mục tiêu toán Bước 2: Thu thập liệu Bước 3: Làm liệu chuyển ñổi liệu Bước 4: Xây dựng mô hình Bước 5: Đánh giá mô hình hay ñánh giá mẫu Bước 6: Báo cáo Bước 7: Dự ñoán Bước 8: Tích hợp vào ứng dụng Bước 9: Quản lý mô hình 1.3.3 Kiến trúc hệ thống khai phá liệu ñiển hình Giao diện ñồ họa người dùng Cơ sở tri thức Đánh giá mẫu Máy khai phá liệu Máy chủ CSDL / Kho liệu Lọc Kho liệu Cơ sở liệu Làm liệu Hình 1.2 Kiến trúc hệ thống khai phá liệu ñiển hình Footer Page of 126 Header Page of 126 -8- 1.3.3.1 Phương pháp ñánh giá ñộ xác mô hình phân lớp Trong phương pháp holdout, liệu dưa ñược phân chia ngẫu nhiên thành phần là: tập liệu ñào tạo tập liệu kiểm tra Thông thường 2/3 liệu cấp cho tập liệu ñào tạo, phần lại cho tập liệu kiểm tra Trong phương pháp k-fold cross validation tập liệu ban ñầu ñược chia ngẫu nhiên thành k tập (fold) có kích thước xấp xỉ S1, S2, …, Sk Quá trình học test ñược thực k lần Tại lần lặp thứ i, Si tập liệu kiểm tra, tập lại hợp thành tập liệu ñào tạo 1.3.3.2 Vấn ñề quản lý KH mạng liên quan ñến DM KPDL giúp lãnh ñạo doanh nghiệp xác ñịnh ñược KH mục tiêu, phân loại ñể từ ñó hỗ trợ doanh nghiệp có chiến lược quảng cáo, tiếp thị tốt Tổng hợp tri thức lãnh ñạo lên kế hoạch hoạt ñộng, sản xuất, kinh doanh cách thuận tiện nhằm giảm bớt thời gian thống kê, tìm hiểu thị hiếu KH Chẳng hạn chiến lược quảng cáo cho ñối tượng KH khác nhau… 1.3.4 So sánh kỹ thuật khai phá liệu 1.3.4.1 Kỹ thuật khai phá liệu mô tả Mục tiêu phương pháp phân cụm liệu nhóm ñối tượng tương tự tập liệu vào cụm cho ñối tượng thuộc lớp tương ñồng ñối tượng thuộc cụm khác không tương ñồng 1.3.4.2 Kỹ thuật khai phá liệu dự ñoán Mục tiêu phương pháp phân lớp liệu dự ñoán nhãn lớp cho mẫu liệu Không giống phân cụm liệu, phân lớp liệu học ví dụ, phân cụm liệu coi cách học quan sát Footer Page of 126 Header Page of 126 -9- CHƯƠNG GIẢI PHÁP PHÂN LỚP DỮ LIỆU TRONG QUẢN LÝ KHÁCH HÀNG TRÊN MẠNG 2.1 Bài toán phân lớp liệu 2.1.1 Giới thiệu Phân lớp tiến trình xử lý nhằm xếp mẫu liệu hay ñối tượng vào lớp ñã ñược ñịnh nghĩa trước 2.1.2 Các bước ñể giải toán phân lớp Phân lớp liệu gồm hai bước xử lý chính: Bước 1: Học, mục ñích bước xây dựng mô hình xác ñịnh tập lớp liệu Bước : Kiểm tra ñánh giá, bước sử dụng mô hình phân lớp ñã ñược xây dựng bước vào việc phân lớp 2.1.3 Các sở liệu phục vụ cho phân lớp liệu 2.1.3.1 Cơ sở liệu giao tác CSDL giao tác tập hợp ghi giao dịch, ña số trường hợp chúng ghi liệu hoạt ñộng doanh nghiệp, tổ chức 2.1.3.2 Cơ sở liệu ña phương tiện KPDL web thông thường ñược chia thành ba phạm trù chính: Khai phá cách dùng web, khai phá cấu trúc web khai phá nội dung web 2.1.3.3 Cơ sở liệu Hypertext HyperText loại liệu phổ biến nay, loại liệu có nhu cầu tìm kiếm phân lớp lớn Footer Page of 126 Header Page 10 of 126 -10- 2.2 Phân lớp phương pháp quy nạp ñịnh 2.2.1 Khái niệm ñịnh Cây ñịnh flow-chart giống cấu trúc cây, nút bên biểu thị kiểm tra thuộc tính, nhánh biểu diễn ñầu kiểm tra, nút biểu diễn nhãn lớp Đánh giá ñịnh lĩnh vực khai phá liệu 2.2.2 2.2.2.1 Sức mạnh ñịnh Khả sinh quy tắc hiểu ñược, khả thực thi lĩnh vực hướng quy tắc, dễ dàng tính toán phân lớp,… 2.2.2.2 Điểm yếu ñịnh Dễ xãy lỗi có nhiều lớp, Chi phí tính toán ñắt ñể ñào tạo 2.2.3 Xây dựng ñịnh Quá trình xây dựng ñịnh gồm hai giai ñoạn: Giai ñoạn thứ phát triển ñịnh bắt ñầu từ gốc, ñến nhánh phát triển quy nạp theo cách thức chia ñể trị ñạt ñược ñịnh với tất ñược gán nhãn lớp Giai ñoạn thứ hai cắt, tỉa bớt cành nhánh ñịnh 2.2.4 Thuật toán quy nạp ñịnh Input : mẫu học ñược biểu thị thuộc tính riêng biệt, tập thuộc tính ñặc trưng danh sách thuộc tính Output : ñịnh 1) Khởi tạo node N; 2) if tất mẫu ñều thuộc vào lớp C then 3) return node N, ñược xem node ñặt tên lớp C; Footer Page 10 of 126 Header Page 11 of 126 -11- 4) if danh sách thuộc tính rỗng then 5) return node N, node ñược ñặt tên lớp lớp chung mẫu ; 6) Chọn thuộc tính thử, thuộc tính danh sách thuộc tính mà có ñộ ño cao nhất; 7) Đặt tên node N với tên thuộc tính thử; 8) Với giá trị ñã biết thuộc tính thử 9) Tạo nhánh từ node N cho ñiều kiện thuộc tính thử = ai; 10) Đặt Si tập mẫu lấy mẫu ban ñầu với thuộc tính thử = ai; 11) if Si rỗng then 12) Tạo node ñịnh, ñược ñặt tên lớp lớp chung hầu hết mẫu ; 13) else thêm vào node kết thuật toán tạo với tham số ñầu vào 2.2.5 Rút trích luật phân lớp từ ñịnh Tri thức ñịnh ñược rút trích biểu diễn thành dạng luật phân lớp IF - THEN Khi ñã xây dựng ñược ñịnh, ta dễ dàng chuyển ñịnh thành tập luật phân lớp tương ñương, luật tương ñương với ñường ñi từ gốc ñến node 2.3 Tìm hiểu công nghệ ứng dụng 2.3.1 Giới thiệu thuật toán ñịnh Microsoft Cây ñịnh Microsoft thuật toán ñịnh lai ghép ñược phát triển nhóm nghiên cứu Microsoft Nó hỗ trợ hai nhiệm vụ phân loại hồi quy Footer Page 11 of 126 Header Page 12 of 126 2.3.2 -12- Data Mining eXtensions DMX - Data Mining eXtensions ngôn ngữ truy vấn khai phá liệu ñược ñịnh nghĩa OLE DB dành cho khai phá liệu, ñược kế thừa hầu hết khái niệm quan hệ cấu trúc dựa ngôn ngữ truy vấn SQL 2.3.3 Giới thiệu Regular Expressions Regular Expression (regex) chuỗi miêu tả chuỗi khác, tập hợp phép xử lý văn tìm kiếm, so khớp, cắt ghép,… theo quy tắc cú pháp ñịnh Regex làm việc dựa mẫu văn theo quy tắc quy ñịnh sẵn trước 2.3.4 Giới thiệu lập trình tương tác Windows services Windows services [12] cung cấp phương tiện cho application logic chạy liên tục máy tính, thông thường việc cung cấp ñiều khiển thiết bị dịch vụ hệ ñiều hành Windows services ứng dụng chạy máy chủ máy trạm cung cấp chức mà diễn tiến không cần tương tác trực tiếp người dùng 2.4 Khảo sát trạng 2.4.1 Phân tích quy trình, hoạt ñộng khách hàng TMĐT Để thực ñăng ký thành viên ñăng tin, giao dịch mua bán website TMĐT, khách hàng phải ñăng ký xác nhận thông tin KH mà dường website thương mại ñiện tử ñều yêu cầu ñó là: email, tên khách hàng, ñiện thoại, ñịa chỉ,… Các hình thức giao dịch thương mại ñiện tử TMĐT ñược phân chia thành số loại B2B, B2C, C2C dựa thành phần tham gia hoạt ñộng thương mại Đặc ñiểm thương mại ñiện tử Footer Page 12 of 126 Header Page 13 of 126 -13- Tính cá nhân hoá, ñáp ứng tức thời, giá linh hoạt, “ñiệp viên thông minh” 2.4.2 Thực trạng khách hàng thương mại ñiện tử Kết khảo sát thống kê khách hàng giao dịch từ website TMĐT http://www.raovat30s.com Bảng 2.1 Bảng thống kê KH giao dịch TMĐT thời ñiểm Nhu Ngày Tên KH Địa Điện thoại Email Mô tả cầu cập nhật Hải Nam TPHCM 0972105943 tinh.hn@gmail.com mua máy tính 14/09/2011 Ngân Hà Nội 0974386284 thaong@yahoo.com mua máy tính 14/09/2011 Tiến Hà Nội 09761383 53 tien@gmail.com bán Laptop 14/09/2011 Tiến Bình Đà Nẵng 0983552518 tnbinh@gmail.com mua Desktop 14/09/2011 Hà Đà Nẵng 0982734515 hant@yahoo.com mua Laptop 14/09/2011 … … … … … … … Bảng thống kê kết khảo sát số lượng KH quan tâm ñến sản phẩm, dịch vụ thời ñiểm ñịnh Bảng 2.2 Bảng thống kê lượng KH quan tâm ñến sản phẩm Nhu Tên KH Địa Hải Nam Điện thoại Email Ngày cầu Mô tả thống kê SL xem TPHCM 0972105943 tinh.hn@gmail.com mua máy tính14/09/2011 10534 Thảo Ngân Hà Nội 0974386284 thaong@yahoo.com mua máy tính14/09/2011 11534 Tiến 097613 53 tien@gmail.com Hà Nội bán laptop 14/09/2011 9534 Tiến Bình Đà Nẵng 0983552518 tienbinh@gmail.commua desktop 14/09/2011 7534 Hà Đà Nẵng 0982734515 hant@yahoo.com mua laptop 14/09/2011 12500 … … … … … … … … Hàng ngày có nhiều thông tin ñược cập nhật website TMĐT bao gồm thư từ, tệp văn bản, sở liệu, tính, hình ảnh, biểu mẫu, Nên khó khăn Footer Page 13 of 126 Header Page 14 of 126 -14- cho doanh nghiệp muốn tìm kiếm, xử lý khai thác nguồn thông tin khách hàng, nhiều thời gian dễ bỏ sót 2.4.3 Nhu cầu quản lý khách hàng Trên thực tế có nhiều website TMĐT ñang hoạt ñộng với số lượng giao dịch KH lớn Tuy nhiên doanh nghiệp chưa có giải pháp ñể quản lý nguồn khách hàng cho có hiệu Việc ứng dụng kỹ thuật KPDL nhằm tìm kiếm, khai thác tự ñộng giúp cho doanh nghiệp có nguồn KH mua bán dồi mà không cần phải bỏ nhiều công sức nguồn nhân lực 2.4.4 Giải pháp xây dựng kịch hệ thống Giải pháp xây dựng hệ thống Xây dựng chương trình có lập lịch ñể tự ñộng chạy máy tính services hệ ñiều hành windows Kịch sử dụng hệ thống Tiến hành triển khai cho máy học với tập liệu huấn luyện ñược xây dựng mã lệnh trích lọc từ nguồn liệu web Sau trình học, so khớp ñược hệ thống trả kết dạng bảng với trường tương ứng Phần thứ liên quan ñến việc thực giải thuật học mẫu Phần thứ hai ñơn giản phần áp dụng liệu ñã tìm 2.4.5 Triển khai ứng dụng học quy nạp ñịnh 2.4.5.1 Xây dựng mẫu học Ứng dụng mã lệnh siêu tìm kiếm ñể xây dựng mẫu ñề tài, xây dựng số mẫu sau: 2.4.5.2 Thuật toán quy nạp ñịnh dựa vào liệu học Input : mẫu học ñược biểu thị thuộc tính riêng biệt, tập thuộc tính ñặc trưng Output : ñịnh Footer Page 14 of 126 Header Page 15 of 126 -15- CHƯƠNG XÂY DỰNG HỆ THỐNG VÀ THỬ NGHIỆM 3.1 Giới thiệu toán 3.1.1 Tính chất Thông qua website TMĐT http://www.raovat30s.com/, Phân tích Weblog ñể khám phá mẫu truy cập người dùng trang Web 3.1.2 Mục tiêu Dựa vào liệu giao dịch thu thập ñược, hệ thống khai thác, trích rút ñược thông tin cần thiết KH 3.1.3 Yêu cầu Đầu vào: Cập nhật danh sách website TMĐT, ñọc nội dung html URL Đầu ra: Bộ liệu phân lớp, chứa ñựng thông tin email, ñiện thoại, tên, ñịa nhu cầu khách hàng,… 3.2 Giải pháp kỹ thuật 3.2.1 Tổng quan Các trang TMĐT diễn hoạt ñộng giao dịch rao vặt, mua, bán hàng, ñăng ký thành viên,…thường thể thông tin có tính cấu trúc như: email, ñiện thoại, tên KH, nhu cầu, ñịa chỉ,… Regular expressions microsoft cung cấp giải pháp tìm kiếm theo cấu trúc mạnh hiệu Kỹ thuật hỗ trợ mạnh mẽ cho việc xử lý chuỗi tìm kiếm, so khớp cắt ghép… Footer Page 15 of 126 Header Page 16 of 126 3.2.2 -16- Mô hình giải pháp 3.2.2.1 Mô hình giải pháp tổng thể Robot Khai phá liệu Internet (WWW) Data base Server Phần mềm ứng dụng User Hình 3.1 Mô hình giải pháp tổng thể 3.2.2.2 Mô hình giải pháp Robot khai phá liệu Internet (WWW ) Tập hợp url chưa khai phá Data base Server Dữ liệu: HTML, văn bản, hình ảnh, Chương trình Điều khiển Mẫu khai phá liệu Kiểm tra TT Hình 3.2 Mô hình giải pháp Robot khai phá liệu Footer Page 16 of 126 Header Page 17 of 126 -17- Trong ñó: (1): Học mẫu KPDL Các mẫu ñược xây dựng theo yêu (2): Danh sách url KPDL DS thường xuyên ñược cập nhật (3): Dữ liệu trả sau khai phá url có cấu trúc (4): Nếu liệu khai phá ñược từ url không phù hợp với mẫu quay lại bước (2) (5): Url khai phá phù hợp với số mẫu (6): Nếu URL ñã tồn thông tin khai phá ñược từ url ñã tồn CSDL quay lại bước (2) (7): Nếu kết khai phá từ URL phù hợp với mẫu chưa có CSDL ñưa vào CSDL (8): CT Điều khiển kết thúc phiên làm việc tất website ñều ñược duyệt qua Ngược lại tiếp tục bước (2) 3.2.2.3 Mô hình giải pháp phần mềm ứng dụng Tìm kiếm KH Phân loại KH Data base Server Đánh giá KH tiềm Gởi quảng bá KH Hình 3.3 Mô hình giải pháp phần mềm ứng dụng 3.2.3 Các chức hệ thống Robot khai phá liệu: Xây dựng mẫu: Xây dựng học mẫu nhóm url cần khai phá Footer Page 17 of 126 Header Page 18 of 126 -18- Download word máy tính: Chức dạng mã lệnh cho phép download liệu url máy tính ñể phân tích mẩu Chuyển liệu sang UTF-8 Chức dạng mã lệnh dùng ñể chuyển liệu dạng mã ký tự sang Unicode UTF-8 Lập danh sách url từ nhóm url: Chức dạng mã lệnh dùng ñể phân tích chi tiết url từ nhóm url ñưa vào danh sách ñể khai phá liệu Kiểm tra tồn CSDL: Chức dạng mã lệnh dùng ñể kiểm tra url ñã ñược khai phá chưa Khai phá: Chức dạng mã lệnh dùng ñể KPDL theo mẫu ñã lập Đưa liệu ñã khai phá vào CSDL Chức dạng mã lệnh dùng ñể chèn liệu ñã khai phá ñược vào CSDL Đặt lịch khai phá liệu: Chức dùng ñặt lịch ñể tự ñộng KPDL theo thời gian lập trước Thường trú Robot khai phá Windows service: Chức cho phép cài ñặt Robot KPDL chạy thường trú Windows service Phần mềm ứng dụng khai thác liệu Phân loại thông tin: Chức cho phép phân loại thông tin khai phá ñược theo tiêu chí: Footer Page 18 of 126 Header Page 19 of 126 -19- Tìm kiếm thông tin: Tìm kiếm thông tin khai phá ñược qua trường liệu Đánh giá khách hàng tiềm năng: Đánh giá tiềm KH dựa vào thông tin khai phá ñược qua trường liệu 3.3 Xây dựng mô hình phân lớp liệu trực quan 3.3.1 Thiết kế CSDL vật lý với MSSQL Server Các bảng liệu sử dụng chương trình 1) Thongtinkhaipha Mục ñích: Lưu thông tin khai phá ñược từ website TMĐT Bảng 3.1 Bảng liệu thông tin khai phá Trường Kiểu liệu NULL Mô tả Matin int Tieude nvarchar(100) Có Tiêu ñề url khai phá Email varchar(50) Có Email người ñăng tin Dienthoai nvarchar(50) Có Điện thoại người ñăng tin Hoten nvarchar(50) Có Họ tên người ñăng tin Diachi nvarchar(50) Có Địa người ñăng tin Tinhthanh nvarchar(20) Có Tỉnh thành cần mua bán,… Nhucau nvarchar(20) Có Nhu cầu mua, bán,… Gia nvarchar(50) Có Giá Url Mota Ngay Ngaylammoi varchar(160) Có nvarchar(160) Có datetime Có datetime Có Cophi int Footer Page 19 of 126 Không Trường khóa Có Url gốc khai phá Mô tả nội dung url Ngày khai phá url Ngày cập nhật, làm url người ñăng tin tự cập nhật =1 ñây tin VIP (có phí) =0 ngược lại Header Page 20 of 126 -20- 2) Urltuchoi Mục ñích: Lưu trữ url ñã duyệt qua không thỏa mãn Bảng 3.2 Bảng liệu URL từ chối Trường Kiểu liệu NULL Matin int Không Link nvarchar(160) Có Mô tả Trường khóa Link url gốc không thỏa mãn 3) URLdaduyet Mục ñích: lưu url ñã duyệt qua thỏa mãn tập mẫu Bảng 3.3 Bảng liệu URL ñã duyệt Trường Kiểu liệu NULL Matin int Link nvarchar(160) Có Tieude nvarchar(100) Có Mô tả Không Trường khóa Link url gốc không thỏa mãn Tiêu ñề url 4) Taphopmau Mục ñích: Lưu tên giá trị mẫu Bảng 3.4 Bảng liệu tập hợp mẫu Tên cột Kiểu liệu NULL Ghi Không Trường khóa bảng Khoa Int(4) Tenmau NVarchar(50) Có Tên mẫu Hammau Nvarchar(2000) Có Hàm mẫu 4) Lichkhaipha Mục ñích: Lưu thời gian lịch ñể tự ñộng khai phá thông tin Footer Page 20 of 126 Header Page 21 of 126 -21- Bảng 3.5 Bảng liệu lịch khai phá Trường Kiểu liệu NULL Mô tả Idkey int Không Tenlich nvarchar(50) Có Tên lịch Ngaybdhl datetime Có Ngày lịch bắt ñầu hiệu lực Ngaykthl datetime Có Ngày lịch kết thúc hiệu lực Loop int Có Lịch tự ñộng KPDL Looptype nvarchar(10) Có Lặp lại trình khai phá: Trường khóa 6) Taikhoan: Mục ñích: Tài khoản sử dụng chương trình 3.3.2 Giao diện chương trình 3.3.2.1 Giao diện chương trình Robot khai phá liệu Giao diện hệ thống khai phá thông tin Hình 3.4 Giao diện chương trình Robot khai phá liệu Footer Page 21 of 126 Header Page 22 of 126 -22- 3.3.2.2 Giao diện chương trình phần mềm ứng dụng Hình 3.5 Giao diện chương trình phần mềm ứng dụng 3.4 Kết thử nghiệm 3.4.1 Khai phá liệu từ trang thương mại ñiện tử Nhập URL thương mại vào hệ thống: Đây chức cho máy học với tập liệu mẫu ñược chọn Hình 3.6 Chọn URL ñể khai phá Footer Page 22 of 126 Header Page 23 of 126 -23- Hiển thị liệu ñược huấn luyện sau học: Hình 3.7 Hiển thị liệu ñược huấn luyện Hệ thống hoạt ñộng theo phiên làm việc ñã ñược lập lịch cho trước, thông tin khai phá mẫu ñược cập nhật chưa tồn hệ thống 3.4.2 Xử lý liệu thu ñược từ khai phá Tìm kiếm Hiển thị kết sau ñã nhập thông tin có liên quan: Phần hiển thị kết tương ứng với liệu ñược người sử dụng nhập vào Phân loại theo nhu cầu Phần hiển thị kết tương ứng với liệu ñược người sử dụng chọn Đánh giá Khách hàng tiềm Đây phần giúp cho người dùng, lãnh ñạo có kết ñánh giá, phân tích nguồn KH tiềm Footer Page 23 of 126 Header Page 24 of 126 -24- Gởi email quảng bá khách hàng Các nguồn thông tin mà hệ thống trích rút ñược email, ñiện thoại giúp cho doanh nghiệp tiếp cận kịp thời tư vấn với khách hàng thông qua hệ thống gởi mail, tin nhắn, 3.5 Đánh giá kết chương trình Hệ thống khai phá hoạt ñộng chạy tự ñộng theo lập lịch ñịnh sẵn Hệ thống ñã xử lý trích rút ñược thông tin KH tương ñối xác phù hợp với yêu cầu ñề tài Kết thông tin KH sau chương trình khai phá từ trang TMĐT ñược ñưa vào CSDL theo trường, bảng liệu Rất thuận tiện cho doanh nghiệp triển khai khai thác ứng dụng theo dõi, tìm kiếm, phân loại khách hàng Footer Page 24 of 126 Header Page 25 of 126 -25KẾT LUẬN Kết ñạt ñược Nội dung nghiên cứu ñề tài, tác giả ñã ñưa giải pháp từ việc phân loại liệu phiên giao dịch, TMĐT , tiến hành khai thác xử lý chúng ñể chiết xuất tri thức cần thiết Các tri thức lại ñược tối ưu hoá ñem vào sử dụng cách hiệu phiên giao dịch lần Đề tài ñã ñi sâu vào tính ứng dụng, ñưa cách thức xử lý thi hành tri thức ñược chiết xuất cách hiệu Về mặt lý thuyết, ñã nêu ñược giải pháp ứng dụng kỹ thuật phân lớp liệu vào toán quản lý khách hàng mạng Về mặt thực tiễn, khẳng ñịnh ñề tài ñã ñáp ứng ñược mục tiêu ñề ra, hệ thống ñã khai phá ñược thông tin khách hàng giao dịch mạng hữu ích cần thiết, nhằm hỗ trợ doanh nghiệp có ñược nguồn khách hàng dồi nắm bắt kịp thời hội kinh doanh Đồng thời thông tin thu ñược nguồn liệu sở ñể cho doanh nghiệp phân tích ñịnh hướng chiến lược hoạt ñộng kinh doanh ñơn vị Hướng phát triển Trong khuôn khổ ñề tài, tiến hành thực nghiệm website TMĐT http://www.raovat30s.com với mẫu liệu máy tính linh kiện Tuy nhiên dễ dàng ñể phát triển trang TMĐT khác thêm mẫu về: Điện thoại, ñiện máy ñiện tử, y tế, bất ñộng sản,… Hầu hết tất mặt hàng kinh doanh Nghiên cứu thiên tính ứng dụng CSDL giao dịch, song việc nghiên cứu ñược tiếp tục phát triển sở liệu khác nhằm mục ñích tìm quy luật ứng dụng cho tri thức ñã chiết xuất Footer Page 25 of 126 ... tài liệu hỗ trợ cho lãnh ñạo xây dựng chiến lược kinh doanh Chính lý nêu trên, ñịnh chọn ñề tài Nghiên cứu ứng dụng kỹ thuật phân lớp liệu quản lý khách hàng mạng Mục ñích nghiên cứu Nghiên cứu. .. lớp liệu học ví dụ, phân cụm liệu coi cách học quan sát Footer Page of 126 Header Page of 126 -9- CHƯƠNG GIẢI PHÁP PHÂN LỚP DỮ LIỆU TRONG QUẢN LÝ KHÁCH HÀNG TRÊN MẠNG 2.1 Bài toán phân lớp liệu. .. vào tính ứng dụng, ñưa cách thức xử lý thi hành tri thức ñược chiết xuất cách hiệu Về mặt lý thuyết, ñã nêu ñược giải pháp ứng dụng kỹ thuật phân lớp liệu vào toán quản lý khách hàng mạng Về mặt