Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
338,81 KB
Nội dung
-1-
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
TRƯƠNG TIẾN DƯỠNG
NGHIÊN CỨUỨNGDỤNGPHÂNLỚPDỮLIỆU
TRONG QUẢNLÝKHÁCHHÀNGTRÊNMẠNG
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2012
-2-
Công trình ñược hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học: PGS.TS. PHAN HUY KHÁNH
Phản biện 1: TS. NGUYỄN TRẦN QUỐC VINH
Phản biện 1: PGS.TS. LÊ MẠNH THẠNH
Luận văn ñược bảo vệ tại Hội ñồng chấm Luận văn
tốt nghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 03
tháng 03 năm 2012
Có thể tìm hiểu luận văn tại:
• Trung tâm Thông tin - H
ọc liệu, Đại học Đà Nẵng
• Trung tâm Học liệu, Đại học Đà Nẵng
-3-
MỞ ĐẦU
1. Lý do chọn ñề tài
Trong kinh doanh yếu tố kháchhàng quyết ñịnh ñến sự
thành bại của doanh nghiệp, khi thông tin ñang trở thành yếu tố
quyết ñịnh trong kinh doanh thì vấn ñề tìm ra các thông tin hữu ích
trong các CSDL khổng lồ ngày càng trở thành mục tiêu quantrọng
của các doanh nghiệp. Vì vậy một trong những giải pháp hữu hiệu
nhất nhằm khắc phục các vấn ñề nêu trên là tiến hành triển khai xây
dựng một hệ thống khai phá dữliệu (KPDL), khai thác quảnlý
nguồn kháchhàng nói trên. Đó là một hệ thống ñược thiết kế giúp
cho lãnh ñạo doanh nghiệp nắm bắt ñược nguồn thông tin khách
hàng hữu ích và các tri thức chiết xuất ñược từ CSDL trên sẽ là một
nguồn tài liệu hỗ trợ cho lãnh ñạo xây dựng chiến lược kinh doanh.
Chính vì những lý do nêu trên, tôi quyết ñịnh chọn ñề tài “Nghiên
cứu ứngdụng kỹ thuật phânlớpdữliệutrongquảnlýkhách
hàng trên mạng”.
2. Mục ñích nghiên cứu
Nghiên cứu phương pháp phânlớpdữliệutrong KPDL, các
thuật toán liên quan ñến quy nạp cây quyết ñịnh, tìm hiểu các ngôn
ngữ mã lệnh siêu tìm kiếm Regurlation Expressions,
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu
Tìm hiểu các website TMĐT bán hàng trực tuyến với số
l
ượng truy cập và giao dịch lớn phong phú, ña dạng có thể gây khó
khăn trong công tác quảnlý nguồn khách hàng.
-4-
Phạm vi nghiên cứuỨngdụng các thuật toán của kỹ thuật phânlớpdữliệu ñể
xây dựng phục vụ công việc khai thác nguồn khách hàng.
4. Phương pháp nghiên cứu
Dựa trên thực trạng các website TMĐT hiện có ñể xây dựng
ứng dụngquảnlýkhách hàng.
5. Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học
Đề xuất giải pháp ứngdụng kỹ thuật phân lớpdữliệu vào
trong khai thác quảnlý nguồn kháchhàngtrên mạng.
Ý nghĩa thực tiễn
Sản phẩm là hệ thống hỗ trợ ñắc lực, kịp thời và có ñộ hiệu
quả cao cho các doanh nghiệp thu thập ñược thông tin và ñưa ra các
chính sách phù hợp trong hoạt ñộng kinh doanh của ñơn vị.
6. Cấu trúc của luận văn
Nội dụng chính của luận văn này ñược chia thành ba chương
với nội dung như sau:
Chương 1. Tổng quan về khai phá dữliệu
Chương 2. Giải pháp phân lớpdữliệu bằng kỹ thuật quy nạp
cây quyết ñịnh.
Chương 3. Xây dựng hệ thống và thử nghiệm.
-5-
CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮLIỆU
1.1. Giới thiệu về khai phá dữliệu
1.1.1. Khái niệm về khai phá dữliệu
Khai phá dữliệu (Data Mining) là quá trình khảo sát và phân
tích một khối lượng lớn các dữliệu ñược lưu trữ trong các CSDL,
kho dữ liệu,…ñể từ ñó trích xuất ra các thông tin quan trọng, có giá
trị tiềm ẩn bên trong [6][10].
1.1.2. Những lợi thế và thách thức của khai phá dữliệu
1.1.2.1. Lợi thế
KPDL là một lĩnh vực liên quan tới nhiều ngành học khác
như: hệ cơ sở dữ liệu, thống kê xác suất, trực quan hoá… Thêm vào
ñó KPDL còn có thể áp dụng các kỹ thuật như mạng nơron, lý thuyết
tập thô, tập mờ, biểu diễn tri thức…
1.1.2.2. Thách thức
Những hạn chế của các thuật toán: Hầu hết các thuật toán ñều
khá là tổng quát, nó sinh ra nhiều luật. Mặc dù các luật sinh ra ña số
ñều hữu ích nhưng ta vẫn phải ño ñộ ñáng quan tâm của các mẫu nên
vẫn cần sự can thiệp của các chuyên gia nghiệp vụ.
1.1.3. Những nhu cầu về khai phá dữliệutrong kinh doanh
Phân loại kháchhàng ñể từ ñó phân ñịnh thị trường, thị phần.
Tăng sức cạnh tranh, làm thế nào ñể giữ ñược kháchhàng cũ và thu
hút ñược thêm nhiều kháchhàng mới. Phân tích rủi ro trước khi ra
các quyết ñịnh quantrọngtrong chiến lược hoạt ñộng sản xuất kinh
doanh. Ra các báo cáo giàu thông tin …
Tất cả các nhu cầu xã hội trên ñòi hỏi cần phải có một phương
th
ức, công cụ nào ñó hỗ trợ bên cạnh các chuyên gia kinh tế. Và
KPDL là một chìa khoá hỗ trợ giải quyết vấn ñề nêu trên.
-6-
1.1.4. Khai phá dữliệutrong một số lĩnh vực quantrọng khác
1.2. Các phương pháp chính trong khai phá dữliệu
1.2.1. Phân loại
Phân loại là tổ chức dữliệutrong các lớp cho trước, còn
ñược gọi là học có quan sát. Phân loại sử dụng các nhãn lớp cho
trước ñể sắp xếp các ñối tượng. Trong ñó có một tập huấn luyện gồm
các ñối tượng ñã ñược kết hợp với các nhãn ñã biết. Một số thuật
toán dùngtrong bài toán phân loại như: cây quyết ñịnh, mạng nơron,
Naive Bayes.
1.2.2. Phân cụm
Phân cụm là kỹ thuật KPDL tương tự như phân loại dữ
liệu. Tuy nhiên, sự phân nhóm dữliệu là quá trình học không ñược
giám sát.
1.2.3. Luật kết hợp
1.2.4. Hồi quy
1.2.5. Phân tích chuỗi
1.3. Các bước xây dựng một giải pháp về khai phá dữliệu
1.3.1. Mô hình luồng dữliệu
Hình 1.1 Mô hình luồng dữliệu
OLTP
D
W
Ứng dụng
OLAP
X
ử lý giao dịch
tr
ực tuyến
Kho dữliệu
X
ử lýphân tích
tr
ực tuyến
Khai phá dữliệu
-7-
1.3.2. Vòng ñời của một hệ thống khai phá dữliệu
Bước 1: Xác ñịnh mục tiêu bài toán.
Bước 2: Thu thập dữ liệu.
Bước 3: Làm sạch dữliệu và chuyển ñổi dữ liệu.
Bước 4: Xây dựng mô hình.
Bước 5: Đánh giá mô hình hay ñánh giá mẫu.
Bước 6: Báo cáo.
Bước 7: Dự ñoán.
Bước 8: Tích hợp vào ứng dụng.
Bước 9: Quảnlý mô hình.
1.3.3. Kiến trúc của một hệ thống khai phá dữliệu ñiển hình
Hình 1.2 Ki
ến trúc của một hệ thống khai phá dữliệu ñiển hình
Giao diện ñồ họa
ngư
ời dùng
Đánh giá mẫu
Máy khai phá dữliệu
Máy chủ CSDL / Kho
d
ữ liệu
C
ơ sở
dữ liệu
Kho
dữ liệu
Cơ sở
tri thức
Làm sạch dữ liệu
Lọc
-8-
1.3.3.1. Phương pháp ñánh giá ñộ chính xác của mô hình phânlớp
Trong phương pháp holdout, dữliệu dưa ra ñược phân chia
ngẫu nhiên thành 2 phần là: tập dữliệu ñào tạo và tập dữliệu kiểm
tra. Thông thường 2/3 dữliệu cấp cho tập dữliệu ñào tạo, phần còn
lại cho tập dữliệu kiểm tra.
Trong phương pháp k-fold cross validation tập dữliệu ban ñầu
ñược chia ngẫu nhiên thành k tập con (fold) có kích thước xấp xỉ
nhau S1, S2, …, Sk. Quá trình học và test ñược thực hiện k lần. Tại
lần lặp thứ i, Si là tập dữliệu kiểm tra, các tập còn lại hợp thành tập
dữ liệu ñào tạo.
1.3.3.2. Vấn ñề quảnlý KH trênmạng và sự liên quan ñến DM
KPDL giúp lãnh ñạo các doanh nghiệp xác ñịnh ñược các KH
mục tiêu, phân loại ñể từ ñó hỗ trợ các doanh nghiệp có một chiến
lược quảng cáo, tiếp thị tốt. Tổng hợp các tri thức này lãnh ñạo có
thể lên kế hoạch hoạt ñộng, sản xuất, kinh doanh một cách thuận tiện
hơn nhằm giảm bớt thời gian thống kê, tìm hiểu thị hiếu KH. Chẳng
hạn chiến lược quảng cáo cho các ñối tượng KH khác nhau…
1.3.4. So sánh giữa các kỹ thuật khai phá dữliệu
1.3.4.1. Kỹ thuật khai phá dữliệu mô tả
Mục tiêu chính của phương pháp phân cụm dữliệu là nhóm
các ñối tượng tương tự nhau trong tập dữliệu vào các cụm sao cho
các ñối tượng thuộc cùng một lớp là tương ñồng còn các ñối tượng
thuộc các cụm khác nhau sẽ không tương ñồng.
1.3.4.2. Kỹ thuật khai phá dữliệudự ñoán
Mục tiêu của phương pháp phân lớpdữliệu là dự ñoán nhãn
l
ớp cho các mẫu dữ liệu. Không giống như phân cụm dữ liệu, phân
lớp dữliệu là học bằng ví dụ, trong khi phân cụm dữliệu có thể coi
là một cách học bằng quan sát.
-9-
CHƯƠNG 2. GIẢI PHÁP PHÂNLỚPDỮLIỆU
TRONG QUẢNLÝKHÁCHHÀNGTRÊNMẠNG
2.1. Bài toán phânlớpdữliệu
2.1.1. Giới thiệu
Phân lớp là một tiến trình xử lý nhằm xếp các mẫu dữliệu hay
các ñối tượng vào một trong các lớp ñã ñược ñịnh nghĩa trước.
2.1.2. Các bước chính ñể giải quyết bài toán phân lớp
Phân lớpdữliệu gồm hai bước xử lý chính:
Bước 1: Học, mục ñích của bước này là xây dựng một mô hình xác
ñịnh một tập các lớpdữ liệu.
Bước 2 : Kiểm tra và ñánh giá, bước này sử dụng mô hình phânlớp
ñã ñược xây dựng ở bước 1 vào việc phân lớp.
2.1.3. Các cơ sở dữliệu phục vụ cho phânlớpdữliệu
2.1.3.1. Cơ sở dữliệu giao tác
CSDL giao tác là tập hợp những bản ghi giao dịch, trong ña
số các trường hợp chúng là những bản ghi các dữliệu hoạt ñộng
của doanh nghiệp, tổ chức.
2.1.3.2. Cơ sở dữliệu ña phương tiện
KPDL web thông thường ñược chia thành ba phạm trù
chính: Khai phá cách dùng web, khai phá cấu trúc web và khai phá
nội dung web.
2.1.3.3. Cơ sở dữliệu Hypertext
HyperText là loại dữliệu phổ biến hiện nay, và cũng là loại
dữ liệu có nhu cầu tìm kiếm và phânlớp rất lớn.
-10-
2.2. Phânlớp bằng phương pháp quy nạp cây quyết ñịnh
2.2.1. Khái niệm cây quyết ñịnh
Cây quyết ñịnh là một flow-chart giống cấu trúc cây, nút bên
trong biểu thị một kiểm tra trên một thuộc tính, nhánh biểu diễn ñầu
ra của kiểm tra, nút lá biểu diễn nhãn lớp.
2.2.2. Đánh giá cây quyết ñịnh trong lĩnh vực khai phá dữliệu
2.2.2.1. Sức mạnh của cây quyết ñịnh
Khả năng sinh ra các quy tắc hiểu
ñược, khả năng thực thi
trong những lĩnh vực hướng quy tắc, dễ dàng tính toán trong khi
phân lớp,…
2.2.2.2. Điểm yếu của cây quyết ñịnh
Dễ xãy ra lỗi khi có quá nhiều lớp, Chi phí tính toán ñắt ñể
ñào tạo
2.2.3. Xây dựng cây quyết ñịnh
Quá trình xây dựng cây quyết ñịnh gồm hai giai ñoạn:
Giai ñoạn thứ nhất phát triển cây quyết ñịnh bắt ñầu từ gốc,
ñến từng nhánh và phát triển quy nạp theo cách thức chia ñể trị
cho tới khi ñạt ñược cây quyết ñịnh với tất cả các lá ñược gán
nhãn lớp.
Giai ñoạn thứ hai cắt, tỉa bớt các cành nhánh trên cây quyết
ñịnh.
2.2.4. Thuật toán quy nạp cây quyết ñịnh
Input
: những mẫu học ñược biểu thị bằng những thuộc tính riêng
biệt, một tập các thuộc tính ñặc trưng và danh sách các thuộc tính.
Output
: một cây quyết ñịnh.
1) Khởi tạo một node N;
2)
if
tất cả các mẫu ñều thuộc vào cùng một lớp C
then
3)
return
node N, ñược xem là 1 node lá và ñặt tên là lớp C;
[...]... 2.4.1 Phân tích quy trình, ho t ñ ng kháchhàng TMĐT Đ th c hi n ñăng ký thành viên ho c ñăng tin, giao d ch mua bán trên website TMĐT, kháchhàng ph i ñăng ký xác nh n các thông tin c a KH mà dư ng như các website thương m i ñi n t ñ u yêu c u ñó là: email, tên khách hàng, ñi n tho i, ñ a ch ,… Các hình th c giao d ch trong thương m i ñi n t TMĐT ñư c phân chia thành m t s lo i như B2B, B2C, C2C d a trên. .. qu trên các phiên giao d ch trong nh ng l n ti p theo Đ tài ñã ñi sâu vào tính ng d ng, ñưa ra cách th c x lý thi hành các tri th c ñư c chi t xu t m t cách hi u qu V m t lý thuy t, ñã nêu ñư c gi i pháp ng d ng k thu t phân l p d li u vào bài toán qu n lýkháchhàngtrên m ng V m t th c ti n, có th kh ng ñ nh ñ tài ñã ñáp ng ñư c các m c tiêu ñ ra, h th ng ñã khai phá ñư c các thông tin khách hàng. .. chương trình khai phá t trên trang TMĐT ñư c ñưa vào CSDL theo các trư ng, b ng d li u R t thu n ti n cho doanh nghi p tri n khai và khai thác các ng d ng như theo dõi, tìm ki m, phân lo i kháchhàng -25K T LU N K t qu ñ t ñư c N i dung nghiên c u trong ñ tài, tác gi ñã ñưa ra m t gi i pháp t vi c phân lo i d li u trên các phiên giao d ch, trên TMĐT , r i ti n hành khai thác x lý chúng ñ chi t xu t... 14/09/2011 12500 … … … … … … … … Hàng ngày có r t nhi u thông tin ñư c c p nh t trên các website TMĐT này bao g m c thư t , các t p văn b n, các cơ s d li u, các b n tính, các hình nh, các bi u m u, Nên r t khó khăn -14cho doanh nghi p khi mu n tìm ki m, x lý khai thác ngu n thông tin c a khách hàng, m t r t nhi u th i gian và d b sót 2.4.3 Nhu c u qu n lýkháchhàngTrên th c t hi n có r t nhi u website... u Phân lo i thông tin: Ch c năng này cho phép phân lo i các thông tin khai phá ñư c theo các tiêu chí: -19Tìm ki m thông tin: Tìm ki m thông tin khai phá ñư c qua các trư ng d li u Đánh giá kháchhàng ti m năng: Đánh giá ti m năng KH d a vào thông tin khai phá ñư c qua các trư ng d li u 3.3 Xây d ng mô hình phân l p d li u tr c quan 3.3.1 Thi t k CSDL v t lý v i MSSQL Server Các b ng d li u s d ng trong. .. thông tin kháchhàng giao d ch trên m ng h u ích và c n thi t, nh m h tr doanh nghi p có ñư c ngu n kháchhàng d i dào và n m b t k p th i các cơ h i kinh doanh Đ ng th i thông tin thu ñư c s là ngu n d li u cơ s ñ cho doanh nghi p phân tích và ñ nh hư ng chi n lư c trong ho t ñ ng kinh doanh c a ñơn v Hư ng phát tri n Trong khuôn kh c a ñ tài, ch ti n hành th c nghi m trên website TMĐT http://www.raovat30s.com... chưa t n t i trên h th ng 3.4.2 X lý các d li u thu ñư c t khai phá Tìm ki m Hi n th k t qu sau khi ñã nh p các thông tin có liên quan: Ph n này s hi n th k t qu tương ng v i d li u ñư c ngư i s d ng nh p vào Phân lo i theo nhu c u Ph n này s hi n th k t qu tương ng v i d li u ñư c ngư i s d ng ch n Đánh giá Kháchhàng ti m năng Đây là ph n giúp cho ngư i dùng, lãnh ñ o có k t qu ñánh giá, phân tích ngu... giá, phân tích ngu n KH ti m năng -24G i email qu ng bá kháchhàng Các ngu n thông tin mà h th ng trích rút ñư c như email, ñi n tho i s giúp cho doanh nghi p ti p c n k p th i và tư v n v i kháchhàng thông qua h th ng g i mail, tin nh n, 3.5 Đánh giá k t qu chương trình H th ng khai phá ho t ñ ng ch y t ñ ng theo b l p l ch ñ nh s n H th ng ñã x lý và trích rút ñư c nh ng thông tin KH tương ñ i chính... m v phân lo i và h i quy -122.3.2 Data Mining eXtensions DMX - Data Mining eXtensions là m t ngôn ng truy v n khai phá d li u ñư c ñ nh nghĩa trong OLE DB dành cho khai phá d li u, ñư c k th a h u h t các khái ni m quan h và c u trúc c a nó d a trên ngôn ng truy v n SQL 2.3.3 Gi i thi u v Regular Expressions Regular Expression (regex) là m t chu i miêu t m t b các chu i khác, t p h p các phép x lý. .. chung nh t trong các m u ; 6) Ch n thu c tính th , là m t thu c tính trong danh sách thu c tính mà có ñ ño cao nh t; 7) Đ t tên node N v i tên c a thu c tính th ; 8) V i m i giá tr ai ñã bi t c a thu c tính th 9) T o ra 1 nhánh t node N cho ñi u ki n thu c tính th = ai; 10) Đ t Si là m t t p các m u l y trong các m u ban ñ u v i thu c tính th = ai; 11) if Si là r ng then 12) T o ra m t node lá trên cây . những lý do nêu trên, tôi quyết ñịnh chọn ñề tài “Nghiên
cứu ứng dụng kỹ thuật phân lớp dữ liệu trong quản lý khách
hàng trên mạng .
2. Mục ñích nghiên cứu. NGHIÊN CỨU ỨNG DỤNG PHÂN LỚP DỮ LIỆU
TRONG QUẢN LÝ KHÁCH HÀNG TRÊN MẠNG
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 60.48.01
TÓM TẮT LUẬN VĂN