Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
1,18 MB
Nội dung
1
HỌC VIỆNCÔNG NGHỆ BƯU CHÍNH VIỄNTHÔNG
TRẦN NAM QUỲNH
XÂY DỰNGKHODỮLIỆUKHÁCHHÀNGSỬDỤNGDỊCHVỤ
VIỄN THÔNGPHỤCVỤCÔNGTÁCQUẢNLÝ
CHUYÊN NGÀNH: TRUYỀN DỮLIỆU VÀ MẠNG MÁY TÍNH
MÃ SỐ: 60.48.15
Ngư
ời h
ư
ớng dẫn khoa học:
PGS.TS. LÊ HỮU LẬP
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2011
2
MỞ ĐẦU
1. Lý do chọn đề tài
Việc áp dụngcông nghệ thông tin vào thực tiễn sản xuất kinh doanh đã
mang lại những hiệu quả và lợi ích to lớn. Các hệ thốngthông tin từ chỗ chỉ giải
quyết những xử lýcông việc hàng ngày nay đã tiến tới đáp ứng được những yêu
cầu ở mức độ cao hơn. Các nhà quảnlý điều hành không những biết được công
việc đang diễn ra như thế nào mà còn biết cái gì sẽ xảy ra sau đó, có nghĩa là
thông tin mang tính phân tích và hệ thốngthông tin có khả năng hỗ trợ quyết
định. Tuy nhiên việc xâydựng một hệ thống như thế vấp phải một số hạn chế về
mặt kỹ thuật, đặc biệt là khi kích thước cũng như độ phức tạp của môi trường
thông tin tăng lên. Lưu trữ phân tán ở nhiều dạng không tương thích với nhau,
thậm chí còn ở những dạng phi cấu trúc. Nhiều hệ CSDL đã được xâydựng
không tương thích với nhau và không tương thích với những hệ thông tin mới
được xây dựng. Nhiều kháchhàng không thoả mãn với những hệ thốngthông tin
hiện thời.
Một cách tiếp cận được đề xướng bởi B.Inmon là sự kết hợp của một số giải
pháp kỹ thuật và được đặt tên là Data Warehoushing - kỹ thuật xâydựng các
kho dữ liệu. Data Warehouse được định nghĩa như một tập hợp các phương tiện
cho phép hình dungdữliệu một cách tổng thể, hướng đối tượng để giúp cho việc
phân tích và ra quyết định.
2. Mục đích của đề tài: Tiếp cận các phương pháp khai phá dữliệu để tích hợp
dữ liệu và các siêu dữliệu từ nhiều nguồn thành một nguồn mang tính lôgic duy
nhất nhằm cung cấp thông tin trợ giúp cho việc phân tích và ra quyết định.
3. Đối tượng và phạm vi nghiên cứu: Việc nghiên cứu sẽ tập trung xâydựng
các báo cáo dựa trên khodữliệu tích hợp từ các nguồn dữliệu hiện có với các
ứng dụngquảnlý điều hành sản xuất kinh doanh của VNPT Quảng Ninh.
4. Phương pháp nghiên cứu: Tìm hiểu các tài liệu liên quan đến Data
Warehouse các kỹ thuật truy cập, phân tích và khai phá dữ liệu.
3
5. Kết cấu của luận văn
Luận văn bao gồm 3 chương:
Chương 1: Tổng quan về Khodữliệu và Khai phá dữliệu
Tìm hiểu về khodữ liệu, đặc điểm, phân loại, sửdụng đồng thời nghiên
cứu và trình bày về Khai phá dữ liệu.
Chương 2: Xâydựngkhodữ liệu.
Chương này phân tích các yêu cầu xâydựngkhodữ liệu; Các mô hình dữ
liệu; Cấu trúc, kiến trúc trong việc xâydựngkhodữ liệu.
Chương 3: Xâydựngkhodữliệukháchhàngsửdụngdịchvụviễnthôngphục
vụ côngtácquản lý.
CHƯƠNG I
TỔNG QUAN VỀ KHODỮLIỆU VÀ KHAI PHÁ DỮLIỆU
1.1 Tổng quan về khodữliệu
Ngày nay, thông tin trở thành một yếu tố quan trọng cần được quảnlý và
khai thác hiệu quả bởi chính việc quảnlý và khai thác thông tin này sẽ mang lại
một phần lợi ích không nhỏ trong việc tổ chức và quảnlý của các tổ chức kinh
tế. Hơn thế, các yêu về khả năng lưu trữ thông tin khối lượng lớn, xử lýthông
tin nhanh chóng ngày càng trở nên phổ biến. Điều này dẫn đến sự ra đời của
Data Warehouse. Data Warehouse không chỉ đáp ứng những nhu cầu về việc lưu
trữ và quảnlýthông tin mà nó còn là nền tảng để người dùng có thể sửdụng
những kỹ thuật hỗ trợ trực tuyến OLAP và đặc biệt là nó tạo một nền tảng thuận
lợi để người dùng có thể khai thác, phân tích và dự đoán về số liệu của mình
thông qua những kỹ thuật khai phá dữliệu (data mining).
1.1.1 Định nghĩa
Kho dữliệu (Data Warehouse – DW) không phải là một khái niệm mới và
đã được định nghĩa theo rất nhiều cách khác nhau, vì vậy khó có thể định nghĩa
chuẩn xác được. Theo một nghĩa nào đó thì khodữliệu được xem như là một cơ
sở dữliệu được duy trì riêng biệt từ nhiều nguồn cơ sở dữliệu (CSDL) tác
4
nghiệp khác nhau, hỗ trợ phân tích trên cơ sở các dữliệu lịch sử và các công cụ
truy vấn dữliệu mạnh.
1.1.2 Đặc điểm
Một khodữliệu được xác định là một cơ sở dữliệu trong đó có chứa bốn đặc
tính sau: hướng chủ đề, tính ổn định, được tích hợp, gắn với thời gian.
1.1.3 Phân loại
Tùy thuộc vào quy mô tổ chức, cách tổ chức và vị trí của Data Warehouse mà
người ta chia Data Warehouse nói chung ra thành hai loại là: Data Mart và
Enterprise Data Warehouse.
1.1.3.1. Khái niệm Enterprise Data Warehouse
Nếu như một Enterprise Data Warehouse là một cơ sở dữliệu bao gồm dữ
liệu về nhiều đối tượng khác nhau, trên toàn bộ cơ quan và thường được xây
dựng tập trung.
1.1.3.2. Khái niệm Data Mart
Data Mart cũng là một cơ sở dữliệu có những đặc điểm giống với khodữ
liệu nhưng quy mô của nó nhỏ hơn và lưu trữ dữliệu về một lĩnh vực, một
chuyên ngành cụ thể.
1.1.3.3. Phân loại Data Mart
- DM phụ thuộc.
- DM độc lập.
1.1.3.4. Siêu dữliệu (Metadata)
Metadata là một loại “dữ liệu về dữ liệu”, nó được xâydựng nhằm mục
đích mô tả cấu trúc nội dung về dữliệu bên trong cơ sở dữ liệu. Metadata có ý
nghĩa đặc biệt quan trọng trong việc xâydựng và tổ chức lưu trữ dữliệu của
Data Warehouse.
5
1.1.4. Các phương pháp sửdụngkhodữliệu
1.1.4.1. Cách sửdụng truyền thống
Trong cách sửdụng này việc khai thác thông tin dựa trên các công cụ truy
vấn và báo cáo. Nhờ có việc trích lọc, tích hợp và chuyển đổi các dữliệu thô
sang dạng dữliệu có chất lượng cao và có tính ổn định.
1.1.4.2. Hỗ trợ trực tuyến (OLAP)
Nếu ngôn ngữ truy vấn chuẩn SQL và các công cụ làm báo cáo truyền
thống chỉ có thể miêu tả những gì có trong cơ sở dữliệu thì phân tích trực tuyến
có khả năng phân tích dữ liệu, xem xét xem giả thuyết là đúng hay sai. Tuy
nhiên phân tích trực tuyến lại không có khả năng đưa ra giả thuyết. Do kích
thước quá lớn và có tính chất phức tạp nên khó có thể sửdụng Data Warehouse
cho mục đích này.
1.1.4.3. Công nghệ khai phá dữliệu (Data mining)
Trong hoàn cảnh hiện nay sự phát triển của dữliệu đặt ra yêu cầu phải lưu
trữ dữliệuphức tạp và có kích thước lớn. Việc khai phá dữliệu trở thành một
nhu cầu khoa học và trong hoạt động thực tiễn.
1.2. Khai phá dữliệu
1.2.1. Định nghĩa
Khai phá dữliệu (data mining): là quá trình trích xuất các thông tin có giá
trị tiềm ẩn bên trong lượng lớn dữliệu được lưu trữ trong các CSDL, khodữ
liệu…
1.2.2. Vị trí của khai phá dữliệu
1.2.2.1. Quá trình khám phá tri thức
Trên thực tế, nhiều người coi khai phá dữliệu và một thuật ngữ thông
dụng khác là khám phá tri thức trong CSDL là như nhau. Một số người khác
quan niệm khai phá dữliệu chỉ là một bước thiết yếu trong quá trình Khám phá
tri thức trong CSDL. Quá trình này gồm một số bước lặp đi lặp lại, và được thể
hiện trong hình 1.2:
6
Hình 1.2: Khai phá dữliệu trong quá trình Khám phá tri thức
1.2.2.2. Hệ ra quyết định
Khai phá dữliệu chiếm một vị trí quan trọng và nằm ở trung tâm của quá trình
Khám phá tri thức từ cơ sở dữ liệu. Nó có mối liên hệ chặt chẽ với hệ ra quyết
định như trong sơ đồ sau:
Hình 1.3: Khai phá dữliệu với Hệ ra quyết định
Nhưng trên thực tế, thuật ngữ khai phá dữliệuthôngdụng và được sử
dụng rộng rãi hơn nhiều so với thuật ngữ khám phá tri thức trong CSDL (KDD).
Kho ch
ứa
dữ liệu
Khai phá
dữ liệu
Tri thức
Ngư
ời
dùng
Làm s
ạch
và tích hợp
L
ựa chọn
và chuyển
đổi dữliệu
Ư
ớc l
ư
ợng
và biểu diễn
Cơ sở
DL
Các file
DL
Mẫu DL
7
Kiến trúc của một hệ thống khai phá dữliệu thường gồm những thành phần
chính thể hiện trong hình 1.4.
Hình 1.4
1.2.3. So sánh Khai phá dữliệu với các giải pháp dữliệu truyền thống
Chúng ta có thể so sánh trực tiếp khai phá dữliệu với một số phương
pháp truyền thống để thấy cụ thể hơn:
- Học máy.
- Phương pháp hệ chuyên gia.
- Phát kiến khoa học.
- Phương pháp thống kê.
1.3. Kết luận chương
Từ những lý thuyết cơ sở của Data Warehouse, với mục đích cơ bản của
việc xâydựng Data Warehouse là tạo thuận lợi tối đa khi phân tích dữ liệu. Khi
xây dựng Data Warehouse mang lại cho chúng ta rất nhiều lợi ích: Tích hợp dữ
Giao diện đồ hoạ người dùng
Đánh giá mẫu
Máy khai phá dữliệu
Máy chủ CSDL hoặc khodữliệu
CSDL Khodữ
liệu
Cơ sở tri
thức
Làm sạch dữliệu
Tích hợp dữliệu
Lọc
8
liệu và các siêu dữliệu từ nhiều nguồn thành một nguồn mang tính lôgic duy
nhất nhằm cung cấp thông tin mềm dẻo từ các nguồn khác nhau và thỏa mãn
nhiều loại người dùng khác nhau. Nâng cao chất lượng dữliệu bằng các phương
pháp làm sạch dữliệu và tinh lọc dữliệu theo những hướng chủ đề nhất định
nên dữliệu sẽ rõ ràng, thống nhất hơn.
Sử dụng các phương pháp, kỹ thuật Khai phá dữliệu nêu trên một cách
hợp lý sẽ giúp chúng ta có được những thông tin quan trọng, cần thiết và có giá
trị cao trong hoạt động quảnlý điều hành, sản xuất kinh doanh cũng như trong
các lĩnh vực khác của đời sống xã hội.
9
CHƯƠNG II
XÂY DỰNGKHODỮLIỆU
2.1. Các yêu cầu của khodữliệu
2.1.1. Lập kế hoạch
Gồm các bước:
- Bước 1. Xác định chiến lược cài đặt
- Bước 2. Lựa chọn phương pháp và mô hình phát triển khodữliệu
2.1.2. Phân tích các yêu cầu của hệ thống
Bao gốm các bước sau:
- Bước 1. Xác định các yêu cầu của chủ sở hữu và côngtác -quản lý
- Bước 2. Yêu cầu về kiến trúc:
- Bước 3. Xác định yêu cầu của người phát triển hệ thống
2.2. Công nghệ và cấu trúc chung khodữliệu
2.2.1. Công nghệ
Bảng 2.1 Các giải pháp công nghệ cho Dataware House
STT
Công nghệ Diễn giải
Giải pháp Microsoft .NET
1.
Ngôn ngữ lập
trình C#
Một trong những ngôn ngữ lập trình chính, phổ biến trên
MS .NET.
2.
WinForm Công nghệ xâydựng ứng dụng người sửdụng chuẩn
trên nền MS .NET
3.
SmartClient
/OneClick
Deployment
Solution
Công ngh
ệ phân tán ứng dụng dạng WinForm, một giải
pháp xâydựng ứng dụng mới bên cạnh các dạng công
nghệ có quá nhiều nhược điểm như thin-client (WEB: dễ
triển khai, khó phát triển), thick-client (desktop-client:
phát triển nhanh, khó triển khai, khó bảo trì).
4.
Internet
Explorer
Trình duyệt (Web browser) chuẩn, miễn phí của
Microsoft
5.
ASP.NET Công nghệ xâydựng ứng dụng WEB trên nền .NET
10
6.
Remoting/SOAP
Một trong hai công nghệ xâydựng ứng dụng phân tán
cấp doanh nghiệp chuẩn của Microsoft (công nghệ còn
lại là XML-Webservice). Công nghệ này cung cấp nhiều
tùy chọn khi cần hosting các đối tượng doanh nghiệp ở
khối “Business Object Server”, ở đây, do yêu cầu về
hiệu năng, sẽ chọn các thông số như sau:
Chanel: TCP:<port-xác định sau>
Formatter: binary
Nếu khi hosting ta chọn thêm Formatter là SOAP thì
chúng ta cũng có đồng thời giao diện SOAP cho các
Business Object. Điều này là rất tiện lợi cho quá trình
tích hợp hệ thống sau này.
7.
ADO.NET - Chuẩn công nghệ truy cập CSDL trên nền .NET. Hai
engine thực hiện theo chuẩn này được lựa chọn sửdụng
là:
ODP.NET: là engine của Oracle; được khối
“Business Object Server” sửdụng để truy cập
CSDL Oracle.
MS ADO.NET Driver for Oracle: là engine của
Microsoft; được khối “Report Server” sửdụng để
truy cập CSDL Oracle.
Giải pháp Crystal Decision Support
8.
Report
Application
Server (RAS)
Theo gi
ải pháp n
ày, các báo bi
ểu đ
ư
ợc hosting l
ên máy
chủ RAS, các client (Application hoặc WEB) truy xuất
báo biểu theo cùng một công nghệ, một cách thức
Giải pháp Oracle DBMS
9.
Oracle CSDL quan hệ mạnh & phổ biến nhất hiện nay
[...]... chiều của dữliệu Nhất là biểu đồ thống kê của báo cáo đã đánh giá được sự hiệu quả của khodữliệu 20 KẾT LUẬN Luận văn nghiên cứu Xâydựngkho dữ liệukháchhàng sử dụngdịchvụviễnthôngphụcvụcôngtácquảnlý đã được hoàn thành Phân tích công nghệ, cấu trúc, kiến trúc dịch vụ, lược đồ, mô hình dữliệu và công cụ để xâydựng một khodữliệu Tìm hiểu các phương pháp, kỹ thuật Khai phá dữ liệu. .. doanh, chọn các chiều, chọn các dữ kiện Hình 3.3 trình bày mô hình dữliệu hệ thống Hình 3.3: Mô hình dữliệu hệ thống 3.2.2.1 Khodữliệu chủ đề bán hàng 3.2.2.2 Khodữliệu phát triển thuê bao 3.2.2.3 Khodữliệu cước kháchhàng 3.2.2.4 Khodữliệu tổng hợp cước kháchhàng 3.2.2.5 Khodữliệu thanh toán nợ của kháchhàng 3.2.3 Tạo cấu trúc database Ở đây sẽ sửdụngcông cụ Warehouse Builder để thực... tổng thể 3.2 Thiết kế khodữliệu 3.2.1 Kiến trúc khodữliệuviễnthông Kiến trúc hệ thốngkhodữliệuviễnthông bao gồm máy chủ chuyển đổi dữ liệu, máy chủ cở sở dữliệu để lưu khodữ liệu, máy chủ báo cáo + web server + process server, máy chủ phân tích dữliệu trực tuyến Hình 3.2: Kiến trúc khodữliệuviễnthông 3.2.2 Thiết kế mô hình dữliệu Việc thiết kế mô hình dữliệu qua các bước, từ yêu... biến động của dữliệu trong quá trình sửdụng Độ chính xác của dữliệu trong kh dữliệu chỉ phụ thuộc vào dữliệu đầu vào, những biến động thực tế đều được thể hiện trên số liệu Qua đó, có thể khẳng định xâydựngkhodữliệu và khai phá dữliệu là một hướng đi hiệu quả để dự đoán số liệu, đưa ra một công cụ hỗ trợ các chuyên viên và nhà quảnlý trong côngtác xử lý số liệuphụccôngtác điều hành sản... hình dữliệu và công cụ để xâydựng một khodữliệu Trong chương tiếp theo sẽ tìm hiểu về các hệ thống nguồn, phân tích , chuyển đổi, làm sạch dữ liệuXâydựng và thử nghiệm khodữ liệu, kết xuất ra báo cáo hỗ trợ côngtác phân tích và trợ giúp ra quyết định cho hoạt động sản xuất kinh doanh của VNPT QUANG NINH 16 CHƯƠNG III XÂYDỰNGKHODỮLIỆUKHÁCHHÀNGSỬDỤNGDỊCHVỤVIỄNTHÔNG 3 1 Nghiên cứu hệ... kháchhàng BCSS o Cắt mở thuê bao, dịchvụ tự động o Quảnlý điều hành sửa chữa báo hỏng o Quảnlý mạng ngoại vi Kháchhàng Call Center Hệ thống tính cước & hỗ trợ khách hàngKháchhàng Điểm giao dịch Hệ thốngQuảnlý mạng ngoại vi Hệ thống Điều hành sửa chữa báo hỏng Kháchhàng Web Email Hệ thống Cắt mở thuê bao dịchvụ tự động Hệ thống CCBS tổng thể Hình 3 1: Hệ thống CCBS tổng thể 3.2 Thiết kế kho. .. bảng dữ kiện yêu cầu – Các tổng hợp ở thứ tự cao có thể được tính toán từ các tổng hợp thứ tự thấp, 2.5.6 Nguồn dữliệu Nguồn dữliệu của DWH gồm nhiều loại khác nhau: Dữliệu từ các hệ thốngtác nghiệp Hệ thống kế thừa Các nguồn dữliệu bên ngoài 15 2.5.7 Công cụ làm sạch, chuyển đổi dữliệu Làm sạch Chuyển đổi 2.5.8 Tích hợp dữ liệukháchhàng Tích hợp dữ liệukháchhàng CDI là MDM cho dữ liệu. .. liệukháchhàng CDI là một quá trình chiết, làm sạch, lưu trữ, duy trì, và phân phối dữliệu của kháchhàng 2.6 Mối quan hệ giữa khodữliệu và Khai phá dữliệu Cả hai đều có thể đứng độc lập với nhau, tuy nhiên khi kết hợp được khodữliệu với khai phá dữliệu thì lợi ích rất lớn 2.7 Kết luận chương Chương này đi vào phân tích công nghệ, cấu trúc, kiến trúc dịch vụ, lược đồ, mô hình dữliệu và công. .. này cho thấy điểm ưu việt của khodữliệu và khai phá dữliệu so với những phương pháp dự báo truyền thống như kinh tế lượng hay thống kê hay những báo cáo thông thường: Khodữliệu có thể khai thác, phụcvụ tốt cho nhiều tiêu chí báo cáo, dữliệu giải quyết được bài toán định hướng quảnlý tập trung không bị rời rạc, manh mún của các hệ thốngdữliệu hiện hành Khodữliệu có khả năng điều chỉnh tham... 2.3 Xu hướng khodữliệu 2.3.1 Dữliệu phi cấu trúc Dữliệu có cấu trúc thường dùng để chỉ dữliệu lưu trữ trong các hệ quản trị cơ sở dữliệuquan hệ như Oracle, MS SQL Server, MySQL,… 2.3.2 Tìm kiếm Phần này câu trả lời câu hỏi thứ hai, làm thế nào để bạn nhận được những thông tin ra? Câu trả lời là bằng cách tìm kiếm (Search) Để có được thông tin từ dữliệu có cấu trúc, bạn có thể sửdụng các câu .
Chương 3: Xây dựng kho dữ liệu khách hàng sử dụng dịch vụ viễn thông phục
vụ công tác quản lý.
CHƯƠNG I
TỔNG QUAN VỀ KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
. VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
TRẦN NAM QUỲNH
XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ
VIỄN THÔNG PHỤC VỤ CÔNG TÁC QUẢN LÝ