1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thiết kế và triển khai kho dữ liệu khách hàng sử dụng dịch vụ viễn thông của tổng công ty bưu chính viễn thông việt nam (VNPT)

135 763 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 135
Dung lượng 5,95 MB

Nội dung

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN TRUNG THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG CỦA TỔNG CÔNG TY BƯU CHÍNH VIỄN THÔNG VIỆT NAM VNPT LUẬN VĂN THẠC SĨ

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN TRUNG

THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG CỦA TỔNG CÔNG TY BƯU CHÍNH

VIỄN THÔNG VIỆT NAM (VNPT)

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2008

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN TRUNG

THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG CỦA TỔNG CÔNG TY BƯU CHÍNH

VIỄN THÔNG VIỆT NAM (VNPT)

Chuyên ngành: Công nghệ thông tin

Mã số: 1 01 10

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học: PGS.TS Đặng Hữu Đạo

HÀ NỘI - 2008

Trang 3

MỤC LỤC

MỤC LỤC 1

DANH SÁCH HÌNH VẼ 3

CÁC THUẬT NGỮ VÀ VIẾT TẮT 5

MỞ ĐẦU 6

Chương 1: TỔNG QUAN 8

1.1 Thị trường viễn thông 8

1.2 Dữ liệu ngành viễn thông 9

1.3 Mục tiêu của luận văn 10

1.4 Phạm vi của luận văn 10

1.5 Công cụ thực hiện 10

1.6 Phương pháp xây dựng kho dữ liệu 12

Chương 2: TỔNG QUAN VỀ DATA WAREHOUSE 15

2.1 Định nghĩa kho dữ liệu 15

2.2 Đặc tính của kho dữ liệu 16

2.3 Kho dữ liệu và các cơ sở dữ liệu 17

2.4 Lợi ích của kho dữ liệu 18

2.5 Kho dữ liệu hiện nay 18

2.6 Xu hướng tương lai của kho dữ liệu 20

2.7 Kiến trúc của kho dữ liệu 22

2.7.1 Nguồn dữ liệu 23

2.7.2 Công cụ trích xuất chuyển đổi và nạp dữ liệu (ETL) 24

2.7.3 Siêu dữ liệu 24

2.7.4 Kho dữ liệu chủ đề 25

2.7.5 Các công cụ truy vấn, tạo báo cáo, phân tích dữ liệu 26

2.8 Tổ chức dữ liệu lôgíc 26

2.8.1 Lược đồ kho dữ liệu 26

2.8.2 Mô hình dữ liệu đa chiều 28

2.8.3 Bảng sự kiện 29

2.8.4 Bảng chiều 30

2.8.5 Bảng sự kiện tổng hợp 30

2.9 Tổ chức dữ liệu vật lý 31

2.9.1 Phân vùng 31

2.9.2 Chỉ mục 31

Chương 3: PHÂN TÍCH, THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG 33

3.1 Phân tích 33

3.1.1 Tìm hiểu hệ thống nguồn CCBS 33

3.1.2 Xác định yêu cầu phân tích 37

3.2 Thiết kế 42

3.2.1 Kiến trúc của kho dữ liệu 43

3.2.2 Thiết kế mô hình dữ liệu 45

Trang 4

3.2.2 Thiết kế mô hình vật lý 72

3.2.4 Thiết kế trích xuất chuyển đổi nạp dữ liệu 84

3.2.5 Thiết kế công cụ báo cáo, tra cứu động 92

3.2.6 Thiết kế công cụ quản trị hệ thống 99

3.3 Cài đặt, triển khai 101

3.3.1 Cài đặt hệ thống 101

3.3.2 Triển khai 101

Chương 4: KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 103

4.1 Kết quả 103

4.2 Giao diện chương trình 103

4.3 Báo cáo phân tích 107

4.4 Hướng phát triển của đề tài 115

KẾT LUẬN VÀ KIẾN NGHỊ 117

TÀI LIỆU THAM KHẢO 118

Phụ lục 1: SƠ ĐỒ CSDL BẢNG SỰ KIỆN CỦA DWH 119

Phụ lục 2: LỆNH SCRIPT CỦA CÁC ÁNH XẠ ETL SẢN SINH TỪ OWB 125 Phụ lục 3: CÂU LỆNH SQL LẤY DỮ LIỆU CỦA CÁC BÁO CÁO PHÂN TÍCH131

Trang 5

DANH SÁCH HÌNH VẼ

Hình 1 Mô hình thác nước với thiết lập cơ sở hạ tầng và quản lý dự án 12

Hình 2 Định nghĩa DWH 15

Hình 3 Kiến trúc DWH cơ bản 22

Hình 4 Kiến trúc DWH với Staging Area 23

Hình 5 Kiến trúc kho dữ liệu với Staging Area và Data Mart 23

Hình 6 Lược đồ hình sao 27

Hình 7 Lược đồ bông tuyết rơi 28

Hình 8 Mô hình đa chiều 28

Hình 9 Hệ thống CCBS tổng thể 34

Hình 10 Kiến trúc của DWH thử nghiệm 43

Hình 11 Sơ đồ kho dữ liệu Bán hàng 46

Hình 12 Chiều thời gian 47

Hình 13 Phân cấp thời gian 48

Hình 14 Chiều dịch vụ viễn thông 48

Hình 15 Chiều khách hàng 49

Hình 16 Chiều kênh giao tiếp 50

Hình 17 Chiều điểm giao dịch 51

Hình 18 Phân cấp điểm giao dịch 51

Hình 19 Chiều địa chỉ 52

Hình 20 Phân cấp địa chỉ 52

Hình 21 Chiều kiểu yêu cầu 53

Hình 22 Chiều khuyến mãi 53

Hình 23 Sơ đồ kho dữ liệu Phát triển thuê bao 54

Hình 24 Chiều thuê bao 55

Hình 25 Chiều đơn vị quản lý 56

Hình 26 Chiều đối tượng khách hàng 56

Hình 27 Sơ đồ kho dữ liệu chủ đề Điều hành thi công 57

Hình 28 Chiều hướng giao 57

Hình 29 Sơ đồ kho dữ liệu Khiếu nại 58

Hình 30 Chiều nhóm khiếu nại 58

Hình 31 Sơ đồ kho dữ liệu Xử lý khiếu nại 59

Hình 32 Chiều kết quả khiếu nại 60

Hình 33 Sơ đồ kho dữ liệu Cước khách hàng 60

Hình 34 Chiều mã vùng 61

Hình 35 Chiều kiểu dịch vụ 62

Hình 36 Chiều đối tượng khách hàng 63

Hình 37 Sơ đồ kho dữ liệu tổng hợp cước khách hàng 63

Hình 38 Chiều thanh toán 64

Hình 39 Chiều khoản mục cước 65

Hình 40 Sơ đồ kho dữ liệu thanh toán nợ khách hàng 65

Hình 41 Chiều hình thức thanh toán 66

Hình 42 Sơ đồ kho dữ liệu nợ cước khách hàng 66

Hình 43 Sơ đồ kho dữ liệu nhắc nợ cước khách hàng 67

Hình 44 Sơ đồ kho dữ liệu khóa mở nợ cước 67

Hình 45 Sơ đồ kho dữ liệu xử lý nợ cước 68

Hình 46 Chiều hình bước xử lý nợ 68

Trang 6

Hình 47 Sơ đồ kho dữ liệu báo hỏng 69

Hình 48 Chiều tình trạng 69

Hình 49 Sơ đồ kho dữ liệu xử lý báo hỏng 70

Hình 50 Chiều nguyên nhân 70

Hình 51 Sơ đồ kho dữ liệu sử dụng dịch vụ viễn thông 71

Hình 52 Sơ đồ kho dữ liệu sử dụng dịch vụ gia tăng 71

Hình 53 Kiến trúc vật lý kho dữ liệu viễn thông 72

Hình 54 Mô hình quan hệ bán hàng 74

Hình 55 Bảng thống kê cuộc gọi theo giờ bắt đầu 79

Hình 56 Bảng thống kê cuộc gọi theo dịch vụ 80

Hình 57 Bảng thống kê cuộc gọi theo mã vùng 80

Hình 58 Bảng thống kê doanh thu 80

Hình 59 Bảng thống kê tiền nợ cước 81

Hình 60 Bảng thống kê tiền thanh toán 81

Hình 61 Bảng tổng hợp cước sử dụng khách hàng 82

Hình 62 Bảng tổng hợp tiền nợ khách hàng 82

Hình 63 Bảng tổng hợp tiền thanh toán khách hàng 82

Hình 64 Sơ đồ ánh xạ DICHVU_VT_MAP 85

Hình 65 Sơ đồ ánh xạ DIACHI_MAP 86

Hình 66 Sơ đồ ánh xạ KIEU_YC_MAP 86

Hình 67 Sơ đồ ánh xạ KHACHHANG_MAP 86

Hình 68 Sơ đồ ánh xạ THANHTOAN_MAP 87

Hình 69 Sơ đồ ánh xạ THUEBAO_MAP 87

Hình 70 Sơ đồ ánh xạ DANGKY_DVVT_MAP 87

Hình 71 Sơ đồ ánh xạ PHATTRIEN_TB_MAP 88

Hình 72 Sơ đồ ánh xạ DIEUHANH_TC_MAP 88

Hình 73 Sơ đồ ánh xạ KHIEUNAI_MAP 89

Hình 74 Sơ đồ ánh xạ XL_KHIEUNAI_MAP 89

Hình 75 Sơ đồ ánh xạ BAOHONG_MAP 89

Hình 76 Sơ đồ ánh xạ XL_BAOHONG_MAP 90

Hình 77 Sơ đồ ánh xạ CT_CUOC_KH_MAP 90

Hình 78 Sơ đồ ánh xạ TH_CUOC_KH_MAP 90

Hình 79 Sơ đồ ánh xạ CT_NO_KH_MAP 91

Hình 80 Sơ đồ ánh xạ CT_TTNO_KH_MAP 91

Hình 81 Sơ đồ ánh xạ SUDUNG_DVVT_MAP 91

Hình 82 Mô hình báo cáo truyền thống 92

Hình 83 Mô hình báo cáo từ xa sử dụng Webservice 93

Hình 84 Kiến trúc và công nghệ hệ thống báo cáo, tra cứu 94

Hình 85 Mô hình cở sở dữ liệu của hệ thống báo cá, tra cứu 95

Hình 86 Mô hình cở sở dữ liệu của công cụ quản trị hệ thống 100

Hình 87 Giao diện chính 104

Hình 88 Giao diện định nghĩa báo cáo và tra cứu 104

Hình 89 Giao diện chung hiển thị báo cáo 104

Hình 90 Giao diện tra cứu động 105

Hình 91 Giao diện cấu hình form nhập dữ liệu từ điển 105

Hình 92 Giao diện chung nhập dữ liệu từ điển 106

Hình 93 Giao diện định nghĩa quyền 106

Hình 94 Giao diện phân quyền cho nhóm người dùng 107

Trang 7

CÁC THUẬT NGỮ VÀ VIẾT TẮT

 BI (Business Intelligence): Quản trị doanh nghiệp thông minh

 CCBS (Customer Care and Billing System): Hệ thống Tính cước và Chăm sóc khách hàng

 CDI (Customer Data Integration): Tích hợp dữ liệu khách hàng

 CSDL: Cơ sở dữ liệu

 CRM (Customer relationship management): Quản lý mối quan hệ với khách hàng

 DM (Data mart): Kho dữ liệu chủ đề

 DOLAP (Database Online Analytical Processing): Xử lý phân tích trực tuyến CSDL

 DWH (Data Warehouse): Kho dữ liệu

 EIS (Executive Information System): Hệ thống thông tin điều hành

 ETL (Extract Transform Load): Trích xuất chuyển đổi dữ liệu

 HOLAP (Hybric Online Analytical Processing): Xử lý phân tích trực tuyến kết hợp

 MDM (Master Data Management): Quản lý dữ liệu chủ

 MOLAP (Multi dimensional Online Analytical Processing): Xử lý phân tích trực tuyến đa chiều

 ODS (Operational data store): Kho dữ liệu vận hành

 OLTP (Online Transaction Processing): Xử lý giao dịch trực tuyến

 OLAP (Online Analytical Processing): Xử lý phân tích trực tuyến

 OWB (Oracle Warehouse Builder): Công cụ xây dựng kho dữ liệu của Oracle

 SOA (Service-Oriented Architecture): Kiến trúc hướng dịch vụ

 ROLAP (Relational Online Analytical Processing): Xử lý phân tích trực tuyến quan hệ

 VNPT (Vietnam Posts and Telecommunications Group): Tập đoàn Bưu chính Viễn thông Việt nam

 VLDB (Very large DB): Cơ sở dữ liệu rất lớn

Trang 8

MỞ ĐẦU

Trong nền kinh tế thị trường hiện nay, thông tin là yếu tố sống còn đối với bất

kỳ một doanh nghiệp nào Việc nắm bắt thông tin giúp cho các doanh nghiệp hoạch định chiến lược kinh doanh cho mình một cách chính xác

Sự ra đời của công nghệ kho dữ liệu (Data Warehouse - DWH) trong những năm gần đây đã đáp ứng nhu cầu quản lý, lưu trữ một khối lượng dữ liệu lớn và có khả năng khai thác dữ liệu đa chiều và theo chiều sâu nhằm hỗ trợ việc ra quyết định của các nhà quản lý

Trong nước hiện nay có rất nhiều doanh nghiệp đã và đang nghiên cứu, tiến hành triển khai hệ thống DWH

Đối với nước ngoài, hệ thống kho dữ liệu được áp dụng từ lâu và đã phát huy được những hiệu quả rất lớn giúp ích cho các doanh nghiệp trong việc hoạch định chiến lược kinh doanh cũng như việc nghiên cứu phát triển các ứng dụng

Đối với Tổng công ty Bưu chĩnh Viễn thông Việt Nam (VNPT), xây dựng hệ thống Data Warehouse có ý nghĩa hết sức quan trọng Ngoài việc thu thập lưu trữ các thông tin từ các hệ thống như Tính cước và chăm sóc khách hàng nói chung và các hệ thống khác nói riêng hệ thống DWH còn cung cấp các thông tin hữu ích giúp cho các nhà phát triển cập nhật các thay đổi hệ thống một cách nhanh chóng Hơn thế nữa, hệ thống còn cung cấp cho nhà quản lý những thông tin quan trọng chính xác và nhanh chóng giúp họ có tầm nhìn chiến lược và hỗ trợ nhà quản lý ra những quyết định kịp thời và có lợi nhất cho doanh nghiệp trong điều kiện cạnh tranh của ngành viễn thông đang diễn ra rất gay gắt

Xuất phát từ thực tế đó, đồ án tốt nghiệp này trình bày về việc ứng dụng công nghệ kho dữ liệu trên môi trường Oracle vào “Thiết kế và triển khai kho dữ liệu khách hàng sử dụng dịch vụ viễn thông của Tổng công ty Bưu chinh Viễn thông Việt Nam (VNPT)” được thực hiện với mong muốn xây dựng được một DWH ban đầu để hỗ trợ VNPT đặc biệt là các Viễn thông tỉnh trong việc quản lý, điều hành doanh nghiệp Nội dung luận văn này bao gồm các phần chính như sau:

Trang 9

Nội dung chính của chương này là trình bày tổng quan về DWH gồm định nghĩa, đặc tính, lợi ích, xu hướng tương lai, kiến trúc, tổ chức lô gíc, tổ chức vật lý của DWH

Chương 3: Phân tích, thiết kế và triến khai DWH khách hàng sử dụng dịch

vụ viễn thông

Nội dung chính của chương này bao gồm: Tìm hiểu hệ thống nguồn CCBS; xác định yêu cầu phân tích; thiết kế mô hình dữ liệu dựa trên yêu cầu phân tích và CSDL (Cở sở dữ liệu) của Hệ thống Tính cước và Chăm sóc khách hàng (Customer Care and Billing System – CCBS); thiết kế mô hình vật lý; thiết kế trích xuất chuyển đổi và nạp số liệu từ hệ thống CCBS vào DWH; xây dựng công cụ báo cáo, tra cứu động và quản trị hệ thống; cài đặt và triển khai DWH

Chương 4: Kết quả và hướng phát triển

Nội dung chính của chương này là trình bày các kết quả của luận văn; một số giao diện của công cụ báo cáo, tra cứu, quản trị hệ thống; một số báo cáo phân tích; hướng phát triển của luận văn

Trang 10

Chương 1: TỔNG QUAN

Tóm lược nội dung:

Nội dung chính của chương này là trình bày tổng quan về thị trường viễn thông;

dữ liệu của ngành viễn thông; mục tiêu và phạm vi của luận văn; công cụ và phương pháp xây dựng DWH

1.1 Thị trường viễn thông

Trong thập niên qua, mọi lĩnh vực công nghiệp đã có kinh nghiệm biến đổi sâu sắc trong môi trường kinh doanh của họ Việc bãi bỏ các quy định (cho phép thị trường viễn thông tự do cạnh tranh), sự cạnh tranh, sự tiến bộ công nghệ và toàn cầu hóa kết hợp lại tạo ra sức ép khổng lồ lên những nhà cung cấp lĩnh vực viễn thông và khả năng của họ phản ứng lại với những sự thay đổi này

Những nhà cung cấp trong lĩnh vực viễn thông hôm nay đang phải đối mặt với những thách thức như:

- Tiếp tục cạnh tranh xuất phát từ việc cho phép thị trường viễn thông tự do cạnh tranh

- Tỷ lệ dời bỏ nhà cung cấp cao trong sự gia tăng thâm nhập thị trường

- Sự suy giảm mang tính hệ thống lợi ích sử dụng dịch vụ thoại

- Những yêu cầu cơ sở hạ tầng do cuộc chạy đua về công nghệ mới

- Sự suy giảm về sự thu nhận

Trong công nghiệp viễn thông, sự tự do cạnh tranh dẫn đến sự cạnh tranh không chỉ trong nước mà mang tính quốc tế Điều này làm cho thị phần bị chia sẽ và đe dọa những nguồn lợi tức

Sự cạnh tranh đã tạo ra những sản phẩm mới ra thị trường 3G, VOIP, dịch vụ định vị, ứng dụng dữ liệu di động và sự tích hợp đa phương tiện,…có quy mô rủi ro cao bổ sung tới nền công nghiệp mà yêu cầu sự đầu tư vốn lớn để nâng cấp mạng lưới, tính cước, sự hỗ trợ và cơ sở hạ tầng khác Trong lúc đó những lợi tức và những lợi nhuận trong kinh doanh dịch vụ thoại suy giảm mang tính hệ thống

Trong những năm qua, thị trường viễn thông ở Việt Nam phát triển rất nhanh Với chính sách mở cửa, khuyến khích cạnh tranh của Nhà nước, trên thị trường đã xuất hiện nhiều nhà cung cấp dịch vụ mới, cạnh tranh gay gắt với VNPT, khiến cho thị phần của VNPT bị chia sẻ đáng kể Đặc biệt, trong điều kiện Việt Nam đã chính thức gia nhập WTO, thị trường viễn thông sẽ ngày càng sôi động hơn, VNPT sẽ phải đối mặt với sự cạnh tranh ngày càng gay gắt hơn không chỉ với các đối thủ trong nước mà còn với các đối thủ nước ngoài Để có thể đứng vững và phát triển trong môi trường kinh doanh mới, VNPT cần phải không ngừng nâng cao năng lực cạnh tranh nói chung

và đặc biệt là nâng cao năng lực cạnh tranh dịch vụ di động, băng thông rộng

Trang 11

Tính đến cuối năm 2007, có 44 triệu thuê bao điện thoại; trong đó thuê bao di động 30 triệu thuê bao chiếm 75,5%; mật độ điện thoại đạt 52 máy / 100 dân; 1,2 triệu thuê bao ADSL; đã có 18,64 triệu người sử dụng Internet (quy đổi)

Trên thị trường viễn thông, nhu cầu về dịch vụ điện thoại cố định có chiều hướng giảm dần và giữ mức tăng khoảng 9% trong giai đoạn 2007-2011 do người tiêu dùng chuyển hướng sang sử dụng các dịch vụ di động và băng rộng

Cạnh tranh sôi động nhất đang diễn ra trên thị trường di động giữa 7 nhà cung cấp dịch vụ như Vinaphone, Mobifone, Viettel, EVN Telecom, SPT, HTC, GTel qua

đó thúc đẩy thị trường di động đạt mức tăng trưởng nhanh

Các mạng di động của Việt Nam hiện thời vẫn theo chuẩn 2G hay 2.5 G cung cấp chủ yếu dịch vụ thoại và một số loại dịch vụ giá trị gia tăng như SMS, WAP, GPRS Hiện các nhà khai thác di động đang tập trung chuyển đổi sang mạng 3G, nhưng với tốc độ chậm chạp do còn gặp nhiều khó khăn về dịch vụ nội dung thông tin

và thiết bị đầu cuối đắt đỏ Dự kiến đến 2011, thị trường dịch vụ 3G đạt khoảng 3 triệu thuê bao chiểm 6% tổng thuê bao di động

Hàng loạt dịch vụ điện thoại cố định không dây ra đời thời gian qua đã tạo điều kiện cho người sử dụng có cơ hội thử nghiệm và lựa chọn Trước Gphone của VNPT, Tập đoàn Điện lực Việt Nam (EVN) đã cho ra đời dịch vụ điện thoại cố định không dây E-Com và Tổng Cty Viễn thông Quân đội tung ra HomePhone

WiMAX đang được các doanh nghiệp viễn thông thử nghiệm Hiện nay VNPT cũng đã thử nghiệm dịch vụ WiMax thành công ở trên Lào Cai, đang triển khai thử nghiệm ở Hà Nội và TP HCM

Cạnh tranh thị trường viễn thông lâu nay chủ yếu là cạnh tranh bằng giá, mà chưa phải là bằng chất lượng và cách thức phục vụ Cuộc đua giữa các đại gia ngày càng quyết liệt, bên cạnh các gói giảm cước cũng như dịch vụ mới, các doanh nghiệp trong lĩnh vực này cũng cần nâng cao chất lượng của dịch vụ vì đây mới là vấn đề mấu chốt trong chiến lược thu hút khách hàng về với doanh nghiệp mình Chính vì thế sự cạnh trang quyết liệt này sẽ còn diễn ra không chỉ trên mặt trận giá cước mà còn cả về chất lượng của dịch vụ

1.2 Dữ liệu ngành viễn thông

Ngành công nghiệp viễn thông lưu trữ một khối lượng dữ liệu khổng lồ, bao gồm chi tiết cuộc gọi, thông tin cảnh báo trình trạng của hệ thống mạng viễn thông và thông tin dữ liệu về khách hàng:

- Dữ liệu chi tiết cuộc gọi( call detail data ): Mỗi một cuộc gọi của khách hàng

trên mạng viễn thông đều phát sinh một mẫu tin chi tiết cuộc gọi Các mẫu tin này bao gồm các thông tin đặc tả thuộc tính quan trọng của cuộc gọi như: số chủ gọi, số bị gọi, thời gian bắt đầu và thời gian đàm thoại Thông thường các

dữ liệu chi tiết cuộc gọi không được sử dụng trực tiếp cho các ứng dụng data

Trang 12

mining mà thường kết hợp với thông tin cá nhân khách hàng để tổng quát hóa

thành thông tin về hành vi sử dụng điện thoại của khách hàng

- Dữ liệu trạng thái mạng ( network data ): Mạng viễn thông có cấu hình rất

phức tạp, được cấu trúc bởi hàng ngàn thiết bị viễn thông kết nối với nhau Các thông điệp trạng thái (status message) của mỗi thiết bị phải được lưu trữ thành một kho dữ liệu trạng thái mạng (network data) và chúng được phân tích theo trình tự để hỗ trợ chức năng quản lý mạng Mỗi thông điệp trạng thái ít nhất phải bao gồm thời gian phát sinh và thông tin mã hóa về lỗi hay trạng thái của thiết bị

- Dữ liệu khách hàng ( customer data ): Cũng như các lĩnh vực kinh doanh lớn

khác, các thông tin về khách hàng cần được lưu trữ để dùng cho các ứng dụng như tính cước, tiếp thị Thông tin về khách hàng bao gồm số điện thoại, họ tên, địa chỉ và các thuộc tính quan trọng khác như quá trình thanh toán nợ, quá trình

sử dụng các dịch vụ, thu nhập Thông thường dữ liệu khách hàng phải được kết hợp với các dữ liệu khác, (ví dụ như dữ liệu chi tiết cuộc gọi) trong khi sử dụng data mining

1.3 Mục tiêu của luận văn

Xây dựng và triển khai DWH khách hàng sử dụng dịch vụ viễn thông cho Viễn thông tỉnh dựa trên việc tìm hiểu và phân tích hệ thống nguồn CCBS mà các viễn thông tỉnh đang sử dụng nhằm hỗ trợ lảnh đạo, các phòng ban,…đưa ra các chiến lược kinh doanh nhanh chóng chính xác Xây dựng được CSDL tương đối hoàn chỉnh cho DWH; xây dựng các ánh xạ thu thập số liều từ hệ thống nguồn CCBS; xây dựng công

cụ báo cáo, tra cứu và quản trị hệ thống; xây dựng được một số báo cáo phân tích ban đầu Trong thiết kế hệ thống hướng tới tính mở và thiết kế tổng thể để dễ dàng mở rộng và áp dụng cho các doanh nghiệp viễn thông khác

1.4 Phạm vi của luận văn

Xây dựng DWH đặc biệt là DWH viễn thông là một quá trình lâu dài với nhiều công việc Trong luận văn này, dữ liệu DWH được xây dựng chủ yếu tập trung vào dữ liệu khách hàng và dữ liệu chi tiết cuộc gọi (Dữ liệu từ hệ thống nguồn CCBS) Quy

mô hệ thống thử nghiệm được xây dựng áp dụng cho một Viễn Thông Tỉnh của Tập Đoàn Bưu Chính Viễn Thông Việt Nam VNPT Mỗi Viễn Thông Tỉnh coi như mô hình thu nhỏ của VNPT, là nơi cung cấp đầy đủ các dịch vụ viễn thông tại địa bàn đó như dịch vụ: Điện thoại cố định, điện thoại di động, dịch vụ Gphone, điện thoại vệ tinh, Internet, kênh thuê riêng,….Tập trung thiết kế mô hình dữ liệu và thu thập số liệu

từ hệ thống nguồn CCBS, thiết kế một số các báo cáo, tra cứu cơ bản

1.5 Công cụ thực hiện

Hệ quản trị cở sở dữ liệu cho kho dữ liệu:

Trang 13

Một số yêu cầu kĩ thuật dùng để đánh giá khả năng của hệ quản trị cơ sở dữ liệu trong quá trình xây dựng DWH:

- Có khả năng mở rộng: khả năng mở rộng là yêu cầu rất cần thiết trong việc xây dựng kho dữ liệu vì có nhiều trường hợp, ban đầu kho dữ liệu có thể có kích thước vừa phải nhưng sau đó do nhu cầu phát triển nên kho dữ liệu cần được

mở rộng thêm

- Hỗ trợ cơ sở dữ liệu lớn: do đặc trưng của kho dữ liệu là có kích thước lớn

- Năng lực tính toán song song: Kho dữ liệu lớn cũng đồng nghĩa với việc sẽ có nhiều dữ liệu cần được xử lý, do đó khả năng tính toán song song của hệ thống

là rất cần thiết

- Khả năng quản trị: quản trị và bảo trì một Kho dữ liệu lớn là một công việc rất phức tạp như sao lưu và phục hồi dữ liệu, đòi hỏi những công cụ trợ giúp hữu hiệu, tiện lợi và dễ sử dụng Đối với kho dữ liệu lớn công việc bảo trì và quản trị không được làm gián đoạn hoạt động của hệ thống

- Đáp ứng được các truy vấn phức tạp, có nhiều điều kiện và phải tham chiếu đến nhiều liên kết khác nhau

- Hỗ trợ đánh chỉ mục và truy vấn hình sao nhằm cải thiện thời gian truy vấn

- Hỗ trợ các công cụ xử lý phân tích trực tuyến

Trong những năm gần đây, trên thế giới xu hướng phát triển của thị trường cung cấp các giải pháp cho công nghệ kho dữ liệu dần dần thuộc về các hãng CSDL truyền thống như Oracle, DB2, Microsoft Sql Server, Oracle là một trong số các hãng hàng đầu trên thế giới về lĩnh vực quản trị cơ sở dữ liệu có công nghệ xây dựng DWH tiên tiến (Theo báo cáo thị phần hệ thống Quản lý cơ sở dữ liệu trên toàn cầu của Gartner, Oracle chiếm 47,1% thị phần năm 2006) Đặc biệt Oracle 11g hỗ trợ rất nhiều cho cở

sở dữ liệu rất lớn

- Oracle Database 11g có khả năng đáng kể về nén và phân vùng dữ liệu mới đối với khả năng quản lý lưu trữ và vòng đời dữ liệu với chi phí hiệu qủa hơn

- Oracle Database 11g tự động hóa nhiều hoạt động phân vùng dữ liệu thủ công

và mở rộng phương pháp phân vùng theo khoảng giá trị, hash và liệt kê phân vùng hiện có để có khoảng đệm, tham chiếu và phân vùng ảo theo cột

- Thêm vào đó, Oracle Database 11g cung cấp một bộ hoàn chỉnh các lựa chọn phân vùng hỗn hợp cho phép quản lý lưu trữ được thực hiện theo các qui định kinh doanh

- Oracle Database 11g đưa đến khả năng nén dữ liệu tiên tiến cho cả dữ liệu có cấu trúc và không có cấu trúc được xử lý trong quy trình giao dịch, lưu trữ dữ liệu và các môi trường quản trị nội dung Tỷ lệ nén tất cả các dữ liệu lớn từ 2 - 3 lần hoặc cao hơn có thể đạt được với khả năng nén tiên tiến mới trong Oracle Database 11g

Trang 14

- Khối dữ liệu xử lý giao dịch trực tuyến (Online Transaction Processing – OLAP) nhúng được tăng cường để hoạt động như những thông số hiển thị được cụ thể hóa trong cơ sở dữ liệu

Hệ thống Tính cước và Chăm sóc khách hàng ở hầu hết Viễn thông các tỉnh có CSDL là Oracle Nếu chọn Oracle làm hệ quản trị cở sở cho kho dữ liệu sẽ dễ dàng cho việc xây dựng công cụ thu thập số liệu

Công cụ xây dựng và quản trị kho dữ liệu

Oracle Warehouse Builder, công cụ xây dựng DWH của hãng Oracle, cho phép người phân tích và thiết kế hệ thống xây dựng DWH đáp ứng được các yêu cầu kĩ thuật trên đây là sự lựa chọn của đồ án nhằm xây dựng kho dữ liệu Công cụ này thường đi kèm với Oracle Database

Công cụ xây dựng quản trị báo cáo

Crystal Report thiết kế các mẫu báo cáo phân tích

Crystal Report Server quản trị hệ thống báo cáo từ xa

Ngôn ngữ lập trình

Sử dụng ngôn ngữ C#, Asp.Net để xây dựng hệ thống báo cáo động và quản trị hệ thống kho dữ liệu

1.6 Phương pháp xây dựng kho dữ liệu

Dựa trên cở sở của công nghệ phần mềm như mô hình thác nước để xây dựng DWH, nó bao gồm các bước chính sau: Nghiên cứu khả thi, yêu cầu, kiến trúc, thiết

kế, phát triển, kiểm thử, triển khai, hoạt động Có thể bổ sung vào mô hình thác nước hai bước thiết lập cơ sở hạ tầng và quản lý dự án

Hình 1 Mô hình thác nước với thiết lập cơ sở hạ tầng và quản lý dự án

Trang 15

Có thể cải tiến bằng nhiều cách: nhận dạng các tác vụ lặp, định nghĩa các tác vụ một cách nhất quán, xác định các tiêu chuẩn đảm bảo chất lượng và sự đầy đủ của dữ liệu, định nghĩa việc quản lí tác vụ, tối ưu hóa các tác vụ

Chu trình xây dựng một DWH chủ đề bao gồm nhiều pha Ta sẽ xem xét chi tiết

về từng pha cụ thể trong quá trình xây dựng kho dữ liệu chủ đề bằng công cụ Oracle Warehouse Builder Việc xây dựng kho dữ liệu thử nghiệm sử dụng Oracle Warehouse Builder có thể chia thành các giai đoạn sau:

 Phân tích yêu cầu:

o Tìm hiểu hệ thống nguồn

o Xác định yêu cầu

 Thiết kế mô hình dữ liệu:

o Xác định, thiết kế các chiều (dimension table)

o Xác định, thiết kế các bảng fact (fact table)

o Xác định, thiết kế các khối cube (Lược đồ hình sao)

 Thiết kế vật lý:

o Kiến trúc DWH

o Ước lượng dung lượng

o Tạo cấu trúc database: từ các định nghĩa logic ở giai đoạn đầu, sử dụng các DDL (Data definition Language) để xây dựng kho cùng với các lược

o Ánh xạ các chiều

o Ánh xạ bảng sự kiện

 Xây dựng hệ thống báo cáo, quản trị hệ thống

o Xây dựng hệ thống báo cáo động

o Xây dựng công cụ quản trị hệ thống

 Cài đặt, triển khai và quản trị dữ liệu:

o Cài đặt các thành phần của hệ thống

o Tạo cấu trúc cở sở dữ liệu DWH Lúc này cơ sở hạ tầng của kho dữ liệu

đã được hoàn chỉnh

Trang 16

o Thu thập số liệu ban đầu Sử dụng các công cụ Proccess flow và schedule tạo các luồng công việc và đặt lịch cho chúng

o Quản trị người dùng, xây dựng báo cáo tra cứu, quản trị dữ liệu

Trang 17

Chương 2: TỔNG QUAN VỀ DATA WAREHOUSE

Tóm lược nội dung:

Nội dung chính của chương này là trình bày tổng quan về DWH gồm định nghĩa, đặc tính, lợi ích, xu hướng tương lai, kiến trúc, tổ chức lô gíc, tổ chức vật lý của DWH

2.1 Định nghĩa kho dữ liệu

Định nghĩa do W.H Inman đề xướng: DWH được hiểu là một tập hợp các dữ liệu tương đối ổn định (không hay thay đổi), cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý

 Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp, đa bộ:

Cơ sở dữ liệu quan hệ (relational databases), flat files, các bảng ghi giao dịch trực tuyến

 Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng:

Trang 18

– Đảm bảo sự đồng nhất trong các quy ước tên, cấu trúc mã hóa, các đơn vị đo, thuộc tính,…giữa các nguồn khác nhau

– Khi dữ liệu được chuyển đến kho dữ liệu, nó sẽ được chuyển đổi

Biến thời gian (time-variant):

 Yêu cầu quan trong cho kho dữ liệu là phạm vi về thời gian dài hơn so với các

hệ thống tác nghiệp

– Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời

– Dữ liệu của kho dữ liệu: cung cấp thông tin lịch sử (ví dụ như, 5-10 năm trước)

 Yếu tố thời gian được lưu trữ trong CSDL

Bền vững (non-volatile):

 Là một lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp

 Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu – Không yêu cầu các cơ chế xử lý giao dịch, phục hồi và điều khiển tương tranh

– Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp dữ liệu và truy cập dữ liệu

2.2 Đặc tính của kho dữ liệu

Trước hết ta tìm hiểu khái niệm về vùng chủ đề (Subject Area – SA): một SA là một chủ đề được tách ra từ tập hợp lớn các chủ đề mà người sử dụng cuối quan tâm trong một lĩnh vực tác nghiệp cụ thể nào đó

Những đặc điểm cơ bản của DWH:

 Tính tích hợp

Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất

Một kho dữ liệu là một khung nhìn tổng thể thống nhất các khung nhìn khác nhau

Ví dụ: một hệ thống tác nghiệp như bán hàng hoặc tiếp thị có thể có chung một dạng thông tin về khách hàng, nhưng các vấn đề về tài chính cần một khung nhìn khác cho thông tin về khách hàng Một kho sẽ có một khung nhìn toàn thể về một khách hàng Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ các hệ thống tác nghiệp khác nhau

Trang 19

dữ liệu trong kho được tạo ra và gắn liền với một giá trị thời gian nhất định

 Dữ liệu tổng hợp và chi tiết

Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu Dữ liệu tác nghiệp chính là thông tin mức thấp nhất Dữ liệu tổng hợp được tích hợp lại qua nhiều giai đoạn khác nhau

2.3 Kho dữ liệu và các cơ sở dữ liệu

DWH về bản chất cũng là một database bình thường, các hệ quản trị cơ sở dữ liệu quản lý và lưu trữ nó như các database thông thường (tuy nhiên có hỗ trợ thêm về quản lý dữ liệu lớn và truy vấn) Thực ra nét khác biệt của DWH so với database là ở quan niệm, cách nhìn vấn đề:

- Trước tiên DWH là database rất lớn (very large database-VLDB)

- Database hướng về xử lý thời gian thực, DWH hướng về tính ổn định

- Database phục vụ xử lý transaction, cập nhật Datawarehouse thường chỉ đọc, phục vụ cho những nhu cầu báo cáo VD: Chúng ta sẽ yêu cầu hãy cho biết trong 5 năm, bộ phận phần mềm đã làm được những dự án nào từ đó chúng ta

sẽ có quyết định về hiệu năng của nhóm này

- DWH sẽ lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQLserver thậm chí cả File thông thưởng rồi làm sạch chúng và đưa vào cấu trúc của nó-đó là VLDB(very large database) DWH rất lớn nên muốn cho từng

bộ phận chuyên biệt người sử dụng cuối cùng có thể khai thác thông dễ dàng thì bản thân DWH phải được chuyên hoá, phân ra thành những chủ đề, do đó những chủ đề chuyên môn hóa đó tạo thành một Database chuyên biệt-đó là Data mart VD: DWH của Microsoft là rất lớn, trong một núi thông tin đó làm sao khai thác? Vì thế có rất nhiều Data mart về kinh doanh, tiếp thị, kỹ thuật, testing,… Có một điểm lưu ý ở đây là có một công cụ hay đúng hơn là một chuẩn công cụ mà mọi hệ quản trị Database hỗ trợ cho việc truy vấn thông tin

Trang 20

trong Datamart rồi đưa ra những quyết định, nhận dịnh những thông tin trong Datamart - Đó là OLAP, bộ phân tích trực tuyến

- Một điểm quan trọng là Database thường được chuẩn hóa (Dạng chuẩn 1, 2, 3, BCK) để khai thác DWH phải phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo start chema trong Data mart, điều này đồng nghĩa vớI việc DWH sẽ trùng lắp thông tin Thật ra điều này theo tôi nghĩ là hiển nhiên vì việc chuẩn hoá nhằm tránh sự trùng lắp thông tin, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sửa, tuy nhiên DWH là Database rất lớn phục vụ cho báo cáo, truy vấn chỉ đọc nên việc trùng lắp thông tin sẽ giúp thao tác tìm kiếm sẽ nhanh hơn Đây cũng

là một quy luật: Càng trùng lắp thông tin thì tìm kiếm càng dễ dàng và ngược lại

2.4 Lợi ích của kho dữ liệu

Tạo ra những quyết định có ảnh hưởng lớn: Một DWH cho phép trích rút tài nguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáo dựa vào cơ sở dữ liệu hoạt động và sản xuất Điều này tạo ra sự tiết kiệm đáng kể Có kho dữ liệu cũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi một chương trình quá lâu hoặc các báo cáo và các câu truy vấn phức hợp

Công việc kinh doanh trở nên thông minh hơn: Tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của kho dữ liệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc kinh doanh cho đến mức độ cao hơn - mức độ tổng quát Đảm bảo được dữ liệu chính xác và đáng tin cậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có chất lượng cao và ổn định (trusted data)

Dịch vụ khách hàng được nâng cao: Một doanh nghiệp có thể giữ gìn mối quan

hệ với khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua một kho dữ liệu riêng

Tái sáng tạo những tiến trình kinh doanh: Sự cho phép phân tích không ngừng thông tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh doanh do đó có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình này lại Chỉ khi xác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp ta đánh giá được những hạn chế và mục tiêu kinh doanh một cách chính xác hơn

Tái sáng tạo hệ thống thông tin: Một DWH là nền tảng cho các yêu cầu dữ liệu trong mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa ra thói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành theo chuẩn quốc tế

2.5 Kho dữ liệu hiện nay

Ngày nay, hầu hết các kho dữ liệu đang được dùng cho quản trị doanh nghiệp thông minh làm tăng mối quan hệ khách hàng (CRM - Customer Relationship

Trang 21

Management) và khai thác dữ liệu Một số được sử dụng để báo cáo tổng hợp, một số được sử dụng để tích hợp dữ liệu Các cách sử dụng này đều tương quan với nhau; ví

dụ, quản trị doanh nghiệp thông minh (Business Intelligence - BI) và CRM sử dụng khai thác dữ liệu, kinh doanh thông minh sử dụng báo cáo, còn BI và CRM còn sử dụng tích hợp dữ liệu Trong các phần sau sẽ mô tả cách sử dụng chính, bao gồm quản trị doanh nghiệp thông minh, CRM và khai thác dữ liệu

Quản trị doanh nghiệp thông minh:

Dường như nhiều nhà cung cấp thích dùng quản trị doanh nghiệp thông minh hơn là DWH Nói cách khác, họ tập trung hơn vào việc xem DWH có thể làm gì cho doanh nghiệp Nhiều DWH hiện nay được dùng cho BI: giúp nhà kinh doanh hiểu công việc kinh doanh của họ hơn; giúp họ đưa ra các quyết định hành động, chiến lược, và mục tiêu kinh doanh tốt hơn; giúp họ cải tiến hoạt động kinh doanh

Một số các nhà lãnh đạo doanh nghiệp ngày nay ra quyết định dựa trên dữ liệu

Và 1 công cụ quản trị doanh nghiệp thông minh chạy và vận hành trên của kho dữ liệu

có thể là một công cụ hỗ trợ tốt cho mục đích đó Điều này có được là do sử dụng báo cáo và OLAP Báo cáo DWH được sử dụng để đưa ra số liệu kinh doanh đã tổng hợp trong DWH tới những người kinh doanh OLAP cho phép doanh nghiệp phân tích sự ảnh hưởng lẫn nhau của dữ liệu giao dịch kinh doanh được lưu trữ trong DWH đa chiều

Quản lý mối quan hệ khách hàng:

Một hệ thống quản lý mối quan hệ khách hàng (CRM - Customer Relationship Management) gồm có những ứng dụng mà hỗ trợ quản lý mối quan hệ khách hàng Trong một hệ thống CRM, chức năng lý tưởng sau đây được xây dựng trong một DWH đa chiều:

Trang 22

ngày nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị

y học, giáo dục, viễn thông,…

MDM là quá trình chiết, làm sạch, lưu trữ, cập nhật, và phân phối dữ liệu chủ Một hệ thống MDM khôi phục dữ liệu chủ từ hệ thống OLTP Hệ thống MDM cũng

cố dữ liệu chủ và xử lý dữ liệu thông qua việc định nghĩa trước các quy tắc về chất lượng dữ liệu Dữ liệu chủ sau đó được nạp tới DWH chủ Bất kỳ sự thay đổi nào trên

dữ liệu chủ trong hệ thống OLTP được gửi tới hệ thống MDM, và DWH chủ được cập nhật để phản ánh những thay đổi đó Hệ thống MDM sau đó chuyển dữ liệu chính tới những hệ thống khác

Tích hợp dữ liệu khách hàng:

Tích hợp dữ liệu khách hàng (CDI- Customer Data Integration) là MDM cho dữ liệu khách hàng CDI là một quá trình chiết, làm sạch, lưu trữ, duy trì, và phân phối dữ liệu của khách hàng CDI hệ thống chiết dữ liệu khách hàng từ hệ thống OLTP, làm sạch nó, lưu trữ trong một kho dữ liệu khách hàng chính, duy trì dữ liệu của khách hàng, lưu giữ nó, và phân phối các dữ liệu khách hàng cho các hệ thống khác

Hệ thống CDI cho phép bạn có một phiên bản dữ liệu khách hàng sạch hơn, duy nhất, đáng tin cậy mà các ứng dụng khác trong các doanh nghiệp có thể sử dụng Điều này cũng có thể gia tăng lợi ích kinh doanh chẳng hạn như tăng sự hài lòng của khách hàng và phân tích kinh doanh tốt hơn, và nó làm giảm sự phức tạp của các quá trình sử dụng dữ liệu khách hàng Tất cả các loại khác nhau của quản lý dữ liệu chính, CDI là

sử dụng rộng rãi nhất bởi vì mỗi tổ chức có khách hàng CDI cung cấp dữ liệu tích hợp sạch cho quản lý mối quan hệ khách hàng

2.6 Xu hướng tương lai của kho dữ liệu

Dữ liệu phi cấu trúc:

Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ trong các hệ quản trị cơ

sở dữ liệu quan hệ như Oracle, MS SQL Server, MySQL,… trong đó các thực thể và các thuộc tính được định nghĩa sẵn Ví dụ, dữ liệu của một thí sinh dự thi đại học có thể bao gồm các thông tin như họ tên, năm sinh, trường dự thi, điểm thi các môn Trong khi đó dữ liệu phi cấu trúc (Unstructured Data) thường dùng để chỉ dữ liệu ở

Trang 23

dạng tự do (free type) và không cần có cấu trúc định nghĩa sẵn Các trang web, video, ảnh, âm thanh là các ví dụ của dữ liệu phi cấu trúc

Dữ liệu phi cấu trúc được lưu trữ trong kho dữ liệu như thế nào ? Và, sau khi lưu giữ, làm thế nào để nhận được những thông tin mà bạn cần ra khỏi dữ liệu này ?

Để trả lời câu hỏi thứ nhất, đối với mỗi thành phần dữ liệu phi cấu trúc bạn định nghĩa thuộc tính và sau đó thiết lập những thành phần đó theo các thuộc tính Bạn có thể lưu trữ các thành phần dữ liệu phi cấu trong một cơ sở dữ liệu quan hệ như là một cột đối tượng nhị phân, với các thuộc tính như là các cột khác Hoặc bạn có thể lưu trữ các thành phần dữ liệu phi cấu trúc trong hệ thống tập tin và chỉ cần lưu trữ các con trỏ vào tập tin trong cơ sở dữ liệu

Mỗi kiểu của dữ liệu phi cấu trúc có thuộc tính về vật lý và nội dung khác nhau Các thuộc tính có thể được lưu giữ trong một hay nhiều cơ sở dữ liệu để cho phép người sử dụng dễ dàng tìm thấy dữ liệu phi cấu trúc riêng chi tiết Nội dung của các dữ liệu phi cấu trúc chính nó có thể được phân tích, trích xuất, phân loại, lưu trữ và để hỗ trợ truy vấn thông tin

Tìm kiếm:

Phần này câu trả lời câu hỏi thứ hai, làm thế nào để bạn nhận được những thông tin ra? Câu trả lời là bằng cách tìm kiếm (Search) Để có được thông tin từ dữ liệu có cấu trúc, bạn có thể sử dụng các câu truy vấn như báo cáo tỉnh, hoặc câu truy vấn tự xây dựng Nếu bạn sử dụng một ứng dụng BI, các ứng dụng có thể đi qua các siêu dữ liệu và hiển thị các cấu trúc dữ liệu, và sau đó hỗ trợ bạn trong việc điều hướng qua các dữ liệu để lấy lại thông tin bạn cần

Để có được thông tin từ dữ liệu phi cấu trúc, đặc biệt là các văn bản dữ liệu như các tài liệu, email, và các trang web, bạn thực hiện tìm kiếm Giống như trên Internet, các công cụ tìm kiếm đã thu thập thông tin kho dữ liệu và đánh chỉ mục các dữ liệu phi cấu trúc Các công cụ tìm kiếm có phân loại các dữ liệu phi cấu trúc dựa trên kiểu và thuộc tính của nó và , trong trường hợp các trang web, liên kết của nó

Khi bạn gõ thông tin tìm kiếm vào ô tìm kiếm, và các công cụ tìm kiếm sẽ đi qua các chỉ mục, tìm đến vị trí của những thông tin, và hiển thị các kết quả Nó cũng

có thể cung cấp giới hạn trước tìm kiếm, nó có thể hiển thị cấu trúc cây cho bạn để điều hướng và lựa chọn Nó cũng có thể nhớ người sử dụng tìm kiếm mà có thể hỗ trợ bạn trong việc xác định những gì để loại khi tìm kiếm

Hiện nay tìm kiếm đã trở thành một xu hướng trong quản trị doanh nghiệp thông minh và kho dữ liệu, bởi họ có thể lựu chọn dữ liệu phi cấu trúc của kho trong kho dữ liệu khổng lồ

Kiến trúc hướng dịch vụ:

Kiến trúc hướng dịch vụ (Service-Oriented Architecture - SOA) là một hướng tiếp cận với việc thiết kế và tích hợp các phần mềm, chức năng, hệ thống theo dạng

Trang 24

module, trong đó mỗi module đóng vai trò là một dịch vụ và có khả năng truy nhập thông qua môi trường mạng Hiểu một cách đơn giản thì một hệ thống SOA là một tập hợp các dịch vụ được chuẩn hóa trên mạng trao đổi với nhau trong nhữ cảnh một tiến trình nghiêp vụ

Một DWH hệ thống bao gồm nhiều thành phần: hệ thống nguồn, hệ thống ETL,

hệ thống siêu dữ liệu, hệ thống báo cáo, hệ thống cơ sở dữ liệu riêng của mình,… Bạn

có thể xây dựng nó như một ứng dụng khổng lồ với tất cả các thành phần quan hệ chặt chẽ; có nghĩa là, bạn không thể thay thế một phần mà không ảnh hưởng đến các thành phần khác Hoặc bạn có thể xây dựng theo kiến trúc hướng dịch vụ với nhiều thành phần nhỏ hơn, các thành phần độc lập mà nói chuyện với nhau bằng cách cung cấp và

sử dụng các dịch vụ của nó Trong tương lai, nó cũng có thể dễ dàng hơn để cập nhật một thành phần không ảnh hưởng của những người khác và các thành phần khác nhau

để kết nối được thực hiện bằng cách sử dụng các công nghệ khác nhau

Kho dữ liệu thời gian thực:

DWH ngày nay thông thường được cập nhật từng ngày, từng tuần, từng tháng, Có một số yêu cầu của những người sử dụng muốn nhìn thấy dữ liệu trong kho

dữ liệu được cập nhật cứ hai phút một lần hay thậm chí thời gian thực Một DWH thời gian thực (Real-Time Data Warehouse) là một DWH mà được cập nhật (bởi ETL) ngay thời điểm giao dịch xảy ra trong hệ thống nguồn

2.7 Kiến trúc của kho dữ liệu

DWH và kiến trúc của nó tùy thuộc vào vị trí của từng tổ chức Có 3 kiến trúc phổ biến của DWH:

 Kiến trúc DWH cơ bản: Đây là kiến trức đơn giản cho DWH

Hình 3 Kiến trúc DWH cơ bản

 Kiến trúc DWH với Staging Area: thêm thành phần làm sạch và xử lý dữ liệu trước khi đưa vào DWH

Trang 25

Hình 4 Kiến trúc DWH với Staging Area

 Kiến trúc DWH với Staging Area và Data Mart: So với kiến trúc trên có thêm data mart, dữ liệu được chuyển đổi và biểu diễn theo yêu cầu bởi một nhóm các người dùng đặc biệt

Hình 5 Kiến trúc kho dữ liệu với Staging Area và Data Mart

2.7.1 Nguồn dữ liệu

Nguồn dữ liệu của DWH gồm nhiều loại khác nhau:

 Dữ liệu từ các hệ thống tác nghiệp

o Chứa dữ liệu chi tiết và hiện tại

o Được sử dụng cho các giao dịch hàng ngày

o Chứa dữ liệu thích hợp hiện hành

o Là nguồn dữ liệu được tích hợp để xây dựng kho dữ liệu

 Hệ thống kế thừa

Trang 26

o Các sưu tập dữ liệu cũ không được dùng cho các mục đích hoạt động

o Phương pháp khác nhau của việc tổ chức dữ liệu ngược lại với mô hình hiện tại

o Được mã hóa nếu cần thiết khi hệ thống đã qua xử dụng

o Thông tin không đầy đủ về cấu trúc và ngữ nghĩa của dữ liệu hệ thống kế thừa

 Các nguồn dữ liệu bên ngoài

o Dữ liệu được lấy từ các nguồn bên ngoài

o Vi dụ: dl phân tích thị trường, dl báo cáo thời tiết, thuế,…

o Không phải là dữ liệu được tạo ra trong công ty

o Có thể có cấu trúc và mã hóa hoàn toàn khác nhau phụ thuộc vào nhà cung cấp

o Được yêu cầu cho các phân tích chi tiết

2.7.2 Công cụ trích xuất chuyển đổi và nạp dữ liệu (ETL)

 Làm sạch

o Tìm và loại trừ các bộ trùng nhau

o Kiểm tra tính nhất quán, khám phá ra dữ liệu sai, không nhất quán:

o Ngay trong bản thân nó: số phone đúng không, dữ liệu có ngoài vùng xác định không…

o Sửa, hoàn chỉnh dữ liệu thiếu, không đọc được, hay các giá trị rỗng (NULL)

o Chỉ ra các lỗi, và (có thể là chèn các giá trị mặc định)

o Cảnh báo cho các nguồn các kho dữ liệu về các lỗi tìm được

 Chuyển đổi

o Loại trừ các dữ liệu gây nhiễu

o Chuyển đổi dữ liệu vào một lược đồ nhất quán

o Các luật cho việc chuyển đổi

o Trước khi một kho dữ liệu có thể được truy cập một cách có hiệu quả, thực sự

là cần thiết để hiểu, dữ liệu gì sẵn có trong kho dữ liệu, và chúng lưu trữ ở đâu

o Dữ liệu miêu tả quá trình xây dựng, quản lí và hoạt động của kho dữ liệu

Trang 27

o Siêu dữ liệu được lưu trữ trong một kho chứa và được truy cập bởi tất cả các thành phần của kho dữ liệu

 Sự quan trọng của siêu dữ liệu

o Rất quan trọng trong kho dữ liệu

o Không phải là dữ kiện phân tích

o Là chìa khóa quyết định sự thành công của kho dữ liệu

o Là thành phần luôn được thay đổi, cấp nhật theo sự phát triển của kho dữ liệu

o Dùng để quản lý, điều khiển kho dữ liệu

 Miêu tả kho dữ liệu và các thành phần

 Tạo điều kiện cho việc truy cập kho dữ liệu ở mọi cấp

o Bảo trì:

 Phục vụ cho các mục đích bảo mật

 Lưu trữ thông tin về người dùng

 Các bước tạo lập siêu dữ liệu

o Định nghĩa các chức năng chính của siêu dữ liệu trong hệ thống kho dữ liệu

ra các DM

DM là một DWH thứ cấp các dữ liệu tích hợp của kho dữ liệu DM được hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề (Subject Area-SA) được tạo ra dành cho một nhóm người sử dụng Dữ liệu trong DM cho thông tin về một chủ

đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ

Trang 28

chức Thể hiện thường xuyên nhất của DM là một kho dữ liệu riêng rẽ trên phương diện vật lý và thường được lưu trữ trên một server riêng, trên một mạng cục bộ phục

vụ cho một nhóm người nhất định

DM gồm hai loại: DM độc lập và DM phụ thuộc:

 DM phụ thuộc: chứa những dữ liệu được lấy từ kho dữ liệu và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ cho một chủ đề nhất định của kho dữ liệu

 DM độc lập: không giống như DM phụ thuộc, DM loại này được xây dựng trước kho dữ liệu và dữ liệu được trực tiếp lấy từ các nguồn Phương pháp này đơn giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu Mỗi DM độc lập tạo ra cho riêng chúng những giả thiết về cách thống nhất dữ liệu và dữ liệu trong một vài DM là không đồng nhất với nhau DM thể hiện 2 vấn đề:

o Thứ nhất là tính ổn định trong mọi tình huống khi DM phát triển theo nhiều chiều;

o Thứ hai là sự tích hợp dữ liệu Vì vậy khi thiết kế DM tổ chức cần chú ý kỹ tới tính ổn định của hệ thống, sự đồng nhất của dữ liệu và vấn đề về khả năng quản lý

2.7.5 Các công cụ truy vấn, tạo báo cáo, phân tích dữ liệu

 Công cụ tạo báo cáo và câu hỏi truy vấn (Report):

Dễ sử dụng, các câu hỏi được xây dựng trước hoặc được người dùng tự tạo ra dưới dạng SQL dựa trên mô hình quan hệ Kết quả tạo ra dưới dạng báo cáo

 Công cụ phân tích trực tuyến (OLAP):

Tương đối khó sử dụng Người dùng thao tác với dữ liệu dưới dạng mô hình nhiều chiều (thường có chiều thời gian) Công cụ này cho phép phân tích dữ liệu nhanh chóng, liên tục, lặp đi lặp lại, theo quá trình mịn dần

 Công cụ phân tích, tìm kiếm cấp cao (Data Mining):

Dựa trên các nghiên cứu lĩnh vực trí tuệ nhân tạo Chúng giúp phát hiện những

sự kiện, hình mẫu, phụ thuộc dữ liệu trước kia chưa biết hoặc giúp chúng xây dựng những mô hình dự báo

2.8 Tổ chức dữ liệu lôgíc

2.8.1 Lƣợc đồ kho dữ liệu

Lược đồ là một tập hợp các đối tượng cơ sở dữ liệu bao gồm bảng, view, index,…Lược đồ kho dữ liệu hay được sử dụng: lược đồ hình sao, lược đồ bông tuyết rơi, lược đồ kết hợp,…

a Lược đồ hình sao

Trong sơ đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu:

- Các sự kiện được tổ chức thành bảng Fact

Trang 29

- Phạm vi, hay các chiều của dữ liệu, được tổ chức thành các bảng Dimension

Ưu điểm của sơ đồ hình sao:

- Hỗ trợ rất đa dạng các câu truy vấn và xử lý khá hiệu quả

- Phù hợp với cách mà NSD nhận và sử dụng dữ liệu và qua đó làm cho dữ liệu được hiểu trực quan hơn

- Nguyên lý cơ bản của sơ đồ hình sao là một dạng dư thừa dữ liệu cải thiện sự thực hiện các truy vấn Sự phi chuẩn hóa có thể coi là sự tiền kết nối các bảng

để cho các ứng dụng không phải thực hiện công việc kết nối, làm giảm thời gian thực hiện

- Khóa của bảng sự kiện được tạo bởi những khóa của các bảng chứa thông tin theo từng phạm vi Tất cả các khóa đều được xác định với cùng một chuẩn đặt tên

Hình 6 Lược đồ hình sao

b Lược đồ bông tuyết rơi

Sơ đồ hình tuyết rơi là một sự mở rộng của sơ đồ hình sao tại đó mỗi cánh sao không phải là một bảng Dimension mà là nhiều bảng

Sơ đồ hình tuyết rơi cải thiện năng suất truy vấn, tối thiểu không gian đĩa cần thiết

để lưu trữ dữ liệu và cải thiện năng suất nhờ việc chỉ phải kết hợp những bảng có kích thước nhỏ hơn thay vì phải kết hợp những bảng có kích thước lớn lại không chuẩn hóa

Nó cũng làm tăng tính linh hoạt của các ứng dụng bởi sự chuẩn hóa và ít mang bản chất theo chiều hơn Nó làm tăng số lượng các bảng và làm tăng tính phúc tạp của một vài truy vấn cần có sự tham chiếu tới nhiều bảng

Trang 30

Hình 7 Lược đồ bông tuyết rơi

c Lược đồ kết hợp

Là kết hợp giữa sơ đồ hình sao và sơ đồ hình tuyết rơi Một vài cơ sở dữ liệu và các công cụ truy vấn của người sử dụng đầu cuối nhất là các công cụ xử lí phân tích trực tuyến (OLAP) đòi hỏi mô hình dữ liệu phải là sơ đồ hình sao bởi vì nó là một mô hình

dữ liệu quan hệ nhưng lại được thiết kế để hỗ trợ mô hình dữ liệu đa chiều là điểm cốt lõi của OLAP

2.8.2 Mô hình dữ liệu đa chiều

Bản chất đa chiều của các câu hỏi trong nghiệp vụ được phản ánh trong thực tế chẳng hạn như những người quản lí thị trường không được thoả mãn với câu hỏi theo một chiều đơn giản, thay vào đó là những câu hỏi phức tạp Một cách để quan sát một

mô hình dữ liệu nhiều chiều là nhìn nó như một hình khối Hình sau thể hiện câu truy vấn theo bốn chiều: khách hàng, dịch vụ, thời gian

Hình 8 Mô hình đa chiều

Trang 31

Thời gian trả lời một truy vấn nhiều chiều phụ thuộc vào số lượng các ô được thêm vào trong quá trình thực hiện Khi số lượng chiều tăng thì số ô của khối này tăng theo cấp số mũ Bên cạnh đó, những truy vấn đa chiều đều liên quan tới những dữ liệu ở mức cao và dữ liệu tổng Vì vậy, giải pháp để xây dựng một cơ sở dữ liệu đa chiều có hiệu quả là phải kết hợp từ trước tất cả các tổng con logic và các tổng theo tất cả các chiều Sự kết hợp trước này đặc biệt có giá trị khi các chiều mang tính phân cấp

Sự phân cấp về kích thước, quản lí dữ liệu thưa hơn và sự kết hợp trước là quan trọng vì chúng làm giảm đáng kể kích cỡ của cơ sở dữ liệu và những yêu cầu tính toán các giá trị Một thiết kế như vậy loại bỏ việc phải kết hợp nhiều bảng và cung cấp sự truy nhập trực tiếp và nhanh tới các câu trả lời vì vậy cải thiện đáng kể tốc độ trong việc thực hiện các truy vấn đa chiều

Các thành phần chính

 Các dữ kiện (Facts)

o Miêu tả các vùng kinh doanh

o Không thay đổi khi nó đã được sinh ra

o Được lưu tại một cấp thô nào đó

 Các chiều (Dimensions)

o Thông tin tham chiếu qua đó các dữ kiện có thể được cấu trúc cho việc phân tích

o Định nghĩa các phân cấp

 Và các khối đa chiều (Cubes)

o Một khối có thể có nhiều chiều

o Một khối bao gồm nhiều ô dữ liệu

2.8.3 Bảng sự kiện

Bảng sự kiện điển hình có hai kiểu cột, chúng chứa đựng những sự kiện số (thường gọi là thước đo), và chứa khóa của các bảng dimension Bảng sự kiện chứa đựng những sự kiện mức chi tiết hoặc những sự kiện mà đã được tổng hợp lại Bảng sự kiện

mà chứa sự kiện tổng hợp thường được gọi là những bảng tóm tắt Bảng sự kiện thông thường chứa đựng những sự kiện với cùng mức của sự tổng hợp Tuy nhiên hầu hết những sự kiện liên kết tất cả các chiều, nó có thể liên kết với 1 số chiều hoặc không liên kêt

Bảng sự kiện là bảng chứa dữ liệu chi tiết nên có số lượng bản ghi rất lớn và còn thường xuyên được cập nhật, bổ sung dữ liệu, trong khi đó các bảng dimension thường

cố định nói đúng hơn là có sự thay đổi không đáng kể theo thời gian Bảng theo chiều chứa đựng các thuộc tính có thể được sử dụng như các tiêu chí tìm kiếm và thường có kích thước nhỏ hơn rất nhiều, rất quen thuộc với người sử dụng từ trước

Trang 32

2.8.4 Bảng chiều

Các chiều là cách mô tả chủng loại mà theo đó các dữ liệu số trong khối được phân chia để phân tích Khi xác định một chiều, chọn một hoặc nhiều cột của một trong các bảng liên kết (bảng chiều) Nếu ta chọn các cột phức tạp thì tất cả cần có quan hệ với nhau, chẳng hạn các giá trị của chúng có thể được tổ chức theo hệ thống phân cấp đơn

Để xác định hệ thống phân cấp, sắp xếp các cột từ chung nhất tới cụ thể nhất Ví dụ: một chiều thời gian được tạo ra từ các cột năm, qúy, tháng, ngày

Mỗi cột trong chiều góp phần vào một cấp độ cho chiều Các cấp độ được sắp đặt theo nét riêng biệt và được tổ chức trong hệ thống cấp bậc mà nó thừa nhận các con đường hợp logic cho việc đào sâu (drill_down) Ví dụ: chiều thời gian được miêu tả ở trên cho phép người dùng khối đào sâu từ năm tới qúy, từ qúy tới tháng và từ tháng tới ngày

Chiều có phân cấp:

Phân cấp là cột sống của việc gộp dữ liệu hay nói một cách khác là dựa vào các phân cấp mà việc gộp dữ liệu mới có thể thực hiện được Phần lớn các chiều đều có một cấu trúc đa mức hay phân cấp Nếu chúng ta làm những quyết định về giá sản phẩm để tối đa doanh thu thì chúng ta cần quan sát ở những dữ liệu về doanh thu sản phẩm được gộp theo giá sản phẩm, tức là chúng ta đã thực hiện một cách gộp Khi cần làm những quyết định khác thì chúng ta cần thực hiện những phép gộp tương ứng khác Như vậy có thể có quá nhiều tiến trình gộp Thế nên các tiến trình gộp này cần phải được thực hiện một cách rất dễ dàng, linh hoạt để có thể hỗ trợ những phân tích không hoạch định trước Điều này có thể được giải quyết trên cơ sở có sự trợ giúp của những phân cấp rộng và sâu

2.8.5 Bảng sự kiện tổng hợp

Bảng tổng hợp

Bảng tổng hợp nhằm mục đích trả lời nhanh các câu hỏi thường gặp Các bước tạo bảng tổng hợp:

– Nhận diện các câu hỏi thường gặp

– Nhận diện các chiều và các tổng hợp tương ứng

– Định nghĩa phân cấp của các tổng hợp

– Tạo một cách có chọn lựa các bảng dữ kiện tổng hợp tính toán trước

– Tạo các bảng chiều tổng hợp

Bảng sự kiện tổng hợp

– Nhận diện các bảng dữ kiện yêu cầu

– Các tổng hợp ở thứ tự cao có thể được tính toán từ các tổng hợp thứ tự thấp,

• Ví dụ: lượng hàng bán được theo từng tháng có thể tính được dựa trên lượng hàng bán được từng ngày trong tháng

Trang 33

– Ước lượng dung lượng

– Kiểm tra sự sẵn có của dữ liệu

– Kiểm tra các bảng tổng hợp chiều cần thiết

2.9 Tổ chức dữ liệu vật lý

2.9.1 Phân vùng

Phân vùng (partition) là kĩ thuật được sử dụng trong kho dữ liệu nhằm tối ưu hiệu suất truy vấn bằng cách cho phép người thiết kế phân vùng các vùng nhớ để chứa

dữ liệu thoả mãn những yêu cầu do người thiết kế đặt ra Khi phân vùng, người thiết

kế chọn điều kiện phân vùng, ví dụ như ngân sách quyết toán thu số liệu chẳng hạn, người thiết kế sẽ phân vùng theo năm Khi dữ liệu được đưa và kho sẽ được lưu trên các phân vùng nhớ dành cho từng năm Khi có truy vấn theo năm, giả sử truy vấn dữ liệu trong ba năm là 1999, 2000, 2001 các truy vấn sẽ chỉ thực hiện trên các vùng nhớ dành cho ba năm này chứ không tiến hành truy vấn trên toàn bộ vùng nhớ lưu dữ liệu quyết toán thu số liệu

2.9.2 Chỉ mục

Đánh chỉ mục (Index) là kỹ thuật phổ biến nhằm tăng hiệu suất các truy vấn dữ liệu Chuyên gia thiết kế sẽ chọn trường phù hợp của một bảng để đánh chỉ số, khi đó trường chỉ số đó sẽ được lưu ra một bảng tham chiếu, được sắp xếp sẵn Khi có truy vấn dữ liệu, thời gian truy vấn sẽ giảm do dữ liệu cần truy vấn đã được sắp xếp từ trước

Các bảng thông thường trong database đều thuộc loại bảng không phân vùng Chỉ mục phân vùng dùng cho các bảng lớn, lưu các mục chỉ mục của chỉ mục này có thể nằm trên nhiều segments Việc phân vùng sẽ cho phép một chỉ mục có thể trải rộng trên nhiều tablespaces, giảm bớt tình trạng quá tải khi chỉ mục được truy xuất và quản

lý Các chỉ mục phân vùng hay được sử dụng cùng với các bảng phân vùng để tăng cường hiệu năng và dễ quản lý Chỉ mục phân vùng sẽ được tạo ra ứng với mỗi bảng phân vùng

Đánh chỉ số kiểu Bitmap

Một cách khác để tăng công suất thực hiện các truy vấn là sử dụng kỹ thuật đánh chỉ số theo kiểu Bitmap nhằm tăng tốc độ truy vấn dữ liệu Mỗi lần dữ liệu được tải vào, tất cả dữ liệu được chuyển đổi thành các chuỗi bitmap, những chuỗi này sau

đó được nén lại và được lưu trữ trên đĩa Khác với việc đánh chỉ số thông thường, những chỉ số không chỉ tới dữ liệu được lưu trữ ở nơi khác mà tất cả dữ liệu được lưu trữ trong cấu trúc chỉ số này Tuy nhiên phương thức đánh chỉ số vẫn sẽ gặp khó khăn trong việc truy vấn dữ liệu nếu phạm vi dữ liệu là quá lớn

So sánh giữa B-TREE và Bitmap Index

Bảng trên đây so sánh giữa B-TREE và Bitmap Index, Bitmap index được sử dụng nhiều hơn trong trường hợp các cột có giá trị khác nhau rất ít

Trang 34

Việc cập nhật các cột làm khoá trong Bitmap index thì sẽ chậm hơn bởi vì Bitmap index sử dụng phương pháp khoá đoạn bitmap (bitmap segment level locking), trong khi đó trong một B-TREE index khoá thực hiện trên các điểm vào tương ứng với từng row riêng lẻ trên table

Bitmap index có thể thực hiện các hoạt động với các toán hạng logic OR Khi

đó Oracle Server sử dụng hai phân đoạn bitmap để thực hiện việc so sánh từng bit trong toán hạng OR và trả về kết quả là một chuỗi Bitmap Tính chất này cho phép sử dụng hiệu quả chuỗi Bitmap trong câu lệnh truy vấn có sử dụng toán hạng logic OR

Nói chung B-TREE index thích hợp hơn trong môi trường OLTP cho việc truy vấn các bảng động Trong khi đó, Bitmap index thích hợp hơn trong môi trường DSS có sử dụng nhiều câu lệnh truy vấn phức tạp trên các table lớn (large) và tĩnh (static)

Trang 35

Chương 3: PHÂN TÍCH, THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG

Tóm lược nội dung:

Nội dung chính của chương này bao gồm: Tìm hiểu hệ thống nguồn CCBS; xác định yêu cầu phân tích; thiết kế mô hình dữ liệu dựa trên yêu cầu phân tích và CSDL của hệ thống nguồn CCBS; thiết kế mô hình vật lý; thiết kế trích xuất chuyển đổi và nạp số liệu từ hệ thống CCBS vào DWH; xây dựng công cụ báo cáo, tra cứu động và quản trị hệ thống; cài đặt và triển khai DWH

3.1 Phân tích

Trong phần phân tích, tác giả sẽ tập trung vào 2 vấn đề chính:

 Tìm hiểu hệ thống nguồn CCBS đang được triển khai tại các Viễn thông tỉnh: Tìm hiểu hoạt động và cơ sở dữ liệu của hệ thống nguồn

 Xác định các yêu cầu phần tích: Yêu cầu xuất phát từ nhu cầu cùa Viễn thông tỉnh và yêu cầu cần có của một DWH viễn thông

3.1.1 Tìm hiểu hệ thống nguồn CCBS

- Hệ thống Tính cước và Chăm sóc khách hàng (CCBS - Customer Care and Billing System) đã và đang triển khai tại các đơn vị trực thuộc của Tổng công ty Bưu Chính Viễn Thông Việt Nam (VNPT) phù hợp với các quy trình nghiệp vụ của các doanh nghiệp viễn thông nhất là quy trình hiện hành của VNPT về nguyên tắc phát triển thuê bao, tính cước, in hóa đơn, quản lý nợ, các dịch vụ về chăm sóc khách hàng và cắt mở thuê bao dịch vụ tự động, điều hành sửa chữa báo hỏng,…

- Hệ thống CCBS thực hiện các chức năng tính cước, chăm sóc khách hàng, phục

vụ công tác điều hành sản xuất kinh doanh của các doanh nghiệp viễn thông

Trang 36

Khách hàng Khách hàng Khách hàng

Call Center Điểm giao dịch Web Email

Hệ thống tính

cước & hỗ trợ

khách hàng

Hệ thống Quản lý mạng ngoại vi thuê bao dịch vụ tựHệ thống Cắt mở

động

Hệ thống Điều hành sửa chữa báo hỏng

Hệ thống CCBS tổng thể

Hình 9 Hệ thống CCBS tổng thể 3.1.1.1 Phát triển thuê bao

Tiếp nhận và quản lý các yêu cầu khách hàng, thanh toán tiền hợp đồng, hoàn thiện hồ sơ, quản lý danh bạ của khách hàng liên quan đến việc đăng ký, sử dụng tất cả các loại dịch vụ viễn thông Bao gồm các chức năng chính:

o Tiếp nhận yêu cầu: Thực hiện việc tiếp nhận và nhập các yêu cầu khách hàng liên quan đến việc đăng ký và sử dụng dịch vụ viễn thông

o Thanh toán tiền hợp đồng: Thực hiện thanh toán tiền lắp đặt, đăng ký dịch vụ gia tăng,…

o Điều hành thi công: Giao phiếu cho các đơn vị thi công, cập nhật kết quả hoàn công,…

o Hoàn thiện hồ sơ: Thực hiện hoàn thiện các hợp đồng, chuyển vào danh bạ quản lý khách hàng

o Quản lý danh bạ: Thực hiện quản lý danh bạ khách hàng, thanh toán, danh bạ thuê bao, danh bạ trang vàng, danh bạ nội bộ,…

3.1.1.2 Xử lý dữ liệu cước

Xử lý cước thô CDR để phân hệ Tính cước tính tiền (charging) cho thuê bao, bao gồm các chức năng chính:

o Thu thập dữ liệu từ các nguồn

o Chuyển đổi số liệu

o Chuẩn hóa số liệu

o Lọc dữ liệu

Trang 37

o Kiểm tra tính đúng đắn của dữ liệu (Với dữ liệu phục vụ các hệ thống tính cước các chức năng được thực hiện bao gồm xử lý trùng, xử lý chờm, ghép cuộc và đánh mã cho các cuộc gọi)

o Thiết lập tham số xử lý dữ liệu

o Dữ liệu đầu ra của xử lý dữ liệu cước là dữ liệu đầu vào cho hệ thống Tính cước

3.1.1.3 Tính cước

Đảm nhiệm chức năng tính cước cho thuê bao, bao gồm các chức năng chính:

o Tính cước các cuộc gọi với dữ liệu đã được chuẩn hóa đến công đoạn cuối cùng

o Cho phép tính nhiều lần trong tháng

o Tính cước cho các chỉ số đồng hồ

o Cho phép xử lý lại các cuộc lỗi

o Có thể tính nhiều dịch vụ trên 1 cuộc gọi

o Cho phép tính cước các trường hợp đổi số, chuyển đối tượng trong tháng, chuyển mạng

o Giảm giá theo thời gian

o Mỗi thuê bao có thể được tính theo một chính sách cước riêng biệt và mỗi một chính sách cước được thiết lập hoàn toàn dựa trên tham số cho phép đáp ứng được các thay đổi về sau

o Thiết lập tham số, định nghĩa các loại hóa đơn

o Tổng hợp dữ liệu in hoá đơn: thực hiện việc tổng hợp dữ liệu từ CSDL tập trung đã được mô đun Tính cước thực hiện, hoặc từ nguồn dữ liệu bất kỳ

o Cho phép định nghĩa các mẫu hóa đơn mới theo yêu cầu

o Có thể in theo nhiều tiêu chí khác nhau: đồ họa, text, theo đơn vị, dịch vụ

o Tạo các loại hoá đơn: Cho phép xem, in ấn, lưu trữ các loại hoá đơn theo biểu mẫu đã được định nghĩa trước

Trang 38

o Thực hiện tạo dữ liệu báo cáo và tra cứu thông tin nợ đọng và thanh toán

nợ đọng

o Quản lý, theo dõi và thực hiện các xử lý nợ khó đòi của khách hàng

3.1.1.6 Quản lý giải quyết khiếu nại

Quản lý thông tin và xử lý khiếu nại của khách hàng, bao gồm các chức năng chính như sau:

o Tiếp nhận yêu cầu khiếu nại của khách hàng

o Giao xử lý khiếu nại

o Thực hiện xử lý khiếu nại của khách hàng

o Đóng và kết thúc khiếu nại

3.1.1.7 Cắt mở thuê bao dịch vụ tự động

SA cung cấp cho người dùng một giao diện thống nhất cho quá trình thao tác lệnh vào/ra tổng đài mà không cần phải nhớ đến các cú pháp lệnh Nghĩa là hệ thống phải trừu tượng hóa để có thể mô tả các lệnh vào/ra tổng đài của các loại tổng đài khác nhau, với các cú pháp lệnh khác nhau theo một cách duy nhất Hệ thống SA bao gồm nhiều hệ thống con đảm nhận các chức năng khác nhau từ hệ thống tương tác với người dùng, nhận yêu cầu ở mức logic rồi phân tích để đưa ra được các lệnh tương ứng để truyền xuống từng tổng đài cụ thể với cú pháp lệnh phù hợp, sau đó thu thập thông tin trả ra từ tổng đài, phân tích để xác định kết quả thực hiện yêu cầu… Các phân hệ con này bao gồm:

o Phân hệ chuyển đổi giao thức FlexAdapter

o Phân hệ điều khiển quá trình vào/ra lệnh tổng đài NE Operator

o Phân hệ nhận các yêu cầu từ người sử dụng, sinh ra các lệnh tương ứng

để đáp ứng cho các yêu cầu đó và truyền các yêu cầu đến từng hệ thống

Trang 39

điều khiển (NE Operator) tướng ứng Hệ thống này được gọi là Dispatcher

3.1.1.8 Quản lý điều hành sửa chữa báo hỏng

Quản lý thông tin và điều hành xử lý báo hỏng, sự cố của khách hàng, bao gồm các chức năng chính như sau:

o Tiếp nhận yêu cầu báo hỏng, sự cố của khách hàng

o Đo thử tự động đường dây, dịch vụ phục vụ kiểm tra nguyên nhân báo hỏng; tự động đo quét đảm bảo duy trì chất lượng dịch vụ

o Giao sửa chữa hỏng, sự cố

o Thực hiện và cập nhật kết quả sửa chữa

o Nghiệm thu yêu cầu báo hỏng

3.1.1.9 Quản lý mạng ngoại vi

Quản lý mạng ngoại vi trên nền công nghệ GIS, đảm bảo mối quan hệ chặt chẽ giữa các số liệu mạng cáp, mạng hạ tầng và số liệu thuê bao trên giao diện bản đồ số; hỗ trợ quản lý và thiết kế mạng; thực hiện các nhiệm vụ đi dây, đấu nối mạng theo yêu cầu phát triển thuê bao, bao gồm các chức năng chính như sau:

o Quản lý mạng hạ tầng với các số liệu chi tiết đến từng lỗ cống, mặt cắt cống, tuyến cống Các chức năng khảo sát, thống kê trên mạng hạ tầng giúp cho người quản lý mạng biết được khả năng mở rộng mạng của mạng cáp, việc đi cáp, việc sửa cáp

o Quản lý mạng cáp, chi tiết đến từng đôi cáp, đấu nối đôi cáp vào các tủ cáp, hộp cáp, card thuê bao của Tổng đài, chi tiết đi cáp trên mạng hạ tầng Các chức năng tra cứu trực quan cho phép hiển thị các đôi cáp còn rỗi, số thuê bao liên quan đến từng đôi cáp

o Quản lý phát triển thuê bao, tích hợp với hệ thống quản lý phát triển thuê bao để tiến hành triển khai lắp đặt theo yêu cầu của khách hàng Các số liệu đấu nối thuê bao cho phép in tuyến cáp và phiếu xử lý thuê bao, giúp cho việc khắc phục sự cố được nhanh chóng, chính xác

3.1.2 Xác định yêu cầu phân tích

Các yêu cầu phân tích tập trung vào 6 nhóm chủ đề sau: bán hàng, quản lý mối quan hệ, kế toán, sử dụng dịch vụ, doanh thu và điều hành

3.1.2.1 Bán hàng

Phân tích chương trình khuyến mãi

Hệ thống cho phép nhà cung cấp phân tích các chương trình khuyến mãi để đánh giá hiệu quả của các chương trình khuyến mãi Phân tích sự thu nhận khách hàng của các chương trình khuyến mãi theo các tiêu chí như thời gian, dịch vụ, kênh giao tiếp, địa chỉ, Phân tích sự dời bỏ nhà cung cấp trong thời gian khuyến mãi

Trang 40

Sự phân tích chiến dịch ngày càng quan trọng Nhà cung cấp sử dụng sự phân tích chương trình khuyến mãi để đẩy nhanh hoạt động tiếp thị có hiệu quả và sử dụng trong việc đặt mục tiêu và lập kế hoạch cho các chiến dịch tiếp theo

Thường nhà cung cấp dựa trên một số thước đo không rõ về lợi nhuận để đánh giá hiệu quả như số thuê bao mới và số dịch vụ gia tăng sử dụng Tuy nhiên, nhà cung cấp ngày càng quan tâm đến lợi nhuận chính xác của các hoạt động tiếp thị

Phân tích cung cấp sản phẩm chéo nhau

Hệ thống cho phép phân tích nhân khẩu, địa lý và những khuynh hướng sử dụng của khách hàng mà họ đã đăng ký sử dụng dịch vụ, để nhà cung cấp có thể tạo ra những gói sản phẩm sẽ phù hợp và hấp dẫn nhất đối với người sử dụng Nhà cung cấp

có khả năng để đoán nhận những sản phẩm nó nào bổ sung tốt nhất đối với những sản phẩm khác Từ đây, bằng cách sử dụng những đề xuất hướng tới hơn những khách hàng tiềm năng, nhà cung cấp có thể tăng sự thu hút của những sản phẩm và nhằm giảm bớt chi phí chiến dịch

Hệ thống cho phép nhà cung cấp có thể theo dõi hiệu quả của một chiến dịch tiêu thụ chéo nhau cũng như tính chính xác của các giả định cung cấp

Ví dụ như phân tích các chương trình khuyến mãi bán adsl kèm điện thoại cố định

Phân tích sự phát triển thuê bao

Hệ thống cho phép phân tích sự thu nhận khách hàng theo các tiêu chí như thời gian, dịch vụ, kênh giao tiếp, địa chỉ, kiểu yêu cầu (trả trước sang trả sau, hòa mạng adls trên đường cố định có sẵn, từ doanh nghiệp khác,…),…

Bằng việc phân tích các đặc tính của thuê bao hiện hữu, nhà cung cấp có thể thực hiện phân đoạn thị trường đến các khách hàng triển vọng với những sản phẩm và dịch vụ đặc biệt Sử dụng thông tin lấy từ DWH để có thể phát triển những sản phẩm

và những dịch vụ mới để thu hút thêm khách hàng đăng ký

Mối quan hệ giữa sự thu nhận và sự ra đi là phức tạp mà yêu cầu sự phân tích chi tiết Đồng thời, chi phí liên quan trong việc thu nhận khách hàng mới ngày càng gia tăng Sự thu nhận khách hàng mới tối đa có thể không tất yếu dẫn tới tối ưu hóa lợi nhuận Đặc biệt, việc thu nhận những khách hàng mới mất thời gian gấp 5 lần so với

sự duy trì khách hàng hiện hữu

Phân tích kênh bán hàng

Nhà cung cấp viễn thông sử dụng nhiều kênh khác nhau để bán và cung cấp dịch vụ tới khách hàng như điểm giao dịch, đại lý, qua điện thoại, email, website, Chi phí và số lượng hàng bán của các kênh là khác nhau Một kênh có thể tạo ra nhiều khách hàng mới, nhưng tỷ lệ lớn những khách hàng đó là lợi nhuận thấp, hay

có khuynh hướng rời bỏ nhà cung cấp sau một thời gian ngắn Hệ thống cho phép phân tích những yếu tố này và so sánh những kênh bán hàng khác, nhà cung cấp có

Ngày đăng: 16/08/2015, 16:42

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Đoàn Văn Ban (1997), Phương pháp thiết kế và khai thác kho dữ liệu, đề tài nghiên cứu cấp Trung tâm KHTN & CNQG Sách, tạp chí
Tiêu đề: Phương pháp thiết kế và khai thác kho dữ liệu
Tác giả: Đoàn Văn Ban
Năm: 1997
2. Hà Thái Bảo, Trung tâm Công nghệ Thông tin, Học viện Bưu chính Viễn thông (2002), Áp dụng các công nghệ mới để xây dựng hệ thống tính cước và chăm sóc khách hàng theo mô hình nhiều lớp (Multi-layer), Hà Nội Sách, tạp chí
Tiêu đề: Áp dụng các công nghệ mới để xây dựng hệ thống tính cước và chăm sóc khách hàng theo mô hình nhiều lớp (Multi-layer)
Tác giả: Hà Thái Bảo, Trung tâm Công nghệ Thông tin, Học viện Bưu chính Viễn thông
Năm: 2002
3. Nguyễn Thanh Bình, Đại học Huế , Kho dữ liệu và Hệ hỗ trợ quyết định, Huế Sách, tạp chí
Tiêu đề: Kho dữ liệu và Hệ hỗ trợ quyết định
4. Công ty Cổ phần Tin học Ứng dụng và Viễn thông (2008), Tài liệu thiết kế hệ thống tính cước và chăm sóc khách hàng, Hà Nội Sách, tạp chí
Tiêu đề: Tài liệu thiết kế hệ thống tính cước và chăm sóc khách hàng
Tác giả: Công ty Cổ phần Tin học Ứng dụng và Viễn thông
Năm: 2008
5. Huỳnh Đức Nghĩa, Trung tâm Công nghệ Thông tin, Học viện Bưu chính Viễn thông (2004), Nghiên cứu công nghệ phân tán trên nền .NET Framework áp dụng cho việc phát triển và tích hợp các hệ thống phần mềm, Hà Nội Sách, tạp chí
Tiêu đề: Nghiên cứu công nghệ phân tán trên nền .NET Framework áp dụng cho việc phát triển và tích hợp các hệ thống phần mềm
Tác giả: Huỳnh Đức Nghĩa, Trung tâm Công nghệ Thông tin, Học viện Bưu chính Viễn thông
Năm: 2004
6. Tập đoàn Bưu chính Viễn thông Việt Nam VNPT (2006), Tài liệu quy trình nghiệp vụ, Hà Nội.Tài liệu tiếng Anh Sách, tạp chí
Tiêu đề: Tài liệu quy trình nghiệp vụ
Tác giả: Tập đoàn Bưu chính Viễn thông Việt Nam VNPT
Năm: 2006
7. Artech House, Boston London (1997), Data Warehousing and Data Mining for Telecommunications, London Sách, tạp chí
Tiêu đề: Data Warehousing and Data Mining for Telecommunications
Tác giả: Artech House, Boston London
Năm: 1997
10. Oracle (2007), Data Warehousing Guide 11g Release 1, USA Sách, tạp chí
Tiêu đề: Data Warehousing Guide 11g Release 1
Tác giả: Oracle
Năm: 2007
11. VINCENT RAINARDI (2008), Building a Data Warehouse With Examples in SQL Server, USA Sách, tạp chí
Tiêu đề: Building a Data Warehouse With Examples in SQL Server
Tác giả: VINCENT RAINARDI
Năm: 2008
12. Ralph Kimball Margy Ross (2002), The Data WarehouseToolkit Second Edition The Complete Guide to Dimensional Modeling, New York Sách, tạp chí
Tiêu đề: The Data WarehouseToolkit Second Edition The Complete Guide to Dimensional Modeling
Tác giả: Ralph Kimball Margy Ross
Năm: 2002
13. Stephen Toub (2002), “Secure Your .NET Remoting Traffic by Writing an Asymmetric Encryption Channel Sink”, MSDN Magazine Sách, tạp chí
Tiêu đề: “Secure Your .NET Remoting Traffic by Writing an Asymmetric Encryption Channel Sink”
Tác giả: Stephen Toub
Năm: 2002
14. Oracle (2007), Warehou Builder Guide 11g Release 1, USA. 15. WWW.ORACLE.COM Sách, tạp chí
Tiêu đề: Warehou Builder Guide 11g Release 1
Tác giả: Oracle
Năm: 2007
9. J.D. Meier, Alex Mackman, Michael Dunner, and Srinath Vasireddy, Microsoft Corporation (2002), .NET Remoting Security Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w