ODM API là một thành phần của ODM cho phép lập trình Java để khai phá dữ liệu, cung cấp cách tiếp cận chuẩn JDM Java Data Mining.
III.3.3. Các đối tƣợng trong ODM
1. Physical Data Specification
Đối tƣợng Physical Data Specification mô tả đặc điểm vật lý của dữ liệu đƣợc sử dụng khai phá nhƣ: dữ liệu lƣu ở đâu, có dạng giao dịch hay không giao dịch ?, vai trò các cột dữ liệu... Đối tƣợng Object này đƣợc sử dụng trong các bƣớc: xây dựng, kiểm thử, ghi điểm...
Bảng DL dạng không giao dịch Bảng dữ liệu dạng giao dịch
ID Attribute_name Value
1 Tuổi 25
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle ID Tuổi Giới tính Thu nhập
1 25 Nam 2.000.000 2 50 Nữ 1.000.000 3 40 Nam 4.000.000 …
2. Mining Function Settings
Đối tƣợng Mining function settings (MFS) quản lý các tham số mức cao dùng cho xây dựng mô hình. ODM cho phép ngƣời dùng tự xác định thuật toán cụ thể, nếu ngƣời dùng không đƣa ra lựa chọn của mình thì ODM sẽ chọn một thuật toán dựa vào các thiết lập chức năng cụ thể. Mỗi MFS chứa:
Các tham số hàm khai phá. Đặc tả logic dữ liệu.
Đặc tả sử dụng dữ liệu.
3. Mining Algorithm Settings
Đối tƣợng Mining Algorithm Settings chứa các tham số liên quan đến thuật toán xây dựng mô hình cụ thể. Cho phép ngƣời dùng là chuyên gia có thể tinh chỉnh các xử lý thuật toán. Với thiết kế tách biệt thuật toán với hàm khai phá dữ liệu làm cho ngƣời dùng không phải là chuyên gia cũng sử dụng đƣợc ODM, còn các chuyên gia có thể kiểm soát và sử dụng hiệu quả hơn.
4. Logical Data Specification
Đối tƣợng Logical data specification (LDS) là tập các thuộc tính tiến trình khai phá mô tả logic dữ liệu đƣợc đƣa vào mô hình.
5. Mining Attributes
Mining attribute mô tả vùng dữ liệu đầu vào: là dạng số hay dạng phân loại categorical. Dạng phân loại nhận các giá trị rời rạc nhƣ: Cao, thấp, trung bình...
6. Data Usage Specification
Đối tƣợng Data usage specification là phƣơng thức sử dụng thuộc tính trong mô hình. Đặc tả phƣơng thức sử dụng thuộc tính chỉ ra thuộc tính đó là active -
1 Thu nhập 2.000.000
...
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle
đƣợc sử dụng, inactive bỏ qua không sử dụng hoặc supplementary là thuộc tính bổ trợ thƣờng đƣợc dùng khi đƣa ra kết quả.
7.Mining Model
Đối tƣợng Mining model là kết quả mô hình xây dựng. Mô hình khai phá phụ thuộc vào thuật toán đƣợc chọn.
8. Mining Results
Đối tƣợng Mining resultt chứa các sản phẩm cuối cùng của các bƣớc khai phá dữ liệu nhƣ: thời gian bắt đầu, kết thúc, tên mô hình sử dụng và vị trí lƣu giữ kết quả. Kết quả khai phá chứa chi tiết mô hình, tên hàm, thuật toán của mô hình.
9. Confusion Matrix
Confusion Matrix cung cấp tính chính xác của mô hình và các loại lỗi của mô hình khi ghi điểm dữ liệu. Đó là kết quả của bƣớc kiểm thử với mô hình phân lớp. Các chỉ số hàng ứng với giá trị thực sự và đƣợc dùng xây dựng mô hình, chỉ số cột tƣơng ứng với các giá trị dự đoán đƣợc áp dụng mô hình.
Ma trận này thể hiện mô hình đã dự đoán đúng 516 khách hàng mua và 725 khách hàng không mua. Mô hình dự đoán sai 10 ngƣời mua - thực sự không mua, sai 25 ngƣời không mua thực sự có mua. Nhƣ vậy tỷ lệ dự đoán đúng là 1241/1276; sai là 35/1276.
10. Mining Apply Output
Mining apply output chứa các item cho phép xem kết quả áp dụng mô hình.
III.4. Thực hiện các bƣớc khai phá dữ liệu trong ODM
III.4.1. Các bƣớc chuẩn bị
Cài đặt ODM, xác định URL của database mà ODM thƣờng trú.
Xác định dữ liệu đƣợc dùng xây dựng mô hình, dữ liệu phải trong Oracle9i.
Thực sự Dự đoán Mua Không mua Mua 516 25 Không mua 10 725
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle Làm sạch dữ liệu, lựa chọn dữ liệu.
Xác định hàm khai phá Xác định thuật toán sử dụng. III.4.2. Xây dựng mô hình
1. Kết nối tới DMS.
Tạo tiến trình cho DMS server để duy trì kết nối.
Xác định DB_URL, user_name, password của DMS server Tạo kết nối.
dms=new DataMiningServer("DB_URL", "user_name", "password");
2. Khởi tạo dữ liệu xây dựng mô hình:
Xác định vị trí truy cập dữ liệu.
LocationAccessData lad = new LocationAccessData ("DL" ,
"schema_name");
Đặc tả dữ liệu vật lý cho dữ liệu dạng giao dịch
PhysicalDataSpecification m_PhysicalDataSpecification=new
TransactionalDataSpecification("CASE_ID","ATTRIBUTES","VALUES" );
Đặc tả dữ liệu vật lý cho dữ liệu dạng không giao dịch
PhysicalDataSpecification m_PhysicalDataSpecification = new NonTransactionalDataSpecification(lad);
3. Khởi tạo chức năng khai phá Mining Function Settings
Xác định với DMS chức năng mô hình và thuật toán sử dụng : Ví dụ cho mô hình Phân lớp sử dụng thuật toán NB
ClassificationFunctionSettings m_ClassificationFunctionSettings =ClassificaitonFunctionSettings.create( dmsConnection, null, m_PhysicalDataSpecification, "class", AttributeType.categorical, DataPreparationStatus.getInstance("unprepared"));
NaiveBayesSettings algorithmSetting = new NaiveBayesSettings(0.01f 0.01f);
ClassificationFunctionSettings m_ClassificationFunctionSettings
=ClassificationFunctionSettings.create( cmsConnection,algorithmSetting,
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle
m_PhysicalDataSpecification, class, Attribute Type.categorical, DataPreparationStatus.getInstance(unprepared));
4. Xây dựng mô hình.
Quyết định mô hình sẽ đƣợc xây dựng đồng bộ hay dị bộ. Xây dựng mô hình đồng bộ thực thi ngay:
MiningModel.build(dmsConn, lad, m_PhysicalDataSpecification, "Sample_NB_MFS", "Sample_NB_Model");
Xây dựng mô hình không đồng bộ gồm ba bƣớc:
MiningBuildTask task = new MiningBuildTask(
m_PhysicalDataSpecification, "Sample__NB_MFS","Sample_NB_Model"); task.store(dmsConnection, "Sample_NB_Build_Task");
task.execute(dmsConnection);
III.4.3. Ghi điểm dữ liệu bằng mô hình
1. Chuẩn bị
Dữ liệu ghi điểm phải đƣợc lƣu trong CSDL Oracle 9i.
Dữ liệu ghi điểm phải tƣơng thích với dữ liệu đã xây dựng mô hình.
Làm sạch dữ liệu ghi điểm giống nhƣ làm sạch dữ liệu xây dựng mô hình..
2. Các bước chính ghi điểm
Kết nối tới DMS .
Tạo đối tƣợng PhysicalDataSpecification cho dữ liệu vào (dữ liệu ghi điểm). Tạo đối tƣợng LocationAccessData object cho kết quả ra.
Tạo đối tƣợng MiningApplyOutput cho kết quả ra . Ghi điểm dữ liệu.
3. Áp dụng mô hình
Áp dụng đồng bộ
apply (dmsConn,m_PhysicalDataSpecification, "Sample_NB_Model", m_MiningApplyOutput, ladOutput, "Sample_NB_APPLY_RESULT")
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle Áp dụng không đồng bộ
MiningApplyTask task = new MiningBuildTask ( m_PhysicalDataSpecification,
"Sample_NB_Model", m_MiningApplyOutput, ladOutput, "Sample_NB_APPLY_RESULT");
task.store(dmsConnection, "Sample_NB_APPLY_Task"); task.execute(dmsConnection);
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle
SỬ DỤNG ODM KHAI PHÁ DỮ LIỆU.
IV.1. Một số định hƣớng khai phá dữ liệu trong các CSDL
IV.1.1. Hệ thống CSDL ngành Thuế
Việc ứng dụng công nghệ thông tin vào thực tiễn đã tạo nên những bƣớc cải cách cách mạng trong công tác quản lý nhờ những hiệu quả to lớn mà nó mang lại. Các hệ thống tác nghiệp trong ngành Thuế chủ yếu là Hệ thống quản lý đối tƣợng nộp thuế (ĐTNT), quản lý thu thuế, quản lý ấn chỉ đã thiết lập đƣợc các quy trình quản lý ổn định và là công cụ không thể thiếu đƣợc với từng đơn vị Thuế trên phạm vi toàn quốc, trợ giúp cho các hoạt động quản lý toàn ngành. Với lƣợng số liệu tích luỹ khoảng 10.000.000 ĐTNT (thuế VAT) và lƣợng hoá đơn giao dịch hàng ngày lên tới 40.000.000 bản. Dữ liệu ngành Thuế chứa đựng các thông tin đa chiều, đa mức (theo Mục lục ngân sách, Thành phần kinh tế, Ngành nghề, cấp quản lý, Địa phƣơng…) tạo ra một bức tranh toàn diện, đầy đủ, phản ánh tƣơng đối chính xác về hoạt động kinh tế – xã hội ở Việt Nam.
Đã đến lúc cần có các biện pháp khai thác triệt để ở mức độ cao hơn nguồn dữ liệu quý báu đang có trong ngành Thuế. Việc khai thác cần định hƣớng phục vụ phân tích số liệu với mục tiêu hỗ trợ các nhà quản lý điều hành xem xét xác định các hƣớng đi chiến lƣợc toàn ngành. Thông tin cung cấp cho các nhà quản lý không những phải cho phép biết đƣợc tiến độ các công việc đang diễn ra mà còn biết điều gì sẽ xảy ra sau đó, có nghĩa là có khả năng phân tích hỗ trợ quyết định.
1. Số liệu ngành thuế
Tại Tổng cục thuế đang dần hình thành các Kho dữ liệu theo nhiều chủ đề nhƣ về Đối tƣợng nộp thuế, số thu, số nộp, hoá đơn ấn chỉ thể hiện các cách nhìn từ các phƣơng diện khác nhau lên toàn cảnh kinh tế – xã hội và có thể khai thác, tận dụng để cung cấp thông tin phân tích chất lƣợng hỗ trợ quyết định một cách toàn diện. Nhìn dƣới giác độ hệ thống thông tin, có thể hình dung dữ liệu ngành Thuế bao gồm 3 nhóm hệ thống thông tin chính nhƣ sau: hệ thống thông tin quản lý và nghiệp vụ thuế, hệ thống thông tin quản lý nội bộ và hệ thống thông tin trao đổi với
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle bên ngoài nhƣ sau [3] :
Số liệu ngành thuế là số liệu đƣợc thu thập thƣờng xuyên, đầy đủ và trung thực nhất (So sánh với các lĩnh vực kinh tế – xã hội khác). Số liệu này đƣợc thu thập trong quá trình quản lý thu thuế. Để có thể huy động đƣợc nguồn thu, tránh thất thoát ngành Thuế phải tổ chức đội ngũ cán bộ có chân rết đến từng địa bàn hành chính theo dõi các hoạt động kinh doanh của mọi đối tƣợng. Việc quản lý thuế đƣợc bắt đầu từ việc đăng ký nộp thuế, cấp mã số thuế và hàng tháng đối tƣợng nộp thuế kê khai thuế phải nộp, cán bộ cơ quan thuế hỗ trợ kiểm tra và tính thuế. Các hoạt động kinh doanh đƣợc theo dõi, kiểm tra và báo cáo hàng tháng trên các số liệu tờ khai thuế và thể hiện các chỉ tiêu doanh số: đầu vào, đầu ra; lãi và thu nhập của đối tƣợng. Có thể thấy mảng dữ liệu đƣợc tổ chức cùng với hệ thống MIS phần lớn sẽ đƣợc tổng hợp từ các CSDL tác nghiệp, với tổ chức phù hợp cho nhu cầu của lãnh đạo các cấp và đƣợc bổ sung những thông tin chung không (hoặc chƣa) phát sinh từ các ứng dụng tác nghiệp nhƣ: thông tin lịch sử ngành; thông tin phân tích của các chuyên gia; thông tin kế hoạch. Hệ thống hỗ trợ điều hành rất cần các công cụ trích lọc khai phá dữ liệu của chuyên gia...
Một loại số liệu mà ngành thuế quan tâm hơn là số thuế thu đƣợc và số thuế
3 - Liên kết
2 - Quản lý nghiệp vụ thuế 1 - Quản lý nội bộ
Quản lý Tài chính Hệ thống phục vụ quản lý
(MIS) Kết nối nội bộ
Quản lý công văn Hệ thống dịch vụ ĐTNT Kết nối Kho Bạc
Quản lý cán bộ Kết nối BTC Quản lý Tài sản Hệ thống quản lý ĐTNT Kết nối thống kê Hệ thống quản lý ấn chỉ thuế
Quản lý thuế VAT
Kết nối hải quan Các bài toán quản lý nội bộ ngành khác Quản lý thuế thu nhập cá nhân Quản lý thuế Nhà đất Kết nối KHĐT Kết nối khác
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle
còn nợ của các đối tƣợng nộp thuế. Số liệu này không những trực tiếp phục vụ cho công tác quản lý ngành thuế mà còn là số liệu cực kỳ quan trọng đối với Nhà nƣớc, thể hiện nguồn thu ngân sách quốc gia.
Ngành Thuế còn sở hữu một loại hình số liệu khác là CSDL Mã số thuế. Một cách trực tiếp kho dữ liệu này đƣợc sử dụng để ngành thuế quản lý toàn bộ các đối tƣợng nộp thuế của mình, tuy nhiên một cách gián tiếp số liệu này lại thể hiện trung thực phân bố các thành phần kinh tế, phân bố các lĩnh vực kinh doanh không chỉ về số lƣợng doanh nghiệp tham gia mà cả về: hiệu quả kinh doanh, khối lƣợng đầu tƣ, lƣu lƣợng lƣu thông,... của toàn xã hội. Đây là loại số liệu rất quí báu phản ánh tƣơng đối đầy đủ bức tranh về tình hình phát triển kinh tế – xã hội của một đất nƣớc.
2. Mục đích phân tích và đối tƣợng sử dụng số liệu
Một nét tƣơng đồng với quá trình xây dựng hệ thống thông tin tác nghiệp là xuất phát điểm của mọi khai phá dữ liệu phải là nhu cầu quản lý. Mọi khai phá dữ liệu không xuất phát từ nhu cầu quản lý đều không có ý nghĩa.
Chỉ khi thực sự hiểu mục đích của công việc kinh doanh, xác định đƣợc nhu cầu quản lý, mới có thể xác định đƣợc chính xác mục tiêu của công tác phân tích, từ đó định hƣớng đúng đắn cho các lựa chọn phƣơng pháp, kỹ thuật khai phá, giới hạn đƣợc phạm vi số liệu và hình thức thể hiện thông tin.
Chẳng hạn cùng trên số liệu là hoá đơn mua hàng với ngƣời quản lý kho, anh ta có thể chỉ quan tâm các hàng cồng kềnh thƣờng hay về vào thời điểm nào, chiếm tối đa
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle
diện tích kho là bao nhiêu, hàng nào có tần xuất xuất nhập lớn… để có chiến lƣợc sắp xếp kho, bố trí nhân công vận chuyển phù hợp. Nhƣ vậy đối với anh ta qui luật về thời gian, thông tin về thể tích hàng là rất quan trọng. Ngƣời quản lý nợ lại có cách nhìn hoàn toàn khác. Anh ta quan tâm tới chỉ các hoá đơn không thanh toán ngay và các khách hàng thƣờng xuyên nợ để có biện pháp đòi nợ, nhắc nợ, tiến tới ngừng giao dịch với một số khách hàng
Số liệu thu thập đƣợc trong ngành thuế có thể đƣợc sử dụng để phân tích trợ giúp công tác quản lý của ngành thuế nói riêng và phân tích xu hƣớng phát triển của nền kinh tế nói chung.
a. Phục vụ một lĩnh vực hoạt động cụ thể
Số liệu ngành thuế có thể sử dụng cho nhiều lĩnh vực hoạt động khác nhau trong công tác định hƣớng tổ chức kinh doanh. Chẳng hạn với một ngân hàng khi quyết định tổ chức mạng lƣới hoạt động của mình trên một phạm vi rộng, sử dụng số liệu ngành thuế đơn vị này có thể xác định đƣợc phân bố nhu cầu tiền tệ, khả năng huy động vốn,... nên có thể có quyết định đúng về việc nên đặt chi nhánh ở đâu, nên tổ chức các dịch vụ gì...
b. Phục vụ phân tích ra chính sách quốc gia
- Đƣa ra các điều tiết phù hợp đối với nền kinh tế - Chính sách ƣu đãi đối với xã hội
c. Phục vụ nhu cầu quản lý của bản thân ngành thuế
- Tránh thất thu
- Phân tích nguồn ngân sách Nhà nƣớc để đƣa ra các dự báo
3. Một số định hƣớng phân tích khai phá trên số liệu
Việc khai phá dữ liệu cho phép tìm ra các tri thức tiềm ẩn trong số liệu thực chất là bƣớc tiếp theo của những gì mà datawarehouse đã làm việc, công việc phân tích ở một mức cao hơn, hoàn thiện hơn và có nhiều yếu tố tự động hóa hơn.
Trong khuôn khổ luận văn chúng tôi xin đề xuất một số hƣớng phân tích dữ liệu khá điển hình có thể thu đƣợc từ số liệu ngành thuế.
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle
Đó là các phân tích phân loại theo các chỉ tiêu thống kê, các phân tích theo kịch bản (điều gì sẽ xảy ra nếu…) và phát hiện tri thức ngầm định trong dữ liệu. Các dạng thông tin phân tích có thể liệt kê nhƣ sau:
Phân loại các Đối tƣợng nộp thuế theo các loại hình, mức độ kinh doanh… Phân lớp các khách hàng nợ thuế, dự báo các đối tƣợng nộp thuế nợ thuế, trốn thuế,
Phát hiện các nghi vấn về doanh thu, tờ khai, thuế.
Phát hiện các sai phạm nghiêm trọng nhƣ gian lận thuế, sai phạm hoàn thuế: cần có sự tích hợp với nhiều CSDL khác nhƣ số liệu kho bạc, kiểm tra chéo hoá đơn.. để tìm ra các bất thƣờng hoặc khối lƣợng tiền rút ra khi hoàn thuế quá lớn đối với các nhóm ngƣời, theo các chu kỳ đặc biệt nào đó… Hỗ trợ xây dựng chính sách thuế đảm bảo đúng đắn và chặt chẽ.
IV.1.2. Hệ thống CSDL Bảo hiểm nhân thọ
Bảo hiểm nhân thọ ra đời là đòi hỏi tất yếu cuả cuộc sống để tạo lập và gìn giữ cuộc sống bình an và hạnh phúc cho con ngƣời. Dịch vụ bảo hiểm nhân thọ đƣợc thực hiện thông qua quỹ dự trữ bảo hiểm tập hợp từ sự đóng góp, tham gia bảo hiểm của các cá nhân và tổ chức trong xã hội để bồi thƣờng cho những rủi ro không may xảy ra với các đối tƣợng đƣợc bảo hiểm.
Các hoạt động chủ yếu là: