III.4.1. Các bƣớc chuẩn bị
Cài đặt ODM, xác định URL của database mà ODM thƣờng trú.
Xác định dữ liệu đƣợc dùng xây dựng mô hình, dữ liệu phải trong Oracle9i.
Thực sự Dự đoán Mua Không mua Mua 516 25 Không mua 10 725
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle Làm sạch dữ liệu, lựa chọn dữ liệu.
Xác định hàm khai phá Xác định thuật toán sử dụng. III.4.2. Xây dựng mô hình
1. Kết nối tới DMS.
Tạo tiến trình cho DMS server để duy trì kết nối.
Xác định DB_URL, user_name, password của DMS server Tạo kết nối.
dms=new DataMiningServer("DB_URL", "user_name", "password");
2. Khởi tạo dữ liệu xây dựng mô hình:
Xác định vị trí truy cập dữ liệu.
LocationAccessData lad = new LocationAccessData ("DL" ,
"schema_name");
Đặc tả dữ liệu vật lý cho dữ liệu dạng giao dịch
PhysicalDataSpecification m_PhysicalDataSpecification=new
TransactionalDataSpecification("CASE_ID","ATTRIBUTES","VALUES" );
Đặc tả dữ liệu vật lý cho dữ liệu dạng không giao dịch
PhysicalDataSpecification m_PhysicalDataSpecification = new NonTransactionalDataSpecification(lad);
3. Khởi tạo chức năng khai phá Mining Function Settings
Xác định với DMS chức năng mô hình và thuật toán sử dụng : Ví dụ cho mô hình Phân lớp sử dụng thuật toán NB
ClassificationFunctionSettings m_ClassificationFunctionSettings =ClassificaitonFunctionSettings.create( dmsConnection, null, m_PhysicalDataSpecification, "class", AttributeType.categorical, DataPreparationStatus.getInstance("unprepared"));
NaiveBayesSettings algorithmSetting = new NaiveBayesSettings(0.01f 0.01f);
ClassificationFunctionSettings m_ClassificationFunctionSettings
=ClassificationFunctionSettings.create( cmsConnection,algorithmSetting,
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle
m_PhysicalDataSpecification, class, Attribute Type.categorical, DataPreparationStatus.getInstance(unprepared));
4. Xây dựng mô hình.
Quyết định mô hình sẽ đƣợc xây dựng đồng bộ hay dị bộ. Xây dựng mô hình đồng bộ thực thi ngay:
MiningModel.build(dmsConn, lad, m_PhysicalDataSpecification, "Sample_NB_MFS", "Sample_NB_Model");
Xây dựng mô hình không đồng bộ gồm ba bƣớc:
MiningBuildTask task = new MiningBuildTask(
m_PhysicalDataSpecification, "Sample__NB_MFS","Sample_NB_Model"); task.store(dmsConnection, "Sample_NB_Build_Task");
task.execute(dmsConnection);
III.4.3. Ghi điểm dữ liệu bằng mô hình
1. Chuẩn bị
Dữ liệu ghi điểm phải đƣợc lƣu trong CSDL Oracle 9i.
Dữ liệu ghi điểm phải tƣơng thích với dữ liệu đã xây dựng mô hình.
Làm sạch dữ liệu ghi điểm giống nhƣ làm sạch dữ liệu xây dựng mô hình..
2. Các bước chính ghi điểm
Kết nối tới DMS .
Tạo đối tƣợng PhysicalDataSpecification cho dữ liệu vào (dữ liệu ghi điểm). Tạo đối tƣợng LocationAccessData object cho kết quả ra.
Tạo đối tƣợng MiningApplyOutput cho kết quả ra . Ghi điểm dữ liệu.
3. Áp dụng mô hình
Áp dụng đồng bộ
apply (dmsConn,m_PhysicalDataSpecification, "Sample_NB_Model", m_MiningApplyOutput, ladOutput, "Sample_NB_APPLY_RESULT")
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle Áp dụng không đồng bộ
MiningApplyTask task = new MiningBuildTask ( m_PhysicalDataSpecification,
"Sample_NB_Model", m_MiningApplyOutput, ladOutput, "Sample_NB_APPLY_RESULT");
task.store(dmsConnection, "Sample_NB_APPLY_Task"); task.execute(dmsConnection);
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle
SỬ DỤNG ODM KHAI PHÁ DỮ LIỆU.
IV.1. Một số định hƣớng khai phá dữ liệu trong các CSDL
IV.1.1. Hệ thống CSDL ngành Thuế
Việc ứng dụng công nghệ thông tin vào thực tiễn đã tạo nên những bƣớc cải cách cách mạng trong công tác quản lý nhờ những hiệu quả to lớn mà nó mang lại. Các hệ thống tác nghiệp trong ngành Thuế chủ yếu là Hệ thống quản lý đối tƣợng nộp thuế (ĐTNT), quản lý thu thuế, quản lý ấn chỉ đã thiết lập đƣợc các quy trình quản lý ổn định và là công cụ không thể thiếu đƣợc với từng đơn vị Thuế trên phạm vi toàn quốc, trợ giúp cho các hoạt động quản lý toàn ngành. Với lƣợng số liệu tích luỹ khoảng 10.000.000 ĐTNT (thuế VAT) và lƣợng hoá đơn giao dịch hàng ngày lên tới 40.000.000 bản. Dữ liệu ngành Thuế chứa đựng các thông tin đa chiều, đa mức (theo Mục lục ngân sách, Thành phần kinh tế, Ngành nghề, cấp quản lý, Địa phƣơng…) tạo ra một bức tranh toàn diện, đầy đủ, phản ánh tƣơng đối chính xác về hoạt động kinh tế – xã hội ở Việt Nam.
Đã đến lúc cần có các biện pháp khai thác triệt để ở mức độ cao hơn nguồn dữ liệu quý báu đang có trong ngành Thuế. Việc khai thác cần định hƣớng phục vụ phân tích số liệu với mục tiêu hỗ trợ các nhà quản lý điều hành xem xét xác định các hƣớng đi chiến lƣợc toàn ngành. Thông tin cung cấp cho các nhà quản lý không những phải cho phép biết đƣợc tiến độ các công việc đang diễn ra mà còn biết điều gì sẽ xảy ra sau đó, có nghĩa là có khả năng phân tích hỗ trợ quyết định.
1. Số liệu ngành thuế
Tại Tổng cục thuế đang dần hình thành các Kho dữ liệu theo nhiều chủ đề nhƣ về Đối tƣợng nộp thuế, số thu, số nộp, hoá đơn ấn chỉ thể hiện các cách nhìn từ các phƣơng diện khác nhau lên toàn cảnh kinh tế – xã hội và có thể khai thác, tận dụng để cung cấp thông tin phân tích chất lƣợng hỗ trợ quyết định một cách toàn diện. Nhìn dƣới giác độ hệ thống thông tin, có thể hình dung dữ liệu ngành Thuế bao gồm 3 nhóm hệ thống thông tin chính nhƣ sau: hệ thống thông tin quản lý và nghiệp vụ thuế, hệ thống thông tin quản lý nội bộ và hệ thống thông tin trao đổi với
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle bên ngoài nhƣ sau [3] :
Số liệu ngành thuế là số liệu đƣợc thu thập thƣờng xuyên, đầy đủ và trung thực nhất (So sánh với các lĩnh vực kinh tế – xã hội khác). Số liệu này đƣợc thu thập trong quá trình quản lý thu thuế. Để có thể huy động đƣợc nguồn thu, tránh thất thoát ngành Thuế phải tổ chức đội ngũ cán bộ có chân rết đến từng địa bàn hành chính theo dõi các hoạt động kinh doanh của mọi đối tƣợng. Việc quản lý thuế đƣợc bắt đầu từ việc đăng ký nộp thuế, cấp mã số thuế và hàng tháng đối tƣợng nộp thuế kê khai thuế phải nộp, cán bộ cơ quan thuế hỗ trợ kiểm tra và tính thuế. Các hoạt động kinh doanh đƣợc theo dõi, kiểm tra và báo cáo hàng tháng trên các số liệu tờ khai thuế và thể hiện các chỉ tiêu doanh số: đầu vào, đầu ra; lãi và thu nhập của đối tƣợng. Có thể thấy mảng dữ liệu đƣợc tổ chức cùng với hệ thống MIS phần lớn sẽ đƣợc tổng hợp từ các CSDL tác nghiệp, với tổ chức phù hợp cho nhu cầu của lãnh đạo các cấp và đƣợc bổ sung những thông tin chung không (hoặc chƣa) phát sinh từ các ứng dụng tác nghiệp nhƣ: thông tin lịch sử ngành; thông tin phân tích của các chuyên gia; thông tin kế hoạch. Hệ thống hỗ trợ điều hành rất cần các công cụ trích lọc khai phá dữ liệu của chuyên gia...
Một loại số liệu mà ngành thuế quan tâm hơn là số thuế thu đƣợc và số thuế
3 - Liên kết
2 - Quản lý nghiệp vụ thuế 1 - Quản lý nội bộ
Quản lý Tài chính Hệ thống phục vụ quản lý
(MIS) Kết nối nội bộ
Quản lý công văn Hệ thống dịch vụ ĐTNT Kết nối Kho Bạc
Quản lý cán bộ Kết nối BTC Quản lý Tài sản Hệ thống quản lý ĐTNT Kết nối thống kê Hệ thống quản lý ấn chỉ thuế
Quản lý thuế VAT
Kết nối hải quan Các bài toán quản lý nội bộ ngành khác Quản lý thuế thu nhập cá nhân Quản lý thuế Nhà đất Kết nối KHĐT Kết nối khác
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle
còn nợ của các đối tƣợng nộp thuế. Số liệu này không những trực tiếp phục vụ cho công tác quản lý ngành thuế mà còn là số liệu cực kỳ quan trọng đối với Nhà nƣớc, thể hiện nguồn thu ngân sách quốc gia.
Ngành Thuế còn sở hữu một loại hình số liệu khác là CSDL Mã số thuế. Một cách trực tiếp kho dữ liệu này đƣợc sử dụng để ngành thuế quản lý toàn bộ các đối tƣợng nộp thuế của mình, tuy nhiên một cách gián tiếp số liệu này lại thể hiện trung thực phân bố các thành phần kinh tế, phân bố các lĩnh vực kinh doanh không chỉ về số lƣợng doanh nghiệp tham gia mà cả về: hiệu quả kinh doanh, khối lƣợng đầu tƣ, lƣu lƣợng lƣu thông,... của toàn xã hội. Đây là loại số liệu rất quí báu phản ánh tƣơng đối đầy đủ bức tranh về tình hình phát triển kinh tế – xã hội của một đất nƣớc.
2. Mục đích phân tích và đối tƣợng sử dụng số liệu
Một nét tƣơng đồng với quá trình xây dựng hệ thống thông tin tác nghiệp là xuất phát điểm của mọi khai phá dữ liệu phải là nhu cầu quản lý. Mọi khai phá dữ liệu không xuất phát từ nhu cầu quản lý đều không có ý nghĩa.
Chỉ khi thực sự hiểu mục đích của công việc kinh doanh, xác định đƣợc nhu cầu quản lý, mới có thể xác định đƣợc chính xác mục tiêu của công tác phân tích, từ đó định hƣớng đúng đắn cho các lựa chọn phƣơng pháp, kỹ thuật khai phá, giới hạn đƣợc phạm vi số liệu và hình thức thể hiện thông tin.
Chẳng hạn cùng trên số liệu là hoá đơn mua hàng với ngƣời quản lý kho, anh ta có thể chỉ quan tâm các hàng cồng kềnh thƣờng hay về vào thời điểm nào, chiếm tối đa
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle
diện tích kho là bao nhiêu, hàng nào có tần xuất xuất nhập lớn… để có chiến lƣợc sắp xếp kho, bố trí nhân công vận chuyển phù hợp. Nhƣ vậy đối với anh ta qui luật về thời gian, thông tin về thể tích hàng là rất quan trọng. Ngƣời quản lý nợ lại có cách nhìn hoàn toàn khác. Anh ta quan tâm tới chỉ các hoá đơn không thanh toán ngay và các khách hàng thƣờng xuyên nợ để có biện pháp đòi nợ, nhắc nợ, tiến tới ngừng giao dịch với một số khách hàng
Số liệu thu thập đƣợc trong ngành thuế có thể đƣợc sử dụng để phân tích trợ giúp công tác quản lý của ngành thuế nói riêng và phân tích xu hƣớng phát triển của nền kinh tế nói chung.
a. Phục vụ một lĩnh vực hoạt động cụ thể
Số liệu ngành thuế có thể sử dụng cho nhiều lĩnh vực hoạt động khác nhau trong công tác định hƣớng tổ chức kinh doanh. Chẳng hạn với một ngân hàng khi quyết định tổ chức mạng lƣới hoạt động của mình trên một phạm vi rộng, sử dụng số liệu ngành thuế đơn vị này có thể xác định đƣợc phân bố nhu cầu tiền tệ, khả năng huy động vốn,... nên có thể có quyết định đúng về việc nên đặt chi nhánh ở đâu, nên tổ chức các dịch vụ gì...
b. Phục vụ phân tích ra chính sách quốc gia
- Đƣa ra các điều tiết phù hợp đối với nền kinh tế - Chính sách ƣu đãi đối với xã hội
c. Phục vụ nhu cầu quản lý của bản thân ngành thuế
- Tránh thất thu
- Phân tích nguồn ngân sách Nhà nƣớc để đƣa ra các dự báo
3. Một số định hƣớng phân tích khai phá trên số liệu
Việc khai phá dữ liệu cho phép tìm ra các tri thức tiềm ẩn trong số liệu thực chất là bƣớc tiếp theo của những gì mà datawarehouse đã làm việc, công việc phân tích ở một mức cao hơn, hoàn thiện hơn và có nhiều yếu tố tự động hóa hơn.
Trong khuôn khổ luận văn chúng tôi xin đề xuất một số hƣớng phân tích dữ liệu khá điển hình có thể thu đƣợc từ số liệu ngành thuế.
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle
Đó là các phân tích phân loại theo các chỉ tiêu thống kê, các phân tích theo kịch bản (điều gì sẽ xảy ra nếu…) và phát hiện tri thức ngầm định trong dữ liệu. Các dạng thông tin phân tích có thể liệt kê nhƣ sau:
Phân loại các Đối tƣợng nộp thuế theo các loại hình, mức độ kinh doanh… Phân lớp các khách hàng nợ thuế, dự báo các đối tƣợng nộp thuế nợ thuế, trốn thuế,
Phát hiện các nghi vấn về doanh thu, tờ khai, thuế.
Phát hiện các sai phạm nghiêm trọng nhƣ gian lận thuế, sai phạm hoàn thuế: cần có sự tích hợp với nhiều CSDL khác nhƣ số liệu kho bạc, kiểm tra chéo hoá đơn.. để tìm ra các bất thƣờng hoặc khối lƣợng tiền rút ra khi hoàn thuế quá lớn đối với các nhóm ngƣời, theo các chu kỳ đặc biệt nào đó… Hỗ trợ xây dựng chính sách thuế đảm bảo đúng đắn và chặt chẽ.
IV.1.2. Hệ thống CSDL Bảo hiểm nhân thọ
Bảo hiểm nhân thọ ra đời là đòi hỏi tất yếu cuả cuộc sống để tạo lập và gìn giữ cuộc sống bình an và hạnh phúc cho con ngƣời. Dịch vụ bảo hiểm nhân thọ đƣợc thực hiện thông qua quỹ dự trữ bảo hiểm tập hợp từ sự đóng góp, tham gia bảo hiểm của các cá nhân và tổ chức trong xã hội để bồi thƣờng cho những rủi ro không may xảy ra với các đối tƣợng đƣợc bảo hiểm.
Các hoạt động chủ yếu là:
Thực hiện các hợp đồng bảo hiểm với khách hàng (là các cá nhân hay tổ chức trong xã hội), quản lý thu phí bảo hiểm của các hợp đồng và xem xét bồi thƣờng trong trƣờng hợp rủi ro.
Nghiên cứu phát hành các sản phẩm bảo hiểm mới dựa trên các thống kê về hoạt động bảo hiểm đáp ứng nhu cầu bảo hiểm ngày càng tăng, mở rộng khả năng kinh doanh trong lĩnh vực bảo hiểm.
Mặc dù mạng lƣới BHNT đã có mặt tại hầu hết các tỉnh thành Việt nam, nhƣng số lƣợng khách hàng mua BHNT vẫn còn chiếm tỷ trọng rất ít so với dân số của cả nƣớc. Tiềm năng mở rộng, khai thác khách hàng còn rất dồi dào vì vậy cần có
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle
những chiến lƣợc kinh doanh đúng với phƣơng châm hƣớng tới các dịch vụ chăm sóc khách hàng tốt hơn để có thể “lắng nghe, thấu hiểu” khách hàng.
Với một nền tảng toán học chặt chẽ, lĩnh vực bảo hiểm nhân thọ là miền đất hứa hẹn sẽ gặt hái thành công cho khai phá dữ liệu. Các kết quả phân tích sẽ đóng góp rất nhiều cho quá trình hoàn thiện sản phẩm, phát triển ổn định và mở rộng lâu dài với các mục đích rất cụ thể nhƣ: Nghiên cứu thị trƣờng, hoạch định chính sách, thiết kế sản phẩm và các qui tắc nghiệp vụ mới...
1. Số liệu ngành BHNT
Mặc dù mới ra đời và phát hành sản phẩm từ năm 1998 nhƣng về mặt quy trình nghiệp vụ của BHNT lại khá chuẩn và hình thành công tác quản số liệu chặt chẽ trên các hệ thống thông tin ngay từ những ngày đầu đi vào hoạt động. Giống nhƣ ngành Thuế số liệu BHNT rất đa dạng và liên quan đến nhiều lĩnh vực nhƣ kinh tế, y tế, doanh nghiệp, bảo hiểm xã hội, tài chính, ngân hàng....
Các thông tin về quản lý khách hàng nhƣ Tên tuổi, địa chỉ, nghề nghiệp, thu nhập, với hàng trăm chỉ tiêu số đo sức khỏe nhƣ cân nặng, chiều cao, các mức độ bệnh khác nhau... là nguồn dữ liệu rất quan trọng đối với BHNT trong việc có chấp nhận đơn yêu cầu BH của khách hàng hay không? Quá trình quản lý bảo hiểm đƣợc thực hiện qua các công tác quản lý Hợp đồng BHNT, quá trình đóng phí bảo hiểm bằng hóa đơn thu phí và giải quyết quyền lợi khi khách hàng có rủi ro. Các chế độ giải quyết quyền lợi liên quan rất nhiều đến lĩnh vực y tế và sức khỏe, nếu số liệu về sức khỏe bệnh tật, điều trị đƣợc tổng hợp, trích lọc và phân tích từ các trung tâm y tế sẽ hỗ trợ ngành BHNT có các chế độ giải quyết phù hợp. Theo các quy định của BHNT, khách hàng có thể đƣợc nợ phí nhƣng cần phải kiểm soát đƣợc và có chính sách hợp lý trong quản lý nợ để có thể vẫn duy trì đƣợc khách hàng và vẫn đảm bảo đƣợc doanh thu cho cơ quan bảo hiểm. Hoạt động kinh doanh cho khách hàng
vay của cơ quan bảo hiểm là một giải pháp hỗ trợ khách hàng khi có khó khăn sẽ làm cho lƣợng dữ liệu và các nghiệp vụ quản lý phức tạp lên rất nhiều. Số liệu kế
Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle
toán, đầu tư sẽ là các đầu vào cho phân tích chính sách đầu tƣ, mở rộng thị trƣờng cho ngành Bảo hiểm nhân thọ.
2. Một số định hƣớng phân tích khai phá trên số liệu BHNT
Một số định hƣớng phân tích dữ liệu trên các lọai dữ liệu trên sẽ trợ giúp lĩnh vực bảo hiểm nhân thọ trong các nghiệp vụ nhƣ:
a. Thiết kế sản phẩm