Mô hình phân lớp với RandomForest

Một phần của tài liệu Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới (Trang 39)

7. Bố cục luận văn

1.5.3. Mô hình phân lớp với RandomForest

Hình 1.14. Mô hình phân lớp với Random Forest

Tạo ra n tập dữ liệu huấn luyện bằng cách sử dụng Bootstrap

Từ một quần thể ban đầu lấy ra một m u L = (x1, x2,..xn) gồm n thành phần, tính toán các tham số mong muốn. Trong các bƣớc tiếp theo lặp lại b lần việc tạo ra m u Lb cũng gồm n phần từ L b ng cách lấy lại m u với sự thay thế các thành phần trong m u ban đầu sau đó tính toán các tham số mong muốn.

Ví dụ:

Dữ liệu đào tạo {1 2 3 4 5 6 7 8 9}.

bootstrap -> dữ liệu huấn luyện 1 {1 2 4 5 1 7 2 9 5} - oob {3 6 8}. bootstrap -> dƣ liệu huấn luyện 2 {3 2 3 2 5 6 7 9 6} - oob {1 4 8}.

thế (bootstrap), thì theo ƣớc tính có khoảng 1/3 các phần từ không có n m trong m u này. Điều này có nghĩa là chỉ có khoảng 2/3 các phần tử trong tập huấn luyện tham gia vào trong các tính toán của chúng ta, và 1/3 các phần tử này đƣợc gọi là dữ liệu Out of Bag (OOB). Dữ liệu out-of-bag đƣợc sử dụng để ƣớc lƣợng lỗi tạo ra từ việc kết hợp các kết quả từ các cây tổng hợp trong Random Forest cũng nhƣ dùng để ƣớc tính độ quan trọng thuộc tính.

1.5.4. X y dựng cây ngẫu nhiên

Năm Sản Xuất 7 > 7 Khu vực đổ xe Gara Không Rủi ro Thấp Rủi ro Trung Bình Rủi ro Cao

Hình 1.15. Ví dụ cây ngẫu nhiên.

Cây ng u nhiên là một cây đƣợc tạo ra với việc xem xét các thuộc tính đƣợc lựa chọn ng u nhiên tại một nút, cây không cắt tỉa.

1.5.5. Tạo cây ngẫu nhiên

Cây ng u nhiên cũng tạo ra theo quy tắt tạo cây top-down.

Với mỗi nút của cây (không phải là nút lá) chọn ng u nhiên m là cơ sở phân chia tại nút đó (độc lập với mỗi nút). Tính chia tốt nhất dựa trên các biến m trong tập huấn luyện n.

Với biến là giá trị không liên tục thì mỗi nhánh sẽ là một giá trị của thuộc tính, ngƣợc lai với biến là giá trị tiên lục thì sẽ chia thành 2 nhánh với ngƣỡng chia tốt nhất.

Ví dụ: Tạo ra cây ng u nhiên với CSDL có 10 thuộc tính, M=10. Lấy random m < M, lấy m= 4.

Tại mỗi Nút của cây ng u nhiên, sẽ lấy ng u nhiên 4 thuộc tính trong 10 thuộc tính để tính toán cho việc phân chia.

Sự lựa chọn ngƣỡng chia và các biến để thực hiện phân chia tại nút chia sẽ dựa theo độ đo GAIN. Tƣơng tự nhƣ việc tạo ra các cây quyết định nhƣng các cây sẽ đƣợc tạo đến độ xâu tối đa (không cắt tỉa) và ở đây sử dụng độ do GAIN để xác định thuộc tính phân chia tốt nhất ở mỗi nút.

1.5.6. Đặc điểm của Random Forest

a. Ưu điểm

- Thuật toán giải quyết tốt các bài toán có nhiều dữ liệu nhiễu, thiếu giá trị. - Dễ dàng thực hiện song song. Thay vì một máy thực hiện cả thuật toán, ta có thể sử dụng nhiều máy để xây dựng các cây sau đó ghép lại thành rừng.

Các sai số đƣợc giảm thiểu do kết quả của Random Forest đƣợc tổng hợp thông qua nhiều cây phân lớp.

b. Hạn chế

- Dữ liệu huấn luyện cần đƣợc đa dạng hóa và cân b ng về số nhãn lớp. Việc không cân b ng nhãn lớp khiến kết quả dự đoán của thuật toán có thể lệch về số đông nhãn lớp.

- Thời gian huấn luyện của rừng có thể kéo dài tùy số cây và số thuộc tính phân chia.

KẾT LUẬN CHƢƠNG 1

Trong chƣơng này, tôi đã trình bày khái quát về khai phá dữ liệu, các bƣớc xây dựng hệ thống khai phá dữ liệu, phân lớp trong khai phá dữ liệu.

Giới thiệu chung về cây quyết định. Thuật toán xây dựng cây quyết định C4.5 và Random Forest.

Trong chƣơng tiếp theo, luận văn sẽ trình bày chi tiết cách thức vận dụng cây quyết định để giải quyết bài toán đánh giá rủi ro và bồi thƣờng bảo hiểm xe cơ giới.

CHƯƠNG 2 ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG CÔNG TÁC

ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI

2.1. KHÁI QUÁT VỀ THỊ TRƢỜNG BẢO HIỂM XE CƠ GIỚI

Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của nền kinh tế và đời sống xã hội, nhu cầu vận chuyển b ng xe cơ giới ở nƣớc ta không ngừng tăng trƣởng. Lƣợng xe cơ giới tham gia giao thông không những tăng về số lƣợng mà còn ngày càng đa dạng và phong phú về chủng loại. Hiện sản lƣợng tiêu thụ xe ô tô của Việt Nam ở mức cao và đang gia tăng nhanh trong những năm qua. Theo báo cáo tháng 2/2015 của Hiệp hội các nhà sản xuất ô tô Việt Nam (VAMA), doanh số của các thành viên thuộc VAMA tăng 62% so với cùng kỳ năm 2014.

Theo thống kê của Hiệp hội bảo hiểm Việt Nam năm 2014, bảo hiểm xe cơ giới tiếp tục chiếm tỷ trọng lớn nhất trong tổng doanh thu với hơn 7.700 tỷ đồng - chiếm hơn 28% trên tổng doanh thu phí bảo hiểm toàn thị trƣờng phi nhân thọ.

Trong lĩnh vực bảo hiểm phi nhân thọ, bảo hiểm xe ô tô là sản phẩm dễ bán tại các đại lý và sản phẩm này cũng góp phần thúc đẩy doanh thu cao cho các công ty bảo hiểm. Chính vì thế nên gần đây, nhiều công ty bảo hiểm đã coi sản phẩm này là sản phẩm chính và nhiều cuộc cạnh tranh nóng đã bắt đầu ở mọi lĩnh vực nhƣ: bảo hiểm trách nhiệm bắt buộc, bảo hiểm thân vỏ xe, hay các loại bảo hiểm tự nguyện cho ngƣời ngồi trên xe, v.v.

Chỉ trong một thời gian ngắn, hàng chục công ty bảo hiểm trong và ngoài nƣớc ra đời, với nhiều chiêu thức kinh doanh đã tạo ra một sân chơi vừa đa dạng, vừa cạnh tranh khốc liệt.

Thị trƣờng rất tiềm năng và tạo ra quá nhiều cơ hội tăng trƣởng là động lực mạnh mẽ để nhiều công ty bảo hiểm lớn nhỏ trong và ngoài nƣớc đua nhau vào cuộc. Bên cạnh những tên tuổi các công ty bảo hiểm trong nƣớc khá quen thuộc nhƣ Bảo Việt, Pjico, PVI, AAA..., gần đây đã xuất hiện hơn 20 công ty cùng gần 30 văn phòng đại diện của các công ty bảo hiểm, môi giới bảo hiểm liên doanh hoặc 100% vốn nƣớc ngoài đã xâm nhập vào thị trƣờng Việt Nam. Càng nhiều đối thủ thị trƣờng càng trở nên cạnh tranh quyết liệt để giành giật khách hàng. Một trong những chiêu cổ điển là đua nhau hạ phí bảo hiểm. Khi phí không thể hạ thấp hơn đƣợc nữa, một số hãng bảo hiểm đã chia nhỏ mức phí bảo hiểm (tức chia nhỏ các điều khoản bổ sung). Khách hàng chỉ phải nộp một số lệ phí thấp và tất nhiên quyền lợi cũng bị chia nhỏ theo.

Tuy nhiên, với các công ty bảo hiểm lớn, đã chọn cho mình một hƣớng đi riêng, mà nền tảng là xây dựng các mục tiêu tăng trƣởng dựa trên chất lƣợng dịch vụ và lòng tin. Tâm lý của các khách hàng khi không may gặp tai nạn là muốn đƣợc phục vụ nhanh chóng, thuận tiện và chu đáo.

2.2. ĐÁNH GIÁ RỦI RO XE CƠ GIỚI 2.2.1. Khái niệm rủi ro 2.2.1. Khái niệm rủi ro

Rủi ro là khái niệm đầu tiên cần đề cập khi nói về bảo hiểm vì rủi ro và bảo hiểm gắn liền với nhau nhƣ hình với bóng, có rủi ro mới có bảo hiểm. Vậy rủi ro là gì?

Rủi ro là một điều không may mắn, không lƣờng trƣớc đƣợc về khả năng xảy ra, về thời gian và không gian xảy ra, cũng nhƣ mức độ nghiêm trọng và hậu quả của nó [5].

Rủi ro đƣợc xem là sự không may mắn, sự tổn thất mất mát về tài sản hay là sự giảm sút lợi nhuận thực tế so với lợi nhuận dự kiến. Rủi ro còn đƣợc hiểu là những bất trắc ngoài ý muốn xảy ra trong quá trình kinh doanh, sản xuất của doanh nghiệp, tác động xấu đến sự tồn tại và phát triển của một

doanh nghiệp. Tóm lại, theo quan điểm này thì rủi ro là những thiệt hại, mất mát, hoặc các yếu tố liên quan đến nguy hiểm, khó khăn có thể xảy ra cho con ngƣời.

2.2.2. Khái niệm về đánh giá rủi ro

Mọi công việc đều tiềm ẩn những rủi ro trong đó. Chúng ta muốn công việc tiến hành một cách hiệu quả và an toàn thì nên tiến hành thực hiện công tác đánh giá rủi ro cho chính công việc đó.

Đánh giá rủi ro là quá trình tìm hiểu những rủi ro có thể và sẽ liên quan tới công việc của bạn. Hãy chỉ ra cụ thể những rủi ro có thể gặp. Xây dựng những biện pháp kiểm soát để thực thi công việc một cách hiệu quả nhất, an toàn nhất, nh m tránh gây tai nạn cho con ngƣời, hƣ hại tài sản, thiết bị và tổn thƣơng môi trƣờng.

Đánh giá rủi ro là một trong những nhiệm vụ hết sức quan trọng trong công tác quản lý rủi ro. Có làm tốt công việc đánh giá rủi ro thì mới có thể thực hiện đƣợc công tác quản lý rủi ro. Đối với ngƣời khai thác bảo hiểm việc đánh giá rủi ro sẽ giúp họ quyết định có nhận bảo hiểm hay không, mức phí bao nhiêu. Nếu việc điều tra đánh giá rủi ro đƣợc thực hiện một cách đầy đủ, kỹ lƣỡng, kết hợp với những công cụ, chƣơng trình tính phí bảo hiểm thì cán bộ khai thác hoàn toàn có thể tính toán ngay đƣợc một cách chính xác tỷ lệ phí. Điều này giúp cho việc chủ động, nhanh chóng trong khai thác, trách đƣợc tình trạng phải tham khảo, hỏi han, tốn kém mất thời gian.

2.2.3. Phạm vi bảo hiểm

Phạm vi bảo hiểm là phạm vi giới hạn những rủi ro mà theo thoả thuận nếu những rủi ro đó xảy ra thì nhà bảo hiểm sẽ chịu trách nhiệm bồi thƣờng cho chủ phƣơng tiện. Cũng nhƣ các nghiệp vụ bảo hiểm khác, bảo hiểm vật chất xe cơ giới cũng chỉ nhận bảo hiểm cho những rủi ro ng u nhiên, bất ngờ gây thiệt hại phần vật chất thân xe. Thông thƣờng, những rủi ro đƣợc bảo

hiểm bao gồm:

+ Tai nạn do đâm va, lật đổ;

+ Cháy, nổ, bão lụt, sét đánh, động đất, mƣa đá; + Mất cắp toàn bộ xe;

+ Tai nạn do rủi ro bất ngờ khác gây nên.

2.2.4. Quy trình đánh giá rủi ro trong bảo hiểm xe cơ giới

Quy trình tác nghiệp đòi hỏi cán bộ thẩm định vừa phải có trình độ chuyên môn nghiệp vụ cao, vừa phải có nhiều kinh nghiệm thực tiễn. Kết quả đánh giá rủi ro tốt sẽ làm giảm thiểu chi phí bồi thƣờng tổn thất đồng thời nâng cao hiệu quả trong khai thác bảo hiểm xe cơ giới [4][5].

Tại Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi, việc phân tích và đánh giá rủi ro xe cơ giới đƣợc quy định thực hiện tối đa trong vòng 2 tiếng kể từ lúc nhận hồ sơ của khách hàng.

2.2.5. Các yếu tố ảnh hƣởng đến rủi ro trong bảo hiểm xe cơ giới

Cùng với sự phát triển kinh tế của đất nƣớc, số lƣợng xe ô tô ngày càng tăng mạnh trong khi cơ sở hạ tầng giao thông chƣa phát triển theo kịp d n đến rủi ro tai nạn giao thông ngày càng tăng. Bên cạnh đó, nhiều phƣơng tiện tham gia giao thông không đáp ứng đƣợc yêu cầu kỹ thuật và ý thức chấp hành pháp luật của ngƣời điều khiển phƣơng tiện chƣa cao cũng là những nguyên nhân chính góp phần gia tăng tai nạn.

Mặt khác, mức độ rủi ro của xe cơ giới còn bị tác động bởi các yếu tố sau:

- Mục đích sử dụng xe

- Phạm vi địa bàn hoạt động - Thời gian sử dụng

2.3. PHÂN TÍCH HIỆN TRẠNG

2.3.1. Chỉ số trong lĩnh vực kinh doanh bảo hiểm xe cơ giới

Trong lĩnh vực kinh doanh bảo hiểm xe cơ giới, chúng ta cần quan tâm đến những chỉ số sau:

Tổng doanh thu: Tổng số tiền thu về từ phí bảo hiểm.

Bồi thƣờng: Tổng số tiền chi trả cho khách hàng khi có tổn thất xảy ra. Hoa hồng: Số tiền phải trích lại cho môi giới hoặc đại lý. Theo quy định của Bộ Tài Chính, số tiền hoa hồng cho nghiệp vụ là 7% doanh thu.

Chi phí tiếp thị: Số tiền bỏ ra cho các hoạt động quảng cáo, hội nghị khách hàng…Chi phí này chiếm 15% doanh thu.

Chi phí quản lý: Số tiền để thanh toán các khoản chi phí cố định nhƣ điện, nƣớc, văn phòng phẩm, lƣơng nhân viên, …Chiếm tỉ lệ là 20% tổng doanh thu.

Nhƣ vậy, lợi nhuận sẽ là số tiền còn lại sau khi lấy tổng doanh thu trừ

các khoản chi phí nêu trên.

Bảng 2.1. Số liệu kinh doanh tại chi nhánh Quảng Ngãi

Thông số Năm 2012 Năm 2013 Năm 2014

Doanh thu 2.774.376.445 2.974.376.445 3.798.373.525 Bồi thường 1.979.779.201 1.895.379.001 1.783.179.423 Hoa hồng 106.206.750 195.250.770 231.830.142 Tiếp thị 306.156.467 306.156.467 407.093.843 Quản lý 306.156.467 345.745.725 701.276.973 Lợi nhuận 106.471.563 231.844.482 674.993.144

Bảng 2.2. Thống kê tình hình bồi thường tổn thất

Hồ sơ Năm 2012 Năm 2013 Năm 2014

Hợp đồng bảo hiểm 1075 1462 1824

Tổng hồ sơ bồi thường 505 562 657

Ta nhận thấy r ng tỉ lệ bồi thƣờng tổn thất cao, nó sẽ là nguyên nhân trực tiếp ảnh hƣởng đến lợi nhuận của toàn công ty. Vì thế, để tăng lợi nhuận thì phải đẩy mạnh doanh thu đồng thời giảm chi phí. Ở đây ta chỉ xét đến vấn đề làm sao để tiết kiệm đƣợc chi phí?

Để giảm chi phí xuống thì chúng ta phải làm tốt công tác đánh giá rủi ro để giảm thiểu chi phí bồi thƣờng. Ngoài ra, phải tiết kiệm tối đa các khoản chi phí cố định, cắt giảm nhân sự…

Chính vì những lý do đó. Việc sử dụng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới sẽ giúp chi nhánh tiết kiệm đƣợc thời gian, nhân sự, hạn chế chi phí bồi thƣờng góp phần tăng hiệu quả kinh doanh.

2.3.2. Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới bảo hiểm xe cơ giới

Với một khối lƣợng dữ liệu lớn về hoạt động kinh doanh trong bảo hiểm xe cơ giới trong các năm qua, chúng ta cần có một phƣơng pháp phân tích dữ liệu một cách khoa học, trên cơ sở đó đƣa ra những dự đoán về mức độ rủi ro của xe cơ giới. Từ đó, ngƣời quản lý sẽ cân đối đƣợc giữa doanh thu và bồi thƣờng để đƣa ra quyết định nh m đảm bảo hiệu quả kinh doanh.

Giải pháp sử dụng cây quyết định rất phù hợp để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới. Nó có thể xử lý đƣợc khối lƣợng lớn dữ liệu với tốc độ tính toán nhanh. Việc học tập và phân loại của cây quyết định rất đơn giản, nhanh chóng và có độ chính xác cao.

2.4. SO SÁNH KẾT QUẢ PHÂN LỚP GIỮA 2 THUẬT TOÁN C4.5 VÀ RANDOM FOREST

Thực hiện so sánh và đánh giá trên phần mềm Weka với phƣơng pháp đánh giá độ chính xác b ng 10-fold croos validation [6]

+ Đối với phƣơng pháp cây quyết định b ng C4.5 (J4.8)

Hình 2.1. Thông số của thuật toán xây dựng cây quyết định bằng C4.5

- Confidence factor: Cắt tỉa những cây giá trị nhỏ hơn cho thấy cắt tỉa nhiều.

- Debug: Nếu điều này đƣợc thiết lập để thực thông tin bổ sung đƣợc hiển thị trên giao diện điều khiển.

- MinNumObj: Hiển thị số lƣợng tối thiểu của các trƣờng hợp trên mỗi lá - Numfolds: Hiển thị số lƣợng dữ liệu đƣợc sử dụng để cắt tỉa.

- Reduced error pruning: Cắt tỉa giảm lỗi đƣợc sử dụng hay không.

- Seed: đƣợc sử dụng cho các dữ liệu ng u nhiên khi giảm tỉa lỗi đƣợc sử dụng.

- Sub - tree Raising: Đƣợc sử dụng cho giá trị - cây tăng khi chúng ta cắt tỉa đƣợc sử dụng.

- Use Laplace: Ở lá đƣợc làm nhẵn dựa trên Laplace. + Đối với phƣơng pháp Random Forest

Hình 2.2. Thông số của Random Forest

-MaxDepth: Cho thấy chiều sâu tối đa của cây, nếu = 0 là không giới

Một phần của tài liệu Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới (Trang 39)