Mô hình phân lớp với RandomForest

Một phần của tài liệu 28033_1712202001914402LUANVANNGUYENPHUONGNAM (Trang 34)

7. Bố cục luận văn

1.5.3.Mô hình phân lớp với RandomForest

Hình 1.14. Mô hình phân lớp với Random Forest

Từ một quần thể ban đầu lấy ra một mẫu L = (x1, x2,..xn) gồm n thành phần, tính toán các tham số mong muốn. Trong các bước tiếp theo lặp lại b lần việc tạo ra mẫu Lb cũng gồm n phần từ L bằng cách lấy lại mẫu với sự thay thế các thành phần trong mẫu ban đầu sau đó tính toán các tham số mong muốn.

Ví dụ:

Dữ liệu đào tạo {1 2 3 4 5 6 7 8 9}.

bootstrap -> dữ liệu huấn luyện 1 {1 2 4 5 1 7 2 9 5} - oob {3 6 8}. bootstrap -> dư liệu huấn luyện 2 {3 2 3 2 5 6 7 9 6} - oob {1 4 8}.

Khi tập mẫu được rút ra từ một tập huấn luyện của một cây với sự thay thế (bootstrap), thì theo ước tính có khoảng 1/3 các phần từ không có nằm trong mẫu này.

Điều này có nghĩa là chỉ có khoảng 2/3 các phần tử trong tập huấn luyện tham gia vào trong các tính toán của chúng ta, và 1/3 các phần tử này được gọi là dữ liệu Out of Bag (OOB). Dữ liệu OOB được sử dụng để ước lượng lỗi tạo ra từ việc kết hợp các kết quả từ các cây tổng hợp trong Random Forest cũng như dùng để ước tính độ quan trọng thuộc tính.

1.5.4. ây dựng cây ng u nhiên

Hình 1.15. Ví dụ cây ngẫu nhiên.

Cây ngẫu nhiên là một cây được tạo ra với việc xem xét các thuộc tính được lựa chọn ngẫu nhiên tại một nút, cây không cắt tỉa.

1.5.5. Tạo cây ng u nhiên

Cây ngẫu nhiên cũng tạo ra theo quy tắt tạo cây top-down.

Với mỗi nút của cây (không phải là nút lá) chọn ngẫu nhiên m là cơ sở phân chia tại nút đó (độc lập với mỗi nút). Tính chia tốt nhất dựa trên các biến m trong tập huấn luyện n.

Với biến là giá trị không liên tục thì mỗi nhánh sẽ là một giá trị của thuộc tính, ngược lại với biến là giá trị tiên lục thì sẽ chia thành 2 nhánh với ngưỡng chia tốt nhất.

Ví dụ: Tạo ra cây ngẫu nhiên với CSDL có 10 thuộc tính, M=10. Lấy random m < M, lấy m= 4.

Tại mỗi Nút của cây ngẫu nhiên, sẽ lấy ngẫu nhiên 4 thuộc tính trong 10 thuộc tính để tính toán cho việc phân chia.

Sự lựa chọn ngưỡng chia và các biến để thực hiện phân chia tại nút chia sẽ dựa theo độ đo GAIN. Tương tự như việc tạo ra các cây quyết định nhưng các cây sẽ được tạo đến độ sâu tối đa (không cắt tỉa) và ở đây sử dụng độ đo GAIN để xác định thuộc tính phân chia tốt nhất ở mỗi nút.

1.5.6. Đặc điểm của Random Forest

a. Ưu điểm

- Dễ dàng thực hiện song song. Thay vì một máy thực hiện cả thuật toán, ta có thể sử dụng nhiều máy để xây dựng các cây sau đó ghép lại thành rừng.

Các sai số được giảm thiểu do kết quả của Random Forest được tổng hợp thông qua nhiều cây phân lớp.

b. Hạn chế

- Dữ liệu huấn luyện cần được đa dạng hóa và cân bằng về số nhãn lớp. Việc không cân bằng nhãn lớp khiến kết quả dự đoán của thuật toán có thể lệch về số đông nhãn lớp.

- Thời gian huấn luyện của rừng có thể kéo dài tùy số cây và số thuộc tính phân chia.

KẾT LUẬN CHƯƠNG 1

Trong chương này, tôi đã trình bày khái quát về khai phá dữ liệu, các bước xây dựng hệ thống khai phá dữ liệu, phân lớp trong khai phá dữ liệu.

Giới thiệu chung về cây quyết định. Thuật toán xây dựng cây quyết định C4.5 và Random Forest.

Trong chương tiếp theo, luận văn sẽ trình bày chi tiết cách thức vận dụng cây quyết định để giải quyết bài toán đánh giá rủi ro và bồi thường bảo hiểm xe cơ giới.

CHƯƠNG 2

ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG CÔNG TÁC ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM TÀU CÁ

2.1. Khái quát về thị trường bảo hiểm tàu cá

Với lợi thế là một quốc gia ven biển, đánh bắt cá là một trong những nền kinh tế mũi nhọn và luôn thu hút được sự tham gia của nhiều ngư dân. Nhưng với đặc thù riêng, đây cũng là ngành kinh tế chứa đựng nhiều rủi ro như thiên tai, va chạm, cháy nổ,… có khả năng gây hậu quả lớn, ảnh hưởng không nhỏ tới hoạt động đánh bắt cá của ngư dân.

Theo Nghị định 67/2014/NĐ_CP về một số chính sách phát triển thủy sản, trong đó có chính sách bảo hiểm cho ngư dân, ngân sách nhà nước hỗ trợ kinh phí mua bảo hiểm cho các tàu khai thác hải sản xa bờ, tàu dịch vụ hậu cần là thành viên tổ đội, hợp tác xã khai thác hải sản, nghiệp đoàn nghề cá, có tổng công suất máy chính từ 90CV trở lên.

Tổng Công ty Bảo Minh là một trong 4 doanh nghiệp (cùng với Bảo Việt, PJICO và PVI) cung cấp sản phẩm bảo hiểm tàu cá theo Nghị định 67 tại 28 tỉnh, thành phố ven biển, trong đó có Quảng Ngãi.

Theo số liệu báo cáo của Tổng Công ty Bảo Minh, sau 3 năm (2015-2017) triển khai thực hiện bảo hiểm tàu cá theo Nghị định 67 tại Quảng Ngãi đã có gần 1.700 tàu cá trên địa bàn tỉnh tham gia bảo hiểm theo chính sách, bao gồm các loại hình bảo hiểm như bảo hiểm thân tàu, rủi ro đặc biệt, bảo hiểm ngư lưới cụ, bảo hiểm thuyền viên, với tổng phí 169 tỷ đồng.

Trong những năm qua số vụ tàu cá tổn thất và tổn thất toàn bộ tại Quảng Ngãi gia tăng cao cụ thể năm 2015 có 29 vụ/1.323 tàu tham gia bảo hiểm, năm 2016 là 32 vụ/1.717, năm 2017 có 40 vụ/1.677 tàu.

Việc số vụ tàu cá tổn thất và tổn thất toàn bộ ở Quảng Ngãi cao so với các tỉnh, thành khác có nguyên nhân ngư dân của Quảng Ngãi hoạt động rộng, khai thác ở hầu hết các ngư trường truyền thống của nước ta với thời gian bám biển dài ngày, trong khi đó phần lớn tàu cá lại có công suất nhỏ, lâu năm, trang thiết bị lạc hậu và chưa đảm bảo công tác phòng cháy chữa cháy,…nên có nhiều yếu tố rủi ro cao.

2.2. Đánh giá rủi ro tàu cá

2.2.1. Khái niệm rủi ro

Rủi ro là khái niệm đầu tiên cần đề cập khi nói về bảo hiểm vì rủi ro và bảo hiểm gắn liền với nhau có rủi ro mới có bảo hiểm. Vậy rủi ro là gì?

Rủi ro là một điều không may mắn, không lường trước được về khả năng xảy ra, về thời gian và không gian xảy ra, cũng như mức độ nghiêm trọng và hậu quả của nó [3].

Rủi ro được xem là sự không may mắn, sự tổn thất mất mát về tài sản hay là sự giảm sút lợi nhuận thực tế so với lợi nhuận dự kiến. Rủi ro còn được hiểu là những bất trắc ngoài ý muốn xảy ra trong quá trình kinh doanh, sản xuất của doanh nghiệp, tác động xấu đến sự tồn tại và phát triển của một doanh nghiệp. Tóm lại, theo quan điểm này thì rủi ro là những thiệt hại, mất mát, hoặc các yếu tố liên quan đến nguy hiểm, khó khăn có thể xảy ra cho con người.

2.2.2. Khái niệm về đánh giá rủi ro

Mọi công việc đều tiềm ẩn những rủi ro trong đó. Chúng ta muốn công việc tiến hành một cách hiệu quả và an toàn thì nên tiến hành thực hiện công tác đánh giá rủi ro cho chính công việc đó.

Đánh giá rủi ro là quá trình tìm hiểu những rủi ro có thể và sẽ liên quan tới công việc của bạn. Hãy chỉ ra cụ thể những rủi ro có thể gặp. ây dựng những biện pháp kiểm soát để thực thi công việc một cách hiệu quả nhất, an toàn nhất, nhằm tránh gây tai nạn cho con người, hư hại tài sản, thiết bị và tổn thương môi trường.

Đánh giá rủi ro là một trong những nhiệm vụ hết sức quan trọng trong công tác quản lý rủi ro. Có làm tốt công việc đánh giá rủi ro thì mới có thể thực hiện được công tác quản lý rủi ro. Đối với người khai thác bảo hiểm việc đánh giá rủi ro sẽ giúp họ quyết định có nhận bảo hiểm hay không, mức phí bao nhiêu. Nếu việc điều tra đánh giá rủi ro được thực hiện một cách đầy đủ, kỹ lưỡng, kết hợp với những công cụ, chương trình tính phí bảo hiểm thì cán bộ khai thác hoàn toàn có thể tính toán ngay được một cách chính xác tỷ lệ phí. Điều này giúp cho việc chủ động, nhanh chóng trong khai thác, trách được tình trạng phải tham khảo, hỏi han, tốn kém mất thời gian.

2.2.3. Phạm vi bảo hiểm

Phạm vi bảo hiểm là phạm vi giới hạn những rủi ro mà theo thoả thuận nếu những rủi ro đó xảy ra thì nhà bảo hiểm sẽ chịu trách nhiệm bồi thường cho chủ phương tiện. Cũng như các nghiệp vụ bảo hiểm khác, bảo hiểm vật chất tàu cá cũng chỉ nhận bảo hiểm cho những rủi ro ngẫu nhiên, bất ngờ gây thiệt hại phần vật chất. Thông thường, những rủi ro được bảo hiểm bao gồm:

+ Tai nạn do đâm va, lật chìm;

+ Cháy, nổ, bão lụt, sét đánh, động đất, mưa đá; + Mất cắp toàn bộ;

2.2.4. Quy trình đánh giá rủi ro trong bảo hiểm tàu cá

Quy trình tác nghiệp đòi hỏi cán bộ thẩm định vừa phải có trình độ chuyên môn nghiệp vụ cao, vừa phải có nhiều kinh nghiệm thực tiễn. Kết quả đánh giá rủi ro tốt sẽ làm giảm thiểu chi phí bồi thường tổn thất đồng thời nâng cao hiệu quả trong khai thác bảo hiểm tàu cá [3].

Tại Công ty Cổ phần Bảo hiểm Bảo Minh tại Quảng Ngãi, việc phân tích và đánh giá rủi ro tàu cá được quy định thực hiện tối đa trong vòng 3 tiếng kể từ lúc nhận hồ sơ của khách hàng.

2.2.5. Các yếu tố ảnh hưởng đến rủi ro trong bảo hiểm tàu cá

Cùng với sự phát triển kinh tế của đất nước, số lượng tàu cá ngày càng tăng mạnh trong khi cơ sở hạ tầng cầu cảng và trang thiết bị an toàn chưa phát triển theo kịp dẫn đến rủi ro cho tàu cá ngày càng tăng. Bên cạnh đó, nhiều phương tiện tham gia đánh bắt không đáp ứng được yêu cầu kỹ thuật và ý thức chấp hành pháp luật của người ngư dân chưa cao cũng là những nguyên nhân chính góp phần gia tăng tai nạn.

Mặt khác, mức độ rủi ro của tàu cá còn bị tác động bởi các yếu tố sau: - Mục đích sử dụng

- Phạm vi hoạt động - Thời gian sử dụng

- Độ tuổi, kinh nghiệm của lái tàu

2.3. Phân tích hiện trạng

2.3.1. Chỉ số trong lĩnh vực kinh doanh bảo hiểm tàu cá

Trong lĩnh vực kinh doanh bảo hiểm tàu cá, chúng ta cần quan tâm đến những chỉ số sau:

Tổng doanh thu: Tổng số tiền thu về từ phí bảo hiểm.

Bồi thường: Tổng số tiền chi trả cho khách hàng khi có tổn thất xảy ra.

Hoa hồng: Số tiền phải trích lại cho môi giới hoặc đại lý. Theo quy định của Bộ Tài Chính, số tiền hoa hồng cho nghiệp vụ là 7% doanh thu.

Chi phí tiếp thị: Số tiền bỏ ra cho các hoạt động quảng cáo, hội nghị khách hàng…Chi phí này chiếm 15% doanh thu.

Chi phí quản lý: Số tiền để thanh toán các khoản chi phí cố định như điện, nước, văn phòng phẩm, lương nhân viên, …Chiếm tỉ lệ là 20% tổng doanh thu.

Như vậy, lợi nhuận sẽ là số tiền còn lại sau khi lấy tổng doanh thu trừ các khoản chi phí nêu trên.

Bảng 2.1. Số liệu kinh doanh tại chi nhánh Quảng Ngãi

Thông số Năm 2015 Năm 2016 Năm 2017

Doanh thu 2.774.376.445 2.974.376.445 3.798.373.525 Bồi thường 1.979.779.201 1.895.379.001 1.783.179.423 Hoa hồng 106.206.750 195.250.770 231.830.142 Tiếp thị 306.156.467 306.156.467 407.093.843 Quản lý 306.156.467 345.745.725 701.276.973 Lợi nhuận 106.471.563 231.844.482 674.993.144

Bảng 2.2. Thống kê tình hình bồi thường tổn thất

Hồ sơ Năm 2015 Năm 2016 Năm 2017

Hợp đồng bảo hiểm 425 662 570

Tổng hồ sơ bồi thường 207 305 245

Ta nhận thấy rằng tỉ lệ bồi thường tổn thất cao, nó sẽ là nguyên nhân trực tiếp ảnh hưởng đến lợi nhuận của toàn công ty. Vì thế, để tăng lợi nhuận thì phải đẩy mạnh doanh thu đồng thời giảm chi phí. Ở đây ta chỉ xét đến vấn đề làm sao để tiết kiệm được chi phí?

Để giảm chi phí xuống thì chúng ta phải làm tốt công tác đánh giá rủi ro để giảm thiểu chi phí bồi thường. Ngoài ra, phải tiết kiệm tối đa các khoản chi phí cố định, cắt giảm nhân sự…

Chính vì những lý do đó. Việc sử dụng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm tàu cá sẽ giúp chi nhánh tiết kiệm được thời gian, nhân sự, hạn chế chi phí bồi thường góp phần tăng hiệu quả kinh doanh.

2.3.2. Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm tàu cá tàu cá

Với một khối lượng dữ liệu lớn về hoạt động kinh doanh trong bảo hiểm tàu cá trong các năm qua, chúng ta cần có một phương pháp phân tích dữ liệu một cách khoa học, trên cơ sở đó đưa ra những dự đoán về mức độ rủi ro của tàu cá. Từ đó, người quản lý sẽ cân đối được giữa doanh thu và bồi thường để đưa ra quyết định nhằm đảm bảo hiệu quả kinh doanh.

Giải pháp sử dụng cây quyết định rất phù hợp để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm tàu cá. Nó có thể xử lý được khối lượng lớn dữ liệu với tốc độ tính toán nhanh. Việc học tập và phân loại của cây quyết định rất đơn giản, nhanh chóng và có độ chính xác cao.

2.4. So Sánh kết quả phân lớp giữa 2 thuật toán C4.5 và Random Forest

2.4.1. Ứng dụng thuật toán C4.5

Trong phần này tôi đã trình bày khái quát bài toán phân loại rủi ro trong bảo hiểm tàu cá bằng giải thuật C4.5 ở trong Chương I từ trang 18 đến trang 20 của luận văn này.

+ Đối với phương pháp xây dựng cây quyết định C4.5 (J4.8) bằng Weka.

Hình 2.1. Thông số của thuật toán xây dựng cây quyết định bằng C4.5

Confidence factor: Cắt tỉa những cây giá trị nhỏ hơn cho thấy cắt tỉa nhiều. Debug: Nếu điều này được thiết lập để thực thông tin bổ sung được hiển thị trên giao diện điều khiển.

MinNumObj: Hiển thị số lượng tối thiểu của các trường hợp trên mỗi lá Numfolds: Hiển thị số lượng dữ liệu được sử dụng để cắt tỉa.

Reduced error pruning: Cắt tỉa giảm lỗi được sử dụng hay không.

Seed: được sử dụng cho các dữ liệu ngẫu nhiên khi giảm tỉa lỗi được sử dụng. Sub - tree Raising: Được sử dụng cho giá trị - cây tăng khi chúng ta cắt tỉa được sử dụng.

Unprunned: Cho thấy cắt tỉa được sử dụng hay không. Use Laplace: Ở lá được làm nhẵn dựa trên Laplace.

2.4.2. Ứng dụng Random Forresst

2.4.2.1. Phân tích dữ liệu

Có rất nhiều yếu tố ảnh hưởng đến tỉ lệ rủi ro trong bảo hiểm tàu cá như đã nêu ở trên. Tuy nhiên ở đây, chúng ta chú trọng phân tích các tập thuộc tính với những yếu tố chính trong bảng dữ liệu như sau:

Bảng 2.3. Bảng dữ liệu mẫu của 10 khách hàng

Các thuộc tính Thuộc tính phân loại TT Mục Đích sử dụng Thời gian sử dụng Kinh nghiệm lái tàu Làm nước Số tiền bồi thường Khu vực để tàu Phạm vi hoạt đông Rủi ro

1 Giả cào 6 3 Có 10 Cầu cảng Gần bờ THẤP

2 Câu 8 7 Không 30 Không Gần bờ TB

3 Giả cào 14 6 Không 50 Không Gần bờ CAO

4 Lặn 11 6 Có 10 Cầu cảng a bờ TB

5 Giả cào 12 11 Có 20 Cầu cảng Gần bờ TB

6 Giả cào 12 12 Không 50 Không a bờ CAO

7 Lặn 7 2 Có 10 Cầu cảng Gần bờ THẤP

8 Câu 6 4 Không 40 Không a bờ TB

9 Giả cào 14 7 Không 50 Không a bờ TB

10 Giả cào 9 4 Không 50 Cầu cảng Gần bờ CAO

Trong đó:

Thuộc tính Mục đích sử dụng là loại thộc tính Nominal có giá trị [giả cào, lặn,

Một phần của tài liệu 28033_1712202001914402LUANVANNGUYENPHUONGNAM (Trang 34)