Chương 2: Công cụ hỗ trợ xây dựng mô hình cây quyết định và lập kế hoạch sản xuất kinh doanh doanh nghiệp sẽ trình bầy tóm lược nội dung và quá trình ra quyết định với thông tin không c
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ PHƯƠNG THẢO
RA QUYẾT ĐỊNH VỚI THÔNG TIN KHÔNG CHẮC CHẮN BẰNG
VIỆC ỨNG DỤNG CÂY QUYẾT ĐỊNH
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỖ VĂN THÀNH
Hà Nội - 2011
Trang 3MỤC LỤC
MỞ ĐẦU 6
CHƯƠNG 1: TỔNG QUAN VỀ MÔ HÌNH CÂY QUYẾT ĐỊNH VÀ THÔNG TIN KHÔNG CHẮC CHẮN 9
1.1 Tổng quan về mô hình cây quyết định 9
1.1.1 Giới thiệu cây quyết định 9
1.1.2 Các kiểu cây quyết định 12
1.1.3 Ưu điểm của cây quyết định 13
1.1.4 Nhược điểm của cây quyết định 13
1.1.5 Ứng dụng của cây quyết định 14
1.1.6 Xây dựng và ứng dụng cây quyết định 15
1.2 Tổng quan về thông tin không chắc chắn 22
1.2.1 Khái niệm 22
1.2.2 Phân loại sự không chắc chắn 23
1.2.3 Ứng dụng thông tin không chắc chắn 23
1.2.4 Đo lường không chắc chắn 24
1.2.5 Biểu diễn thông tin không chắc chắn 25
1.3 Kết luận chương 1 33
CHƯƠNG 2
CÔNG CỤ HỖ TRỢ XÂY DỰNG MÔ HÌNH CÂY QUYẾT ĐỊNH VÀ KẾ HOẠCH SẢN XUẤT KINH DOANH DOANH NGHIỆP 35
2.1 Ra quyết định với thông tin không chắc chắn bằng ứng dụng mô hình cây quyết định 35
2.1.1 Khái niệm về ra quyết định 35
2.1.2 Phân loại quyết định 35
2.1.3 Ra quyết định trong quản lý 36
2.1.4 Quá trình ra quyết định của nhà quản trị doanh nghiệp 38
2.1.5 Ra quyết định trong điều kiện không chắc chắn 39
2.2 Công cụ hỗ trợ xây dựng mô hình cây quyết định 41
2.2.1 Giới thiệu PrecisionTree 41
2.3 Kế hoạch phát triển sản xuất, kinh doanh của doanh nghiệp 44
2.3.1 Khái niệm về kế hoạch sản xuất kinh doanh 44
2.3.2 Lợi ích của việc lập kế hoạch sản xuất kinh doanh 45
2.3.3 Quy trình của việc lập kế hoạch sản xuất kinh doanh: 46
2.3.4 Phân loại hoạt động lập kế hoạch 48
2.3.5 Các yếu tố tác động đến hoạt động lập kế hoạch 50
Trang 42.4 Một số nội dung chủ yếu cần ra quyết định khi lập kế hoạch phát triển
sản xuất, kinh doanh của doanh nghiệp 53
2.4.1 Căn cứ vào kết quả điều tra nghiên cứu thị trường 54
2.4.2 Căn cứ vào kết quả phân tích và dự báo về tình hình sản xuất kinh doanh, về khả năng nguồn lực có thể khai thác 54
2.4.3 Căn cứ vào chủ trương, đường lối, chính sách phát triển kinh tế xã hội của Đảng và Nhà nước 54
2.5 Kết luận chương 2 54
CHƯƠNG 3
RA QUYẾT ĐỊNH VỚI THÔNG TIN KHÔNG CHẮC CHẮN TRONG LẬP KẾ HOẠCH SẢN XUẤT KINH DOANH DOANH NGHIỆP 56
3.1 Lược sử vấn đề nghiên cứu 56
3.2 Xác định vấn đề nghiên cứu 57
3.3 Dữ liệu phục vụ lập kế hoạch sản xuất kinh doanh của doanh nghiệp 58
3.3.1 Dữ liệu phục vụ lập kế hoạch sản xuất kinh doanh: 58
3.3.2 Đánh giá về kế hoạch sản xuất kinh doanh hiện nay của công ty 58
3.4 Ứng dụng mô hình cây quyết định trong công tác lập kế hoạch sản xuất kinh doanh 63
3.3.1 Ứng dụng mô hình cây quyết định trong việc ra quyết định với thông tin không chắc chắn 63
3.5 So sánh với cây quyết định khác 72
3.6 Kết luận chương 3 75
KẾT LUẬN 76
TÀI LIỆU THAM KHẢO 77
Trang 5DANH MỤC HÌNH
Hình 1: Cây quyết định cho bài toán 10
Hình 2: Hàm Entropy của Shanon 11
Hình 3: Cây quyết định hỗ trợ ra quyết định 11
Hình 4: Phân loại tƣ duy của sự không chắc chắn 23
Hình 5: Giá đỡ, nhân và biên của tập mờ 33
Hình 6: Cây quyết định cho bài toán ra quyết định trong điều kiện không chắc chắn 40
Hình 7: Giới thiệu về thanh công cụ của PrecisionTree 41
Hình 8: Khởi tạo cây quyết định bằng PrecisionTree 42
Hình 9: Thiết lập nút trên cây quyết định bằng PrecisionTree 42
Hình 10: Thiết lập giá trị cho nút trên cây quyết định bằng PrecisionTree 43
Hình 11: Kết quả mô hình cây quyết định cho bài toán 1 63
Hình 12: Thao tác thực hiện xây dựng cây quyết định cho bài toán 2 66
Hình13: Kết quả mô hình cây quyết định cho bài toán 2 67
Hình 14: Kết quả mô hình cây quyết định cho bài toán 3 70
Trang 6DANH MỤC BẢNG
Bảng 1: Các tình huống ước lượng lợi nhuận 39
Bảng 2: Chỉ tiêu chính thức năm 2006 58
Bảng 3: Số liệu chi phí phát triển sản phẩm trên thị trường thử nghiệm 62
Bảng 4: Dữ liệu bài toán 2 65
Bảng 5: Dữ liệu bài toán 3 69
Bảng 6: Kế hoạch sản xuất cho một sản phẩm tại xí nghiệp 1 71
Trang 7MỞ ĐẦU
Lập kế hoạch phát triển sản xuất kinh doanh là một trong những hoạt động rất quan trọng của doanh nghiệp Thực tiễn cho thấy trong bối cảnh hoạt động của nền kinh tế thị trường có sự hội nhập kinh tế toàn cầu ngày càng sâu rộng, cạnh tranh ngày càng sâu sắc như ở nước ta hiện nay thì việc lập kế hoạch sản xuất kinh doanh doanh nghiệp càng trở lên quan trọng và trở thành yếu tố có ý nghĩa quyết định đến sự thành công hay thất bại của doanh nghiệp
Để nâng cao chất lượng kế hoạch sản xuất kinh doanh doanh nghiệp điều quan trọng là doanh nghiệp cần nắm bắt đầy đủ, kịp thời và xử lý, khai thác có hiệu quả các thông tin liên quan đến hoạt động sản xuất kinh doanh của doanh nghiệp, đến thị trường tiêu thụ sản phẩm hàng hoá và dịch vụ do doanh nghiệp tạo ra
Quá trình toàn cầu hoá và thông tin hoá diễn ra mạnh mẽ đã làm công tác lập kế hoạch phát triển sản xuất kinh doanh doanh nghiệp ngày càng phức tạp Trong quá trình lập kế hoạch, các doanh nghiệp phải xử lý một số lượng rất lớn thông tin, trong
số đó có nhiều thông tin được biết không chắc chắn, để rút ra những tri thức mới và ra quyết định từ những tri thức này Như vậy ngày càng có nhiều thông tin với tốc độ thay đổi rất nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có, đặc biệt trong đó có nhiều dữ liệu không chắc chắn
Các phương pháp quản trị và khai thác, phân tích dữ liệu truyền thống đã không đáp ứng được thực tế bùng nổ của thông tin và dữ liệu, đòi hỏi phải có phương pháp,
kỹ thuật mới để tổng hợp, lưu trữ, xử lý và khai thác thông tin, dữ liệu Lĩnh vực phát hiện tri thức từ các cơ sở dữ liệu đã được hình thành, trong đó khai phá dữ liệu (data mining) được xem là trung tâm của lĩnh vực nghiên cứu và ứng dụng này
Hiện tại, người ta đã xây dựng được khá nhiều kỹ thuật khai phá dữ liệu như phân cụm phân lớp dữ liệu, mạng nơtron, giải thuật di truyền, luật kết hợp, mạng Bayes, Trong các kỹ thuật này cây quyết định được coi là công cụ mạnh và phổ biến nhất, nó đặc biệt thích hợp cho những vấn đề khai phá dữ liệu nhằm hỗ trợ quá trình ra quyết định
Cây quyết định thực chất là công cụ hỗ trợ quyết định, có thể biểu diễn dữ liệu phức tạp theo một cấu trúc đơn giản hơn rất nhiều dưới dạng cây Cây quyết định cũng
có thể được sử dụng để xử lý thông tin không chắc chắn
Luận văn này nằm trong hướng khảo cứu, ứng dụng cây quyết định trong việc
xử lý thông tin không chắc chắn nhằm rút ra tri thức mới, phục vụ ra quyết định trong quá trình lập kế hoạch phát triển sản xuất kinh doanh của doanh nghiệp
Không kể các phần mở đầu, kết luận, mục lục, danh mục bảng, hình và tài liệu tham khảo, luận văn gồm 3 chương nội dung chính, trong đó:
Trang 8Chương 1: Tổng quan về mô hình cây quyết định và thông tin không chắc chắn
sẽ giới thiệu một số khái niệm và vấn đề chung nhất về những vấn đề này Cụ thể Chương I sẽ giới thiệu khái niệm về cây quyết định, phân loại cây quyết định, ưu nhược điểm của cây quyết định trong việc giải quyết bài toán về phân loại, ra quyết định và phương pháp xây dựng cây quyết định Chương 1 cũng giới thiệu khái niệm, phân loại, cách biểu diễn và ứng dụng của thông tin không chắc chắn Đó là những kiến thức cơ bản nhất, làm cơ sở để tìm khảo cứu và ứng dụng mô hình cây quyết định trong việc xử lý thông tin không chắc chắn nhằm hỗ trợ quá trình lập kế hoạch phát triển sản xuất kinh doanh doanh nghiệp ở các chương tiếp sau
Chương 2: Công cụ hỗ trợ xây dựng mô hình cây quyết định và lập kế hoạch
sản xuất kinh doanh doanh nghiệp sẽ trình bầy tóm lược nội dung và quá trình ra quyết định với thông tin không chắc chắn; giới thiệu PrecisionTree 5.7, là công cụ được luận văn sử dụng để xây dựng cây quyết định nhằm xử lý thông tin không chắc chắn, hỗ trợ quá trình ra quyết định trong việc lập kế hoạch Chương này cũng trình bày khái niệm, lợi ích, quy trình, phân loại các hoạt động lập kế hoạch, các yếu tố chính tác động đến hoạt động lập kế hoạch và một số nội dung chủ yếu cần được ra quyết định trong quá trình lập kế hoạch sản xuất kinh doanh của doanh nghiệp
Như đã biết, công việc của các nhà lập kế hoạch trước hết phải đánh giá được tính chất và mức độ không chắc chắn của môi trường kinh doanh để xác định giải pháp phản ứng của doanh nghiệp, xây dựng và triển khai các kế hoạch thích hợp Luận văn khảo cứu quá trình lập kế hoạch sản xuất kinh doanh doanh nghiệp và đề xuất ứng dụng mô hình cây quyết định trong quá trình đó
Chương 3: Ra quyết định với thông tin không chắc chắn trong lập kế hoạch sản
xuất kinh doanh của doanh nghiệp sẽ trình bầy việc ứng dụng mô hình cây quyết định trong lập kế hoạch sản xuất kinh doanh dựa trên tập dữ liệu giả định và trên tập dữ liệu thực tế được thu thập từ Công ty cổ phần May Thăng Long
Trang 10
CHƯƠNG 1: TỔNG QUAN VỀ MÔ HÌNH CÂY QUYẾT ĐỊNH VÀ
THÔNG TIN KHÔNG CHẮC CHẮN
Chương này giới thiệu tổng quan về mô hình cây quyết định và thông tin không chắc chắn Luận văn trước hết trình bày lý thuyết chung nhất về cây quyết định như giới thiệu cây quyết định, phân loại, xây dựng và ứng dụng của cây quyết định Sau đó trình bày về thông tin không chắc chắn, gồm khái niệm cơ bản, các cách biểu diễn thông tin không chắc chắn với lý thuyết xác suất, định lý Bayes, lý thuyết về yếu tố chắc chắn Standford và tập mờ
1.1 Tổng quan về mô hình cây quyết định
1.1.1 Giới thiệu cây quyết định
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận
về giá trị mục tiêu của sự vật/hiện tượng[3,12] Mỗi một nút trong (internal nút) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự báo của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định
Học bằng cây quyết định là phương pháp thông dụng trong khai phá dữ liệu Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại[12]
Hình 1 dưới đây thể hiện mô hình cây quyết định có cấu trúc dạng cây ở đó:
- nút lá được gán nhãn tương ứng với lớp của dữ liệu,
- nút trong được tích hợp với điều kiện kiểm tra để rẽ nhánh
Trang 11Hình 1: Cây quyết định cho tập dữ liệu weather
Mô hình cây quyết định trong hình 1 được xây dựng từ việc học trên tập dữ liệu weather [3, 12] để dự báo chơi hay không chơi golf (yes hay no) dựa trên các thuộc tính outlook, temperature, humidity và windy Mô hình rất dễ hiểu bởi vì ta có thể rút trích luật quyết định tương ứng với nút lá có dạng IF-THEN được tạo ra từ việc thực hiện AND trên các điều kiện theo đường dẫn từ nút gốc đến nút lá Các luật quyết định dễ hiểu với người sử dụng
Giải thuật học cây quyết định gồm 2 bước lớn: xây dựng cây (Top-down), cắt nhánh (Bottom-up) để tránh học vẹt Quá trình xây dựng cây được làm như sau:
- Bắt đầu nút gốc, tất cả các dữ liệu học ở nút gốc,
- Nếu dữ liệu tại 1 nút có cùng lớp thì nút được cho là nút lá, nhãn của nút lá là nhãn của các phần tử trong nút lá (hay luật bình chọn số đông nếu nút lá có chứa các phần tử có lớp khác nhau),
- Nếu dữ liệu ở nút quá hỗn loạn (các phần tử có lớp rất khác nhau) thì nút được cho là nút trong, tiến hành phân hoạch dữ liệu một cách đệ quy bằng việc chọn 1 thuộc tính để thực hiện phân hoạch tốt nhất có thể
Quá trình xây dựng cây chủ yếu phụ thuộc vào việc chọn thuộc tính tốt nhất để phân hoạch dữ liệu Chọn thuộc tính phân hoạch tốt theo nghĩa, cho ra kết quả là cây nhỏ nhất Việc lựa chọn này dựa vào các heuristics: chọn thuộc tính sinh ra các nút thuần khiết nhất
Giải thuật học cây quyết định tiêu biểu C4.5 của Quinlan [12] sử dụng entropy của Shannon để đánh giá sự hỗn loạn thông tin Theo như hình 2, độ hỗn loạn đạt cực đại khi phân phối xác suất của lớp bằng nhau (bài toán 2 lớp, thì giá trị 0.5) Nhưng nếu tỉ
lệ dữ liệu đã biết là lệch nhau, chẳng hạn ta có 10% là lớp dương (pos) và 90% là lớp
âm (neg), thì tại một nút khi phân hoạch, độ hỗn loạn nên đạt cực đại khi biết xác suất của lớp dương là 0.1 chứ không phải là 0.5 Đây là yếu điểm của việc dùng hàm entropy khi xử lý dữ liệu không cân bằng về lớp, trong khi thực tế, dữ liệu thường mất cân bằng Vì lý do đó những
Trang 12Hình 2: Hàm entropy của Shannon
năm gần đây người ta tập trung nghiên cứu đề xuất thay thế hàm phân hoạch cây quyết định entropy bằng bằng hàm khoảng cách Kolmogorov-Smirnov để xử lý tốt hơn cho
dữ liệu không cân bằng [10-11]
Có thể nói cây quyết định được mô tả như là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước Cây quyết định giúp biến một biểu diễn dữ liệu phức tạp thành một cấu trúc đơn giản hơn rất nhiều Các cây quyết định thường được sử dụng trong hoạt động nghiên cứu và ứng dụng như trong phân tích quyết định, giúp xác định một chiến lược
có khả năng đạt được một mục tiêu hay không,
Mô hình cây quyết định hỗ trợ quá trình ra quyết định là mô hình cây quyết định
ở đó có phương tiện để tính toán xác suất có điều kiện và/hoặc mô tả việc thực hiện ra quyết định [14]
Ví dụ, một tổ chức tín dụng xác định đối tượng khách hàng cho vay như sau: Nếu khách hàng có dư nợ tại tổ chức lớn hơn hoặc bằng một giá trị nào đó (n) theo quy định thì không cho vay, trong trường hợp ngược lại, nếu khách hàng có thu có khả năng trả nợ thì mới cho vay
Cây quyết định có thể được tạo ra như sau:
Hình 3: Cây quyết định hỗ trợ ra quyết định
Trang 13Trong cây này:
- Gốc: là nút trên cùng của cây, từ đó sinh ra các nhánh
- Nút trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình tròn)
- Nhánh: biểu diễn các kết quả của kiểm tra trên nút trong (cạnh)
- Nút lá: biểu diễn lớp hay sự phân phối lớp (hình tam giác)
Để ra quyết định với mẫu dữ liệu thu được, giá trị các thuộc tính của mẫu được đưa vào kiểm tra trên cây quyết định Mỗi mẫu tương ứng có một đường đi từ gốc đến
lá và biểu diễn dự báo giá trị để có quyết định cuối cùng cho dữ liệu mẫu
1.1.2 Các kiểu cây quyết định
Theo tiêu chí phân loại dựa vào giá trị thuộc tính của cây, cây quyết định được chia thành 2 loại chính:
1.1.2.1 Cây hồi quy: ước lượng các hàm giá có giá trị là số thực thay vì được sử
dụng cho các nhiệm vụ phân loại
Giá trị thuộc tính liên tục A cần được rời rạc hóa trong cây quyết định Với các cách tiếp cận thông thường: ta coi thuộc tính chỉ có một cách rời rạc trong khoảng [ -
∞,t] , [t,+∞] Cần lựa chọn ngưỡng t: để với mỗi trường hợp của t tính toán độ tăng
thông tin của A do sự rời rạc của t Chọn t với độ tăng thông tin lớn nhất (t có thể biến
đổi với các trường hợp của A trên cây) Các giá trị của t được xem xét: giá trị của A
trong một số trường hợp của dữ liệu [3,8].
Nói cách khác với thuộc tính liên tục (thuộc tính dạng số) thì tập giá trị là không xác định trước Chính vì vậy, trong quá trình phát triển cây, cần sử dụng kiểm
tra dạng nhị phân: value(A) ≤ θ Với θ là hằng số ngưỡng được lần lượt xác định dựa
trên từng giá trị riêng biệt hay từng cặp giá trị liền nhau (theo thứ tự đã sắp xếp) của thuộc tính liên tục đang xem xét trong tập dữ liệu [8].
1.1.2.2 Cây phân loại
Nếu biến phụ thuộc nhận giá trị phân loại, tức giá trị biểu trưng (symbol) được sắp thứ tự Chẳng hạn như: giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua), trình độ học lực (xuất sắc, giỏi, khá, trung bình, yếu) Khi đó các thuộc tính có giá trị rời rạc [3, 12].
Một cây quyết định phân loại là một mô hình phân loại (bộ phân loại) cho một biến lớp T khi biết các thuộc tính A Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa vào kiểm tra trên cây quyết định Mỗi mẫu tương ứng có một đường đi từ gốc đến lá và lá biểu diễn dự báo giá trị phân lớp mẫu đó
Ngoài hai loại trên, một cây quyết định có thể được thể hiện gọn như một sơ đồ ảnh hưởng, tập trung sự chú ý vào các vấn đề và mối quan hệ giữa các sự kiện
Trang 141.1.3 Ưu điểm của cây quyết định
So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp
có một số ưu điểm chính sau:
- Cây quyết định dễ hiểu Người ta có thể hiểu mô hình cây quyết định sau khi được giải thích ngắn
- Việc chuẩn bị dữ liệu cho một cây quyết định là đơn giản hoặc không cần thiết, trong khi các kỹ thuật khác thường đòi hỏi phải chuẩn hóa dữ liệu, tạo thêm các biến giả và loại bỏ các giá trị khuyết thiếu
- Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là tên thể loại (giá trị phân loại) Các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ gồm một loại biến Chẳng hạn, các luật quan hệ chỉ có thể dùng cho các biến tên, trong khi mạng nơ-ron chỉ có thể dùng cho các biến có giá trị bằng số
- Cây quyết định là một mô hình hộp trắng Nếu có thể quan sát một tình huống cho trước trong một mô hình, thì có thể dễ dàng giải thích điều kiện đó bằng logic Boolean Mạng nơ-ron là một ví dụ về mô hình hộp đen, do lời giải thích cho kết quả quá phức tạp để có thể hiểu được
- Có thể thẩm định mô hình cây quyết định bằng các kiểm tra thống kê Điều này làm cho ta có thể tin tưởng vào mô hình
- Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn Có thể dùng máy tính cá nhân để phân tích các lượng dữ liệu lớn trong một thời gian đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích cây quyết định [3-12]
1.1.4 Nhược điểm của cây quyết định
Cây quyết định khó giải quyết được những vấn đề có dữ liệu phụ thuộc thời gian liên tục, không thích hợp lắm với những bài toán với mục tiêu là dự báo giá trị của các thuộc tính như lãi suất ngân hàng, tín dụng, ….[3]
* Dễ xẩy ra lỗi khi có quá nhiều lớp
Một số cây quyết định chỉ thao tác với những lớp giá trị nhị phân dạng đúng/sai hay chấp nhận/từ chối Số khác lại có thể chỉ định các bản ghi vào một số lớp bất kỳ,
nhưng dễ xảy ra lỗi khi số mẫu dùng để xây dựng mô hình ứng với một lớp là nhỏ Điều này xẩy ra càng thường xuyên hơn với những cây có nhiều tầng hay có nhiều nhánh trên một nút
* Chi phí tính toán để xây dựng mô hình cây quyết định cao:
Quá trình phát triển cây quyết định đắt về mặt tính toán Vì cây quyết định có
rất nhiều nút trong trước khi đi đến lá cuối cùng Tại từng nút, cần tính một độ đo (hay
tiêu chuẩn phân chia) trên từng thuộc tính, với thuộc tính liên tục phải thêm thao tác
Trang 15xắp xếp lại tập dữ liệu theo thứ tự giá trị của thuộc tính đó Sau đó mới có thể chọn được một thuộc tính phát triển và tương ứng là một phân chia tốt nhất Một vài thuật toán sử dụng tổ hợp có trọng số các thuộc tính kết hợp với nhau để phát triển cây quyết định Quá trình cắt cụt cây cũng “đắt” vì nhiều cây con ứng cử viên phải được tạo ra
và so sánh
1.1.5 Ứng dụng của cây quyết định
Một trong những ứng dụng của cây quyết định là được sử dụng để phân lớp dữ liệu Tuy có nhiều kỹ thuật phân lớp khác đã được đề xuất như: phân lớp Bayes, phân lớp K - hàng xóm gần nhất, mạng nơron, phân tích thống kê,…, nhưng phân lớp cây quyết định vẫn được coi là công cụ mạnh, phổ biến và đặc biệt thích hợp cho khai phá
dữ liệu [4].
1.1.5.1 Sử dụng để phân lớp dữ liệu
Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa vào kiểm tra trên cây quyết định Mỗi mẫu tương ứng có một đường đi từ gốc đến lá và lá biểu diễn dự báo giá trị phân lớp mẫu đó
Cây quyết định có khả năng sinh ra các quy tắc có thể chuyển đổi được sang các luật suy diễn, hoặc các câu lệnh SQL
Thậm chí với những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn và phức tạp, việc đi theo bất cứ đường nào trên cây là dễ dàng theo nghĩa phổ biến và rõ ràng Do vậy sự giải thích cho bất cứ một sự phân lớp hay dự báo nào đều tương đối minh bạch
Cây quyết định dễ dàng tính toán trong khi phân lớp Mặc dù cây quyết định có thể chứa nhiều định dạng, nhưng trong thực tế, các thuật toán sử dụng để tạo ra cây quyết định thường tạo ra những cây với số phân nhánh thấp và các kiểm thử đơn giản tại từng nút Những kiểm thử điển hình là: so sánh số, xem xét phần tử của một tập hợp, và các phép kết nối đơn giản Khi thực thi trên máy tính, những kiểm thử này chuyển thành các phép toán trên các hàm logic và số nguyên, là những toán hạng thực thi nhanh và không đắt Đây là một ưu điểm quan trọng bởi trong môi trường thương mại, các mô hình dự báo thường được sử dụng để phân lớp hàng triệu thậm trí hàng tỉ bản ghi
Cây quyết định xử lý “tốt” như nhau với thuộc tính liên tục và thuộc tính rời rạc Tuy rằng với thuộc tính liên tục cần nhiều tài nguyên tính toán hơn Những thuộc tính rời rạc đã từng gây ra vấn đề với mạng nơtron và các kỹ thuật thống kê lại thực sự
dễ dàng thao tác với các tiêu chuẩn phân chia trên cây quyết định: mỗi nhánh tương ứng với từng phân tách tập dữ liệu theo giá trị của thuộc tính được chọn để phát triển tại nút đó Các thuộc tính liên tục cũng dễ dàng phân chia bằng việc chọn ra một số gọi
là ngưỡng trong tập các giá trị đã sắp xếp của mỗi thuộc tính này Sau khi chọn được ngưỡng tốt nhất, tập dữ liệu phân chia theo kiểm thử nhị phân của các ngưỡng này
Trang 16Cây quyết định thể hiện rõ ràng những thuộc tính tốt nhất Các thuật toán xây dựng cây quyết định đưa ra thuộc tính mà phân chia tốt nhất tập dữ liệu huấn luyện bắt đầu từ nút gốc của cây Từ đó có thể thấy những thuộc tính nào là quan trọng nhất cho việc dự báo hay phân lớp
1.1.5.2 Sử dụng trong các mô hình dự báo
Cây quyết định có thể xử lý tốt các thuộc tính có giá trị liên tục Do đó có thể được sử dụng để xây dựng mô hình với các hàm nhận giá trị liên tục
Đối với hoạt động sản xuất kinh doanh doanh nghiệp, một mô hình dự báo cần
có khả năng dự báo được lượng tiền tiêu dùng của các khách hàng tiềm năng dựa trên những thông tin về thu nhập và nghề nghiệp của khách hàng Hay nhờ các luật về xu hướng mua hàng của khách hàng trong siêu thị, thông qua mô hình dự báo các nhân viên kinh doanh có thể ra những quyết sách đúng đắn về lượng mặt hàng cũng như chủng loại bày bán Cây quyết định thường được ứng dụng trong phương pháp (mô hình) dự báo định lượng có khả năng dự báo như trên
1.1.5.3 Sử dụng để biểu diễn các vấn đề ra quyết định
Dựa trên việc xử lý các thông tin thu thập được, cây quyết định được sử dụng
để biểu diễn các vấn đề ra quyết định Khi đó cần chọn một mô hình toán học trong phương pháp định lượng để đánh giá vấn đề đó Việc chọn lựa mô hình được dựa vào
sự hiểu biết, vào thông tin ít hay nhiều về khả năng xuất hiện các trạng thái của hệ thống
1.1.6 Xây dựng và ứng dụng cây quyết định
Xây dựng và ứng dụng cây quyết định là quá trình nhiều bước gồm: tạo lập, cắt tỉa cây quyết định, sau đó trích rút ra các luật, sử dụng các thủ tục suy diễn để rút ra tri thức thu được Sau đây luận văn trình bày về các quá trình trên
1.1.6.1 Thủ tục tạo lập cây quyết định
Quá trình tạo cây quyết định gồm hai giai đoạn [3, 12]
* Giai đoạn thứ nhất phát triển cây quyết định:
Giai đoạn này phát triển bắt đầu từ gốc, đến từng nhánh và phát triển quy nạp theo cách thức chia để trị cho tới khi đạt được cây quyết định với tất cả các lá được gán nhãn lớp
Thuật toán xây dựng cây quyết định
Luận văn trình bày giải thuật quy nạp xây dựng cây quyết định ID3 (gọi tắt là ID3) là một giải thuật học đơn giản nhưng rất thành công trong nhiều lĩnh vực ID3 là một giải thuật hay vì cách biểu diễn tri thức học được của nó, vì cách tiếp cận của nó trong việc quản lý tính phức tạp, vì cách sử dụng phương pháp heuristic để chọn lựa các ứng viên, và tiềm năng của nó đối với việc xử lý dữ liệu nhiễu [3, 12].
Trang 17ID3 biểu diễn các khái niệm ở dạng cây quyết định Biểu diễn này cho phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính nào đó
Như vậy, nhiệm vụ của giải thuật ID3 là học cây quyết định từ một tập các mẫu huấn luyện (training example) và còn được gọi là dữ liệu huấn luyện (training data) Nói khác hơn, giải thuật có:
Đầu vào: Một tập hợp các mẫu Mỗi mẫu bao gồm các thuộc tính mô tả một
tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó
Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các mẫu trong tập dữ
liệu huấn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chưa gặp trong tương lai
ID3 xây dựng cây quyết định theo cách từ trên xuống Lưu ý rằng đối với bất
kỳ thuộc tính nào, chúng ta cũng có thể phân vùng tập hợp các mẫu huấn luyện thành những tập con tách rời, mà ở đó mọi mẫu trong một phân vùng (partition) có một giá trị chung cho thuộc tính đó ID3 chọn một thuộc tính để kiểm tra tại nút hiện tại của cây và dùng trắc nghiệm này để phân vùng tập hợp các mẫu; thuật toán khi đó xây dựng theo cách đệ quy một cây con cho từng phân vùng Công việc này tiếp tục cho đến khi mọi thành viên của phân vùng đều nằm trong cùng một lớp; lớp đó trở thành nút lá của cây
Vì thứ tự của các trắc nghiệm là rất quan trọng đối với việc xây dựng một cây quyết định, ID3 phụ thuộc rất nhiều vào tiêu chuẩn chọn lựa trắc nghiệm để làm gốc của cây
* ID3 xây dựng cây quyết định theo giải thuật sau:
Function induce_tree(tập_mẫu, tập_thuộc_tính)
begin
if mọi mẫu trong tập_mẫu đều nằm trong cùng một lớp
then
return một nút lá được gán nhãn bởi lớp đó
else if tập_thuộc_tính là rỗng then
return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong
Trang 18begin
tạo một nhánh của cây gán nhãn V;
Đặt vào phân_vùngV các ví dụ trong tập_mẫu có giá trị V tại thuộc tính P;
Gọi induce_tree(phân_vùngV, tập_thuộc_tính), gắn kết quả vào nhánh V
end end end
Sau khi xây dựng được cây quyết định, bước tiếp theo là cắt tỉa nhánh của cây
* Giai đoạn thứ hai cắt, tỉa bớt các cành nhánh trên cây quyết định:
Giai đoạn này nhằm mục đích đơn giản hóa và khái quát hóa từ đó làm tăng độ chính xác của cây quyết định bằng cách loại bỏ sự phụ thuộc vào mức độ lỗi (noise) của dữ liệu huấn luyện mang tính chất thống kê, hay những biến đổi mà có thể là đặc tính riêng biệt của dữ liệu huấn luyện Giai đoạn này chỉ truy cập dữ liệu trên cây quyết định đã được phát triển trong giai đoạn trước
Có rất nhiều biến đổi khác nhau trong thuật toán cây quyết định, mặc dù vậy chúng vẫn tuân theo những bước cơ bản sau :
- Cây được thiết lập từ trên xuống dưới và theo cách thức chia để trị
- Ở thời điểm bắt đầu, các mẫu huấn luyện nằm ở gốc của cây
- Thuộc tính được phân loại (rời rạc hóa các thuộc tính dạng phi số )
- Chọn một thuộc tính để phân chia thành các nhánh Thuộc tính được chọn dựa trên các loại tiêu chuẩn
- Tiếp tục lặp lại việc xây dựng cây quyết định cho các nhánh
Điều kiện để dừng việc phân chia:
+ Tất cả các mẫu rơi vào một nút thuộc về cùng một lớp (nút lá)
+ Không còn thuộc tính nào có thể dùng để phân chia mẫu nữa
+ Không còn lại mẫu nào tại nút
Có 3 loại tiêu chuẩn hay chỉ số để xác định thuộc tính tốt nhất phát triển nhánh tại mỗi nút
Trang 19- Chỉ số Gini (hay Gini-index) [8] : Loại tiêu chuẩn này lựa chọn thuộc tính làm cực tiểu hóa độ bất định của mỗi phân chia Các thuật toán sử dụng này là CART, SLIQ, SPRINT
- χ2 - bảng thống kê các sự kiện xảy ra ngẫu nhiên: χ2 đo độ tương quan giữa từng thuộc tính và nhãn lớp Sau đó lựa chọn thuộc tính có độ tương quan lớn nhất [1]
- Tăng thêm thông tin (Information gain) [12] : Khác với Gini-index, tiểu chuẩn này sử dụng hàm entropy để đo độ bất định của một phân chia và lựa chọn thuộc tính theo mức độ cực đại hóa chỉ số entropy Các thuật toán sử dụng tiêu chuẩn này là ID3, C4.5
Khái niệm entropy của một tập S được định nghĩa trong Lý thuyết thông tin [15]
là số lượng mong đợi các bít cần thiết để mã hóa thông tin về lớp của một thành viên rút ra một cách ngẫu nhiên từ tập S Trong trường hợp tối ưu, mã có độ dài ngắn nhất Theo lý thuyết thông tin, mã có độ dài tối ưu là mã gán –log2(p(v)) bits cho thông điệp
v p v
p( ) * log2( ( ))với V là tập các giá trị
Trong trường hợp S là tập mẫu, thì thành viên của S là một mẫu, mỗi mẫu thuộc một lớp hay có một giá trị phân loại
Entropy có giá trị nằm trong khoảng [0 1],
Entropy(S) = 0: tập mẫu S chỉ gồm các mẫu thuộc cùng một loại, hay S là thuần nhất
Entropy(S) = 1: tập ví dụ S có các mẫu thuộc các loại khác nhau với độ pha rộn
là cao nhất
0 < Entropy(S) < 1: tập ví dụ S có số lượng mẫu thuộc các loại khác nhau là không bằng nhau
Entropy là một số đo đo độ pha trộn của một tập mẫu, Gain(S, A) là định nghĩa
độ đo hiệu suất phân loại các mẫu của một thuộc tính Phép đo này gọi là lượng thông tin thu được, là lượng giảm entropy mong đợi gây ra bởi việc phân chia các mẫu theo thuộc tính này
Một cách chính xác hơn, Gain(S,A) của thuộc tính A, trên tập S, là sự giảm được kỳ vọng về entropy do sắp xếp theo thuộc tính A và được định nghĩa như sau:
) (
|
|
|
| )
( )
, (
)
Values v
v Entropy S S
S S
Entropy A
Trang 20Tri thức trong cây quyết định có thể được chiết xuất và trình bày dưới dạng các luật phân loại IF-THEN Một luật tương ứng với một đường đi từ gốc tới một nút lá Mỗi cặp thuộc tính - giá trị dọc theo đường đi tạo thành một liên kết trong tiền đề luật (IF), nút lá là lớp dự báo, thiết lập nên mệnh đề kết quả luật (THEN), các luật IF-THEN là các tri thức thu được từ việc xây dựng cây quyết định
Một luật có thể được tỉa bớt bằng cách gỡ bỏ một số điều kiện trong tiền đề luật
mà không làm ảnh hưởng nhiều đến độ chính xác của luật Đối với mỗi lớp, các luật trong phạm vi một lớp có thể được sắp xếp theo độ chính xác của chúng Do đó rất dễ xảy ra hiện tượng một mẫu kiểm định sẽ không thỏa bất kỳ một tiền đề luật nào
Ví dụ: Các luật được sinh ra từ cây quyết định ví dụ hình 3 là
IF „Nợ >n‟ THEN “Không cho vay”
IF „Nợ <n‟ AND „Thu nhập < T‟ THEN “Không cho vay”
IF „Nợ <n‟ AND „Thu nhập >T‟ THEN “Cho vay”
Các luật IF – THEN có các ưu điểm sau đây:
- Mỗi luật IF – THEN mô tả một phần nhỏ tương đối độc lập của tri thức
- Có thể thêm và cơ sở tri thức các luật mới, hoặc loại bỏ một số luật cũ mà không ảnh hưởng nhiều tới các luật khác
- Các hệ tri thức với cơ sở tri thức gồm các luật IF – THEN có khả năng đưa ra
lời giải thích cho các quyết định của hệ
Ngôn ngữ bao gồm các luật IF- THEN, là ngôn ngữ phổ biến nhất để biểu diễn tri thức Các câu Horn (mang tên nhà logic Alfred Horn, năm 1951) được viết dưới
dạng: IF P 1 and and P n THEN Q
Các luật IF – THEN là dạng biểu diễn tự nhiên của tri thức Bằng cách sử dụng các luật IF – THEN chúng ta có thể biểu diễn được một số lượng lớn tri thức của con người về tự nhiên, về xã hội, kinh nghiệm của con người trong nhiều lĩnh vực ứng dụng khác nhau, và có thể thực hiện các thủ tục suy diễn hiệu quả
Trang 21Luật suy diễn
Một công thức H được xem là hệ quả logic (logical consequence) của một tập công thức G ={G1, ,Gm} nếu trong bất kỳ minh họa nào mà {G1, ,Gm} đúng thì H cũng đúng, hay nói cách khác bất kỳ mô hình nào của G cũng là mô hình của H [4]
Khi có một cơ sở tri thức, ta muốn sử dụng các tri thức trong cơ sở này để suy
ra tri thức mới mà nó là hệ quả logic của các công thức trong cơ sở tri thức Điều đó được thực hiện bằng cách sử dụng các luật suy diễn (rule of inference) Luật suy diễn giống như một thủ tục mà chúng ta sử dụng để sinh ra một công thức mới từ các công thức đã có Một luật suy diễn gồm hai phần: một tập các điều kiện và một kết luận
Các hệ tri thức mà cơ sở tri thức bao gồm các luật sẽ được gọi là các hệ dựa trên luật Một khi chúng ta đã lưu trữ một cơ sở tri thức, chúng ta cần có thủ tục lập luận để rút ra các kết luận từ cơ sở tri thức Trong các hệ dựa trên luật, có hai phương pháp luận lập luận cơ bản: Lập luận tiến, và lập luận lùi
Lập luận tiến
Tư tưởng cơ bản của lập luận tiến là áp dụng luật suy diễn Modus Ponens tổng quát Trong mỗi bước của thủ tục lập luận tiến, người ta xét một luật trong cơ sở luật Đối sánh mỗi điều kiện của luật với các sự kiện trong cơ sở sự kiện, nếu tất cả các điều kiện của luật đều được thoả mãn thì sự kiện trong phần kết luận của luật được xem là
sự kiện được suy ra Nếu sự kiện này là sự kiện mới (không có trong bộ nhớ làm việc), thì nó được đặt vào bộ nhớ làm việc Quá trình trên được lặp lại cho tới khi nào không
có luật nào sinh ra các sự kiện mới
Như vậy quá trình lập luận tiến là quá trình xem xét các luật Với mỗi luật, ta đi
từ phần điều kiện tới phần kết luận của luật, khi mà tất cả các điều kiện của luật đều được làm thoả mãn (bởi các sự kiện trong cơ sở sự kiện), thì ta suy ra sự kiện trong phần kết luận của luật
Quá trình lập luận tiến không định hướng tới giải quyết một vấn đề nào cả, không định hướng tới tìm ra câu trả lời cho một câu hỏi nào cả Lập luận tiến chỉ là quá trình suy ra các sự kiện mới từ các sự kiện trong bộ nhớ làm việc
Lập luận lùi
Trong lập luận lùi, người ta đưa ra các giả thuyết cần được đánh giá Sử dụng lập luận lùi, giả thuyết đưa ra hoặc là được chứng minh, hoặc là bị bác bỏ (bởi các sự kiện trong bộ nhớ làm việc) Lập luận lùi cho phép ta tìm ra các phép thế biến mà giả thuyết đưa ra trở thành đúng (là hệ quả logic của cơ sở tri thức) Do đó trong hệ dựa trên luật chúng ta có thể sử dụng lập luận lùi để tìm ra các câu trả lời cho các câu hỏi được đặt
ra bởi người sử dụng
Trang 22Lập luận lùi nhằm chứng minh một giả thuyết, chính vì thế mà lập luận lùi còn được gọi là lập luận định hướng mục đích Sau này có thể sử dụng lập luận lùi để tìm
ra các câu trả lời cho các câu hỏi của người sử dụng
Quá trình lập luận lùi diễn ra như sau: Ta đối sánh giả thuyết đưa ra với các sự kiện trong bộ nhớ làm việc Nếu có các câu mô tả sự kiện và giả thuyết trùng nhau qua một phép thế nào đó, thì ta xem như giả thuyết là đúng Nếu không có sự kiện nào khớp với giả thuyết, thì ta đối sánh giả thuyết với phần kết luận của các luật Với mỗi luật mà kết luận của luật khớp với giả thuyết, ta đi lùi lại phần điều kiện của luật Các điều kiện này của luật được xem như các giả thuyết mới Với giả thuyết mới, ta lặp lại quá trình trên
Nếu tất cả các giả thuyết được sinh ra trong quá trình phát triển các giả thuyết bởi các luật được chọn thích hợp đều được thoả mãn (đều có trong bộ nhớ làm việc) thì giả thuyết đã đưa ra được xem là đúng Ngược lại, dù ta áp dụng luật nào để phát triển các giả thuyết cũng dẫn tới các giả thuyết không có trong bộ nhớ làm việc và không thể quy giả thuyết này về các giả thuyết mới khác, thì giả thuyết đã đưa ra được xem là sai Sau đây là thủ tục suy diễn lùi Trong thủ tục này, Hyp và là các biến địa phương trong thủ tục Giá trị ban đầu của Hyp là danh sách các giả thuyết ban đầu (biểu diễn câu hỏi được đặt ra), còn giá trị ban đầu của là phép thế rỗng.[4]
procedure Backward_Chaining (Hyp, );
begin
H giả thuyết đầu tiên trong danh sách Hyp;
for mỗi luật R = (Conds, Q) do
if H hợp nhất với Q bởi phép thế 1 then
1 Loại H khỏi danh sách Hyp;
2 Thêm các điều kiện của luật Conds vào danh sách Hyp;
3 áp dụng phép thế 1 vào các giả thuyết trong danh sách Hyp;
4 Lấy hợp thành của các phép thế và 1 để nhận được phép thế mới, tức là 1;
if Hyp = [ ] then cho ra
else Backward_Chaining (Hyp, );
end;
Trong thủ tục lập luận lùi, mỗi được cho ra là một phép thế biến làm cho giả thuyết ban đầu trở thành đúng, tức là (Hyp) = H1 Hm là đúng (là hệ quả
Trang 23logic của cơ sở tri thức) Do đó mỗi phép thế biến được cho ra bởi thủ tục là một câu trả lời cho câu hỏi đặt ra
Như vậy, các thuộc tính để xây dựng cây quyết định có thể là thông tin chắc chắn, hoặc không chắc chắn Trong luận văn này, đề cập tới ứng dụng của cây quyết định khi thuộc tính là thông tin không chắc chắn Phần tiếp theo sẽ tìm hiểu về vấn đề này
1.2 Tổng quan về thông tin không chắc chắn
Sự không chắc chắn là một thuật ngữ được sử dụng theo những cách khác nhau trong một số lĩnh vực, bao gồm vật lý, triết học, thống kê, kinh tế, tài chính, bảo hiểm, tâm lý học, xã hội học, kỹ thuật, và khoa học thông tin Áp dụng đối với dự báo của các sự kiện trong tương lai, các phép đo vật lý đã được thực hiện, hoặc chưa biết
1.2.1 Khái niệm
Sự không chắc chắn: là trạng thái có hiểu biết hạn chế về những hiện tượng tự nhiên-kinh tế -xã hội, không thể mô tả chính xác tình trạng hiện hành cũng như kết quả trong tương lai của chúng[1,7]
Sự không chắc chắn đơn giản là nói về thiếu sự chắc chắn hoàn toàn Không chắc chắn là một trạng thái của kiến thức mà việc đánh giá chính xác trạng thái của một hiện tượng (quá khứ, hiện tại hoặc tương lai) là không thể Điều này là phù hợp với tất cả các quan điểm suy nghĩ về sự không chắc chắn trong các lý thuyết khoa học hiện hành bao gồm lý thuyết xác suất, khoa học quyết định, thống kê, lý thuyết thông tin và vật lý,
Tính không chắc chắn có thể xuất hiện từ nhiều nguồn, có thể do chính bản thân
sự kiện, hiện tượng mà về bản chất không thể mô tả chính xác chúng bởi các mô hình đơn định Tính không chắc chắn có thể xuất hiện do sự hiểu biết không đầy đủ về vấn
đề đang xét Ngay cả khi có thể mô tả chính xác, đơn định một quá trình, một hiện tượng tự nhiên-kinh tế-xã hội nào đó, nhưng nếu mô tả đầy đủ và chính xác thì sẽ rất phức tạp, độ phức tạp của tính toán, lập luận sẽ rất cao Trong các trường hợp đó, có thể mô tả xấp xỉ bằng cách sử dụng tính không chắc chắn để đơn giản cho việc tính toán, suy diễn
Rủi ro là tình trạng không chắc chắn mà một số sự kiện, hiện tượng có thể phải chịu những tác dụng không mong muốn hoặc bị thiệt hại đáng kể
Trong hoạt động sản xuất kinh doanh doanh nghiệp, đo lường rủi ro là một tập hợp các phép đo sự không chắc chắn có thể gây ra những thiệt hại, và độ lớn của những thiệt hại này cũng bao gồm mức lỗ trong các biến Một cách khái quát đo lường rủi ro chỉ đơn giản là một phép đo của sự không chắc chắn cùng với chuyển nhượng bị mất (hoặc thiệt hại) cho mỗi tình trạng không chắc chắn
Trang 24Trong đời sống thực, nhất là trong hoạt động sản xuất kinh doanh doanh nghiệp nguyên tắc phân loại sự không chắc chắn còn bao gồm một ý nghĩa rộng hơn của sự không chắc chắn, cụ thể nó còn được tiếp cận từ quan điểm đạo đức
1.2.2 Phân loại sự không chắc chắn
Sự không chắc chắn có thể được chia thành các bộ phận được xác định rõ và không rõ nét, gồm đối tượng và chủ thể không chắc chắn Không chắc chắn cũng được xác định có thể được phân tích với lý thuyết xác suất Sự thiếu rõ ràng có thể được chia thành đặc trưng không và bất hòa Đặc trưng không thể được phân tích với lý thuyết khả năng và bất hòa có thể được phân tích với bản thể học
Hình 4 : Phân loại tư duy của sự không chắc chắn
1.2.3 Ứng dụng thông tin không chắc chắn
Trên thực tế có rất nhiều lĩnh vực có sử dụng các thông tin không chắc chắn vào giải quyết vấn đề như:
- Sự không chắc chắn được tham gia vào tất cả các đo lường, chẳng hạn như đo khoảng cách, nhiệt độ, mức độ phụ thuộc vào công cụ hoặc kỹ thuật được sử dụng để làm cho đo lường Sự không chắc chắn được sử dụng trong khoa học và ký hiệu kỹ thuật Tương tự như vậy, không chắc chắn được truyền qua tính toán bằng giá trị tính toán có một số mức độ của sự không chắc chắn phụ thuộc vào những điều không chắc chắn của các giá trị đo và các công thức được được sử dụng trong tính toán
Không chắc chắn
(uncertainty)
Đối tượng không chắc chắn (objective uncertainty)
Chủ thể không chắc chắn (subjective uncertainty)
Nhận thức không chắc chắn (epistemological uncertainty)
Bản thế không chắc chắn (ontological uncertainty)
Đạo đức không chắc chắn
( moral uncertainty)
Quy tắc không chắc chắn (rule uncertainty)
Tri thức hướng dẫn quyết định (knowledge guided decision)
Lý trí hướng dẫn quyết định (Quasi-rational decision)
Quy tắc hướng dẫn quyết định (rule guided decision)
Trực giác hướng dẫn quyết định (intuition guiđe decision)
Trang 25- Sự không chắc chắn được sử dụng thiết kế các trò chơi, đáng chú ý nhất là trò chơi về cờ bạc, nơi mà “cơ hội” là trọng tâm trò chơi
- Trong khoa học, dự báo các sự kiện trong tương lai nên được hiểu là có một loạt các giá trị dự kiến, giá trị không chắc chắn
- Trong dự báo thời tiết hiện nay bao gồm dữ liệu về mức độ sự không chắc chắn trong thông tin để dự báo thời tiết
- Sự không chắc chắn thường là một yếu tố quan trọng trong kinh tế Theo nhà kinh tế Frank Knight, nó là khác nhau từ nguy cơ, nơi có một xác suất cụ thể được gán cho mỗi kết quả (như khi lật một đồng xu công bằng) Không chắc chắn liên quan đến một tình huống có xác suất không rõ, trong khi xác suất ước tính của các kết quả có thể không cần phải thêm với sự thống nhất
- Trong tinh thần kinh doanh: sản phẩm mới, dịch vụ, các công ty và thậm chí
cả thị trường thường được tạo ra trong trường hợp không dự toán xác suất
- Trong đánh giá rủi ro và quản lý rủi ro
1.2.4 Đo lường không chắc chắn
Đo lường không chắc chắn là một khái niệm trung tâm xác định số lượng phân tán hợp lý của thuộc tính đến một kết quả đo lường Như vậy không chắc chắn cũng có thể được gọi là một phép đo lỗi Trong cuộc sống hàng ngày, đo lường không chắc chắn thường là tiềm ẩn, trong khi đối với bất kỳ việc sử dụng chính thức, một tuyên bố
rõ ràng nào cũng không đảm bảo sự cần thiết của việc đo Việc đo lường không chắc chắn không đảm bảo cho các phép đo của nhiều dụng cụ đo lường khác (như cân, dao động, lực lượng thiết bị cảm, thước kẻ, nhiệt kế, v.v.) thường được trình bày trong đặc điểm kỹ thuật của nhà sản xuất
Trong đo lường, vật lý và kỹ thuật, sự không chắc chắn hoặc “lề” của lỗi đo lường được ghi bằng cách đưa ra một loạt các giá trị có khả năng gửi kèm theo các giá trị đích thực Điều này có thể được biểu hiện bằng các thanh lỗi trên một đồ thị, hoặc bằng các ký hiệu sau :
- đo giá trị ± không chắc chắn
- đo giá trị + không chắc chắn (- không chắc chắn)
- đo giá trị (không chắc chắn)
Trong thực tế thông thường, để đo lường sự không chắc chắn người ta thực hiện lặp đi lặp lại một cách đo lường với lượng thời gian đủ cần thiết để có được một ước lượng tốt về độ lệch chuẩn của các giá trị đo Sau đó, bất kỳ giá trị đo lường khác nào cũng có một không chắc chắn bằng độ lệch chuẩn
Trang 26Sự không chắc chắn có cơ sở xác suất và phản ánh kiến thức không đầy đủ của
số lượng Tất cả các phép đo có thể không chắc chắn và một giá trị đo được chỉ là hoàn thành nếu nó được đi kèm với một tuyên bố của sự không chắc chắn liên quan
1.2.5 Biểu diễn thông tin không chắc chắn
Luận văn trình bày việc biểu diễn thông tin theo hai hướng tiếp cận.Tiếp cận thứ nhất là tiếp cận thống kê, trong hướng tiếp cận này sẽ trình bày hai phương pháp:
lý thuyết xác suất Bayesian và lý thuyết về đại số hệ số chắc chắn Tiếp cận thứ hai là biểu diễn thông tin không chắc chắn theo logic mờ[4,7]
1.2.5.1 Tiếp cận thống kê đối với tính không chắc chắn
Ở đây, luận văn trình bày lý thuyết xác suất như là cơ sở toán học cho sự biểu diễn tri thức không chắc chắn
Người ta sử dụng số p, 0 p 1, là xác suất của một sự kiện hoặc xác suất của một mệnh đề để biểu diễn khả năng một sự kiện có thể xảy ra hoặc khả năng một mệnh đề có thể đúng
Trước hết, nhắc lại một số khái niệm cơ bản của lý thuyết xác suất
Sử dụng các chữ số in hoa A, B, C, … để chỉ các mệnh đề A và B không chắc chắn Xác suất của mệnh đề A sẽ được ký hiệu là Pr(A), khi đó xác suất của các mệnh
đề hợp thành, là các mệnh đề được tạo thành từ các mệnh đề khác bằng cách sử dụng các kết nối logic: và (), hoặc (), phủ định ()
Pr(A) là xác suất để mệnh đề A sai
Pr(A B) là xác suất để cả hai mệnh đề A và B đều đúng, ký hiệu xác suất này là Pr(A, B)
Pr(A B) là xác suất để mệnh đề A hoặc mệnh đề B là đúng
Khi sử dụng mô hình xác suất để biểu diễn tri thức không chắc chắn, thường là bằng thực nghiệm, bằng sự hiểu biết và bằng các kinh nghiệm tích luỹ được xác định trước được một số xác suất nào đó Sau này khi được biết các thông tin mới (các bằng chứng), cần tính xác suất của các mệnh đề được hỏi
Trước hết, cần đưa ra một số ký hiệu, giả sử A, B, C, D, E là các mệnh đề Trong các biểu thức sau, vế trái là một cách viết khác của vế phải
Pr(A, B, C) = Pr(A B C)
Pr(A, B| C) = Pr(A B |C)
Pr(A |B, C) = Pr(A |B C )
Pr(A, B, C |D, E) = Pr(A B C| D E)
Trang 27Khi sử dụng mô hình xác suất để biểu diễn tri thức không chắc chắn trong một lĩnh vực ứng dụng nào đó, người ta đưa vào một tập biến ngẫu nhiên {X1, X2, …, Xn} Mỗi Xi là một biến ngẫu nhiên rời rạc nhận giá trị trong một miền giá trị Ωi (I = 1, …, n) tương ứng Giả sử xi là một giá trị nào đó của Xi (I = 1,…, n) Mệnh đề (X1 = x1) (X1 = x1) … (X1 = x1) biểu diễn một trạng thái của thế giới hiện thực Xác suất của mệnh đề trên được ký hiệu là
Pr(X1 = x1, X2 = x2, …, Xn = xn) Hàm ứng mỗi trạng thái (X1 = x1) (X2 = x2) … (Xn = xn) với xác suất Pr(X1
= x1, X2 = x2,…, Xn = xn) được ký hiệu là Pr(X1, X2, …, Xn) Hàm này được gọi là phân phối xác suất nhân (joint probability distribution) của tập biến ngẫu nhiên {X1,
Pr(X = x, Y = y) =
z Z Pr(X = x,Y = y, Z = z)
trong đó x, y là các giá trị bất kỳ trong miền ΩX, ΩY tương ứng
Vậy có thể tính được phân phối xác suất của một biến, chẳng hạn Pr(X) theo công thức sau:
* Phân phối xác suất nhân
Các xác suất Pr(X1 = x1,…, Xn = xn) cần thoả mãn điều kiện sau:
Trang 28Từ hai công thức trên suy ra công thức sau:
Pr(X,Y,Z) = Pr(X|Y,Z) Pr(Y|Z) Pr(Z) Tổng quát:
Pr(X1, X2, …, Xn) = Pr(X1|X2, …, Xn) Pr(X2|X3, …, Xn) …
Pr(Xn-1|Xn) Pr(Xn) Công thức này gọi là luật tích Luật tích cho phép phân tích một xác suất nhân thành tích của các xác suất có điều kiện Cần lưu ý rằng, thứ tự của các biến trong phân phối xác suất nhân là không quan trọng Do đó, vì có n! hoán vị của n biến X1,
…, Xn nên sẽ có n! cách phân tích một xác suất kết hợp thành tích của các xác suất có điều kiện
* Phân loại xác suất
Theo tiêu chí đánh giá thời điểm xuất hiện của sự kiện, xác suất được chia thành
Trang 29P(e1|e2) = =
Để tính P(e1 | e2) theo công thức trên thì phải thực hiện các cuộc điều tra thống
kê trên một phạm vi rộng lớn mới cho được một xác suất chính xác Bayes đưa ra một công thức tính khác cho phép tính được P(e1 | e2) từ những kết quả thống kê đã có trước
đó hoặc những kết quả thống kê dễ đạt được hơn
* Công thức Bayes được phát biểu như sau:
Ký hiệu P(h | e) là xác suất khẳng định giả thuyết h đúng cho trước bằng chứng e
Công thức này nói rằng xác suất đúng của giả thuyết h khi quan sát được bằng chứng e, bằng với xác xuất cho rằng sẽ quan sát được bằng chứng e nếu giả thuyết h là đúng, nhân với xác suất tiên nghiệm của h, tất cả chia cho xác suất tiên nghiệm của việc quan sát được bằng chứng e
Điểm quan trọng của lý thuyết Bayes là các con số ở vế phải của công thức dễ dàng xác định, ít nhất là khi so sánh với vế trái
*Công thức Bayes tổng quát
Trong thực tế có nhiều giả thuyết cạnh tranh nhau, vì vậy công thức Bayes tổng quát nhất là:
P(hi | e) là xác suất mà hi đúng khi biết bằng chứng e
P(hi) là xác suất mà hi đúng tính trên tất cả các giả thuyết
P(e | hi) là xác suất quan sát được e khi hi đúng Thông thường, tất cả các P(e |
Trang 30lưu phân phối xác suất Pr{X1, X2, …, Xn} cần bảng n chiều, chỉ với Xi(i =1, …, n) là các biến ngẫu nhiên nhận giá trị boolean thì bảng cũng đã chứa 2n! Do đó cần xây dựng một mô hình thích hợp để biểu diễn tri thức và thông tin không chắc chắn Mô hình này phải thoả mãn hai điều kiện sau:
- Giảm bớt số các xác suất ban đầu cần biết trước;
- Đơn giản sự tính toán để tìm ra câu trả lời cho các câu hỏi
Mô hình được đề suất là mạng xác suất: mạng xác suất là một đồ thị có hướng, không có chu trình và thoả mãn các điều kiện sau:
- Các đỉnh của đồ thị là các biến ngẫu nhiên;
- Mỗi cung từ đỉnh X đến đỉnh Y biểu diễn sự ảnh hưởng trực tiếp của biến ngẫu nhiên X đến biến ngẫu nhiên Y (hay Y phụ thuộc trực tiếp vào X) Đỉnh X được gọi là đỉnh cha của Y;
- Tại một đỉnh được cho phân phối xác suất có điều kiện của đỉnh đó khi cho trước các cha của nó Các xác suất này biểu diễn hiệu quả mà các cha tác dụng vào nó
Chẳng hạn, nếu X1, X2, …, Xn là tất cả các đỉnh cha của đỉnh Y trong mạng thì tại đỉnh Y được cho phân phối xác suất có điều kiện Pr(Y|X1, X2, …, Xn)
Mô hình tổng quát hơn để biểu diễn vấn đề quyết định là mạng quyết định (decision network hay còn gọi là influence diagram) Mạng quyết định là mở rộng của mạng xác suất bằng cách đưa thêm vào các đỉnh quyết định và các đỉnh lợi ích
* Lý thuyết về đại số hệ số chắc chắn Stanford
Lý thuyết về độ chắc chắn Stanford [7,13] đưa ra một số giả thiết đơn giản cho việc tạo ra các độ đo niềm tin và có một số quy tắc đơn giản tương đương cho việc kết hợp những niềm tin này khi chương trình tiến đến kết luận của nó Giả thiết thứ nhất là tách “niềm tin ủng hộ” ra khỏi “niềm tin chống lại” một quan hệ:
Gọi MB(H | E) là độ đo của niềm tin vào khả năng đúng của giả thuyết H, khi
có bằng chứng E
Trang 31Gọi MD(H | E) là độ đo của sự hoài nghi vào khả năng đúng của giả thuyết H, khi có bằng chứng E
Giá trị của các độ đo này chỉ rơi vào một trong hai trường hợp:
0 < MB(H | E) < 1 trong khi MD(H | E) = 0, hoặc: 0 < MD(H | E) < 1 trong khi MB(H | E) = 0
Hai độ đo này ràng buộc lẫn nhau ở chỗ một bằng chứng chỉ có thể hoặc là ủng hộ hoặc là chống lại một giả thuyết nào đó Đây là sự khác biệt quan trọng giữa lý thuyết chắc chắn và lý thuyết xác suất Ngay khi liên kết giữa các độ đo niềm tin và hoài nghi được thiết lặp xong, chúng được ràng buộc với nhau thêm một lần nữa bởi
hệ số chắc chắn CF:
CF (H | E) = MB(H | E) - MD(H | E) Như đã thảo luận ban đầu, có hai vấn đề không chắc chắn là dữ liệu và luật Vì vậy, ở đây ta cũng có 2 loại hệ số CF là hệ số chắc chắn cho dữ kiện (fact), và hệ số chắc chắn cho luật (rule) Để dễ phân biệt ta sử dụng ký hiệu CFf cho dữ kiện và CFr cho luật
* Các hệ số chắc chắn Stanford
Hệ số chắc chắn dành cho dữ kiện: dữ kiện ở đây bao gồm dữ liệu ban đầu,
dữ liệu suy luận được và kết luận (giả thuyết): CFf(fact) thuộc [-1,1]:
- CFf càng tiến về 1 thể hiện sự tin tưởng dữ kiện là đúng càng mạnh CFf tiến về -1 thể hiện sự tin tưởng dữ kiện là không đúng càng mạnh
- CFf có giá trị xung quanh 0 cho thấy tồn tại rất ít bằng cớ cho việc ủng
hộ hay chống lại dữ kiện Vì vậy, nếu lấy dữ liệu này đi suy luận thì độ chính xác sẽ rất thấp
Do đó, thường đưa ra một giới hạn (threshold) nhằm tránh việc suy luận với thông tin không chắc chắn như vậy (vd: 0.2) Nghĩa là nếu dữ kiện nào có CF nhỏ hơn giới hạn, ta sẽ không sử dụng trong quá trình suy luận
Hệ số chắc chắn dành cho luật: CFr(rule) thuộc [-1,1] : thể hiện sự tin tưởng của các chuyên gia vào độ tin cậy của luật
* Các quy tắc tính toán trên CF
Quy tắc kết hợp các CFf của các điều kiện:
Thông thường, một luật thường có tiền đề (vế trái) tạo thành từ những kết nối và/hoặc của nhiều điều kiện Khi một luật sinh được sử dụng, các CF liên kết với mỗi điều kiện của tiền đề sẽ được kết hợp với nhau để tạo ra một độ đo chắc chắn cho toàn
bộ tiền đề (toàn bộ vế trái của luật) theo công thức sau:
CF ( ĐK1 And ĐK2) = Min[CF(ĐK1), CF(ĐK2)]
Trang 32CF (ĐK1 Or ĐK2) = Max[CF(ĐK1), CF(ĐK2)]
* Phương pháp suy luận với thông tin không chắc chắn
Với các thông tin chắc chắn, các thủ tục suy diễn thường tuân theo mô hình suy luận sử dụng trong phép tính vị từ: từ các tiền đề đúng đắn, các luật suy diễn vững chắc sinh ra những kết luận mới, đảm bảo là đúng đắn Tuy nhiên, trong thực tế, có rất nhiều tình huống chúng ta phải rút ra những kết luận tốt từ những bằng chứng được xác định nghèo nàn và không chắc chắn thông qua việc sử dụng những suy diễn không vững chắc
Như vậy, ở đây có hai loại thông tin không chắc chắn: một là dữ liệu ban đầu được cho là không chắc chắn, không đủ, không đáng tin cậy,… hai là các luật sử dụng
để suy luận không hợp logic, suy luận ngược từ kết luận về điều kiện, hay có thể gọi là suy luận theo kiểu phỏng đoán
Suy luận phỏng đoán thường được ứng dụng trong thực tế để tìm hiểu các hiện tượng xảy ra, ví dụ:
If hàng hóa áo sơ mi nam bán không đạt chỉ tiêu Then chỉ tiêu quá cao hoặc thị hiếu đã thay đổi;
Đây là một phỏng đoán từ triệu chứng quan sát được suy ngược trở lại nguyên nhân của chúng, nên gọi là luật suy diễn không đúng đắn (unsound inference rule) vì cũng có thể là nhân viên bán hàng làm việc không hiệu quả
1.2.5.2 Tiếp cận theo hướng logic mờ
Lý thuyết tập mờ là một công cụ toán học chính xác để mô tả các thông tin không chính xác, mang tính nhập nhằng, mờ (vagueness, ambiguity)
Từ bài báo khởi đầu về lý thuyết tập mờ của Lofti A Zadeh “Fuzzy sets”, công bố năm 1965, lý thuyết tập mờ và logic mờ đã phát triển mạnh mẽ ở Mỹ, Tây Âu và Nhật Bản Từ giữa 1970 tới nay, với sự nhạy bén với các kỹ thuật mới, các nhà nghiên cứu Nhật Bản là những người đi tiên phong trong việc ứng dụng các kỹ thuật mờ Họ đã cấp hàng nghìn bằng sáng chế về các ứng dụng của tập mờ và lôgic mờ Họ đã đưa ra nhiều sản phẩm công nghiệp được bán khắp thế giới.Ví dụ, máy giặt mờ đã sử dụng các bộ cảm nhận tinh xảo để dò ra khối lượng, màu sắc và độ bẩn của quần áo và sử dụng bộ vi sử lý
mờ để tự động điều khiển quá trình giặt [4, 7]
Lý thuyết của Zadeh biểu diễn tính mờ hay tính thiếu chính xác trong các phát biểu (như ở mục trên) theo cách định lượng bằng cách đưa ra một hàm tư cách thành viên tập hợp (set membership function) nhận giá trị thực giữa 0 và 1
* Khái niệm về tập mờ:
Cho S là một tập hợp và x là một phần tử của tập hợp đó Một tập con mờ F của
S được định nghĩa bởi một hàm thành viên μF(x) đo “mức độ” mà theo đó x thuộc về tập
Trang 33F Hàm A được gọi là hàm thuộc (hoặc hàm đặc trưng) của tập mờ A còn A(x) được gọi
là mức độ thuộc của x vào tập mờ A Trong đó, 0 ≤ μF(x) ≤ 1
Khi μF(x) = 0 nghĩa là x hoàn toàn không thuộc tập F
Khi μF(x) = 1 nghĩa là x thuộc F hoàn toàn
Nếu μF(x) = 0 hoặc 1 thì tập F được xem là “giòn”
Như vậy tập mờ là sự tổng quát hoá tập rõ bằng cách cho phép hàm thuộc lấy giá trị bất kỳ trong khoảng [0,1], trong khi hàm thuộc của tập rõ chỉ lấy hai giá trị 0 hoặc 1
Người ta biểu diễn tập mờ A trong vũ trụ U bởi tập tất cả các cặp phần tử và mức
độ thuộc của nó: A = {(x, A(x))| x U}
Như vậy
- Các tập mờ được đưa ra để biểu diễn các tính chất không chính xác, không
rõ ràng, mờ, ví dụ như “ bán tốt”, “ nhân viên chuyên cần”…
- Khái niệm tập mờ là một khái niệm toán học hoàn toàn chính xác: một tập
mờ trong vũ trụ U là một hàm xác định trên U và nhận giá trị trong đoạn [0,1] Các tập rõ
là tập mờ, hàm thuộc của tập rõ chỉ nhận giá trị 1 hoặc 0 Khấi niệm tập mờ là sự tổng quát hoá khái niệm tập rõ
* Một số khái niệm cơ bản liên quan đến tập mờ
Giả sử A là tập mờ trên vũ trụ U
Giá đỡ của tập mờ A, ký hiệu là supp(A), là một tập bao gồm tất cả các phần tử x
U có mức độ thuộc vào tập mờ A lớn hơn 0, tức là
Supp(A) = { x A | A(x) > 0}
Nhân của tập mờ A là một tập rõ bao gồm tất cả các phần tử x U sao cho A(x)
= 1 Còn biên của tập mờ A sẽ gồm tất cả các x U sao cho 0< A(x) < 1
Độ cao của một tập mờ A, ký hiệu là height(A), được xác định là cận trên đúng của các A(x) với x chạy trên vũ trụ U, tức là
Height(A) =
U
x A
x Sup
) (
Trang 34µ(x)
1
x Nhân
Hình 5: Giá đỡ, nhân và biên của tập mờ
Luật mờ
Một luật mờ là một biểu thức if- then được phát biểu ở dạng ngôn ngữ tự nhiên
thể hiện sự phụ thuộc nhân quả giữa các biến
Ví dụ : if mẫu hàng là đẹp và giá là rẻ then mua hàng nhiều
Trong đó: - „mẫu hàng‟, „giá ‟ và „mua hàng ‟ là các biến
- „đẹp‟, „rẻ‟, „nhiều‟ là các giá trị hay chính là các tập mờ
Thủ tục ra quyết định mờ
Để hệ thống mờ có thể suy luận bằng các luật mờ và đưa ra kết luận từ các số liệu chính xác ở đầu vào, hệ thống thực hiện 3 bước:
1 Mờ hóa: Tính toán các giá trị mờ từ các giá trị chính xác ở đầu vào
2 Suy luận mờ: Áp dụng tất cả các luật mờ có thể áp dụng để tính ra giá trị
mờ cho kếtluận, sau đó kết hợp các kết quả đầu ra
3 Phi mờ hóa: Xác định giá trị chính xác từ kết quả mờ có được ở bước 2 Có
nhiều kỹ thuật phi mờ hóa có thể áp dụng được, phương pháp thông dụng nhất là
phương pháp trọng tâm (centriod method)
1.3 Kết luận chương 1
Trong chương này, luận văn trình bày tổng quan về cây quyết định và thông tin không chắc chắn, là cơ sở để nghiên cứu, tìm hiểu các ứng dụng mô hình cây quyết định phục vụ quá trình ra quyết định với thông tin không chắc chắn ở các chương sau
Có nhiều tiếp cận đã được giới thiệu nhằm tạo ra hệ thống có thể suy luận trên
Trang 35những thông tin không chắc chắn hoặc không đầy đủ để đưa ra các kết luận hữu ích Trong đó có lý thuyết về cây quyết định Một cây quyết định là một công cụ hỗ trợ quyết định sử dụng một cây như biểu đồ hoặc là một mô hình của các quyết định và hậu quả có thể, bao gồm cả cơ hội kết quả sự kiện, chi phí tài nguyên, và tiện ích, giúp biến một biểu diễn dữ liệu phức tạp thành một cấu trúc đơn giản
Có thể sử dụng công thức Bayes để tính xác suất của một giả thuyết khi dữ liệu thuộc tính của cây quyết định là thông tin không chắc chắn Luật Bayes dựa trên lý thuyết xác suất hình thức cho phép sử dụng tri thức về nguyên nhân để suy ra kết luận
Lý thuyết về yếu tố chắc chắn Standford đưa ra khái niệm hệ số chắc chắn CF cho phép các chuyên gia kết hợp những niềm tin của mình vào dữ liệu và các luật khi phát biểu Đồng thời đại số chắc chắn Standford cũng cung cấp các quy tắc và công thức sử dụng để tính các giá trị CF cho các kết luận trong quá trình suy luận Hoặc có thể biểu diễn thông tin không chắc chắn dựa theo lý thuyết mờ Lý thuyết mờ đưa ra khái niệm tập mờ và hàm thành viên thể hiện mức độ một thành viên thuộc vào tập mờ
Để ra quyết định với thông tin không chắc chắn trong lập kế hoạch sản xuất kinh doanh doanh nghiệp bằng việc ứng dụng cây quyết định, các chương tiếp theo sẽ tìm hiểu về công cụ hỗ trợ xây dựng cây quyết định và ứng dụng của nó với nội dung việc lập kế hoạch sản xuất kinh doanh trong doanh nghiệp
Trang 36CHƯƠNG 2 CÔNG CỤ HỖ TRỢ XÂY DỰNG MÔ HÌNH CÂY QUYẾT ĐỊNH VÀ KẾ
HOẠCH SẢN XUẤT KINH DOANH DOANH NGHIỆP
Trong chương này, luận văn trước hết giới thiệu vấn đề ra quyết định với thông
tin không chắc chắn, ở đây chủ yếu là ra quyết định trong lập kế hoạch sản xuất kinh
doanh bằng ứng dụng cây quyết định Để có thể xây dựng một ứng dụng của cây quyết
định, chương này đã khảo cứu công cụ hỗ trợ, cụ thể là phần mềm PrecisionTree5.7,
một Add-in trên Micsoft Excel, đồng thời trình bày một cách khá hệ thống lý thuyết
của quá trình lập kế hoạch sản xuất kinh doanh trong doanh nghiệp cũng như một số
nội dung chủ yếu cần được ra quyết định trong quá trình này
2.1 Ra quyết định với thông tin không chắc chắn bằng ứng dụng mô hình cây
quyết định
2.1.1 Khái niệm về ra quyết định
Ra quyết định ở một quá trình lựa chọn có ý thức giữa hai hoặc nhiều phương
án để chọn ra một phương án và phương án này sẽ tạo ra được một kết quả mong
muốn trong các điều kiện ràng buộc đã biết[2,5]
Ra quyết định liên quan đến giải quyết vấn đề và giải quyết vấn đề cần phải ra
quyết định Vì vậy không cần thiết phải tách hai thuật ngữ này Nhà quản trị luôn luôn
ra quyết định, và ra quyết định là một trong những kỹ năng chủ yếu của nhà quản trị
Chất lượng và kết quả của quyết định có khả năng ảnh hưởng tích cực hoặc tiêu cực
đến nhân viên và hoạt động sản xuất kinh doanh của doanh nghiệp
2.1.2 Phân loại quyết định
Theo tiêu chí thời gian cần thiết để ra quyết định có thể phân thành 3 loại sau
- Quyết định theo chuẩn : các quyết định có tính hằng ngày, dựa vào qui trình có
sẵn, đã hình thành tiền lệ
- Quyết định cấp thời: Quyết định ngay khi có tình huống xảy ra
- Quyết định có chiều sâu: cần suy nghĩ, ra kế hoạch
* Quyết định theo chuẩn
Quyết định theo chuẩn bao gồm những quyết định hàng ngày theo lệ thường và
có tính chất lặp đi lặp lại Giải pháp cho những quyết định loại này thường là những
thủ tục, luật lệ và chính sách đã được quy định sẵn Quyết định loại này tương đối đơn
giản do đặc tính lặp đi lặp lại của chúng
* Quyết định cấp thời
Trang 37Tình huống của quyết định cấp thời cho phép rất ít thời gian để hoạch định hoặc lôi kéo người khác vào quyết định
Quyết định cấp thời là những quyết định đòi hỏi tác động nhanh và chính xác và cần phải được thực hiện gần như tức thời Đây là loại quyết định thường nảy sinh bất ngờ không được báo trước và đòi hỏi phải chú ý tức thời và trọn vẹn
* Quyết định có chiều sâu
Quyết định có chiều sâu thường không phải là những quyết định có thể giải quyết ngay và đòi hỏi phải có kế hoạch tập trung, thảo luận và suy xét Đây là loại quyết định thường liên quan đến việc thiết lập định hướng hoạt động hoặc thực hiện các thay đổi Chúng cũng là những quyết định gây ra nhiều tranh luận, bất đồng và xung đột Những quyết định có chiều sâu thường đòi hỏi nhiều thời gian và những thông tin đầu vào đặc biệt Điểm thuận lợi đối với quyết định loại này là có nhiều phương án và kế hoạch khác nhau để lựa chọn
Quyết định có chiều sâu bao gồm quá trình chọn lọc, thích ứng, và sáng tạo hoặc đổi mới Việc chọn lọc từ những phương án của quyết định cho phép đạt được sự thích hợp tốt nhất giữa quyết định sẽ được thực hiện và một số giải pháp đã được đem thực nghiệm
Quyết định có chiều sâu là loại quyết định có thể làm gia tăng (hoặc làm giảm giá trị) hình ảnh và tính hiệu quả về mặt quản trị
2.1.3 Ra quyết định trong quản lý
Ra quyết định ở một quá trình lựa chọn có ý thức giữa hai hoặc nhiều phương
án để chọn ra một phương án và phương án này sẽ tạo ra được kết quả mong muốn trong các điều kiện ràng buộc đã biết [2] :
- Người ra quyết định có mục tiêu cụ thể
- Tất cả các phương án có thể có đều được xác định đầy đủ
- Sự ưu tiên của người ra quyết định cần phải rõ ràng, cần lượng hóa các tiêu chuẩn của các phương án và xếp hạng các tiêu chuẩn theo thứ tự ưu tiên của người ra quyết định
- Sự ưu tiên của người ra quyết định là không thay đổi trong quá trình ra quyết định, nghĩa là các tiêu chuẩn và trọng số của các tiêu chuẩn là không đổi
- Không có sự hạn chế về thời gian và chi phí, nghĩa là có đủ điều kiện để thu nhập đầy đủ thông tin trước khi ra quyết định
- Sự lựa chọn cuối cùng sẽ là tối ưu mục tiêu mong muốn
Lưu ý rằng, nếu chỉ có một giải pháp để giải quyết vấn đề thì không phải là bài toán ra quyết định Và cũng cần lưu ý rằng, phương án "không làm gì cả" cũng là một phương án, đôi khi đó lại là phương án được chọn
Trang 38Loại vấn đề mà người ra quyết định gặp phải là một yếu tố quan trọng trong quá trình ra quyết định Ra quyết định trong quản lý được phân loại dựa trên hai cơ sở : Cấu trúc của vấn đề và tính chất của vấn đề
* Ra quyết định theo cấu trúc của vấn đề:
Theo cấu trúc của vấn đề có thể chia vấn đề làm hai loại:
- Vấn đề có cấu trúc tốt : Khi mục tiêu được xác định rõ ràng, thông tin đầy đủ,
bài toán có dạng quen thuộc
- Vấn đề có cấu trúc kém: Dạng bài toán mới mẽ, thông tin không đầy đủ,
không rõ ràng
Thông thường, các vấn đề có cấu trúc tốt có thể được phân quyền cho các nhà quản lý cấp dưới ra quyết định theo những tiêu chuẩn và các hướng dẫn đã được lập sẵn Còn các nhà quản lý cấp cao trong tổ chức sẽ dành nhiều thời gian cho các vấn đề
có cấu trúc kém
Do vậy tương ứng với hai loại vấn đề sẽ có hai loại ra quyết định: Ra quyết định theo chương trình và ra quyết định không theo chương trình
* Ra quyết định theo chương trình
Nhằm giải quyết các bài toán cấu trúc tốt, lặp đi lặp lại, các phương án hầu như
có sẵn, lời giải thường dựa trên các kinh nghiệm Thường để giải quyết bài toán dạng này, các nhà quản lý lập ra các thủ tục, luật hay chính sách :
- Thủ tục (procedure): Bao gồm một chuỗi các bước có liên quan nhau
mà người ra quyết định có thể sử dụng để xử lý các bài toán cấu trúc tốt
- Luật (Rule): Là phát biểu cụ thể hướng dẫn người ra quyết định nên làm điều
gì và không nên làm điều gì
- Chính sách (Policy): Là các hướng dẫn để định hướng cho người ra quyết định trong việc giải quyết vấn đề Khác với luật, chính sách thường là những khái niệm chung chung để cho người ra quyết định tham khảo hơn là những điều buộc người ra quyết định phải làm
* Ra quyết định không theo chương trình:
Nhằm giải quyết các bài toán cấu trúc kém, các vấn đề mới, đơn chiếc không lặp đi lặp lại, thông tin không rõ ràng
Trong thực tế có nhiều bài toán ở dạng trung gian giữa hai loại vấn đề trên
* Ra quyết định theo tính chất của vấn đề
Theo tính chất của vấn đề, có thể chia quyết định làm ba loại :
- Ra quyết định trong điều kiện chắc chắn (cetainty): Khi ra quyết định, đã biết chắc chắn trạng thái nào sẽ xảy ra, do đó sẽ dễ dàng và nhanh chóng ra quyết định
Trang 39- Ra quyết định trong điều kiện rủi ro (risk): Khi ra quyết định đã biết được xác suất xảy ra của mỗi trạng thái
- Ra quyết định trong điều kiện không chắc chắn (uncertainty): Khi ra quyết định, không biết được xác suất xảy ra của mỗi trạng thái hoặc không biết được các dữ liệu liên quan đến các vấn đề cần giải quyết
2.1.4 Quá trình ra quyết định của nhà quản trị doanh nghiệp
Quá trình ra quyết định là quá trình trong đó đòi hỏi phải có sự lựa chọn một trong hai hay nhiều khả năng Quá trình này có liên quan đến tất cả các công việc của nhà quản trị trong doanh nghiệp Thông thường, quá trình ra quyết định bao gồm các bước sau [2, 5] :
Bước 1: Xác định nhu cầu ra quyết định
Trước hết cần xem xét sự cần thiết phải ra quyết định, tức là thực sự có một vấn
đề cần giải quyết, đòi hỏi phải ra quyết định phù hợp
Bước 2: Chuẩn bị các căn cứ ra quyết định:
Trước khi ra quyết định , người quản lý cần phải xác định các căn cứ , tiêu thức cần thiết cho việc ra quyết định Các căn cú tiêu chuẩn này có mức độ quan trọng khác nhau trong việc ra quyết định , do đó nên xác định mức độ ưu tiên của từng căn cứ , hoặc tiêu thức của quyết định
Bước 3: Dự kiến các phương án quyết định và lựa chọn quyết định hợp lý
Trong bước này hình thành các phương án quyết định sơ bộ trình bày dưới dạng kiến nghị Cần xem xét kỹ lưỡng mọi phương án lựa chọn , trước hết nên sử dụng những kinh nghiệm đúc kết được, khi giải quyết những vấn đề tương tự
Một khi các phương ác được đưa ra thì việc tiếp theo là phải đánh giá và lựa chọn phương án quyết định hợp lý nhất , có thể dùng phương pháp phân tích và trực giác của nhà quản trị để lựa chọn lần cuối , chỉ nên để lại những phương án quyết định thiết thực nhất, bởi vì, số lượng các phương án càng nhiều thì càng khó phân tích, đánh giá và lựa chọn quyết định hợp lý
Vấn đề hợp lý ở đây liên quan tới một số sự lựa chọn nhất định nhằm đạt tới một giá trị tối đa Như vậy, để ra được một quyết định hợp lý đòi hỏi nhà quản trị có đủ cơ sở khách quan và hợp lý, phải có một mục tiêu rõ ràng và lựa chọn một khả năng
sẽ mang lại lợi ích tối đa cho mục tiêu
Bước 4: Ra quyết định chính thức
Sau khi lựa chọn , nhà quản trị trực tiếp đưa ra quyết định chính thức và chịu trách nhiệm trực tiếp về quyết định đó
Trước hết, quyết định cần được nêu thành mệnh lệnh hay chỉ t hị, để nó có hiệu lực của một văn bản hành chính trong tổ chức Trong văn bản quyết định không chỉ dự
Trang 40tính làm cái gì mà còn phải xác định rõ ai làm , ở đâu, khi nào làm và làm bằng cách nào, ai kiểm tra việc thực hiệ n quyết đ ịnh, khi nào kiểm tra và đánh giá như thế nào ? Tất cả những điều đó tạo thành tiền đề cần thiết cho việc tổ chức thực hiện quyết định
Bước 5: Quyết định phải được truyền đạt đến người thực hiện và tổ chức thực
hiện quyết định
Sau khi quyết định được đưa ra thì phải được phổ biến hoặc giải thích ý nghĩa
và tầm quan trọng của quyết định đã đề ra , những kết quả có thể đạt được của các quyết định ấy Sau đó vạch ra chương trình thực hiện quyết định này
Việc tổ chức thực hiện quyết định phải xuất phát từ việc quy định rõ giới hạn hiệu lực của quyết định và phải theo đúng giới hạn đó trong quá trình thực hiện Việc tổ chức thực hiện cần năng động và tập trung được lực lượng tham gia chủ yếu
Bước 6: Kiểm tra việc thực hiện và điều chỉnh quyết định
Kiểm tra tình hình thực hi ện quyết định có vai trò quan trọng đối với hiệu lực
và hiệu quả của quyết định trong tổ chức
Tổ chức tốt việc kiểm tra thực hiện sẽ đem lại cho quá trình thực hiện quyết định sự linh hoạt cần thiết Mục đích của việc kiểm tra không chỉ là kịp thời phát hiện những chỗ sai lệch so với kế h oạch thực hiện đã định , mà còn để kịp đề ra những biện pháp khắc phục những sai lệch hoặc ngăn ngừa việc xẩy ra sai lệch
2.1.5 Ra quyết định trong điều kiện không chắc chắn
2.1.5.1 Bài toán ra quyết định:
Ví du:
Ông A là Giám đốc của công ty X muốn ra quyết định về một vấn đề sản xuất,
ông lần lượt thực hiện sáu bước như sau :
- Bước 1: Ông A nêu vấn đề có nên sản xuất một sản phẩm mới để tham gia thị
trường hay không?
- Bước 2: Ông A cho rằng có 3 phương án sản xuất là :
+ Phương án 1: lập 1 nhà máy có qui mô lớn để sản xuất sản phẩm
+ Phương án 2: lập 1 nhà máy có qui mô nhỏ để sản xuất sản phẩm