Xây dựng tập luật từ phân tích kỹ thuật

Một phần của tài liệu Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính (Trang 50)

3. Cấu trúc của luận văn

2.3Xây dựng tập luật từ phân tích kỹ thuật

Phân tích kỹ thuật tìm kiếm các mẫu, các xu thế và các hệ số khác trong các chuỗi giá, từ đó có thể dự đoán hiệu quả của trong tƣơng lai và sau đó đƣa ra quyết định mua hay bán dựa trên các hệ số này. Các hệ số này thƣờng có đƣợc từ các dữ liệu trong quá khứ theo một lý thuyết đặc biệt dựa trên kinh nghiệm. Mặc dù vẫn có những tranh cãi về hiệu quả của phân tích kỹ thuật, nhƣng nhiều nghiên cứu đã chỉ ra rằng phân tích kỹ thuật có khả năng dự báo tƣơng đối mạnh, hơn hẳn các chiến lƣợc mua- bán và các phƣơng pháp thống kê. Mục đích của mục này là từ những kiến thức của các chuyên gia trong lĩnh vực tài chính xây dựng nên một hệ thống thƣơng mại có hỗ trợ quyết định. Hệ thống dùng phân tích kỹ thuật nhƣ là đầu vào. Bốn chỉ số kỹ thuật đƣợc sử dụng cho việc dự báo là:

- Commodity Channel Index (CCI), - Relative Strength Index (RSI),

- Moving Average Convergence and Divergence (MACD) - Bollinger Band. Below.

2.3.1 Phân kỳ và hội tụ của đường trung bình di động

Công cụ chỉ báo MACD do Gernald Appel[10] phát triển, nó là một bộ tạo dao động đƣợc cải tiến dựa trên cách tiếp cận sự trung bình di chuyển đơn giản. Đƣờng MACD đƣợc tính bằng cách lấy hai đƣờng trung bình di chuyển mũ của giá đóng cửa

Đƣờng MACD tiêu chuẩn hình thành từ trung bình di động 12 ngày và trung bình di động 26 ngày.Thông thƣờng, đƣờng MACD 9 ngày đƣợc sử dụng nhƣ đƣờng so sánh. Giao của đƣờng MACD với đƣờng so sánh thƣờng dùng để chỉ ra tín hiệu mua-bán. Các luật cho MACD nhƣ sau:

1. IF MACD ở trên đƣờng tín hiệu THEN BUY. 2. IF MACD ở dƣới đƣờng tín hiệu THEN SELL.

Tuy nhiên giá trị của đƣờng MACD cũng dao động lên trên vào xuống dƣới đƣờng zero. Đó là nơi nó bắt đầu tƣơng đồng với một dao động. Tình trạng mua quá mức đƣợc thể hiện khi đƣờng này nằm trên đƣờng zero và ngƣợc lại nếu nó nằm dƣới đƣờng zero thì đó là tình trạng bán quá mức.

Ta có thể có luật sau:

1. IF MACD trên 0 THEN OVERBUY. 2. IF MACD dưới 0 THEN OVERSELL.

2.3.2 Chỉ số kênh giá hàng hoá - The Commodity Channel Index (CCI)

Chỉ số kênh giá hàng hoá đƣợc xây dựng bởi Donal R.Lamber[10] bằng cách so sánh giá cả hiện tại với trung bình di động trên một khoảng thời gian đƣợc chọn- thƣờng là 200 ngày. Sau đó chuẩn hoá giá trị dao động bằng cách sử dụng một số chia dựa trên độ lệch trung bình. Kết quả là, chỉ số CCI biến động trong một giới hạn không đổi từ cận dƣới -100 tới cận trên +100 (thỉnh thoảng có thể là -200 và +200). Các nhà phân tích kỹ thuật sử dụng chỉ số CCI nhƣ là dao động mua/bán quá mức (oversold/overbought). Khi CCI vƣợt trên +100 thì đƣợc xem là mua quá mức, tƣơng tự khi CCI dƣới -100 thì đƣợc xem là bán quá mức.

CCI đƣợc tính bằng cách sử dụng giá tiêu biểu (typical price-TP),đó là giá trị trung bình của các giá cao, thấp và đóng trên một giá ngày. Sau đó tính trung bình di động của giá tiêu biểu cho khoảng thời gian N (MATP). Tiếp theo, trung bình sai (MD) đƣợc tính bằng cách lấy trung bình giữa giá tiêu biểu trong khoảng thời gian N- ngày và giá tiêu biểu khoảng thời gian mới nhất đã đƣợc làm trơn. Cuối cùng CCI đƣợc tính bằng công thức: [8] MD c MATP TP CCI    3.2

Trong đó hằng số c thường được chọn là 0.015. Các luật phân lớp thị trường với chỉ số CCI như sau:

1. IF CCI tăng trên 100 THEN BULLISH. 2. IF CCI giảm dưới 100 THEN BEARISH. 3. IF CCI tăng trên -100 THEN BULLISH 4. IF CCI giảm dưới -100 THEN BEARISH.

2.3.3 Chỉ số cường độ tương đối - Relative Strength Index (RSI)

Chỉ số cƣờng độ tƣơng đối đƣợc phát triển bởi J. Welles Wilder, cũng đƣợc dùng nhƣ dao động mua/bán quá mức. Công thức tính nhƣ sau: [8]

' 1 100 RS RS RSI   3.3

trong đó RS trung bình giá đóng cửa tăng và trung bình giá đóng cửa giảm trong khoảng thời gian N. Công thức tính RSI cho ta một khoảng giới hạn từ 0 đến 100, nó giải quyết vấn đề của những dịch chuyển bất thƣờng và giải quyết nhu cầu về một biên độ giới hạn trên và dƣới không đổi.

RSI biểu diễn mặt chia đứng từ 0 tới 100. Những dịch chuyển ở trên mức 70 đƣợc xem là mua quá mức trong khi tình trạng bán quá mức là những dịch chuyển dƣới 30. Các luật phân lớp cho chỉ số này nhƣ sau:

1. IF RSI tăng trên 70 THEN BULLISH. 2. IF RSI giảm dưới 70 THEN BEARISH. 3. IF RSI tăng trên 50 THEN BULLISH. 4. IF RSI giảm dưới 50 THEN BEARISH. 5. IF RSI tăng trên 30 THEN BULLISH. 6. IF RSI giảm dưới 30 THEN BEARISH.

2.3.4 Dải băng Bollinger

Dải băng Bollinger so sánh các mức giá không ổn định và tƣơng đối qua một khoảng thời gian. Tính không ổn định đƣợc đo nhƣ dịch chuyển chuẩn của giá chứng khoán. Ba tín hiệu của chỉ tiêu kỹ thuật này tạo nên một dải trùm lên các chuỗi thời gian. Đƣờng giữa của dải Bollinger đƣợc tính bằng việc lấy đƣờng trung bình trƣợt (MA) của chuỗi giá. Các mức giá đƣợc xem là mua quá mức khi chúng đụng lên dải băng trên và đƣợc xem là bán quá mức nếu chúng đụng dải băng dƣới.

Các luật phân lớp thị trƣờng sử dụng dải Bollinger Bands nhƣ sau.

1. IF Price tăng trên đường Bollinger bên trên THEN BULLISH.

2. IF Price giảm xuống dưới đường Bollinger bên trên THEN BEARISH. 3. IF Price tăng lên trên đường Bollinger giữa THEN BULLISH.

4. IF Price giảm xuống dưới đường Bollinger giữa THEN BEARISH. 5. IF Price tăng lên trên đường Bollinger dưới THEN BULLISH.

6. IF Price giảm xuống dƣới đƣờng Bollinger dƣới THEN BEARISH.

2.4 Kết hợp phân tích kỹ thuật với logic mờ và mạng nơron

Hệ thống dựa trên các luật mờ đƣợc xây dựng ở mục trên. Nhìn chung các luật với ngƣỡng cứng đƣợc thay bởi các luật với ngƣỡng mờ. Hệ thống suy diễn mờ Mamdani sẽ thực hiện việc này. Đầu vào của hệ thống là các chỉ số kỹ thuật và rank của công ty, đầu ra của hệ thống sẽ là một tín hiệu mua hoặc bán và có thể là giữ. Hệ thống gồm một số mô đun đƣợc minh hoạ trong hình.

Hình 3-3 Hệ suy diễn mờ (adsbygoogle = window.adsbygoogle || []).push({});

2.4.1 Mô đun chỉ số kỹ thuật

Đầu vào của hệ thống là một chuỗi giá chứng khoán với tần suất tuần. Dữ liệu này đƣợc đƣa vào mô đun chỉ số kỹ thuật, sau đó tính toán các chỉ số nhƣ MACD, RSI, CCI, BB cho các chuỗi dữ liệu này. Các kiến thức chuyên gia sau đây liên quan tới các chỉ số kỹ thuật, chỉ số MACD là chỉ số quyết định cho việc mua và bán. Chỉ số RSI và CCI sử dụng để xác định mức độ mua bán, chẳng hạn mua mạnh, bán mạnh, hay đơn thuần chỉ là mua bán bình thƣờng. Ngoài ra, chúng ta còn sử dụng hạng của công ty để kết quả đƣợc chính xác hơn.

Các tham số cho các chỉ số kỹ thuật đƣợc xác định theo nguyên tắc mặc định trong phân tích kỹ thuật. Ví dụ với chỉ số MACD, 12 và 26 ngày đƣợc sử dụng nhƣ là di chuyển trung bình ngắn hạn và dài hạn. Chỉ số RSI sử dụng khoảng thời gian là 20, tƣơng tự với chỉ số CCI và có thêm c=0.015

Mô đun chỉ tiêu kỹ thuật

Đầu vào FIS mới Các chỉ số kỹ thuật Giá chứng khoán Hệ suy diễn mờ Tín hiệu Mua/Bán Luật Hạng (Rank)

2.4.2 Mô đun hội tụ

Mô đun này có nhiệm vụ chuyển các chỉ số kỹ thuật và hạng của công ty thành các biến đầu vào của hệ suy diễn mờ. Ví dụ sự khác biệt của tín hiệu MACD với tín hiệu so sánh đƣợc tính toán để sử dụng nhƣ là đầu vào của hệ suy diễn mờ. Các biến đầu vào cho hệ thống suy diễn mờ đƣợc tổng kết nhƣ sau:

Bảng 3-1 Miền giá trị của các tham số

Biến Ý nghĩa Miền giá trị

RANK Hạng của công ty [-1,1]

MACD Chỉ số MACD [-2,2]

RSI Chỉ số RSI tại thời điểm t [0,100] RSI1 Chỉ số RSI tại thời điểm t-1 [0,100] CCI Chỉ số CCI tại thời điểm t [-200,200] CCI1 Chỉ số CCI tại thời điểm t-1 [-200,200]

BB Chỉ số BB tại thời điểm t [0,100]

BB1 Chỉ số BB tại thời điểm t-1 [0,100]

2.4.3 Mô đun hệ suy diễn mờ (FIS)

Hệ suy diễn mờ lấy các dữ liệu đầu ra của mô đun hội tụ và sinh các tín hiệu mua bán dựa trên cá luật đƣợc định nghĩa bởi các luật cơ sở. Hệ thống là hệ Mamdani mờ. Các hàm membership Gaussian cũng đƣợc sử dụng ở cả dữ liệu đầu vào và dữ liệu đầu ra. Hai hàm thuộc đƣợc định nghĩa cho từng đầu vào. Đầu ra của hệ thống là một tín hiệu trong miền đƣợc chuẩn hoá, trên đó 4 tập mờ BÁN MẠNH (STRONG SELL), BÁN (SELL), MUA (BUY),MUA MẠNH (STRONG BUY) đƣợc định nghĩa. Việc phân hoạch miền của đầu ra đƣợc mô tả trong hình. Tín hiệu mua nhiều đƣợc sinh khi đầu ra gần 1.0 và tín hiệu bán ra nhiều đƣợc sinh khi đầu ra gần 0. Hệ thống sử dụng thuyết min-max. Toán tử min đƣợc sử dụng cho việc kết hợp các luật. Để phân lớp đầu ta thành một trong bốn điều kiện, đầu ra với độ thuộc lớn nhất đƣợc chọn. Nếu có nhiều giá trị đầu ra với cùng độ thuộc cực đại, giá trị đầu ra lớn nhất đƣợc sử dụng nhƣ là đầu ra đƣợc giải mờ.

Hình 3-4 Miền giá trị của đầu ra

2.4.4 Luật cơ sở

Luật cơ sở của hệ suy diễn mờ đƣợc khởi tạo theo những chỉ dẫn phân tích kỹ thuật cho các chỉ số đƣợc sử dụng trong mô hình. Trong đó MACD đƣợc sử dụng trong tất cả các luật. Sau đây là các luật mờ:

r1 = if (MACD is low) and

(RSI is high) and

(RSI1 is veryhigh) then trades is sell

r2 = if (MACD is low) and

(RSI is low) and

(RSI1 is high) then trades is strong_sell

r3 = if (MACD is high) and

(RSI is low) and

(RSI1 is low) then trades is strong_buy

r4 = if (MACD is high) and (RSI is verylow) and (RSI1 is verylow) then trades is sell

r5 = if (MACD is low) and (CCI is high) and (CCI1 is veryhigh) then trades is strong_sell (adsbygoogle = window.adsbygoogle || []).push({});

r6 = if (MACD is high) and (CCI is veryhigh) and (CCI1 is high) then trades is buy

r7 = if (MACD is low) and (CCI is verylow) and (CCI1 is low) then trades is sell

r8 = if (MACD is high) and (CCI is low) and (CCI1 is verylow) then trades is strong_buy

Ngoài ra chúng ta còn bổ sung thêm 4 tập luật dựa vào sự kết hợp mạng Nơron nhƣ sau:

//NN rules

r9 = if (RANK is verylow)and (MACD is low) then trades is strong_sell r10 = if (RANK is low)and(MACD is low) then trades is sell

r11 = if (RANK is high)and (MACD is high) then trades is buy

r12 = if (RANK is veryhigh)and (MACD is high) then trades is strong_buy

Kết luận

Chƣơng này đã đƣa ra mô hình phân tích rủi ro tài chính. Các bƣớc xây dựng mô hình đƣợc giới thiệu một cách khá chi tiết. Kết quả cuối cùng là một mô hình kết hợp giữa mạng nơron, phân tích kỹ thuật và logic mờ. Đây là mô hình đuợc dùng để xây dựng chƣơng trình đánh giá rủi ro tài chính và đƣa ra hỗ trợ quyết định trong đầu tƣ và kinh doanh chứng khoán.

Chương 4 - THỰC NGHIỆM VÀ ĐÁNH GIÁ

Chƣơng này thảo luận về các kết quả của các mô phỏng thực nghiệm. Mục 4.1 giới thiệu về dữ liệu đƣợc sử dụng trong thực nghiệm. Tiếp theo chúng tôi giới thiệu về quá trình thực nghiệm. Sau đó kết quả đƣợc trình bày và phân tích ở phần cuối cùng của chƣơng.

4.1 Dữ liệu dùng trong thực nghiệm

Nghiên cứu sử dụng dữ liệu tài chính trong quá khứ của các công ty đƣợc niêm yết trên sàn chứng khoán và đƣợc công khai trên mạng Internet. Để đảm bảo sự chính xác của mô hình, chúng tôi đã lấy dữ liệu của cả các công ty trong nƣớc và ngoài nƣớc. Dữ liệu tài chính trong nƣớc đƣợc thu thập ở các trang chứng khoán nhƣ: trung tâm giao dịch chứng khoán Hà Nội (www.hastc.org.vn), Sở giao dịch chứng khoán HCM (www.hsx.com), và một số trang khác nhƣ: www.vietstock.com, www.cafef.vn. Còn dữ liệu của các công ty nƣớc ngoài đƣợc thu thập ở sàn chứng khoán NewYork (NYSE), sàn NASDAQ, và đƣợc tải ở máy chủ dữ liệu tài chính của Yahoo (http://finance.yahoo.com)

Dữ liệu tài chính đƣợc sử dụng bao gồm các báo cáo tài chính nhƣ: bảng cân đối kế toán, báo cáo kết quả kinh doanh, báo cáo lƣu chuyển tiền tệ, ngoài ra còn có giá chứng khoán hàng ngày, giá mở cửa (OPEN), giá thấp( LOW), giá cao nhất (HIGH), giá đóng cửa (CLOSE). Với dữ liệu tài chính trong nƣớc, chúng tôi đã thu thập đƣợc của hơn 30 công ty trong khoảng thời gian từ năm 2001 tới hiện tại. Dữ liệu trƣớc quí 4 năm 2008 đƣợc dùng cho tập huấn luyện và kiểm tra. Dữ liệu trong quí 4 đƣợc dùng làm dữ liệu phân tích và dự báo. Ngoài ra chúng tôi còn thu nhập đƣợc dữ liệu tài chính của 30 công ty nƣớc ngoài nhƣ Microsoft, IBM, Intel….

Chƣơng trình mô phỏng mô hình cho phép chia tập dữ liệu huấn luyện theo các lựa chọn sau:

Về dữ liệu, có thể chọn: - Dữ liệu theo quí

- Dữ liệu theo năm

Hoặc chọn cả hai dữ liệu.

Để đảm bảo tính chính xác cao, chúng ta chỉ chọn sử dụng các dữ liệu theo quí. Về cách chia tập huấn luyện, có thể chọn:

- Không chia tập test: Có nghĩa là kết quả huấn luyện chỉ dựa vào tập huấn luyện mà không phụ thuộc vào tập test

- Chia theo ngày: các dữ liệu trƣớc ngày nào đó sẽ làm tập huấn luyện còn lại là tập kiểm tra

- Chia theo ngành: các công ty theo ngành nào đó mới đƣợc chọn làm tập huấn luyện

- Chia theo công ty: dữ liệu của một công ty nào đó đƣợc dùng làm tập huấn luyện.

4.2 Thiết lập tham số cho thực nghiệm

Việc chọn đƣợc bộ tham số tối ƣu cho mô hình là rất quan trọng. Nó ảnh hƣởng rất lớn tới việc đánh giá và dự báo rủi ro. Trong phần này chúng tôi trình bày cách thiết lập và sử dụng các tham số cho mô hình đánh giá rủi ro tài chính.

4.2.1 Các tham số của mạng nơron

Nhƣ đã giới thiệu ở chƣơng 3, các tham số của mạng nơron nhƣ sau: Kiến trúc mạng:

Chúng tôi sử dụng một mạng nơron đơn giản. Đó là mạng perceptron hai lớp. Lớp đầu tiên gồm một số lƣợng nút có thể sửa đổi. Lớp thứ hai chỉ gồm duy nhất một nút. Các nút ở lớp đầu tiên chính là các số liệu đặc trƣng trong các báo cáo tài chính. Đầu ra là hạng của công ty.

Hàm kích hoạt đƣợc sử dụng là hàm sigmoid trong khoảng [-1,1] (adsbygoogle = window.adsbygoogle || []).push({});

Thuật toán dùng để huấn luyện là thuật toán lan truyền ngƣợc (backpropagation).

Các tham số :

Việc khởi tạo trọng số mạng có thể là : - Khởi tạo ngẫu nhiên

- Khởi tạo tại giá trị bằng 0

Số lƣợng nút ẩn: chúng ta sử dùng số lƣợng nút ẩn là tuỳ ý, tuy nhiên số lƣợng nút ẩn càng lớn thì tốc độ huấn luyện càng lâu. Ở đây chúng ta sử dụng số lƣợng nút ẩn >10.

Tốc độ học (learning rate): có miền giá trị lớn hơn 0 và nhỏ hơn 1, dùng xác định tốc độ học.

Số vòng lặp tối đa: dùng để kết thúc quá trình học.

Sau đây là một số thực nghiệm trong việc chọn tham số và kết quả huấn luyện: Với việc huấn luyện với dữ liệu theo quí và dùng tất cả dữ liệu cho tập huấn luyện ta có kết quả huấn luyện:

Bảng 4-1 Thiết lập tham số mạng STT Số mẫu Số nhóm

Thiết lập Kết quả huấn luyện

Khởi tạo Số nút ẩn Tốc độ Số vòng lặp Micro Micro Recall Micro F1 Macro Macro Recall Macro F1 1 116 2 0 10 0.01 1000 0.647 0.647 0.418 0.670 0.784 0.525 2 116 2 0 10 0.01 1000 0.664 0.664 0.441 0.644 0.725 0.467 3 116 2 0 10 0.01 1000 0.664 0.664 0.441 0.676 0.696 0.471 4 116 2 0 10 0.01 1000 0.698 0.698 0.488 0.711 0.735 0.522 5 116 2 0 20 0.01 1000 0.784 0.784 0.615 0.788 0.788 0.620 6 116 2 0 100 0.01 1000 0.647 0.647 0.418 0.623 0.744 0.463 7 116 2 0 100 0.05 1000 0.672 0.672 0.452 0.691 0.760 0.525 8 116 2 0 10 0.001 1000 0.670 0.690 0.476 0.705 0.746 0.525 9 116 2 0 10 0.01 2000 0.768 0.768 0.590 0.770 0.770 0.591 10 116 2 0 100 0.01 2000 0.595 0.595 0.354 0.568 0.671 0.381

Một phần của tài liệu Nghiên cứu và ứng dụng một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính (Trang 50)