TỔNG QUAN HỌC MÁY (MACHINE LEARNING)
Lịch sử phát triển và mối quan hệ với các lĩnh vưc khác
Thuật ngữ học máy được đặt ra vào năm 1959 bởi Arthur Samuel , một nhân viên của IBM và là người tiên phong trong lĩnh vực trò chơi máy tính và trí tuệ nhân tạo Ngoài ra, máy tính tự dạy từ đồng nghĩa cũng được sử dụng trong khoảng thời gian này
Vào đầu những năm 1960, một "máy học" thử nghiệm với bộ nhớ băng đục lỗ , được gọi là Cybertron, đã được Công ty Raytheon phát triển để phân tích tín hiệu sonar, điện tâm đồ và mẫu giọng nói bằng cách sử dụng phương pháp học tăng cường thô sơ Nó được một người điều hành/giáo viên "đào tạo" lặp đi lặp lại để nhận ra các mẫu và được trang bị một nút " goof " để khiến nó đánh giá lại các quyết định không chính xác.Một cuốn sách tiêu biểu về nghiên cứu học máy trong những năm
1960 là cuốn sách về Máy học của Nilsson, chủ yếu đề cập đến học máy để phân loại mẫu.Mối quan tâm liên quan đến nhận dạng mẫu tiếp tục kéo dài đến những năm 1970, như được Duda và Hart mô tả vào năm 1973. Năm 1981, một báo cáo đã được đưa ra về việc sử dụng các chiến lược giảng dạy sao cho mạng thần kinh học cách nhận dạng 40 ký tự (26 chữ cái, 10 chữ số và 4 ký hiệu đặc biệt) từ một thiết bị đầu cuối máy tính Tom M Mitchell đã cung cấp một định nghĩa chính thức hơn, được trích dẫn rộng rãi về các thuật toán được nghiên cứu trong lĩnh vực máy học: "Một chương trình máy tính được cho là học hỏi từ trải nghiệm E đối với một số loại nhiệm vụ T và đo lường hiệu suất P nếu hiệu suất của nó ở các nhiệm vụ trong T , được đo bằng P , cải thiện theo kinh nghiệm
E " Định nghĩa này về các nhiệm vụ liên quan đến học máy đưa ra một định nghĩa hoạt động cơ bản hơn là xác định lĩnh vực này theo thuật ngữ nhận thức Điều này tuân theo đề xuất của Alan Turing trong bài báo của ông " Máy tính và trí thông minh”, trong đó câu hỏi “Máy móc có thể suy nghĩ không?” được thay thế bằng câu hỏi “Liệu máy móc có thể làm những gì chúng ta (với tư cách là thực thể có suy nghĩ) có thể làm?”
Học máy hiện đại có hai mục tiêu, một là phân loại dữ liệu dựa trên các mô hình đã được phát triển, mục đích khác là đưa ra dự đoán cho kết quả trong tương lai dựa trên các mô hình này Một thuật toán giả định cụ thể để phân loại dữ liệu có thể sử dụng tầm nhìn máy tính về nốt ruồi kết hợp với học có giám sát để huấn luyện nó phân loại nốt ruồi ung thư. Thuật toán học máy cho giao dịch chứng khoán có thể thông báo cho người giao dịch về những dự đoán tiềm năng trong tương lai.
Hình 2 Lịch sử phát triển của học máy
Các loại giải thuật
Các thuật toán học máy được phân loại theo kết quả mong muốn của thuật toán Các loại thuật toán thường dùng bao gồm:
Học có giám sát—trong đó, thuật toán tạo ra một hàm ánh xạ dữ liệu vào tới kết quả mong muốn Một phát biểu chuẩn về một việc học có giám sát là bài toán phân loại: chương trình cần học (cách xấp xỉ biểu hiện của) một hàm ánh xạ một vector tới một vài lớp bằng cách xem xét một số mẫu dữ liệu - kết quả của hàm đó.
Học không giám sát—mô hình hóa một tập dữ liệu, không có sẵn các ví dụ đã được gắn nhãn.
Học nửa giám sát—kết hợp các ví dụ có gắn nhãn và không gắn nhãn để sinh một hàm hoặc một bộ phân loại thích hợp.
Học tăng cường—trong đó, thuật toán học một chính sách hành động tùy theo các quan sát về thế giới Mỗi hành động đều có tác động tới môi trường, và môi trường cung cấp thông tin phản hồi để hướng dẫn cho thuật toán của quá trình học.
Chuyển đổi—tương tự học có giám sát nhưng không xây dựng hàm một cách rõ ràng Thay vì thế, cố gắng đoán kết quả mới dựa vào các dữ liệu huấn luyện, kết quả huấn luyện, và dữ liệu thử nghiệm có sẵn trong quá trình huấn luyện.
Học cách học—trong đó thuật toán học thiên kiến quy nạp của chính mình, dựa theo các kinh nghiệm đã gặp.
HỒI QUY TUYẾN TÍNH
Tổng quan về hồi quy tuyến tính
2.1.1 Giới thiệu về hồi quy tuyến tính
Hồi quy tuyến tính là một phương pháp thống kê để hồi quy dữ liệu với biến phụ thuộc có giá trị liên tục trong khi các biến độc lập có thể có một trong hai giá trị liên tục hoặc là giá trị phân loại Nói cách khác "Hồi quy tuyến tính" là một phương pháp để dự đoán biến phụ thuộc (Y) dựa trên giá trị của biến độc lập (X) Nó có thể được sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục Ví dụ, dự đoán giao thông ở một cửa hàng bán lẻ, dự đoán thời gian người dùng dừng lại một trang nào đó hoặc số trang đã truy cập vào một website nào đó v.v Hồi quy tuyến tính là một kỹ thuật phân tích dữ liệu dự đoán giá trị của dữ liệu không xác định bằng cách sử dụng một giá trị dữ liệu liên quan và đã biết khác Nó mô hình toán học biến không xác định hoặc phụ thuộc và biến đã biết hoặc độc lập như một phương trình tuyến tính Ví dụ, giả sử rằng bạn có dữ liệu về chi phí và thu nhập của bạn trong năm ngoái Kỹ thuật hồi quy tuyến tính phân tích dữ liệu này và xác định rằng chi phí của bạn là một nửa thu nhập của bạn Sau đó, họ tính toán một chi phí trong tương lai không rõ bằng cách giảm một nửa thu nhập được biết đến trong tương lai.
Các mô hình hồi quy tuyến tính tương đối đơn giản và cung cấp một công thức toán học dễ giải thích để đưa ra các dự đoán Hồi quy tuyến tính là một kỹ thuật thống kê được sử dụng từ lâu và áp dụng dễ dàng cho phần mềm và tính toán Các doanh nghiệp sử dụng nó để chuyển đổi dữ liệu thô một cách đáng tin cậy và có thể dự đoán được thành nghiệp vụ thông minh và thông tin chuyên sâu hữu ích Các nhà khoa học trong nhiều lĩnh vực, bao gồm sinh học và các ngành khoa học hành vi, môi trường, và xã hội, sử dụng hồi quy tuyến tính để tiến hành phân tích dữ liệu sơ bộ và dự đoán các xu hướng tương lai Nhiều phương pháp khoa học dữ liệu, chẳng hạn như máy học và trí tuệ nhân tạo, sử dụng hồi quy tuyến tính để giải quyết các bài toán phức tạp.
Về bản chất, một kỹ thuật hồi quy tuyến tính đơn giản cố gắng vẽ một đồ thị đường giữa hai biến dữ liệu, x và y Là biến đô •c lâ •p, x được vẽ dọc theo trục hoành Các biến độc lập còn được gọi là biến giải thích hoặc biến dự báo Biến phụ thuô •c, y, được vẽ trên trục tung , cũng có thể tham chiếu các giá trị y như các biến phản hồi hoă •c các biến dự báo. Trong máy học, các chương trình máy tính gọi là thuật toán phân tích các tập dữ liệu lớn và làm việc ngược từ dữ liệu đó để tính toán phương trình hồi quy tuyến tính Các nhà khoa học dữ liệu đầu tiên sẽ đào tạo thuật toán trên các tập dữ liệu đã biết hoặc được dán nhãn và sau đó sử dụng thuật toán để dự đoán các giá trị chưa biết Dữ liệu thực tế phức tạp hơn so với ví dụ trước Đó là lý do tại sao phân tích hồi quy tuyến tính phải sửa đổi hoặc biến đổi các giá trị dữ liệu về mặt toán học để đáp ứng bốn giả định sau đây.
Mối quan hệ tuyến tính
Mối quan hệ tuyến tính phải tồn tại giữa các biến độc lập và phụ thuộc. Để xác định mối quan hệ này, các nhà khoa học dữ liệu tạo ra một biểu đồ phân tán – một tập hợp ngẫu nhiên các giá trị x và y – để xem liệu chúng có nằm trên một đường thẳng hay không Nếu không, bạn có thể áp dụng các hàm phi tuyến tính như căn bậc hai hoặc log để tạo ra mối quan hệ tuyến tính giữa hai biến về mặt toán học.
Các nhà khoa học dữ liệu sử dụng phần dư để đo lường độ chính xác dự đoán Phần dư là chênh lệch giữa dữ liệu quan sát được và giá trị dự đoán Phần dư không được có một mô hình nhận dạng được giữa chúng.
Ví dụ: bạn không muốn phần dư tăng lên theo thời gian Bạn có thể sử dụng các bài kiểm tra toán học khác nhau, như kiểm tra Durbin-Watson, để xác định phần dư độc lập Bạn có thể sử dụng dữ liệu giả để thay thế bất kỳ dữ liệu biến thiên nào, chẳng hạn như dữ liệu theo mùa.
Các kỹ thuật vẽ đồ thị như các biểu đồ Q-Q xác định xem các phần dư có phân bố bình thường hay không Các phần dư sẽ nằm dọc theo một đường chéo ở trung tâm của đồ thị Nếu phần dư không được chuẩn hóa, bạn có thể kiểm tra dữ liệu cho các điểm ngoại lai ngẫu nhiên hoặc các giá trị không phải là điển hình Loại bỏ các điểm ngoại lai hoặc thực hiện phép biến đổi phi tuyến tính có thể khắc phục sự cố.
Phương sai không đổi giả định rằng phần dư có phương sai cố định hoặc độ lệch chuẩn so với trung bình cho mọi giá trị của x Nếu không, kết quả phân tích có thể không chính xác Nếu giả định này chưa được đáp ứng, bạn có thể phải thay đổi biến phụ thuộc Bởi vì phương sai xuất hiện tự nhiên trong các tập dữ liệu lớn, giải thích được lý do phải thay đổi quy mô của biến phụ thuộc Ví dụ: thay vì sử dụng quy mô dân số để dự đoán số trạm cứu hỏa trong một thành phố, có thể sử dụng kích thước dân số để dự đoán số trạm cứu hỏa trên mỗi người.
Hình 3 : Hồi quy tuyến tính
Phân tích toán học
Hồi quy tuyến tính có phương trình dạng : f(x)=w1x1+w2x2+w3x3+w0 (1)
Trong mô hình hồi quy tuyến tính, hàm số mục tiêu f(x) là một hàm tuyến tính có dạng y ≈ w0 + w1x + w2x2 + w3x3, trong đó w0, w1, w2, w3 là các hằng số, w0 còn được gọi là bias Dạng phương trình này thể hiện quan hệ tuyến tính giữa biến phụ thuộc y và biến độc lập x.
Bài toán đi tìm các hệ số tối ưu {w1,w2,w3,w0}{w1,w2,w3,w0} chính vì vậy được gọi là bài toán Linear Regression.
Trong phương trình phía trên, nếu chúng ta đặt : w=[w0,w1,w2,w3]T=w=[w0,w1,w2,w3]T= là vector (cột) hệ số cần phải tối ưu và ¯x=[1,x1,x2,x3]x¯=[1,x1,x2,x3] (đọc là x bar trong tiếng Anh) là vector (hàng) dữ liệu đầu vào mở rộng Số 11 ở đầu được thêm vào để phép tính đơn giản hơn và thuận tiện cho việc tính toán
Khi đó, phương trình có thể được viết lại dưới dạng: y≈¯xw=^y.
Chúng ta mong muốn rằng sự sai khác e giữa giá trị thực y và giá trị dự đoán y^ (đọc là y hat trong tiếng Anh) là nhỏ nhất Nói cách khác, chúng ta muốn giá trị sau đây càng nhỏ càng tốt:
Trong đó hệ số 1/2 ( ) là để thuận tiện cho việc tính toán (khi tínhlại đạo hàm thì số 1212 sẽ bị triệt tiêu)
Chúng ta cần e^2 vì e=y-y^ có thể là một số âm, việc nói e nhỏ nhất sẽ không đúng vì khi e=−∞ là rất nhỏ nhưng sự sai lệch là rất lớn.
2.2.3 Hàm mất mát Điều tương tự xảy ra với tất cả các cặp :
(input, outcome) (xi,yi),i=1,2,…,N(xi,yi),i=1,2,…,N, với NN là số lượng dữ liệu quan sát được Điều chúng ta muốn, tổng sai số là nhỏ nhất, tương đương với việc tìm ww để hàm số sau đạt giá trị nhỏ nhất:
Hàm mất mát L(w) là thước đo độ sai lệch giữa mô hình hồi quy tuyến tính và dữ liệu thực tế Mục tiêu của bài toán là tìm ra vector hệ số w sao cho hàm mất mát đạt giá trị nhỏ nhất Giá trị w này được gọi là điểm tối ưu, ký hiệu là w*.
Trước khi đi tìm lời giải, chúng ta đơn giản hóa phép toán trong phương trình hàm mất mát (2) Đặt y=[y1;y2;…;yN]y=[y1;y2;…;yN] là một vector cột chứa tất cả các output của training data; ¯X=[¯x1;¯x2;…;¯xN]X¯=[x¯1;x¯2;…;x¯N] là ma trận dữ liệu đầu vào (mở rộng) mà mỗi hàng của nó là một điểm dữ liệu Khi đó hàm số mất mát L(w)L(w) được viết dưới dạng ma trận đơn giản hơn: với ∥z∥2 z 2‖ ‖ là Euclidean norm (chuẩn Euclid, hay khoảng cách Euclid), nói cách khác ∥z∥22 z 22‖ ‖ là tổng của bình phương mỗi phần tử của vector zz
Tới đây, ta đã có một dạng đơn giản của hàm mất mát được viết như phương trình (3).
2.2.4 Nghiệm cho bài toán Linear Regresstion
Cách phổ biến nhất để tìm nghiệm cho một bài toán tối ưu (chúng ta đã biết từ khi học cấp 3) là giải phương trình đạo hàm (gradient) bằng 0! Tất nhiên đó là khi việc tính đạo hàm và việc giải phương trình đạo hàm bằng 0 không quá phức tạp Thật may mắn, với các mô hình tuyến tính, hai việc này là khả thi. Đạo hàm theo ww của hàm mất mát là:
Phương trình đạo hàm bằng 0 tương đương với:
(ký hiệu ¯XTy b nghĩa là ≜ đặt ¯XTy bằng b ).
Nếu ma trận vuông A≜¯XT¯XA≜X¯TX¯ khả nghịch (non-singular hay invertible) thì phương trình (4)(4) có nghiệm duy nhất: w=A−1b. Với khái niệm giả nghịch đảo, điểm tối ưu của bài toán Linear Regression có dạng:
Một số dạng của hồi quy tuyến tính
2.3.1 Hồi quy tuyến tính đơn giản
Hồi quy tuyến tính đơn giản được định nghĩa bằng hàm tuyến tính: Y= β0*X + β1 + ε β0 và β1 là hai hằng số chưa biết đại diện cho độ dốc hồi quy, trong khi ε (epsilon) là thuật ngữ sai số.
Bạn có thể sử dụng hồi quy tuyến tính đơn giản để lập mô hình mối quan hệ giữa hai biến, chẳng hạn như sau:
Lượng mưa và sản lượng cây trồng
Tuổi và chiều cao ở trẻ em
Nhiệt độ và sự giãn nở của thủy ngân kim loại trong nhiệt kế
2.3.2 Hồi quy tuyến tính bội
Trong phân tích hồi quy tuyến tính bội, tập dữ liệu chứa một biến phụ thuộc và nhiều biến độc lập Hàm đường hồi quy tuyến tính thay đổi để bao gồm nhiều yếu tố như sau:
Khi số lượng biến dự báo tăng lên, các hằng số β cũng tăng lên tương ứng.
Hồi quy tuyến tính bội lập mô hình nhiều biến và tác động của chúng lên một kết quả:
Lượng mưa, nhiệt độ và mức độ sử dụng phân bón đối với sản lượng cây trồng
Chế độ ăn uống và tập thể dục đối với bệnh tim
Tăng trưởng tiền lương và lạm phát trên lãi suất cho vay gia đình
Các nhà khoa học dữ liệu sử dụng hồi quy logistic để đo lường xác suất xảy ra một sự kiện Dự đoán là một giá trị giữa 0 và 1, trong đó 0 thể hiện một sự kiện khó xảy ra, và 1 thể hiện khả năng tối đa rằng sự việc đó sẽ xảy ra Các phương trình logistic sử dụng các hàm logarit để tính toán đường hồi quy.
Sau đây là một số ví dụ:
Xác suất thắng hoặc thua trong một trận đấu thể thao
Xác suất đỗ hoặc trượt một bài kiểm tra
GIỚI THIỆU ĐỀ TÀI DỰ ĐOÁN GIÁ CHỨNG KHOÁN BẰNG HỒI QUY TUYẾN TÍNH
Khái niệm thị trường chứng khoán
Để thực hiện quá trình sản xuất, chúng ta cần phải có các yếu tố: lao động, vốn, đất đai, khoa học kỹ thuật Trong đó vốn ngày càng đóng một vai trò quan trọng, nh ng để có một lượng vốn lớn thì không một cái nàoƣ có thể đảm nhiệm được Trong khi đó những người có cơ hội đầu tư sinh lời thì thiếu vốn, còn những người có vốn thì lại ít có cơ hội đầu tư Thực tế đó đòi hỏi cần phải có những tổ chức trung gian nối liền giữa người thừa vốn và những người thiếu vốn Hệ thống ngân hàng ra đời đó đáp ứng được phần nào yêu cầu đó Tuy nhiên, để thu hút được các nguồn tiền tệ nhàn rỗi của xã hội và một số nguồn vốn đầu tư trực tiếp vào sản xuất để kiếm lời tận gốc thì thị trường chứng khoán ra đời Thị trường chứng khoán là nơi giao dịch các loại chứng khoán theo các mục đích khác nhau của các chủ thể tham gia vào thị trường chứng khoán.
Học máy (Machine learning) và Thị trường chứng khoán
Chuỗi chỉ số thị trường chứng khoán thường được đặc trưng bởi một hành vi theo đám đông và phi tuyến tính khiến cho việc dự báo trở thành một nhiệm vụ đầy thách thức Các yếu tố tạo ra sự biến động trong lĩnh vực này rất phức tạp và bắt nguồn từ nhiều nguyên nhân với bản chất khác nhau Từ các quyết định kinh tế, chính trị và đầu tư cho đến những nguyên nhân không rõ ràng, ở một khía cạnh nào đó, đều gây ra nhiều khó khăn trong dự đoán chỉ số thị trường chứng khoán Thị trường chứng khoán luôn thu hút các nhà đầu tư do khả năng sinh lời cao, tuy nhiên, nó cũng chứa đựng rất nhiều rủi ro Vì vậy, cần có một công cụ thông minh để giảm thiểu rủi ro với hy vọng có thể tối đa hóa lợi nhuận Ngày nay, các mô hình Học máy (Machine Learning) đã trở thành một công cụ phân tích mạnh mẽ được sử dụng để trợ giúp và quản lý đầu tư hiệu quả Các mô hình này đã được sử dụng rộng rãi trong lĩnh vực tài chính để cung cấp những phương pháp mới nhằm giúp các nhà đầu tư đưa ra quyết định tốt hơn trong việc đầu tư chứng khoán.
Thị trường chứng khoán mỗi quốc gia ngày càng phát triển sâu rộng và hòa nhập vào thị trường quốc tế vì chúng có lợi nhuận hấp dẫn và là một tài sản có tính thanh khoản tương đối cao do chúng có thể được mua – bán nhiều lần thông qua các sở giao dịch chứng khoán Mặc dù vậy, đầu tư cổ phiếu có rủi ro cao do sự không chắc chắn và biến động trên thị trường chứng khoán Do đó, các nhà đầu tư phải hiểu bản chất của từng cổ phiếu riêng lẻ và các yếu tố phụ thuộc của chúng ảnh hưởng đến giá cổ phiếu để tăng cơ hội đạt được lợi nhuận cao hơn Quan trọng nhất, các nhà đầu tư cần phải đưa ra các quyết định đầu tư hiệu quả vào đúng thời điểm bằng cách sử dụng lượng thông tin chính xác và thích hợp
Dự báo sự biến động trên thị trường chứng khoán là một chủ đề quan trọng trong lĩnh vực tài chính Việc dự báo hiệu quả sẽ giúp nhà đầu tư xây dựng được chiến lược đầu tư tối ưu cũng như phòng ngừa rủi ro Dự báo một số chỉ số tài chính dựa trên một số yếu tố tác động sẽ dễ dàng nhưng kết quả có thể không chính xác vì các yếu tố chưa được đưa vào mô hình cũng có thể quan trọng trong việc giải thích sự biến động của chỉ số tài chính Chẳng hạn, giá của cổ phiếu hoặc chỉ số của thị trường có thể bị ảnh hưởng bởi nhiều yếu tố khác nhau, ví dụ: tăng trưởng kinh tế Rất khó để phân tích tất cả các yếu tố theo cách thủ công vì vậy, sẽ tốt hơn nếu có các công cụ hỗ trợ phân tích dữ liệu này Trong đầu tư chứng khoán, việc đưa ra quyết định đúng đắn trong khoảng thời gian kịp thời là một thách thức lớn vì cần một lượng thông tin đồ sộ để dự đoán sự biến động của giá thị trường chứng khoán Những thông tin này rất quan trọng đối với các nhà đầu tư vì sự biến động của thị trường chứng khoán có thể dẫn đến tổn thất đầu tư đáng kể Do đó, việc phân tích thông tin lớn này rất hữu ích cho các nhà đầu tư và cũng hữu ích cho việc phân tích xu hướng biến động của các chỉ số thị trường chứng khoán
Với sự bứt phá của các mô hình Học máy trong nhiều lĩnh vực, Học máy được ứng dụng vào tài chính ngày càng phát triển Áp dụng Học máy vào dự báo chứng khoán được ứng dụng rộng rãi cả trong học thuật lẫn thực tế Trước đây, dữ liệu lịch sử được dùng để dự báo các giá trị tương lai Hiện nay, các nhà nghiên cứu đang phát triển Học máy theo hướng tiến hóa sinh học để giải quyết các vấn đề phức tạp, phi tuyến, khác với phương pháp thống kê truyền thống.
2.3 Giới thiệu về dự đoán giá chứng khoán
Dự đoán là một phương pháp phân tích chứng khoán dự báo hướng của giá cả thông qua việc nghiên cứu các dữ liệu thị trường quá khứ, chủ yếu là giá cả và khối lượng Kinh tế học hành vi và phân tích định lượng sử dụng rất nhiều các công cụ tương tự của dự đoán, là một khía cạnh của quản lý tích cực, đứng trong mâu thuẫn với nhiều lý thuyết danh mục đầu tư hiện đại Hiệu quả của cả dự đoán và phân tích cơ bản còn gây tranh cãi bởi Giả thuyết thị trường hiệu quả nói rằng giá cả thị trường chứng khoán về cơ bản là không thể đoán trước.
Dự đoán gía chứng khoán sử dụng các mô hình và quy tắc trao đổi dựa trên các biến đổi giá cả và khối lượng, chẳng hạn như chỉ số sức mạnh tương đối, trung bình động, hồi quy, mối tương quan giá cả liên thị trường và nội thị trường, chu kỳ kinh doanh, chu kỳ thị trường chứng khoán hoặc, theo cách cổ điển, thông qua sự công nhận của các mẫu hình biểu đồ.
Dự đoán được sử dụng rộng rãi trong các thương nhân và các chuyên gia tài chính và được sử dụng thường xuyên bởi các thương nhân trong ngày tích cực, các nhà tạo lập thị trường và các thương nhân trên sàn.
Trong những năm 1960 và 1970 nó đã bị các học giả gạt bỏ rộng khắp. Trong một nghiên cứu gần đây, báo cáo rằng 56 trong tổng số 95 nghiên cứu hiện đại cho thấy nó tạo ra các kết quả tích cực nhưng lưu ý rằng nhiều kết quả tích cực đã được kết xuất không rõ ràng bởi các vấn đề như can thiệp vào dữ liệu, cho nên bằng chứng hỗ trợ của dự đoán giá chứng khoán là không thuyết phục; nó vẫn bị nhiều học giả coi là giả khoa học. Các nhà nghiên cứu như Eugene Fama nói rằng bằng chứng cho dự đoán giá chứng khoán là thưa thớt và không phù hợp với dạng yếu của giả thuyết thị trường hiệu quả Những người sử dụng cho rằng ngay cả khi dự đoán giá chứng khoán không thể dự đoán tương lai, nó cũng giúp xác định các cơ hội trao đổi.
Hình 4: Dự đoán giá chứng khoán
3.4 Các bước xử cho mô hình dự đoán giá chứng khoán
Mô hình dự đoán giá chứng khoán gồm 4 bước : đọc và xử lý dữ liệu,xây dựng mô hình,huấn luyện và xác định độ chính xác của mô hình,sử dụng mô hình.
Hình 5 Các bước xử lý mô hình
Bước 1: Đọc và xử lý dữ liệu
- Khai báo các thư viện và thêm các hàm để chia tệp dữ liệu và lưu dữ liệu
- Vẽ đồ thị thể hiện mối quan hệ
- Bỏ cột đóng từ file đầu vào
- Tách giá đóng cửa ra 1 mảng mới
Bước 2 : Xây dựng mô hình
- Chia 2 tập train và test theo tỉ lệ 70 và 30
- Chuyển dạng về phân phối chuẩn bằng hàm StandardScaler
Bước 3: Huấn luyện và xác định độ chính xác của mô hình
- Độ phù hợp của mô hình
Bước 4 Sử dụng mô hình
-Đưa ra kết quả bằng hàm Predict
- Vẽ biểu đồ thể hiện kết quả
- Làm mịn biểu đồ phân tán có trong cục bộ
- Biểu đồ so sánh giá với thực tế.
CHƯƠNG 4 : CI ĐẶT MÔ HÌNH THỬ NGHIỆM
4.1 Dữ liệu thử nghiệm Ở đây chúng em đã thực hiện bằng file dữ diệu excel lịch sử giá của chứng khoán HPG của tập đoàn Hòa Phát.Cơ sở dữ liệu lịch sử giá của tập đoàn Hòa Phát gồm hơn 1000 dữ liệu giao dịch
Bước 1 :Đọc và xử lý dữ liệu
Hình 6 Bước 1: Đọc và xử lý dữ liệu
Bước 2 : Xây dựng mô hình
Hình 7 : Bước 2 : Xây dựng mô hình
Bước 3: Huấn luyện và xác định độ chính xác của mô hình
Hình 8 Bước 3: Huấn luyện và xác định độ chính xác của mô hình
Bước 4 Sử dụng mô hình
Hình 9 Bước 4 Sử dụng mô hình
Hình 10 Kết quả thử nghiệm
Dữ liệu thử nghiệm
Ở đây chúng em đã thực hiện bằng file dữ diệu excel lịch sử giá của chứng khoán HPG của tập đoàn Hòa Phát.Cơ sở dữ liệu lịch sử giá của tập đoàn Hòa Phát gồm hơn 1000 dữ liệu giao dịch
Các bước thử nghiệm
Bước 1 :Đọc và xử lý dữ liệu
Hình 6 Bước 1: Đọc và xử lý dữ liệu
Bước 2 : Xây dựng mô hình
Hình 7 : Bước 2 : Xây dựng mô hình
Bước 3: Huấn luyện và xác định độ chính xác của mô hình
Hình 8 Bước 3: Huấn luyện và xác định độ chính xác của mô hình
Bước 4 Sử dụng mô hình
Hình 9 Bước 4 Sử dụng mô hình
Hình 10 Kết quả thử nghiệm