10.1. GIẢI THÍCH GIÁ TRỊ P.
Ý kiến sau đây được trích xuất từ các ấn phẩm của DG Altman.
Giá trị P đầy rẫy trong các bài viết nghiên cứu y học, vì vậy hiểu một cách chính xác những gì người ta muốn nói cũng như những gì họ khơng muốn nói là rất thiết yếu. Giá trị P là xác suất sau khi đã quan sát dữ liệu của chúng ta (hoặc thêm các dữ liệu cực đoan nữa) khi giả định giả thuyết khống là đúng3. Ví dụ, trong một nghiên cứu lâm sàng mệnh đề này muốn nói đến sự khác biệt quan sát được giữa các nhóm điều trị. Vì vậy, chúng ta đang liên kết dữ liệu của chúng ta với sự biến thiên có thể xảy ra do may rủi trong một mẫu khi giả định giả thuyết khống đúng trong quần thể.
Chúng ta đã thấy rằng các mẫu cho những kết quả khác với những cái đúng thật sự trong quần thể, và rằng các biến thiên giữa các mẫu sẽ giảm khi cỡ mẫu tăng. Như đã thấy trong các thảo luận trước đây rằng các điều này được chúng ta xét tới khi kiểm nghiệm các thống kê, và do đó tính tốn các giá trị P.
Việc giải thích về giá trị P khá phức tạp. Nếu chúng ta thực hiện một thử nghiệm lâm sàng để so sánh hai phương pháp điều trị và có được một giá trị P "lớn", như hơn 0,2, thì chúng ta có thể nói rằng các dữ liệu như của chúng ta thường có thể xuất hiện khi giả định giả thuyết khống đúng − nghĩa là, hai phương pháp điều trị có hiệu quả như nhau. Ngược lại, nếu giá trị P rất nhỏ, như nhỏ hơn 0.001, thì giả thuyết khống có vẻ đáng ngờ, vì dữ liệu của chúng ta có thể hầu như khơng phát sinh hồn tồn tình cờ khi giả thuyết khống đúng. Do đó, chúng ta có thể cảm thấy tự tin rằng giả thuyết khống là không đúng và một cách điều trị là tốt hơn
3
Có thể diễn đạt dưới dạng toán học như sau: Giả sử T là thống kê kiểm nghiệm và t0 là giá trị quan sát tương
ứng thì xác suất P(T> t0) khi giả thuyết khống đúng chính là giá trị P. Trước đây chưa có máy tính điện tử, việc tính tốn xác suất từ các hàm phân bố địi hỏi nhiều cơng sức nên người ta lập sẵn bảng các giá trị zα, tα… của các hàm phân bố thường dùng cho các mức α phổ biến và người ta chỉ so sánh giá trị thống kê quan sát được t0 với giá trị zα, tα… này (tuỳ theo phân bố của thống kê kiểm nghiệm). Ngày nay, nhiều phần mềm máy tính giúp người ta có thể tính P dễ dàng, từ đó có thể so sánh trực tiếp giá trị P này với mức ý nghĩa α (điểm cắt ngang nói trong bài).
47
so với cách kia. Giữa hai giá trị cực đoan này là một vùng xám, nhưng thông thường một điểm cắt ngang được chọn và nếu P nhỏ hơn giá trị cắt ngang thì chúng ta sẽ bác bỏ giả thuyết khống. Vì thế, kiểm nghiệm giả thuyết khống là kiểm xem giá trị P có ở dưới điểm cắt ngang đã chọn hay không.
Mặc dù sự lựa chọn điểm cắt ngang là tùy ý, trong thực hành hầu hết các trường hợp chúng ta sử dụng 0,05. Nói cách khác, một kết quả có thể xảy ra khơng q một lần trong 20 lần khi giả định giả thuyết khống đúng sẽ dẫn đến việc bác bỏ giả thuyết khống. Theo cách này, khi chúng ta bác bỏ giả thuyết khống thì chúng ta chấp nhận giả thuyết đối nghịch thay thế, mà trong ví dụ thử nghiệm lâm sàng, đó là hai phương pháp điều trị có hiệu quả khơng như nhau. Nếu giá trị P vượt quá giá trị cắt ngang thì chúng ta khơng bác bỏ giả thuyết khống. Tuy nhiên, chúng ta khơng thể nói chúng ta tin rằng giả thuyết khống đúng, nhưng chỉ nói rằng chưa có có đủ bằng chứng để bác bỏ nó. Đây là một sự phân biệt tế nhị nhưng quan trọng.
Một hiểu lầm phổ biến về giá trị P là cho rằng nó là xác suất của dữ liệu nẩy sinh do may rủi, hay một cách tương đương, giá trị P là xác suất để hiệu quả quan sát không phải là hiệu quả thật. Sự phân biệt giữa định nghĩa khơng chính xác này và định nghĩa đúng nhất trước đó là sự vắng mặt của cụm từ “khi giả định là giả thuyết khống đúng”. Thiếu sót này dẫn đến việc tin tưởng sai lầm rằng không thể lượng định xác suất của hiệu quả thật quan sát được. Hiệu quả quan sát trong mẫu là xác thực, nhưng chúng ta khơng biết cái gì là cái đúng trong quần thể. Điều mà chúng ta có thể làm được với cách tiếp cận phân tích thống kê này là tính tốn xác suất quan sát dữ liệu của chúng ta (hoặc nhiều dữ liệu không chắc nữa) khi giả định giả thuyết khống đúng.
10.2. LỖI LOẠI I VÀ II LẦN NỮA
Việc sử dụng điểm cắt ngang cho P dẫn đến việc xem việc phân tích như một q trình ra quyết định. Trong khn khổ này, người ta có thói quen (nhưng khơng khơn ngoan) xem một kết quả có ý nghĩa thống kê là kết quả thật, và ngược lại một kết quả khơng có ý nghĩa cho thấy khơng có hiệu quả. Buộc phải có một sự chọn lựa giữa có ý nghĩa và khơng có ý nghĩa che lấp đi sự khơng chắc chắn có mặt mỗi khi chúng ta rút ra kết luận từ một mẫu . Khi chúng ta xây dựng một khoảng tin cậy thì sự khơng chắc chắn lộ ra một cách rõ rệt, nhưng với một một kiểm nghiệm giả thuyết, nó ở dạng tiềm ẩn, và có thể dễ dàng bị bỏ qua. Chúng ta có thể phạm hai lỗi có thể có khi sử dụng giá trị P để đưa ra quyết định. Thứ nhất, chúng ta có thể thu được một kết quả có ý nghĩa, và do đó loại bỏ giả thuyết khống khi mà
48
giả thuyết này là đúng trong thực tế. Điều này được gọi là một lỗi loại I, và có thể được coi là kết quả "dương tính lầm". Ngược lại, chúng ta có thể thu được một kết quả khơng có ý nghĩa khi giả thuyết khống không đúng, trong trường hợp này, chúng ta phạm một lỗi loại II, có thể được xem như là một kết quả "âm tính lầm". Xác suất của các lỗi loại I và II đôi khi được gọi tương ứng là alpha (α) và beta (β).
Giá trị của alpha được xác định trước, thường là ở mức 5%. Giá trị của beta tùy thuộc vào hiệu quả mà ta đang quan tâm, và cũng vào cỡ mẫu. Thường hơn, chúng ta nói về hiệu năng của một nghiên cứu phát hiện một hiệu quả cho một cỡ xác định, trong đó hiệu năng là 1 β. Một khoảng tin cậy rộng là một dấu hiệu của hiệu năng thấp. Chúng ta sẽ trở lại khía cạnh về cỡ mẫu này trong một chủ đề sau trong loạt bài giảng này.
10.3. GIÁ TRỊ P MỘT PHÍA HAY HAI PHÍA: XEM LẠI?
Các kết quả cực đoan có thể xảy ra do may rủi một cách đồng đều thường theo hai hướng, điều này cho phép chúng ta tính tốn giá trị P hai phía. Trong phần lớn các trường hợp, đây là một thủ tục đúng đắn. Trong những trường hợp hiếm hoi, xem xét một sự khác biệt thực sự theo hướng ngược lại phải do may rủi là điều hợp lí. Ở đây, giả thuyết chính bị giới hạn vào kết quả chỉ theo một hướng duy nhất, và hợp lí để tính giá trị P một phía bằng cách chỉ xét một đuôi của phân bố của thống kê kiểm nghiệm. Đối với một thống kê kiểm nghiệm phân bố bình thường, điểm cắt ngang 5% hai phía là 1,96, trong khi điểm cắt ngang 5% một phía là 1,645. Sự khác biệt là khơng đặc biệt lớn nhưng có thể dẫn đến một sự giải thích khác nhau liên quan đến các mức cố định của ý nghĩa thống kê.
Các kiểm nghiệm một phía hiếm khi thích hợp. Ngay cả khi chúng ta có một mức độ mong đợi cao, ví dụ như một cách điều trị mới không thể tệ hơn cách cũ, chúng ta cũng không thể chắc là chúng ta đúng. Nếu chúng ta có thể nói chắc thì chúng ta sẽ khơng cần phải làm một kiểm nghiệm! Nếu cảm thấy rằng một kiểm nghiệm một phía thực sự là thích hợp thì quyết định này phải được đưa ra trước khi phân tích dữ liệu, nó khơng được phụ thuộc vào các kết quả là như thế nào.
49