Nghịch lý Simpson trong xác suất thống kê

Giả sử chúng ta đang quan sát một số nhóm và thiết lập mối quan hệ hoặc mối tương quan cho mỗi nhóm này. Nghịch lý Simpson nói rằng khi chúng ta kết hợp tất cả các nhóm lại với nhau và xem dữ liệu ở dạng tổng hợp, mối tương quan mà chúng ta nhận thấy trước đây có thể tự đảo ngược. Điều này thường là do các biến ẩn chưa được xem xét, nhưng đôi khi nó là do các giá trị số của dữ liệu. Nghịch lý Simpson được ứng dụng trong xác suất thống kê.

1. Nghịch lý Simpson


Nghịch lý Simpson là một hiện tượng thống kê trong đó mối liên hệ giữa hai biến số trong một quần thể xuất hiện, biến mất hoặc đảo ngược khi quần thể đó được chia thành các quần thể con. Ví dụ, hai biến số có thể được liên kết thuận trong một quần thể, nhưng độc lập hoặc thậm chí liên kết nghịch trong tất cả các quần thể con. Các trường hợp thể hiện nghịch lý là không có vấn đề từ quan điểm của toán học và lý thuyết xác suất, nhưng tuy nhiên lại khiến nhiều người ngạc nhiên. Ngoài ra, nghịch lý có ý nghĩa đối với một loạt các lĩnh vực dựa vào xác suất, bao gồm lý thuyết quyết định, suy luận nhân quả và sinh học tiến hóa. Cuối cùng, có nhiều trường hợp nghịch lý, bao gồm cả trong dịch tễ học và trong các nghiên cứu về phân biệt đối xử.

2. Ví dụ về nghịch lý Simpson

Để hiểu rõ hơn một chút về nghịch lý Simpson, hãy xem ví dụ sau. Trong một bệnh viện nọ, có hai bác sĩ phẫu thuật. Bác sĩ phẫu thuật A phẫu thuật cho 100 bệnh nhân, và 95 người sống sót. Bác sĩ phẫu thuật B phẫu thuật cho 80 bệnh nhân và 72 người sống sót. Chúng tôi đang xem xét việc phẫu thuật được thực hiện tại bệnh viện này và sống qua cuộc phẫu thuật là điều quan trọng. Chúng tôi muốn chọn người giỏi hơn trong số hai bác sĩ phẫu thuật.

Chúng tôi xem xét dữ liệu và sử dụng nó để tính toán tỷ lệ phần trăm bệnh nhân của bác sĩ phẫu thuật A sống sót sau ca mổ của họ và so sánh với tỷ lệ sống sót của bệnh nhân bác sĩ phẫu thuật B.

95 bệnh nhân trong số 100 bệnh nhân sống sót với bác sĩ phẫu thuật A, vì vậy 95/100 = 95% trong số họ sống sót.
72 bệnh nhân trong số 80 bệnh nhân sống sót với bác sĩ phẫu thuật B, vì vậy 72/80 = 90% trong số họ sống sót.
Từ sự phân tích này, chúng tôi nên chọn bác sĩ phẫu thuật nào để điều trị cho chúng tôi? Có vẻ như bác sĩ phẫu thuật A là người an toàn hơn. Nhưng điều này có thực sự đúng?

Điều gì sẽ xảy ra nếu chúng tôi thực hiện một số nghiên cứu sâu hơn về dữ liệu và phát hiện ra rằng ban đầu bệnh viện đã xem xét hai loại phẫu thuật khác nhau, nhưng sau đó gộp tất cả dữ liệu lại với nhau để báo cáo về từng bác sĩ phẫu thuật của họ. Không phải tất cả các ca phẫu thuật đều như nhau, một số được coi là ca phẫu thuật khẩn cấp có nguy cơ cao, trong khi những ca phẫu thuật khác có tính chất thường quy hơn đã được lên lịch trước.

Trong số 100 bệnh nhân mà bác sĩ phẫu thuật A điều trị, 50 bệnh nhân có nguy cơ cao, trong đó ba người đã tử vong. 50 người khác được coi là thông lệ, và 2 người này đã chết. Điều này có nghĩa là, đối với một ca phẫu thuật thông thường, một bệnh nhân được phẫu thuật viên A điều trị có tỷ lệ sống là 48/50 = 96%.

Bây giờ chúng tôi xem xét kỹ hơn dữ liệu của bác sĩ phẫu thuật B và thấy rằng trong số 80 bệnh nhân, 40 bệnh nhân có nguy cơ cao, trong đó bảy người đã tử vong. 40 người khác là thường lệ và chỉ một người chết. Điều này có nghĩa là một bệnh nhân có tỷ lệ sống sót là 39/40 = 97,5% cho một cuộc phẫu thuật thông thường với bác sĩ phẫu thuật B.

Bây giờ bác sĩ phẫu thuật nào có vẻ tốt hơn? Nếu phẫu thuật của bạn là một cuộc phẫu thuật thường lệ, thì bác sĩ phẫu thuật B thực sự là bác sĩ phẫu thuật tốt hơn. Nếu chúng ta nhìn vào tất cả các ca phẫu thuật được thực hiện bởi các bác sĩ phẫu thuật, A tốt hơn. Điều này khá phản trực giác. Trong trường hợp này, biến ẩn của loại phẫu thuật ảnh hưởng đến dữ liệu tổng hợp của các bác sĩ phẫu thuật.

Bài viết được lược dịch từ nhiều nguồn.
 

VnKienthuc lúc này

Không có thành viên trực tuyến.

Định hướng

Diễn đàn VnKienthuc.com là nơi thảo luận và chia sẻ về mọi kiến thức hữu ích trong học tập và cuộc sống, khởi nghiệp, kinh doanh,...
Top