ความสมเหตุสมผลเชิงสถิติของข้อสรุป

ความสมเหตุสมผลเชิงสถิติของข้อสรุป (อังกฤษ: Statistical conclusion validity) เป็นระดับที่ข้อสรุปเรื่องความสัมพันธ์ระหว่างตัวแปรต่าง ๆ จากข้อมูล เป็นข้อสรุปที่ถูกต้องหรือว่า "สมเหตุผล" ตอนต้น ๆ คำนี้เคยใช้เกี่ยวกับการสรุปทางสถิติที่ถูกต้องสำหรับความสัมพันธ์ระหว่างตัวแปรต่าง ๆ แต่ปัจจุบันมักจะใช้กับข้อสรุปที่ "สมควร" "เหมาะสม" หรือ "มีเหตุผล" อาศัยข้อมูลไม่ว่าจะเป็นเชิงสถิติ เชิงปริมาณ หรือเชิงคุณภาพ^[1] หลัก ๆ แล้ว งานศึกษาสามารถผิดพลาดได้สองอย่างคือ

ความผิดพลาดชนิดที่ 1 เป็นการพบสหสัมพันธ์หรือความแตกต่างที่ไม่มีจริง ๆ
ความผิดพลาดชนิดที่ 2 เป็นการไม่พบสหสัมพันธ์หรือความแตกต่างที่มีจริง ๆ

ความสมเหตุผลชนิดนี้ เป็นเรื่องเกี่ยวกับคุณลักษณะของงานที่ทำให้ความผิดพลาดเหล่านี้มีโอกาสน้อยลง รวมทั้งการเลือกตัวอย่างที่สมควร การทดสอบทางสถิติที่สมควร และการวัดค่าต่าง ๆ ที่เชื่อถือได้^[2]^[3]^[4]

ความเสี่ยง

ความเสี่ยงที่สามัญที่สุดต่อความสมเหตุสมผลชนิดนี้ คือ

กำลังทางสถิติไม่พอ

กำลังทางสถิติ (Statistical power) เป็นความน่าจะเป็นที่การทดลองจะสามารถปฏิเสธสมมติฐานว่าง (คือสมมติฐานว่าตัวแปรอิสระที่ทดลองไม่มีผลต่อตัวแปรตาม) เมื่อมันไม่จริง (คือปฏิเสธความผิดพลาดชนิดที่ 2) ดังนั้น การทดลองที่มีกำลังทางสถิติต่ำ จะมีโอกาสสูงกว่าที่จะยอมรับสมมติฐานว่างโดยไม่เป็นจริง ซึ่งเป็นความผิดพลาดชนิดที่ 2 แล้วสรุปว่าไม่มีผลแม้ว่าความจริงจะมี (คือมีความแปรปรวนร่วมเกี่ยวระหว่างเหตุกับผลจริง ๆ) เป็นเหตุการณ์ที่เกิดขึ้นเมื่อขนาดตัวอย่าง (sample size) ของงานน้อยเกินไปเทียบกับปัจจัยอย่างอื่น ๆ (เช่นมีผลต่างที่น้อย มีความแตกต่างกันมากในระหว่างกลุ่มประชากร มีการวัดที่เชื่อถือไม่ได้)

การฝ่าฝืนข้อสมมุติของการทดสอบทางสถิติ

การทดสอบทางสถิติโดยมาก (โดยเฉพาะสถิติเชิงอนุมาน) มักจะมีข้อสมมุติเกี่ยวกับข้อมูล ที่ทำให้การวิเคราะห์ทางสถิติสมควรในการตรวจสอบสมมติฐาน การฝ่าฝืนข้อสมมุติเหล่านั้น (คือข้อมูลที่ได้ทำให้ไม่สมควรจะใช้วิธีการทางสถิตินั้น) อาจจะนำไปสู่การอนุมานเชิงสถิติที่ไม่ถูกต้องเกี่ยวกับความสัมพันธ์ระหว่างเหตุกับผล ซึ่งขึ้นอยู่กับความทนทาน (robustness) ของการทดสอบทางสถิติว่าจะไวต่อการฝ่าฝืนข้อสมมุติเท่าไร ดังนั้น การฝ่าฝืนข้อสมมุติของการทดสอบทางสถิติ อาจจะทำให้มีโอกาสมากขึ้นในการเกิดความผิดพลาดชนิดที่ 1 และ 2

ปัญหาความผิดพลาดคลาดเคลื่อน

การทดสอบสมมติฐานแต่ละอย่างจะเสี่ยงต่อความผิดพลาดชนิดที่ 1 ในอัตราที่แน่นอน ที่เรียกว่าอัตราความผิดพลาดคลาดเคลื่อน (error rate) ถ้านักวิจัยสืบหาในข้อมูลโดยทดสอบสมมติฐานต่าง ๆ หลายอย่างเพื่อที่จะหาผลต่างที่มีนัยสำคัญ ก็จะทำให้อัตราความผิดพลาดคลาดเคลื่อนสูงขึ้น นักวิจัยยิ่งหาผลต่างโดยวิธีนี้เท่าไร โอกาสที่จะได้ความผิดพลาดชนิดที่ 1 และการอนุมานผิด ๆ ว่าตัวแปรมีความสัมพันธ์ ก็จะมีมากขึ้นเท่านั้น

การวัดที่ไม่น่าเชื่อถือ

ถ้าวัดตัวแปรต่าง ๆ โดยวิธีที่ไม่น่าเชื่อถือ (คือ การวัดผิดพลาดสูง) ก็อาจจะนำไปสู่ข้อสรุปที่ผิด ๆ

การจำกัดพิสัย

การจำกัดพิสัย ไม่ว่าจะเป็นแบบพื้นหรือเพดาน (คือจัดค่าที่สูงเกินขีดหรือต่ำเกินขีดให้เป็นค่าวัดเดียวกันทั้งหมด) หรือที่เกิดจากอคติที่เกิดจากการเลือกตัวอย่าง (selection bias) จะลดกำลังของการทดลองและเพิ่มโอกาสให้เกิดความผิดพลาดชนิดที่ 2 มากขึ้น^[5] ซึ่งเป็นเพราะว่า ระดับสหสัมพันธ์จะอ่อนลงเพราะค่าความต่างลดลง

ความต่าง ๆ กันของตัวอย่าง

ความต่าง ๆ กันในระดับที่สูงขึ้นของผู้ร่วมการทดลองอาจจะมีผลต่อการตีความผลที่ได้โดยเพิ่มความแปรปรวน (variance) ของผล หรือซ่อนความสัมพันธ์จริง

ความเสี่ยงต่อความสมเหตุสมผลภายใน

ปัจจัยเสี่ยงต่าง ๆ ที่มีผลต่อความสมเหตุสมผลภายใน (internal validity) ของงานวิจัยอาจจะทำให้ได้ผลที่มีอคติ และมีผลต่อความสมเหตุผลเชิงสถิติของข้อสรุป ปัจจัยเสี่ยงเช่น วิธีการรักษาบำบัดที่เชื่อถือไม่ได้ (คือไม่สม่ำเสมอไม่มีมาตรฐาน) หรือความล้มเหลวในการควบคุมตัวแปรอื่น ๆ ที่ไม่ได้เป็นประเด็นการทดลอง (extraneous variable)

ดูเพิ่ม

ความสมเหตุสมผลภายนอก (External validity)
ความสมเหตุสมผลภายใน (Internal validity)

เชิงอรรถและอ้างอิง

[1]
Cozby, Paul, C. (2009). Methods in behavioral research (10th ed.). Boston: McGraw-Hill Higher Education.
[2]
Cohen, R. J.; Swerdlik, M. E. (2004). Psychological testing and assessment (6th edition). Sydney: McGraw-Hill.
[3]
Cook, T. D.; Campbell, D. T.; Day, A. (1979). Quasi-experimentation: Design & analysis issues for field settings. Houghton Mifflin Boston.
[4]
Shadish, W.; Cook, T. D.; Campbell, D. T. (2006). Experimental and quasi-experimental designs for generalized causal inference. Houghton Mifflin.
[5]
Sackett, P.R.; Lievens, F.; Berry, C.M.; Landers, R.N. (2007). "A Cautionary Note on the Effects of Range Restriction on Predictor Intercorrelations" (PDF). Journal of Applied Psychology. 92 (2): 538–544. doi:10.1037/0021-9010.92.2.538.

[Cozby-1] [1]
Cozby, Paul, C. (2009). Methods in behavioral research (10th ed.). Boston: McGraw-Hill Higher Education.

[Cohen-2] [2]
Cohen, R. J.; Swerdlik, M. E. (2004). Psychological testing and assessment (6th edition). Sydney: McGraw-Hill.

[Cook-3] [3]
Cook, T. D.; Campbell, D. T.; Day, A. (1979). Quasi-experimentation: Design & analysis issues for field settings. Houghton Mifflin Boston.

[Shadish-4] [4]
Shadish, W.; Cook, T. D.; Campbell, D. T. (2006). Experimental and quasi-experimental designs for generalized causal inference. Houghton Mifflin.

[Sackett-5] [5]
Sackett, P.R.; Lievens, F.; Berry, C.M.; Landers, R.N. (2007). "A Cautionary Note on the Effects of Range Restriction on Predictor Intercorrelations" (PDF). Journal of Applied Psychology. 92 (2): 538–544. doi:10.1037/0021-9010.92.2.538.

[1]

[2]

[3]

[4]

[5]