king10
Thairath Logo
กีฬา

เอานัยสำคัญทางสถิติ ลงขยะกันเถอะ (1)

Share :
line-share-logo

บทความนี้ดัดแปลงมาจากบทความสั้น “Scientists rise up against statistical significance” นิตยสาร Nature, 2019 พาดหัวว่า นักวิทยาศาสตร์มากกว่า 800 คน อยากจะให้เลิกเอานัยสำคัญทางสถิติ (statistical significance) มาโม้ได้แล้ว

เริ่มเลยละกัน ลองมองกลับไปในการประชุม วิทยาศาสตร์ ครั้งสุดท้ายที่ได้ยินคนพูดว่า การศึกษานี้ไม่พบว่ามีความแตกต่าง นัยสำคัญทางสถิตินั้นเมื่อไหร่ และก็เหมือนกันที่ได้ยินบ่อยว่าการศึกษานี้มีความสำคัญหรือยานี้ได้ผล แต่หลักฐานที่ให้มาก็แค่ค่า p value นั้นที่น้อยกว่า 0.05 พวกเราคนฟังเองก็คล้อยตามกันไปว่าค่า p value โอเค การศึกษานี้ก็คงใช้ได้คงจะดี ปัญหาคือการที่ทำให้มันมีน้ำหนักมากเกินไป จนไม่ดูหลักฐานอื่นๆเลย

นักวิทยาศาสตร์ความรู้ก็เยอะควรจะอ่านหาหลักฐานจากจุดอื่นนอกจากสถิติ ทั้งๆที่เมื่อคนทั่วไปอ่าน ไม่ต้องดูสถิติก็ตัดสินได้แล้วนะว่า เฮ้ย...อันนี้มันดี มันสำคัญ หรืออันนี้มันไร้สาระ แต่ถึงจะรู้แบบนี้การแก้มันยากเพราะเรื่องสถิตินี้มันถูกฝังในหัวมาตั้งแต่เรียนแล้วละ จะทำยังไง ได้ล่ะ มีวิธีเสนอมาดังนี้

ก่อนอื่นเราต้องหยุดสรุปการศึกษาต่างๆ ว่ามีความสำคัญหรือไม่มีความสำคัญจากนัยสำคัญทางสถิติอย่างเดียว และไม่ควรเอาการศึกษาที่คล้ายกันมาเปรียบเทียบ แต่พอสถิติไม่เหมือนกันก็เลยกลายเป็นปัญหาว่าอันไหนถูกอันไหนผิด หรือที่เชื่อถือไม่ได้ทั้งคู่ต้องทำไหม ทำแบบนี้นะ การศึกษาที่ควรมีประโยชน์กลับโดนตีว่าผิด อันไหนมีอันตรายกลับบอกว่าไม่มีอันตราย มีตัวอย่างให้ดูด้วย เช่น การศึกษาผลข้างเคียงของยาแก้ปวด (NSAIDs)

พอนัยสำคัญทางสถิติมีตัวเลขเกิน p > 0.05 (p = 0.091) ก็เลยสรุปว่าการใช้ไม่เกี่ยวกับการเกิดหัวใจเต้นผิดปกติ (Atrial fibrillation) ซึ่งถูกนำมาโต้กับการศึกษาที่ออกมาก่อนหน้านี้ที่สรุปว่าเกี่ยว เพราะตัวเลขสถิติน้อยกว่า p < 0.05 เมื่อมาดูลึกๆในการศึกษาที่บอกว่าการใช้ยาไม่เกี่ยวกับการที่หัวใจเต้นผิดปกติ แท้จริงแล้วพบว่าความเสี่ยงของคนใช้ยามากกว่า ถึง 1.2 เท่า ซึ่งหมายถึงคนใช้ยามีความเสี่ยงเต้นผิดปกติมากกว่าคนไม่ใช้ยา 20% และ ช่วงความเชื่อมั่น (confidence interval) 95%

นั้นอยู่ระหว่าง ความเสี่ยงลดลง 3% ถึงความเสี่ยงเพิ่มขึ้น 48% (-3% ถึง 48%) มาดูการศึกษาที่บอกว่ายาทำให้เกิดหัวใจเต้นผิดปกติบ้าง ก็พบว่า ความเสี่ยงของคนใช้ยาก็ 1.2 เท่าเหมือนกัน แต่การศึกษานี้มีความแม่นยำกว่าจึงได้ช่วงความเชื่อมั่นความเสี่ยงที่ไม่คาบ 0% (9% ถึง 33%) (p = 0.0003) มีตัวอย่างแบบที่กล่าวอีกไม่รู้เท่าไหร่

พอจะเห็นภาพรึยังครับว่าทำไมการสรุปโดยใช้นัยสำคัญทางสถิติอย่างเดียวมันฟังไม่ขึ้นเลย ทั้งๆที่มีสิทธิ์เพิ่มความเสี่ยงหัวใจเต้นผิดปกติได้มากถึง 48% แต่กลับนำแค่ค่า p value มาตัดสินว่าไม่มีความเกี่ยวกัน

ในปี 2016 กลุ่มสถิติอเมริกา (American Statistical Association) ออกมาแถลงเตือนการใช้สถิติในทางที่ผิดหรือไม่ไตร่– ตรองให้ดีเสียก่อน และก็ขอให้เลิกพูดว่ามีนัยสำคัญทางสถิติหรือ “statistically significant” นั่นเอง ทาง Nature เองก็เห็นด้วยและควรจะหยุดใช้ได้แล้ว นอกจากนั้นนักวิทยาศาสตร์ นักสถิติชั้นนำมาอ่านที่เขียนและก็ได้ลงชื่อด้วยลายเซ็นมากถึง 250 ลายเซ็นในแค่วันแรก จากนั้นก็ได้ถึง 800 ลายเซ็นภายในหนึ่งอาทิตย์ ลายเซ็นของทุกคนล้วนเป็นนักวิทยาศาสตร์ที่มีความรู้ทางสถิติ

เคยใช้การวิเคราะห์ทางสถิติมาแล้วอย่างช่ำชอง มาจากทุกทวีปเลย ยกเว้นก็แค่แอนตาร์กติกาที่เดียวเท่านั้น ทั้งนี้ มีคนยกย่องสิ่งที่ริเริ่มกำลังทำว่าเป็นความจำเป็นสำหรับการศึกษาวิจัยที่จะมีคุณภาพดีขึ้น

เรายังไม่ได้จะไปไกลถึงขนาดที่บอกว่าให้เอาค่า p value ทิ้งขยะ ค่า p value เมื่อใช้ให้ถูกย่อมมีประโยชน์ เช่น การใช้ในการควบคุมคุณภาพสินค้า แต่ไม่ใช่เอามาเพื่อใช้สนับสนุนสมมติฐานที่อาจจะฟังไม่ขึ้น หรือว่าเอามาใช้เพราะหลักฐานสนับสนุนมันน้อยเลยเอามาคิดค่าสถิติหาหลักฐานเพิ่มซักหน่อย เพราะสมองเราสามารถคิดได้มากกว่าแค่ดูสถิติแน่นอน แต่เมื่อมีการเอาสถิติมาแบ่งแค่สองส่วน คือวิจัยนี้สำคัญ หรือไม่สำคัญทำให้เกิดการแตกแยกของการวิจัย ทั้งๆที่บางครั้งวิจัยทั้งสองอันเอามาอ่านด้วยกันอาจจะทำให้มีความหมายมากกว่าเดิมก็ได้

แต่จนถึงขณะนี้ความเชื่อถือในสถิติและการให้ความสำคัญของมันก็ยังติดมาจากสมัยโบราณ ทำให้นักวิจัย และบรรณาธิการนิตยสารก็ยังให้ความสำคัญกับผลการวิจัยที่มีนัยสำคัญทางสถิติมากกว่า ทำให้การศึกษาโดยรวมๆที่ถูกตีพิมพ์มีความบิดเบือน นอกจากนี้ การให้ความสำคัญกับสถิติมาก ทำให้นักวิทยาศาสตร์บางกลุ่มบิดเบือนผลอย่างแยบยลโดยการเลือกผลที่จะทำให้มีนัยสำคัญทางสถิติ จึงบิดเบือนความจริงกันเข้าไปใหญ่ หรือเวลาที่ไม่อยากให้มีผลเสียเช่นผลข้างเคียงจากยาก็พยายามเลือกให้ผลออกมาไม่มีนัยสำคัญทางสถิติ

ทั้งนี้ ก็มีการพยายามให้จดทะเบียนการวิจัยก่อนเริ่ม เพื่อจะได้ไม่เลือกผลทีหลัง และการผลักดันให้ตีพิมพ์ผลที่มีและไม่มีนัยสำคัญทางสถิติเพื่อลดความสำคัญของนัยสำคัญทางสถิติ แต่ก็ยังไม่พ้นการเบี่ยงเบนผลจากการที่ยังสามารถเลือกการวิเคราะห์ผลวิจัยได้ ฉะนั้น การใช้ค่า p value อย่างมีวิจารณญาณ

การเริ่มอ่านวิจัยอย่างจริงจังว่าภาพรวมมันบอกว่าอย่างไรจึงสำคัญที่สุด อีกเหตุผลที่ควรจะใช้ค่า p value ให้น้อยลงก็เพราะถึงจะเป็นการศึกษาเดียวกันเป๊ะ แต่ทำคนละเวลา ค่า p value ที่ออกมานั้นมันจะแตกต่างกันได้อย่างกว้างมากเลยทีเดียว ถ้ามันจะออกมาได้กว้างมากขนาดนี้เราจะใช้มันไปทำไม เราต้องเรียนรู้ที่จะศึกษาวิจัยโดยไม่ใช้ค่านี้ได้แล้วกระมัง แต่หันมาใช้ช่วงความเชื่อมั่น (confidence intervals) แทน

ทั้งนี้ ก็แนะนำให้เปลี่ยนชื่อมันไปเลยเป็น ช่วงความพอไปได้ (compatibility intervals) และอยากจะให้นักวิจัยเอาช่วงความเป็นไปได้นี่ละมาวิเคราะห์ดู กะดูว่าค่าที่ควรจะเป็นมันควรอยู่ตรงไหนในความเป็นจริงและบอกเหตุผลประกอบ เป็นอย่างไรบ้างการเปลี่ยนแปลงที่กำลังมา ต่อในตอนที่สองนะครับ.

หมอดื้อ

อ่านเพิ่มเติม...
การวิจัยสถิติสุขภาพหรรษาหมอดื้อนักวิทยาศาสตร์สุขภาพ