Solution Center Minitab

ผู้เขียน : Solution Center Minitab

อัพเดท: 18 ก.ย. 2015 01.48 น. บทความนี้มีผู้ชม: 3297 ครั้ง

นบทความนี้จะพูดถึงเทคนิค 4 หัวข้อที่จะช่วยทำหลีกเลี่ยงข้อผิดพลาดพื้นฐานในการวิเคราะห์การถดถอย ที่มีพบเห็นได้ในงานวิจัยต่างๆ
ซึ่งจะมุ่งไปที่งานที่มีการประยุกต์ใช้การวิเคราะห์การถดถอยเพื่อการตัดสินใจมากกว่าการชี้ว่าตัวทำนายทาง สถิตินั้นมีนัยสำคัญหรือไม่ ซึ่งการประยุกต์ใช้การวิเคราะห์การถดถอยจะเน้นไปที่ผลที่สามารถส่งไปถึงค่าผลลัพธ์ และความแม่นยำในการทำนาย


4 เทคนิคในการวิเคราะห์สมการถดถอยเพื่อหลีกเลี่ยงปัญหาพื้นฐาน (Four tips on how to perform a regression analysis that avoids common problems)

ในบทความนี้จะพูดถึงเทคนิค 4 หัวข้อที่จะช่วยทำหลีกเลี่ยงข้อผิดพลาดพื้นฐานในการวิเคราะห์การถดถอย ที่มีพบเห็นได้ในงานวิจัยต่างๆ
ซึ่งจะมุ่งไปที่งานที่มีการประยุกต์ใช้การวิเคราะห์การถดถอยเพื่อการตัดสินใจมากกว่าการชี้ว่าตัวทำนายทาง สถิตินั้นมีนัยสำคัญหรือไม่  ซึ่งการประยุกต์ใช้การวิเคราะห์การถดถอยจะเน้นไปที่ผลที่สามารถส่งไปถึงค่าผลลัพธ์ และความแม่นยำในการทำนาย

case7_pic1

1. ใช้ผลการศึกษาก่อนหน้าเพื่อมากำหนดตัวแปรที่จะรวมในตัวแบบการถดถอย

ก่อนที่จะเริ่มการวิเคราะห์การถดถอย คุณควรที่จะมีกรอบว่าตัวแปรใดมีความสำคัญในความสัมพันธ์ เครื่องหมายของตัวสัมประสิทธิ์ และขนาดของอิทธิพล ซึ่งอ้างอิงจากงานวิจัยที่ทำมาก่อนหน้า น่าเสียดายที่แนวโน้มของ แนวคิดนี้ได้เปลี่ยนไปแล้ว แม้ว่าจะมีฐานข้อมูลเดิมและสามารถนำฐานข้อมูลนั้นมาสร้างตัวแบบถดถอยได้

ถ้าคุณต้องการเห็นปัญหานี้ ให้เริ่มต้นตั้งแต่การสังเคราะห์ข้อมูล โดยเริ่มสร้างแผ่นงาน (worksheet) ในโปรแกรม Minitab ให้มี 101 คอลัมน์ แต่ละคอลัมน์มี 30 แถว และสร้างข้อมูลอย่างสุ่มลงในแผ่นงาน หรือใช้ ข้อมูลจากไฟล์ตัวอย่าง จากสร้างการถดถอยแบบขั้นบันได (stepwise regression) โดยให้ คอลัมน์หนึ่งเป็นตัวแปรตอบสนอง (responsive variable) และให้คอลัมน์ที่เหลือเป็นตัวแปรทำนายที่มีความเป็นไปได้(potential predictor variable) ทำการจำลอง สถานการณ์ของข้อมูลเพื่อดูผลวิเคราะห์ที่เกิดขึ้น

จากผลลัพธ์ที่แสดงข้างล่างนี้  แต่ละคอลัมน์ของผลลัพธ์แสดงค่าตัวสถิติของ 5 ขั้นแรกที่ได้จากการวิเคราะห์ แบบขั้นบันได สำหรับกรณีที่มีตัวแปรทำนาย 5 ตัว มีค่า R-squared  84.23% และ ค่า adjusted R-squared 80.12%   ค่า p-values ไม่ได้แสดงไว้ที่นี่ แต่ทุกตัวมีค่าน้อยและไม่ถึง 0.01

case7_pic2

ส่วนของ Stepwise regression และ best subsets regression จะเป็นงานในส่วนขั้นตอนแรก คุณจะต้องมีเหตุผล ที่มากพอที่จะบอกว่าตัวแปรทำนายใดที่ควรนำไปรวมในตัวแบบถดถอย มากกว่าเพียงแค่นำมาตัดสินใจว่าจะปฏิเสธ สมมติฐานหลัก (Null hypothesis) หรือไม่

2. ทำให้ตัวแบบเป็นตัวแบบที่ง่ายที่สุด (Keep the model simple)

ถึงแม้ว่า ปัญหาที่มีความซับซ้อนอาจจะทำให้คิดว่าตัวแบบที่ได้ควรจะมีความซับซ้อนด้วย แต่ในความเป็นจริง จากการศึกษาหลายๆงานพบว่า ตัวแบบที่มีความซับซ้อนน้อยยิ่งทำให้การทำนายมีความแม่นยำมากขึ้น  อย่างไรจึงจะ เรียกว่าไม่ซับซ้อน ในหลายๆกรณีจะถือว่าตัวแบบที่มีเพียง 3 ตัวแปรทำนาย ถือว่าเพียงพอแล้ว

ดังนั้นควรเริ่มจากตัวแบบอย่างง่าย และจะใช้ตัวแบบที่มีความซับซ้อนต่อเมื่อมีความจำเป็นเท่านั้น และต้องมั่นใจ ด้วยว่าตัวแปรที่เพิ่มเข้ามานั้นจะทำให้มีความแม่นยำเพิ่มขึ้น โดยเมื่อความซับซ้อนเพิ่มขึ้นเหมือนว่าจะทำให้สมการมีความ สมรูปมากขึ้น (ค่า r-squared) แต่อาจจะทำให้ความแม่นยำของการทำนายมีค่าลดลง (ความกว้างของช่วงของทำนาย จะมีความกว้างเพิ่มขึ้น)

บทความอีกอันหนึ่งจะเขียนอธิบายถึงผลดีผลเสีย และการเลือกตัวแปรทำนายกี่ตัวให้อยู่ในตัวแบบถึงจะได้ผลดี ที่เหมาะสม ซึ่งอ่านได้ในบทความ ค่า Adjusted และ predicted r-squared

case7_pic3

3.ความสัมพันธ์ไม่ได้หมายความว่าเป็นเหตุให้เกิดสิ่งนั้น  เช่นเดียวกับในการวิเคราะห์การถดถอยด้วย (Correlation is not causation..even in regression analysis)

ข้อความนี้เป็นข้อเท็จจริงทางสถิติที่ดูไม่ซับซ้อนอะไร แต่ในการวิเคราะห์การถดถอยหลายๆครั้งบางคนก็ลืม กฎข้อนี้ไป  ตัวแบบที่คุณได้อาจจะเป็นตัวแบบที่ดี มีตัวแปรทำนายที่มีนัยสำคัญ ค่า r-squared สูง แต่อาจจะได้เพียงค่า ความสัมพันธ์ (correlation)  แต่ไม่ได้สาเหตุที่เกิดสิ่งนั้น (causation)

ในบางกรณี อาจจะไม่ได้เป็นปัญหาใดๆการทำนายอาจไม่จำเป็นต้องการเหตุผลว่าทำไมตัวแปรทำนายและ ตัวแปรตอบสนองจึงมีความสัมพันธ์กัน  ในทางกลับกัน ตัวแปรแทน (proxy variable) ที่มีความสัมพันธ์กับตัวแปร ตอบสนอง ที่สามารถแสดงความสัมพันธ์ออกมาได้ง่ายกว่าและทำให้การทำนายที่ผลมีความน่าเชื่อถือได้เพียงพอ

เพื่อให้ภาพตรงนี้ชัดเจนขึ้น ให้นึกถึงการศึกษาที่ไม่ได้มีการควบคุมการทดลองให้เกิดแบบสุ่ม (randomized controlled trials) ของการศึกษาว่าวิตามินมีผลต่อสุขภาพหรือไม่ หรือ การรับประทานวิตามินทำให้เกิดนิสัยที่เป็น ประโยชน์ต่อสุขภาพทำให้เกิดสุขภาพที่ดีขึ้น ซึ่งคิดได้ง่ายๆว่า ถ้าการรับประทานวิตามินไม่ได้ทำให้สุขภาพดีขึ้น ดังนั้นการทานวิตามินมากขึ้นก็จะไม่ทำให้สุขภาพดีขึ้น

4.การแสดงค่าช่วงความเชื่อมั่นและช่วงการทำนายเพิ่มจากผลความมีนัยสำคัญของการวิเคราะห์ (Present confidence and prediction intervals in addition to statistical significance)

ผลความมีนัยสำคัญและช่วงความเชื่อมั่นจะต้องมีผลที่สอดคล้องกัน เช่น ถ้าตัวสถิตินั้นมีค่าไม่ใช่ค่าศูนย์ มีผลนัยสำคัญ ที่ α = 0.05 คุณจะได้ผลของ 95% ช่วงความเชื่อมั่นของตัวสถิตินั้นไม่ครอบคลุมค่าศูนย์

ผลที่ได้อย่างสอดคล้องกันนี้ ทำให้ การนำสาระข้อมูลไปใช้มีความเปลี่ยนแปลงไป ซึ่งได้มีการกล่าวไว้ ในบทความก่อนหน้านี้แล้ว ในการแสดงผลทั้งสองนี้ทำให้การแปลผลมีความถูกต้องเพิ่มขึ้น การศึกษาด้วยการแสดงผล ความมีนัยสำคัญที่ระดับนัยสำคัญของการทดสอบ จะให้ข้อสรุปที่ถูกต้อง เพียงแค่ 40% แต่ถ้ามีการแสดงผลของ ช่วงความเชื่อมั่นด้วยจะทำให้ความถูกต้องเพิ่มเป็น 95%

จะทำการแยกการวิเคราะห์การถดถอยที่ดีและที่มีความถูกต้องน้อยอย่างไร (How do you distinguish a good regression analysis from a less rigorous regression analysis)

สำหรับการวิเคราะห์การถดถอยที่ดี ผู้วิเคราะห์


บทความต้นฉบับ : http://blog.minitab.com/blog/adventures-in-statistics/four-tips-on-how-to-perform-a-regression-analysis-that-avoids-common-problems

เนื้อหาบทความโดยบริษัท Minitab Inc. ประเทศสหรัฐอเมริกา

แปลและเรียบเรียงโดยสุวดี นําพาเจริญ และ ชลทิขา จํารัสพร, บริษัท โซลูชั่น เซ็นเตอร์ จํากัด webadmin@solutioncenterminitab.com


บทความนี้เกิดจากการเขียนและส่งขึ้นมาสู่ระบบแบบอัตโนมัติ สมาคมฯไม่รับผิดชอบต่อบทความหรือข้อความใดๆ ทั้งสิ้น เพราะไม่สามารถระบุได้ว่าเป็นความจริงหรือไม่ ผู้อ่านจึงควรใช้วิจารณญาณในการกลั่นกรอง และหากท่านพบเห็นข้อความใดที่ขัดต่อกฎหมายและศีลธรรม หรือทำให้เกิดความเสียหาย หรือละเมิดสิทธิใดๆ กรุณาแจ้งมาที่ ht.ro.apt@ecivres-bew เพื่อทีมงานจะได้ดำเนินการลบออกจากระบบในทันที