การเลือกตัวแบบถดถอยเชิงเส้นที่ดีที่สุดเป็นเรื่องซับซ้อน การสร้างตัวแบบจากสิ่งตัวอย่างเพียงอย่างเดียวไม่ใช่เรื่องง่าย ในบทความนี้จะเป็นการพูดถึงวิธีการทางสถิติในการเลือกตัวแบบ ปัญหาบางอย่างที่คุณอาจจะต้องเจอ และคำแนะนำในทางปฏิบัติในการเลือกตัวแบบถดถอยให้ได้ตัวแบบที่ดีที่สุด
ในขั้นต้นนักวิจัยจะต้องเริ่มจากการอธิบายความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง นักวิจัยจะต้องค้นหาค่าวัดของตัวแปรต่างๆที่ควรจะมีในตัวแบบคืออะไร ในขั้นตอนวิเคราะห์จะพยายามทำการคัดเลือกตัวแปรที่ไม่มีความสัมพันธ์ออกไป และเหลือเฉพาะตัวแปรที่แสดงความสัมพันธ์อย่างแท้จริงให้คงไว้ โดยจะเริ่มจากการสร้างตัวแบบที่มีความเป็นไปได้ไว้หลายๆตัวแบบ
ส่วนการที่จะทำให้ได้ตัวแบบที่ดีที่สุด จะต้องมีพิจารณาจำนวนตัวแปรทำนายที่จะต้องมีในตัวแบบให้มีความพอดี โดยที่ถ้าจำนวนตัวแปรทำนายนั้นมีจำนวน......
วิธีการทางสถิติที่ใช้ในการหาตัวแบบถดถอยที่ดีที่สุด
ตัวแบบถดถอยที่ดีจะต้องมีตัวแปรที่มีความสัมพันธ์เฉพาะกับตัวแปรตอบสนองโดยทำให้เกิดการประมาณค่าที่มีความเอนเอียง (Bias) น้อยที่สุด โปรแกรม Minitab มีตัววัดทางสถิติและวิธีการเพื่อช่วยให้คุณระบุตัวแบบถดถอยที่ต้องการได้
ค่า Adjusted R-squared และ Predicted R-squared โดยทั่วไปจะเลือกตัวแบบที่ให้ค่า adjusted และ predicted R-squared มากๆ ซึ่งค่าสถิติทั้งสองตัวนี้ต่างจากค่า R-squared ปกติ เพราะค่า R-squared ปกติ จะมีค่าเพิ่มขึ้นเสมอเมื่อคุณเพิ่มจำนวนตัวแปรทำนายลงในตัวแบบ ซึ่งอาจทำให้สุดท้ายแล้วตัวแบบที่ได้มีความซับซ้อนเพราะมีจำนวนตัวแปรมากเกินไป
ค่า p-values สำหรับตัวแปรทำนาย ในตัวแบบถดถอย ค่า p-values น้อยๆเป็นการบอกว่าตัวแปรนั้นมีนัยสำคัญ “Reducing the model” คือการลดรูปตัวแบบ ด้วยการเอาตัวแปรทำนายที่มีค่า p-values มาก ๆ ออกจากตัวแบบครั้งละตัวแปรเพื่อให้เหลือแต่ตัวแปรทำนายที่มีนัยสำคัญจริง ๆ
วิธีการเพิ่มตัวแบบถดถอยแบบขั้นตอน และ ตัวแบบถดถอยแบบชุดข้อมูลย่อยที่ดีที่สุด (Stepwise regression and Best subsets regression) เป็นวิธีการหาตัวแปรทำนายแบบอัตโนมัติด้วยการระบุตัวแปรทำนายในระหว่างขั้นตอนการสร้างตัวแบบ ในตัวแบบถดถอยแบบชุดข้อมูลย่อยที่ดีที่สุด โปรแกรม Minitab ใช้เกณฑ์ของ Mallows’ Cp ซึ่งจะเป็นการคิดค่าตัวสถิติที่คำนึงถึงเรื่องของความแม่นยำ (precision) และ ความเอนเอียง (bias)
การใช้งานในทางปฏิบัติ
เนื่องจากมีวิธีการทางสถิติหลายอย่างในการเลือกตัวแบบที่ดีที่สุด แต่ในทางปฎิบัติก็มีปัจจัยหลายอย่างที่ทำให้เกิดปัญหาในการเลือกใช้งานได้เช่นกัน ดังนั้นเราจึงมีแนวทางในการใช้งานไว้ดังนี้
คำแนะนำสำหรับการหาตัวแบบถดถอยที่ดีที่สุด
การเลือกตัวแบบถดถอยที่ถูกต้องเป็นทั้งศาสตร์และศิลป์ วิธีการทางสถิติสามารถช่วยในการหาทิศทางที่จะเดินไปให้ถูกต้องแต่ต้องประกอบกับการพิจารณาของผู้ตัดสินใจด้วย
ทางทฤษฎี
ในขั้นต้นควรเริ่มจากกรณีศึกษาในงานวิจัยที่เคยทำมาเพื่อมาสร้างเป็นกรอบของตัวแบบการถดถอย จากนั้นจึงพัฒนาแนวคิดต่างๆรวมถึงหาตัวแปรที่สำคัญที่มีความสัมพันธ์กับตัวแปรอื่นๆ เครื่องหมายของตัวสัมประสิทธิ์ และขนาดของ effect ที่ควรจะเป็นการสร้างตัวแบบที่มาจากงานวิจัยก่อนหน้าจะช่วยทำให้การเก็บข้อมูลและระบุตัวแบบได้ดีขึ้นโดยลดทอนงานด้านการค้นหาความจริงจากข้อมูล
การพิจารณาตามทฤษฎีไม่ควรใช้ค่าทางสถิติเพียงอย่างเดียว แต่ควรมีการทดสอบตัวแบบและปรับแก้ค่าต่างๆให้เหมาะสม เช่น ตามทฤษฎีบอกว่าตัวแปรหนึ่งไม่มีนัยสำคัญ เพราะค่า p-value มาก แต่ถ้ามองจากเครื่องหมายของสัมประสิทธิ์มีค่าขัดแย้งกับทางทฤษฎี คุณควรทำการสืบค้นดูว่าทำไมตัวแปรนั้นจึงแสดงความสัมพันธ์ไม่สอดคล้องกับทางทฤษฎี
ความซับซ้อน
คุณอาจคิดว่าปัญหาที่ซับซ้อนอาจต้องใช้ตัวแบบที่มีความซับซ้อนเป็นตัวอธิบาย แต่จากกรณีศึกษาจำนวนมากพบว่าตัวแบบที่ไม่ซับซ้อนจะสามารถให้ผลการทำนายที่แม่นยำกว่า เมื่อนำตัวแบบที่มีความคล้ายคลึงกัน ตัวแบบที่มีความซับซ้อนน้อยกว่าจะเป็นตัวแบบที่ดีที่สุด ดังนั้นจึงควรเริ่มต้นที่ตัวแบบง่ายๆก่อนแล้วเพิ่มความซับซ้อนลงในตัวแบบก็ต่อเมื่อจำเป็นเท่านั้น เพราะยิ่งมีความซับซ้อนมากเท่าไหร่การปรับแต่งตัวแบบให้เหมาะกับข้อมูลจะยิ่งมีความยากมากยิ่งขึ้น การทวนสอบเมื่อทำการเพิ่มตัวแปรลงในตัวแบบด้วยการดูค่าช่วงค่าทำนาย (prediction intervals) จะต้องมีความกว้างลดลง และเปลี่ยนมาสังเกตค่า predicted R-squared แทนค่า R-squared ทั่วไป
การใช้กราฟค่าเศษเหลือ (Residual Plots)
ในการประเมินตัวแบบ ด้วยการใช้ residual plot เพื่อเป็นเครื่องมือในการดูว่าตัวแบบนั้นมีคุณภาพหรือไม่และทำให้ตัวแบบที่ดียิ่งขึ้น ตัวอย่างเช่น ตัวแบบที่มีความเอนเอียง จะแสดงรูปแบบบางอย่างใน residual plot เช่น เส้นโค้งของตัวแบบ ตัวแบบที่มีความซับซ้อนน้อยจะแสดงค่าเศษเหลือในรูปแบบสุ่ม (random) ซึ่งทำให้ได้ตัวแบบที่ไม่เอนเอียงและมีความแม่นยำที่ค่อนข้างดี
ในท้ายที่สุดข้อสรุป คือ ไม่มีการวัดใดที่จะเป็นตัวบ่งชี้ให้ได้ว่าตัวแบบใดคือตัวแบบที่ดีที่สุดเพราะความเข้าใจทางสถิติเพียงอย่างเดียวไม่เพียงพอ คุณจะต้องอาศัยความรู้ความเข้าใจพื้นฐานในงานหรือกระบวนการของคุณเป็นส่วนสำคัญด้วย
บทความนี้ ต้นฉบับนำมาจาก Click
บทความนี้เกิดจากการเขียนและส่งขึ้นมาสู่ระบบแบบอัตโนมัติ สมาคมฯไม่รับผิดชอบต่อบทความหรือข้อความใดๆ ทั้งสิ้น เพราะไม่สามารถระบุได้ว่าเป็นความจริงหรือไม่ ผู้อ่านจึงควรใช้วิจารณญาณในการกลั่นกรอง และหากท่านพบเห็นข้อความใดที่ขัดต่อกฎหมายและศีลธรรม หรือทำให้เกิดความเสียหาย หรือละเมิดสิทธิใดๆ กรุณาแจ้งมาที่ ht.ro.apt@ecivres-bew เพื่อทีมงานจะได้ดำเนินการลบออกจากระบบในทันที