solutioncenter minitab

ผู้เขียน : solutioncenter minitab

อัพเดท: 21 ส.ค. 2014 12.14 น. บทความนี้มีผู้ชม: 76326 ครั้ง

เมื่อทำการหาตัวแบบเชิงเส้นด้วยการวิเคราะห์การถดถอย ANOVA และการออกแบบการทดลอง เราจะต้องมีการประเมินแบบนั้นด้วยว่ามีความเหมาะสมในการนำไปใช้งานหรือไม่ ซึ่งใน Minitab มีตัวสถิติที่ใช้ทดสอบความสมรูปของตัวแบบ (Goodness of fit statistics) ให้เลือกนำมาใช้ในการประเมินตัวแบบอยู่หลากหลายตัว


การวิเคราะห์สมการถดถอย

การวิเคราะห์สมการถดถอย การแปลความหมายค่า R-Square และการประเมินตัวแบบว่าเหมาะสมหรือไม่ (Regression Analysis: How Do I Interpret R-squared and Assess the Goodness-of-Fit?)

 

   เมื่อทำการหาตัวแบบเชิงเส้นด้วยการวิเคราะห์การถดถอย  ANOVA และ การออกแบบการทดลอง เราจะต้องมี การประเมินตัวแบบนั้นด้วยว่ามีความเหมาะสม

ในการนำไปใช้งานหรื่อไม่ ซึ่งใน Minitab มีตัวสถิติที่ใช้ทดสอบความ สมรูปของตัวแบบ (Goodness of fit statistics) ให้เลือกนำมาใช้ในการประเมิน

ตัวแบบอยู่หลากหลายตัว แต่ในที่นี้จะพูดถึง ตัวสถิติ ค่า R2 (R-Squared) โดยพูดถึงข้อจำกัดและความหมายอื่นๆ ซึ่งในบางครั้งการที่ค่า R2  มีค่าต่ำ

อาจไม่ได้หมายความ ว่าไม่ดีทุกครั้งไป และเช่นกันค่า R2 ที่มีค่าสูงก็ไม่ได้มีความหมายในเชิงบวกเสมอไป

 

   ตัวแบบเชิงเส้นที่มีความสมรูปคือ (What is Goodness-of-Fit for a Linear Model)

 

   ตัวแบบการถดถอยเชิงเส้น (Linear Regression Model) ได้มาจากการคำนวณระยะห่างระหว่างเส้นตรง ที่มาจากข้อมูลค่าสังเกต และ ค่าที่คำนวณได้จาก

สมการเส้นตรง (Fitted) และสมการเส้นตรงที่ได้จะให้เกิดค่าระยะห่าง ของจุดข้อมูลกับเส้นตรงโดยรวมน้อยที่สุด

 

   ทางเทคนิคจะใช้ค่า OSL (Ordinary Least Square) เพื่อทำให้เกิดค่าผลรวมของค่าเศษเหลือกำลังสอง 

(sum of the square residual) ให้น้อยที่สุด

   โดยทั่วไปแล้วตัวแบบที่เหมาะสม จะมีความแตกต่างของค่าที่สังเกตได้กับค่าที่คำนวณตามสมการน้อย และเป็นค่าที่ไม่เอนเอียง (unbiased) 

 

   ก่อนที่จะทำการวิเคราะห์ความสมรูปทางสถิติ คุณควรที่จะทำการตรวจสอบแผนภาพเศษเหลือ (Residual plots) ร่วมด้วยเสมอ ซึ่งจากแผนภาพเศษเหลือนี้

จะทำให้เห็นรูปแบบของค่าเศษเหลือที่ไม่มีคุณภาพ ซึ่งบ่งบอกถึงความเอนเอียง ได้ดีกว่าการวิเคราะห์ด้วยตัวเลข ถ้าแผนภาพเศษเหลือนี้แสดงให้เห็นว่าไม่มี

ความผิดปกติใดๆ การวิเคราะห์ด้วยตัวเลขก็ทำให้ น่าเชื่อถือได้ดีขึ้นแล้วจึงไปทำการวิเคราะห์ความสมรูปของตัวแบบอีกทีหนึ่ง

 

   ค่า R-Squared คืออะไร (What is R-Squared)

 

   ค่า R-Squared คือตัวสถิติที่ใช้วัดว่าตัวแบบคณิตศาสตร์ที่ได้นี้มีความสมรูปกับข้อมูลมากน้อยอย่างไร หรือรู้จักกัน ในอีกความหมายหนึ่งว่าเป็น ค่าสัมประสิทธิ์

แสดงการตัดสินใจ (Coefficient of Determination) หรือ ค่าสัมประสิทธิ์แสดง การตัดสินใจเชิงซ้อน (Coefficient of Multiple Determination)

สำหรับการวิเคราะห์การถดถอยแบบพหุคูณ (Multiple Regression)

 

   นิยามของค่า R-Squared คือ ค่าความผันแปรของตัวแปรตอบสนองที่สามารถอธิบายได้มีอยู่ในตัวแบบเชิงเส้นนี้ กี่เปอร์เซ็นต์ หรือ

   R-Squared = ความผันแปรที่สามารถอธิบายได้ / ความผันแปรทั้งหมด (Explained variation / Total Variation)

   ค่า R-Squared จะมีค่าอยู่ระหว่าง  0%  - 100%

       - 0% แสดงให้เห็นว่า ตัวแบบคณิตศาสาตร์ที่ได้มานั้นไม่สามารถอธิบายความผันแปรของค่าตัวแปรตอบสนอง ต่างที่กระจายรอบค่าเฉลี่ยได้เลย

       - 100% แสดงให้เห็นว่า ตัวแบบคณิตศาสาตร์ที่ได้มานั้นสามารถอธิบายความผันแปรของค่าตัวแปรตอบสนอง ต่างที่กระจายรอบค่าเฉลี่ยได้เป็นอย่างดี

 

   โดยทั่วไปแล้ว ค่า R-Squared สูงๆ หมายความว่า ตัวแบบคณิตศาสตร์นั้นดี (เหมาะสมกับข้อมูล) แต่อย่างไรก็ตาม ยังมีเงื่อนไขบางอย่างที่ต้องมีพร้อมกับ

ค่า R-Squared สูงๆนี้ด้วย

 

   แผนภาพที่แสดงถึงค่า R-Squared

   ในแผนภาพนี้เป็นการพลอตค่าข้อมูลที่สังเกตได้และค่าข้อมูลที่คำนวณได้จากตัวแบบคณิตศาสตร์  ซึ่งทั้งสอง แผนภาพนี้มีค่า R-Squared แตกต่างกัน

   ตัวแบบด้านซ้าย มีค่า 38% ของความแปรปรวน ส่วนของตัวแบบด้านขวามีค่า 87.4% ของความแปรปรวน ซึ่งถ้า ค่าเปอร์เซนต์ยิ่งมีค่ามาก หมายความว่า

ตัวแบบสามารถคำนวณค่าได้ใกล้เคียงกับค่าสังเกตมาก (หรือ ค่าสังเกตจะอยู่บน เส้นตรงของตัวแบบ) ในทางทฤษฎีถ้าตัวแบบสามารถอธิบายความแปรปรวนได้

100% หมายความว่า ค่าที่คำนวณได้จะ มีค่าเท่ากับค่าที่สังเกตได้ ดังนั้นค่าข้อมูลที่สังเกตได้จะอยู่บนเส้นตรงของตัวแบบคณิตศาสาตร์ทุกจุด

   

   ข้อจำกัดของค่า R-Squared

   ค่า R-Squared ไม่สามารถบอกได้ว่าค่าที่คำนวณได้นั้นมีความเอนเอียงหรือไม่ ซึ่งจำเป็นต้องใช้การวิเคราะห์ แผนภาพเศษเหลือมาเป็นตัวช่วย

   ค่า R-Squared ไม่สามารถบอกได้ว่า ตัวแบบคณิตศาสตร์นี้มีความเหมาะสมดีแล้วหรือไม่ ซึ่งบางครั้งตัวแบบ คณิตศาสตร์ที่ดีอาจให้ค่า R-Squared ต่ำ

และบางกรณีที่มีค่า R-Squared สูงตัวแบบก็ไม่เหมาะสมกับข้อมูล

 

   ค่า R-Squared ต่ำ ย่อมมีความหมายไม่ดีเสมอไปหรือไม่

   คำตอบคือ ไม่ ด้วยเหตุผล 2 ข้อ คือ 

   ในบางสาขา เรารู้อยู่แล้วว่าค่า R-Squared ที่จะได้มาจะมีค่าต่ำ เช่น การทำนายพฤติกรรมมนุษย์ ในสาขาจิตวิทยา โดยทั่วไปค่า R-Squared ที่ได้จะมีค่า

ต่ำกว่า 50% เนื่องด้วย มนุษย์เป็นสิ่งที่ยากจะคาดเดาได้ เมื่อเทียบกับกระบวนการทาง กายภาพ

   ถ้าในกรณีที่ R-Squared มีค่าต่ำ แต่ค่าตัวทำนายมีนัยสำคัญทางสถิติ คุณยังสามารถใช้ผลสรุปว่า เมื่อทำการ เปลี่ยนแปลงค่าตัวทำนายนี้เป็นแบบไหน จะทำให้

ค่าตัวแปรตอบสนองเป็นอย่างไร

 

   และไม่ว่า ค่า R-Squared จะเป็นอย่างไร ค่าสัมประสิทธิ์ในตัวแบบตัวใดที่มีนัยสำคัญ ก็ยังคงใช้เพื่ออธิบายการ เปลี่ยนแปลงของตัวแปรตอบสนองว่ามีจำนวน

เท่าไหร่ เมื่อมีการเปลี่ยนแปลงค่าตัวทำนาย (predictor) 1 หน่วย (โดยที่ให้ค่า ตัวทำนายที่เหลือมีค่าคงที่) ซึ่งถือว่าข้อมูลตรงนี้มีคุณค่าที่ต้องคำนึงถึงเป็นอย่างมาก

   ส่วนค่า R-Squared ที่มีค่าต่ำ จะเป็นปัญหาอย่างมากเมื่อต้องการทำนายค่าตัวแปรตอบสนองให้มีความแม่นยำ ของค่าที่มากขึ้น

(ช่วงของการทำนาย (prediction interval) มีค่าช่วงไม่กว้างมากนัก) 

 

   ดังนั้นเพื่อให้การทำนายได้ผลอย่างเหมาะสม ค่า R-Squared ควรมีค่าประมาณเท่าไหร่ ? คำตอบก็ขึ้นอยู่กับว่า ความต้องการของคุณที่อยากจะได้ช่วงของ

ความกว้างของค่าที่ทำนายนั้นมีขนาดช่วงเท่าไหร่ และความผันแปรที่จะมีในข้อมูล มีค่าเป็นเท่าไหร่ เพราะค่า R-Squared ที่มีค่าสูงย่อมให้การทำนายค่าตัวแปร

ตอบสนองที่มีความแม่นยำสูงกว่า แต่เท่านี้อาจไม่ เพียงพอ ซึ่งเราจะมาดูกันในหัวข้อต่อไป

 

   ค่า R-Squared สูง ย่อมมีความหมายดีเสมอไปหรือไม่

   คำตอบคือ ไม่ ค่า R-Squared ที่มีค่าสูง อาจไม่ได้หมายความว่าตัวแบบที่ได้นั้นมีความสมรูปกับข้อมูลเป็นอย่างดี ซึ่งมีคำตอบที่ซ่อนอยู่ ดูจากแผนภาพ

เศษเหลือและแผนภาพของเส้นตัวแบบ ด้านล่างทั้ง 2 แผนภาพนี้

   แผนภาพของเส้นตัวแบบ (Fitted Line Plot) เป็นแผนภาพที่แสดงความสัมพันธ์ระหว่าง ค่า Mobility ของอิเลคตรอนใน ชิ้นส่วน semiconductor

และค่า  natural log (ln) ของ density ที่เกิดขึ้นในการทดลอง

   จากแผนภาพจะเห็นได้ว่า ตัวแบบมีความเหมาะสมดีกับข้อมูล (ข้อมูลเรียงตัวอยู่บนเส้นสมการในแผนภาพ) และค่า R-Squared สูงถึง 98.5% ซึ่งถือว่า

เป็นผลที่ดีมากแต่ถ้าดูไปที่เส้นสมการถดถอยจะเห็นได้ว่าในแต่ละช่วงของเส้นโค้งจะมีความ เบี่ยงเบน (bias) ของข้อมูลอยู่ทั้งเหนือ และ ใต้เส้นโค้งตลอดช่วง 

   ซึ่งเมื่อมาพิจารณาที่แผนภาพเศษเหลือ (Residual plot) จะเห็นได้ว่าในแผนภาพเศษเหลือไม่แสดงรูปแบบ random ของข้อมูล ซึ่งเป็นตัวบ่งบอกว่า

ตัวแบบนั้นไม่ดี ดังนั้นทุกครั้งในการวิเคราะห์ความเหมาะสมของตัวแบบ จะต้องมีการวิเคราะห์แผนภาพเศษเหลือด้วยเสมอ

   จากตัวอย่างนี้ จะเห็นได้ว่าการต้องเลือกระหว่างสมการถดถอยเชิงเส้นและสมการถดถอยแบบไม่เป็นเชิงเส้น ถ้าจะต้องนำมาพิจารณา คำตอบสำหรับ

ตัวอย่างกรณีนี้คือ จะต้องมีการใช้ตัวแบบสมการถดถอยแบบไม่เป็นเชิงเส้น เพราะว่าข้อมูลไม่สมรูปกับตัวแบบเชิงเส้นนั่นเอง 

 

   บทสรุปเกี่ยวกับค่า R-Squared 

   ค่า R-Squared ถือเป็นค่าที่นำมาใช้วัดว่าตัวแบบสมการเชิงเส้นที่ได้มานั้นมีความเหมาะสมกับข้อมูลหรือไม่ แต่อย่างไรก็ตาม การมองเฉพาะค่า R-Squared อย่างเดียวอาจไม่สามารถตอบได้ว่าตัวแบบสมการนั้นเหมาะสมหรือไม่ แต่ต้องมีการพิจารณาค่า R-Squared ร่วมกับการวิเคราะห์แผนภาพเศษเหลือ และตัวสถิติอื่นๆ 

   ในเรื่องถัดไป จะยังพูดถึงค่า R-Squared ต่อ ซึ่งยังมีค่า R-Squared อีก 2 ค่าคือ ค่า Adjusted R-Squared และ ค่า Predicted R-Squared ซึ่งค่าวัดทั้ง 2 ค่านี้จะสามารถตอบคำถามที่ ค่า R-Squared ยังไม่สามารถให้คำตอบได้

บทความต้นฉบับ : http://blog.minitab.com/blog/adventures-in-statistics/regression-analysis-how-do-i-interpret-r-squared-and-assess-the-goodness-of-fit

แปลและเรียบเรียงโดย สุวดี นำพาเจริญ และชลทิชา จำรัสพร, บริษัท โซลูชั่น เซ็นเตอร์ จำกัด webadmin@solutioncenterminitab.com

 


บทความนี้เกิดจากการเขียนและส่งขึ้นมาสู่ระบบแบบอัตโนมัติ สมาคมฯไม่รับผิดชอบต่อบทความหรือข้อความใดๆ ทั้งสิ้น เพราะไม่สามารถระบุได้ว่าเป็นความจริงหรือไม่ ผู้อ่านจึงควรใช้วิจารณญาณในการกลั่นกรอง และหากท่านพบเห็นข้อความใดที่ขัดต่อกฎหมายและศีลธรรม หรือทำให้เกิดความเสียหาย หรือละเมิดสิทธิใดๆ กรุณาแจ้งมาที่ ht.ro.apt@ecivres-bew เพื่อทีมงานจะได้ดำเนินการลบออกจากระบบในทันที