วัตพล

ผู้เขียน : วัตพล

อัพเดท: 15 พ.ย. 2022 13.57 น. บทความนี้มีผู้ชม: 122078 ครั้ง

การออกแบบสอบถาม คืออะไร ทำอย่างไร ให้ประสบความสำเร็จ


Data Science (วิทยาการข้อมูล) คืออะไร มีวิธีจัดการข้อมูลอย่างไรบ้าง

Data Science คืออะไร

ในปัจจุบันหลาย ๆ คนนั้น อาจเคยได้ยินคำว่า Data Science มากันบ้างแล้ว เนื่องจากโลกกำลังเข้าใกล้กับคำว่า AI และ Machine Learning มากขึ้น แล้วการทำ Data Science คืออะไรล่ะ? การทำ Data คือเครื่องมือสำคัญที่ใช้ในการวิเคราะห์ข้อมูลและขับเคลื่อนองค์กรให้สามารถเติบโตในตลาดท่ามกลางตลาดที่มีการรองรับการแข่งขันสูงได้เป็นอย่างดี ซึ่งการทำ Data จึงเป็นสิ่งที่ขาดไม่ได้และกลายเป็นตำแหน่งที่เป็นที่ต้องการมากที่สุดในปัจจุบัน

 


Data Science คืออะไร

Data Science คือการศึกษาข้อมูลดิบที่ครอบคลุมด้วยการวิเคราะห์ข้อมูล การขุดข้อมูลที่ผ่านการจัดระบบมาแล้ว ซึ่งจุดประสงค์หลัก Data products ก็คือการตอบคำถามที่เกิดขึ้น โดยที่ไม่ได้คำนึงถึงคำตอบที่เฉพาะเจาะจง แต่จะมองไปที่ภาพรวมและหาจุดบกพร่องที่ควรได้รับการคำนึงถึงจากแหล่งข้อมูลที่สำรวจมาจากที่ต่าง ๆ และพยายามค้นหาวิธีที่ดีที่สุดในการสรุปหาผลลัพธ์ของการทำ Data Science

 


ทักษะสำคัญต่อการทำงานด้าน Data Science

ทักษะสำคัญต่อการทำงานด้าน Data Science

 

ทักษะ Data Science 1 : Hacking Skills

เป็นทักษะเกี่ยวกับการใช้เทคโนโลยีและเทคนิคทำงานในด้านต่าง ๆ ไม่ว่าจะเป็นการเขียนโปรแกรมด้วยภาษา Python หรือ R โดยการจัดการฐานข้อมูลโดยการใช้ My SQL, PostgreSQL, Cassandra, MongoDB หรือ CouchDB การสร้างรายงานและการแสดงข้อมูล ( Visualization ) ที่จะใช้เครื่องมืออย่างเช่น D3 Tableau, Qlikview หรือ R Markdown และการใช้เทคโนโลยีเพื่อจัดการกับข้อมูล Big Data อย่างเช่น Hadoop หรือ Spark เป็นต้น

ทักษะ Data Science 2 : Math & Statistics Knowledge

เป็นทักษะความรู้ด้านคณิตศาสตร์และสถิติ โดยคณิตศาสตร์และสถิติถือเป็นความรู้พื้นฐานหลักในงานด้านวิทยาศาสตร์ข้อมูล แม้ปัจจุบันจะมีโปรแกรมที่ช่วยในการวิเคราะห์ทางสถิติ แต่การเลือกใช้แบบจำลองในการวิเคราะห์และตีความผลลัพธ์ยังจำเป็นต้องอาศัยความรู้เชิงลึกด้านคณิตศาสตร์และสถิติมาช่วย เช่น การเรียนรู้ด้วยเครื่อง ( Machine Learning ) การทำเหมืองข้อมูล ( Data Mining ) พีชคณิต ( Algebra ) เป็นต้น

ทักษะ Data Science 3 : Substantive Expertise 

เป็นทักษะความรู้และความเชี่ยวชาญในธุรกิจหรืองานที่ทำและทักษะด้านการนำเสนอและสื่อสาร โดยการมีความรู้และเข้าใจเกี่ยวกับโดเมนของงานที่ทำจะช่วยให้นักวิเคราะห์ข้อมูลมีความเข้าใจเกี่ยวกับวัตถุประสงค์ ขอบเขต และเป้าหมายของงานที่จะประยุกต์ใช้กระบวนการทางวิทยาศาสตร์ข้อมูลสามารถตั้งคำถาม และกำหนดข้อมูลที่ต้องการใช้ในงานได้อย่างตรงเป้าหมายมากที่สุด

 


The Data Science Lifecycle 

1.การสร้างข้อมูล ในการเริ่มต้นของวงจรชีวิตข้อมูลหรือ The Data Science Lifecycle เป็นขั้นตอนแรกที่ต้องการสร้างข้อมูลเพื่อต่อยอดภายในอนาคต โดยข้อมูลส่วนใหญ่ก็มาจาก การสำรวจการใช้อินเทอร์เน็ตและอุปกรณ์ต่าง ๆ ของเรา, ข้อมูล Big Data จากหลาย ๆ องค์กร เป็นต้น
 

2.การจัดเก็บข้อมูล หลังจากที่มีการสร้างข้อมูลเกิดขึ้น ขั้นตอนถัดไปของวงจรชีวิตข้อมูลหรือ The Data Science Lifecycle ก็คือการจัดเก็บข้อมูลเพื่อให้ง่ายต่อการใช้งาน และไม่สูญหายหรือถูกทำลาย ซึ่งผู้ใช้งานสามารถประมวลผลข้อมูลต่าง ๆ ได้ตามความต้องการได้อย่างรวดเร็ว
 

3.การใช้ข้อมูล ในวงจรชีวิตข้อมูลหรือ The Data Science Lifecycle เป็นการนำข้อมูลที่จัดเก็บมาประมวลผล เช่น การถ่ายโอนข้อมูล การเปลี่ยนรูปแบบการจัดเก็บข้อมูล การวิเคราะห์ข้อมูล การจัดทำรายงาน เป็นต้น เพื่อนำข้อมูลเหล่านั้นมาใช้งานให้เกิดประโยชน์ตามวัตถุประสงค์และสนับสนุนกิจกรรมขององค์กร
 

4.การวิเคราะห์ข้อมูล ขั้นตอนต่อไปของวงจรชีวิตข้อมูลหรือ The Data Science Lifecycle คือการคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคตด้วยความมั่นใจในระดับสูง ซึ่งจะต้องใช้เทคนิคการเพิ่มประสิทธิภาพเพื่อตรวจจับโซลูชันที่ดีที่สุดเพื่อจัดการกับแนวโน้มที่เปิดเผยโดยการวิเคราะห์
 

5.เผยแพร่ข้อมูล ขั้นตอนเผยแพร่ข้อมูลในวงจรชีวิตข้อมูลหรือ The Data Science Lifecycle นี้ จะเป็นการแชร์ข้อมูล การกระจายข้อมูล การควบคุมการเข้าถึง การแลกเปลี่ยนข้อมูลระหว่างหน่วยงานและการกำหนดเงื่อนไขในการนำข้อมูลไปใช้เพื่อที่ข้อมูลเหล่านี้จะถูกเปลี่ยนไปเป็นกิจกรรมและการตัดสินใจขององค์กร ซึ่งจะเป็นการเพิ่มคุณค่าสูงสุดให้กับข้อมูลนั้น ๆ

วงจรชีวิตข้อมูลหรือ The Data Science Lifecycle


ขั้นตอนของ Data Science Process

ขั้นตอนของ Data Science Process

Data Science process คือกระบวนการวิทยาการข้อมูลที่ใช้สำหรับการทำเหมืองข้อมูล เพื่อทำการวิเคราะห์และนำไปใช้ประโยชน์ทางธุรกิจ โดยจะแบ่งออกเป็น 6 ขั้นตอนดังนี้

CRISP-DM (Cross Industry Standard Process for Data Mining)

1.การทำความเข้าใจธุรกิจ ( Business Understanding ) เป็นขั้นตอนแรกมุ่งไปที่การทำความเข้าใจธุรกิจ ปัญหาและวัตถุประสงค์ของโครงการจากมุมมองทางธุรกิจ จากนั้นแปลงปัญหาให้อยู่ในรูปของโจทย์สำหรับกระบวนการวิทยาการข้อมูลและวางแผนการดำเนินงานเบื้องต้น
 

2.การทำความเข้าใจข้อมูล ( Data Understanding ) เป็นขั้นตอนนี้เริ่มต้นด้วยการรวบรวมข้อมูล จากนั้นทำความเข้าใจ ตรวจสอบคุณภาพ และเลือกข้อมูลที่เก็บรวบรวมมาว่าจะใช้ข้อมูลใดบ้างในการวิเคราะห์
 

3.การเตรียมข้อมูล ( Data Preparation ) เป็นขั้นตอนการเตรียมข้อมูล หมายถึงขั้นตอนทั้งหมดที่จะทำเพื่อให้ข้อมูลดิบที่เรารวบรวมมา กลายเป็นข้อมูลสมบูรณ์ที่พร้อมจะเข้าสู่โมเดลในขั้นตอนที่ 4 เช่น การสร้างตาราง การลบข้อมูลที่ไม่ต้องการออก การแปลงข้อมูลให้อยู่ในรูปแบบที่ต้องการ เป็นต้น
 

4.การสร้างโมเดล ( Modeling ) ในขั้นตอนนี้ เราจะเลือกและทดสองสร้างโมเดลหลายๆแบบที่น่าจะสามารถแก้ไขปัญหาที่ต้องการได้ จากนั้นค่อยๆปรับค่าพารามิเตอร์ในแต่ละโมเดล เพื่อให้ได้โมเดลที่เหมาะสมที่สุดมาใช้ในการแก้ไขปัญหา
 

5.การวัดประสิทธิภาพของโมเดล ( Evaluation ) เราจะทำการวัดประสิทธิภาพของโมเดลที่ได้จากขั้นตอนที่ 4 เพื่อวัดว่าโมเดลมีประสิทธิภาพเพียงพอต่อการนำไปใช้งานแล้วหรือไม่ ซึ่งโมเดลแต่ละประเภทก็จะมีตัววัดประสิทธิภาพที่แตกต่างกันออกไป
 

6.การนำโมเดลไปใช้งานจริง  (Deployment ) เป็นการนำโมเดลที่เหมาะสมที่สุดไปใช้งานจริง เพื่อวิเคราะห์และแก้ปัญหาที่ต้องการ

OSEMN 

  1. เริ่มขั้นตอนแรกจากการเก็บรวบรวมข้อมูล  
  2. ต่อด้วยขั้นตอนที่สองกับการทำความสะอาดข้อมูลปรับหน้าตาให้อยู่ใน format ที่เหมาะสม
  3. ขั้นตอนที่สาม คือการศึกษาข้อมูลเบื้องต้นด้วย
  4. ขั้นตอนที่สี่พอเราเข้าใจข้อมูลดีแล้วก็เริ่ม ทำโมเดลต่าง ๆ ด้วย Machine Learning, Deep Learning ได้เลยทันที
  5. และขั้นตอนสุดท้ายปิดท้ายด้วยการนำเสนอ ผลการวิเคราะห์ข้อมูลต่าง ๆ ทั้งหมดที่เราได้ทำมา

Data Analytics vs. Data Science แตกต่างกันไหม? 

เป็นที่ถกเถียงกันสำหรัยหลาย ๆ คนอย่างมากกับคำว่า Data Analytics และ Data Science นั้น แตกต่างกันยังไง ในวันนี้เราจะมาสรุปให้ฟังกัน


Data Science เป็นการรวบรวมข้อมูลจากหลาย ๆ มาเข้าด้วยกัน โดยจะมุ่งเน้นไปกับการค้นหาข้อมูลเชิงลึกเป็นภาพใหญ่ ๆ ซะส่วนใหญ่ ไม่ว่าจะเป็นข้อมูลดิบหรือข้อมูลที่ผ่านการจัดระบบมาแล้วก็ตาม และขณะที่ Data Analytics จะเป็นการมุ่งเน้นไปกับการวิเคราะห์ข้อมูลที่จะเฉพาะเจาะจงเพื่อวิเคราะห์ข้อมูลเชิงลึกเกี่ยวกับปัญหาที่เกิดขึ้นหรือค้นหาวิธีการแก้ไขปัญหาเพื่อให้ได้ทางออกที่ดีที่สุด

 


คำถามที่พบบ่อย

data scientist คือตำแหน่งอะไร มีหน้าที่ทำอะไรบ้าง

Data Scientist (DS) หรือ นักวิทยาศาสตร์ข้อมูล คือตำแหน่งคนวิเคราะห์ข้อมูลและนำมาพัฒนาเป็นโมเดล ( Model ) หรือเครื่องมือ ( Tools ) ที่ตอบโจทย์ทางธุรกิจที่จะช่วยในการตัดสินใจในการวางกลยุทธ์ขององค์กร

ตำแหน่งใดบ้างที่เกี่ยวข้องกับ Data Scientist 

ตำแหน่งในองค์กรส่วนใหญ่ที่เกี่ยวข้องกับ Data Science มักจะได้รับการดูแลโดยตำแหน่งผู้จัดการต่าง ๆ ดังนี้


ข้อสรุปของ Data Science

Data Science เส้นทางอาชีพแห่งอนาคต

สุดท้ายแล้วเราหวังว่าบทความนี้จะเป็นจุดเริ่มต้นที่ดีในการทำความรู้จักและทำความเข้าใจในเรื่อง Data Scientist ดังนั้น เราต้องประเมินดูว่าเราเห็นภาพตัวเองอย่างไรในการทำงานในอนาคต อยากจะเติบโตขึ้นไปเป็นอะไร และทักษะแบบไหนที่เหมาะกับตัวเรา เพียงเท่านี้คุณก็จะได้คำตอบแล้วล่ะว่า Data Analytics และ Data Science เส้นทางไหนที่เหมาะกับอาชีพแหน่งอนาคตของคุณมากที่สุด


 


บทความนี้เกิดจากการเขียนและส่งขึ้นมาสู่ระบบแบบอัตโนมัติ สมาคมฯไม่รับผิดชอบต่อบทความหรือข้อความใดๆ ทั้งสิ้น เพราะไม่สามารถระบุได้ว่าเป็นความจริงหรือไม่ ผู้อ่านจึงควรใช้วิจารณญาณในการกลั่นกรอง และหากท่านพบเห็นข้อความใดที่ขัดต่อกฎหมายและศีลธรรม หรือทำให้เกิดความเสียหาย หรือละเมิดสิทธิใดๆ กรุณาแจ้งมาที่ ht.ro.apt@ecivres-bew เพื่อทีมงานจะได้ดำเนินการลบออกจากระบบในทันที