Training Data (ชุดข้อมูลฝึก) คือชุดข้อมูลที่ใช้ในขั้นตอนการเรียนรู้ (Training) โมเดลในการสร้างโมเดลทำนาย (Predictive Models) หรือโมเดลจำแนก (Classification Models) โดยให้โมเดลทำนายผลลัพธ์ที่ถูกต้องมากที่สุดจากข้อมูลในชุดข้อมูลนี้ เช่น ข้อมูลที่มีคำตอบหรือป้ายกำกับที่ถูกต้อง การเรียนรู้จากชุดข้อมูลฝึกนี้จะช่วยปรับปรุงพารามิเตอร์ (Parameters) ในโมเดลให้กับการทำนายให้เหมาะสมกับข้อมูลต้นฉบับ
Testing Data (ชุดข้อมูลทดสอบ) คือชุดข้อมูลที่ใช้ในขั้นตอนการทดสอบ (Testing) โมเดลทำนายหรือโมเดลจำแนกที่ได้รับการเรียนรู้จากชุดข้อมูลฝึก โดยให้โมเดลทำนายผลลัพธ์จากข้อมูลในชุดข้อมูลนี้ เพื่อวัดประสิทธิภาพและความแม่นยำของโมเดลในการทำนายข้อมูลที่ไม่เคยเห็นมาก่อน (Unseen Data) หรือข้อมูลที่ไม่ได้ใช้ในขั้นตอนการเรียนรู้ การทดสอบนี้ช่วยให้เราประเมินว่าโมเดลทำนายในระหว่างการทำนายและจำแนกความถูกต้องได้ดีเพียงใด
Evaluation Method (วิธีการประเมิน) ใน Machine Learning แบ่งออกเป็น 2 รูปแบบคือ Regression (การคาดคะเน) และ Classification (การจำแนก) โดยมีวิธีการประเมินความแม่นยำและประสิทธิภาพของโมเดลดังนี้:
สำหรับ Regression:
- Mean Squared Error (MSE): วิธีการคำนวณค่าคลาดเคลื่อนของค่าทำนายกับค่าจริงของข้อมูล โดยหาผลรวมของค่าความคลาดเคลื่อนแต่ละค่ายกกำลังสองแล้วหาค่าเฉลี่ย
- Mean Absolute Error (MAE): วิธีการคำนวณค่าคลาดเคลื่อนของค่าทำนายกับค่าจริงของข้อมูล โดยหาผลรวมของค่าความคลาดเคลื่อนแต่ละค่าแล้วหาค่าเฉลี่ย
สำหรับ Classification:
- Accuracy (ความแม่นยำ): วิธีการคำนวณความถูกต้องของการจำแนกข้อมูลที่ทำนาย หากความถูกต้องสูง ค่า Accuracy จะใกล้เคียงกับ 1
- Precision (ความแม่นยำในการพยากรณ์ค่าบวก): วิธีการคำนวณความแม่นยำในการจำแนกข้อมูลค่าบวก (Positive Class) ที่ทำนายถูกต้องเทียบกับจำนวนทั้งหมดของข้อมูลค่าบวกที่ทำนาย
- Recall (ความแม่นยำในการคืบหน้าค่าบวก): วิธีการคำนวณความแม่นยำในการจำแนกข้อมูลค่าบวก (Positive Class) ที่ทำนายถูกต้องเทียบกับจำนวนของข้อมูลค่าบวกทั้งหมดในชุดข้อมูล
- F1 Score: คือค่าเฉลี่ยฮาร์มอนิกซ์ของ Precision และ Recall เป็นการควบคุมความสมดุลระหว่าง Precision และ Recall