(Supervised Learning Algorithms) หมายถึง วิธีการเรียนรู้ที่เป็นกระบวนการที่คอมพิวเตอร์หรือระบบคอมพิวเตอร์ทำการเรียนรู้จากข้อมูลที่มีการควบคุม (คำตอบหรือป้ายชื่อ) ที่ถูกต้องอยู่แล้ว สามารถนำไปใช้ทำนายหรือจำแนกข้อมูลในอนาคตได้ การเรียนรู้แบบมีการควบคุมนี้ เป็นกระบวนการที่คล้ายกับการสอนของครูโดยให้ตัวอย่างของการตอบปัญหามาแล้วคอมพิวเตอร์จะเรียนรู้จากตัวอย่างนั้นเพื่อใช้ในการจำแนกหรือทำนายข้อมูลใหม่
ในกระบวนการเรียนรู้แบบมีการควบคุมนี้ ข้อมูลที่ใช้ในการเรียนรู้จะประกอบด้วยคุณลักษณะ (features) ของข้อมูลที่ต้องการจำแนกหรือทำนายและคำตอบ (labels) หรือป้ายชื่อที่บ่งบอกถึงคำตอบที่ถูกต้องสำหรับข้อมูลนั้น ตัวอย่างของการเรียนรู้แบบมีการควบคุมคือการจำแนกภาพที่มีคำอธิบายเป็น “แมว” หรือ “หมา” และระบบจะเรียนรู้จากคุณลักษณะของภาพเหล่านั้นเพื่อจำแนกว่าภาพใหม่ๆ ที่ไม่เคยเห็นมาก่อนเป็นภาพของแมวหรือหมา
Supervised Learning มีความสำคัญในการแก้ไขปัญหาที่เรามีข้อมูลตัวอย่างที่มีคำตอบหรือป้ายชื่อที่ถูกต้อง ตัวอย่างของงานที่ใช้ Supervised Learning ได้แก่ การจำแนกอีเมลเป็นอีเมลที่เป็นสแปมหรือไม่สแปม, การทำนายราคาบ้านจากข้อมูลสถานะของบ้าน เป็นต้น
นี่คือ 9 อัลกอริทึมการเรียนรู้แบบมีการควบคุม (Supervised Learning Algorithms) ใน Machine Learning ที่น่าสนใจ
- การจำแนกแบบโลจิสติก (Logistic Regression):
- อัลกอริทึม Logistic Regression เป็นอัลกอริทึมที่ใช้ในงานทำนายแบบจำแนก ซึ่งใช้เป็นพื้นฐานในการแยกข้อมูลเป็นกลุ่มสองกลุ่มหรือมากกว่านั้น และให้ผลลัพธ์ออกมาเป็นค่าความน่าจะเป็น (probability) ที่ข้อมูลอยู่ในกลุ่มแรกหรือกลุ่มที่สอง
2. การจำแนกแบบต้นไม้ตัดสินใจ (Decision Trees):
- อัลกอริทึม Decision Trees เป็นอัลกอริทึมที่ใช้ในงานทำนายแบบจำแนกและใช้งานง่าย แบ่งข้อมูลเป็นลำดับของกฎกติกาที่อาศัยข้อมูลคุณลักษณะในการตัดสินใจและควบคุมกระบวนการจำแนกข้อมูล
3. การจำแนกแบบของข้อมูลแบบเพื่อนบ้านใกล้เคียง (K-Nearest Neighbors):
- อัลกอริทึม K-Nearest Neighbors เป็นอัลกอริทึมที่ใช้ในงานทำนายแบบจำแนกแบบโดยตรง โดยการใช้ข้อมูลคุณลักษณะของข้อมูลที่ใกล้เคียงกันมากที่สุด K ค่าในการกำหนดกลุ่มของข้อมูลใหม่
4. การจำแนกแบบเส้นตรง (Linear Regression):
- อัลกอริทึม Linear Regression เป็นอัลกอริทึมที่ใช้ในงานทำนายและวิเคราะห์ความสัมพันธ์ของตัวแปรตามแกน x และตัวแปรตามแกน y โดยใช้ความสัมพันธ์เชิงเส้น
5. การจำแนกแบบเส้นแบ่ง (Support Vector Machines):
- อัลกอริทึม Support Vector Machines (SVM) เป็นอัลกอริทึมที่ใช้ในงานทำนายแบบจำแนก โดยการสร้างเส้นแบ่งหรือแยกกลุ่มระหว่างข้อมูลของกลุ่มต่างๆ โดยทำให้มีระยะห่างที่มากที่สุดระหว่างข้อมูลแต่ละกลุ่ม
ุ6. การจำแนกแบบต้นไม้สุ่ม (Random Forests):
- อัลกอริทึม Random Forests เป็นอัลกอริทึมที่ใช้ในงานทำนายแบบจำแนก โดยการสร้างต้นไม้หลายๆ ต้นไม้และรวมผลลัพธ์จากต้นไม้ทุกต้นในขั้นตอนสุดท้ายเพื่อให้ผลลัพธ์มีความน่าเชื่อถือสูง
7. การจำแนกแบบลำดับ (Ordinal Regression):
- อัลกอริทึม Ordinal Regression เป็นอัลกอริทึมที่ใช้ในงานทำนายแบบจำแนกและให้ผลลัพธ์เป็นการจำแนกลำดับของข้อมูล ซึ่งแตกต่างจากการจำแนกแบบแยกกลุ่มที่มีเพียงสองกลุ่ม
8.การจำแนกแบบการแบ่งกลุ่ม (Naive Bayes):
- อัลกอริทึม Naive Bayes เป็นอัลกอริทึมที่ใช้ในงานทำนายแบบจำแนกและใช้ตัวแบ่งเป็นกลุ่มของคุณลักษณะที่ไม่เกี่ยวข้องกัน เพื่อคำนวณความน่าจะเป็นในการเป็นสมาชิกของกลุ่มที่ต้องการจำแนก
9. การจำแนกแบบการเรียง (Gradient Boosting):
อัลกอริทึม Gradient Boosting เป็นอัลกอริทึมที่ใช้ในงานทำนายและตรวจสอบโมเดลการเรียนรู้แบบต่อเนื่อง (Sequential Learning) หรือการเรียนรู้แบบบูสต์ (Boosting) ที่มีความสำคัญในการปรับปรุงประสิทธิภาพของโมเดลที่มีการเรียนรู้แบบอ่อน (Weak Learners) เช่น ต้นไม้เดี่ยว (Decision Stump) เป็นต้น
- กระบวนการ Gradient Boosting ทำงานโดยการสร้างต้นไม้หลายๆ ต้นไม้ที่เรียนรู้จากข้อมูลเหล่านั้นเพื่อให้มีความแม่นยำในการทำนายข้อมูล โดยต้นไม้แต่ละต้นจะพยายามแก้ไขความผิดพลาดของต้นไม้ก่อนหน้า ทำให้โมเดลมีความแม่นยำมากขึ้นเรื่อยๆ จนกว่าจะได้โมเดลที่มีความแม่นยำสูงสุด การใช้งานหลายๆ ต้นไม้ใน Gradient Boosting ทำให้โมเดลมีความสามารถในการควบคุมการเรียนรู้และลดการเกิดการนั่งสู่กับจับคู่กับข้อมูล (Overfitting) ที่อาจเกิดขึ้นในการเรียนรู้แบบธรรมดา
- อัลกอริทึม Gradient Boosting นั้นได้รับความนิยมในงานทำนายหรือจำแนกข้อมูลเชิงลึก (Deep Learning) และใช้กันอย่างกว้างขวางในงานที่ต้องการความแม่นยำและประสิทธิภาพในการทำนายข้อมูล โดยเฉพาะการทำนายข้อมูลที่มีข้อมูลคุณลักษณะ (features) มากมายหรือซับซ้อน