CHAPTER 4 PRACTICAL PROCEDURE FOR SETTING UP A MODEL
CHAPTER 4 PRACTICAL PROCEDURE FOR SETTING UP A MODEL
บทที่ 4
วิธีปฏิบัติสำหรับการตั้งค่าการสร้างโมเดล
PRACTICAL PROCEDURE FOR SETTING UP A MODEL
ขั้นตอนเชิงทฤษฎีสำหรับการสร้าง PLS จะอธิบายในบทสุดท้าย ในบทนี้อธิบายถึงข้อพิจารณาเชิงปฏิบัติ เริ่มจากการเก็บค่าสเปกตรัมถึงการวิเคราะห์ตัวอย่างที่ไม่รู้จัก จะมี 6 ขั้นตอนที่จำเป็นดังนี้
ขั้นตอนที่ 1: การใส่ข้อมูลสเปกตรัมและข้อมูลความเข้มข้น (Entering Spectral Data and Concentration Data)
ก่อนที่จะคำนวณแบบจำลองต้องใส่ข้อมูลสเปกตรัมและข้อมูลความเข้มข้นที่สอดคล้องกันสำหรับแต่ละองค์ประกอบ นอกจากนี้มันจำเป็นที่จะกำหนดชุดข้อมูลสเปกตรัมของชุดคาลิเบรชั่นและชุดพิสูจน์ สำหรับชุดข้อมูลที่มีขนาดใหญ่เพียงพอแนะนำให้เลือกที่จะกำหนดจำนวนสเปกตรัมของทั้งสองชุดให้เท่ากัน แต่ถ้าจำนวนข้อมูลที่ไม่เพียงพอ ก็จำเป็นที่จะต้องสร้างชุดข้อมูลคาลิเบรชั่นที่ครอบคลุม ในกรณีนี้จะไม่กำหนดชุดสเปกตรัมทดสอบ การประเมินผลต่อมาของแบบจำลองจะทำโดยวิธีพิสูจน์แบบไขว้ (Cross validation)
ขั้นตอนที่ 2: การจัดการข้อมูลเบื้องต้น (Data Preprocessing)
ในขั้นตอนนี้วิธีการจัดการข้อมูลสเปกตรัมข้อมูลเบื้องต้นจะถูกเลือก มักจะจำเป็นที่จะกำจัดปัญหาการขยับขึ้นของสเปกตรัม (Base line drifts) ในทางปฏิบัติการลบด้วยเส้นตรง (Subtraction of a straight line) vector normalization หรือการทำ first derivative ของสเปกตรัมมักจะนำไปสู่แบบจำลอง PLS ที่เหมาะสม (ดี)
ขั้นตอนที่ 3: นิยามของช่วงความถี่ที่เหมาะสม (Definition of an Appropriate Frequency Range)
การเลือกช่วงความถี่ที่เหมาะสมมีความสำคัญอย่างยิ่งต่อคุณภาพของแบบจำลอง PLS เมื่อมีการเริ่มสร้างแบบจำลองสิ่งแรกควรใช้ช่วงความถี่ของคลื่นที่มีความสัมพันธ์ที่ดีระหว่างการเปลี่ยนแปลงในสเปกตรัมกับความเข้มข้น ขอบเขตของความสัมพันธ์สามารถตัดสินได้อย่างง่ายโดยโดยค่าสัมประสิทธิ์ของการพิจารณา (coefficient of determination, R2 ) (ดู ขั้นตอน 4.)
ขั้นตอนที่ 4: การพิสูจน์และการทำให้วิธีการเหมาะสม (Validation and Optimization of the Method)
ความเหมาะสมของวิธีการจัดการข้อมูลเบี้องต้นที่เลือกใช้ และของช่วงความถี่สำหรับการวัดที่กำหนดจะถูกประเมินระหว่างการพิสูจน์ ในขั้นตอนนี้พารามิเตอร์ที่สำคัญเช่นสัมประสิทธิ์ของการพิจารณา (coefficient of determination, R2 ) และ ค่าเฉลี่ยของความผิดพลาดในการทำนาย (mean errors of prediction RMSECV or RMSEP) จะถูกคำนวณ นอกจากนี้มีการระบุข้อมูลที่ผิดปกติ (Outlier) โดยอัตโนมัติ (ดูบทที่ 5) แล้วสรุปผลในรายงาน เพื่อให้ได้รับวิธีการที่เหมาะสม สัมประสิทธิ์ของการพิจารณา (coefficient of determination, R2 ) และค่าเฉลี่ยของความผิดพลาดในการทำนาย จะสรุปในตารางทั้งหมดสำหรับ วิธีการจัดการข้อมูลเบื้องต้นต่างที่ได้ผล “sensible” รวมถึงช่วงความถี่ (มันเป็นงานของผู้เชี่ยวชาญที่จะหาวิธีการที่มีความหมายโดยมีคำแนะนำที่ไม่ธรรมดาเป็นเบื้องต้น) ตารางที่ 4.1 แสดงแนวทางการสรุปผลของการพิสูจน์
ตารางที่ 4.1 แบบฟอร์มสำหรับเปรียบเทียบผลคุณภาพของการพิสูจน์
ลำดับ |
การจัดการข้อมูลเบื้องต้น |
ช่วงความถี่ (cm-1) |
จำนวนแฟคเตอร์ที่เหมาะสม |
สัมประสิทธิ์ของการพิจารณา R2 (%) |
ค่าเฉลี่ยของความผิดพลาดในการทำนาย |
หมายเหตุ |
1 |
1st Derrivative |
7,835-8,905 |
9 |
99.78 |
0.035 |
จำนวนแฟคเตอร์มากเกินไป |
2 |
MSC |
4,755-5,235 |
5 |
99.80 |
0.031 |
เหมาะสม |
3 |
1st Der. + VN |
4,755-5,825 |
7 |
99.23 |
0.041 |
มี Outlier |
4 |
Vector Norm. |
5,745-6,105 |
6 |
99.05 |
0.052 |
|
การตั้งค่า (Setting) ที่ทำให้ค่า R2 มีค่าสูงๆ และมีความผิดพลาดเฉลี่ยต่ำ ควรจะใช้สำหรับ calibration ยิ่งกว่านั้นในหลายๆกรณี มีเหตุผลที่เลือกการตั้งค่าที่ทำให้จำนวนแฟคเตอร์มีค่าน้อยๆ โดยมีผลของการพิสูจน์ที่ดี
ตัวอย่างที่เป็น outlier สามารถตรวจพบได้อย่างง่ายดายในขณะพิสูจน์แบบจำลอง ตัวอย่างที่เป็น outlier มีความแตกต่าง ตัวอย่างเช่น มีค่า F-values หรือ FProb-values ที่มีค่าสูงโดยอย่างผิดปกติ ถ้าการตรวจสอบตัวอย่างเหล่านี้อย่างอิสระสามารถยืนยันว่าค่าเหล่านี้มีสาเหตุที่ผิดพลาดจากวัดก็สามารถกำจัดตัวอย่างเหล่านี้ได้โดยเอาออกจากชุดข้อมูล
ขั้นตอนที่ 5: คาลิเบรชั่น (The Calibration)
หลังจาก outlier ถูกเอาออกจากชุดคาลิเบรชั่น และหลังจากที่เลือกพารามิเตอร์ที่ดีที่สุดของระบบแล้ว แบบจำลองคาลิเบรชั่นสุดท้ายจะถูกสร้าง ระหว่างการคาลิเบรชั่น ค่า score และ loading vector จะถูกคำนวณ ดังนั้นจะได้ ฟังค์ชั่นคาลิเบรชั่น b (ดูในบทที่ 2) ค่าเหล่านี้จะถูกเก็บไว้ภายใน และสามารถใช้ในการวิเคราะห์ตัวอย่างใหม่
ขั้นตอนที่ 6: ขั้นตอนการวิเคราะห์ (The Analysis)
ขั้นตอนสุดท้าย แบบจำลองของค่าทางเคมีที่ดีที่สุดจะถูกใช้วิเคราะห์ตัวอย่างใหม่ ในขณะเดียวกันความน่าเชื่อถือของการวิเคราะห์สามารถตรวจสอบโดยใช้พารามิเตอร์ของลักษณะเฉพาะ หนึ่งในการคำนวณนี้เรียกว่าการคำนวณค่า “Mahalanobis” distance ซึ่งโครงสร้างเชิงสเปกตรัมของชุดข้อมูลคาลิเบรชั่นที่สมบูรณ์ จะนำมาเปรียบเทียบกับโครงสร้างของชุดข้อมูลตัวอย่างใหม่ ถ้าโครงสร้างเชิงสเปกตรัมของตัวอย่างใหม่ไม่สอดคล้องกับโครงสร้างเชิงสเปกตรัมของชุดข้อมูลคาลิเบรชั่นหรือถ้าค่าองค์ประกอบของตัวอย่างใหม่อยู่นอกช่วงชุดข้อมูลคาลิเบรชั่น จะพบว่า Mahalanobis distance จะเพิ่ม (ดูบทที่ 7)
วิธีการเพิ่มเติมซึ่งมักจะใช้ตรวจสอบ outlier คือการคำนวณจากความผิดพลาดเชิงสเปกตรัม (spectral residuae) วิธีการนี้ความแตกต่างถูกคำนวณระหว่างสเปกตรัมจากการวัดและสเปกตรัมซึ่งถูกคาดหวังในทางทฤษฎีจากการวิเคราะห์แฟคเตอร์ของสเปกตรัมของชุดข้อมูลคาลิเบรชั่น หากมีความแตกต่างกันน้อยลง (ความผิดพลาดน้อยลง) ผลการวิเคราะห์ก็น่าเชื่อถือมากขึ้น (ดูบทที่ 7) ค่าความผิดพลาดของสเปกตรัมและระยะห่าง Mahalanobis คือค่าเชิงปริมาณสำหรับบ่งบอกคุณภาพผลการวิเคราะห์ นอกจากนี้ยังมีตัวเลขทางสถิติที่เป็นพารามิเตอร์ตัวแปรในการกำหนดตัวแปรที่ผิดปกติ (outliers) ซึ่งจะยังไม่กล่าวในที่นี้ ดังนั้นการวิเคราะห์จะให้ข้อมูลสองส่วนที่มีความสัมพันธ์กัน นั่นคือค่าผลการวิเคราะห์ของตัวอย่างและพิจารณาoutlier ทำให้แน่ใจว่าถ้าผู้ใช้มีการวัดที่ผิดพลาดทำให้เป็นเหตุให้เกิดความไม่ถูกต้องของผลการวิเคราะห์
[1] “The copyright is belong to Dr. Jörg-Peter Conzen”
30 กันยายน 2561
ผู้ชม 2281 ครั้ง