CHAPTER 4 PRACTICAL PROCEDURE FOR SETTING UP A MODEL

หมวดหมู่: Translated book

บทที่ 4
วิธีปฏิบัติสำหรับการตั้งค่าการสร้างโมเดล
PRACTICAL PROCEDURE FOR SETTING UP A MODEL

ขั้นตอนเชิงทฤษฎีสำหรับการสร้าง PLS จะอธิบายในบทสุดท้าย ในบทนี้อธิบายถึงข้อพิจารณาเชิงปฏิบัติ เริ่มจากการเก็บค่าสเปกตรัมถึงการวิเคราะห์ตัวอย่างที่ไม่รู้จัก จะมี 6 ขั้นตอนที่จำเป็นดังนี้

ขั้นตอนที่ 1: การใส่ข้อมูลสเปกตรัมและข้อมูลความเข้มข้น (Entering Spectral Data and Concentration Data)
ก่อนที่จะคำนวณแบบจำลองต้องใส่ข้อมูลสเปกตรัมและข้อมูลความเข้มข้นที่สอดคล้องกันสำหรับแต่ละองค์ประกอบ นอกจากนี้มันจำเป็นที่จะกำหนดชุดข้อมูลสเปกตรัมของชุดคาลิเบรชั่นและชุดพิสูจน์ สำหรับชุดข้อมูลที่มีขนาดใหญ่เพียงพอแนะนำให้เลือกที่จะกำหนดจำนวนสเปกตรัมของทั้งสองชุดให้เท่ากัน แต่ถ้าจำนวนข้อมูลที่ไม่เพียงพอ ก็จำเป็นที่จะต้องสร้างชุดข้อมูลคาลิเบรชั่นที่ครอบคลุม ในกรณีนี้จะไม่กำหนดชุดสเปกตรัมทดสอบ การประเมินผลต่อมาของแบบจำลองจะทำโดยวิธีพิสูจน์แบบไขว้ (Cross validation)

ขั้นตอนที่ 2: การจัดการข้อมูลเบื้องต้น (Data Preprocessing)
ในขั้นตอนนี้วิธีการจัดการข้อมูลสเปกตรัมข้อมูลเบื้องต้นจะถูกเลือก มักจะจำเป็นที่จะกำจัดปัญหาการขยับขึ้นของสเปกตรัม (Base line drifts) ในทางปฏิบัติการลบด้วยเส้นตรง (Subtraction of a straight line) vector normalization หรือการทำ first derivative ของสเปกตรัมมักจะนำไปสู่แบบจำลอง PLS ที่เหมาะสม (ดี)

ขั้นตอนที่ 3: นิยามของช่วงความถี่ที่เหมาะสม (Definition of an Appropriate Frequency Range)
การเลือกช่วงความถี่ที่เหมาะสมมีความสำคัญอย่างยิ่งต่อคุณภาพของแบบจำลอง PLS เมื่อมีการเริ่มสร้างแบบจำลองสิ่งแรกควรใช้ช่วงความถี่ของคลื่นที่มีความสัมพันธ์ที่ดีระหว่างการเปลี่ยนแปลงในสเปกตรัมกับความเข้มข้น ขอบเขตของความสัมพันธ์สามารถตัดสินได้อย่างง่ายโดยโดยค่าสัมประสิทธิ์ของการพิจารณา (coefficient of determination, R²) (ดู ขั้นตอน 4.)

ขั้นตอนที่ 4: การพิสูจน์และการทำให้วิธีการเหมาะสม (Validation and Optimization of the Method)
ความเหมาะสมของวิธีการจัดการข้อมูลเบี้องต้นที่เลือกใช้ และของช่วงความถี่สำหรับการวัดที่กำหนดจะถูกประเมินระหว่างการพิสูจน์ ในขั้นตอนนี้พารามิเตอร์ที่สำคัญเช่นสัมประสิทธิ์ของการพิจารณา (coefficient of determination, R²) และ ค่าเฉลี่ยของความผิดพลาดในการทำนาย (mean errors of prediction RMSECV or RMSEP) จะถูกคำนวณ นอกจากนี้มีการระบุข้อมูลที่ผิดปกติ (Outlier) โดยอัตโนมัติ (ดูบทที่ 5) แล้วสรุปผลในรายงาน เพื่อให้ได้รับวิธีการที่เหมาะสม สัมประสิทธิ์ของการพิจารณา (coefficient of determination, R²) และค่าเฉลี่ยของความผิดพลาดในการทำนาย จะสรุปในตารางทั้งหมดสำหรับ วิธีการจัดการข้อมูลเบื้องต้นต่างที่ได้ผล “sensible” รวมถึงช่วงความถี่ (มันเป็นงานของผู้เชี่ยวชาญที่จะหาวิธีการที่มีความหมายโดยมีคำแนะนำที่ไม่ธรรมดาเป็นเบื้องต้น) ตารางที่ 4.1 แสดงแนวทางการสรุปผลของการพิสูจน์
ตารางที่ 4.1 แบบฟอร์มสำหรับเปรียบเทียบผลคุณภาพของการพิสูจน์

ลำดับ	การจัดการข้อมูลเบื้องต้น	ช่วงความถี่ (cm^-1)	จำนวนแฟคเตอร์ที่เหมาะสม	สัมประสิทธิ์ของการพิจารณา R^{2 (%)}	ค่าเฉลี่ยของความผิดพลาดในการทำนาย	หมายเหตุ
1	1^stDerrivative	7,835-8,905	9	99.78	0.035	จำนวนแฟคเตอร์มากเกินไป
2	MSC	4,755-5,235	5	99.80	0.031	เหมาะสม
3	1^st Der. + VN	4,755-5,825	7	99.23	0.041	มี Outlier
4	Vector Norm.	5,745-6,105	6	99.05	0.052

การตั้งค่า (Setting) ที่ทำให้ค่า R²มีค่าสูงๆ และมีความผิดพลาดเฉลี่ยต่ำ ควรจะใช้สำหรับ calibration ยิ่งกว่านั้นในหลายๆกรณี มีเหตุผลที่เลือกการตั้งค่าที่ทำให้จำนวนแฟคเตอร์มีค่าน้อยๆ โดยมีผลของการพิสูจน์ที่ดี
ตัวอย่างที่เป็น outlier สามารถตรวจพบได้อย่างง่ายดายในขณะพิสูจน์แบบจำลอง ตัวอย่างที่เป็น outlier มีความแตกต่าง ตัวอย่างเช่น มีค่า F-values หรือ FProb-values ที่มีค่าสูงโดยอย่างผิดปกติ ถ้าการตรวจสอบตัวอย่างเหล่านี้อย่างอิสระสามารถยืนยันว่าค่าเหล่านี้มีสาเหตุที่ผิดพลาดจากวัดก็สามารถกำจัดตัวอย่างเหล่านี้ได้โดยเอาออกจากชุดข้อมูล

ขั้นตอนที่ 5: คาลิเบรชั่น (The Calibration)
หลังจาก outlier ถูกเอาออกจากชุดคาลิเบรชั่น และหลังจากที่เลือกพารามิเตอร์ที่ดีที่สุดของระบบแล้ว แบบจำลองคาลิเบรชั่นสุดท้ายจะถูกสร้าง ระหว่างการคาลิเบรชั่น ค่า score และ loading vector จะถูกคำนวณ ดังนั้นจะได้ ฟังค์ชั่นคาลิเบรชั่น b (ดูในบทที่ 2) ค่าเหล่านี้จะถูกเก็บไว้ภายใน และสามารถใช้ในการวิเคราะห์ตัวอย่างใหม่

ขั้นตอนที่ 6: ขั้นตอนการวิเคราะห์ (The Analysis)
ขั้นตอนสุดท้าย แบบจำลองของค่าทางเคมีที่ดีที่สุดจะถูกใช้วิเคราะห์ตัวอย่างใหม่ ในขณะเดียวกันความน่าเชื่อถือของการวิเคราะห์สามารถตรวจสอบโดยใช้พารามิเตอร์ของลักษณะเฉพาะ หนึ่งในการคำนวณนี้เรียกว่าการคำนวณค่า “Mahalanobis” distance ซึ่งโครงสร้างเชิงสเปกตรัมของชุดข้อมูลคาลิเบรชั่นที่สมบูรณ์ จะนำมาเปรียบเทียบกับโครงสร้างของชุดข้อมูลตัวอย่างใหม่ ถ้าโครงสร้างเชิงสเปกตรัมของตัวอย่างใหม่ไม่สอดคล้องกับโครงสร้างเชิงสเปกตรัมของชุดข้อมูลคาลิเบรชั่นหรือถ้าค่าองค์ประกอบของตัวอย่างใหม่อยู่นอกช่วงชุดข้อมูลคาลิเบรชั่น จะพบว่า Mahalanobis distance จะเพิ่ม (ดูบทที่ 7)
วิธีการเพิ่มเติมซึ่งมักจะใช้ตรวจสอบ outlier คือการคำนวณจากความผิดพลาดเชิงสเปกตรัม (spectral residuae) วิธีการนี้ความแตกต่างถูกคำนวณระหว่างสเปกตรัมจากการวัดและสเปกตรัมซึ่งถูกคาดหวังในทางทฤษฎีจากการวิเคราะห์แฟคเตอร์ของสเปกตรัมของชุดข้อมูลคาลิเบรชั่น หากมีความแตกต่างกันน้อยลง (ความผิดพลาดน้อยลง) ผลการวิเคราะห์ก็น่าเชื่อถือมากขึ้น (ดูบทที่ 7) ค่าความผิดพลาดของสเปกตรัมและระยะห่าง Mahalanobis คือค่าเชิงปริมาณสำหรับบ่งบอกคุณภาพผลการวิเคราะห์ นอกจากนี้ยังมีตัวเลขทางสถิติที่เป็นพารามิเตอร์ตัวแปรในการกำหนดตัวแปรที่ผิดปกติ (outliers) ซึ่งจะยังไม่กล่าวในที่นี้ ดังนั้นการวิเคราะห์จะให้ข้อมูลสองส่วนที่มีความสัมพันธ์กัน นั่นคือค่าผลการวิเคราะห์ของตัวอย่างและพิจารณาoutlier ทำให้แน่ใจว่าถ้าผู้ใช้มีการวัดที่ผิดพลาดทำให้เป็นเหตุให้เกิดความไม่ถูกต้องของผลการวิเคราะห์

[1] “The copyright is belong to Dr. Jörg-Peter Conzen”

30 กันยายน 2561

ผู้ชม 2409 ครั้ง