CHAPTER 4 PRACTICAL PROCEDURE FOR SETTING UP A MODEL

หมวดหมู่: Translated book

บทที่ 4
วิธีปฏิบัติสำหรับการตั้งค่าการสร้างโมเดล
PRACTICAL PROCEDURE FOR SETTING UP A MODEL

ขั้นตอนเชิงทฤษฎีสำหรับการสร้าง PLS จะอธิบายในบทสุดท้าย ในบทนี้อธิบายถึงข้อพิจารณาเชิงปฏิบัติ เริ่มจากการเก็บค่าสเปกตรัมถึงการวิเคราะห์ตัวอย่างที่ไม่รู้จัก จะมี 6 ขั้นตอนที่จำเป็นดังนี้

ขั้นตอนที่ 1: การใส่ข้อมูลสเปกตรัมและข้อมูลความเข้มข้น (Entering Spectral Data and Concentration Data)
ก่อนที่จะคำนวณแบบจำลองต้องใส่ข้อมูลสเปกตรัมและข้อมูลความเข้มข้นที่สอดคล้องกันสำหรับแต่ละองค์ประกอบ นอกจากนี้มันจำเป็นที่จะกำหนดชุดข้อมูลสเปกตรัมของชุดคาลิเบรชั่นและชุดพิสูจน์ สำหรับชุดข้อมูลที่มีขนาดใหญ่เพียงพอแนะนำให้เลือกที่จะกำหนดจำนวนสเปกตรัมของทั้งสองชุดให้เท่ากัน แต่ถ้าจำนวนข้อมูลที่ไม่เพียงพอ ก็จำเป็นที่จะต้องสร้างชุดข้อมูลคาลิเบรชั่นที่ครอบคลุม ในกรณีนี้จะไม่กำหนดชุดสเปกตรัมทดสอบ การประเมินผลต่อมาของแบบจำลองจะทำโดยวิธีพิสูจน์แบบไขว้ (Cross validation)

ขั้นตอนที่ 2: การจัดการข้อมูลเบื้องต้น  (Data Preprocessing)
ในขั้นตอนนี้วิธีการจัดการข้อมูลสเปกตรัมข้อมูลเบื้องต้นจะถูกเลือก มักจะจำเป็นที่จะกำจัดปัญหาการขยับขึ้นของสเปกตรัม (Base line drifts) ในทางปฏิบัติการลบด้วยเส้นตรง (Subtraction of a straight line) vector normalization หรือการทำ first derivative ของสเปกตรัมมักจะนำไปสู่แบบจำลอง PLS ที่เหมาะสม (ดี)

ขั้นตอนที่ 3: นิยามของช่วงความถี่ที่เหมาะสม (Definition of an Appropriate Frequency Range)
            การเลือกช่วงความถี่ที่เหมาะสมมีความสำคัญอย่างยิ่งต่อคุณภาพของแบบจำลอง PLS เมื่อมีการเริ่มสร้างแบบจำลองสิ่งแรกควรใช้ช่วงความถี่ของคลื่นที่มีความสัมพันธ์ที่ดีระหว่างการเปลี่ยนแปลงในสเปกตรัมกับความเข้มข้น ขอบเขตของความสัมพันธ์สามารถตัดสินได้อย่างง่ายโดยโดยค่าสัมประสิทธิ์ของการพิจารณา (coefficient of determination, R) (ดู ขั้นตอน 4.)

ขั้นตอนที่ 4: การพิสูจน์และการทำให้วิธีการเหมาะสม (Validation and Optimization of the Method)
          ความเหมาะสมของวิธีการจัดการข้อมูลเบี้องต้นที่เลือกใช้ และของช่วงความถี่สำหรับการวัดที่กำหนดจะถูกประเมินระหว่างการพิสูจน์ ในขั้นตอนนี้พารามิเตอร์ที่สำคัญเช่นสัมประสิทธิ์ของการพิจารณา (coefficient of determination, Rและ ค่าเฉลี่ยของความผิดพลาดในการทำนาย (mean errors of prediction RMSECV or RMSEP) จะถูกคำนวณ นอกจากนี้มีการระบุข้อมูลที่ผิดปกติ (Outlier) โดยอัตโนมัติ (ดูบทที่ 5) แล้วสรุปผลในรายงาน เพื่อให้ได้รับวิธีการที่เหมาะสม  สัมประสิทธิ์ของการพิจารณา (coefficient of determination, Rและค่าเฉลี่ยของความผิดพลาดในการทำนาย จะสรุปในตารางทั้งหมดสำหรับ วิธีการจัดการข้อมูลเบื้องต้นต่างที่ได้ผล “sensible” รวมถึงช่วงความถี่ (มันเป็นงานของผู้เชี่ยวชาญที่จะหาวิธีการที่มีความหมายโดยมีคำแนะนำที่ไม่ธรรมดาเป็นเบื้องต้น) ตารางที่ 4.1 แสดงแนวทางการสรุปผลของการพิสูจน์
ตารางที่ 4.1 แบบฟอร์มสำหรับเปรียบเทียบผลคุณภาพของการพิสูจน์

 

ลำดับ

การจัดการข้อมูลเบื้องต้น

ช่วงความถี่ (cm-1)

จำนวนแฟคเตอร์ที่เหมาะสม

สัมประสิทธิ์ของการพิจารณา  R2 (%)

ค่าเฉลี่ยของความผิดพลาดในการทำนาย

หมายเหตุ

1

1st Derrivative

7,835-8,905

9

99.78

0.035

จำนวนแฟคเตอร์มากเกินไป

2

MSC

4,755-5,235

5

99.80

0.031

เหมาะสม

3

1st Der. + VN

4,755-5,825

7

99.23

0.041

มี Outlier

4

Vector Norm.

5,745-6,105

6

99.05

0.052

 

 

การตั้งค่า (Setting) ที่ทำให้ค่า Rมีค่าสูงๆ และมีความผิดพลาดเฉลี่ยต่ำ ควรจะใช้สำหรับ calibration ยิ่งกว่านั้นในหลายๆกรณี มีเหตุผลที่เลือกการตั้งค่าที่ทำให้จำนวนแฟคเตอร์มีค่าน้อยๆ โดยมีผลของการพิสูจน์ที่ดี
          ตัวอย่างที่เป็น outlier สามารถตรวจพบได้อย่างง่ายดายในขณะพิสูจน์แบบจำลอง ตัวอย่างที่เป็น outlier มีความแตกต่าง ตัวอย่างเช่น มีค่า F-values หรือ FProb-values ที่มีค่าสูงโดยอย่างผิดปกติ ถ้าการตรวจสอบตัวอย่างเหล่านี้อย่างอิสระสามารถยืนยันว่าค่าเหล่านี้มีสาเหตุที่ผิดพลาดจากวัดก็สามารถกำจัดตัวอย่างเหล่านี้ได้โดยเอาออกจากชุดข้อมูล

ขั้นตอนที่ 5: คาลิเบรชั่น (The Calibration)
          หลังจาก outlier ถูกเอาออกจากชุดคาลิเบรชั่น และหลังจากที่เลือกพารามิเตอร์ที่ดีที่สุดของระบบแล้ว แบบจำลองคาลิเบรชั่นสุดท้ายจะถูกสร้าง ระหว่างการคาลิเบรชั่น ค่า score และ loading vector จะถูกคำนวณ ดังนั้นจะได้ ฟังค์ชั่นคาลิเบรชั่น b (ดูในบทที่ 2) ค่าเหล่านี้จะถูกเก็บไว้ภายใน และสามารถใช้ในการวิเคราะห์ตัวอย่างใหม่

ขั้นตอนที่ 6: ขั้นตอนการวิเคราะห์ (The Analysis)
          ขั้นตอนสุดท้าย แบบจำลองของค่าทางเคมีที่ดีที่สุดจะถูกใช้วิเคราะห์ตัวอย่างใหม่  ในขณะเดียวกันความน่าเชื่อถือของการวิเคราะห์สามารถตรวจสอบโดยใช้พารามิเตอร์ของลักษณะเฉพาะ หนึ่งในการคำนวณนี้เรียกว่าการคำนวณค่า “Mahalanobis” distance ซึ่งโครงสร้างเชิงสเปกตรัมของชุดข้อมูลคาลิเบรชั่นที่สมบูรณ์ จะนำมาเปรียบเทียบกับโครงสร้างของชุดข้อมูลตัวอย่างใหม่  ถ้าโครงสร้างเชิงสเปกตรัมของตัวอย่างใหม่ไม่สอดคล้องกับโครงสร้างเชิงสเปกตรัมของชุดข้อมูลคาลิเบรชั่นหรือถ้าค่าองค์ประกอบของตัวอย่างใหม่อยู่นอกช่วงชุดข้อมูลคาลิเบรชั่น จะพบว่า Mahalanobis distance จะเพิ่ม  (ดูบทที่ 7)
วิธีการเพิ่มเติมซึ่งมักจะใช้ตรวจสอบ outlier คือการคำนวณจากความผิดพลาดเชิงสเปกตรัม (spectral residuae) วิธีการนี้ความแตกต่างถูกคำนวณระหว่างสเปกตรัมจากการวัดและสเปกตรัมซึ่งถูกคาดหวังในทางทฤษฎีจากการวิเคราะห์แฟคเตอร์ของสเปกตรัมของชุดข้อมูลคาลิเบรชั่น หากมีความแตกต่างกันน้อยลง (ความผิดพลาดน้อยลง) ผลการวิเคราะห์ก็น่าเชื่อถือมากขึ้น (ดูบทที่ 7) ค่าความผิดพลาดของสเปกตรัมและระยะห่าง Mahalanobis คือค่าเชิงปริมาณสำหรับบ่งบอกคุณภาพผลการวิเคราะห์ นอกจากนี้ยังมีตัวเลขทางสถิติที่เป็นพารามิเตอร์ตัวแปรในการกำหนดตัวแปรที่ผิดปกติ (outliers) ซึ่งจะยังไม่กล่าวในที่นี้ ดังนั้นการวิเคราะห์จะให้ข้อมูลสองส่วนที่มีความสัมพันธ์กัน นั่นคือค่าผลการวิเคราะห์ของตัวอย่างและพิจารณาoutlier ทำให้แน่ใจว่าถ้าผู้ใช้มีการวัดที่ผิดพลาดทำให้เป็นเหตุให้เกิดความไม่ถูกต้องของผลการวิเคราะห์
 

[1] “The copyright is belong to Dr. Jörg-Peter Conzen”

 

30 กันยายน 2561

ผู้ชม 2348 ครั้ง

Engine by shopup.com