CHAPTER 6 A PRACTICAL EXAMPLE

หมวดหมู่: Translated book

บทที่ 6
ตัวอย่างในทางปฏิบัติ
A PRACTICAL EXAMPLE

ในบทก่อนหน้านี้ทุกพารามิเตอร์ของระบบที่เกี่ยวข้องได้อธิบายและ จัดหมวดหมู่ซึ่งอธิบายเกี่ยวกับการทำ PLS Regression ที่เหมาะสมซึ่งต่อไปนี้จะแสดงตัวอย่างในทางปฏิบัติและได้แสดงวิธีการพัฒนาวิธีคาลิเบรชั่นที่มีประสิทธิภาพที่สุด และได้แสดงให้นักวิเคราะห์เห็นถึงว่าการใช้วิธีการพิสูจน์ที่ไม่เหมาะสมทำให้ได้แบบจำลองที่ไม่มีความหมายได้อย่างไรและเกณฑ์อะไรที่สามารถใช้ในการยอมรับแบบจำลองดังกล่าว

A. การพัฒนาวิธีการและการพิสูจน์ (Method Development and Validation)
ทุก PLS คาลิเบริชั่นต้องเลือกช่วงความถี่ที่เหมาะสม การจัดการข้อมูลเบื้องต้นที่เหมาะสมและจำนวนแฟคเตอร์ที่เหมาะสม แฟคเตอร์เหล่านี้นี้ขึ้นอยู่กับความหลากหลายของพารามิเตอร์ของระบบและเป็นไปไม่ได้ที่จะคำนวณหาจำนวนแฟคเตอร์โดยการพิจารณาทางทฤษฎี ดังนั้นต้องประเมินโดยการทดลองซึ่งสามารถทำได้ดังนี้
ต้องใช้ตัวอย่างทดสอบจำนวนมาก ทั้งนี้ขึ้นอยู่กับงาน ชุดข้อมูลคาลิเบรชั่น ประมาณ 20-200 ตัวอย่างเป็นสิ่งที่จำเป็น ยิ่งถ้าตัวอย่างมีองค์ประกอบซับซ้อนมาก จำนวนสเปกตรัมที่จำเป็นสำหรับการคาลิเบรชั่นก็ต้องมีมากเช่นเดียวกัน ตัวอย่างเช่นสารผสมสององค์ประกอบสามารถทำแบบจำลองโดยใช้เพียงไม่กี่สเปกตรัม ระบบที่ซับซ้อน เช่นสารประกอบธรรมชาติ หรือการหาค่าพารามิเตอร์ทางกายภาพของผลิตภัณฑ์ปิโตรเคมีต้องการของความพยายามที่สูงกว่า
แม้ว่าสำหรับงานที่มีการวิเคราะห์ที่ง่ายมากก็ควรใช้ตัวอย่างอย่างน้อย 20 ตัวอย่าง เพื่อสร้างชุดข้อมูลที่เกี่ยวข้องทางสถิติ
การสร้างแบบจำลอง สเปกตรัมของชุดคาลิเบรชั่นและค่าอ้างอิงที่สอดคล้องกันจะถูกป้อนเข้าสู่ซอฟต์แวร์ PLS ช่วงความถี่ที่เหมาะสมและวิธีการจัดการข้อมูลเบื้องต้นถูกกำหนดขึ้น และดำเนินการทำคาลิเบรชั่น คุณภาพของชุดคาลิเบรชั่นจะประเมินโดยวิธีการการพิสูจน์ (ดูบทที่ 4) ขึ้นอยู่กับผู้ใช้ว่าจะตัดสินใจว่าเขาต้องการที่จะดำเนินการประเมินผลโดยใช้การพิสูจน์ภายนอก (ชุดทดสอบ) หรือการพิสูจน์ภายใน (แบบไขว้) ส่วนมากมักจะใช้การพิสูจน์แบบไขว้มีข้อได้เปรียบ: สเปกตรัมทั้งหมดถูกใช้เป็นชุดคาลิเบรชั่นและการพิสูจน์ต่อมา ไม่มีส่วนหนึ่งส่วนใดของการวัดการสูญหายโดยการกำหนดการทดสอบชุดข้อมูลการพิสูจน์ภายนอก (ดูบทที่ 3)
คุณภาพของชุดคาลิเบรชั่นสามารถประเมินได้ง่ายจากค่าของค่าสัมประสิทธิ์ของการพิจารณา R2 และความผิดพลาดเฉลี่ยในการวิเคราะห์ (RMSECV หรือ RMSEP) ซึ่งได้แสดงไว้ในตัวอย่างต่อไปนี้โดยการวิเคราะห์เนียร์อินฟราเรดสเปกโทรสโกปีของสารผสมของเมธานอล (CH3OH) เอทานอล (C2H5OH) และโพรพานอล (C3H7OH) ถูกวัดโดยใช้ Bruker near-infrared spectrometer (Matrix F) โดยใช้ช่วงสเปกตรัมจาก 10,000 cm-1 ถึง 4,000 cm-1 (ความยาวเส้นทางแสงของคิวเว็ต: 2 mm; ความละเอียดสเปกตรัม 8 cm-1, เชื่อมต่อผ่านเส้นใยแสง 50 เมตร) วัดสารผสมทั้งหมด 30 ตัวอย่างที่ช่วงความเข้มข้น 0-100% รูปที่6.1 แสดงการเลือกสเปกตรัมที่สอดคล้อง

 

รูปที่ 6.1 สเปกตรัมเนียร์อินฟราเรดของสารผสมของ เมธานอล เอทานอล และ โพรพานอล (คิวเวตที่ถูกต่อกับเส้นใยแก้วนำแสง 50 เมตร, เส้นทางแสงผ่าน 2 มิลลิเมตร)

 

การซ้อนทับกันอย่างมากของสัญญาณของสารที่ต้องการวิเคราะห์ สามารถสังเกตได้แม้ว่าจะเป็นของผสมที่มีองค์ประกอบสามอย่างดังกล่าว มีสัญญาณสำคัญสี่กลุ่ม: COH-combination (ที่ 4,800 cm-1) หรือ first overtone ของกลุ่ม CH2- และ CH3- (6,000 cm-1 - 5,500 cm-1) และ กลุ่ม COH (7,300 cm-1 - 6,000 cm-1) เช่นเดียวกับ second overtone ของกลุ่ม CH2- และ CH3- (8,800 cm-1 - 7,800 cm-1) สเปกตรัมแสดงว่าไม่มีสัญญาณที่เกี่ยวข้องช่วงที่มากกว่า 9,000 cm-1 และที่ค่าน้อยกว่า 4,400 cm-1 พบสเปกตรัมที่มีสัญญาณรบกวนเป็นส่วนใหญ่ ซึ่งแสดงถึงการสูญเสียคลื่นแสงอย่างมากในเส้นใยแก้วนำแสง โดยเฉพาะสเปกตรัม NIR แสดงแถบการซ้อนทับอย่างมาก ซึ่งการคาลิเบรชั่นแบบตัวแปรพหุมีข้อดีอย่างชัดเจนเหนือการคาลิเบรชั่นแบบตัวแปรเดียว ระบบนี้ถูกนำไปทำ PLS คาลิเบรชั่น โดยปกติจะแนะนำให้ทำคาลิเบรชั่นครั้งที่ 1 ตลอดช่วงความถี่ทั้งหมด อย่างไรก็ตาม ควรจะเลือกข้อมูลสเปกตรัมที่มีสัญญาณรบกวนน้อย โดยปกติช่วงที่ขอบเขตของความถี่ที่เป็นไปได้สูงสุดหรือแถบการดูดซับคลื่นที่มีค่าการดูดซับมากกว่า 2.5 หน่วยจะมีความเข้มแสงผ่านมายังดีเทคเตอร์น้อยมาก สัญญาณจะถูกรบกวนมากและไม่ควรนำไปใช้ ดังนั้นสัญญาณที่ต่ำกว่า 4,400 cm-1 และการดูดซับคลื่นประมาณ 4,800 cm-1 ไม่ควรนำมาพิจารณา สเปกตรัมช่วงที่มากกว่า 9,000 cm-1 แสดงการดูดซับคลื่นน้อย ดังนั้นช่วงความถี่แรกที่เหมาะสมสำหรับการคาลิเบรชั่นประมาณ 9,000 - 5,200 cm-1 หากทำการพิสูจน์แบบจำลองสำหรับแบบจำลองที่มีจำนวนของแฟคเตอร์มากขึ้น  มักจะเห็นการปรับปรุงของผลลัพธ์ของการวิเคราะห์ตั้งแต่แรก  ยิ่งใช้จำนวนแฟคเตอร์ที่เลือกยิ่งสูงเท่าไร ข้อมูลสเปกตรัมจะได้รับการประมวลจะมีมากขึ้นเท่านั้นและได้ผลลัพธ์ที่ดีกว่า  อย่างไรก็ตาม สิ่งนี้ไม่สามารถถูกดำเนินต่อเนื่องอย่างไร้กฎเกณฑ์ จากจำนวนแฟคเตอร์ที่แน่นอนที่วิกฤตจะมีส่วนของสิ่งรบกวนสเปกตรัมถูกเพิ่มในแบบจำลองการวิเคราะห์และคุณภาพของแบบจำลองจะถูกทำให้ลดลง  (Overfitting) สิ่งนี้แสดงในรูปที่  6.2 ซึ่งค่าความผิดพลาดของการทำนายเฉลี่ยสำหรับ PLS regression ของการวิเคราะห์ความเข้มข้นของเมธานอลของตัวอย่าง 30 ตัวอย่าง ที่มีส่วนผสมของ CH3OH, C2H5OH และC3H7OH ถูกแสดงเพื่อเป็นตัวอย่างของการเพิ่มขึ้นของจำนวนแฟคเตอร์ การประเมินแบบจำลองถูกทำด้วยวิธีการพิสูจน์แบบไขว้ ขั้นแรกเมื่อสังเกตเห็นถึงการปรับปรุงของผลการวิเคราะห์จากการเพิ่มจำนวนแฟคเตอร์ สำหรับกรณี  7 แฟคเตอร์หรือมากกว่า ผลลัพธ์จะเลวลงอีกครั้ง  เนื่องจากแบบจำลอง Overfit  ดังนั้น 6 แฟคเตอร์ควรจะเหมาะสมที่สุดเพื่อที่จะได้รับผลวิเคราะห์ที่เหมาะสมที่สุดสำหรับในตัวอย่างที่แสดง ความผิดพลาดการทำนายเฉลี่ยเท่ากับ 0.07%  นี้คือค่าความเป็นจริงสำหรับการศึกษาเนียร์อินฟราเรดสเปกโทรสโกปีของของผสมของเหลวที่มีหลายองค์ประกอบที่บริสุทธิ์

รูปที่ 6.2 ความผิดพลาดในการทำนายเฉลี่ยสำหรับเมธานอลที่พล็อตกับจำนวนแฟคเตอร์ของ PIS regression สำหรับเมธานอล/ เอธานอล/ โพรพานอล

 

การเปรียบเทียบค่าการวิเคราะห์ด้วย NIRS และข้อมูลอ้างอิงที่สอดคล้องกัน ที่แสดงสำหรับแบบจำลอง 6แฟกเตอร์แสดงในรูปที่ 6.3 ซึ่งโดยทั่วไปแสดงการจับคู่ที่ดีระหว่างค่าทั้งสอง การวิเคราะห์มักจะนำสเปกตรัมที่เป็นชุดทดสอบอิสระมาวิเคราะห์ นั่นคือสเปกตรัมเหล่านั้นที่ไม่ได้อยู่ในชุดข้อมูลคาลิเบรชั่น เพราะฉะนั้น เราสามารถคาดว่าจะได้ผลลัพธ์ที่ดีที่คล้ายกันในอนาคตสำหรับการวิเคราะห์ของผสมแอลกอฮอล์ใหม่


รูปที่ 6.3 การเปรียบเทียบค่าอ้างอิงและค่าที่ได้จากการวิเคราะห์โดยวิธี PLS Regression เพื่อวัดความเข้มข้นของเมธานอลจากของผสมของเมธานอล / เอทานอล / โพรพานอล ได้ RMSECVmin =0.07% (ช่วงความถี่: 9,000 cm-1 - 5,200cm-1, แฟคเตอร์: 6; การจัดการข้อมูลเบื้องต้น: การลบด้วยเส้นตรง)

 

ดังนั้น จำนวนแฟคเตอร์ที่เหมาะสมสำหรับแบบจำลองคาลิเบรชั่นที่กำหนดไว้แน่นอนสามารถหาได้ง่ายเพราะฉะนั้น คำถามเดียวที่จะต้องตอบ คือ วิธีที่เหมาะสมที่สุดสำหรับงานที่ต้องทำคืออะไร นั่นคือวิธีการ จัดการสเปกตรัมเบื้องต้นและช่วงความถี่ เนื่องจากคำถามนี้ไม่สามารถตอบได้โดยทั่วไป ช่วงความถี่ที่เหมาะสมและวิธีการจัดการสเปกตรัมเบื้องต้นจะต้องพิจารณาโดย “การลองผิด ลองถูก” (trial and error) เพื่อจุดประสงค์นี้ ค่าเหล่านี้มีการเปลี่ยนแปลงอย่างเป็นระบบ และถูกคำนวณในแต่ละกรณีเมื่อมีจำนวนแฟคเตอร์ที่เพิ่มขึ้น การตั้งค่าที่แสดงให้เห็นว่า ค่าสัมประสิทธิ์ในการกำหนด R2มีค่ามากที่สุด และ/หรือ ค่าความผิดพลาดของการทำนายต่ำสุด จะเป็นแบบจำลองในการวิเคราะห์ที่ดีที่สุด การตั้งค่า (Setting) ซึ่งให้ค่าสูงสุดของสัมประสิทธิ์ของการพิจารณา R2 และ/หรือ ค่าความผิดพลาดในการทำนายต่ำสุด ชี้ให้เห็นว่าแบบจำลองนั้นดีที่สุด ดังนั้นความแปรปรวนที่มีความหมายทั้งหมดที่ช่วงความถี่ใดๆและวิธีการจัดการข้อมูลเบื้องต้นถูกทดสอบต่อมาจนกระทั่งได้แบบจำลองที่เหมาะสม สำหรับการเลือกความถี่ที่เหมาะสมในหลายกรณีมันเพียงพอที่จะจัดกลุ่มอย่างเหมาะสมของช่วงความถี่ที่มาก (ดู “การเลือกช่วงสเปกตรัม” ในบทที่ 5)   โดยทั่วไปการหาจุดของข้อมูลเชิงสเปกตรัมแต่ละจุดเป็นเรื่องไม่จำเป็น ความเข้าใจที่ถ่องแท้เกี่ยวกับคณิตศาสตร์พื้นฐานเป็นเรื่องไม่จำเป็นสำหรับการเลือกวิธีการจัดการข้อมูลเบื้องต้นต่างๆและการหาช่วงความถี่ ค่า R2 ที่ดีจะมีค่ามากกว่า 90% สำหรับของแข็ง และมากกว่า 99% สำหรับของเหลว ค่าที่ต่ำกว่าอย่างชัดเจน หมายถึงแบบจำลองคาลิเบรชั่นมีคุณภาพไม่เพียงพอและไม่ควรที่จะนำมาใช้ เพื่อที่จะให้แน่ใจว่าการเปรียบเทียบแบบจำลองต่างๆจะไม่ซับซ้อน ขอแนะนำว่าควรกรอกข้อมูลพารามิเตอร์ที่สำคัญลงในตาราง ดังแสดงในตารางที่ 6.1 ซึ่งเป็นค่าสำหรับการวิเคราะห์เนียร์อินฟราเรดสเปกโทรสโกปีของของผสม เมธานอล/เอธานอล/โพรพานอล ที่ไว้อธิบายผ่านมา (ด้วยเหตุผลเพื่อจะได้ทบทวนให้ดีขึ้นจึงแสดงผลการพิสูจน์เพียง  5 การพิสูจน์เท่านั้น  ในกรณีของการหาค่าที่เหมาะสมในความเป็นจริง คู่ของวิธีการจัดการข้อมูลเบื้องต้นและช่วงความถี่ต่างๆ ควรถูกนำมาลองสภาวะแบบจำลองทีละคู่ ซึ่งมักจะให้ผลดังตารางที่แสดงเป็นวิธีการ (แบบจำลอง) ถึง 30 แบบจำลองหรือมากกว่า)

 

ตารางที่ 6.1 การพิจารณาแบบจำลองที่เหมาะสมสำหรับการวิเคราะห์เนียร์อินฟราเรดสเปกโทรสโกปี เพื่อหาความเข้มข้นของเมธานอล/เอธานอล/โพรพานอล

 

การคาลิเบรชั่นตลอดช่วงสเปกตรัมทั้งหมดระหว่าง 9,000- 5,200 cm-1 สำหรับการจัดการข้อมูลเบื้องต้นด้วยวิธีที่แตกต่างถูกแสดงใน 3 บรรทัดแรก จะเห็นว่าการลบด้วยเส้นตรง (SSL) เป็นวิธีที่เหมาะสมที่สุด (วิธีที่ 2 ในตารางที่ 6.1) ซึ่งได้ผลของการวิเคราะห์ที่ดี ค่าสัมประสิทธิ์ของการพิจารณา (coefficient of determination, R2) มีค่ามากกว่าและหรือค่าเฉลี่ยของความผิดพลาดของการวิเคราะห์น้อยกว่าในแบบจำลองอื่นๆ อีก 2 อัน (วิธีที่ 1 และ 3) เมื่อสังเกตที่ช่วงความถี่ต่อไป (วิธีที่ 4 และ 5) จะเห็นว่าไม่สามารถปรับปรุงแบบจำลองได้อีก ในทำนองเดียวกัน การละเว้นช่วงการเกิดโอเวอร์โทนลำดับที่ 2 (2nd overtone) ของการสั่นของ CH2 และ CH3 ในช่วง 8,800 และ 7,800 cm-1 ไม่นำไปสู่การสูญเสียคุณภาพของการวิเคราะห์ใดๆ ทั้งนี้รวมถึงการละเว้นช่วงการดูดซับที่รุนแรงของ OH ที่ประมาณ 6,900 cm-1 ผลของหลายๆแบบจำลองให้ค่าผิดพลาดเฉลี่ยของการวิเคราะห์เท่ากับ 0.07 เปอร์เซ็นต์ ดังนั้นสิ่งที่เห็นได้อย่างแรกคือทั้ง 3 แบบจำลองสามารถประเมินความเข้มข้นของเมธานอลได้ดีพอๆกัน แต่ควรใช้แบบจำลองซึ่งมีจำนวนแฟคเตอร์น้อยกว่า วิธีซึ่งใช้จำนวนแฟคเตอร์ 2-3 ตัวมักจะมีความเสถียรสูงกว่า ดังนั้นในตัวอย่างที่แสดงนี้ การทำคาลิเบรชั่นในช่วงสเปกตรัมระหว่าง 9,000 – 5,200 cm-1 โดยการใช้ SSL เป็นวิธีการจัดการข้อมูลเบื้องต้น (วิธีที่ 2) อาจจะเป็นประโยชน์ ด้วยการปรับตั้งค่าเหล่านี้สามารถได้วิธีที่มีความเหมาะสมสำหรับการวิเคราะห์ตัวอย่างที่ไม่ทราบค่า ผลที่สำคัญที่สุดควรเขียนลงไปเสมอ ในรูปที่ 6.4 แสดงตัวอย่างสำหรับรายงานการพิสูจน์สำหรับการประยุกต์ใช้ที่แสดงไว้นี้

มันอาจจะสร้างความประหลาดใจให้กับนักวิเคราะห์บางคนว่า ในตัวอย่างที่แสดงในที่นี้ แบบจำลองที่ใช้ในการวิเคราะห์ที่มีความแตกต่างกันมากหลายแบบจำลองนำไปสู่ผลลัพธ์ที่ใกล้เคียงกัน ดังนั้นจุดนี้จะต้องทำให้แน่ชัดต่อไปคือ ความสมมูลกันของแบบจำลองเคโมเมทริกต่างๆสามารถอธิบายโดยมีพื้นฐานจากการทำแฟคเทอไรเซชั่นของสเปกตรัม แฟคเตอร์แต่ละแฟคเตอร์แสดงถึงหน่วยของข้อมูล “information units” ซึ่งแสดงคุณสมบัติที่แน่นอน (และ/หรือ การรวมคุณสมบัติต่างๆ) ของตัวอย่าง ยกตัวอย่าง เช่น ความเข้มข้นของสารเป็นคุณสมบัติของระบบ ในกรณีของการทำแฟคเทอไรเซชั่นที่ประสบความสำเร็จ อัลกอริธึมของ PLS ยอมรับแฟคเตอร์ที่มีความเกี่ยวเนื่องกับการวิเคราะห์และสัมพันธ์สิ่งเหล่านี้กับคุณสมบัติของระบบที่เหมาะสม (เช่น ความเข้มข้นของสารที่วิเคราะห์) โดยทั่วไปจะประสบความสำเร็จสำหรับช่วงของสเปกตรัมหลายช่วง เนื่องจากสสารส่วนใหญ่ครอบครองสัญญาณที่ประเมินได้เชิงวิเคราะห์ในช่วงมากกว่าความถี่ช่วงเดียวในสเปกตรัม เนื่องจากแต่ละช่วงเหล่านี้ประกอบด้วยจุดของข้อมูลที่หลากหลาย (นั่นคือ มีปริมาณข้อมูลเชิงวิเคราะห์ที่สอดคล้องกัน) ดังนั้นบ่อยครั้งที่ระบบถูกพิจารณาเชิงสถิติอย่างปลอดภัยสำหรับทุกช่วงเหล่านี้ ดังนั้นส่วนมากมักจะเลือกแบบจำลองคาลิเบรชั่นของคุณภาพที่สามารถเปรียบเทียบกันได้ ซึ่งจะทำให้ได้ผลของการวิเคราะห์ที่ดีที่คล้ายคลึงกัน

ผลที่สำคัญที่ได้ต่อมาจากการแฟคเทอไรเซชั่นของสเปกตรัม ในกรณีของการคาลิเบรชั่นแบบตัวแปรเดียว (univariate) การวิเคราะห์สารที่มีหลายองค์ประกอบต้องการการแยกของสัญญาณของสารที่วิเคราะห์แต่ละสารอย่างเพียงพอ แต่ละองค์ประกอบถูกกำหนดที่ความยาวคลื่นที่แน่นอนหรือบริเวณที่แน่นอน2 สิ่งนี้ไม่จำเป็นสำหรับการคาลิเบรชั่นแบบหลายตัวแปร ในที่นี้การประเมินผลแบบหลายองค์ประกอบสามารถทำให้บรรลุผลได้จากโครงสร้างสเปกตรัมที่เหมือนกันและวิธีการจัดการข้อมูลเบื้องต้น (data preprocessing) เนื่องจากการทำแฟคเทอไรเซชั่น สเปกตรัมจะถูกแยกเป็นหน่วยของข้อมูลอิสระต่างๆ ดังนั้นมันจึงไม่จำเป็นที่จะแยกโครงสร้างของสเปกตรัมออกจากกันด้วยตัวผู้วิเคราะห์เอง (manually) โดยเฉพาะถ้าสัญญาณต่างๆมีการซ้อนทับกันอย่างรุนแรง จะเป็นประโยชน์กว่าการประเมินแบบตัวแปรเดียว (univariate)

B. การวิเคราะห์และการพิจารณาข้อมูลที่ผิดปกติ (Analysis and Determination of Outliers)

สำหรับการวิเคราะห์ตัวอย่างใหม่ที่ไม่รู้จัก จำเป็นต้องวัดสเปกตรัมและวิเคราะห์โดยใช้แบบจำลองที่กำหนดขึ้นและทำให้เหมาะสมก่อน นอกจากนี้จะคำนวณระยะมาฮาลาโนบิส (Mahalanobis distance) หรือ ค่าผิดพลาดเชิงสเปกตรัม (Spectral residuum) ค่าเหล่านี้สามารถนำมาใช้โดยตรงในการพิจารณาข้อมูลที่ผิดปกติ (Outliers) การรู้ว่าข้อมูลใดเป็นข้อมูลที่ผิดปกติ (Outliers) มีความสำคัญอย่างยิ่งโดยเฉพาะสำหรับการประเมินผล มักจะเป็นไปได้มากที่สารที่จะวิเคราะห์มีการปนเปื้อนหรือถูกวัดอย่างไม่ถูกต้อง มันง่ายที่จะตรวจสอบข้อมูลที่ผิดปกติโดยพิจารณา ระยะมาฮาลาโนบิส (Mahalanobis distance) หรือ ค่าผิดพลาดของสเปกตรัม (Spectral residuum) ถ้าความสัมพันธ์ระหว่างสเปกตรัมที่ทดสอบกับข้อมูลแคลิเบรชั่นยิ่งเลวลง ค่าที่สอดคล้องกัน (ระยะมาฮาลาโนบิส หรือ ค่าผิดพลาดของสเปกตรัม) จะยิ่งสูงขึ้น ในกรณีของการวิเคราะห์ข้อมูลที่ผิดปกติ (Outliers) ระยะมาฮาลาโนบิส (Mahalanobis distance) จะสูงกว่าเกณฑ์ที่สอดคล้องกันและตัวอย่างจะถูกระบุว่าเป็นข้อมูลที่ผิดปกติ (Outliers) ระยะมาฮาลาโนบิสและค่าความผิดพลาดของสเปกตรัมเป็นพารามิเตอร์เชิงปริมาณสำหรับคุณภาพของการวิเคราะห์ ถ้าค่าอยู่ต่ำกว่าเกณฑ์จะรับประกันว่าผลการวิเคราะห์มีความน่าเชื่อถือ ดังนั้นจึงเป็นไปไม่ได้ที่นักวิเคราะห์จะวัดตัวอย่างที่ไม่เหมาะสมโดยไม่ได้รับการเตือนจากซอฟแวร์ ผลของการวิเคราะห์จะถูกบันทึกไว้ในรายงาน รูปที่ 6.5 แสดงตัวอย่างของรายงานการวิเคราะห์ดังกล่าวซึ่งประกอบด้วยข้อมูลทั้งหมดที่สำคัญ

C. PLS regression: วิธีที่ให้ความแม่นยำไม่จำกัด? (PLS-regression: a Method Providing Infinite Accuracy?)

การทำแบบจำลองเคโมเมทริกให้เหมาะสม และการวิเคราะห์ตัวอย่างใหม่ที่ไม่รู้จัก ถูกอธิบายไว้ในสองส่วนแรกของบทนี้ ในส่วนนี้จะเน้นเกี่ยวกับแหล่งของความผิดพลาดที่เป็นไปได้ ที่จะเกิดขึ้นระหว่างการทำแบบจำลองให้เหมาะสม ทางเลือกชุดสเปกตรัมสำหรับการพิสูจน์ที่เหมาะสมสำหรับการประเมินแบบจำลอง และการตรวจสอบการพิสูจน์ที่แท้จริงเป็นสิ่งที่มีความสำคัญเป็นพิเศษ

  

Analysis Report

Operator:

Stan Laurel

 

Date:

10.09.2003

 

Instrument:

MATRIX-F, serial no. 101,Bruker Optik GmbH

 

Software:

OPUS QUANT, version 4.2 (13.3.2003), Bruker Optik GmbH

 

Method file:

Alcohol.q2

 

Method developer:

Oliver Hardy

 

Last change of method:

05.10.2002

 

Produce group:

Alcohol

 

Measurement method:

NIR

 

Name of measurement experiment:

NIR_Alcohols.xpm

 

No.

File name

Path:

Component

Analysis

Mahalanobis-Didtance

Limit for
Mahai.-Distance

Outliers

1

Gin.1

D:Alcohol

Methanol

-0.026379%

0.434

0.021

*

2

Gin.2

D:Alcohol

Methanol

70.331%

0.031

0.021

 

3

Gin.3

D:Alcohol

Methanol

100.01%

0.530

0.021

*

4

Gin.4

D:Alcohol

Methanol

24.919%

0.167

0.021

 

5

Gin.5

D:Alcohol

Methanol

50.007%

0.197

0.021

 

6

Rum.1

D:Alcohol

Methanol

66.687%

0.091

0.021

 

7

Rum.2

D:Alcohol

Methanol

0.01794%

0.148

0.021

 

8

Rum.3

D:Alcohol

Methanol

75.112%

0.173

0.021

 

9

Rum.4

D:Alcohol

Methanol

25.375%

0.188

0.021

 

10

Rum.5

D:Alcohol

Methanol

33.403%

0.080

0.021

 

11

Whisky.1

D:Alcohol

Methanol

43.964%

0.089

0.021

 

12

Whisky.2

D:Alcohol

Methanol

13.755%

0.161

0.021

 

13

Whisky.3

D:Alcohol

Methanol

36.508%

0.016

0.021

 

14

Whisky.4

D:Alcohol

Methanol

26.603%

0.011

0.021

 

15

Whisky.5

D:Alcohol

Methanol

41.486%

0.058

0.021

 

Place, Date:

 

 

 

 

 

 Signature (Operator)

 Signature (Release)

                     

รูปที่ 6.5 รายงานการวิเคราะห์ (Analysis report)

  

เพื่อตรวจสอบแบบจำลองคาลิเบรชั่นแบบ PLS ชุดทดสอบที่เป็นตัวแทนเป็นสิ่งจำเป็นอย่างยิ่ง ตัวอย่างเหล่านั้นควรจะครอบคลุมทั้งช่วงของความเข้มข้นที่ทำคาลิเบรชั่นและควรจะเป็นตัวแทนความแปรปรวนตามธรรมชาติทั้งหมดสำหรับตัวอย่างที่จะถูกนำมาวัดในอนาคต นอกจากนี้ควรพิจารณาความแปรปรวนของสภาวะอากาศของเครื่องวัด เช่น ความผันผวนของอุณหภูมิหรือการแพร่กระจายของความชื้นในแหล่งกำเนิดแสง เพียงเฉพาะวิธีนี้ การพิสูจน์วิธีการสามารถนำไปสู่​ความน่าเชื่อถือเกี่ยวกับการวิเคราะห์ความผิดพลาดที่คาดไว้ ในบริบทนี้จะไม่อนุญาตให้เลือกตัวอย่างชุดทดสอบซึ่งเป็นส่วนหนึ่งของชุดข้อมูลคาลิเบรชั่น10 ตัวอย่างเช่น ถ้าชุดข้อมูลชุดหนึ่งถูกสร้างขึ้นโดยการวัดแต่ละตัวอย่างหลายครั้ง แล้วค่าที่วัดได้ทั้งหมดของตัวอย่างนั้นควรจะอยู่ในชุดการทดสอบหรือชุดคาลิเบรชั่นอย่างใดอย่างหนึ่ง ในกรณีของการพิสูจน์แบบไขว้ เส้นสเปกตรัมทั้งหมดของตัวอย่างใดๆ ต้องอยู่ใน "สเปกตรัมที่จะถูกทดสอบ" (สเปกตรัมที่ถูกนำออก)

การเลือกข้อมูลที่เหมือนกันเป็นชุดทดสอบและชุดคาลิเบรชั่นเป็นสิ่งที่วิกฤติอย่างยิ่ง ซึ่งจะเข้าใจได้ง่ายเมื่อพิจารณาสมการ (2-1) และ (2-3) เมื่อคำนวณค่าสัมประสิทธิ์การถดถอย (Regression coefficient) b จะใช้ข้อมูลสเปกตรัมและข้อมูลเข้มข้นแทนลงในสมการ ในระหว่างการพิสูจน์ถ้าฟังก์ชัน b มีความสัมพันธ์กับข้อมูลเชิงสเปกตรัมที่มันถูกคำนวณมา (นั่นคือชุดทดสอบเหมือนกับชุดคาลิเบรชั่น) แล้วจะได้ผลลัพธ์คือข้อมูลความเข้มข้นที่ป้อนไว้เดิม (ดูสมการที่ (2-3)) การสร้างค่าอ้างอิงที่ถูกป้อนไว้เดิมขึ้นใหม่ “reconstruction” oคือยิ่งแม่นยำขึ้น จำนวนแฟคเตอร์ที่เลือกยิ่งมากขึ้นสำหรับการคาลิเบรชั่น

ดังนั้นการใช้จำนวนแฟคเตอร์ที่มากเพียงพอจะเพียงพอที่จะได้การจับคู่ที่สมบูรณ์ “perfect” ระหว่างตัวอย่างที่ทดสอบกับสเปกตรัมที่สอดคล้องกันของชุดของคาลิเบรชั่น นั่นคือจะได้รับค่าการวิเคราะห์ที่ดีซึ่งเป็นค่าที่ถูกป้อนตั้งแต่แรกเริ่มเข้าไปในแบบจำลองระหว่างการคาลิเบรชั่น ในกรณีนี้สัญญาณรบกวน สเปกตรัมไม่สามารถลดคุณภาพของผลที่ได้ได้เพราะแอมพลิจูดของสัญญาณรบกวนของสเปกตรัมของชุดทดสอบและชุดคาลิเบรชั่นเหมือนกัน นั่นหมายถึงการพิสูจน์ที่ใช้ "ตัวอย่างที่ไม่อิสระ" เพราะตัวอย่างที่ใช้นั้นแบบจำลองรู้จักอยู่แล้ว

เป็นที่แน่ชัดว่าการพิสูจน์แบบจำลองโดยการวิเคราะห์ตัวอย่างที่ไม่อิสระให้ผลที่ไม่มีประโยชน์เลย10 ซึ่งแสดงในตัวอย่างต่อไปนี้ที่ใช้ 30 สเปกตรัมที่ได้จากของผสมที่ได้อธิบายก่อนหน้านี้ซึ่งประกอบไปด้วย เมธานอล เอธานอลและโพรพานอล ต่อไปนี้แทนที่จะใช้ความเข้มข้นของสารผสมที่ถูกต้อง จะสุ่มเลือกตั้งแต่ 0 ถึง 100% ซึ่งไม่เกี่ยวข้องกับองค์ประกอบจริง

การพิสูจน์แบบจำลองที่ถูกต้องเชิงวิเคราะห์แสดงให้เห็นชัดเจนว่าไม่เหมาะสมในการทำนายค่าความเข้มข้นที่ไม่มีเหตุผลที่ถูกตั้งขึ้น สิ่งนี้นำมาแสดงในรูปที่ 6.6 ค่าอ้างอิงและค่าการวิเคราะห์ด้วย NIR ไม่แสดงความเชื่อมโยงใดๆที่สามารถสังเกตเห็นได้ ตัวอย่างเช่น การวิเคราะห์ PLS ด้วยเมธานอล 5% ให้ผลในค่าวิเคราะห์เป็น 102% อีกตัวอย่างหนึ่งที่ความเข้มข้นจริง 96% ถูกทำนายค่าว่าเป็น 29% จากที่คาดการณ์ไว้ในตัวอย่างนี้ การวิเคราะห์ไม่มีความเป็นไปได้ (หรือในอีกคำพูดหนึ่งที่ดีกว่าคือ การสร้างค่าที่ป้อนเข้าที่ไม่มีความหมาย)

สถานการณ์มีการเปลี่ยนแปลงอย่างเห็นได้ชัดถ้าตัวอย่างที่ใช้ในการพัฒนาแบบจำลองถูกใช้ในการพิสูจน์แบบจำลอง เช่นถ้าชุดข้อมูลที่ใช้พิสูจน์ได้จากชุดข้อมูลที่ไม่เป็นอิสระ  (ข้อมูลชุดเดิมที่ใช้สร้างแบบจำลอง)

 

รูปที่ 6.6 การพิสูจน์ PLS regression สำหรับการหาค่าเมธานอล  จากสารผสมของ เมธานอล/เอธานอล/โพรพานอล โดยใช้ตัวอย่างที่อิสระของแบบจำลองที่มีจำนวนแฟคเตอร์เท่ากับ 13 ค่าความเข้มข้นที่เลือก (ตามอำเภอใจ, โดยไม่มีเหตุผล) อยู่ระหว่าง 0 ถึง 100 % ถูกใช้เป็นข้อมูลอ้างอิง การพิสูจน์แสดงให้เห็นว่าการวิเคราะห์เป็นไปไม่ได้ในกรณีนี้

 

รูปที่ 6.7 การพิสูจน์ของ PLS regression สำหรับการทำนายความเข้มข้นของเมทานอล จากของผสม เมธานอล/เอธานอล/โพรพานอล โดยใช้ชุดตัวอย่างไม่อิสระสำหรับแบบจำลอง 7 แฟคเตอร์ โดยความเข้มข้นของชุดข้อมูลอ้างอิง (ตามอำเภอใจและไม่มีเหตุผล) ระหว่าง 0-100% (RMSEE=17.5%)

รูปที่ 6.8 การพิสูจน์เช่นเดียวกับ รูปที่ 6.7 สำหรับแบบจำลองที่มี  13 แฟคเตอร์  (RMSEE = 0.42%)

 

รูปที่ 6.9 การพิสูจน์เช่นเดียวกับ รูปที่ 6.7 สำหรับแบบจำลองที่มี  16 แฟคเตอร์  (RMSEE = 0.04%)

 

แม้กระทั่งในแบบจำลอง 7 แฟคเตอร์ ความสัมพันธ์กันอย่างคร่าว ๆ ระหว่างค่า “ความเป็นจริง” (ไม่มีเหตุผล)และค่าจากการทำนาย “การวิเคราะห์ด้วย NIR” สามารถหาได้ (ดูรูปที่ 6.7) ความถูกต้องสามารถจะถูกปรับปรุงได้โดยใช้ 13 หรือ 16 แฟคเตอร์ (รูปที่ 6.8 และรูปที่ 6.9) ค่าความผิดพลาดของการทำนายเฉลี่ยที่สอดคล้องกันได้เท่ากับ 17.5% สำหรับแบบจำลอง 7 แฟคเตอร์ 0.42% สำหรับแบบจำลอง 13 แฟคเตอร์ และ 0.04% สำหรับแบบจำลอง 16 แฟคเตอร์ ดังนั้นการคาลิเบรชั่นด้วยการใช้ 16 แฟคเตอร์ดูเหมือนว่าจะให้ผลลัพธ์ที่ดีกว่าแบบจำลองที่ซึ่งมีความถูกต้องในเชิงวิเคราะห์ (ดูรูปที่ 6.3) สิ่งนี้แสดงอย่างน่าพอใจว่า แม้กระทั่งจะมีจำนวนแฟคเตอร์ที่มีจำนวนน้อยกว่าจะได้ค่า (ซึ่งไม่มีเหตุผลโดยสิ้นเชิง) ที่สามารถทำซ้ำได้เป็นอย่างดี ดังนั้นจึงมีความเป็นไปได้ที่จะได้รับผลการวิเคราะห์ที่ดีโดยปราศจากการมีหลักเหตุผลมารองรับโดยการเลือกสเปกตรัมชุดทดสอบที่ไม่อาจยอมรับได้มาใช้ อย่างไรก็ตาม แบบจำลองไม่สามารถทำนายชุดพิสูจน์ที่เป็นตัวอย่างจริง ความน่าเชื่อถือได้ของการพิสูจน์สามารถถูกประเมินได้ง่ายในเชิงปฏิบัติ ในแง่หนึ่ง มีความเป็นไปได้โดยการตรวจสอบพารามิเตอร์ที่แสดงสมรรถนะ ตัวอย่างเช่น ค่าความผิดพลาดในการวิเคราะห์เฉลี่ย จากที่ได้กล่าวไว้แล้ว ค่าความผิดพลาดของการทำนายจะต้องมากกว่าค่าที่เหมาะสมเมื่อเพิ่มจำนวนของแฟคเตอร์ อย่างไรก็ตาม ถ้าชุดสเปกตรัมของชุดทดสอบอิสระถูกนำมาใช้เพื่อการพิสูจน์แล้ว การปรับปรุงแบบจำลองจะเกิดขึ้น เมื่อเพิ่มจำนวนของแฟคเตอร์ ดังแสดงในรูปที่ 6.10 เพื่อแสดงตัวอย่างข้างต้น จากจำนวนแฟคเตอร์ที่เพิ่มขึ้น ค่าความผิดพลาดในการวิเคราะห์ลดลงโดยใช้ 16 แฟคเตอร์ โดยเกือบเป็น 0% ในทางกลับกัน แบบจำลองที่ถูกพิสูจน์อย่างถูกต้องแสดง 6 แฟคเตอร์ (ค่าน้อยสุด) โดยมีค่าความผิดพลาดเฉลี่ยในการวิเคราะห์เป็น 0.07% ซึ่งไม่สามารถถูกลดลงไปได้อีก (รูปที่ 6.2) ในอีกแง่หนึ่ง ความถูกต้องของแบบจำลองสามารถถูกตรวจสอบได้ด้วยการวัดตัวอย่างง่าย ๆ เพื่อวัตถุประสงค์นี้ ตัวอย่างจำนวนเพียงเล็กน้อยถูกนำมาวัดและวิเคราะห์ ค่าความผิดพลาดของการวิเคราะห์จะต้องอยู่ในช่วงเดียวกันกับค่าความผิดพลาดจากการทำนาย (RMSECV หรือ RMSEP) ที่ซึ่งถูกหาค่าไว้ล่วงหน้าแล้ว หากความผิดพลาดเฉลี่ยในการวิเคราะห์ของชุดข้อมูลที่ใช้ในการพิสูจน์มีค่าต่ำกว่าความผิดพลาดของตัวอย่างที่วัด แบบจำลองอาจถูกพิสูจน์โดยใช้จำนวนตัวอย่างที่ไม่เพียงพอ

 

รูปที่ 6.10 ค่าความผิดพลาดเฉลี่ยที่พล็อตเทียบกับจำนวนแฟคเตอร์ สำหรับของผสมเมธานอล/เอธานอล/โพรพานอล โดยความเข้มข้นของชุดข้อมูลอ้างอิง (ตามอำเภอใจและไม่มีเหตุผล) ระหว่าง 0-100% และถูกพิสูจน์โดยใช้ชุดตัวอย่างไม่อิสระ การพิสูจน์ที่ยอมรับไม่ได้นี้รับรู้ได้จากการที่ค่าความผิดพลาดของการวิเคราะห์ลดลงอย่างต่อเนื่องเมื่อจำนวนแฟคเตอร์เพิ่มขึ้น

 

[1] “The copyright is belong to Dr. Jörg-Peter Conzen”

30 กันยายน 2561

ผู้ชม 2264 ครั้ง

Engine by shopup.com