CHAPTER 6 A PRACTICAL EXAMPLE
CHAPTER 6 A PRACTICAL EXAMPLE
บทที่ 6
ตัวอย่างในทางปฏิบัติ
A PRACTICAL EXAMPLE
ในบทก่อนหน้านี้ทุกพารามิเตอร์ของระบบที่เกี่ยวข้องได้อธิบายและ จัดหมวดหมู่ซึ่งอธิบายเกี่ยวกับการทำ PLS Regression ที่เหมาะสมซึ่งต่อไปนี้จะแสดงตัวอย่างในทางปฏิบัติและได้แสดงวิธีการพัฒนาวิธีคาลิเบรชั่นที่มีประสิทธิภาพที่สุด และได้แสดงให้นักวิเคราะห์เห็นถึงว่าการใช้วิธีการพิสูจน์ที่ไม่เหมาะสมทำให้ได้แบบจำลองที่ไม่มีความหมายได้อย่างไรและเกณฑ์อะไรที่สามารถใช้ในการยอมรับแบบจำลองดังกล่าว
A. การพัฒนาวิธีการและการพิสูจน์ (Method Development and Validation)
ทุก PLS คาลิเบริชั่นต้องเลือกช่วงความถี่ที่เหมาะสม การจัดการข้อมูลเบื้องต้นที่เหมาะสมและจำนวนแฟคเตอร์ที่เหมาะสม แฟคเตอร์เหล่านี้นี้ขึ้นอยู่กับความหลากหลายของพารามิเตอร์ของระบบและเป็นไปไม่ได้ที่จะคำนวณหาจำนวนแฟคเตอร์โดยการพิจารณาทางทฤษฎี ดังนั้นต้องประเมินโดยการทดลองซึ่งสามารถทำได้ดังนี้
ต้องใช้ตัวอย่างทดสอบจำนวนมาก ทั้งนี้ขึ้นอยู่กับงาน ชุดข้อมูลคาลิเบรชั่น ประมาณ 20-200 ตัวอย่างเป็นสิ่งที่จำเป็น ยิ่งถ้าตัวอย่างมีองค์ประกอบซับซ้อนมาก จำนวนสเปกตรัมที่จำเป็นสำหรับการคาลิเบรชั่นก็ต้องมีมากเช่นเดียวกัน ตัวอย่างเช่นสารผสมสององค์ประกอบสามารถทำแบบจำลองโดยใช้เพียงไม่กี่สเปกตรัม ระบบที่ซับซ้อน เช่นสารประกอบธรรมชาติ หรือการหาค่าพารามิเตอร์ทางกายภาพของผลิตภัณฑ์ปิโตรเคมีต้องการของความพยายามที่สูงกว่า
แม้ว่าสำหรับงานที่มีการวิเคราะห์ที่ง่ายมากก็ควรใช้ตัวอย่างอย่างน้อย 20 ตัวอย่าง เพื่อสร้างชุดข้อมูลที่เกี่ยวข้องทางสถิติ
การสร้างแบบจำลอง สเปกตรัมของชุดคาลิเบรชั่นและค่าอ้างอิงที่สอดคล้องกันจะถูกป้อนเข้าสู่ซอฟต์แวร์ PLS ช่วงความถี่ที่เหมาะสมและวิธีการจัดการข้อมูลเบื้องต้นถูกกำหนดขึ้น และดำเนินการทำคาลิเบรชั่น คุณภาพของชุดคาลิเบรชั่นจะประเมินโดยวิธีการการพิสูจน์ (ดูบทที่ 4) ขึ้นอยู่กับผู้ใช้ว่าจะตัดสินใจว่าเขาต้องการที่จะดำเนินการประเมินผลโดยใช้การพิสูจน์ภายนอก (ชุดทดสอบ) หรือการพิสูจน์ภายใน (แบบไขว้) ส่วนมากมักจะใช้การพิสูจน์แบบไขว้มีข้อได้เปรียบ: สเปกตรัมทั้งหมดถูกใช้เป็นชุดคาลิเบรชั่นและการพิสูจน์ต่อมา ไม่มีส่วนหนึ่งส่วนใดของการวัดการสูญหายโดยการกำหนดการทดสอบชุดข้อมูลการพิสูจน์ภายนอก (ดูบทที่ 3)
คุณภาพของชุดคาลิเบรชั่นสามารถประเมินได้ง่ายจากค่าของค่าสัมประสิทธิ์ของการพิจารณา R2 และความผิดพลาดเฉลี่ยในการวิเคราะห์ (RMSECV หรือ RMSEP) ซึ่งได้แสดงไว้ในตัวอย่างต่อไปนี้โดยการวิเคราะห์เนียร์อินฟราเรดสเปกโทรสโกปีของสารผสมของเมธานอล (CH3OH) เอทานอล (C2H5OH) และโพรพานอล (C3H7OH) ถูกวัดโดยใช้ Bruker near-infrared spectrometer (Matrix F) โดยใช้ช่วงสเปกตรัมจาก 10,000 cm-1 ถึง 4,000 cm-1 (ความยาวเส้นทางแสงของคิวเว็ต: 2 mm; ความละเอียดสเปกตรัม 8 cm-1, เชื่อมต่อผ่านเส้นใยแสง 50 เมตร) วัดสารผสมทั้งหมด 30 ตัวอย่างที่ช่วงความเข้มข้น 0-100% รูปที่6.1 แสดงการเลือกสเปกตรัมที่สอดคล้อง
รูปที่ 6.1 สเปกตรัมเนียร์อินฟราเรดของสารผสมของ เมธานอล เอทานอล และ โพรพานอล (คิวเวตที่ถูกต่อกับเส้นใยแก้วนำแสง 50 เมตร, เส้นทางแสงผ่าน 2 มิลลิเมตร)
การซ้อนทับกันอย่างมากของสัญญาณของสารที่ต้องการวิเคราะห์ สามารถสังเกตได้แม้ว่าจะเป็นของผสมที่มีองค์ประกอบสามอย่างดังกล่าว มีสัญญาณสำคัญสี่กลุ่ม: COH-combination (ที่ 4,800 cm-1) หรือ first overtone ของกลุ่ม CH2- และ CH3- (6,000 cm-1 - 5,500 cm-1) และ กลุ่ม COH (7,300 cm-1 - 6,000 cm-1) เช่นเดียวกับ second overtone ของกลุ่ม CH2- และ CH3- (8,800 cm-1 - 7,800 cm-1) สเปกตรัมแสดงว่าไม่มีสัญญาณที่เกี่ยวข้องช่วงที่มากกว่า 9,000 cm-1 และที่ค่าน้อยกว่า 4,400 cm-1 พบสเปกตรัมที่มีสัญญาณรบกวนเป็นส่วนใหญ่ ซึ่งแสดงถึงการสูญเสียคลื่นแสงอย่างมากในเส้นใยแก้วนำแสง โดยเฉพาะสเปกตรัม NIR แสดงแถบการซ้อนทับอย่างมาก ซึ่งการคาลิเบรชั่นแบบตัวแปรพหุมีข้อดีอย่างชัดเจนเหนือการคาลิเบรชั่นแบบตัวแปรเดียว ระบบนี้ถูกนำไปทำ PLS คาลิเบรชั่น โดยปกติจะแนะนำให้ทำคาลิเบรชั่นครั้งที่ 1 ตลอดช่วงความถี่ทั้งหมด อย่างไรก็ตาม ควรจะเลือกข้อมูลสเปกตรัมที่มีสัญญาณรบกวนน้อย โดยปกติช่วงที่ขอบเขตของความถี่ที่เป็นไปได้สูงสุดหรือแถบการดูดซับคลื่นที่มีค่าการดูดซับมากกว่า 2.5 หน่วยจะมีความเข้มแสงผ่านมายังดีเทคเตอร์น้อยมาก สัญญาณจะถูกรบกวนมากและไม่ควรนำไปใช้ ดังนั้นสัญญาณที่ต่ำกว่า 4,400 cm-1 และการดูดซับคลื่นประมาณ 4,800 cm-1 ไม่ควรนำมาพิจารณา สเปกตรัมช่วงที่มากกว่า 9,000 cm-1 แสดงการดูดซับคลื่นน้อย ดังนั้นช่วงความถี่แรกที่เหมาะสมสำหรับการคาลิเบรชั่นประมาณ 9,000 - 5,200 cm-1 หากทำการพิสูจน์แบบจำลองสำหรับแบบจำลองที่มีจำนวนของแฟคเตอร์มากขึ้น มักจะเห็นการปรับปรุงของผลลัพธ์ของการวิเคราะห์ตั้งแต่แรก ยิ่งใช้จำนวนแฟคเตอร์ที่เลือกยิ่งสูงเท่าไร ข้อมูลสเปกตรัมจะได้รับการประมวลจะมีมากขึ้นเท่านั้นและได้ผลลัพธ์ที่ดีกว่า อย่างไรก็ตาม สิ่งนี้ไม่สามารถถูกดำเนินต่อเนื่องอย่างไร้กฎเกณฑ์ จากจำนวนแฟคเตอร์ที่แน่นอนที่วิกฤตจะมีส่วนของสิ่งรบกวนสเปกตรัมถูกเพิ่มในแบบจำลองการวิเคราะห์และคุณภาพของแบบจำลองจะถูกทำให้ลดลง (Overfitting) สิ่งนี้แสดงในรูปที่ 6.2 ซึ่งค่าความผิดพลาดของการทำนายเฉลี่ยสำหรับ PLS regression ของการวิเคราะห์ความเข้มข้นของเมธานอลของตัวอย่าง 30 ตัวอย่าง ที่มีส่วนผสมของ CH3OH, C2H5OH และC3H7OH ถูกแสดงเพื่อเป็นตัวอย่างของการเพิ่มขึ้นของจำนวนแฟคเตอร์ การประเมินแบบจำลองถูกทำด้วยวิธีการพิสูจน์แบบไขว้ ขั้นแรกเมื่อสังเกตเห็นถึงการปรับปรุงของผลการวิเคราะห์จากการเพิ่มจำนวนแฟคเตอร์ สำหรับกรณี 7 แฟคเตอร์หรือมากกว่า ผลลัพธ์จะเลวลงอีกครั้ง เนื่องจากแบบจำลอง Overfit ดังนั้น 6 แฟคเตอร์ควรจะเหมาะสมที่สุดเพื่อที่จะได้รับผลวิเคราะห์ที่เหมาะสมที่สุดสำหรับในตัวอย่างที่แสดง ความผิดพลาดการทำนายเฉลี่ยเท่ากับ 0.07% นี้คือค่าความเป็นจริงสำหรับการศึกษาเนียร์อินฟราเรดสเปกโทรสโกปีของของผสมของเหลวที่มีหลายองค์ประกอบที่บริสุทธิ์
รูปที่ 6.2 ความผิดพลาดในการทำนายเฉลี่ยสำหรับเมธานอลที่พล็อตกับจำนวนแฟคเตอร์ของ PIS regression สำหรับเมธานอล/ เอธานอล/ โพรพานอล
การเปรียบเทียบค่าการวิเคราะห์ด้วย NIRS และข้อมูลอ้างอิงที่สอดคล้องกัน ที่แสดงสำหรับแบบจำลอง 6แฟกเตอร์แสดงในรูปที่ 6.3 ซึ่งโดยทั่วไปแสดงการจับคู่ที่ดีระหว่างค่าทั้งสอง การวิเคราะห์มักจะนำสเปกตรัมที่เป็นชุดทดสอบอิสระมาวิเคราะห์ นั่นคือสเปกตรัมเหล่านั้นที่ไม่ได้อยู่ในชุดข้อมูลคาลิเบรชั่น เพราะฉะนั้น เราสามารถคาดว่าจะได้ผลลัพธ์ที่ดีที่คล้ายกันในอนาคตสำหรับการวิเคราะห์ของผสมแอลกอฮอล์ใหม่
รูปที่ 6.3 การเปรียบเทียบค่าอ้างอิงและค่าที่ได้จากการวิเคราะห์โดยวิธี PLS Regression เพื่อวัดความเข้มข้นของเมธานอลจากของผสมของเมธานอล / เอทานอล / โพรพานอล ได้ RMSECVmin =0.07% (ช่วงความถี่: 9,000 cm-1 - 5,200cm-1, แฟคเตอร์: 6; การจัดการข้อมูลเบื้องต้น: การลบด้วยเส้นตรง)
ดังนั้น จำนวนแฟคเตอร์ที่เหมาะสมสำหรับแบบจำลองคาลิเบรชั่นที่กำหนดไว้แน่นอนสามารถหาได้ง่ายเพราะฉะนั้น คำถามเดียวที่จะต้องตอบ คือ วิธีที่เหมาะสมที่สุดสำหรับงานที่ต้องทำคืออะไร นั่นคือวิธีการ จัดการสเปกตรัมเบื้องต้นและช่วงความถี่ เนื่องจากคำถามนี้ไม่สามารถตอบได้โดยทั่วไป ช่วงความถี่ที่เหมาะสมและวิธีการจัดการสเปกตรัมเบื้องต้นจะต้องพิจารณาโดย “การลองผิด ลองถูก” (trial and error) เพื่อจุดประสงค์นี้ ค่าเหล่านี้มีการเปลี่ยนแปลงอย่างเป็นระบบ และถูกคำนวณในแต่ละกรณีเมื่อมีจำนวนแฟคเตอร์ที่เพิ่มขึ้น การตั้งค่าที่แสดงให้เห็นว่า ค่าสัมประสิทธิ์ในการกำหนด R2มีค่ามากที่สุด และ/หรือ ค่าความผิดพลาดของการทำนายต่ำสุด จะเป็นแบบจำลองในการวิเคราะห์ที่ดีที่สุด การตั้งค่า (Setting) ซึ่งให้ค่าสูงสุดของสัมประสิทธิ์ของการพิจารณา R2 และ/หรือ ค่าความผิดพลาดในการทำนายต่ำสุด ชี้ให้เห็นว่าแบบจำลองนั้นดีที่สุด ดังนั้นความแปรปรวนที่มีความหมายทั้งหมดที่ช่วงความถี่ใดๆและวิธีการจัดการข้อมูลเบื้องต้นถูกทดสอบต่อมาจนกระทั่งได้แบบจำลองที่เหมาะสม สำหรับการเลือกความถี่ที่เหมาะสมในหลายกรณีมันเพียงพอที่จะจัดกลุ่มอย่างเหมาะสมของช่วงความถี่ที่มาก (ดู “การเลือกช่วงสเปกตรัม” ในบทที่ 5) โดยทั่วไปการหาจุดของข้อมูลเชิงสเปกตรัมแต่ละจุดเป็นเรื่องไม่จำเป็น ความเข้าใจที่ถ่องแท้เกี่ยวกับคณิตศาสตร์พื้นฐานเป็นเรื่องไม่จำเป็นสำหรับการเลือกวิธีการจัดการข้อมูลเบื้องต้นต่างๆและการหาช่วงความถี่ ค่า R2 ที่ดีจะมีค่ามากกว่า 90% สำหรับของแข็ง และมากกว่า 99% สำหรับของเหลว ค่าที่ต่ำกว่าอย่างชัดเจน หมายถึงแบบจำลองคาลิเบรชั่นมีคุณภาพไม่เพียงพอและไม่ควรที่จะนำมาใช้ เพื่อที่จะให้แน่ใจว่าการเปรียบเทียบแบบจำลองต่างๆจะไม่ซับซ้อน ขอแนะนำว่าควรกรอกข้อมูลพารามิเตอร์ที่สำคัญลงในตาราง ดังแสดงในตารางที่ 6.1 ซึ่งเป็นค่าสำหรับการวิเคราะห์เนียร์อินฟราเรดสเปกโทรสโกปีของของผสม เมธานอล/เอธานอล/โพรพานอล ที่ไว้อธิบายผ่านมา (ด้วยเหตุผลเพื่อจะได้ทบทวนให้ดีขึ้นจึงแสดงผลการพิสูจน์เพียง 5 การพิสูจน์เท่านั้น ในกรณีของการหาค่าที่เหมาะสมในความเป็นจริง คู่ของวิธีการจัดการข้อมูลเบื้องต้นและช่วงความถี่ต่างๆ ควรถูกนำมาลองสภาวะแบบจำลองทีละคู่ ซึ่งมักจะให้ผลดังตารางที่แสดงเป็นวิธีการ (แบบจำลอง) ถึง 30 แบบจำลองหรือมากกว่า)
ตารางที่ 6.1 การพิจารณาแบบจำลองที่เหมาะสมสำหรับการวิเคราะห์เนียร์อินฟราเรดสเปกโทรสโกปี เพื่อหาความเข้มข้นของเมธานอล/เอธานอล/โพรพานอล
การคาลิเบรชั่นตลอดช่วงสเปกตรัมทั้งหมดระหว่าง 9,000- 5,200 cm-1 สำหรับการจัดการข้อมูลเบื้องต้นด้วยวิธีที่แตกต่างถูกแสดงใน 3 บรรทัดแรก จะเห็นว่าการลบด้วยเส้นตรง (SSL) เป็นวิธีที่เหมาะสมที่สุด (วิธีที่ 2 ในตารางที่ 6.1) ซึ่งได้ผลของการวิเคราะห์ที่ดี ค่าสัมประสิทธิ์ของการพิจารณา (coefficient of determination, R2) มีค่ามากกว่าและหรือค่าเฉลี่ยของความผิดพลาดของการวิเคราะห์น้อยกว่าในแบบจำลองอื่นๆ อีก 2 อัน (วิธีที่ 1 และ 3) เมื่อสังเกตที่ช่วงความถี่ต่อไป (วิธีที่ 4 และ 5) จะเห็นว่าไม่สามารถปรับปรุงแบบจำลองได้อีก ในทำนองเดียวกัน การละเว้นช่วงการเกิดโอเวอร์โทนลำดับที่ 2 (2nd overtone) ของการสั่นของ CH2 และ CH3 ในช่วง 8,800 และ 7,800 cm-1 ไม่นำไปสู่การสูญเสียคุณภาพของการวิเคราะห์ใดๆ ทั้งนี้รวมถึงการละเว้นช่วงการดูดซับที่รุนแรงของ OH ที่ประมาณ 6,900 cm-1 ผลของหลายๆแบบจำลองให้ค่าผิดพลาดเฉลี่ยของการวิเคราะห์เท่ากับ 0.07 เปอร์เซ็นต์ ดังนั้นสิ่งที่เห็นได้อย่างแรกคือทั้ง 3 แบบจำลองสามารถประเมินความเข้มข้นของเมธานอลได้ดีพอๆกัน แต่ควรใช้แบบจำลองซึ่งมีจำนวนแฟคเตอร์น้อยกว่า วิธีซึ่งใช้จำนวนแฟคเตอร์ 2-3 ตัวมักจะมีความเสถียรสูงกว่า ดังนั้นในตัวอย่างที่แสดงนี้ การทำคาลิเบรชั่นในช่วงสเปกตรัมระหว่าง 9,000 – 5,200 cm-1 โดยการใช้ SSL เป็นวิธีการจัดการข้อมูลเบื้องต้น (วิธีที่ 2) อาจจะเป็นประโยชน์ ด้วยการปรับตั้งค่าเหล่านี้สามารถได้วิธีที่มีความเหมาะสมสำหรับการวิเคราะห์ตัวอย่างที่ไม่ทราบค่า ผลที่สำคัญที่สุดควรเขียนลงไปเสมอ ในรูปที่ 6.4 แสดงตัวอย่างสำหรับรายงานการพิสูจน์สำหรับการประยุกต์ใช้ที่แสดงไว้นี้
มันอาจจะสร้างความประหลาดใจให้กับนักวิเคราะห์บางคนว่า ในตัวอย่างที่แสดงในที่นี้ แบบจำลองที่ใช้ในการวิเคราะห์ที่มีความแตกต่างกันมากหลายแบบจำลองนำไปสู่ผลลัพธ์ที่ใกล้เคียงกัน ดังนั้นจุดนี้จะต้องทำให้แน่ชัดต่อไปคือ ความสมมูลกันของแบบจำลองเคโมเมทริกต่างๆสามารถอธิบายโดยมีพื้นฐานจากการทำแฟคเทอไรเซชั่นของสเปกตรัม แฟคเตอร์แต่ละแฟคเตอร์แสดงถึงหน่วยของข้อมูล “information units” ซึ่งแสดงคุณสมบัติที่แน่นอน (และ/หรือ การรวมคุณสมบัติต่างๆ) ของตัวอย่าง ยกตัวอย่าง เช่น ความเข้มข้นของสารเป็นคุณสมบัติของระบบ ในกรณีของการทำแฟคเทอไรเซชั่นที่ประสบความสำเร็จ อัลกอริธึมของ PLS ยอมรับแฟคเตอร์ที่มีความเกี่ยวเนื่องกับการวิเคราะห์และสัมพันธ์สิ่งเหล่านี้กับคุณสมบัติของระบบที่เหมาะสม (เช่น ความเข้มข้นของสารที่วิเคราะห์) โดยทั่วไปจะประสบความสำเร็จสำหรับช่วงของสเปกตรัมหลายช่วง เนื่องจากสสารส่วนใหญ่ครอบครองสัญญาณที่ประเมินได้เชิงวิเคราะห์ในช่วงมากกว่าความถี่ช่วงเดียวในสเปกตรัม เนื่องจากแต่ละช่วงเหล่านี้ประกอบด้วยจุดของข้อมูลที่หลากหลาย (นั่นคือ มีปริมาณข้อมูลเชิงวิเคราะห์ที่สอดคล้องกัน) ดังนั้นบ่อยครั้งที่ระบบถูกพิจารณาเชิงสถิติอย่างปลอดภัยสำหรับทุกช่วงเหล่านี้ ดังนั้นส่วนมากมักจะเลือกแบบจำลองคาลิเบรชั่นของคุณภาพที่สามารถเปรียบเทียบกันได้ ซึ่งจะทำให้ได้ผลของการวิเคราะห์ที่ดีที่คล้ายคลึงกัน
ผลที่สำคัญที่ได้ต่อมาจากการแฟคเทอไรเซชั่นของสเปกตรัม ในกรณีของการคาลิเบรชั่นแบบตัวแปรเดียว (univariate) การวิเคราะห์สารที่มีหลายองค์ประกอบต้องการการแยกของสัญญาณของสารที่วิเคราะห์แต่ละสารอย่างเพียงพอ แต่ละองค์ประกอบถูกกำหนดที่ความยาวคลื่นที่แน่นอนหรือบริเวณที่แน่นอน2 สิ่งนี้ไม่จำเป็นสำหรับการคาลิเบรชั่นแบบหลายตัวแปร ในที่นี้การประเมินผลแบบหลายองค์ประกอบสามารถทำให้บรรลุผลได้จากโครงสร้างสเปกตรัมที่เหมือนกันและวิธีการจัดการข้อมูลเบื้องต้น (data preprocessing) เนื่องจากการทำแฟคเทอไรเซชั่น สเปกตรัมจะถูกแยกเป็นหน่วยของข้อมูลอิสระต่างๆ ดังนั้นมันจึงไม่จำเป็นที่จะแยกโครงสร้างของสเปกตรัมออกจากกันด้วยตัวผู้วิเคราะห์เอง (manually) โดยเฉพาะถ้าสัญญาณต่างๆมีการซ้อนทับกันอย่างรุนแรง จะเป็นประโยชน์กว่าการประเมินแบบตัวแปรเดียว (univariate)
B. การวิเคราะห์และการพิจารณาข้อมูลที่ผิดปกติ (Analysis and Determination of Outliers)
สำหรับการวิเคราะห์ตัวอย่างใหม่ที่ไม่รู้จัก จำเป็นต้องวัดสเปกตรัมและวิเคราะห์โดยใช้แบบจำลองที่กำหนดขึ้นและทำให้เหมาะสมก่อน นอกจากนี้จะคำนวณระยะมาฮาลาโนบิส (Mahalanobis distance) หรือ ค่าผิดพลาดเชิงสเปกตรัม (Spectral residuum) ค่าเหล่านี้สามารถนำมาใช้โดยตรงในการพิจารณาข้อมูลที่ผิดปกติ (Outliers) การรู้ว่าข้อมูลใดเป็นข้อมูลที่ผิดปกติ (Outliers) มีความสำคัญอย่างยิ่งโดยเฉพาะสำหรับการประเมินผล มักจะเป็นไปได้มากที่สารที่จะวิเคราะห์มีการปนเปื้อนหรือถูกวัดอย่างไม่ถูกต้อง มันง่ายที่จะตรวจสอบข้อมูลที่ผิดปกติโดยพิจารณา ระยะมาฮาลาโนบิส (Mahalanobis distance) หรือ ค่าผิดพลาดของสเปกตรัม (Spectral residuum) ถ้าความสัมพันธ์ระหว่างสเปกตรัมที่ทดสอบกับข้อมูลแคลิเบรชั่นยิ่งเลวลง ค่าที่สอดคล้องกัน (ระยะมาฮาลาโนบิส หรือ ค่าผิดพลาดของสเปกตรัม) จะยิ่งสูงขึ้น ในกรณีของการวิเคราะห์ข้อมูลที่ผิดปกติ (Outliers) ระยะมาฮาลาโนบิส (Mahalanobis distance) จะสูงกว่าเกณฑ์ที่สอดคล้องกันและตัวอย่างจะถูกระบุว่าเป็นข้อมูลที่ผิดปกติ (Outliers) ระยะมาฮาลาโนบิสและค่าความผิดพลาดของสเปกตรัมเป็นพารามิเตอร์เชิงปริมาณสำหรับคุณภาพของการวิเคราะห์ ถ้าค่าอยู่ต่ำกว่าเกณฑ์จะรับประกันว่าผลการวิเคราะห์มีความน่าเชื่อถือ ดังนั้นจึงเป็นไปไม่ได้ที่นักวิเคราะห์จะวัดตัวอย่างที่ไม่เหมาะสมโดยไม่ได้รับการเตือนจากซอฟแวร์ ผลของการวิเคราะห์จะถูกบันทึกไว้ในรายงาน รูปที่ 6.5 แสดงตัวอย่างของรายงานการวิเคราะห์ดังกล่าวซึ่งประกอบด้วยข้อมูลทั้งหมดที่สำคัญ
C. PLS regression: วิธีที่ให้ความแม่นยำไม่จำกัด? (PLS-regression: a Method Providing Infinite Accuracy?)
การทำแบบจำลองเคโมเมทริกให้เหมาะสม และการวิเคราะห์ตัวอย่างใหม่ที่ไม่รู้จัก ถูกอธิบายไว้ในสองส่วนแรกของบทนี้ ในส่วนนี้จะเน้นเกี่ยวกับแหล่งของความผิดพลาดที่เป็นไปได้ ที่จะเกิดขึ้นระหว่างการทำแบบจำลองให้เหมาะสม ทางเลือกชุดสเปกตรัมสำหรับการพิสูจน์ที่เหมาะสมสำหรับการประเมินแบบจำลอง และการตรวจสอบการพิสูจน์ที่แท้จริงเป็นสิ่งที่มีความสำคัญเป็นพิเศษ
Analysis Report
Operator: |
Stan Laurel |
|
||||||||
Date: |
10.09.2003 |
|
||||||||
Instrument: |
MATRIX-F, serial no. 101,Bruker Optik GmbH |
|
||||||||
Software: |
OPUS QUANT, version 4.2 (13.3.2003), Bruker Optik GmbH |
|
||||||||
Method file: |
Alcohol.q2 |
|
||||||||
Method developer: |
Oliver Hardy |
|
||||||||
Last change of method: |
05.10.2002 |
|
||||||||
Produce group: |
Alcohol |
|
||||||||
Measurement method: |
NIR |
|
||||||||
Name of measurement experiment: |
NIR_Alcohols.xpm |
|
||||||||
No. |
File name |
Path: |
Component |
Analysis |
Mahalanobis-Didtance |
Limit for |
Outliers |
|||
1 |
Gin.1 |
D:Alcohol |
Methanol |
-0.026379% |
0.434 |
0.021 |
* |
|||
2 |
Gin.2 |
D:Alcohol |
Methanol |
70.331% |
0.031 |
0.021 |
|
|||
3 |
Gin.3 |
D:Alcohol |
Methanol |
100.01% |
0.530 |
0.021 |
* |
|||
4 |
Gin.4 |
D:Alcohol |
Methanol |
24.919% |
0.167 |
0.021 |
|
|||
5 |
Gin.5 |
D:Alcohol |
Methanol |
50.007% |
0.197 |
0.021 |
|
|||
6 |
Rum.1 |
D:Alcohol |
Methanol |
66.687% |
0.091 |
0.021 |
|
|||
7 |
Rum.2 |
D:Alcohol |
Methanol |
0.01794% |
0.148 |
0.021 |
|
|||
8 |
Rum.3 |
D:Alcohol |
Methanol |
75.112% |
0.173 |
0.021 |
|
|||
9 |
Rum.4 |
D:Alcohol |
Methanol |
25.375% |
0.188 |
0.021 |
|
|||
10 |
Rum.5 |
D:Alcohol |
Methanol |
33.403% |
0.080 |
0.021 |
|
|||
11 |
Whisky.1 |
D:Alcohol |
Methanol |
43.964% |
0.089 |
0.021 |
|
|||
12 |
Whisky.2 |
D:Alcohol |
Methanol |
13.755% |
0.161 |
0.021 |
|
|||
13 |
Whisky.3 |
D:Alcohol |
Methanol |
36.508% |
0.016 |
0.021 |
|
|||
14 |
Whisky.4 |
D:Alcohol |
Methanol |
26.603% |
0.011 |
0.021 |
|
|||
15 |
Whisky.5 |
D:Alcohol |
Methanol |
41.486% |
0.058 |
0.021 |
|
|||
Place, Date: |
|
|||||||||
|
|
|||||||||
|
|
|||||||||
Signature (Operator) |
Signature (Release) |
|||||||||
รูปที่ 6.5 รายงานการวิเคราะห์ (Analysis report)
เพื่อตรวจสอบแบบจำลองคาลิเบรชั่นแบบ PLS ชุดทดสอบที่เป็นตัวแทนเป็นสิ่งจำเป็นอย่างยิ่ง ตัวอย่างเหล่านั้นควรจะครอบคลุมทั้งช่วงของความเข้มข้นที่ทำคาลิเบรชั่นและควรจะเป็นตัวแทนความแปรปรวนตามธรรมชาติทั้งหมดสำหรับตัวอย่างที่จะถูกนำมาวัดในอนาคต นอกจากนี้ควรพิจารณาความแปรปรวนของสภาวะอากาศของเครื่องวัด เช่น ความผันผวนของอุณหภูมิหรือการแพร่กระจายของความชื้นในแหล่งกำเนิดแสง เพียงเฉพาะวิธีนี้ การพิสูจน์วิธีการสามารถนำไปสู่ความน่าเชื่อถือเกี่ยวกับการวิเคราะห์ความผิดพลาดที่คาดไว้ ในบริบทนี้จะไม่อนุญาตให้เลือกตัวอย่างชุดทดสอบซึ่งเป็นส่วนหนึ่งของชุดข้อมูลคาลิเบรชั่น10 ตัวอย่างเช่น ถ้าชุดข้อมูลชุดหนึ่งถูกสร้างขึ้นโดยการวัดแต่ละตัวอย่างหลายครั้ง แล้วค่าที่วัดได้ทั้งหมดของตัวอย่างนั้นควรจะอยู่ในชุดการทดสอบหรือชุดคาลิเบรชั่นอย่างใดอย่างหนึ่ง ในกรณีของการพิสูจน์แบบไขว้ เส้นสเปกตรัมทั้งหมดของตัวอย่างใดๆ ต้องอยู่ใน "สเปกตรัมที่จะถูกทดสอบ" (สเปกตรัมที่ถูกนำออก)
การเลือกข้อมูลที่เหมือนกันเป็นชุดทดสอบและชุดคาลิเบรชั่นเป็นสิ่งที่วิกฤติอย่างยิ่ง ซึ่งจะเข้าใจได้ง่ายเมื่อพิจารณาสมการ (2-1) และ (2-3) เมื่อคำนวณค่าสัมประสิทธิ์การถดถอย (Regression coefficient) b จะใช้ข้อมูลสเปกตรัมและข้อมูลเข้มข้นแทนลงในสมการ ในระหว่างการพิสูจน์ถ้าฟังก์ชัน b มีความสัมพันธ์กับข้อมูลเชิงสเปกตรัมที่มันถูกคำนวณมา (นั่นคือชุดทดสอบเหมือนกับชุดคาลิเบรชั่น) แล้วจะได้ผลลัพธ์คือข้อมูลความเข้มข้นที่ป้อนไว้เดิม (ดูสมการที่ (2-3)) การสร้างค่าอ้างอิงที่ถูกป้อนไว้เดิมขึ้นใหม่ “reconstruction” oคือยิ่งแม่นยำขึ้น จำนวนแฟคเตอร์ที่เลือกยิ่งมากขึ้นสำหรับการคาลิเบรชั่น
ดังนั้นการใช้จำนวนแฟคเตอร์ที่มากเพียงพอจะเพียงพอที่จะได้การจับคู่ที่สมบูรณ์ “perfect” ระหว่างตัวอย่างที่ทดสอบกับสเปกตรัมที่สอดคล้องกันของชุดของคาลิเบรชั่น นั่นคือจะได้รับค่าการวิเคราะห์ที่ดีซึ่งเป็นค่าที่ถูกป้อนตั้งแต่แรกเริ่มเข้าไปในแบบจำลองระหว่างการคาลิเบรชั่น ในกรณีนี้สัญญาณรบกวน สเปกตรัมไม่สามารถลดคุณภาพของผลที่ได้ได้เพราะแอมพลิจูดของสัญญาณรบกวนของสเปกตรัมของชุดทดสอบและชุดคาลิเบรชั่นเหมือนกัน นั่นหมายถึงการพิสูจน์ที่ใช้ "ตัวอย่างที่ไม่อิสระ" เพราะตัวอย่างที่ใช้นั้นแบบจำลองรู้จักอยู่แล้ว
เป็นที่แน่ชัดว่าการพิสูจน์แบบจำลองโดยการวิเคราะห์ตัวอย่างที่ไม่อิสระให้ผลที่ไม่มีประโยชน์เลย10 ซึ่งแสดงในตัวอย่างต่อไปนี้ที่ใช้ 30 สเปกตรัมที่ได้จากของผสมที่ได้อธิบายก่อนหน้านี้ซึ่งประกอบไปด้วย เมธานอล เอธานอลและโพรพานอล ต่อไปนี้แทนที่จะใช้ความเข้มข้นของสารผสมที่ถูกต้อง จะสุ่มเลือกตั้งแต่ 0 ถึง 100% ซึ่งไม่เกี่ยวข้องกับองค์ประกอบจริง
การพิสูจน์แบบจำลองที่ถูกต้องเชิงวิเคราะห์แสดงให้เห็นชัดเจนว่าไม่เหมาะสมในการทำนายค่าความเข้มข้นที่ไม่มีเหตุผลที่ถูกตั้งขึ้น สิ่งนี้นำมาแสดงในรูปที่ 6.6 ค่าอ้างอิงและค่าการวิเคราะห์ด้วย NIR ไม่แสดงความเชื่อมโยงใดๆที่สามารถสังเกตเห็นได้ ตัวอย่างเช่น การวิเคราะห์ PLS ด้วยเมธานอล 5% ให้ผลในค่าวิเคราะห์เป็น 102% อีกตัวอย่างหนึ่งที่ความเข้มข้นจริง 96% ถูกทำนายค่าว่าเป็น 29% จากที่คาดการณ์ไว้ในตัวอย่างนี้ การวิเคราะห์ไม่มีความเป็นไปได้ (หรือในอีกคำพูดหนึ่งที่ดีกว่าคือ การสร้างค่าที่ป้อนเข้าที่ไม่มีความหมาย)
สถานการณ์มีการเปลี่ยนแปลงอย่างเห็นได้ชัดถ้าตัวอย่างที่ใช้ในการพัฒนาแบบจำลองถูกใช้ในการพิสูจน์แบบจำลอง เช่นถ้าชุดข้อมูลที่ใช้พิสูจน์ได้จากชุดข้อมูลที่ไม่เป็นอิสระ (ข้อมูลชุดเดิมที่ใช้สร้างแบบจำลอง)
รูปที่ 6.6 การพิสูจน์ PLS regression สำหรับการหาค่าเมธานอล จากสารผสมของ เมธานอล/เอธานอล/โพรพานอล โดยใช้ตัวอย่างที่อิสระของแบบจำลองที่มีจำนวนแฟคเตอร์เท่ากับ 13 ค่าความเข้มข้นที่เลือก (ตามอำเภอใจ, โดยไม่มีเหตุผล) อยู่ระหว่าง 0 ถึง 100 % ถูกใช้เป็นข้อมูลอ้างอิง การพิสูจน์แสดงให้เห็นว่าการวิเคราะห์เป็นไปไม่ได้ในกรณีนี้
รูปที่ 6.7 การพิสูจน์ของ PLS regression สำหรับการทำนายความเข้มข้นของเมทานอล จากของผสม เมธานอล/เอธานอล/โพรพานอล โดยใช้ชุดตัวอย่างไม่อิสระสำหรับแบบจำลอง 7 แฟคเตอร์ โดยความเข้มข้นของชุดข้อมูลอ้างอิง (ตามอำเภอใจและไม่มีเหตุผล) ระหว่าง 0-100% (RMSEE=17.5%)
รูปที่ 6.8 การพิสูจน์เช่นเดียวกับ รูปที่ 6.7 สำหรับแบบจำลองที่มี 13 แฟคเตอร์ (RMSEE = 0.42%)
รูปที่ 6.9 การพิสูจน์เช่นเดียวกับ รูปที่ 6.7 สำหรับแบบจำลองที่มี 16 แฟคเตอร์ (RMSEE = 0.04%)
แม้กระทั่งในแบบจำลอง 7 แฟคเตอร์ ความสัมพันธ์กันอย่างคร่าว ๆ ระหว่างค่า “ความเป็นจริง” (ไม่มีเหตุผล)และค่าจากการทำนาย “การวิเคราะห์ด้วย NIR” สามารถหาได้ (ดูรูปที่ 6.7) ความถูกต้องสามารถจะถูกปรับปรุงได้โดยใช้ 13 หรือ 16 แฟคเตอร์ (รูปที่ 6.8 และรูปที่ 6.9) ค่าความผิดพลาดของการทำนายเฉลี่ยที่สอดคล้องกันได้เท่ากับ 17.5% สำหรับแบบจำลอง 7 แฟคเตอร์ 0.42% สำหรับแบบจำลอง 13 แฟคเตอร์ และ 0.04% สำหรับแบบจำลอง 16 แฟคเตอร์ ดังนั้นการคาลิเบรชั่นด้วยการใช้ 16 แฟคเตอร์ดูเหมือนว่าจะให้ผลลัพธ์ที่ดีกว่าแบบจำลองที่ซึ่งมีความถูกต้องในเชิงวิเคราะห์ (ดูรูปที่ 6.3) สิ่งนี้แสดงอย่างน่าพอใจว่า แม้กระทั่งจะมีจำนวนแฟคเตอร์ที่มีจำนวนน้อยกว่าจะได้ค่า (ซึ่งไม่มีเหตุผลโดยสิ้นเชิง) ที่สามารถทำซ้ำได้เป็นอย่างดี ดังนั้นจึงมีความเป็นไปได้ที่จะได้รับผลการวิเคราะห์ที่ดีโดยปราศจากการมีหลักเหตุผลมารองรับโดยการเลือกสเปกตรัมชุดทดสอบที่ไม่อาจยอมรับได้มาใช้ อย่างไรก็ตาม แบบจำลองไม่สามารถทำนายชุดพิสูจน์ที่เป็นตัวอย่างจริง ความน่าเชื่อถือได้ของการพิสูจน์สามารถถูกประเมินได้ง่ายในเชิงปฏิบัติ ในแง่หนึ่ง มีความเป็นไปได้โดยการตรวจสอบพารามิเตอร์ที่แสดงสมรรถนะ ตัวอย่างเช่น ค่าความผิดพลาดในการวิเคราะห์เฉลี่ย จากที่ได้กล่าวไว้แล้ว ค่าความผิดพลาดของการทำนายจะต้องมากกว่าค่าที่เหมาะสมเมื่อเพิ่มจำนวนของแฟคเตอร์ อย่างไรก็ตาม ถ้าชุดสเปกตรัมของชุดทดสอบอิสระถูกนำมาใช้เพื่อการพิสูจน์แล้ว การปรับปรุงแบบจำลองจะเกิดขึ้น เมื่อเพิ่มจำนวนของแฟคเตอร์ ดังแสดงในรูปที่ 6.10 เพื่อแสดงตัวอย่างข้างต้น จากจำนวนแฟคเตอร์ที่เพิ่มขึ้น ค่าความผิดพลาดในการวิเคราะห์ลดลงโดยใช้ 16 แฟคเตอร์ โดยเกือบเป็น 0% ในทางกลับกัน แบบจำลองที่ถูกพิสูจน์อย่างถูกต้องแสดง 6 แฟคเตอร์ (ค่าน้อยสุด) โดยมีค่าความผิดพลาดเฉลี่ยในการวิเคราะห์เป็น 0.07% ซึ่งไม่สามารถถูกลดลงไปได้อีก (รูปที่ 6.2) ในอีกแง่หนึ่ง ความถูกต้องของแบบจำลองสามารถถูกตรวจสอบได้ด้วยการวัดตัวอย่างง่าย ๆ เพื่อวัตถุประสงค์นี้ ตัวอย่างจำนวนเพียงเล็กน้อยถูกนำมาวัดและวิเคราะห์ ค่าความผิดพลาดของการวิเคราะห์จะต้องอยู่ในช่วงเดียวกันกับค่าความผิดพลาดจากการทำนาย (RMSECV หรือ RMSEP) ที่ซึ่งถูกหาค่าไว้ล่วงหน้าแล้ว หากความผิดพลาดเฉลี่ยในการวิเคราะห์ของชุดข้อมูลที่ใช้ในการพิสูจน์มีค่าต่ำกว่าความผิดพลาดของตัวอย่างที่วัด แบบจำลองอาจถูกพิสูจน์โดยใช้จำนวนตัวอย่างที่ไม่เพียงพอ
รูปที่ 6.10 ค่าความผิดพลาดเฉลี่ยที่พล็อตเทียบกับจำนวนแฟคเตอร์ สำหรับของผสมเมธานอล/เอธานอล/โพรพานอล โดยความเข้มข้นของชุดข้อมูลอ้างอิง (ตามอำเภอใจและไม่มีเหตุผล) ระหว่าง 0-100% และถูกพิสูจน์โดยใช้ชุดตัวอย่างไม่อิสระ การพิสูจน์ที่ยอมรับไม่ได้นี้รับรู้ได้จากการที่ค่าความผิดพลาดของการวิเคราะห์ลดลงอย่างต่อเนื่องเมื่อจำนวนแฟคเตอร์เพิ่มขึ้น
30 กันยายน 2561
ผู้ชม 2246 ครั้ง