CHAPTER 6 A PRACTICAL EXAMPLE

หมวดหมู่: Translated book

บทที่ 6
ตัวอย่างในทางปฏิบัติ
A PRACTICAL EXAMPLE

ในบทก่อนหน้านี้ทุกพารามิเตอร์ของระบบที่เกี่ยวข้องได้อธิบายและ จัดหมวดหมู่ซึ่งอธิบายเกี่ยวกับการทำ PLS Regression ที่เหมาะสมซึ่งต่อไปนี้จะแสดงตัวอย่างในทางปฏิบัติและได้แสดงวิธีการพัฒนาวิธีคาลิเบรชั่นที่มีประสิทธิภาพที่สุด และได้แสดงให้นักวิเคราะห์เห็นถึงว่าการใช้วิธีการพิสูจน์ที่ไม่เหมาะสมทำให้ได้แบบจำลองที่ไม่มีความหมายได้อย่างไรและเกณฑ์อะไรที่สามารถใช้ในการยอมรับแบบจำลองดังกล่าว

A. การพัฒนาวิธีการและการพิสูจน์ (Method Development and Validation)
ทุก PLS คาลิเบริชั่นต้องเลือกช่วงความถี่ที่เหมาะสม การจัดการข้อมูลเบื้องต้นที่เหมาะสมและจำนวนแฟคเตอร์ที่เหมาะสม แฟคเตอร์เหล่านี้นี้ขึ้นอยู่กับความหลากหลายของพารามิเตอร์ของระบบและเป็นไปไม่ได้ที่จะคำนวณหาจำนวนแฟคเตอร์โดยการพิจารณาทางทฤษฎี ดังนั้นต้องประเมินโดยการทดลองซึ่งสามารถทำได้ดังนี้
ต้องใช้ตัวอย่างทดสอบจำนวนมาก ทั้งนี้ขึ้นอยู่กับงาน ชุดข้อมูลคาลิเบรชั่น ประมาณ 20-200 ตัวอย่างเป็นสิ่งที่จำเป็น ยิ่งถ้าตัวอย่างมีองค์ประกอบซับซ้อนมาก จำนวนสเปกตรัมที่จำเป็นสำหรับการคาลิเบรชั่นก็ต้องมีมากเช่นเดียวกัน ตัวอย่างเช่นสารผสมสององค์ประกอบสามารถทำแบบจำลองโดยใช้เพียงไม่กี่สเปกตรัม ระบบที่ซับซ้อน เช่นสารประกอบธรรมชาติ หรือการหาค่าพารามิเตอร์ทางกายภาพของผลิตภัณฑ์ปิโตรเคมีต้องการของความพยายามที่สูงกว่า
แม้ว่าสำหรับงานที่มีการวิเคราะห์ที่ง่ายมากก็ควรใช้ตัวอย่างอย่างน้อย 20 ตัวอย่าง เพื่อสร้างชุดข้อมูลที่เกี่ยวข้องทางสถิติ
การสร้างแบบจำลอง สเปกตรัมของชุดคาลิเบรชั่นและค่าอ้างอิงที่สอดคล้องกันจะถูกป้อนเข้าสู่ซอฟต์แวร์ PLS ช่วงความถี่ที่เหมาะสมและวิธีการจัดการข้อมูลเบื้องต้นถูกกำหนดขึ้น และดำเนินการทำคาลิเบรชั่น คุณภาพของชุดคาลิเบรชั่นจะประเมินโดยวิธีการการพิสูจน์ (ดูบทที่ 4) ขึ้นอยู่กับผู้ใช้ว่าจะตัดสินใจว่าเขาต้องการที่จะดำเนินการประเมินผลโดยใช้การพิสูจน์ภายนอก (ชุดทดสอบ) หรือการพิสูจน์ภายใน (แบบไขว้) ส่วนมากมักจะใช้การพิสูจน์แบบไขว้มีข้อได้เปรียบ: สเปกตรัมทั้งหมดถูกใช้เป็นชุดคาลิเบรชั่นและการพิสูจน์ต่อมา ไม่มีส่วนหนึ่งส่วนใดของการวัดการสูญหายโดยการกำหนดการทดสอบชุดข้อมูลการพิสูจน์ภายนอก (ดูบทที่ 3)
คุณภาพของชุดคาลิเบรชั่นสามารถประเมินได้ง่ายจากค่าของค่าสัมประสิทธิ์ของการพิจารณา R² และความผิดพลาดเฉลี่ยในการวิเคราะห์ (RMSECV หรือ RMSEP) ซึ่งได้แสดงไว้ในตัวอย่างต่อไปนี้โดยการวิเคราะห์เนียร์อินฟราเรดสเปกโทรสโกปีของสารผสมของเมธานอล (CH₃OH) เอทานอล (C₂H₅OH) และโพรพานอล (C₃H₇OH) ถูกวัดโดยใช้ Bruker near-infrared spectrometer (Matrix F) โดยใช้ช่วงสเปกตรัมจาก 10,000 cm^-1 ถึง 4,000 cm^-1 (ความยาวเส้นทางแสงของคิวเว็ต: 2 mm; ความละเอียดสเปกตรัม 8 cm^-1, เชื่อมต่อผ่านเส้นใยแสง 50 เมตร) วัดสารผสมทั้งหมด 30 ตัวอย่างที่ช่วงความเข้มข้น 0-100% รูปที่6.1 แสดงการเลือกสเปกตรัมที่สอดคล้อง

รูปที่ 6.1 สเปกตรัมเนียร์อินฟราเรดของสารผสมของ เมธานอล เอทานอล และ โพรพานอล (คิวเวตที่ถูกต่อกับเส้นใยแก้วนำแสง 50 เมตร, เส้นทางแสงผ่าน 2 มิลลิเมตร)

การซ้อนทับกันอย่างมากของสัญญาณของสารที่ต้องการวิเคราะห์ สามารถสังเกตได้แม้ว่าจะเป็นของผสมที่มีองค์ประกอบสามอย่างดังกล่าว มีสัญญาณสำคัญสี่กลุ่ม: COH-combination (ที่ 4,800 cm^-1) หรือ first overtone ของกลุ่ม CH₂- และ CH₃- (6,000 cm^-1- 5,500 cm^-1) และ กลุ่ม COH (7,300 cm^-1 - 6,000 cm^-1) เช่นเดียวกับ second overtone ของกลุ่ม CH₂- และ CH₃- (8,800 cm^-1 - 7,800 cm^-1) สเปกตรัมแสดงว่าไม่มีสัญญาณที่เกี่ยวข้องช่วงที่มากกว่า 9,000 cm^-1 และที่ค่าน้อยกว่า 4,400 cm^-1 พบสเปกตรัมที่มีสัญญาณรบกวนเป็นส่วนใหญ่ ซึ่งแสดงถึงการสูญเสียคลื่นแสงอย่างมากในเส้นใยแก้วนำแสง โดยเฉพาะสเปกตรัม NIR แสดงแถบการซ้อนทับอย่างมาก ซึ่งการคาลิเบรชั่นแบบตัวแปรพหุมีข้อดีอย่างชัดเจนเหนือการคาลิเบรชั่นแบบตัวแปรเดียว ระบบนี้ถูกนำไปทำ PLS คาลิเบรชั่น โดยปกติจะแนะนำให้ทำคาลิเบรชั่นครั้งที่ 1 ตลอดช่วงความถี่ทั้งหมด อย่างไรก็ตาม ควรจะเลือกข้อมูลสเปกตรัมที่มีสัญญาณรบกวนน้อย โดยปกติช่วงที่ขอบเขตของความถี่ที่เป็นไปได้สูงสุดหรือแถบการดูดซับคลื่นที่มีค่าการดูดซับมากกว่า 2.5 หน่วยจะมีความเข้มแสงผ่านมายังดีเทคเตอร์น้อยมาก สัญญาณจะถูกรบกวนมากและไม่ควรนำไปใช้ ดังนั้นสัญญาณที่ต่ำกว่า 4,400 cm^-1 และการดูดซับคลื่นประมาณ 4,800 cm^-1 ไม่ควรนำมาพิจารณา สเปกตรัมช่วงที่มากกว่า 9,000 cm^-1 แสดงการดูดซับคลื่นน้อย ดังนั้นช่วงความถี่แรกที่เหมาะสมสำหรับการคาลิเบรชั่นประมาณ 9,000 - 5,200 cm^-1หากทำการพิสูจน์แบบจำลองสำหรับแบบจำลองที่มีจำนวนของแฟคเตอร์มากขึ้น มักจะเห็นการปรับปรุงของผลลัพธ์ของการวิเคราะห์ตั้งแต่แรก ยิ่งใช้จำนวนแฟคเตอร์ที่เลือกยิ่งสูงเท่าไร ข้อมูลสเปกตรัมจะได้รับการประมวลจะมีมากขึ้นเท่านั้นและได้ผลลัพธ์ที่ดีกว่า อย่างไรก็ตาม สิ่งนี้ไม่สามารถถูกดำเนินต่อเนื่องอย่างไร้กฎเกณฑ์ จากจำนวนแฟคเตอร์ที่แน่นอนที่วิกฤตจะมีส่วนของสิ่งรบกวนสเปกตรัมถูกเพิ่มในแบบจำลองการวิเคราะห์และคุณภาพของแบบจำลองจะถูกทำให้ลดลง (Overfitting) สิ่งนี้แสดงในรูปที่ 6.2 ซึ่งค่าความผิดพลาดของการทำนายเฉลี่ยสำหรับ PLS regression ของการวิเคราะห์ความเข้มข้นของเมธานอลของตัวอย่าง 30 ตัวอย่าง ที่มีส่วนผสมของ CH₃OH, C₂H₅OH และC₃H₇OH ถูกแสดงเพื่อเป็นตัวอย่างของการเพิ่มขึ้นของจำนวนแฟคเตอร์ การประเมินแบบจำลองถูกทำด้วยวิธีการพิสูจน์แบบไขว้ ขั้นแรกเมื่อสังเกตเห็นถึงการปรับปรุงของผลการวิเคราะห์จากการเพิ่มจำนวนแฟคเตอร์ สำหรับกรณี 7 แฟคเตอร์หรือมากกว่า ผลลัพธ์จะเลวลงอีกครั้ง เนื่องจากแบบจำลอง Overfit ดังนั้น 6 แฟคเตอร์ควรจะเหมาะสมที่สุดเพื่อที่จะได้รับผลวิเคราะห์ที่เหมาะสมที่สุดสำหรับในตัวอย่างที่แสดง ความผิดพลาดการทำนายเฉลี่ยเท่ากับ 0.07% นี้คือค่าความเป็นจริงสำหรับการศึกษาเนียร์อินฟราเรดสเปกโทรสโกปีของของผสมของเหลวที่มีหลายองค์ประกอบที่บริสุทธิ์

รูปที่ 6.2 ความผิดพลาดในการทำนายเฉลี่ยสำหรับเมธานอลที่พล็อตกับจำนวนแฟคเตอร์ของ PIS regression สำหรับเมธานอล/ เอธานอล/ โพรพานอล

การเปรียบเทียบค่าการวิเคราะห์ด้วย NIRS และข้อมูลอ้างอิงที่สอดคล้องกัน ที่แสดงสำหรับแบบจำลอง 6แฟกเตอร์แสดงในรูปที่ 6.3 ซึ่งโดยทั่วไปแสดงการจับคู่ที่ดีระหว่างค่าทั้งสอง การวิเคราะห์มักจะนำสเปกตรัมที่เป็นชุดทดสอบอิสระมาวิเคราะห์ นั่นคือสเปกตรัมเหล่านั้นที่ไม่ได้อยู่ในชุดข้อมูลคาลิเบรชั่น เพราะฉะนั้น เราสามารถคาดว่าจะได้ผลลัพธ์ที่ดีที่คล้ายกันในอนาคตสำหรับการวิเคราะห์ของผสมแอลกอฮอล์ใหม่

รูปที่ 6.3 การเปรียบเทียบค่าอ้างอิงและค่าที่ได้จากการวิเคราะห์โดยวิธี PLS Regression เพื่อวัดความเข้มข้นของเมธานอลจากของผสมของเมธานอล / เอทานอล / โพรพานอล ได้ RMSECV_min =0.07% (ช่วงความถี่: 9,000 cm^-1 - 5,200cm^-1, แฟคเตอร์: 6; การจัดการข้อมูลเบื้องต้น: การลบด้วยเส้นตรง)

ดังนั้น จำนวนแฟคเตอร์ที่เหมาะสมสำหรับแบบจำลองคาลิเบรชั่นที่กำหนดไว้แน่นอนสามารถหาได้ง่ายเพราะฉะนั้น คำถามเดียวที่จะต้องตอบ คือ วิธีที่เหมาะสมที่สุดสำหรับงานที่ต้องทำคืออะไร นั่นคือวิธีการ จัดการสเปกตรัมเบื้องต้นและช่วงความถี่ เนื่องจากคำถามนี้ไม่สามารถตอบได้โดยทั่วไป ช่วงความถี่ที่เหมาะสมและวิธีการจัดการสเปกตรัมเบื้องต้นจะต้องพิจารณาโดย “การลองผิด ลองถูก” (trial and error) เพื่อจุดประสงค์นี้ ค่าเหล่านี้มีการเปลี่ยนแปลงอย่างเป็นระบบ และถูกคำนวณในแต่ละกรณีเมื่อมีจำนวนแฟคเตอร์ที่เพิ่มขึ้น การตั้งค่าที่แสดงให้เห็นว่า ค่าสัมประสิทธิ์ในการกำหนด R²มีค่ามากที่สุด และ/หรือ ค่าความผิดพลาดของการทำนายต่ำสุด จะเป็นแบบจำลองในการวิเคราะห์ที่ดีที่สุด การตั้งค่า (Setting) ซึ่งให้ค่าสูงสุดของสัมประสิทธิ์ของการพิจารณา R² และ/หรือ ค่าความผิดพลาดในการทำนายต่ำสุด ชี้ให้เห็นว่าแบบจำลองนั้นดีที่สุด ดังนั้นความแปรปรวนที่มีความหมายทั้งหมดที่ช่วงความถี่ใดๆและวิธีการจัดการข้อมูลเบื้องต้นถูกทดสอบต่อมาจนกระทั่งได้แบบจำลองที่เหมาะสม สำหรับการเลือกความถี่ที่เหมาะสมในหลายกรณีมันเพียงพอที่จะจัดกลุ่มอย่างเหมาะสมของช่วงความถี่ที่มาก (ดู “การเลือกช่วงสเปกตรัม” ในบทที่ 5) โดยทั่วไปการหาจุดของข้อมูลเชิงสเปกตรัมแต่ละจุดเป็นเรื่องไม่จำเป็น ความเข้าใจที่ถ่องแท้เกี่ยวกับคณิตศาสตร์พื้นฐานเป็นเรื่องไม่จำเป็นสำหรับการเลือกวิธีการจัดการข้อมูลเบื้องต้นต่างๆและการหาช่วงความถี่ ค่า R² ที่ดีจะมีค่ามากกว่า 90% สำหรับของแข็ง และมากกว่า 99% สำหรับของเหลว ค่าที่ต่ำกว่าอย่างชัดเจน หมายถึงแบบจำลองคาลิเบรชั่นมีคุณภาพไม่เพียงพอและไม่ควรที่จะนำมาใช้ เพื่อที่จะให้แน่ใจว่าการเปรียบเทียบแบบจำลองต่างๆจะไม่ซับซ้อน ขอแนะนำว่าควรกรอกข้อมูลพารามิเตอร์ที่สำคัญลงในตาราง ดังแสดงในตารางที่ 6.1 ซึ่งเป็นค่าสำหรับการวิเคราะห์เนียร์อินฟราเรดสเปกโทรสโกปีของของผสม เมธานอล/เอธานอล/โพรพานอล ที่ไว้อธิบายผ่านมา (ด้วยเหตุผลเพื่อจะได้ทบทวนให้ดีขึ้นจึงแสดงผลการพิสูจน์เพียง 5 การพิสูจน์เท่านั้น ในกรณีของการหาค่าที่เหมาะสมในความเป็นจริง คู่ของวิธีการจัดการข้อมูลเบื้องต้นและช่วงความถี่ต่างๆ ควรถูกนำมาลองสภาวะแบบจำลองทีละคู่ ซึ่งมักจะให้ผลดังตารางที่แสดงเป็นวิธีการ (แบบจำลอง) ถึง 30 แบบจำลองหรือมากกว่า)

ตารางที่ 6.1 การพิจารณาแบบจำลองที่เหมาะสมสำหรับการวิเคราะห์เนียร์อินฟราเรดสเปกโทรสโกปี เพื่อหาความเข้มข้นของเมธานอล/เอธานอล/โพรพานอล

การคาลิเบรชั่นตลอดช่วงสเปกตรัมทั้งหมดระหว่าง 9,000- 5,200 cm^-1 สำหรับการจัดการข้อมูลเบื้องต้นด้วยวิธีที่แตกต่างถูกแสดงใน 3 บรรทัดแรก จะเห็นว่าการลบด้วยเส้นตรง (SSL) เป็นวิธีที่เหมาะสมที่สุด (วิธีที่ 2 ในตารางที่ 6.1) ซึ่งได้ผลของการวิเคราะห์ที่ดี ค่าสัมประสิทธิ์ของการพิจารณา (coefficient of determination, R²) มีค่ามากกว่าและหรือค่าเฉลี่ยของความผิดพลาดของการวิเคราะห์น้อยกว่าในแบบจำลองอื่นๆ อีก 2 อัน (วิธีที่ 1 และ 3) เมื่อสังเกตที่ช่วงความถี่ต่อไป (วิธีที่ 4 และ 5) จะเห็นว่าไม่สามารถปรับปรุงแบบจำลองได้อีก ในทำนองเดียวกัน การละเว้นช่วงการเกิดโอเวอร์โทนลำดับที่ 2 (2^nd overtone) ของการสั่นของ CH₂ และ CH₃ ในช่วง 8,800 และ 7,800 cm^-1 ไม่นำไปสู่การสูญเสียคุณภาพของการวิเคราะห์ใดๆ ทั้งนี้รวมถึงการละเว้นช่วงการดูดซับที่รุนแรงของ OH ที่ประมาณ 6,900 cm^-1 ผลของหลายๆแบบจำลองให้ค่าผิดพลาดเฉลี่ยของการวิเคราะห์เท่ากับ 0.07 เปอร์เซ็นต์ ดังนั้นสิ่งที่เห็นได้อย่างแรกคือทั้ง 3 แบบจำลองสามารถประเมินความเข้มข้นของเมธานอลได้ดีพอๆกัน แต่ควรใช้แบบจำลองซึ่งมีจำนวนแฟคเตอร์น้อยกว่า วิธีซึ่งใช้จำนวนแฟคเตอร์ 2-3 ตัวมักจะมีความเสถียรสูงกว่า ดังนั้นในตัวอย่างที่แสดงนี้ การทำคาลิเบรชั่นในช่วงสเปกตรัมระหว่าง 9,000 – 5,200 cm^-1 โดยการใช้ SSL เป็นวิธีการจัดการข้อมูลเบื้องต้น (วิธีที่ 2) อาจจะเป็นประโยชน์ ด้วยการปรับตั้งค่าเหล่านี้สามารถได้วิธีที่มีความเหมาะสมสำหรับการวิเคราะห์ตัวอย่างที่ไม่ทราบค่า ผลที่สำคัญที่สุดควรเขียนลงไปเสมอ ในรูปที่ 6.4 แสดงตัวอย่างสำหรับรายงานการพิสูจน์สำหรับการประยุกต์ใช้ที่แสดงไว้นี้

มันอาจจะสร้างความประหลาดใจให้กับนักวิเคราะห์บางคนว่า ในตัวอย่างที่แสดงในที่นี้ แบบจำลองที่ใช้ในการวิเคราะห์ที่มีความแตกต่างกันมากหลายแบบจำลองนำไปสู่ผลลัพธ์ที่ใกล้เคียงกัน ดังนั้นจุดนี้จะต้องทำให้แน่ชัดต่อไปคือ ความสมมูลกันของแบบจำลองเคโมเมทริกต่างๆสามารถอธิบายโดยมีพื้นฐานจากการทำแฟคเทอไรเซชั่นของสเปกตรัม แฟคเตอร์แต่ละแฟคเตอร์แสดงถึงหน่วยของข้อมูล “information units” ซึ่งแสดงคุณสมบัติที่แน่นอน (และ/หรือ การรวมคุณสมบัติต่างๆ) ของตัวอย่าง ยกตัวอย่าง เช่น ความเข้มข้นของสารเป็นคุณสมบัติของระบบ ในกรณีของการทำแฟคเทอไรเซชั่นที่ประสบความสำเร็จ อัลกอริธึมของ PLS ยอมรับแฟคเตอร์ที่มีความเกี่ยวเนื่องกับการวิเคราะห์และสัมพันธ์สิ่งเหล่านี้กับคุณสมบัติของระบบที่เหมาะสม (เช่น ความเข้มข้นของสารที่วิเคราะห์) โดยทั่วไปจะประสบความสำเร็จสำหรับช่วงของสเปกตรัมหลายช่วง เนื่องจากสสารส่วนใหญ่ครอบครองสัญญาณที่ประเมินได้เชิงวิเคราะห์ในช่วงมากกว่าความถี่ช่วงเดียวในสเปกตรัม เนื่องจากแต่ละช่วงเหล่านี้ประกอบด้วยจุดของข้อมูลที่หลากหลาย (นั่นคือ มีปริมาณข้อมูลเชิงวิเคราะห์ที่สอดคล้องกัน) ดังนั้นบ่อยครั้งที่ระบบถูกพิจารณาเชิงสถิติอย่างปลอดภัยสำหรับทุกช่วงเหล่านี้ ดังนั้นส่วนมากมักจะเลือกแบบจำลองคาลิเบรชั่นของคุณภาพที่สามารถเปรียบเทียบกันได้ ซึ่งจะทำให้ได้ผลของการวิเคราะห์ที่ดีที่คล้ายคลึงกัน

ผลที่สำคัญที่ได้ต่อมาจากการแฟคเทอไรเซชั่นของสเปกตรัม ในกรณีของการคาลิเบรชั่นแบบตัวแปรเดียว (univariate) การวิเคราะห์สารที่มีหลายองค์ประกอบต้องการการแยกของสัญญาณของสารที่วิเคราะห์แต่ละสารอย่างเพียงพอ แต่ละองค์ประกอบถูกกำหนดที่ความยาวคลื่นที่แน่นอนหรือบริเวณที่แน่นอน² สิ่งนี้ไม่จำเป็นสำหรับการคาลิเบรชั่นแบบหลายตัวแปร ในที่นี้การประเมินผลแบบหลายองค์ประกอบสามารถทำให้บรรลุผลได้จากโครงสร้างสเปกตรัมที่เหมือนกันและวิธีการจัดการข้อมูลเบื้องต้น (data preprocessing) เนื่องจากการทำแฟคเทอไรเซชั่น สเปกตรัมจะถูกแยกเป็นหน่วยของข้อมูลอิสระต่างๆ ดังนั้นมันจึงไม่จำเป็นที่จะแยกโครงสร้างของสเปกตรัมออกจากกันด้วยตัวผู้วิเคราะห์เอง (manually) โดยเฉพาะถ้าสัญญาณต่างๆมีการซ้อนทับกันอย่างรุนแรง จะเป็นประโยชน์กว่าการประเมินแบบตัวแปรเดียว (univariate)

B. การวิเคราะห์และการพิจารณาข้อมูลที่ผิดปกติ (Analysis and Determination of Outliers)

สำหรับการวิเคราะห์ตัวอย่างใหม่ที่ไม่รู้จัก จำเป็นต้องวัดสเปกตรัมและวิเคราะห์โดยใช้แบบจำลองที่กำหนดขึ้นและทำให้เหมาะสมก่อน นอกจากนี้จะคำนวณระยะมาฮาลาโนบิส (Mahalanobis distance) หรือ ค่าผิดพลาดเชิงสเปกตรัม (Spectral residuum) ค่าเหล่านี้สามารถนำมาใช้โดยตรงในการพิจารณาข้อมูลที่ผิดปกติ (Outliers) การรู้ว่าข้อมูลใดเป็นข้อมูลที่ผิดปกติ (Outliers) มีความสำคัญอย่างยิ่งโดยเฉพาะสำหรับการประเมินผล มักจะเป็นไปได้มากที่สารที่จะวิเคราะห์มีการปนเปื้อนหรือถูกวัดอย่างไม่ถูกต้อง มันง่ายที่จะตรวจสอบข้อมูลที่ผิดปกติโดยพิจารณา ระยะมาฮาลาโนบิส (Mahalanobis distance) หรือ ค่าผิดพลาดของสเปกตรัม (Spectral residuum) ถ้าความสัมพันธ์ระหว่างสเปกตรัมที่ทดสอบกับข้อมูลแคลิเบรชั่นยิ่งเลวลง ค่าที่สอดคล้องกัน (ระยะมาฮาลาโนบิส หรือ ค่าผิดพลาดของสเปกตรัม) จะยิ่งสูงขึ้น ในกรณีของการวิเคราะห์ข้อมูลที่ผิดปกติ (Outliers) ระยะมาฮาลาโนบิส (Mahalanobis distance) จะสูงกว่าเกณฑ์ที่สอดคล้องกันและตัวอย่างจะถูกระบุว่าเป็นข้อมูลที่ผิดปกติ (Outliers) ระยะมาฮาลาโนบิสและค่าความผิดพลาดของสเปกตรัมเป็นพารามิเตอร์เชิงปริมาณสำหรับคุณภาพของการวิเคราะห์ ถ้าค่าอยู่ต่ำกว่าเกณฑ์จะรับประกันว่าผลการวิเคราะห์มีความน่าเชื่อถือ ดังนั้นจึงเป็นไปไม่ได้ที่นักวิเคราะห์จะวัดตัวอย่างที่ไม่เหมาะสมโดยไม่ได้รับการเตือนจากซอฟแวร์ ผลของการวิเคราะห์จะถูกบันทึกไว้ในรายงาน รูปที่ 6.5 แสดงตัวอย่างของรายงานการวิเคราะห์ดังกล่าวซึ่งประกอบด้วยข้อมูลทั้งหมดที่สำคัญ

C. PLS regression: วิธีที่ให้ความแม่นยำไม่จำกัด? (PLS-regression: a Method Providing Infinite Accuracy?)

การทำแบบจำลองเคโมเมทริกให้เหมาะสม และการวิเคราะห์ตัวอย่างใหม่ที่ไม่รู้จัก ถูกอธิบายไว้ในสองส่วนแรกของบทนี้ ในส่วนนี้จะเน้นเกี่ยวกับแหล่งของความผิดพลาดที่เป็นไปได้ ที่จะเกิดขึ้นระหว่างการทำแบบจำลองให้เหมาะสม ทางเลือกชุดสเปกตรัมสำหรับการพิสูจน์ที่เหมาะสมสำหรับการประเมินแบบจำลอง และการตรวจสอบการพิสูจน์ที่แท้จริงเป็นสิ่งที่มีความสำคัญเป็นพิเศษ

Analysis Report

Operator:				Stan Laurel
Date:				10.09.2003
Instrument:				MATRIX-F, serial no. 101,Bruker Optik GmbH
Software:				OPUS QUANT, version 4.2 (13.3.2003), Bruker Optik GmbH
Method file:				Alcohol.q2
Method developer:				Oliver Hardy
Last change of method:				05.10.2002
Produce group:				Alcohol
Measurement method:				NIR
Name of measurement experiment:				NIR_Alcohols.xpm
No.	File name	Path:	Component		Analysis		Mahalanobis-Didtance	Limit for Mahai.-Distance	Outliers
1	Gin.1	D:Alcohol	Methanol		-0.026379%		0.434	0.021	*
2	Gin.2	D:Alcohol	Methanol		70.331%		0.031	0.021
3	Gin.3	D:Alcohol	Methanol		100.01%		0.530	0.021	*
4	Gin.4	D:Alcohol	Methanol		24.919%		0.167	0.021
5	Gin.5	D:Alcohol	Methanol		50.007%		0.197	0.021
6	Rum.1	D:Alcohol	Methanol		66.687%		0.091	0.021
7	Rum.2	D:Alcohol	Methanol		0.01794%		0.148	0.021
8	Rum.3	D:Alcohol	Methanol		75.112%		0.173	0.021
9	Rum.4	D:Alcohol	Methanol		25.375%		0.188	0.021
10	Rum.5	D:Alcohol	Methanol		33.403%		0.080	0.021
11	Whisky.1	D:Alcohol	Methanol		43.964%		0.089	0.021
12	Whisky.2	D:Alcohol	Methanol		13.755%		0.161	0.021
13	Whisky.3	D:Alcohol	Methanol		36.508%		0.016	0.021
14	Whisky.4	D:Alcohol	Methanol		26.603%		0.011	0.021
15	Whisky.5	D:Alcohol	Methanol		41.486%		0.058	0.021
Place, Date:


Signature (Operator)						Signature (Release)

รูปที่ 6.5 รายงานการวิเคราะห์ (Analysis report)

เพื่อตรวจสอบแบบจำลองคาลิเบรชั่นแบบ PLS ชุดทดสอบที่เป็นตัวแทนเป็นสิ่งจำเป็นอย่างยิ่ง ตัวอย่างเหล่านั้นควรจะครอบคลุมทั้งช่วงของความเข้มข้นที่ทำคาลิเบรชั่นและควรจะเป็นตัวแทนความแปรปรวนตามธรรมชาติทั้งหมดสำหรับตัวอย่างที่จะถูกนำมาวัดในอนาคต นอกจากนี้ควรพิจารณาความแปรปรวนของสภาวะอากาศของเครื่องวัด เช่น ความผันผวนของอุณหภูมิหรือการแพร่กระจายของความชื้นในแหล่งกำเนิดแสง เพียงเฉพาะวิธีนี้ การพิสูจน์วิธีการสามารถนำไปสู่ความน่าเชื่อถือเกี่ยวกับการวิเคราะห์ความผิดพลาดที่คาดไว้ ในบริบทนี้จะไม่อนุญาตให้เลือกตัวอย่างชุดทดสอบซึ่งเป็นส่วนหนึ่งของชุดข้อมูลคาลิเบรชั่น¹⁰ ตัวอย่างเช่น ถ้าชุดข้อมูลชุดหนึ่งถูกสร้างขึ้นโดยการวัดแต่ละตัวอย่างหลายครั้ง แล้วค่าที่วัดได้ทั้งหมดของตัวอย่างนั้นควรจะอยู่ในชุดการทดสอบหรือชุดคาลิเบรชั่นอย่างใดอย่างหนึ่ง ในกรณีของการพิสูจน์แบบไขว้ เส้นสเปกตรัมทั้งหมดของตัวอย่างใดๆ ต้องอยู่ใน "สเปกตรัมที่จะถูกทดสอบ" (สเปกตรัมที่ถูกนำออก)

การเลือกข้อมูลที่เหมือนกันเป็นชุดทดสอบและชุดคาลิเบรชั่นเป็นสิ่งที่วิกฤติอย่างยิ่ง ซึ่งจะเข้าใจได้ง่ายเมื่อพิจารณาสมการ (2-1) และ (2-3) เมื่อคำนวณค่าสัมประสิทธิ์การถดถอย (Regression coefficient) b จะใช้ข้อมูลสเปกตรัมและข้อมูลเข้มข้นแทนลงในสมการ ในระหว่างการพิสูจน์ถ้าฟังก์ชัน b มีความสัมพันธ์กับข้อมูลเชิงสเปกตรัมที่มันถูกคำนวณมา (นั่นคือชุดทดสอบเหมือนกับชุดคาลิเบรชั่น) แล้วจะได้ผลลัพธ์คือข้อมูลความเข้มข้นที่ป้อนไว้เดิม (ดูสมการที่ (2-3)) การสร้างค่าอ้างอิงที่ถูกป้อนไว้เดิมขึ้นใหม่ “reconstruction” oคือยิ่งแม่นยำขึ้น จำนวนแฟคเตอร์ที่เลือกยิ่งมากขึ้นสำหรับการคาลิเบรชั่น

ดังนั้นการใช้จำนวนแฟคเตอร์ที่มากเพียงพอจะเพียงพอที่จะได้การจับคู่ที่สมบูรณ์ “perfect” ระหว่างตัวอย่างที่ทดสอบกับสเปกตรัมที่สอดคล้องกันของชุดของคาลิเบรชั่น นั่นคือจะได้รับค่าการวิเคราะห์ที่ดีซึ่งเป็นค่าที่ถูกป้อนตั้งแต่แรกเริ่มเข้าไปในแบบจำลองระหว่างการคาลิเบรชั่น ในกรณีนี้สัญญาณรบกวน สเปกตรัมไม่สามารถลดคุณภาพของผลที่ได้ได้เพราะแอมพลิจูดของสัญญาณรบกวนของสเปกตรัมของชุดทดสอบและชุดคาลิเบรชั่นเหมือนกัน นั่นหมายถึงการพิสูจน์ที่ใช้ "ตัวอย่างที่ไม่อิสระ" เพราะตัวอย่างที่ใช้นั้นแบบจำลองรู้จักอยู่แล้ว

เป็นที่แน่ชัดว่าการพิสูจน์แบบจำลองโดยการวิเคราะห์ตัวอย่างที่ไม่อิสระให้ผลที่ไม่มีประโยชน์เลย¹⁰ ซึ่งแสดงในตัวอย่างต่อไปนี้ที่ใช้ 30 สเปกตรัมที่ได้จากของผสมที่ได้อธิบายก่อนหน้านี้ซึ่งประกอบไปด้วย เมธานอล เอธานอลและโพรพานอล ต่อไปนี้แทนที่จะใช้ความเข้มข้นของสารผสมที่ถูกต้อง จะสุ่มเลือกตั้งแต่ 0 ถึง 100% ซึ่งไม่เกี่ยวข้องกับองค์ประกอบจริง

การพิสูจน์แบบจำลองที่ถูกต้องเชิงวิเคราะห์แสดงให้เห็นชัดเจนว่าไม่เหมาะสมในการทำนายค่าความเข้มข้นที่ไม่มีเหตุผลที่ถูกตั้งขึ้น สิ่งนี้นำมาแสดงในรูปที่ 6.6 ค่าอ้างอิงและค่าการวิเคราะห์ด้วย NIR ไม่แสดงความเชื่อมโยงใดๆที่สามารถสังเกตเห็นได้ ตัวอย่างเช่น การวิเคราะห์ PLS ด้วยเมธานอล 5% ให้ผลในค่าวิเคราะห์เป็น 102% อีกตัวอย่างหนึ่งที่ความเข้มข้นจริง 96% ถูกทำนายค่าว่าเป็น 29% จากที่คาดการณ์ไว้ในตัวอย่างนี้ การวิเคราะห์ไม่มีความเป็นไปได้ (หรือในอีกคำพูดหนึ่งที่ดีกว่าคือ การสร้างค่าที่ป้อนเข้าที่ไม่มีความหมาย)

สถานการณ์มีการเปลี่ยนแปลงอย่างเห็นได้ชัดถ้าตัวอย่างที่ใช้ในการพัฒนาแบบจำลองถูกใช้ในการพิสูจน์แบบจำลอง เช่นถ้าชุดข้อมูลที่ใช้พิสูจน์ได้จากชุดข้อมูลที่ไม่เป็นอิสระ (ข้อมูลชุดเดิมที่ใช้สร้างแบบจำลอง)

รูปที่ 6.6 การพิสูจน์ PLS regression สำหรับการหาค่าเมธานอล จากสารผสมของ เมธานอล/เอธานอล/โพรพานอล โดยใช้ตัวอย่างที่อิสระของแบบจำลองที่มีจำนวนแฟคเตอร์เท่ากับ 13 ค่าความเข้มข้นที่เลือก (ตามอำเภอใจ, โดยไม่มีเหตุผล) อยู่ระหว่าง 0 ถึง 100 % ถูกใช้เป็นข้อมูลอ้างอิง การพิสูจน์แสดงให้เห็นว่าการวิเคราะห์เป็นไปไม่ได้ในกรณีนี้

รูปที่ 6.7 การพิสูจน์ของ PLS regression สำหรับการทำนายความเข้มข้นของเมทานอล จากของผสม เมธานอล/เอธานอล/โพรพานอล โดยใช้ชุดตัวอย่างไม่อิสระสำหรับแบบจำลอง 7 แฟคเตอร์ โดยความเข้มข้นของชุดข้อมูลอ้างอิง (ตามอำเภอใจและไม่มีเหตุผล) ระหว่าง 0-100% (RMSEE=17.5%)

รูปที่ 6.8 การพิสูจน์เช่นเดียวกับ รูปที่ 6.7 สำหรับแบบจำลองที่มี 13 แฟคเตอร์ (RMSEE = 0.42%)

รูปที่ 6.9 การพิสูจน์เช่นเดียวกับ รูปที่ 6.7 สำหรับแบบจำลองที่มี 16 แฟคเตอร์ (RMSEE = 0.04%)

แม้กระทั่งในแบบจำลอง 7 แฟคเตอร์ ความสัมพันธ์กันอย่างคร่าว ๆ ระหว่างค่า “ความเป็นจริง” (ไม่มีเหตุผล)และค่าจากการทำนาย “การวิเคราะห์ด้วย NIR” สามารถหาได้ (ดูรูปที่ 6.7) ความถูกต้องสามารถจะถูกปรับปรุงได้โดยใช้ 13 หรือ 16 แฟคเตอร์ (รูปที่ 6.8 และรูปที่ 6.9) ค่าความผิดพลาดของการทำนายเฉลี่ยที่สอดคล้องกันได้เท่ากับ 17.5% สำหรับแบบจำลอง 7 แฟคเตอร์ 0.42% สำหรับแบบจำลอง 13 แฟคเตอร์ และ 0.04% สำหรับแบบจำลอง 16 แฟคเตอร์ ดังนั้นการคาลิเบรชั่นด้วยการใช้ 16 แฟคเตอร์ดูเหมือนว่าจะให้ผลลัพธ์ที่ดีกว่าแบบจำลองที่ซึ่งมีความถูกต้องในเชิงวิเคราะห์ (ดูรูปที่ 6.3) สิ่งนี้แสดงอย่างน่าพอใจว่า แม้กระทั่งจะมีจำนวนแฟคเตอร์ที่มีจำนวนน้อยกว่าจะได้ค่า (ซึ่งไม่มีเหตุผลโดยสิ้นเชิง) ที่สามารถทำซ้ำได้เป็นอย่างดี ดังนั้นจึงมีความเป็นไปได้ที่จะได้รับผลการวิเคราะห์ที่ดีโดยปราศจากการมีหลักเหตุผลมารองรับโดยการเลือกสเปกตรัมชุดทดสอบที่ไม่อาจยอมรับได้มาใช้ อย่างไรก็ตาม แบบจำลองไม่สามารถทำนายชุดพิสูจน์ที่เป็นตัวอย่างจริง ความน่าเชื่อถือได้ของการพิสูจน์สามารถถูกประเมินได้ง่ายในเชิงปฏิบัติ ในแง่หนึ่ง มีความเป็นไปได้โดยการตรวจสอบพารามิเตอร์ที่แสดงสมรรถนะ ตัวอย่างเช่น ค่าความผิดพลาดในการวิเคราะห์เฉลี่ย จากที่ได้กล่าวไว้แล้ว ค่าความผิดพลาดของการทำนายจะต้องมากกว่าค่าที่เหมาะสมเมื่อเพิ่มจำนวนของแฟคเตอร์ อย่างไรก็ตาม ถ้าชุดสเปกตรัมของชุดทดสอบอิสระถูกนำมาใช้เพื่อการพิสูจน์แล้ว การปรับปรุงแบบจำลองจะเกิดขึ้น เมื่อเพิ่มจำนวนของแฟคเตอร์ ดังแสดงในรูปที่ 6.10 เพื่อแสดงตัวอย่างข้างต้น จากจำนวนแฟคเตอร์ที่เพิ่มขึ้น ค่าความผิดพลาดในการวิเคราะห์ลดลงโดยใช้ 16 แฟคเตอร์ โดยเกือบเป็น 0% ในทางกลับกัน แบบจำลองที่ถูกพิสูจน์อย่างถูกต้องแสดง 6 แฟคเตอร์ (ค่าน้อยสุด) โดยมีค่าความผิดพลาดเฉลี่ยในการวิเคราะห์เป็น 0.07% ซึ่งไม่สามารถถูกลดลงไปได้อีก (รูปที่ 6.2) ในอีกแง่หนึ่ง ความถูกต้องของแบบจำลองสามารถถูกตรวจสอบได้ด้วยการวัดตัวอย่างง่าย ๆ เพื่อวัตถุประสงค์นี้ ตัวอย่างจำนวนเพียงเล็กน้อยถูกนำมาวัดและวิเคราะห์ ค่าความผิดพลาดของการวิเคราะห์จะต้องอยู่ในช่วงเดียวกันกับค่าความผิดพลาดจากการทำนาย (RMSECV หรือ RMSEP) ที่ซึ่งถูกหาค่าไว้ล่วงหน้าแล้ว หากความผิดพลาดเฉลี่ยในการวิเคราะห์ของชุดข้อมูลที่ใช้ในการพิสูจน์มีค่าต่ำกว่าความผิดพลาดของตัวอย่างที่วัด แบบจำลองอาจถูกพิสูจน์โดยใช้จำนวนตัวอย่างที่ไม่เพียงพอ

รูปที่ 6.10 ค่าความผิดพลาดเฉลี่ยที่พล็อตเทียบกับจำนวนแฟคเตอร์ สำหรับของผสมเมธานอล/เอธานอล/โพรพานอล โดยความเข้มข้นของชุดข้อมูลอ้างอิง (ตามอำเภอใจและไม่มีเหตุผล) ระหว่าง 0-100% และถูกพิสูจน์โดยใช้ชุดตัวอย่างไม่อิสระ การพิสูจน์ที่ยอมรับไม่ได้นี้รับรู้ได้จากการที่ค่าความผิดพลาดของการวิเคราะห์ลดลงอย่างต่อเนื่องเมื่อจำนวนแฟคเตอร์เพิ่มขึ้น

[1] “The copyright is belong to Dr. Jörg-Peter Conzen”

30 กันยายน 2561

ผู้ชม 2119 ครั้ง