ดาวน์โหลดบทความ ดาวน์โหลดบทความ

ในวิชาสถิติ ค่าผิดปกติ คือข้อมูลที่มีความแตกต่างอย่างมีนัยยะสำคัญจากข้อมูลตัวอื่นๆ ในตัวอย่าง ส่วนมากแล้วค่าผิดปกติในชุดข้อมูลจะเป็นการเตือนนักทำสถิติให้ทำการทดสอบความผิดปกติหรือความผิดพลาดในการวัดข้อมูล ซึ่งอาจทำให้พวกเขาคัดทิ้งค่าผิดปกตินี้ทิ้งไปจากชุดข้อมูลได้ หากพวกเขา ได้ คัดทิ้งค่าผิดปกติออกไปจากชุดข้อมูลจริง อาจมีผลต่อการเปลี่ยนแปลงสำคัญในบทสรุปของการวิจัย เมื่อเป็นเช่นนี้ การรู้วิธีคำนวณและประเมินค่าผิดปกติจึงจำเป็นเพื่อที่จะทำความเข้าใจในข้อมูลเชิงสถิติอย่างแจ่มแจ้ง

  1. เรียนรู้การแยกแยะค่าผิดปกติที่ซ่อนเร้นอยู่. ก่อนจะตัดสินใจคัดทิ้งค่าผิดปกติจากชุดข้อมูลที่ได้มานั้น แน่นอนว่าก่อนอื่นเราต้องหาค่าผิดปกติที่ซ่อนเร้นอยู่ในชุดข้อมูลออกมาก่อน โดยทั่วไปค่าผิดปกติก็คือจุดข้อมูลที่แตกต่างไปจากความโน้มเอียงของค่าอื่นๆ ในชุดข้อมูลอย่างมาก พูดอีกอย่างก็คือ พวกมัน โดดออกมาจาก ค่าอื่นๆ มันจึงตรวจเจอได้ง่ายมากจากตารางข้อมูลหรือ (โดยเฉพาะอย่างยิ่ง) ในกราฟ หากชุดข้อมูลถูกแสดงเชิงภาพบนกราฟแล้ว จุดที่ผิดปกติจะ "อยู่ห่างออกมา" จากค่าอื่นๆ เช่น หากจุดข้อมูลส่วนใหญ่ในชุดข้อมูลก่อรูปแบบเป็นเส้นตรง ค่าที่ผิดปกติจะไม่สามารถนำมาเชื่อมต่อกับเส้นตรงนั้นได้
    • มาลองสมมติชุดข้อมูลที่แทนอุณหภูมิของวัตถุต่างชนิด 12 ชิ้นภายในห้อง หากวัตถุ 11 ชิ้นมีอุณหภูมิอยู่ภายในช่วง 70 องศาฟาเรนไฮต์ (21 องศาเซลเซียส) แต่มีวัตถุชิ้นที่สิบสองมีอุณหภูมิสูงถึง 300 องศาฟาเรนไฮต์ (150 องศาเซลเซียส) ตรวจสอบคร่าวๆ สามารถบอกคุณได้ว่าเตาอบน่าจะเป็นตัวค่าผิดปกติ
  2. ขั้นตอนแรกเวลาคำนวณค่าผิดปกติในชุดข้อมูลคือการหาค่ามัธยฐาน (ค่ากลาง) ของชุดข้อมูล การหาจะง่ายมากถ้ามีการเรียงลำดับข้อมูลจากค่าต่ำสุดขึ้นไปหาค่าสูงสุด ดังนั้นก่อนจะทำต่อไป ให้จัดเรียงข้อมูลในรูปแบบนี้ก่อน
    • สมมติว่ายังคงใช้ตัวอย่างข้างต้น นี่คือชุดข้อมูลของเราที่แทนค่าอุณหภูมิวัตถุหลายชิ้นภายในห้อง: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69} หากเราเรียงลำดับค่าในชุดข้อมูลจากต่ำสุดไปหาสูงสุด เราจะได้ชุดข้อมูลใหม่ดังนี้: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
  3. ค่ามัธยฐานของชุดข้อมูลคือจุดข้อมูลข้างต้นที่อยู่เหนือชุดข้อมูลครึ่งหนึ่งและอยู่ใต้ชุดข้อมูลอีกครึ่งหนึ่ง นั่นคือ มันคือค่า "ตรงกลาง" ในชุดข้อมูล หากชุดข้อมูลมีจำนวนจุดข้อมูลเป็นเลขคี่ งั้นก็หาได้ง่ายเลย มัธยฐานคือจุดที่มีข้อมูลอยู่เหนือมันกับต่ำกว่ามันเท่ากัน อย่างไรก็ตาม หากจุดข้อมูลเป็นเลขคู่ เนื่องจากมันจะไม่มีจุดกลางเดี่ยวๆ จุดที่อยู่ตรงกลาง 2 ตัวจึงควรนำมาเฉลี่ยเพื่อหาค่ามัธยฐาน โปรดสังเกตว่าเวลาคำนวณค่าผิดปกตินั้น ค่ามัธยฐานมักจะถูกแทนด้วยตัวแปร Q2 นั่นเป็นเพราะมันอยู่ระหว่างค่า Q1 กับ Q3, ควอไทล์ต่ำกว่ากับควอไทล์สูงกว่า ซึ่งเราจะพูดถึงในภายหลัง
    • อย่าสับสนกับชุดข้อมูลที่มีจำนวนจุดข้อมูลเป็นจำนวนคู่ ค่าเฉลี่ยของจุดกลางสองจุดมักจะเป็นตัวเลขที่ไม่ได้ปรากฏในชุดข้อมูล ซึ่งไม่เป็นไร อย่างไรก็ตาม หากจุดกลางสองจุดนั้นเป็นเลขจำนวนเดียวกัน แน่นอนว่าค่าเฉลี่ยก็ต้องเป็นเลขจำนวนนั้นเช่นกัน ซึ่งก็ไม่เป็นไรอีกเช่นกัน
    • ในตัวอย่าง เรามีจุดข้อมูล 12 จุด จุดกลาง 2 ตัวคือจุด 6 กับ 7 ที่เป็นค่า 70 กับ 71 ตามลำดับ ดังนั้น ค่ามัธยฐานสำหรับชุดข้อมูลคือค่าเฉลี่ยระหว่างสองจุดข้อมูลนี้: ((70 + 71) / 2), = 70.5
  4. จุดนี้เราแทนค่าด้วยตัวแปร Q1, นั้นคือจุดข้อมูลที่อยู่ข้างล่างลงไป 25 เปอร์เซ็นต์ (หรือหนึ่งควอเตอร์) ของชุดข้อมูลสังเกตการณ์ พูดอีกอย่างก็คือนี่คือครึ่งทางของจุดข้อมูลในชุดข้อมูลที่อยู่ ใต้ ค่ามัธยฐาน หากค่าที่อยู่ใต้มัธยฐานนี้มีจำนวนเป็นเลขคู่ คุณก็ต้องหาค่าเฉลี่ยของค่ากลางสองตัวอีกครั้งเพื่อหา Q1, เหมือนกับที่คุณต้องทำเพื่อหาค่ามัธยฐานนั่นเอง
    • ตามตัวอย่าง มีจุดข้อมูลเหนือค่ามัธยฐาน 6 จุดและต่ำกว่าอีก 6 จุด นั่นหมายถึง การจะหาควอไทล์ต่ำกว่า เราจำเป็นต้องเฉลี่ยจุดกลางสองจุดของจุดด้านล่างทั้งหกจุด จุดที่ 3 กับ 4 ของจุดข้างล่างทั้ง 6 ตัวนั้นต่างมีค่า 70 เท่ากัน ดังนั้น ค่าเฉลี่ยจึงเป็น ((70 + 70) / 2), = 70 ค่า Q1 ของเราจึงเท่ากับ 70
  5. จุดนี้เราแทนค่าด้วยตัวแปร Q3, นั้นคือจุดข้อมูลที่อยู่ข้างบนขึ้นมา 25 เปอร์เซ็นต์ของชุดข้อมูล การหา Q3 นั้นเกือบจะเหมือนการหา Q1, เว้นแต่ว่าในกรณีนี้จุดข้อมูลที่นำมาคิดจะอยู่ เหนือ ค่ามัธยฐานแทนที่จะอยู่ต่ำกว่า
    • ต่อจากตัวอย่างข้างต้น จุดกลางสองจุดของจุดข้อมูล 6 จุดที่อยู่เหนือค่ามัธยฐานคือ 71 กับ 72 ค่าเฉลี่ยของจุดข้อมูล 2 ตัวนี้คือ ((71 + 72) / 2), = 71.5 ดังนั้นค่าของ Q3 จะเท่ากับ 71.5
  6. ตอนนี้เมื่อเราได้ค่า Q1 กับ Q3 แล้ว เราต้องคำนวณระยะห่างระหว่างตัวแปรสองตัวนี้ ระยะจาก Q1 ถึง Q3 หาได้โดยการลบ Q1 ออกจาก Q3 ค่าที่ได้จากพิสัยระหว่างควอไทล์นี้จำเป็นต่อการพิจารณาขอบเขตของค่าผิดปกติในชุดข้อมูล
    • ตามตัวอย่าง ค่า Q1 กับ Q3 คือ 70 กับ 71.5 ตามลำดับ ในการหาพิสัยระหว่างควอไทล์ เราต้องลบ Q3 - Q1: 71.5 - 70 = 1.5
    • โปรดสังเกตว่ามันใช้ได้แม้ว่าหาก Q1, Q3, หรือทั้งคู่เป็นเลขจำนวนเป็นลบ เช่น หากค่า Q1 เป็น -70 พิสัยระหว่างควอไทล์ของเราก็จะเป็น 71.5 - (-70) = 141.5 ซึ่งถูกต้อง
  7. ค่าผิดปกติหาได้โดยการประเมินว่ามันอยู่ภายในกลุ่มขอบเขตตัวเลขที่เรียกว่า "ขอบรั้วชั้นใน" กับ "ขอบรั้วชั้นนอก" จุดข้อมูลที่อยู่นอกขอบรั้วชั้นในของชุดข้อมูลนั้นจะถูกจัดให้เป็น ค่าผิดปกติเล็กน้อย ในขณะที่จุดข้อมูลซึ่งอยู่นอกขอบรั้วชั้นนอกจะถูกจัดให้เป็น ค่าผิดปกติใหญ่หลวง ในการหาขอบรั้วชั้นในของชุดข้อมูลนั้น ก่อนอื่นให้คูณพิสัยระหว่างควอไทล์ด้วย 1.5 แล้วบวกผลที่ได้กับ Q3 และลบมันออกจาก Q1 ค่าที่ได้สองค่านี้จะเป็นขอบเขตของขอบรั้วชั้นในของชุดข้อมูล
  8. ทำแบบเดียวกันกับขอบรั้วชั้นใน เว้นแต่พิสัยระหว่างควอไทล์จะคูณด้วย 3 แทนที่จะเป็น 1.5 ผลที่ได้จะถูกนำมาบวกกับ Q3 และลบออกจาก Q1 เพื่อหาขอบเขตสูงกว่าและต่ำกว่าของขอบรั้วชั้นนอก
  9. ใช้การประเมินเชิงคุณภาพมาพิจารณาว่าจะ "คัดทิ้ง" ค่าผิดปกตินี้หรือไม่. โดยการใช้วิธีการดังกล่าวจะสามารถตัดสินได้ว่าจุดข้อมูลที่ว่าเป็นค่าผิดปกติเล็กน้อย ค่าผิดปกติใหญ่หลวง หรือไม่ใช่ค่าผิดปกติเลย อย่างไรก็ตาม อย่าทำผิดพลาด การระบุจุดข้อมูลเป็นค่าผิดปกติเป็นเพียงการกำกับมันว่ามี คุณสมบัติ จะถูกคัดทิ้งจากชุดข้อมูล ไม่ได้หมายความว่าเป็นจุดข้อมูลที่ จะต้อง ถูกคัดทิ้ง เหตุผล ที่ค่าผิดปกติแตกต่างจากจุดข้อมูลที่เหลือในชุดข้อมูลนั้นมีความสำคัญต่อการพิจารณาว่าจะคัดทิ้งค่าผิดปกติหรือไม่ โดยทั่วไปแล้วค่าผิดปกติสามารถให้เหตุผลว่าเป็นความผิดพลาดในจุดใดจุดหนึ่ง เช่น ถ้าเป็นความผิดพลาดในการวัดค่า ในการบันทึกค่า หรือการออกแบบการทดลองก็อาจจะคัดทิ้งได้ ในทางตรงข้ามถ้าหากค่าผิดปกติไม่ได้มาจากความผิดพลาด และอาจเผยให้เห็นข้อมูลหรือลักษณะทิศทางใหม่ที่ไม่ได้ทำนายไว้ก่อนแล้วนั้น ก็มักจะ ไม่ คัดทิ้งค่าผิดปกตินี้
    • อีกเกณฑ์ที่ต้องพิจารณาคือค่าผิดปกตินั้นมีผลในเชิงนัยสำคัญต่อค่ามัชฌิม (ค่าเฉลี่ย) ของชุดข้อมูลในแบบที่มีผลทำให้มันเบี่ยงเบนหรือเกิดเข้าใจผิดได้หรือไม่ ตรงนี้สำคัญอย่างยิ่งถ้าหากคุณตั้งใจจะสรุปผลจากค่ามัชฌิมของชุดข้อมูล
    • มาประเมินตัวอย่างของเรากัน ในตัวอย่างนี้เนื่องจากมัน แทบเป็นไปไม่ได้ ที่เตาอบจะมีอุณหภูมิสูงถึง 300 องศาจากพลังทางธรรมชาติที่มองไม่เห็น เราสามารถสรุปชนิดแทบจะมั่นใจได้ว่ามีใครเผลอเปิดเตาอบทิ้งไว้ ส่งผลให้อ่านค่าอุณหภูมิได้สูงลิ่วผิดปกติ นอกจากนี้ ถ้าเราไม่คัดทิ้งค่าผิดปกตินั้น ค่ามัชฌิมของชุดข้อมูลของเราจะเป็น (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 องศา ในขณะที่ค่ามัชฌิมหากเรา จัดการ คัดทิ้งค่าผิดปกติออกไปจะเป็น (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55
      • เนื่องจากค่าผิดปกติสามารถเป็นผลมาจากความผิดพลาดของมนุษย์ และเพราะมันคงไม่ถูกต้องถ้าจะพูดว่าอุณหภูมิเฉลี่ยในห้องนั้นสูงถึง 90 องศา เราจึงควรเลือก คัดทิ้ง ค่าผิดปกติ
  10. เข้าใจความสำคัญของการเก็บค่าผิดปกติเอาไว้ (ในบางครั้ง). ในขณะที่ค่าผิดปกติสมควรคัดทิ้งจากชุดข้อมูลเพราะมันเป็นผลมาจากความผิดพลาดและ/หรือผลที่เบี่ยงเบนจนไม่แม่นยำหรือชวนให้เข้าใจผิด ค่าผิดปกติบางทีก็ควรจะเก็บเอาไว้ เช่น หากค่าผิดปกติดูเป็นค่าที่วัดได้จริง (นั่นคือไม่ได้เกิดจากความผิดพลาด) และ/หรือแสดงให้เห็นทิศทางใหม่ในปรากฏการณ์ที่ถูกวัดค่านี้ พวกมันก็ไม่ควรถูกคัดทิ้งไป การทดลองทางวิทยาศาสตร์นั้นถือเป็นเรื่องละเอียดอ่อนอย่างยิ่งเมื่อเจอค่าผิดปกติ การคัดทิ้งค่าผิดปกติบางทีอาจหมายถึงการคัดทิ้งข้อมูลที่บ่งชี้ถึงแนวทางใหม่หรือการค้นพบอะไรใหม่ๆ ได้
    • ตัวอย่าง สมมติให้เราออกแบบยาตัวใหม่ที่จะเพิ่มขนาดของปลาในบ่อเลี้ยงปลา เราใช้ชุดข้อมูลเดิมของเรา ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), เว้นแต่คราวนี้ แต่ละจุดข้อมูลจะแทนน้ำหนักของปลา (เป็นกรัม) หลังจากได้รับการทดลองใช้ยาต่างกันตั้งแต่เกิด พูดง่ายๆ คือ ยาตัวแรกทำให้ปลาตัวหนึ่งหนัก 71 กรัม ยาตัวที่สองให้ปลาอีกตัวหนัก 70 กรัม ไปเรื่อยๆ ในสถานการณ์นี้ 300 ยังคง เป็นค่าผิดปกติอย่างใหญ่หลวง แต่เราจะคัดทิ้งไปไม่ได้ เพราะหากสันนิษฐานว่าถ้าไม่ได้เกิดความผิดพลาดแล้ว มันแสดงให้เห็นถึงผลสำเร็จอย่างยิ่งในการทดลอง ยาที่ทำให้ปลาหนัก 300 กรัมมีประสิทธิภาพกว่ายาตัวอื่นๆ ดังนั้น จุดข้อมูลนี้จึงเป็นข้อมูลที่สำคัญ ที่สุด ในชุดข้อมูล
    โฆษณา

เคล็ดลับ

  • เวลาพบค่าผิดปกติแล้ว พยายามอธิบายการมีอยู่ของมันก่อนจะคัดทิ้งออกจากชุดข้อมูล พวกมันสามารถชี้ให้เห็นถึงความผิดพลาดในการวัดหรือความผิดปกติในการแจกแจงได้
โฆษณา

สิ่งของที่ใช้

  • เครื่องคิดเลข

เกี่ยวกับวิกิฮาวนี้

มีการเข้าถึงหน้านี้ 32,503 ครั้ง

บทความนี้เป็นประโยชน์กับคุณไหม

โฆษณา