โซลูชันของอนุกรมผันแปร สำหรับนักเรียนและเด็กนักเรียน - ช่วยในการศึกษา

สภาพ:

มีข้อมูลเกี่ยวกับองค์ประกอบอายุของคนงาน (ปี): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. สร้างชุดการกระจายตามช่วงเวลา
    2. สร้างการแสดงภาพกราฟิกของซีรีส์
    3. กำหนดโหมดและค่ามัธยฐานแบบกราฟิก

วิธีการแก้:

1) ตามสูตร Sturgess ประชากรจะต้องแบ่งออกเป็น 1 + 3.322 lg 30 = 6 กลุ่ม

อายุสูงสุดคือ 38 ขั้นต่ำคือ 18

ความกว้างของช่วง เนื่องจากจุดสิ้นสุดของช่วงต้องเป็นจำนวนเต็ม เราจะแบ่งประชากรออกเป็น 5 กลุ่ม ความกว้างของช่วง - 4

เพื่อความสะดวกในการคำนวณ ให้จัดเรียงข้อมูลตามลำดับจากน้อยไปมาก: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29 , 29, 30 , 30, 31, 32, 32, 33, 34, 35, 38, 38.

การแบ่งอายุของคนงาน

ในกราฟิก ซีรีส์สามารถแสดงเป็นฮิสโตแกรมหรือรูปหลายเหลี่ยมได้ ฮิสโตแกรม - กราฟแท่ง ฐานของคอลัมน์คือความกว้างของช่วง ความสูงของแท่งเท่ากับความถี่

รูปหลายเหลี่ยม (หรือรูปหลายเหลี่ยมการกระจาย) คือกราฟของความถี่ ในการสร้างตามฮิสโตแกรม เราเชื่อมต่อจุดกึ่งกลางของด้านบนของรูปสี่เหลี่ยมผืนผ้า เราปิดรูปหลายเหลี่ยมบนแกน x ที่ระยะทางเท่ากับครึ่งช่วงจากค่า x สุดขั้ว

โหมด (Mo) คือค่าของลักษณะที่อยู่ระหว่างการศึกษา ซึ่งเกิดขึ้นบ่อยที่สุดในประชากรที่กำหนด

ในการกำหนดโหมดจากฮิสโตแกรม คุณต้องเลือกสี่เหลี่ยมผืนผ้าสูงสุด ลากเส้นจากจุดยอดด้านขวาของสี่เหลี่ยมนี้ไปที่มุมบนขวาของสี่เหลี่ยมก่อนหน้า และลากเส้นจากจุดยอดด้านซ้ายของสี่เหลี่ยมโมดอลไปที่ จุดยอดด้านซ้ายของสี่เหลี่ยมถัดไป จากจุดตัดของเส้นเหล่านี้ ให้ลากเส้นตั้งฉากกับแกน x abscissa จะเป็นแฟชั่น โม ≈ 27.5. ซึ่งหมายความว่าอายุที่พบมากที่สุดในประชากรกลุ่มนี้คือ 27-28 ปี

ค่ามัธยฐาน (Me) คือค่าของลักษณะที่อยู่ระหว่างการศึกษา ซึ่งอยู่ตรงกลางของอนุกรมความแปรผันที่มีลำดับ

เราหาค่ามัธยฐานโดยสะสม สะสม - กราฟของความถี่สะสม Abscissas เป็นตัวแปรของซีรีส์ พิกัดคือความถี่สะสม

เพื่อหาค่ามัธยฐานสำหรับการสะสม เราพบจุดที่สอดคล้องกับ 50% ของความถี่สะสมตามแกนกำหนด (ในกรณีของเราคือ 15) ลากเส้นตรงผ่านมัน ขนานกับแกน Ox แล้ววาดเส้นตั้งฉากกับ แกน x จากจุดตัดกับยอด abscissa เป็นค่ามัธยฐาน ฉัน≈ 25.9. ซึ่งหมายความว่าครึ่งหนึ่งของคนงานในประชากรกลุ่มนี้มีอายุต่ำกว่า 26 ปี

ผันแปรเรียกว่าชุดการแจกจ่ายที่สร้างขึ้นบนพื้นฐานเชิงปริมาณ ค่าของลักษณะเชิงปริมาณในแต่ละหน่วยของประชากรไม่คงที่ แตกต่างกันมากหรือน้อย

Variation- ความผันผวนความแปรปรวนของค่าแอตทริบิวต์ในหน่วยของประชากร แยก ค่าตัวเลขลักษณะที่เกิดขึ้นในกลุ่มประชากรที่ศึกษาเรียกว่า ตัวเลือกค่า ความไม่เพียงพอของค่าเฉลี่ยสำหรับการกำหนดลักษณะที่สมบูรณ์ของประชากรทำให้จำเป็นต้องเสริมค่าเฉลี่ยด้วยตัวบ่งชี้ที่ทำให้สามารถประเมินลักษณะทั่วไปของค่าเฉลี่ยเหล่านี้ได้โดยการวัดความผันผวน (การเปลี่ยนแปลง) ของลักษณะภายใต้การศึกษา

การปรากฏตัวของการเปลี่ยนแปลงนั้นเกิดจากอิทธิพลของปัจจัยจำนวนมากต่อการก่อตัวของระดับลักษณะ ปัจจัยเหล่านี้กระทำการด้วยแรงที่ไม่เท่ากันและในทิศทางที่ต่างกัน ตัวบ่งชี้การเปลี่ยนแปลงใช้เพื่ออธิบายการวัดความแปรปรวนของลักษณะ

งานของการศึกษาทางสถิติของการแปรผัน:

  • 1) การศึกษาธรรมชาติและระดับความแปรปรวนของสัญญาณในแต่ละหน่วยของประชากร
  • 2) การกำหนดบทบาทของปัจจัยส่วนบุคคลหรือกลุ่มของพวกเขาในการเปลี่ยนแปลงของคุณลักษณะบางอย่างของประชากร

ในสถิติจะใช้วิธีการพิเศษในการศึกษาความแปรผันตามการใช้ระบบตัวบ่งชี้ กับโดยที่ความแปรปรวนจะถูกวัด

การศึกษาความผันแปรเป็นสิ่งสำคัญ การวัดความแปรปรวนเป็นสิ่งจำเป็นเมื่อทำการสังเกตตัวอย่าง การวิเคราะห์สหสัมพันธ์และการวิเคราะห์ความแปรปรวน ฯลฯ Ermolaev O.Yu. สถิติทางคณิตศาสตร์สำหรับนักจิตวิทยา: ตำรา [ข้อความ] / O.Yu. เออร์โมเลฟ - M .: Flint Publishing House ของสถาบันจิตวิทยาและสังคมมอสโก 2555 - 335p

ตามระดับของการเปลี่ยนแปลง เราสามารถตัดสินความเป็นเนื้อเดียวกันของประชากร ความเสถียรของค่าคุณลักษณะส่วนบุคคล และลักษณะทั่วไปของค่าเฉลี่ย บนพื้นฐานของตัวบ่งชี้ความใกล้ชิดของความสัมพันธ์ระหว่างสัญญาณตัวบ่งชี้สำหรับการประเมินความถูกต้องของการสังเกตแบบคัดเลือกได้รับการพัฒนา

มีการเปลี่ยนแปลงในอวกาศและการเปลี่ยนแปลงในเวลา

ความแปรปรวนในอวกาศเป็นที่เข้าใจกันว่าความผันผวนของค่าคุณลักษณะในหน่วยของประชากรที่เป็นตัวแทนของอาณาเขตที่แยกจากกัน ภายใต้การเปลี่ยนแปลงของเวลาหมายถึงการเปลี่ยนแปลงในค่าของแอตทริบิวต์ในช่วงเวลาต่างๆ

เพื่อศึกษาความแปรผันในอนุกรมการแจกแจง ตัวแปรทั้งหมดของค่าแอตทริบิวต์จะเรียงลำดับจากน้อยไปมากหรือมากไปหาน้อย กระบวนการนี้เรียกว่าการจัดอันดับซีรีส์

สัญญาณการเปลี่ยนแปลงที่ง่ายที่สุดคือ ต่ำสุดและสูงสุด- ค่าที่เล็กที่สุดและใหญ่ที่สุดของแอตทริบิวต์ในผลรวม จำนวนการทำซ้ำของค่าคุณลักษณะแต่ละตัวแปรเรียกว่าความถี่ของการทำซ้ำ (fi) สะดวกในการเปลี่ยนความถี่ด้วยความถี่ - wi ความถี่ - ตัวบ่งชี้ความถี่สัมพัทธ์ ซึ่งสามารถแสดงเป็นเศษส่วนของหน่วยหรือเปอร์เซ็นต์ และช่วยให้คุณสามารถเปรียบเทียบชุดรูปแบบต่างๆ กับจำนวนการสังเกตที่ต่างกันได้ แสดงโดยสูตร:

โดยที่ Xmax, Xmin - ค่าสูงสุดและต่ำสุดของแอตทริบิวต์โดยรวม n คือจำนวนกลุ่ม

ในการวัดความผันแปรของคุณลักษณะ จะใช้ตัวบ่งชี้แบบสัมบูรณ์และแบบสัมพัทธ์ต่างๆ ตัวชี้วัดความผันแปรแบบสัมบูรณ์รวมถึงช่วงของการเปลี่ยนแปลง ความเบี่ยงเบนเชิงเส้นเฉลี่ย ความแปรปรวน ส่วนเบี่ยงเบนมาตรฐาน ตัวบ่งชี้สัมพัทธ์ของความผันผวนประกอบด้วยค่าสัมประสิทธิ์การสั่น ส่วนเบี่ยงเบนเชิงเส้นสัมพัทธ์ ค่าสัมประสิทธิ์การแปรผัน

ตัวอย่างการหาชุดตัวแปร

ออกกำลังกาย.สำหรับตัวอย่างนี้:

  • ก) ค้นหาชุดการเปลี่ยนแปลง
  • b) สร้างฟังก์ชันการกระจาย

เลขที่=42. รายการตัวอย่าง:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

วิธีการแก้.

  • ก) การสร้างชุดตัวแปรที่จัดอันดับ:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • b) การสร้างชุดตัวแปรแบบแยกส่วน

มาคำนวณจำนวนกลุ่มในชุดตัวแปรโดยใช้สูตร Sturgess:

ลองหาจำนวนกลุ่มที่เท่ากับ 7

เมื่อทราบจำนวนกลุ่มเราคำนวณค่าของช่วงเวลา:

เพื่อความสะดวกในการสร้างตารางเราจะเอาจำนวนกลุ่มเท่ากับ 8 ช่วงจะเป็น 1

ข้าว. หนึ่ง ปริมาณการขายสินค้าโดยร้านค้าในช่วงระยะเวลาหนึ่ง

วิธีการจัดกลุ่มยังช่วยให้คุณวัดได้ การเปลี่ยนแปลง(ความแปรปรวนผันผวน) ของสัญญาณ ด้วยจำนวนหน่วยประชากรที่ค่อนข้างน้อย ความผันแปรจะถูกวัดโดยพิจารณาจากชุดของหน่วยที่จัดอันดับซึ่งประกอบขึ้นเป็นประชากร แถวนั้นเรียกว่า อันดับถ้าหน่วยถูกจัดเรียงในลักษณะจากน้อยไปมาก (จากมากไปน้อย)

อย่างไรก็ตาม อนุกรมที่จัดอันดับนั้นค่อนข้างจะบ่งบอกเมื่อจำเป็นต้องมีคุณลักษณะเชิงเปรียบเทียบของการแปรผัน นอกจากนี้ ในหลายกรณี เราต้องจัดการกับผลรวมทางสถิติที่ประกอบด้วยหน่วยจำนวนมาก ซึ่งในทางปฏิบัติยากที่จะแสดงในรูปแบบของชุดข้อมูลเฉพาะ ในเรื่องนี้ สำหรับความคุ้นเคยทั่วไปเบื้องต้นกับข้อมูลทางสถิติและโดยเฉพาะอย่างยิ่งเพื่ออำนวยความสะดวกในการศึกษาความผันแปรของสัญญาณ ปรากฏการณ์และกระบวนการที่ศึกษามักจะรวมกันเป็นกลุ่ม และผลลัพธ์ของการจัดกลุ่มจะถูกวาดขึ้นในรูปแบบของตารางกลุ่ม .

หากมีเพียงสองคอลัมน์ในตารางกลุ่ม - กลุ่มตามคุณสมบัติที่เลือก (ตัวเลือก) และจำนวนกลุ่ม (ความถี่หรือความถี่) จะถูกเรียกว่า ใกล้กระจาย.

ช่วงการจำหน่าย -ประเภทที่ง่ายที่สุดของการจัดกลุ่มโครงสร้างตามแอตทริบิวต์เดียว แสดงในตารางกลุ่มที่มีสองคอลัมน์ที่มีตัวแปรและความถี่ของแอตทริบิวต์ ในหลายกรณีด้วยการจัดกลุ่มโครงสร้างเช่น ด้วยการรวบรวมชุดการแจกจ่าย การศึกษาข้อมูลทางสถิติเบื้องต้นเริ่มต้นขึ้น

การจัดกลุ่มโครงสร้างในรูปแบบของชุดการแจกจ่ายสามารถเปลี่ยนเป็นการจัดกลุ่มโครงสร้างที่แท้จริงได้ หากกลุ่มที่เลือกมีลักษณะเฉพาะไม่เฉพาะตามความถี่เท่านั้น แต่ยังรวมถึงตัวบ่งชี้ทางสถิติอื่นๆ ด้วย จุดประสงค์หลักของชุดการแจกจ่ายคือเพื่อศึกษาความผันแปรของคุณลักษณะต่างๆ ทฤษฎีอนุกรมการแจกแจงได้รับการพัฒนาอย่างละเอียดโดยสถิติทางคณิตศาสตร์

ชุดการจัดจำหน่ายแบ่งออกเป็น แอตทริบิวต์(จัดกลุ่มตามลักษณะเฉพาะตัว เช่น การแบ่งกลุ่มประชากรตามเพศ สัญชาติ สถานภาพสมรส เป็นต้น) และ ผันแปร(จัดกลุ่มตามลักษณะเชิงปริมาณ)

ชุดตัวแปรเป็นตารางกลุ่มที่มีสองคอลัมน์: การจัดกลุ่มของหน่วยตามแอตทริบิวต์เชิงปริมาณหนึ่งรายการและจำนวนหน่วยในแต่ละกลุ่ม ช่วงเวลาในอนุกรมความแปรผันมักจะเกิดขึ้นเท่ากันและปิด ชุดรูปแบบคือการจัดกลุ่มต่อไปนี้ของประชากรรัสเซียในแง่ของรายได้เงินสดเฉลี่ยต่อหัว (ตารางที่ 3.10)

ตาราง 3.10

การกระจายตัวของประชากรรัสเซียตามรายได้เฉลี่ยต่อหัวในปี 2547-2552

กลุ่มประชากรตามรายได้เงินสดเฉลี่ยต่อหัว rub./เดือน

ประชากรในกลุ่มคิดเป็น % ของทั้งหมด

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

มากกว่า 25,000.0

ประชากรทั้งหมด

ในทางกลับกัน อนุกรมแบบแปรผันจะแบ่งออกเป็นแบบไม่ต่อเนื่องและแบบช่วง ไม่ต่อเนื่องซีรีส์รูปแบบต่างๆ ผสมผสานรูปแบบต่างๆ ของคุณลักษณะที่ไม่ต่อเนื่องซึ่งแตกต่างกันภายในขอบเขตที่แคบ ตัวอย่างของชุดรูปแบบที่ไม่ต่อเนื่องคือการกระจายครอบครัวรัสเซียตามจำนวนเด็กที่พวกเขามี

ช่วงเวลาซีรีส์ Variational Series ผสมผสานรูปแบบต่างๆ ของคุณลักษณะที่ต่อเนื่องกันหรือคุณลักษณะที่ไม่ต่อเนื่องซึ่งเปลี่ยนแปลงไปในวงกว้าง อนุกรมช่วงเวลาคือชุดที่แปรผันของการกระจายตัวของประชากรรัสเซียในแง่ของรายได้เงินสดเฉลี่ยต่อหัว

ในทางปฏิบัติไม่ได้ใช้อนุกรมวิธานแบบแยกส่วนบ่อยนัก ในขณะเดียวกัน การรวบรวมพวกมันก็ไม่ใช่เรื่องยาก เนื่องจากองค์ประกอบของกลุ่มถูกกำหนดโดยตัวแปรเฉพาะที่ลักษณะการจัดกลุ่มที่ศึกษามีอยู่จริง

อนุกรมวิธานแบบช่วงเวลาจะแพร่หลายมากขึ้น ในการรวบรวมคำถามที่ยากเกิดขึ้นจากจำนวนกลุ่มตลอดจนขนาดของช่วงเวลาที่ควรกำหนด

หลักการในการแก้ไขปัญหานี้มีระบุไว้ในบทเกี่ยวกับวิธีการสร้างการจัดกลุ่มทางสถิติ (ดูย่อหน้าที่ 3.3)

ชุดความแปรปรวนเป็นวิธีการยุบหรือบีบอัดข้อมูลที่หลากหลายให้อยู่ในรูปแบบกะทัดรัด สามารถใช้เพื่อสร้างการตัดสินใจที่ชัดเจนพอสมควรเกี่ยวกับธรรมชาติของการแปรผัน เพื่อศึกษาความแตกต่างในสัญญาณของปรากฏการณ์ที่รวมอยู่ในฉากที่กำลังศึกษา แต่ความสำคัญที่สำคัญที่สุดของอนุกรมความแปรผันคือโดยพื้นฐานแล้ว ลักษณะทั่วไปพิเศษของการแปรผันจะถูกคำนวณ (ดูบทที่ 7)

  • บทเรียนเบื้องต้น ฟรี;
  • ครูที่มีประสบการณ์จำนวนมาก (เจ้าของภาษาและที่พูดภาษารัสเซีย);
  • หลักสูตรไม่ใช่สำหรับช่วงเวลาเฉพาะ (เดือน หกเดือน ปี) แต่สำหรับจำนวนบทเรียนเฉพาะ (5, 10, 20, 50)
  • ลูกค้าพึงพอใจมากกว่า 10,000 ราย
  • ค่าใช้จ่ายหนึ่งบทเรียนกับครูที่พูดภาษารัสเซีย - จาก 600 รูเบิลกับเจ้าของภาษา - จาก 1,500 รูเบิล

แนวคิดของชุดรูปแบบต่างๆขั้นตอนแรกในการจัดระบบวัสดุของการสังเกตทางสถิติคือการนับจำนวนหน่วยที่มีคุณสมบัติอย่างใดอย่างหนึ่ง เมื่อจัดเรียงหน่วยตามลำดับจากน้อยไปมากหรือจากมากไปน้อยของแอตทริบิวต์เชิงปริมาณและนับจำนวนหน่วยที่มีค่าเฉพาะของแอตทริบิวต์ เราจะได้ชุดรูปแบบต่างๆ อนุกรมความแปรผันแสดงลักษณะการกระจายของหน่วยของประชากรทางสถิติบางกลุ่มตามคุณลักษณะเชิงปริมาณบางอย่าง

ชุดรูปแบบประกอบด้วยสองคอลัมน์ คอลัมน์ด้านซ้ายมีค่าของแอตทริบิวต์ตัวแปร เรียกว่าตัวแปร และแสดงด้วย (x) และคอลัมน์ด้านขวามีตัวเลขสัมบูรณ์ที่แสดงจำนวนครั้งที่แต่ละตัวแปรเกิดขึ้น ค่าในคอลัมน์นี้เรียกว่า ความถี่ และแสดงด้วย (f)

ตามแผนผัง อนุกรมความแปรผันสามารถแสดงในรูปของตารางที่ 5.1:

ตาราง 5.1

ประเภทของชุดตัวแปร

ตัวเลือก (x)

ความถี่ (ฉ)

ในคอลัมน์ทางขวา สามารถใช้ตัวบ่งชี้สัมพัทธ์ที่แสดงลักษณะสัดส่วนของความถี่ของตัวแปรแต่ละตัวในจำนวนความถี่ทั้งหมดได้เช่นกัน ตัวบ่งชี้สัมพัทธ์เหล่านี้เรียกว่า ความถี่ และแสดงตามอัตภาพโดย , i.e. . ผลรวมของความถี่ทั้งหมดเท่ากับหนึ่ง ความถี่สามารถแสดงเป็นเปอร์เซ็นต์ แล้วผลรวมจะเท่ากับ 100%

เครื่องหมายตัวแปรสามารถมีลักษณะที่แตกต่างกัน เครื่องหมายต่างๆ จะแสดงเป็นจำนวนเต็ม เช่น จำนวนห้องในอพาร์ตเมนต์ จำนวนหนังสือที่จัดพิมพ์ เป็นต้น สัญญาณเหล่านี้เรียกว่าไม่ต่อเนื่องหรือไม่ต่อเนื่อง ตัวแปรของคุณสมบัติอื่นสามารถรับค่าใด ๆ ภายในขอบเขตที่แน่นอนเช่นการดำเนินการตามเป้าหมายที่วางแผนไว้ ค่าจ้างเป็นต้น สัญญาณเหล่านี้เรียกว่าต่อเนื่องกัน

ชุดรูปแบบที่ไม่ต่อเนื่องหากตัวแปรของอนุกรมผันแปรแสดงเป็น ปริมาณที่ไม่ต่อเนื่องจากนั้นชุดตัวแปรดังกล่าวเรียกว่าไม่ต่อเนื่องลักษณะที่ปรากฏจะแสดงในตาราง 5.2:

ตาราง 5.2

การแจกแจงนักเรียนตามเกรดที่ได้จากการสอบ

คะแนน (x)

จำนวนนักเรียน (ฉ)

ใน% ของทั้งหมด ()

ลักษณะของการแจกแจงเป็นอนุกรมแบบไม่ต่อเนื่องจะแสดงเป็นภาพกราฟิกเป็นรูปหลายเหลี่ยมการแจกแจง รูปที่ 5.1

ข้าว. 5.1. การแจกแจงนักเรียนตามเกรดที่ได้จากการสอบ

ชุดรูปแบบช่วงเวลาสำหรับคุณสมบัติที่ต่อเนื่องกัน ค่าคุณสมบัติในพวกเขาจะแสดงเป็นช่วงเวลา "จากและถึง" ในกรณีนี้ ค่าต่ำสุดของจุดสนใจในช่วงเวลาดังกล่าวเรียกว่าขีดจำกัดล่างของช่วงเวลา และค่าสูงสุดเรียกว่าขีดจำกัดบนของช่วงเวลา

ซีรีย์ Interval Variational ถูกสร้างขึ้นสำหรับคุณสมบัติที่ไม่ต่อเนื่อง (ไม่ต่อเนื่อง) และสำหรับคุณสมบัติที่แตกต่างกันในช่วงกว้าง แถวช่วงสามารถมีช่วงที่เท่ากันและไม่เท่ากัน ในทางปฏิบัติทางเศรษฐศาสตร์ ส่วนใหญ่จะใช้ช่วงที่ไม่เท่ากัน ค่อยๆ เพิ่มขึ้นหรือลดลง ความต้องการดังกล่าวเกิดขึ้นโดยเฉพาะอย่างยิ่งในกรณีที่สัญญาณผันผวนไม่สม่ำเสมอและอยู่ในขอบเขตขนาดใหญ่

พิจารณาแบบฟอร์ม อนุกรมช่วงเวลาด้วยช่วงเวลาเท่ากัน แท็บ 5.3:

ตาราง 5.3

การกระจายคนงานตามผลผลิต

เอาท์พุต, tr. (X)

จำนวนคนงาน (ฉ)

ความถี่สะสม (f´)

อนุกรมการแจกแจงแบบช่วงเวลาจะแสดงภาพกราฟิกเป็นฮิสโตแกรม รูปที่ 5.2

รูปที่ 5.2 การกระจายคนงานตามผลผลิต

ความถี่สะสม (สะสม)ในทางปฏิบัติ จำเป็นต้องแปลงอนุกรมการแจกจ่ายเป็น แถวสะสมสร้างขึ้นจากความถี่สะสม สามารถใช้เพื่อกำหนดค่าเฉลี่ยโครงสร้างที่อำนวยความสะดวกในการวิเคราะห์ข้อมูลชุดการแจกจ่าย

ความถี่สะสมถูกกำหนดโดยการเพิ่มความถี่ (หรือความถี่) อย่างต่อเนื่องของกลุ่มแรกของตัวบ่งชี้เหล่านี้ของกลุ่มที่ตามมาของชุดการกระจาย สะสมและ ogives ใช้เพื่อแสดงชุดการแจกจ่าย ในการสร้างค่าของคุณสมบัติที่ไม่ต่อเนื่อง (หรือจุดสิ้นสุดของช่วงเวลา) จะถูกทำเครื่องหมายบนแกน abscissa และความถี่รวมที่เพิ่มขึ้น (สะสม) จะถูกทำเครื่องหมายบนแกนพิกัด, รูปที่ 5.3

ข้าว. 5.3. การกระจายสะสมของคนงานโดยการพัฒนา

หากสเกลของความถี่และตัวแปรมีการแลกเปลี่ยนกัน กล่าวคือ สะท้อนความถี่สะสมบนแกน abscissa และค่าของตัวเลือกบนแกนพิกัด จากนั้นเส้นโค้งที่แสดงลักษณะการเปลี่ยนแปลงความถี่จากกลุ่มหนึ่งไปยังอีกกลุ่มหนึ่งจะเรียกว่าการแจกแจง ogive, รูปที่ 5.4

ข้าว. 5.4. Ogiva จำหน่ายคนงานเพื่อการผลิต

ชุดรูปแบบที่มีช่วงระยะเวลาเท่ากันเป็นข้อกำหนดที่สำคัญที่สุดประการหนึ่งสำหรับชุดการแจกแจงทางสถิติ เพื่อให้มั่นใจว่าสามารถเปรียบเทียบกันได้ในเวลาและพื้นที่

ความหนาแน่นของการกระจายอย่างไรก็ตาม ความถี่ของช่วงไม่เท่ากันแต่ละช่วงในอนุกรมเหล่านี้ไม่สามารถเปรียบเทียบได้โดยตรง ในกรณีดังกล่าว เพื่อให้แน่ใจว่ามีการเปรียบเทียบที่จำเป็น ความหนาแน่นของการแจกแจงจะถูกคำนวณ เช่น กำหนดจำนวนหน่วยในแต่ละกลุ่มต่อหน่วยของค่าช่วง

เมื่อสร้างกราฟการกระจายของอนุกรมรูปแบบต่างๆ ที่มีช่วงเวลาไม่เท่ากัน ความสูงของสี่เหลี่ยมจะถูกกำหนดตามสัดส่วนไม่ใช่ความถี่ แต่จะกำหนดตามตัวบ่งชี้ความหนาแน่นของการแจกแจงของค่าลักษณะที่ศึกษาในช่วงเวลาที่เกี่ยวข้อง

การรวบรวมชุดตัวแปรและการแสดงภาพกราฟิกเป็นขั้นตอนแรกในการประมวลผลข้อมูลเริ่มต้นและเป็นขั้นตอนแรกในการวิเคราะห์ประชากรที่ศึกษา ขั้นตอนต่อไปในการวิเคราะห์ชุดค่าความผันแปรคือการกำหนดตัวบ่งชี้ทั่วไปหลัก ซึ่งเรียกว่าลักษณะของชุดข้อมูล ลักษณะเหล่านี้ควรให้แนวคิดเกี่ยวกับค่าเฉลี่ยของแอตทริบิวต์ในหน่วยของประชากร

ค่าเฉลี่ย. ค่าเฉลี่ยเป็นลักษณะทั่วไปของลักษณะที่ศึกษาในประชากรที่ศึกษา ซึ่งสะท้อนถึงระดับทั่วไปต่อหน่วยประชากรในสภาวะเฉพาะของสถานที่และเวลา

ค่าเฉลี่ยมีชื่อเสมอ มีขนาดเดียวกับแอตทริบิวต์ของแต่ละหน่วยของประชากร

ก่อนที่จะคำนวณค่าเฉลี่ย จำเป็นต้องจัดกลุ่มหน่วยของประชากรที่ศึกษา โดยเน้นกลุ่มที่เป็นเนื้อเดียวกันในเชิงคุณภาพ

ค่าเฉลี่ยที่คำนวณสำหรับประชากรโดยรวมเรียกว่าค่าเฉลี่ยทั่วไปและสำหรับแต่ละกลุ่ม - ค่าเฉลี่ยกลุ่ม

ค่าเฉลี่ยมีสองประเภท: กำลัง (ค่าเฉลี่ยเลขคณิต, ค่าเฉลี่ยฮาร์มอนิก, ค่าเฉลี่ยเรขาคณิต, ค่าเฉลี่ยรูตหมายถึงกำลังสอง); โครงสร้าง (โหมด, ค่ามัธยฐาน, ควอร์ไทล์, เดซิลี)

การเลือกค่าเฉลี่ยสำหรับการคำนวณขึ้นอยู่กับวัตถุประสงค์

ประเภทของค่าเฉลี่ยกำลังและวิธีการคำนวณในทางปฏิบัติของการประมวลผลทางสถิติของวัสดุที่รวบรวม มีปัญหาต่าง ๆ เกิดขึ้นสำหรับการแก้ปัญหาที่ต้องการค่าเฉลี่ยที่แตกต่างกัน

สถิติทางคณิตศาสตร์ได้มาจากวิธีการต่างๆ จากสูตรค่าเฉลี่ยกำลัง:

ค่าเฉลี่ยอยู่ที่ไหน x - ตัวเลือกแต่ละรายการ (ค่าคุณสมบัติ); z - เลขชี้กำลัง (ที่ z = 1 - ค่าเฉลี่ยเลขคณิต, z = 0 ค่าเฉลี่ยเรขาคณิต, z = - 1 - ค่าเฉลี่ยฮาร์มอนิก, z = 2 - ค่าเฉลี่ยกำลังสอง)

อย่างไรก็ตาม คำถามว่าควรใช้ค่าเฉลี่ยแบบใดในแต่ละกรณี ได้รับการแก้ไขโดย การวิเคราะห์คอนกรีตประชากรที่ศึกษา

ประเภทเฉลี่ยที่พบบ่อยที่สุดในสถิติคือ เลขคณิต. คำนวณในกรณีเหล่านั้นเมื่อปริมาณของแอตทริบิวต์เฉลี่ยถูกสร้างขึ้นเป็นผลรวมของค่าสำหรับแต่ละหน่วยของประชากรสถิติที่ศึกษา

ขึ้นอยู่กับลักษณะของข้อมูลเริ่มต้น ค่าเฉลี่ยเลขคณิตถูกกำหนดด้วยวิธีต่างๆ:

หากข้อมูลไม่ถูกจัดกลุ่ม การคำนวณจะดำเนินการตามสูตรของค่าเฉลี่ยอย่างง่าย

การคำนวณค่าเฉลี่ยเลขคณิตในชุดที่ไม่ต่อเนื่องเกิดขึ้นตามสูตร 3.4

การคำนวณค่าเฉลี่ยเลขคณิตในชุดช่วงในชุดความแปรผันของช่วงเวลา โดยที่ค่ากลางของช่วงนั้นใช้ตามเงื่อนไขเป็นค่าของจุดสนใจในแต่ละกลุ่ม ค่าเฉลี่ยเลขคณิตอาจแตกต่างจากค่าเฉลี่ยที่คำนวณจากข้อมูลที่ไม่ได้จัดกลุ่ม ยิ่งกว่านั้น ยิ่งช่วงห่างในกลุ่มมากเท่าไหร่ ก็ยิ่งมากขึ้นเท่านั้น ความเบี่ยงเบนที่เป็นไปได้ค่าเฉลี่ยที่คำนวณจากข้อมูลที่จัดกลุ่มจากค่าเฉลี่ยที่คำนวณจากข้อมูลที่ไม่ได้จัดกลุ่ม

เมื่อคำนวณค่าเฉลี่ยสำหรับชุดรูปแบบช่วงเวลา เพื่อดำเนินการคำนวณที่จำเป็น ค่าหนึ่งผ่านจากช่วงเวลาไปยังจุดกึ่งกลาง แล้วคำนวณค่าเฉลี่ยตามสูตรของค่าเฉลี่ยถ่วงน้ำหนักเลขคณิต

คุณสมบัติของค่าเฉลี่ยเลขคณิตค่าเฉลี่ยเลขคณิตมีคุณสมบัติบางอย่างที่ช่วยให้เราคำนวณได้ง่ายขึ้น มาพิจารณากัน

1. ค่าเฉลี่ยเลขคณิตของจำนวนคงที่เท่ากับจำนวนคงที่นี้

ถ้า x = ก แล้ว .

2. หากน้ำหนักของตัวเลือกทั้งหมดมีการเปลี่ยนแปลงตามสัดส่วน กล่าวคือ เพิ่มขึ้นหรือลดลงตามจำนวนครั้งเท่ากัน ค่าเฉลี่ยเลขคณิตของอนุกรมใหม่จะไม่เปลี่ยนแปลงไปจากนี้

ถ้าน้ำหนัก f ทั้งหมดลดลง k ครั้ง แล้ว .

3. ผลรวมของค่าเบี่ยงเบนบวกและลบของตัวเลือกแต่ละรายการจากค่าเฉลี่ย คูณด้วยน้ำหนัก เท่ากับศูนย์ กล่าวคือ

ถ้าอย่างนั้น . จากที่นี่.

หากตัวเลือกทั้งหมดลดลงหรือเพิ่มขึ้นตามจำนวนหนึ่ง ค่าเฉลี่ยเลขคณิตของชุดข้อมูลใหม่จะลดลงหรือเพิ่มขึ้นในปริมาณเท่ากัน

ลดตัวเลือกทั้งหมด xบน เอ, เช่น. x´ = xก.

แล้ว

ค่าเฉลี่ยเลขคณิตของชุดข้อมูลเริ่มต้นสามารถหาได้โดยการเพิ่มค่าเฉลี่ยที่ลดลงของจำนวนที่ลบออกจากตัวแปรก่อนหน้านี้ เอ, เช่น. .

5. หากตัวเลือกทั้งหมดลดลงหรือเพิ่มขึ้นใน kครั้ง จากนั้นค่าเฉลี่ยเลขคณิตของอนุกรมใหม่จะลดลงหรือเพิ่มขึ้นเท่าเดิม กล่าวคือ ใน kครั้งหนึ่ง.

ให้แล้ว .

ดังนั้น กล่าวคือ เพื่อให้ได้ค่าเฉลี่ยของชุดเดิม ค่าเฉลี่ยเลขคณิตของชุดใหม่ (พร้อมตัวเลือกที่ลดลง) จะต้องเพิ่มขึ้นด้วย kครั้งหนึ่ง.

ฮาร์มอนิกเฉลี่ยค่าเฉลี่ยฮาร์มอนิกเป็นส่วนกลับของค่าเฉลี่ยเลขคณิต ใช้เมื่อข้อมูลทางสถิติไม่มีความถี่สำหรับตัวเลือกประชากรแต่ละกลุ่ม แต่แสดงเป็นผลิตภัณฑ์ (M = xf) ค่าเฉลี่ยฮาร์มอนิกจะคำนวณโดยใช้สูตร 3.5

การประยุกต์ใช้ค่าเฉลี่ยฮาร์มอนิกในทางปฏิบัติคือการคำนวณดัชนีบางตัว โดยเฉพาะดัชนีราคา

เฉลี่ยเรขาคณิต.เมื่อใช้ค่าเฉลี่ยทางเรขาคณิต ค่าแต่ละค่าของแอตทริบิวต์นั้นตามกฎแล้ว ค่าสัมพัทธ์ของไดนามิก สร้างขึ้นในรูปแบบของค่าลูกโซ่ เป็นอัตราส่วนกับระดับก่อนหน้าของแต่ละระดับในชุดไดนามิก . ค่าเฉลี่ยจึงกำหนดลักษณะอัตราการเติบโตเฉลี่ย

ค่าเฉลี่ยทางเรขาคณิตยังใช้เพื่อกำหนดค่าที่เท่ากันจากค่าสูงสุดและต่ำสุดของแอตทริบิวต์ ตัวอย่างเช่น บริษัทประกันภัยทำสัญญาเพื่อให้บริการประกันภัยรถยนต์ การจ่ายเงินประกันอาจแตกต่างกันตั้งแต่ 10,000 ถึง 100,000 ดอลลาร์ต่อปีทั้งนี้ขึ้นอยู่กับเหตุการณ์ผู้เอาประกันภัย การจ่ายเงินประกันเฉลี่ยอยู่ที่ US$

ค่าเฉลี่ยเรขาคณิตคือค่าที่ใช้เป็นค่าเฉลี่ยของอัตราส่วนหรือในอนุกรมการแจกแจง โดยแสดงเป็นความก้าวหน้าทางเรขาคณิต เมื่อ z = 0 ค่าเฉลี่ยนี้สะดวกที่จะใช้เมื่อให้ความสนใจไม่ใช่ความแตกต่างแบบสัมบูรณ์ แต่เป็นอัตราส่วนของ สองตัวเลข

สูตรการคำนวณมีดังนี้

ตัวแปรของคุณลักษณะเฉลี่ยอยู่ที่ไหน - ผลิตภัณฑ์ของตัวเลือก; – ความถี่ของตัวเลือก

ค่าเฉลี่ยเรขาคณิตใช้ในการคำนวณอัตราการเติบโตเฉลี่ยต่อปี

ตาราง.สูตรกำลังสองของค่าเฉลี่ยรากใช้เพื่อวัดระดับความผันผวนของค่าแต่ละค่าของคุณลักษณะรอบค่าเฉลี่ยเลขคณิตในชุดการแจกแจง ดังนั้นเมื่อคำนวณตัวบ่งชี้ความผันแปร ค่าเฉลี่ยจะถูกคำนวณจากกำลังสองของการเบี่ยงเบนของค่าแต่ละค่าของลักษณะเฉพาะจากค่าเฉลี่ยเลขคณิต

ค่าเฉลี่ยกำลังสองคำนวณโดยสูตร

ในการวิจัยทางเศรษฐศาสตร์ รูปแบบที่ปรับเปลี่ยนของกำลังสองของค่าเฉลี่ยรูตนั้นใช้กันอย่างแพร่หลายในการคำนวณตัวบ่งชี้ความแปรผันของคุณลักษณะ เช่น ความแปรปรวน ส่วนเบี่ยงเบนมาตรฐาน

กฎส่วนใหญ่มีความสัมพันธ์ต่อไปนี้ระหว่างค่าเฉลี่ยของกฎกำลัง - ยิ่งเลขชี้กำลังมากเท่าใด ค่าเฉลี่ยก็ยิ่งมากขึ้นเท่านั้น ตารางที่ 5.4:

ตาราง 5.4

ความสัมพันธ์ระหว่างค่าเฉลี่ย

ค่า z

อัตราส่วนระหว่างค่าเฉลี่ย

ความสัมพันธ์นี้เรียกว่ากฎส่วนใหญ่

ค่าเฉลี่ยโครงสร้างในการกำหนดลักษณะโครงสร้างของประชากรจะใช้ตัวบ่งชี้พิเศษซึ่งสามารถเรียกได้ว่าเป็นค่าเฉลี่ยโครงสร้าง การวัดเหล่านี้รวมถึงโหมด ค่ามัธยฐาน ควอร์ไทล์ และเดซิลี

แฟชั่น.โหมด (Mo) คือค่าที่เกิดขึ้นบ่อยที่สุดของคุณลักษณะในหน่วยประชากร โหมดคือค่าของแอตทริบิวต์ที่สอดคล้องกับจุดสูงสุดของเส้นโค้งการกระจายทางทฤษฎี

แฟชั่นถูกนำมาใช้กันอย่างแพร่หลายในเชิงพาณิชย์ในการศึกษาความต้องการของผู้บริโภค (เมื่อกำหนดขนาดของเสื้อผ้าและรองเท้าที่มีความต้องการสูง) การลงทะเบียนราคา สามารถมีม็อดทั้งหมดได้หลายแบบ

การคำนวณโหมดในชุดที่ไม่ต่อเนื่องในซีรีส์ที่ไม่ต่อเนื่อง โหมดนี้เป็นตัวแปรที่มีความถี่สูงสุด พิจารณาหาโหมดในซีรีส์ที่ไม่ต่อเนื่อง

การคำนวณแฟชั่นในชุดช่วงเวลาในอนุกรมความแปรผันของช่วงเวลา ตัวแปรกลางของช่วงโมดอลจะถือว่าเป็นโหมดโดยประมาณ กล่าวคือ ช่วงเวลาที่มีความถี่สูงสุด (ความถี่) ภายในช่วงเวลา จำเป็นต้องค้นหาค่าของแอตทริบิวต์ซึ่งเป็นโหมด สำหรับชุดช่วงเวลา โหมดจะถูกกำหนดโดยสูตร

ขีด จำกัด ล่างของช่วงกิริยาอยู่ที่ไหน คือค่าของช่วงโมดอล คือความถี่ที่สอดคล้องกับช่วงโมดอล คือความถี่ก่อนช่วงโมดอล คือ ความถี่ของช่วงหลังโมดอล

ค่ามัธยฐานค่ามัธยฐาน () คือค่าของจุดสนใจในหน่วยกลางของซีรีส์ที่จัดอันดับ อนุกรมที่ได้รับการจัดอันดับคือชุดที่มีการเขียนค่าคุณลักษณะโดยเรียงลำดับจากน้อยไปมากหรือมากไปหาน้อย หรือค่ามัธยฐานคือค่าที่แบ่งจำนวนของชุดตัวแปรแบบเรียงลำดับออกเป็นสองส่วนเท่า ๆ กัน: ส่วนหนึ่งมีค่าของคุณลักษณะตัวแปรที่น้อยกว่าตัวแปรเฉลี่ย และอีกส่วนหนึ่งมีค่ามาก

เพื่อหาค่ามัธยฐาน หมายเลขซีเรียลจะถูกกำหนดก่อน ในการทำเช่นนี้ ด้วยจำนวนหน่วยคี่ หนึ่งจะถูกบวกเข้ากับผลรวมของความถี่ทั้งหมด และทุกอย่างจะถูกหารด้วยสอง ด้วยจำนวนหน่วยที่เท่ากัน ค่ามัธยฐานจะถูกพบเป็นค่าของแอตทริบิวต์ของหน่วย ซึ่งหมายเลขซีเรียลจะถูกกำหนดโดยผลรวมของความถี่ทั้งหมดหารด้วยสอง เมื่อทราบเลขลำดับของค่ามัธยฐานแล้ว จะหาค่าจากความถี่สะสมได้ง่าย

การคำนวณค่ามัธยฐานในชุดที่ไม่ต่อเนื่องจากการสำรวจตัวอย่าง ได้ข้อมูลการกระจายครอบครัวตามจำนวนเด็ก ตาราง 5.5. การหาค่ามัธยฐาน อันดับแรก ให้กำหนดเลขลำดับของมัน

=

จากนั้นเราสร้างชุดของความถี่สะสม (, โดย หมายเลขซีเรียลและความถี่สะสมที่เราหาค่ามัธยฐาน ความถี่สะสม 33 แสดงให้เห็นว่าใน 33 ครอบครัว จำนวนเด็กไม่เกิน 1 คน แต่เนื่องจากจำนวนมัธยฐานคือ 50 ค่ามัธยฐานจะอยู่ในช่วง 34 ถึง 55 ครอบครัว

ตาราง 5.5

การกระจายจำนวนครอบครัวจากจำนวนบุตร

จำนวนบุตรในครอบครัว

จำนวนครอบครัว คือค่าของช่วงมัธยฐาน

รูปแบบการพิจารณาของค่าเฉลี่ยกำลังทั้งหมดมีคุณสมบัติที่สำคัญ (ตรงกันข้ามกับวิธีการเชิงโครงสร้าง) – สูตรสำหรับกำหนดค่าเฉลี่ยรวมถึงค่าทั้งหมดของอนุกรมเช่น ขนาดของค่าเฉลี่ยจะขึ้นอยู่กับมูลค่าของแต่ละตัวเลือก

ในแง่หนึ่งนี่เป็นคุณสมบัติที่เป็นบวกมาก ในกรณีนี้จะคำนึงถึงผลกระทบของสาเหตุทั้งหมดที่มีผลกระทบต่อทุกหน่วยของประชากรที่อยู่ระหว่างการศึกษา ในทางกลับกัน แม้แต่การสังเกตครั้งเดียวที่รวมอยู่ในข้อมูลเริ่มต้นโดยไม่ได้ตั้งใจก็สามารถบิดเบือนแนวคิดเรื่องระดับการพัฒนาของลักษณะที่ศึกษาในประชากรที่กำลังพิจารณาได้อย่างมีนัยสำคัญ (โดยเฉพาะในชุดสั้น)

ควอร์ไทล์และเดซิลีโดยการเปรียบเทียบกับการหาค่ามัธยฐานในอนุกรมแบบผันแปร เราสามารถหาค่าของจุดสนใจในหน่วยลำดับลำดับใดๆ ตามลำดับ โดยเฉพาะอย่างยิ่ง เราสามารถหาค่าของคุณลักษณะสำหรับหน่วยที่แบ่งอนุกรมออกเป็น 4 ส่วนเท่า ๆ กัน เป็น 10 เป็นต้น

ควอร์ไทล์ตัวแปรที่แบ่งอนุกรมที่จัดอันดับออกเป็นสี่ส่วนเท่า ๆ กันเรียกว่าควอร์ไทล์

ในเวลาเดียวกันมีความโดดเด่นดังต่อไปนี้: ควอร์ไทล์ล่าง (หรือแรก) (Q1) - ค่าของจุดสนใจที่หน่วยของซีรีย์อันดับโดยหารประชากรในอัตราส่วน¼ถึง¾และส่วนบน (หรือสาม ) ควอร์ไทล์ (Q3) - ค่าของจุดสนใจในหน่วยของอนุกรมที่จัดอันดับ หารประชากรในอัตราส่วน ¾ ถึง ¼

ควอร์ไทล์ที่สองคือค่ามัธยฐาน Q2 = Me ควอไทล์ล่างและบนในชุดช่วงเวลาคำนวณโดยใช้สูตรที่คล้ายกับค่ามัธยฐาน

โดยที่ขีด จำกัด ล่างของช่วงเวลาที่มีควอไทล์ล่างและควอไทล์บนตามลำดับ

คือความถี่สะสมของช่วงก่อนหน้าช่วงที่มีควอไทล์ล่างหรือบน

– ความถี่ของช่วงควอร์ไทล์ (ล่างและบน)

ช่วงเวลาที่มี Q1 และ Q3 จะพิจารณาจากความถี่สะสม (หรือความถี่)

เดซิลส์นอกจากควอร์ไทล์แล้ว ยังมีการคำนวณเดซิเบล - ตัวเลือกที่แบ่งซีรีส์ที่จัดอันดับออกเป็น 10 ส่วนเท่าๆ กัน

พวกมันเขียนแทนด้วย D, เดซิลแรก D1 แบ่งอนุกรมในอัตราส่วน 1/10 และ 9/10, D2 ที่สอง - 2/10 และ 8/10 เป็นต้น คำนวณในลักษณะเดียวกับค่ามัธยฐานและควอร์ไทล์

ทั้งค่ามัธยฐานและควอร์ไทล์และเดซิลีเป็นของสิ่งที่เรียกว่าสถิติลำดับ ซึ่งเข้าใจว่าเป็นตัวแปรที่ใช้ตำแหน่งลำดับที่แน่นอนในอนุกรมที่จัดอันดับ

เมื่อประมวลผลข้อมูลจำนวนมาก ซึ่งมีความสำคัญอย่างยิ่งเมื่อดำเนินการพัฒนาทางวิทยาศาสตร์สมัยใหม่ ผู้วิจัยต้องเผชิญกับงานที่จริงจังในการจัดกลุ่มข้อมูลเริ่มต้นอย่างถูกต้อง หากข้อมูลไม่ต่อเนื่อง อย่างที่เราเห็น ไม่มีปัญหา คุณเพียงแค่ต้องคำนวณความถี่ของแต่ละฟีเจอร์ หากลักษณะที่ศึกษามี ต่อเนื่องอักขระ (ซึ่งเป็นเรื่องปกติมากกว่าในทางปฏิบัติ) ดังนั้นการเลือกจำนวนช่วงเวลาที่เหมาะสมที่สุดสำหรับการจัดกลุ่มคุณลักษณะนั้นไม่ใช่งานเล็กน้อย

ในการจัดกลุ่มตัวแปรสุ่มอย่างต่อเนื่อง ช่วงความแปรผันทั้งหมดของจุดสนใจจะถูกแบ่งออกเป็นช่วงจำนวนหนึ่ง ถึง.

ช่วงเวลาที่จัดกลุ่ม (ต่อเนื่อง) ซีรีส์ที่แปรผันช่วงเวลาที่เรียกว่า จัดอันดับโดยค่าของคุณลักษณะ () โดยระบุพร้อมกับความถี่ที่สอดคล้องกัน () จำนวนการสังเกตที่ตกอยู่ในช่วงเวลา r "หรือความถี่สัมพัทธ์ ():

ช่วงค่าลักษณะเฉพาะ

ไมล์ความถี่

แผนภูมิแท่งและ สะสม (ogiva),เราได้พูดคุยกันในรายละเอียดแล้ว เป็นเครื่องมือสร้างภาพข้อมูลที่ยอดเยี่ยมที่ช่วยให้คุณได้รับความเข้าใจเบื้องต้นเกี่ยวกับโครงสร้างข้อมูล กราฟดังกล่าว (รูปที่ 1.15) สร้างขึ้นสำหรับข้อมูลต่อเนื่องในลักษณะเดียวกับข้อมูลที่ไม่ต่อเนื่อง โดยคำนึงถึงข้อเท็จจริงที่ว่าข้อมูลต่อเนื่องเติมเต็มพื้นที่ของค่าที่เป็นไปได้ทั้งหมดโดยคำนึงถึงค่าใด ๆ

ข้าว. 1.15.

นั่นเป็นเหตุผลที่ คอลัมน์บนฮิสโตแกรมและสะสมจะต้องติดต่อกันไม่มีพื้นที่ที่ค่าแอตทริบิวต์ไม่อยู่ภายในที่เป็นไปได้ทั้งหมด(กล่าวคือ ฮิสโตแกรมและค่าสะสมไม่ควรมี "รู" ตามแกน abscissa ซึ่งค่าของตัวแปรภายใต้การศึกษาจะไม่ตก ดังในรูปที่ 1.16) ความสูงของแถบสอดคล้องกับความถี่ - จำนวนการสังเกตที่อยู่ในช่วงที่กำหนด หรือความถี่สัมพัทธ์ - สัดส่วนของการสังเกต ช่วงเวลา ต้องไม่ข้ามและมักจะมีความกว้างเท่ากัน

ข้าว. 1.16.

ฮิสโตแกรมและรูปหลายเหลี่ยมเป็นการประมาณของเส้นโค้งความหนาแน่นของความน่าจะเป็น (ฟังก์ชันดิฟเฟอเรนเชียล) เอฟ(x)การแจกแจงทางทฤษฎี พิจารณาในหลักสูตรของทฤษฎีความน่าจะเป็น ดังนั้น การสร้างของพวกเขาจึงมีความสำคัญในการประมวลผลทางสถิติเบื้องต้นของข้อมูลเชิงปริมาณต่อเนื่อง - โดยรูปแบบของพวกเขาสามารถตัดสินกฎหมายการกระจายสมมุติฐาน

สะสม - เส้นโค้งของความถี่สะสม (ความถี่) ของชุดรูปแบบช่วงเวลา กราฟของฟังก์ชันการแจกแจงอินทิกรัลจะเปรียบเทียบกับค่าสะสม เอฟ(x), ยังพิจารณาในหลักสูตรของทฤษฎีความน่าจะเป็น.

โดยพื้นฐานแล้ว แนวคิดของฮิสโตแกรมและค่าสะสมนั้นสัมพันธ์กันอย่างแม่นยำกับข้อมูลต่อเนื่องและชุดความแปรผันของช่วงเวลา เนื่องจากกราฟเป็นค่าประมาณเชิงประจักษ์ของฟังก์ชันความหนาแน่นของความน่าจะเป็นและฟังก์ชันการแจกแจงตามลำดับ

การสร้างชุดรูปแบบช่วงเวลาเริ่มต้นด้วยการกำหนดจำนวนช่วงเวลา เคและงานนี้อาจเป็นงานที่ยากที่สุด สำคัญ และขัดแย้งที่สุดในประเด็นที่กำลังศึกษาอยู่

จำนวนช่วงไม่ควรน้อยเกินไป เนื่องจากฮิสโตแกรมจะราบรื่นเกินไป ( เรียบเกินไป)สูญเสียคุณสมบัติทั้งหมดของความแปรปรวนของข้อมูลเริ่มต้น - ในรูปที่ 1.17 คุณสามารถดูว่าข้อมูลเดียวกันกับกราฟของรูปที่ 1.15 ใช้เพื่อสร้างฮิสโตแกรมที่มีระยะห่างน้อยกว่า (กราฟด้านซ้าย)

ในเวลาเดียวกัน จำนวนช่วงไม่ควรมากเกินไป - มิฉะนั้น เราจะไม่สามารถประมาณความหนาแน่นของการกระจายข้อมูลภายใต้การศึกษาตามแนวแกนตัวเลข: ฮิสโตแกรมจะกลายเป็น undersmoothed (ไม่เรียบ)ด้วยช่วงเว้นระยะไม่เท่ากัน (ดูรูปที่ 1.17 กราฟขวา)

ข้าว. 1.17.

จะกำหนดจำนวนช่วงเวลาที่ต้องการมากที่สุดได้อย่างไร

ย้อนกลับไปในปี พ.ศ. 2469 เฮอร์เบิร์ต สเตอร์เจส ได้เสนอสูตรสำหรับการคำนวณจำนวนช่วงซึ่งจำเป็นต้องแบ่งชุดค่าเริ่มต้นของแอตทริบิวต์ที่ศึกษา สูตรนี้ได้รับความนิยมอย่างมาก - หนังสือเรียนสถิติส่วนใหญ่เสนอสูตรนี้ และแพ็คเกจสถิติจำนวนมากใช้สูตรนี้โดยค่าเริ่มต้น นี่เป็นคำถามที่สมเหตุสมผลหรือไม่และในทุกกรณีเป็นคำถามที่จริงจังมาก

แล้วสูตร Sturges มีพื้นฐานมาจากอะไร?

พิจารณา การกระจายทวินาม }