आँकड़ों में, गुणवत्ता आश्वासन, और सर्वेक्षण पद्धति में, नमूना एक संपूर्ण आबादी का एक अनुमान के लिए एक सांख्यिकीय आबादी के भीतर से एक सबसेट (एक सांख्यिकीय नमूना) का चयन है। सांख्यिकीविदों ने प्रश्न में जनसंख्या का प्रतिनिधित्व करने के लिए नमूनों का प्रयास किया। पूरी आबादी को मापने की तुलना में नमूने के दो फायदे कम लागत और तेजी से डेटा संग्रह हैं।
प्रत्येक अवलोकन एक या एक से अधिक गुणों (जैसे वजन, स्थान, रंग) को मापने के लिए स्वतंत्र वस्तुओं या व्यक्तियों के रूप में प्रतिष्ठित किया जाता है। सर्वेक्षण के नमूने में, नमूना डिजाइन के लिए समायोजित करने के लिए डेटा पर लागू किया जा सकता है, विशेष रूप से स्तरीकृत नमूने में। अभ्यास को निर्देशित करने के लिए संभाव्यता सिद्धांत और सांख्यिकीय सिद्धांत के परिणाम कार्यरत हैं। व्यवसाय और चिकित्सा अनुसंधान में, नमूनाकरण का उपयोग व्यापक रूप से आबादी के बारे में जानकारी इकट्ठा करने के लिए किया जाता है। स्वीकृति नमूनाकरण का उपयोग यह निर्धारित करने के लिए किया जाता है कि उत्पादन का बहुत कुछ शासी विनिर्देशों को पूरा करता है या नहीं।
जनसंख्या की परिभाषा
सफल सांख्यिकीय अभ्यास केंद्रित समस्या परिभाषा पर आधारित है। नमूनाकरण में, इसमें "जनसंख्या" को परिभाषित करना शामिल है जिसमें से हमारा नमूना तैयार किया गया है। एक आबादी को सभी लोगों या वस्तुओं के रूप में परिभाषित किया जा सकता है जिसमें समझने की इच्छा होती है। क्योंकि आबादी में हर किसी को या सब कुछ से जानकारी इकट्ठा करने के लिए बहुत कम समय या पैसा है, लक्ष्य उस आबादी का एक प्रतिनिधि नमूना (या सबसेट) पाता है।
कभी-कभी एक आबादी को परिभाषित करने वाला क्या स्पष्ट है। उदाहरण के लिए, एक निर्माता को यह तय करने की आवश्यकता है कि उत्पादन से सामग्री का एक बैच ग्राहक को जारी किए जाने के लिए पर्याप्त उच्च गुणवत्ता वाला है, या खराब गुणवत्ता के कारण स्क्रैप या पुन: कार्य के लिए सजा सुनाई जानी चाहिए। इस मामले में, बैच जनसंख्या है।
हालांकि, ब्याज की आबादी में अक्सर भौतिक वस्तुएं होती हैं, कभी-कभी समय, स्थान या इन आयामों के कुछ संयोजन का नमूना लेना आवश्यक होता है। उदाहरण के लिए, सुपरमार्केट स्टाफिंग की एक जांच विभिन्न समय पर चेकआउट लाइन की लंबाई की जांच कर सकती है, या लुप्तप्राय पेंगुइन पर एक अध्ययन का उद्देश्य समय के साथ विभिन्न शिकार आधारों के उनके उपयोग को समझना हो सकता है। समय के आयाम के लिए, अवधि या असतत अवसरों पर ध्यान केंद्रित किया जा सकता है।
अन्य मामलों में, जांच की गई 'आबादी' और भी कम मूर्त हो सकती है। उदाहरण के लिए, जोसेफ जैगर ने मोंटे कार्लो के एक कैसीनो में रूलेट पहियों के व्यवहार का अध्ययन किया और एक पक्षपाती पहिये की पहचान करने के लिए इसका इस्तेमाल किया। इस मामले में, 'जनसंख्या' जैगर जांच करना चाहता था पहिया का समग्र व्यवहार (यानी असीम रूप से कई परीक्षणों पर इसके परिणामों की संभावना वितरण), जबकि उसका 'नमूना' उस पहिए से देखे गए परिणामों से बना था। तांबे की विद्युत चालकता जैसी कुछ भौतिक विशेषताओं के बार-बार माप लेने पर इसी तरह के विचार उत्पन्न होते हैं।
यह स्थिति अक्सर तब उत्पन्न होती है जब कारण प्रणाली के बारे में ज्ञान प्राप्त करना होता है, जिसका अवलोकन जनसंख्या होती है। ऐसे मामलों में, नमूनाकरण सिद्धांत एक बड़े 'सुपरपॉपुलेशन' से नमूने के रूप में देखी गई आबादी का इलाज कर सकता है। उदाहरण के लिए, एक शोधकर्ता 100 मरीजों के एक परीक्षण समूह पर एक नए 'धूम्रपान छोड़ो ’कार्यक्रम की सफलता दर का अध्ययन कर सकता है, ताकि कार्यक्रम के प्रभावों की भविष्यवाणी की जा सके यदि यह देशव्यापी उपलब्ध हो। यहाँ सुपरपॉपुलेशन "देश में हर कोई है, जिसे इस उपचार तक पहुंच दी गई है" - एक समूह जो अभी तक मौजूद नहीं है, क्योंकि कार्यक्रम अभी तक सभी के लिए उपलब्ध नहीं है।
जिस जनसंख्या से नमूना खींचा गया है, वह जनसंख्या उतनी नहीं हो सकती है, जिसके बारे में जानकारी वांछित है। अक्सर फ्रेम मुद्दों आदि के कारण इन दोनों समूहों के बीच बड़ा लेकिन पूरा ओवरलैप नहीं होता है (नीचे देखें)। कभी-कभी वे पूरी तरह से अलग हो सकते हैं - उदाहरण के लिए, कोई मानव स्वास्थ्य की बेहतर समझ पाने के लिए चूहों का अध्ययन कर सकता है, या कोई 2008 में पैदा हुए लोगों से रिकॉर्ड का अध्ययन कर सकता है ताकि 2009 में पैदा हुए लोगों के बारे में भविष्यवाणियां की जा सकें।
सैंपल की आबादी और चिंता की आबादी को सटीक बनाने में लगने वाले समय को अक्सर अच्छी तरह से बिताया जाता है, क्योंकि यह कई मुद्दों, अस्पष्टताओं और सवालों को उठाता है, जिन्हें अन्यथा इस स्तर पर नजरअंदाज किया जाता।
नमूना चयन ढांचा(Sampling frame)
सबसे सीधे मामले में, जैसे उत्पादन से सामग्री के एक बैच का नमूना (बहुत से स्वीकृति नमूना), यह आबादी में हर एक आइटम को पहचानने और मापने और उनमें से किसी एक को हमारे नमूने में शामिल करने के लिए सबसे अधिक वांछनीय होगा। हालांकि, अधिक सामान्य मामले में यह आमतौर पर संभव या व्यावहारिक नहीं है। सभी चूहों के सेट में सभी चूहों की पहचान करने का कोई तरीका नहीं है। जहां मतदान अनिवार्य नहीं है, यह पहचानने का कोई तरीका नहीं है कि लोग आगामी चुनाव में (चुनाव से पहले) मतदान करेंगे। ये नापसंद आबादी नीचे के किसी भी तरीके से नमूना लेने के लिए उत्तरदायी नहीं है और जिसके लिए हम सांख्यिकीय सिद्धांत लागू कर सकते हैं।
एक उपाय के रूप में, हम एक नमूना फ्रेम की तलाश करते हैं जिसमें वह गुण होता है जिसे हम हर एक तत्व की पहचान कर सकते हैं और हमारे नमूने में कोई भी शामिल कर सकते हैं। सबसे सीधा प्रकार का फ्रेम उपयुक्त संपर्क जानकारी के साथ आबादी के तत्वों (अधिमानतः पूरी आबादी) की एक सूची है। उदाहरण के लिए, एक जनमत सर्वेक्षण में, संभव नमूना फ्रेम में एक चुनावी रजिस्टर और एक टेलीफोन निर्देशिका शामिल है।
संभाव्यता नमूना(probability sample) एक नमूना है जिसमें जनसंख्या की प्रत्येक इकाई के नमूने में चयनित होने का एक मौका (शून्य से अधिक) होता है, और यह संभावना सटीक रूप से निर्धारित की जा सकती है। इन लक्षणों के संयोजन से चयन की संभावना के अनुसार नमूना इकाइयों को भारित करके, जनसंख्या योग के निष्पक्ष अनुमानों का उत्पादन करना संभव हो जाता है।
उदाहरण: हम किसी दिए गए गली में रहने वाले वयस्कों की कुल आय का अनुमान लगाना चाहते हैं। हम उस गली के प्रत्येक घर में जाते हैं, वहां रहने वाले सभी वयस्कों की पहचान करते हैं, और प्रत्येक घर से एक वयस्क का चयन करते हैं। (उदाहरण के लिए, हम प्रत्येक व्यक्ति को 0 और 1 के बीच एक समान वितरण से उत्पन्न एक यादृच्छिक संख्या आवंटित कर सकते हैं, और प्रत्येक घर में सबसे अधिक संख्या वाले व्यक्ति का चयन कर सकते हैं)। हम तब चयनित व्यक्ति का साक्षात्कार लेते हैं और उनकी आय पाते हैं।
अपने दम पर रहने वाले लोगों का चयन किया जाना निश्चित है, इसलिए हम अपनी आय को कुल के अपने अनुमान में जोड़ते हैं। लेकिन दो वयस्कों के घर में रहने वाले व्यक्ति के पास चयन का केवल एक-में-दो मौका है। इसे प्रतिबिंबित करने के लिए, जब हम इस तरह के घर में आते हैं, तो हम चयनित व्यक्ति की आय को कुल की तुलना में दो बार गिनेंगे। (जिस व्यक्ति को उस घर से चुना गया है उसे शिथिल रूप से देखा जा सकता है, जो उस व्यक्ति का प्रतिनिधित्व करता है जो चयनित नहीं है।)
उपरोक्त उदाहरण में, हर किसी को चयन की समान संभावना नहीं है; क्या यह एक संभावना नमूना बनाता है तथ्य यह है कि प्रत्येक व्यक्ति की संभावना ज्ञात है। जब जनसंख्या के प्रत्येक तत्व में चयन की समान संभावना होती है, तो इसे 'चयन की समान संभावना' (EPS) डिजाइन के रूप में जाना जाता है। इस तरह के डिजाइन को 'सेल्फ-वेटिंग' के रूप में भी जाना जाता है क्योंकि सभी सैंपल वाली इकाइयों को समान वजन दिया जाता है।
हर तत्व में नमूना होने की गैर-ज्ञात संभावना होती है और
कुछ बिंदु पर यादृच्छिक चयन शामिल है।
नॉन-प्रॉबबिलिटी सैंपलिंग (Nonprobability sampling)
सैंपलिंग तरीका है, जहाँ आबादी के कुछ तत्वों को चयन का कोई मौका नहीं मिलता है (इन्हें कभी-कभी 'आउट ऑफ कवरेज' / 'अंडरकवर') भी कहा जाता है, या जहाँ चयन की संभावना का सटीक निर्धारण नहीं किया जा सकता है। इसमें ब्याज की आबादी के संबंध में मान्यताओं के आधार पर तत्वों का चयन शामिल है, जो चयन के लिए मापदंड बनाता है। इसलिए, क्योंकि तत्वों का चयन गैर-आयामी है, गैर-लाभप्रदता नमूनाकरण नमूनाकरण त्रुटियों का अनुमान लगाने की अनुमति नहीं देता है। ये स्थितियाँ बहिष्करण पक्षपात को जन्म देती हैं, एक सीमा यह बताती है कि जनसंख्या के बारे में एक नमूना कितनी जानकारी प्रदान कर सकता है। नमूना और जनसंख्या के बीच संबंध के बारे में जानकारी सीमित है, जिससे नमूना से आबादी तक अतिरिक्त मुश्किल हो जाती है।
उदाहरण: हम हर घर में दिए गए मार्ग पर जाते हैं, और दरवाजे का जवाब देने के लिए पहले व्यक्ति का साक्षात्कार लेते हैं। एक से अधिक रहने वाले किसी भी घर में, यह एक गैर-लाभकारी नमूना है, क्योंकि कुछ लोगों को दरवाजे का जवाब देने की अधिक संभावना है (उदाहरण के लिए, एक बेरोजगार व्यक्ति जो घर पर अपना ज्यादातर समय बिताता है, एक नियोजित गृहिणी की तुलना में जवाब देने की संभावना अधिक हो सकती है जब साक्षात्कारकर्ता कॉल करता है तो काम पर) और इन संभावनाओं की गणना करना व्यावहारिक नहीं है।
Nonprobability नमूनाकरण विधियों में सुविधा नमूनाकरण, कोटा नमूनाकरण और उद्देश्यपूर्ण नमूनाकरण शामिल हैं। इसके अलावा, अगर गैर-गैर-जिम्मेदाराना डिजाइन किसी भी गैर-लाभप्रदता डिजाइन में बदल सकता है यदि गैर-गैर-जिम्मेदारता की विशेषताओं को अच्छी तरह से नहीं समझा जाता है, क्योंकि गैर-गैर-जिम्मेदारता प्रभावी रूप से प्रत्येक तत्व के नमूने की संभावना को संशोधित करता है।
नमूना लेने के तरीके(Sampling Methods )
ऊपर बताए गए किसी भी प्रकार के फ्रेम के भीतर, नमूने की एक किस्म को व्यक्तिगत रूप से या संयोजन में नियोजित किया जा सकता है। आमतौर पर इन डिजाइनों के बीच चयन को प्रभावित करने वाले कारकों में शामिल हैं:
फ्रेम की प्रकृति और गुणवत्ता
फ्रेम पर इकाइयों के बारे में सहायक जानकारी की उपलब्धता
सटीकता की आवश्यकताएं, और सटीकता को मापने की आवश्यकता
क्या नमूने का विस्तृत विश्लेषण अपेक्षित है
लागत / परिचालन संबंधी चिंता
सामान्य उद्देश्यरहित नमूना(Simple random sampling)
किसी दिए गए आकार के एक साधारण यादृच्छिक नमूने (SRS) में, नमूना फ्रेम के सभी सबसेट को चुने जाने की समान संभावना है। इस प्रकार फ्रेम के प्रत्येक तत्व में चयन की समान संभावना है: फ्रेम उपविभाजित या विभाजित नहीं है। इसके अलावा, तत्वों की किसी भी जोड़ी को किसी भी अन्य जोड़ी के रूप में चयन करने का एक ही मौका है (और इसी तरह ट्रिपल के लिए, और इसी तरह)। यह पूर्वाग्रह को कम करता है और परिणामों के विश्लेषण को सरल बनाता है। विशेष रूप से, नमूना के भीतर व्यक्तिगत परिणामों के बीच विचरण समग्र आबादी में विचरण का एक अच्छा संकेतक है, जो परिणामों की सटीकता का अनुमान लगाना अपेक्षाकृत आसान बनाता है।
सरल यादृच्छिक नमूना नमूनाकरण त्रुटि के लिए असुरक्षित हो सकता है क्योंकि चयन की यादृच्छिकता एक नमूना हो सकती है जो जनसंख्या के मेकअप को प्रतिबिंबित नहीं करती है। उदाहरण के लिए, किसी दिए गए देश से दस लोगों का एक साधारण यादृच्छिक नमूना औसतन पांच पुरुषों और पांच महिलाओं का उत्पादन करेगा, लेकिन किसी भी परीक्षण में एक सेक्स को ओवररिट करने और दूसरे को कम आंकने की संभावना है। व्यवस्थित और स्तरीकृत तकनीक अधिक "प्रतिनिधि" नमूना चुनने के लिए "आबादी के बारे में जानकारी का उपयोग करके" इस समस्या को दूर करने का प्रयास करती है।
इसके अलावा, सरल यादृच्छिक नमूना बड़े लक्ष्य आबादी से नमूना लेने पर बोझिल और थकाऊ हो सकता है। कुछ मामलों में, जांचकर्ता आबादी के उपसमूहों के लिए विशिष्ट अनुसंधान प्रश्नों में रुचि रखते हैं। उदाहरण के लिए, शोधकर्ताओं को यह जांचने में रुचि हो सकती है कि क्या नौकरी के प्रदर्शन के पूर्वसूचक के रूप में संज्ञानात्मक क्षमता नस्लीय समूहों में समान रूप से लागू है। सरल यादृच्छिक नमूने इस स्थिति में शोधकर्ताओं की जरूरतों को समायोजित नहीं कर सकते हैं, क्योंकि यह आबादी के उपसमूह प्रदान नहीं करता है, और अन्य नमूने रणनीतियों, जैसे स्तरीकृत नमूनाकरण, का उपयोग किया जा सकता है।
व्यवस्थित नमूना लेना(Systematic sampling)
व्यवस्थित नमूनाकरण (जिसे अंतराल नमूनाकरण भी कहा जाता है) कुछ आदेश देने वाली योजना के अनुसार अध्ययन आबादी की व्यवस्था करने और फिर उस आदेशित सूची के माध्यम से नियमित अंतराल पर तत्वों का चयन करने पर निर्भर करता है। व्यवस्थित नमूनाकरण में एक यादृच्छिक शुरुआत शामिल होती है और फिर उसके बाद से प्रत्येक kth तत्व के चयन के साथ आगे बढ़ता है। इस मामले में, k = (जनसंख्या आकार / नमूना आकार)। यह महत्वपूर्ण है कि प्रारंभिक बिंदु स्वचालित रूप से सूची में पहला नहीं है, लेकिन इसके बजाय सूची में पहले से kth तत्व के लिए यादृच्छिक रूप से चुना गया है। एक सरल उदाहरण टेलीफोन डायरेक्टरी ('प्रत्येक 10 वां' नमूना, जिसे '10 स्किप के साथ नमूना' भी कहा जाता है) से हर 10 वें नाम का चयन करना होगा।
जब तक शुरुआती बिंदु यादृच्छिक होता है, तब तक व्यवस्थित नमूना एक प्रकार का संभाव्यता नमूना होता है। इसे लागू करना आसान है और स्तरीकरण प्रेरित इसे कुशल बना सकता है, अगर वह चर जिसके द्वारा सूची का आदेश दिया गया है, ब्याज के चर के साथ सहसंबद्ध है। 'हर 10 वां' नमूना डेटाबेस से कुशल नमूना लेने के लिए विशेष रूप से उपयोगी है।
उदाहरण के लिए, मान लें कि हम एक लंबी सड़क से लोगों का नमूना लेना चाहते हैं जो एक गरीब क्षेत्र (मकान नंबर 1) में शुरू होती है और एक महंगे जिले (मकान नंबर 1000) में समाप्त होती है। इस सड़क से पतों का एक सरल यादृच्छिक चयन आसानी से उच्च अंत से बहुत से और बहुत कम अंत (या इसके विपरीत) से समाप्त हो सकता है, जिससे एक अप्रकाशित नमूना हो सकता है। सड़क के साथ प्रत्येक 10 वीं सड़क संख्या का चयन (जैसे) यह सुनिश्चित करता है कि नमूना सड़क की लंबाई के साथ समान रूप से फैला है, इन सभी जिलों का प्रतिनिधित्व करता है। (ध्यान दें कि यदि हम हमेशा # 1 पर घर से शुरू करते हैं और # 991 पर समाप्त होते हैं, तो नमूना कम अंत की ओर थोड़ा पक्षपाती है; यादृच्छिक रूप से # 1 और # 10 के बीच की शुरुआत का चयन करके, यह पूर्वाग्रह समाप्त हो जाता है।
हालांकि, सूची में व्यवस्थित नमूने विशेष रूप से आवधिकता के लिए कमजोर हैं। यदि आवधिकता मौजूद है और अवधि उपयोग किए गए अंतराल का एक या अधिक कारक है, तो नमूना विशेष रूप से समग्र आबादी के अप्रमाणिक होने की संभावना है, जिससे योजना सरल यादृच्छिक नमूने की तुलना में कम सटीक हो।
उदाहरण के लिए, एक ऐसी सड़क पर विचार करें, जहां विषम संख्या वाले मकान सड़क के उत्तर (महंगे) की ओर हों, और सम संख्या वाले मकान सभी दक्षिण (सस्ते) तरफ हों। ऊपर दी गई नमूना योजना के तहत, प्रतिनिधि नमूना प्राप्त करना असंभव है; या तो सैंपल लिए गए घर सभी विषम संख्या वाले, महंगे पक्ष के होंगे, या वे सभी सम-संख्या वाले, सस्ते पक्ष के होंगे, जब तक कि शोधकर्ता को इस पूर्वाग्रह का पूर्व ज्ञान न हो और वह एक स्किप का उपयोग करके इससे बचता है जो कूदना सुनिश्चित करता है दोनों पक्षों के बीच (कोई भी विषम-संख्या छोड़ें)।
व्यवस्थित नमूने का एक और दोष यह है कि परिदृश्यों में भी जहां यह एसआरएस से अधिक सटीक है, इसके सैद्धांतिक गुण उस सटीकता को निर्धारित करना मुश्किल बनाते हैं। (ऊपर दिए गए व्यवस्थित नमूने के दो उदाहरणों में, बहुत अधिक संभावित नमूना त्रुटि पड़ोसी घरों के बीच भिन्नता के कारण है - लेकिन क्योंकि यह विधि कभी भी दो पड़ोसी घरों का चयन नहीं करती है, नमूना हमें उस भिन्नता पर कोई जानकारी नहीं देगा।)
जैसा कि ऊपर वर्णित है, व्यवस्थित नमूनाकरण एक ईपीएस विधि है, क्योंकि सभी तत्वों में चयन की समान संभावना है (दिए गए उदाहरण में, दस में से एक)। यह 'सरल यादृच्छिक नमूनाकरण' नहीं है क्योंकि एक ही आकार के अलग-अलग सबसेट की अलग-अलग चयन संभावनाएँ हैं - उदा। सेट {4,14,24, ..., 994} में चयन की एक-दस संभावना है, लेकिन सेट {4,13,24,34, ...} में चयन की शून्य संभावना है।
स्तरीकृत प्रतिचयन(Stratified sampling)
जब जनसंख्या कई अलग-अलग श्रेणियों को अपनाती है, तो फ्रेम को इन श्रेणियों द्वारा अलग-अलग "स्ट्रैट" में व्यवस्थित किया जा सकता है। प्रत्येक स्ट्रैटम को तब एक स्वतंत्र उप-जनसंख्या के रूप में नमूना किया जाता है, जिसमें से व्यक्तिगत तत्वों को यादृच्छिक रूप से चुना जा सकता है। जनसंख्या के आकार के लिए इस यादृच्छिक चयन (या नमूना) के आकार के अनुपात को एक नमूना अंश कहा जाता है। स्तरीकृत नमूने के कई संभावित लाभ हैं।
सबसे पहले, आबादी को अलग-अलग, स्वतंत्र रूप से विभाजित करना, शोधकर्ताओं को उन विशिष्ट उपसमूहों के बारे में निष्कर्ष निकालने में सक्षम कर सकता है जो अधिक सामान्यीकृत यादृच्छिक नमूने में खो सकते हैं।
दूसरा, एक स्तरीकृत नमूनाकरण विधि का उपयोग करने से अधिक कुशल सांख्यिकीय अनुमान हो सकते हैं (बशर्ते कि नमूने की उपलब्धता के बजाय प्रश्न में मानदंड की प्रासंगिकता के आधार पर चयन किया जाता है)। यहां तक कि अगर एक स्तरीकृत नमूने के दृष्टिकोण ने सांख्यिकीय दक्षता में वृद्धि नहीं की है, तो ऐसी रणनीति के परिणामस्वरूप सरल यादृच्छिक नमूने की तुलना में कम दक्षता नहीं होगी, बशर्ते कि प्रत्येक स्ट्रैटम आबादी में समूह के आकार के लिए आनुपातिक हो।
तीसरा, यह कभी-कभी ऐसा होता है कि समग्र आबादी की तुलना में किसी व्यक्ति के भीतर डेटा पहले से मौजूद लोगों के लिए अधिक आसानी से उपलब्ध होता है; ऐसे मामलों में, स्तरीकृत नमूनाकरण दृष्टिकोण का उपयोग करना समूहों में डेटा एकत्र करने की तुलना में अधिक सुविधाजनक हो सकता है (हालांकि यह संभवतः मानदंड-प्रासंगिक स्ट्रैट का उपयोग करने के पहले उल्लेखित महत्व के साथ बाधाओं पर हो सकता है)।
अंत में, चूंकि प्रत्येक स्ट्रैटम को एक स्वतंत्र आबादी के रूप में माना जाता है, इसलिए अलग-अलग नमूनों को अलग-अलग तरीकों से लागू किया जा सकता है, संभावित रूप से शोधकर्ताओं ने आबादी के भीतर प्रत्येक पहचाने गए उपसमूह के लिए दृष्टिकोण को सबसे अनुकूल (या सबसे अधिक लागत प्रभावी) का उपयोग करने में सक्षम किया है।
हालांकि, स्तरीकृत नमूने का उपयोग करने के लिए कुछ संभावित कमियां हैं। सबसे पहले, स्ट्रैटा की पहचान करना और इस तरह के दृष्टिकोण को लागू करना नमूना चयन की लागत और जटिलता को बढ़ा सकता है, साथ ही जनसंख्या अनुमानों की बढ़ी हुई जटिलता के लिए अग्रणी हो सकता है। दूसरा, कई मानदंडों की जांच करते समय, स्तरीकरण चर कुछ से संबंधित हो सकते हैं, लेकिन दूसरों से नहीं, डिजाइन को और जटिल करते हुए, और संभावित रूप से स्ट्रेट की उपयोगिता को कम करते हैं। अंत में, कुछ मामलों में (जैसे बड़ी संख्या में स्ट्रेट के साथ डिजाइन, या प्रति समूह एक निर्दिष्ट न्यूनतम नमूना आकार के साथ), स्तरीकृत नमूने संभावित रूप से अन्य तरीकों की तुलना में एक बड़े नमूने की आवश्यकता कर सकते हैं (हालांकि ज्यादातर मामलों में, आवश्यक नमूना आकार सरल रैंडम सैंपलिंग के लिए कोई बड़ी आवश्यकता नहीं होगी)।
तीन स्थितियों को पूरा करने पर एक स्तरीकृत नमूना दृष्टिकोण सबसे प्रभावी होता है
समता के भीतर भिन्नता को कम से कम किया जाता है
स्ट्रैटटा के बीच भिन्नता अधिकतम होती है
वे चर जिन पर जनसंख्या स्तरीकृत है, वांछित आश्रित चर के साथ दृढ़ता से सहसंबद्ध हैं।
अन्य नमूने तरीकों पर लाभ
महत्वपूर्ण उप-योगों पर ध्यान केंद्रित करता है और अप्रासंगिक लोगों की उपेक्षा करता है।
विभिन्न उप-योगों के लिए अलग-अलग नमूनाकरण तकनीकों के उपयोग की अनुमति देता है।
अनुमान की सटीकता / दक्षता में सुधार करता है।
समता के आकार में व्यापक रूप से भिन्नता से सम संख्याओं के नमूने द्वारा अंतर के बीच अंतर की सांख्यिकीय शक्ति के परीक्षण की अधिक संतुलन की अनुमति देता है।
नुकसान
प्रासंगिक स्तरीकरण चर का चयन आवश्यक है जो मुश्किल हो सकता है।
उपयोगी नहीं है जब कोई सजातीय उपसमूह नहीं होते हैं।
लागू करने के लिए महंगा हो सकता है।
Poststratification
कभी-कभी "पोस्टस्ट्रेटिफिकेशन" नामक प्रक्रिया में नमूनाकरण चरण के बाद स्तरीकरण शुरू किया जाता है। यह दृष्टिकोण आम तौर पर एक उपयुक्त स्तरीकरण चर के पूर्व ज्ञान की कमी के कारण लागू किया जाता है या जब प्रयोगकर्ता के पास नमूना चरण के दौरान एक स्तरीकरण चर बनाने के लिए आवश्यक जानकारी का अभाव होता है। यद्यपि यह विधि पोस्ट हॉक दृष्टिकोण के नुकसान के लिए अतिसंवेदनशील है, लेकिन यह सही स्थिति में कई लाभ प्रदान कर सकता है। कार्यान्वयन आमतौर पर एक साधारण यादृच्छिक नमूने का अनुसरण करता है। सहायक चर पर स्तरीकरण की अनुमति देने के अलावा, पोस्टस्ट्रेटिफिकेशन का उपयोग भार को लागू करने के लिए किया जा सकता है, जो नमूना के अनुमानों की सटीकता में सुधार कर सकता है।
oversampling
च्वाइस-आधारित नमूनाकरण स्तरीकृत नमूनाकरण रणनीतियों में से एक है। पसंद आधारित नमूनाकरण में, डेटा को लक्ष्य पर स्तरीकृत किया जाता है और प्रत्येक स्ट्रैटम से एक नमूना लिया जाता है, ताकि नमूना में दुर्लभ लक्ष्य वर्ग का अधिक प्रतिनिधित्व होगा। मॉडल तो इस पक्षपाती नमूने पर बनाया गया है। एक यादृच्छिक नमूना की तुलना में, लक्ष्य पर इनपुट चर के प्रभाव को अक्सर पसंद आधारित नमूना के साथ अधिक सटीकता के साथ अनुमानित किया जाता है। परिणामों को आमतौर पर ओवरसमलिंग के लिए सही करने के लिए समायोजित किया जाना चाहिए।
संभावना-आनुपातिक-से-आकार का नमूना(Probability-proportional-to-size sampling)
कुछ मामलों में नमूना डिजाइनर के पास "सहायक चर" या "आकार माप" तक पहुंच होती है, माना जाता है कि आबादी के प्रत्येक तत्व के लिए ब्याज के चर से सहसंबद्ध होना चाहिए। इन आंकड़ों का उपयोग नमूना डिजाइन में सटीकता को बेहतर बनाने के लिए किया जा सकता है। एक विकल्प स्तरीकरण के आधार के रूप में सहायक चर का उपयोग करना है, जैसा कि ऊपर चर्चा की गई है।
एक अन्य विकल्प आकार ('पीपीएस') के नमूने के लिए आनुपातिक है, जिसमें प्रत्येक तत्व के लिए चयन संभावना उसके आकार के माप के अनुपातिक है, अधिकतम 1. तक। एक साधारण पीपीएस डिजाइन में, ये चयन संभावनाएं तब हो सकती हैं। पॉसों के नमूने के आधार के रूप में उपयोग किया जाना चाहिए। हालाँकि, इसमें चर नमूना आकार की कमी है, और चयन में भिन्नता के कारण जनसंख्या के विभिन्न हिस्से अभी भी खत्म हो सकते हैं या कम प्रतिनिधित्व कर सकते हैं।
व्यवस्थित नमूनाकरण सिद्धांत का उपयोग आकार के नमूने के लिए एक संभावना अनुपात बनाने के लिए किया जा सकता है। यह आकार के चर के भीतर प्रत्येक गणना को एकल नमूना इकाई के रूप में मानकर किया जाता है। नमूने तो आकार चर के भीतर इन मामलों में भी अंतराल पर चयन करके पहचाने जाते हैं। इस पद्धति को कभी-कभी ऑडिट या फोरेंसिक नमूने के मामले में पीपीएस-अनुक्रमिक या मौद्रिक इकाई नमूनाकरण कहा जाता है।
चुननेवाली मेडिकल जांच(Cluster sampling)
कभी-कभी समूहों ('क्लस्टर') में उत्तरदाताओं का चयन करना अधिक लागत प्रभावी होता है। नमूनाकरण अक्सर भूगोल, या समय अवधि के अनुसार होता है। (लगभग सभी नमूने कुछ अर्थों में 'गुच्छेदार' समय में हैं - हालांकि यह शायद ही कभी विश्लेषण में ध्यान में रखा गया है।) उदाहरण के लिए, यदि किसी शहर में घरों का सर्वेक्षण किया जाता है, तो हम 100 शहर ब्लॉक का चयन कर सकते हैं और फिर हर घर में साक्षात्कार कर सकते हैं। चयनित ब्लॉक।
क्लस्टरिंग से यात्रा और प्रशासनिक लागत कम हो सकती है। ऊपर दिए गए उदाहरण में, एक साक्षात्कारकर्ता एक घर में कई घरों में जाने के लिए एक ही यात्रा कर सकता है, बजाय प्रत्येक घर के लिए एक अलग ब्लॉक में जाने के लिए।
इसका यह भी अर्थ है कि किसी को लक्ष्य आबादी में सभी तत्वों को सूचीबद्ध करने के लिए एक नमूना फ्रेम की आवश्यकता नहीं है। इसके बजाय, क्लस्टर को क्लस्टर-स्तरीय फ़्रेम से चुना जा सकता है, जिसमें केवल चयनित क्लस्टर्स के लिए एक तत्व-स्तरीय फ़्रेम बनाया जाता है। ऊपर के उदाहरण में, नमूना को केवल प्रारंभिक चयनों के लिए ब्लॉक-स्तरीय शहर के नक्शे की आवश्यकता होती है, और फिर पूरे शहर के घरेलू-स्तर के नक्शे के बजाय 100 चयनित ब्लॉकों का एक घरेलू-स्तर का नक्शा।
क्लस्टर नमूनाकरण (जिसे क्लस्टर्ड नमूने के रूप में भी जाना जाता है) आम तौर पर सरल यादृच्छिक नमूने के ऊपर नमूना अनुमानों की परिवर्तनशीलता को बढ़ाता है, यह इस बात पर निर्भर करता है कि क्लस्टर-क्लस्टर भिन्नता की तुलना में क्लस्टर एक दूसरे के बीच कैसे भिन्न होते हैं। इस कारण से, क्लस्टर नमूनाकरण को सटीकता के समान स्तर को प्राप्त करने के लिए SRS से बड़े नमूने की आवश्यकता होती है - लेकिन क्लस्टरिंग से लागत बचत अभी भी इसे एक सस्ता विकल्प बना सकती है।
क्लस्टर सैंपलिंग को आमतौर पर मल्टीस्टेज सैंपलिंग के रूप में लागू किया जाता है। यह क्लस्टर नमूनाकरण का एक जटिल रूप है जिसमें दो या दो से अधिक स्तर की इकाइयाँ एक दूसरे में अंतर्निहित होती हैं। पहले चरण में उन समूहों का निर्माण होता है जिनका उपयोग नमूना बनाने के लिए किया जाएगा। दूसरे चरण में, प्राथमिक इकाइयों का एक नमूना प्रत्येक क्लस्टर से बेतरतीब ढंग से चुना जाता है (सभी चयनित समूहों में निहित सभी इकाइयों का उपयोग करने के बजाय)। निम्नलिखित चरणों में, उन चयनित समूहों में से प्रत्येक में इकाइयों के अतिरिक्त नमूने चुने गए हैं, और इसी तरह। इस प्रक्रिया के अंतिम चरण में चयनित सभी अंतिम इकाइयों (उदाहरण के लिए, व्यक्तियों) का सर्वेक्षण किया जाता है। इस प्रकार, यह तकनीक अनिवार्य रूप से, पूर्ववर्ती यादृच्छिक नमूनों के यादृच्छिक उपसमूह लेने की प्रक्रिया है।
मल्टीस्टेज सैंपलिंग से सैंपलिंग की लागत को काफी हद तक कम किया जा सकता है, जहाँ पूरी जनसंख्या सूची का निर्माण करना होगा (इससे पहले कि अन्य सैंपलिंग के तरीकों को लागू किया जा सके)। चुने हुए समूहों का वर्णन करने में शामिल कार्य को समाप्त करके, मल्टीस्टेज नमूने पारंपरिक क्लस्टर नमूनाकरण से जुड़ी बड़ी लागत को कम कर सकते हैं। हालांकि, प्रत्येक नमूना पूरी आबादी का पूर्ण प्रतिनिधि नहीं हो सकता है।
कोटा नमूना(Quota sampling)
कोटा नमूनाकरण में, जनसंख्या को पहले स्तरीकृत नमूने के रूप में पारस्परिक रूप से अनन्य उप-समूहों में विभाजित किया जाता है। फिर निर्णय का उपयोग निर्दिष्ट खंड के आधार पर प्रत्येक खंड से विषयों या इकाइयों का चयन करने के लिए किया जाता है। उदाहरण के लिए, एक साक्षात्कारकर्ता को ४५ और ६० की उम्र के बीच २०० महिलाओं और ३०० पुरुषों के नमूने के लिए कहा जा सकता है।
यह दूसरा चरण है जो तकनीक को गैर-संभाव्यता नमूने में से एक बनाता है। कोटा नमूने में नमूने का चयन गैर-यादृच्छिक है। उदाहरण के लिए, साक्षात्कारकर्ताओं को उन लोगों का साक्षात्कार करने के लिए लुभाया जा सकता है जो सबसे अधिक सहायक लगते हैं। समस्या यह है कि ये नमूने पक्षपाती हो सकते हैं क्योंकि सभी को चयन का मौका नहीं मिलता है। यह यादृच्छिक तत्व इसकी सबसे बड़ी कमजोरी है और कोटा बनाम संभावना कई वर्षों से विवाद का विषय है।
मिनिमैक्स का नमूना(Minimax sampling)
असंतुलित डेटासेट में, जहाँ नमूनाकरण अनुपात जनसंख्या के आँकड़ों का पालन नहीं करता है, कोई न्यूनतम रूप से नमूने लेने के लिए डेटासेट को फिर से चालू कर सकता है। मिनिमैक्स सैंपलिंग की उत्पत्ति एंडरसन मिनिमैक्स अनुपात में हुई है, जिसका मूल्य 0.5 साबित होता है: एक द्विआधारी वर्गीकरण में, वर्ग-नमूना आकारों को समान रूप से चुना जाना चाहिए। यह अनुपात केवल गौसियन वितरण के साथ एलडीए क्लासिफायर की धारणा के तहत न्यूनतम अनुपात साबित हो सकता है। मिनिमैक्स सैंपलिंग की धारणा को हाल ही में वर्गीकरण नियमों के एक सामान्य वर्ग के लिए विकसित किया गया है, जिसे कक्षा-वार स्मार्ट क्लासीफायर कहा जाता है। इस मामले में, वर्गों का नमूना अनुपात इसलिए चुना जाता है ताकि कक्षा की पूर्व संभाव्यता के लिए सभी संभावित जनसंख्या आंकड़ों पर सबसे खराब स्थिति का वर्गीकरण करने वाला त्रुटि सबसे अच्छा होगा।
एक्सीडेंटल सैंपलिंग(Accidental sampling)
एक्सीडेंटल सैंपलिंग (कभी-कभी हड़बड़ाहट, सुविधा या अवसर नमूनाकरण के रूप में जाना जाता है) एक प्रकार की नॉनप्रॉपीबिलिटी सैंपलिंग होती है जिसमें उस आबादी के उस हिस्से से खींचा जाने वाला नमूना शामिल होता है जो हाथ के करीब होता है। यही है, एक आबादी का चयन किया जाता है क्योंकि यह आसानी से उपलब्ध है और सुविधाजनक है। यह व्यक्ति से मिलने या नमूने में किसी व्यक्ति सहित तब हो सकता है जब कोई उनसे मिलता है या उन्हें तकनीकी माध्यमों जैसे कि इंटरनेट या फोन के माध्यम से ढूंढकर चुना जाता है। इस तरह के नमूने का उपयोग करने वाला शोधकर्ता वैज्ञानिक रूप से इस नमूने से कुल आबादी के बारे में सामान्यीकरण नहीं कर सकता है क्योंकि यह पर्याप्त प्रतिनिधि नहीं होगा। उदाहरण के लिए, यदि साक्षात्कारकर्ता किसी दिन सुबह-सुबह एक शॉपिंग सेंटर में इस तरह का एक सर्वेक्षण करने वाले थे, तो जिन लोगों को वह साक्षात्कार दे सकते थे, वे उस समय दिए गए लोगों तक सीमित रहेंगे, जो प्रतिनिधित्व नहीं करेंगे ऐसे क्षेत्र में समाज के अन्य सदस्यों के विचार, यदि सर्वेक्षण दिन के अलग-अलग समय और प्रति सप्ताह कई बार किए जाने थे। पायलट परीक्षण के लिए इस तरह का नमूना सबसे उपयोगी है। सुविधा नमूनों का उपयोग करने वाले शोधकर्ताओं के लिए कई महत्वपूर्ण विचार शामिल हैं:
क्या अनुसंधान डिजाइन या प्रयोग के भीतर नियंत्रण हैं जो एक गैर-यादृच्छिक सुविधा नमूने के प्रभाव को कम करने के लिए सेवा प्रदान कर सकते हैं, जिससे परिणाम सुनिश्चित होंगे कि जनसंख्या का अधिक प्रतिनिधि होगा?
क्या यह मानने का कोई अच्छा कारण है कि एक विशेष सुविधा नमूना एक ही आबादी के यादृच्छिक नमूने की तुलना में अलग-अलग प्रतिक्रिया देना या व्यवहार करना चाहिए?
क्या अनुसंधान द्वारा पूछे जाने वाले प्रश्न को एक सुविधा नमूने का उपयोग करके पर्याप्त रूप से उत्तर दिया जा सकता है?
सामाजिक विज्ञान अनुसंधान में, स्नोबॉल नमूना एक समान तकनीक है, जहां मौजूदा अध्ययन विषयों का उपयोग नमूना में अधिक विषयों की भर्ती के लिए किया जाता है। स्नोबॉल सैंपलिंग के कुछ वेरिएंट, जैसे प्रतिसादित संचालित सैंपलिंग, चयन संभावनाओं की गणना की अनुमति देते हैं और कुछ शर्तों के साथ संभाव्यता सैंपलिंग के तरीके हैं।
स्वैच्छिक नमूनाकरण(voluntary sampling)
स्वैच्छिक नमूनाकरण विधि गैर-संभाव्यता नमूने का एक प्रकार है। स्वयंसेवक एक सर्वेक्षण पूरा करने के लिए चुनते हैं।
स्वयंसेवकों को सोशल मीडिया में विज्ञापनों के माध्यम से आमंत्रित किया जा सकता है। विज्ञापनों के लिए लक्षित आबादी को सामाजिक माध्यम द्वारा प्रदान किए गए उपकरणों का उपयोग करके स्थान, आयु, लिंग, आय, व्यवसाय, शिक्षा या हितों जैसी विशेषताओं के द्वारा चुना जा सकता है। विज्ञापन में अनुसंधान के बारे में एक संदेश और एक सर्वेक्षण से लिंक शामिल हो सकता है। लिंक का अनुसरण करने और सर्वेक्षण पूरा करने के बाद स्वयंसेवक नमूना आबादी में शामिल किए जाने वाले डेटा को प्रस्तुत करता है। यह विधि वैश्विक आबादी तक पहुंच सकती है लेकिन अभियान बजट द्वारा सीमित है। आमंत्रित जनसंख्या के बाहर स्वयंसेवक भी नमूने में शामिल किए जा सकते हैं।
इस नमूने से सामान्यीकरण करना मुश्किल है क्योंकि यह कुल आबादी का प्रतिनिधित्व नहीं कर सकता है। अक्सर, स्वयंसेवकों को सर्वेक्षण के मुख्य विषय में एक मजबूत रुचि होती है।
रेखा-अवरोधन का नमूना
लाइन-इंटरसेप्ट नमूनाकरण एक क्षेत्र में नमूना तत्वों की एक विधि है जिसके तहत एक तत्व का नमूना लिया जाता है यदि एक चुना हुआ रेखा खंड, जिसे "ट्रांसक्ट" कहा जाता है, तत्व को प्रतिच्छेद करता है।
पैनल का नमूना(Panel sampling)
पैनल नमूना पहले एक यादृच्छिक नमूना विधि के माध्यम से प्रतिभागियों के एक समूह का चयन करने की विधि है और फिर उस समूह को (संभवत: उसी) जानकारी को कई बार की अवधि के लिए पूछना है। इसलिए, प्रत्येक भागीदार को दो या अधिक समय बिंदुओं पर साक्षात्कार दिया जाता है; डेटा संग्रह की प्रत्येक अवधि को "तरंग" कहा जाता है। इस पद्धति को समाजशास्त्री पॉल लाजरसफेल्ड ने 1938 में राजनीतिक अभियानों के अध्ययन के साधन के रूप में विकसित किया था। यह अनुदैर्ध्य नमूना-विधि जनसंख्या में परिवर्तन के अनुमानों की अनुमति देती है, उदाहरण के लिए पुरानी बीमारी के संबंध में नौकरी के तनाव से लेकर साप्ताहिक भोजन व्यय। पैनल नमूनाकरण का उपयोग शोधकर्ताओं को उम्र के कारण होने वाले व्यक्ति के स्वास्थ्य परिवर्तनों के बारे में सूचित करने या लगातार निर्भर चर जैसे चंचल अंतःक्रिया में परिवर्तनों को समझाने में मदद करने के लिए किया जा सकता है। [१२] पैनल डेटा का विश्लेषण करने के कई प्रस्तावित तरीके हैं, जिसमें MANOVA, ग्रोथ कर्व्स और लैग्ड इफेक्ट्स के साथ संरचनात्मक समीकरण मॉडलिंग शामिल हैं।
व्यापक नमूने लेना(Snowball sampling)
स्नोबॉल नमूना में प्रारंभिक उत्तरदाताओं का एक छोटा समूह खोजना और अधिक उत्तरदाताओं को भर्ती करने के लिए उनका उपयोग करना शामिल है। यह उन मामलों में विशेष रूप से उपयोगी है जहां आबादी छिपी हुई है या गणना करना मुश्किल है।
सैद्धांतिक नमूना(Theoretical sampling)
सैद्धांतिक नमूना तब होता है जब नमूनों को क्षेत्र की गहन समझ विकसित करने या सिद्धांतों को विकसित करने के लक्ष्य के साथ अब तक एकत्र किए गए आंकड़ों के परिणामों के आधार पर चुना जाता है।
चयनित इकाइयों का प्रतिस्थापन(Replacement of selected units)
नमूनाकरण योजनाएँ प्रतिस्थापन के बिना हो सकती हैं ('एक ही नमूने में किसी भी तत्व को एक से अधिक बार नहीं चुना जा सकता है) या प्रतिस्थापन के साथ (' WR'- एक तत्व एक नमूने में कई बार दिखाई दे सकता है)। उदाहरण के लिए, यदि हम मछली पकड़ते हैं, उन्हें मापते हैं, और नमूने के साथ जारी रखने से पहले उन्हें तुरंत पानी में वापस कर देते हैं, तो यह डब्ल्यूआर डिजाइन है, क्योंकि हम एक ही मछली को एक से अधिक बार पकड़ना और मापना समाप्त कर सकते हैं। हालांकि, अगर हम मछली को पानी या टैग में वापस नहीं लाते हैं और प्रत्येक मछली को पकड़ने के बाद छोड़ देते हैं, तो यह एक मजबूत डिजाइन बन जाता है।
नमूना आकार निर्धारण(Sample size determination)
फॉर्मूला, टेबल और पावर फंक्शन चार्ट्स नमूना आकार निर्धारित करने के लिए अच्छी तरह से जाने जाते हैं।
नमूना आकार तालिकाओं का उपयोग करने के लिए चरण
ब्याज, α, और of के प्रभाव का आकार निर्धारित करें।
नमूना आकार तालिका की जाँच करें
चयनित α के अनुरूप तालिका का चयन करें
वांछित शक्ति के अनुरूप पंक्ति का पता लगाएँ
अनुमानित प्रभाव आकार के अनुरूप कॉलम का पता लगाएँ।
स्तंभ और पंक्ति का प्रतिच्छेदन न्यूनतम नमूना आकार आवश्यक है।
नमूनाकरण और डेटा संग्रह
अच्छा डेटा संग्रह शामिल है:
परिभाषित नमूनाकरण प्रक्रिया के बाद
समय क्रम में डेटा रखना
टिप्पणियों और अन्य प्रासंगिक घटनाओं पर ध्यान देना
गैर-प्रतिक्रिया रिकॉर्डिंग
नमूने के अनुप्रयोग
नमूनाकरण पूरी आबादी की विशेषताओं का अनुमान लगाने के लिए बड़े डेटा सेट के भीतर से सही डेटा बिंदुओं के चयन को सक्षम करता है। उदाहरण के लिए, हर दिन लगभग 600 मिलियन ट्वीट्स का उत्पादन होता है। दिन के दौरान जिन विषयों पर चर्चा की जाती है, उन्हें निर्धारित करने के लिए उन सभी को देखना आवश्यक नहीं है, और न ही प्रत्येक विषय पर भावना को निर्धारित करने के लिए सभी ट्वीट्स को देखना आवश्यक है। ट्विटर डेटा के नमूने के लिए एक सैद्धांतिक सूत्रीकरण विकसित किया गया है।
विनिर्माण में विभिन्न प्रकार के संवेदी डेटा जैसे कि ध्वनिकी, कंपन, दबाव, वर्तमान, वोल्टेज और नियंत्रक डेटा कम समय के अंतराल पर उपलब्ध हैं। डाउन-टाइम की भविष्यवाणी करने के लिए सभी डेटा को देखने के लिए आवश्यक नहीं हो सकता है लेकिन एक नमूना पर्याप्त हो सकता है।
नमूना सर्वेक्षण में त्रुटियां(Errors in sample surveys)
सर्वेक्षण के परिणाम आम तौर पर कुछ त्रुटि के अधीन होते हैं। कुल त्रुटियों को नमूना त्रुटियों और गैर-नमूना त्रुटियों में वर्गीकृत किया जा सकता है। यहां "त्रुटि" शब्द में व्यवस्थित पूर्वाग्रह के साथ-साथ यादृच्छिक त्रुटियां शामिल हैं।
नमूनाकरण त्रुटियां और पूर्वाग्रह
नमूनाकरण त्रुटियों और पूर्वाग्रह नमूना डिजाइन से प्रेरित हैं। उनमे शामिल है:
चयन पूर्वाग्रह: जब सही चयन संभावनाएं परिणामों की गणना करने में लगे लोगों से भिन्न होती हैं।
यादृच्छिक नमूनाकरण त्रुटि: नमूने में तत्वों के यादृच्छिक होने के कारण परिणामों में यादृच्छिक भिन्नता।
गैर-नमूनाकरण त्रुटि
गैर-नमूना त्रुटियां अन्य त्रुटियां हैं जो अंतिम सर्वेक्षण के अनुमानों को प्रभावित कर सकती हैं, जो डेटा संग्रह, प्रसंस्करण या नमूना डिजाइन में समस्याओं के कारण होती हैं। ऐसी त्रुटियों में शामिल हो सकते हैं:
ओवर-कवरेज: जनसंख्या के बाहर से डेटा को शामिल करना
अंडर-कवरेज: नमूना फ्रेम में जनसंख्या में तत्व शामिल नहीं हैं।
माप त्रुटि: उदा। जब उत्तरदाता किसी प्रश्न को गलत समझ लेते हैं, या उत्तर देना मुश्किल हो जाता है
प्रोसेसिंग एरर: डाटा कोडिंग में गलतियाँ
गैर-प्रतिक्रिया या भागीदारी पूर्वाग्रह: सभी चयनित व्यक्तियों से पूर्ण डेटा प्राप्त करने में विफलता
सैंपल लेने के बाद, एक सही प्रक्रिया की [किसके द्वारा?] सैंपलिंग में अपनाई जाने वाली सटीक प्रक्रिया की समीक्षा की जानी चाहिए।