रैखिक प्रतिगमन कैलकुलेटर
अपने X,Y डेटा से ढाल (slope), इंटरसेप्ट (intercept), R² और पीयरसन r की गणना करें — बेस्ट-फिट रेखा के साथ विज़ुअल स्कैटर प्लॉट के साथ।
उदाहरण लोड करें
| # | X | Y |
|---|
न्यूनतम 3 डेटा बिंदु आवश्यक हैं। खाली पंक्तियों की अनदेखी की जाएगी।
उपयोग किए गए सूत्र
R² और पीयरसन r की व्याख्या
| |r| सीमा | R² सीमा | सहसंबंध की शक्ति | व्याख्या |
|---|---|---|---|
| 0.00 – 0.19 | 0.00 – 0.04 | बहुत कमजोर | थोड़ा या कोई रैखिक संबंध नहीं |
| 0.20 – 0.39 | 0.04 – 0.15 | कमजोर | कुछ झुकाव लेकिन बहुत अधिक बिखराव (scatter) |
| 0.40 – 0.59 | 0.16 – 0.35 | मध्यम | स्पष्ट रैखिक झुकाव |
| 0.60 – 0.79 | 0.36 – 0.63 | मजबूत | स्पष्ट रैखिक संबंध |
| 0.80 – 1.00 | 0.64 – 1.00 | बहुत मजबूत | बिंदु प्रतिगमन रेखा के बहुत करीब हैं |
रैखिक प्रतिगमन (Linear Regression) क्या है?
रैखिक प्रतिगमन सांख्यिकी और डेटा विश्लेषण (data analysis) में सबसे बुनियादी उपकरणों में से एक है। यह एक सीधी रेखा का उपयोग करके एक आश्रित चर (dependent variable - Y) और एक स्वतंत्र चर (independent variable - X) के बीच संबंध को दर्शाता है: ŷ = b₀ + b₁x. यह रेखा अवशिष्टों (residuals) के वर्ग के योग को न्यूनतम करके बनाई जाती है - जो कि प्रत्येक वास्तविक बिंदु और अनुमानित रेखा के बीच की लंबवत दूरी है।
19वीं शताब्दी की शुरुआत में कार्ल फ्रेडरिक गॉस और एड्रिएन-मारी लेजेंड्रे द्वारा विकसित की गई न्यूनतम वर्ग विधि (least squares method) आज भी प्रतिगमन विश्लेषण में सबसे अधिक उपयोग किया जाने वाला तरीका है। यह अर्थमिति, मशीन लर्निंग और प्रयोगात्मक विज्ञान की नींव है।
प्रतिगमन समीकरण (Regression Equation) की व्याख्या कैसे करें
- ढाल (Slope - b₁): X में 1-इकाई की वृद्धि होने पर Y में अपेक्षित परिवर्तन। यदि b₁ = 2.5 है, तो X की प्रत्येक इकाई वृद्धि के साथ Y का मान 2.5 बढ़ जाता है।
- इंटरसेप्ट (Intercept - b₀): Y का अनुमानित मान जब X = 0 हो। यह हमेशा व्यावहारिक रूप से प्रासंगिक नहीं होता, खासकर यदि X=0 डेटा सीमा से बाहर हो।
- R² (निर्धारण गुणांक): Y में होने वाले कुल विचरण का वह हिस्सा जो X द्वारा समझाया जा सकता है। R² = 0.72 का मतलब है कि Y की 72% भिन्नता को X के साथ रैखिक संबंध द्वारा समझा जा सकता है।
- पीयरसन r (Pearson r): सहसंबंध गुणांक (correlation coefficient)। r = +1 का अर्थ पूर्ण धनात्मक संबंध है, r = -1 पूर्ण ऋणात्मक संबंध और r = 0 कोई रैखिक संबंध नहीं दर्शाता है।
रैखिक प्रतिगमन के वास्तविक जीवन में उपयोग
अर्थशास्त्र और वित्त (Economics & Finance)
अर्थशास्त्री अक्सर जीडीपी बनाम बेरोजगारी, या विज्ञापन खर्च बनाम राजस्व जैसे संबंधों का मॉडल तैयार करने के लिए प्रतिगमन का उपयोग करते हैं। वित्त क्षेत्र में इसका उपयोग बीटा (बाजार के रिटर्न के मुकाबले स्टॉक रिटर्न की ढाल) की गणना करने के लिए किया जाता है, जो सीएपीएम (CAPM) का आधार है।
चिकित्सा और महामारी विज्ञान (Medicine & Epidemiology)
चिकित्सा शोधकर्ता दवा की खुराक और उसके प्रभाव, या उम्र के साथ रक्तचाप के संबंध को समझने के लिए प्रतिगमन का उपयोग करते हैं।
मशीन लर्निंग (Machine Learning)
रैखिक प्रतिगमन सबसे सरल सुपरवाइज्ड लर्निंग (supervised learning) एल्गोरिथम है। यह सभी प्रतिगमन समस्याओं के लिए आधार रेखा (baseline) के रूप में कार्य करता है और यह रिज रिग्रेशन, लासो और लॉजिस्टिक रिग्रेशन का आधार है।
रैखिक प्रतिगमन की धारणाएं (Assumptions)
- रैखिकता (Linearity): X और Y के बीच का संबंध रैखिक होना चाहिए।
- स्वतंत्रता (Independence): सभी डेटा बिंदु एक-दूसरे से स्वतंत्र होने चाहिए।
- समरूपता (Homoscedasticity): अवशिष्टों (residuals) का विचरण X के सभी मानों के लिए स्थिर होना चाहिए।
- सामान्यता (Normality): अवशिष्टों को सामान्य रूप से वितरित होना चाहिए (यह भविष्यवाणी के लिए नहीं बल्कि अनुमान की विश्वसनीयता के लिए आवश्यक है)।
अक्सर पूछे जाने वाले प्रश्न (FAQs)
रैखिक प्रतिगमन (Linear Regression) डेटा बिंदुओं के बीच सबसे सटीक बैठने वाली सीधी रेखा (best-fitting line) ढूंढने की विधि है। यह ŷ = b₀ + b₁x समीकरण द्वारा दर्शाया जाता है और इसका उपयोग चरों के बीच संबंधों को समझने और भविष्यवाणियां करने के लिए किया जाता है।
R² प्रतिगमन रेखा की डेटा से सटीकता को दर्शाता है। R² = 0.85 का मतलब है कि Y में होने वाले 85% बदलावों को X द्वारा समझाया जा सकता है। इसका मूल्य 0 से 1 के बीच होता है, जहाँ 1 पूर्ण सटीकता को दर्शाता है।
पीयरसन r दो चरों के रैखिक संबंध की मजबूती और दिशा को मापता है। यह -1 (सटीक विपरीत संबंध) से +1 (सटीक सीधा संबंध) के बीच होता है। 0 का अर्थ है कि उनके बीच कोई रैखिक संबंध नहीं है।
ढाल b₁ = Σ[(xᵢ − x̄)(yᵢ − ȳ)] / Σ[(xᵢ − x̄)²] द्वारा निकाली जाती है, जहाँ x̄ और ȳ क्रमशः X और Y के औसत मान हैं। यह दर्शाता है कि X की प्रति इकाई वृद्धि पर Y में कितना बदलाव होता है।
सहसंबंध (correlation) केवल दो चरों के बीच के जुड़ाव की शक्ति को मापता है (यह सममित है), जबकि प्रतिगमन (regression) भविष्यवाणी करने के लिए एक समीकरण देता है जहाँ स्वतंत्र और आश्रित चरों का स्थान महत्वपूर्ण होता है।
अवशिष्ट वास्तविक Y मान और रेखा द्वारा दर्शाए गए अनुमानित Ŷ मान के बीच की दूरी (अंतर) है: eᵢ = yᵢ − ŷ. न्यूनतम वर्ग विधि इसी अंतर के वर्गों के योग को न्यूनतम करने का काम करती है।
रैखिक प्रतिगमन के लिए कम से कम 3 डेटा बिंदुओं की आवश्यकता होती है। हालाँकि, सार्थक विश्लेषण के लिए 10 से अधिक और बेहतर परिणामों के लिए 20 से अधिक डेटा बिंदु होना आदर्श है।
हाँ, आप ऊपर दिए गए "अनुमान लगाएं" अनुभाग में X का कोई भी मान डालकर Y का अनुमानित मान ŷ = b₀ + b₁x प्राप्त कर सकते हैं। डेटा सीमा के बाहर की भविष्यवाणी (extrapolation) करते समय हमेशा सतर्क रहें।