रैखिक प्रतिगमन कैलकुलेटर

अपने X,Y डेटा से ढाल (slope), इंटरसेप्ट (intercept), R² और पीयरसन r की गणना करें — बेस्ट-फिट रेखा के साथ विज़ुअल स्कैटर प्लॉट के साथ।

उदाहरण लोड करें

#XY

न्यूनतम 3 डेटा बिंदु आवश्यक हैं। खाली पंक्तियों की अनदेखी की जाएगी।

उपयोग किए गए सूत्र

// ढाल (b₁) — न्यूनतम वर्ग विधि (least squares) b₁ = Σ[(xᵢ − x̄)(yᵢ − ȳ)] / Σ[(xᵢ − x̄)²] // इंटरसेप्ट (b₀) b₀ = ȳ − b₁ × x̄ // अनुमानित मान (Predicted value) ŷ = b₀ + b₁ × x // पीयरसन सहसंबंध गुणांक (Pearson correlation coefficient) r = Σ[(xᵢ−x̄)(yᵢ−ȳ)] / √(Σ(xᵢ−x̄)² × Σ(yᵢ−ȳ)²) // निर्धारण गुणांक (Coefficient of determination) = // अवशिष्ट (Residual) eᵢ = yᵢ − ŷᵢ

R² और पीयरसन r की व्याख्या

|r| सीमाR² सीमासहसंबंध की शक्तिव्याख्या
0.00 – 0.190.00 – 0.04बहुत कमजोरथोड़ा या कोई रैखिक संबंध नहीं
0.20 – 0.390.04 – 0.15कमजोरकुछ झुकाव लेकिन बहुत अधिक बिखराव (scatter)
0.40 – 0.590.16 – 0.35मध्यमस्पष्ट रैखिक झुकाव
0.60 – 0.790.36 – 0.63मजबूतस्पष्ट रैखिक संबंध
0.80 – 1.000.64 – 1.00बहुत मजबूतबिंदु प्रतिगमन रेखा के बहुत करीब हैं

रैखिक प्रतिगमन (Linear Regression) क्या है?

रैखिक प्रतिगमन सांख्यिकी और डेटा विश्लेषण (data analysis) में सबसे बुनियादी उपकरणों में से एक है। यह एक सीधी रेखा का उपयोग करके एक आश्रित चर (dependent variable - Y) और एक स्वतंत्र चर (independent variable - X) के बीच संबंध को दर्शाता है: ŷ = b₀ + b₁x. यह रेखा अवशिष्टों (residuals) के वर्ग के योग को न्यूनतम करके बनाई जाती है - जो कि प्रत्येक वास्तविक बिंदु और अनुमानित रेखा के बीच की लंबवत दूरी है।

19वीं शताब्दी की शुरुआत में कार्ल फ्रेडरिक गॉस और एड्रिएन-मारी लेजेंड्रे द्वारा विकसित की गई न्यूनतम वर्ग विधि (least squares method) आज भी प्रतिगमन विश्लेषण में सबसे अधिक उपयोग किया जाने वाला तरीका है। यह अर्थमिति, मशीन लर्निंग और प्रयोगात्मक विज्ञान की नींव है।

प्रतिगमन समीकरण (Regression Equation) की व्याख्या कैसे करें

  • ढाल (Slope - b₁): X में 1-इकाई की वृद्धि होने पर Y में अपेक्षित परिवर्तन। यदि b₁ = 2.5 है, तो X की प्रत्येक इकाई वृद्धि के साथ Y का मान 2.5 बढ़ जाता है।
  • इंटरसेप्ट (Intercept - b₀): Y का अनुमानित मान जब X = 0 हो। यह हमेशा व्यावहारिक रूप से प्रासंगिक नहीं होता, खासकर यदि X=0 डेटा सीमा से बाहर हो।
  • R² (निर्धारण गुणांक): Y में होने वाले कुल विचरण का वह हिस्सा जो X द्वारा समझाया जा सकता है। R² = 0.72 का मतलब है कि Y की 72% भिन्नता को X के साथ रैखिक संबंध द्वारा समझा जा सकता है।
  • पीयरसन r (Pearson r): सहसंबंध गुणांक (correlation coefficient)। r = +1 का अर्थ पूर्ण धनात्मक संबंध है, r = -1 पूर्ण ऋणात्मक संबंध और r = 0 कोई रैखिक संबंध नहीं दर्शाता है।

रैखिक प्रतिगमन के वास्तविक जीवन में उपयोग

अर्थशास्त्र और वित्त (Economics & Finance)

अर्थशास्त्री अक्सर जीडीपी बनाम बेरोजगारी, या विज्ञापन खर्च बनाम राजस्व जैसे संबंधों का मॉडल तैयार करने के लिए प्रतिगमन का उपयोग करते हैं। वित्त क्षेत्र में इसका उपयोग बीटा (बाजार के रिटर्न के मुकाबले स्टॉक रिटर्न की ढाल) की गणना करने के लिए किया जाता है, जो सीएपीएम (CAPM) का आधार है।

चिकित्सा और महामारी विज्ञान (Medicine & Epidemiology)

चिकित्सा शोधकर्ता दवा की खुराक और उसके प्रभाव, या उम्र के साथ रक्तचाप के संबंध को समझने के लिए प्रतिगमन का उपयोग करते हैं।

मशीन लर्निंग (Machine Learning)

रैखिक प्रतिगमन सबसे सरल सुपरवाइज्ड लर्निंग (supervised learning) एल्गोरिथम है। यह सभी प्रतिगमन समस्याओं के लिए आधार रेखा (baseline) के रूप में कार्य करता है और यह रिज रिग्रेशन, लासो और लॉजिस्टिक रिग्रेशन का आधार है।

रैखिक प्रतिगमन की धारणाएं (Assumptions)

  • रैखिकता (Linearity): X और Y के बीच का संबंध रैखिक होना चाहिए।
  • स्वतंत्रता (Independence): सभी डेटा बिंदु एक-दूसरे से स्वतंत्र होने चाहिए।
  • समरूपता (Homoscedasticity): अवशिष्टों (residuals) का विचरण X के सभी मानों के लिए स्थिर होना चाहिए।
  • सामान्यता (Normality): अवशिष्टों को सामान्य रूप से वितरित होना चाहिए (यह भविष्यवाणी के लिए नहीं बल्कि अनुमान की विश्वसनीयता के लिए आवश्यक है)।

अक्सर पूछे जाने वाले प्रश्न (FAQs)

रैखिक प्रतिगमन (Linear Regression) डेटा बिंदुओं के बीच सबसे सटीक बैठने वाली सीधी रेखा (best-fitting line) ढूंढने की विधि है। यह ŷ = b₀ + b₁x समीकरण द्वारा दर्शाया जाता है और इसका उपयोग चरों के बीच संबंधों को समझने और भविष्यवाणियां करने के लिए किया जाता है।

R² प्रतिगमन रेखा की डेटा से सटीकता को दर्शाता है। R² = 0.85 का मतलब है कि Y में होने वाले 85% बदलावों को X द्वारा समझाया जा सकता है। इसका मूल्य 0 से 1 के बीच होता है, जहाँ 1 पूर्ण सटीकता को दर्शाता है।

पीयरसन r दो चरों के रैखिक संबंध की मजबूती और दिशा को मापता है। यह -1 (सटीक विपरीत संबंध) से +1 (सटीक सीधा संबंध) के बीच होता है। 0 का अर्थ है कि उनके बीच कोई रैखिक संबंध नहीं है।

ढाल b₁ = Σ[(xᵢ − x̄)(yᵢ − ȳ)] / Σ[(xᵢ − x̄)²] द्वारा निकाली जाती है, जहाँ x̄ और ȳ क्रमशः X और Y के औसत मान हैं। यह दर्शाता है कि X की प्रति इकाई वृद्धि पर Y में कितना बदलाव होता है।

सहसंबंध (correlation) केवल दो चरों के बीच के जुड़ाव की शक्ति को मापता है (यह सममित है), जबकि प्रतिगमन (regression) भविष्यवाणी करने के लिए एक समीकरण देता है जहाँ स्वतंत्र और आश्रित चरों का स्थान महत्वपूर्ण होता है।

अवशिष्ट वास्तविक Y मान और रेखा द्वारा दर्शाए गए अनुमानित Ŷ मान के बीच की दूरी (अंतर) है: eᵢ = yᵢ − ŷ. न्यूनतम वर्ग विधि इसी अंतर के वर्गों के योग को न्यूनतम करने का काम करती है।

रैखिक प्रतिगमन के लिए कम से कम 3 डेटा बिंदुओं की आवश्यकता होती है। हालाँकि, सार्थक विश्लेषण के लिए 10 से अधिक और बेहतर परिणामों के लिए 20 से अधिक डेटा बिंदु होना आदर्श है।

हाँ, आप ऊपर दिए गए "अनुमान लगाएं" अनुभाग में X का कोई भी मान डालकर Y का अनुमानित मान ŷ = b₀ + b₁x प्राप्त कर सकते हैं। डेटा सीमा के बाहर की भविष्यवाणी (extrapolation) करते समय हमेशा सतर्क रहें।

संबंधित कैलकुलेटर