jjzjj

linear-regression

全部标签

python - 如何检查连续变量和分类变量之间的相关性?

我有一个数据集,包括分类变量(二进制)和连续变量。我正在尝试应用线性回归模型来预测连续变量。谁能告诉我如何检查分类变量和连续目标变量之间的相关性。当前代码:importpandasaspddf_hosp=pd.read_csv('C:\Users\LAPPY-2\Desktop\LengthOfStay.csv')data=df_hosp[['lengthofstay','male','female','dialysisrenalendstage','asthma',\'irondef','pneum','substancedependence',\'psychologicaldiso

python - (Python) 使用 scikits bootstrap 估计回归参数置信区间

我刚刚开始尝试通过scikits获得的一个不错的Bootstrap包:https://github.com/cgevans/scikits-bootstrap但是我在尝试通过线性回归估计相关系数的置信区间时遇到了问题。返回的置信区间完全位于原始统计数据的范围之外。代码如下:importnumpyasnpfromscipyimportstatsimportbootstrapasbootnp.random.seed(0)x=np.arange(10)y=10+1.5*x+2*np.random.randn(10)r0=stats.linregress(x,y)[2]defmy_functi

python - 使用 python 进行线性回归的简单预测

data2=pd.DataFrame(data1['kwh'])data2kwhdate2012-04-1214:56:501.2564002012-04-1215:11:551.4307502012-04-1215:27:011.3699102012-04-1215:42:061.3593502012-04-1215:57:101.3056802012-04-1216:12:101.2877502012-04-1216:27:141.2459702012-04-1216:42:191.2822802012-04-1216:57:241.3657102012-04-1217:12:28

python Pandas : how to run multiple univariate regression by group

假设我有一个DataFrame,其中有一列y变量和许多列x变量。我希望能够运行y与x1、y与x2的多个单变量回归,...,等等,并将预测存储回DataFrame。我还需要通过组变量来执行此操作。importstatsmodels.apiassmimportpandasaspddf=pd.DataFrame({'y':np.random.randn(20),'x1':np.random.randn(20),'x2':np.random.randn(20),'grp':['a','b']*10})defols_res(x,y):returnsm.OLS(y,x).fit().predict

python - 带正则化的 Numpy 线性回归

我没有发现我的正则化线性回归代码有什么问题。不规则化我只是这样,我有理由确定这是正确的:importnumpyasnpdefget_model(features,labels):returnnp.linalg.pinv(features).dot(labels)这是我的正则化解决方案代码,我看不出它有什么问题:defget_model(features,labels,lamb=0.0):n_cols=features.shape[1]returnlinalg.inv(features.transpose().dot(features)+lamb*np.identity(n_cols))

python - 如何在 x 轴上绘制带有日期时间的线性回归

我的DataFrame对象看起来像amountdate2014-01-0612014-01-0712014-01-0842014-01-0912014-01-141我想要一种散点图,x轴为时间,y轴为数量,数据中有一条线来引导观察者的视线。如果我使用pandasplotdf.plot(style="o")它不太正确,因为那条线不在那里。我想要类似示例的东西here. 最佳答案 注意:这与IanThompson的回答有很多共同之处,但方法不同,足以将其作为一个单独的答案。我使用问题中提供的DataFrame格式并避免更改索引。Seab

python - 如何在 Python 中绘制多元函数?

使用matplotlib在Python中绘制单个变量函数非常简单。但我正在尝试向散点图添加第三个轴,以便可视化我的多变量模型。这是一个示例片段,有30个输出:importnumpyasnpnp.random.seed(2)##generatearandomdatasetx=np.random.randn(30,2)x[:,1]=x[:,1]*100y=11*x[:,0]+3.4*x[:,1]-4+np.random.randn(30)##themodel如果这只是一个单变量模型,我可能会使用类似这样的东西来生成最适合的图和线:%pylabinlineimportmatplotlib.p

python - 使用 Python numpy 进行线性回归

我正在尝试做一个简单的线性回归函数,但继续遇到numpy.linalg.linalg.LinAlgError:Singularmatrixerror现有函数(带有调试打印):defmakeLLS(inputData,targetData):print"InmakeLLS:"print"ShapeinputData:",inputData.shapeprint"ShapetargetData:",targetData.shapeterm1=np.dot(inputData.T,inputData)term2=np.dot(inputData.T,targetData)print"Shap

python - 如何进行线性回归,考虑误差线?

我正在对一些有限大小的物理系统进行计算机模拟,然后我正在外推到无穷大(热力学极限)。一些理论认为数据应该与系统规模成线性比例关系,所以我正在做线性回归。我拥有的数据很嘈杂,但对于每个数据点,我都可以估计误差线。因此,例如数据点如下所示:x_list=[0.3333333333333333,0.2886751345948129,0.25,0.23570226039551587,0.22360679774997896,0.20412414523193154,0.2,0.16666666666666666]y_list=[0.13250359351851854,0.1209833958333

python Pandas : how to turn a DataFrame with "factors" into a design matrix for linear regression?

如果没记错的话,在R中有一种称为因子的数据类型,当在DataFrame中使用时,它可以自动解压缩到回归设计矩阵的必要列中。例如,包含True/False/Maybe值的因子将转换为:100010or001为了使用较低级别的回归代码。有没有办法使用pandas库实现类似的东西?我看到Pandas中有一些回归支持,但由于我有自己定制的回归例程,我真的很感兴趣从异构数据构build计矩阵(2dnumpy数组或矩阵),支持映射来回映射numpy对象的列和派生它的PandasDataFrame。更新:这是一个数据矩阵的示例,其中包含我正在考虑的那种异构数据(该示例来自Pandas手册):>>>d