train

python - 我是否在 k-fold cross_validation 中使用相同的 Tfidf 词汇表

我正在基于TF-IDF向量空间模型进行文本分类。我只有不超过3000个样本。为了公平评估，我正在使用5折交叉评估分类器validation.但让我困惑的是，是否需要在每次foldcross-validation中重建TF-IDFVectorSpaceModel。也就是说，我是否需要在每次折叠交叉验证中重建词汇表并重新计算词汇表中的IDF值？目前我正在基于scikit-learn工具包进行TF-IDF转换，并使用SVM训练我的分类器。我的方法是:首先，我将手上的样本按照3:1的比例进行划分，其中的75%用于拟合TF-IDF向量空间模型的参数。这里的参数就是尺寸词汇表和其中包含的术语，还有

python - Patsy:测试数据中分类字段的新级别

我正在尝试使用Patsy(使用sklearn、pandas)创建一个简单的回归模型。R风格的公式创建是一大亮点。我的数据包含一个名为“ship_city”的字段，它可以包含来自印度的任何城市。由于我将数据划分为训练集和测试集，因此有几个城市仅出现在其中一个集中。代码片段如下:df_train_Y,df_train_X=dmatrices(formula,data=df_train,return_type='dataframe')df_train_Y_design_info,df_train_X_design_info=df_train_Y.design_info,df_train_X.

中分级别 train section pandas python scikit-learn patsy

python - 在 SciKit-Learn 中使用 XGBoost 的交叉验证进行网格搜索和提前停止

我是sci-kitlearn的新手，一直在尝试对XGBoost进行超参数调整。我的目标是使用早停和网格搜索来调整模型参数，并使用早停来控制树的数量并避免过度拟合。因为我在网格搜索中使用交叉验证，所以我希望在早期停止条件中也使用交叉验证。到目前为止，我的代码如下所示:importnumpyasnpimportpandasaspdfromsklearnimportmodel_selectionimportxgboostasxgb#Importtrainingandtestdatatrain=pd.read_csv("train.csv").fillna(value=-999.0)test=

SciKit-Learn XGBoost 39 code train python cross-validation grid-search

python - keras中的全梯度下降

我正在尝试在keras中实现全梯度下降。这意味着对于每个时期，我都在整个数据集上进行训练。这就是批量大小定义为训练集长度大小的原因。fromkeras.modelsimportSequentialfromkeras.layersimportDensefromkeras.optimizersimportSGD,Adamfromkerasimportregularizersimportnumpyasnpimportmatplotlib.pyplotasplt%matplotlibinlineimportrandomfromnumpy.randomimportseedimportrandom

python keras train 训练 x_train machine-learning deep-learning gradient-descent

python - 在 Keras 中，验证准确率始终高于训练准确率

我正在尝试使用mnist数据集训练一个简单的神经网络。出于某种原因，当我获得历史记录(从model.fit返回的参数)时，验证精度高于训练精度，这真的很奇怪，但是如果我在评估模型时检查分数，我会得到更高的训练准确率高于测试准确率。无论模型的参数如何，这种情况每次都会发生。另外，如果我使用自定义回调并访问参数'acc'和'val_acc'，我会发现同样的问题(数字与历史中返回的数字相同)。请帮帮我!我究竟做错了什么？为什么验证准确率比训练准确率高(你看我看loss的时候也有同样的问题)。这是我的代码:#!/usr/bin/envpython3.5fromkeras.layersimpor

准确率训练 train history x_train python keras keras-2

python - 导入错误 : No module named 'tensorflow.python'

在这里我想运行这段代码来尝试使用python进行神经网络:from__future__importprint_functionfromkeras.datasetsimportmnistfromkeras.modelsimportSequentialfromkeras.layersimportActivation,Densefromkeras.utilsimportnp_utilsimporttensorflowastfbatch_size=128nb_classes=10nb_epoch=12#inputimagedimensionsimg_row,img_cols=28,28#the

python tensorflow train test X_train keras neural-network

python - 有没有更简单的方法来处理来自 tfrecords 的批量输入？

我的问题是关于如何从多个(或分片的)tfrecords获取批量输入。我读过这个例子https://github.com/tensorflow/models/blob/master/inception/inception/image_processing.py#L410.基本流程是，以训练集为例，(1)首先生成一系列tfrecords(例如，train-000-of-005、train-001-of-005,...),(2)从这些文件名中，生成一个列表并将它们送入tf.train.string_input_producer以得到一个队列，(3)同时生成一个tf.RandomShuffle

tfrecords python code train tensorflow tensorflow-datasets tfrecord

python - 再训练最后一层 Inception-ResNet-v2

我正在尝试重新训练inception-resnet-v2的最后一层。这是我想出的:获取最后一层的变量名创建一个train_op以仅最小化这些变量wrt损失恢复除最后一层之外的整个图，同时仅随机初始化最后一层。我按如下方式实现了它:withslim.arg_scope(arg_scope):logits=model(images_ph,is_training=True,reuse=None)loss=tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits,labels_ph))accuracy=tf.con

Inception-ResNet-v Inception train section code python tensorflow deep-learning

python - keras 的 Model.train_on_batch 和 tensorflow 的 Session.run([train_optimizer]) 有什么区别？

在下面的神经网络训练的Keras和Tensorflow实现中，keras实现中的model.train_on_batch([x],[y])与sess有何不同。run([train_optimizer,cross_entropy,accuracy_op],feed_dict=feed_dict)在Tensorflow实现中？特别是:这两行如何导致训练中的不同计算？:keras_version.pyinput_x=Input(shape=input_shape,name="x")c=Dense(num_classes,activation="softmax")(input_x)model=

train train_optimizer batch batch_size python tensorflow machine-learning keras

python - 将大型 numpy 数组拆分为训练和测试的内存有效方法

我有一个很大的numpy数组，当我运行scikitlearn的train_test_split将数组拆分为训练和测试数据时，我总是会遇到内存错误。拆分成训练和测试的内存效率更高的方法是什么？为什么train_test_split会导致这种情况？以下代码导致内存错误并导致崩溃importnumpyasnpfromsklearn.cross_validationimporttrain_test_splitX=np.random.random((10000,70000))Y=np.random.random((10000,))X_train,X_test,Y_train,Y_test=tra

训练大型 test train section python arrays scikit-learn

5 6 789 10 11