Col

python - 有条件地删除重复项 pandas python

有没有办法在大约10列和400,000行的pandas数据框中有条件地删除重复项(专门使用drop_duplicates)？也就是说，我想保留所有具有2列的行满足一个条件:如果日期(列)和存储(列)#的组合是唯一的，则保留行，否则删除。最佳答案使用drop_duplicates返回删除了重复行的数据框，可选择只考虑某些列让初始数据框像In[34]:dfOut[34]:Col1Col2Col30AB101AB202AC203CB204AB20如果您想从某些列'Col1','Col2'中获取独特的组合In[35]:df.drop_d

python - PySpark:StructField(..., ..., False) 总是返回 `nullable=true` 而不是 `nullable=false`

我是PySpark的新手，正面临一个奇怪的问题。我试图在加载CSV数据集时将某些列设置为不可空。我可以使用非常小的数据集(test.csv)重现我的案例:col1,col2,col311,12,1321,22,2331,32,3341,42,4351,,53第5行第2列有一个空值，我不想在我的DF中获取该行。我将所有字段设置为不可为空(nullable=false)，但我得到了一个架构，其中所有三列都具有nullable=true。即使我将所有三列都设置为不可为空，也会发生这种情况!我正在运行最新可用的Spark版本2.0.1。代码如下:frompyspark.sqlimportSpa

nullable StructField code col python apache-spark pyspark apache-spark-sql

python - 如何从 Pandas 中的另一列中减去字符串类型列的值

我有一个这样的数据框dfcol1col2col3AblackberryblackBgreenapplegreenCredwinered我想从col2值中减去col3值，结果看起来像df1col1col2col3AberryblackBapplegreenCwinered如何使用pandas有效地做到这一点最佳答案将listcomprehension与replace和split结合使用:df['col2']=[a.replace(b,'').strip()fora,binzip(df['col2'],df['col3'])]pri

python Pandas 39 col code dataframe

python - 替换 Pandas 中跨列的重复值

我有一个简单的数据框:df=[{'col1':'A','col2':'B','col3':'C','col4':'0'},{'col1':'M','col2':'0','col3':'M','col4':'0'},{'col1':'B','col2':'B','col3':'0','col4':'B'},{'col1':'X','col2':'0','col3':'Y','col4':'0'}]df=pd.DataFrame(df)df=df[['col1','col2','col3','col4']]df看起来像这样:|col1|col2|col3|col4||------|----

python Pandas 39 col code

python - Pandas 根据条件交换列

我有一个如下所示的Pandas数据框:Col1Col2Col30A7NaN1B16NaN1B1615我想要做的是将Col2与Col3交换，其中Col3的值为NaN。根据SO上的其他帖子和答案，到目前为止我有这段代码:df[['Col2','Col3']]=df[['Col3','Col2']].where(df[['Col3']].isnull())但这似乎无法正常工作并给了我以下信息:Col1Col2Col30ANaNNaN1BNaNNaN1BNaNNaN这里有什么我可能遗漏的吗？更新:我想要的输出如下:Col1Col2Col30ANaN71BNaN161B1615谢谢

python Pandas Col code 39 swap

python - 以字符串元组作为索引的 Pandas DataFrame

我在这里感觉到一些奇怪的pandas行为。我有一个看起来像的数据框df=pd.DataFrame(columns=['Col1','Col2','Col3'],index=[('1','a'),('2','a'),('1','b'),('2','b')])In[14]:dfOut[14]:Col1Col2Col3(1,a)NaNNaNNaN(2,a)NaNNaNNaN(1,b)NaNNaNNaN(2,b)NaNNaNNaN我可以设置任意元素的值In[15]:df['Col2'].loc[('1','b')]=6In[16]:dfOut[16]:Col1Col2Col3(1,a)NaNN

DataFrame python 39 NaN Col pandas indexing

python - XPath:选择具有空值的标记

如何在XPath1.0中找到所有colname="POW"为空的行？02DOLNOŚLĄSKIEwojewództwo2011-01-01我尝试了很多解决方案。在Firefox扩展XPathChecker中有几次选择是正确的，但lxml.xpath()表示表达式无效或不返回任何行。我的Python代码:fromlxmlimporthtmlf=open('TERC.xml','r')page=html.fromstring(f.read())forrinpage.xpath("//row[col[@name='POW'andnot(text())]]"):printr.text_cont

python XPath code col name xml lxml

python - Pandas 从数据框中选择不连续的列

我正在使用以下内容从数据帧梳中选择特定的列，我想将其放入新的数据帧中。个人选择工作正常EG:comb.ix[:,0:1]，但是当我尝试使用+组合它们时，我得到了一个不好的结果，第一个选择([:,0:1])卡在了最后dataframe和原始col1中包含的值在出现在行末时被删除。获得我想要的列的正确方法是什么？(我会包含示例数据，但正如您所见，列太多...这就是我尝试这样做的原因)comb.ix[:,0:1]+comb.ix[:,17:342] 最佳答案如果您想连接df列的子选择，请使用pd.concat:pd.concat([co

中选 python col code 39 pandas

python - 返回 pandas 数据框中特定值的列名

我在其他语言(例如R或SQL)中找到了此选项，但我不太确定如何在Pandas中执行此操作。所以我有一个包含1262列和1行的文件，每次出现特定值时都需要返回列标题。例如这个测试数据框:Datecol1col2col3col4col5col6col701/01/201600:0037.0436.5735.7737.5636.7935.9038.15我需要找到列名称，例如其中值=38.15。这样做的最佳方式是什么？谢谢最佳答案既然你只有一行，那么你可以对结果调用iloc[0]并使用它来屏蔽列:In[47]:df.columns[(d

列名 python col False code pandas

python - Pandas 数据框 : Group by two columns and then average over another column

假设我有一个具有以下值的数据框:df:col1col2value123121231我想首先根据前两列(col1和col2)对我的数据框进行分组，然后对第三列(值)的值进行平均。所以所需的输出将如下所示:col1col2avg-value122231我正在使用以下代码:columns=['col1','col2','avg']df=pd.DataFrame(columns=columns)df.loc[0]=[1,2,3]df.loc[1]=[1,3,3]print(df[['col1','col2','avg']].groupby('col1','col2').mean())出现以下错

average another 39 col code python pandas group-by

20 21 222324 25 26