jjzjj

DataFrames

全部标签

python - 在多个条件下合并 DataFrames - 而不是专门针对相等的值

首先,抱歉,如果这有点冗长,但我想完整地描述我遇到的问题以及我已经尝试过的事情。我正在尝试在多个条件下将两个数据框对象连接(合并)在一起。如果要满足的条件都是“等于”运算符,我知道如何执行此操作,但是,我需要使用LESSTHAN和MORETHAN。数据框表示遗传信息:一个是基因组中的突变列表(称为SNP),另一个提供有关基因在人类基因组中的位置的信息。对这些执行df.head()返回以下内容:SNP数据帧(snp_df):chromosomeSNPBP01rs309431575256611rs313197275272121rs207381475347431rs3115859754503

python Pandas : Merge two tables without keys (Multiply 2 dataframes with broadcasting all elements; NxN dataframe)

我想合并2个具有广播关系的数据帧:没有公共(public)索引,只想找到2个数据框中的所有行对。所以想要制作N行数据框xM行数据框=N*M行数据框。是否有任何规则可以在不使用itertool的情况下实现这一点?DF1=idquantity01201223DF2=namepart0'A'31'B'42'C'5DF_merged=idquantitynamepart0120'A'31120'B'42120'C'53223'A'34223'B'45223'C'5 最佳答案 您可以在DataFrames和merge中使用辅助列tmp填充1在

python - 如何使用颜色图为 Pandas DataFrames 的绘图着色

我有一个像这样的pd.DataFrame:ColumnName1123123122我可以用df['ColumnName'].plot(style='o')绘制它我如何为列中的不同值定义不同的颜色(例如,红色代表值1,绿色代表2,橙色代表3)。我知道这与colormap有关,但我该如何使用它呢?一个解决方案是用每个值的列构造一个新的DataFrame。但是这些值是经过排序的,我希望这个序列只是用不同的颜色着色。 最佳答案 要绘制数据框中的第一列,请尝试如下操作:frommatplotlibimportcmimportmatplotli

python - 在同一调用中从 Spark Dataframes split 方法中选择数组元素?

我正在拆分一个HTTP请求来查看元素,我想知道是否有一种方法可以指定我想在同一个调用中查看的元素,而无需执行其他操作。例如:frompyspark.sqlimportfunctionsasfndf.select(fn.split(df.http_request,'/').alias('http'))给我一​​个新的Dataframe,其中包含这样的数组行:+--------------------+|http|+--------------------+|[,courses,26420...|我想要索引1(类(class))中的项目,而不必执行另一个select语句来指定df.sele

python - 计算不包含某些字符串 Pandas DataFrames 的行

我想计算数据框不包含某些字符串的行数。例如:df=pd.DataFrame([[1.1,1.1,1.1,2.6,2.5,3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3],list('AAABBBBABCBDDD'),['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w']]).Tdf.columns=['col1','col2','col3']col1col2col301.1Ax/y/z11.1Ax/y21.1Ax/y/z/n

python - 将大型 Pandas Dataframes 分块写入 CSV 文件

如何将大型数据文件分block写入CSV文件?我有一组大型数据文件(100万行x20列)。但是,我只对数据文件的5列左右感兴​​趣。我想通过仅使用感兴趣的列制作这些文件的副本来简化操作,这样我就可以使用较小的文件进行后期处理。所以我打算将文件读入数据框,然后写入csv文件。我一直在研究将大数据文件分block读取到数据帧中。但是,我还没有找到任何关于如何将数据分block写入csv文件的信息。这是我现在正在尝试的,但这不会附加csv文件:withopen(os.path.join(folder,filename),'r')assrc:df=pd.read_csv(src,sep='\t

Python:如何将 Dataframes 字典变成一个大数据框,其中列名是前一个字典的键?

所以我的数据框是由许多单独的excel文件组成的,每个文件都以日期作为文件名,并在电子表格中显示当天的水果价格,因此电子表格看起来像这样:15012016:FruitPriceOrange1Apple2Pear316012016:FruitPriceOrange4Apple5Pear617012016:FruitPriceOrange7Apple8Pear9因此,为了将所有这些信息放在一起,我运行以下代码将所有信息放入一个数据帧字典中(所有水果价格文件存放在'C:\Fruit_Prices_by_Day'#findallthefilenamesfile_list=[]forxinos.

python - 合并多个 DataFrames Pandas

这可能被认为是athoroughexplanationofvariousapproaches的副本,但是由于数据帧数量较多,我似乎无法在那里找到解决问题的方法。我有多个数据框(超过10个),每个数据框在一列VARX中不同。这只是一个简单的快速示例:importpandasaspddf1=pd.DataFrame({'depth':[0.500000,0.600000,1.300000],'VAR1':[38.196202,38.198002,38.200001],'profile':['profile_1','profile_1','profile_1']})df2=pd.DataFr

python - 在 Python 中处理 pandas DataFrames 列划分中的零

在Python中将pandasDataFrame列相互划分时,处理零分母的最佳方法是什么?例如:df=pandas.DataFrame({"a":[1,2,0,1,5],"b":[0,10,20,30,50]})df.a/df.b#yieldserror我希望将分母为零的比率注册为NA(numpy.nan)。如何在Pandas中有效地完成这件事?转换为float64在列级别不起作用:In[29]:dfOut[29]:ab0101210202031304550In[30]:df["a"].astype("float64")/df["b"].astype("float64")...Floa

python - Pandas 什么时候默认广播 Series 和 Dataframes?

我在尝试回答thisquestion时遇到了一些(对我来说)好奇的事情.假设我想将一系列形状(10,)与形状(10,10)的df进行比较:np.random.seed(0)my_ser=pd.Series(np.random.randint(0,100,size=10))my_df=pd.DataFrame(np.random.randint(0,100,size=100).reshape(10,10))my_ser>10*my_df如预期的那样,生成df(10,10)形状的矩阵。比较似乎是按行进行的。但是考虑这种情况:df=pd.DataFrame({'cell1':[0.00620