DF

python - 在 matplotlib 中格式化日期时间 xlabels(pandas df.plot() 方法)

我不知道如何更改这些x标签的格式。理想情况下，我想对它们调用strftime('%Y-%m-%d')。我试过set_major_formatter之类的东西，但没有成功。importpandasaspdimportnumpyasnpdate_range=pd.date_range('2014-01-01','2015-01-01',freq='MS')df=pd.DataFrame({'foo':np.random.randint(0,10,len(date_range))},index=date_range)ax=df.plot(kind='bar') 最

python - pandas df 中当前唯一值的计数

我试图在pandasdf中返回count的unique值。它是每个行的累积计数。我的目标是合并一个函数来确定当前在任何时间点出现的值的数量。importpandasaspddf=pd.DataFrame({'A':['8:06:00','11:00:00','11:30:00','12:00:00','13:00:00','13:30:00','14:00:00','17:00:00'],'B':['ABC','ABC','DEF','XYZ','ABC','LMN','DEF','ABC'],'C':[1,2,1,1,3,1,2,4],})ABC08:06:00ABC1111:00:

python pandas code 39 00 count unique

python - 将级别附加到 python pandas 中的列索引

我有几个具有相同列的Dataframes，我只想合并它们的索引。printdf1out[]:ValueISOId2000018432000000USD20023022588186000USD2002474633000000USD2002911188880000USD2004181779776000USDprintdf2out[]:ValueISOId2000011.309168e+11USD2002305.444096e+10USD2002479.499602e+09USD2002912.089603e+09USD2004183.827251e+09USDprintdf3out[]:V

列索 python USD code df merge pandas concat

python - 为什么 DataFrame.loc[[1]] 比 df.ix [[1]] 慢 1,800 倍，比 df.loc[1] 慢 3,500 倍？

自己试试看:importpandasaspds=pd.Series(xrange(5000000))%timeits.loc[[0]]#Youneedpandas0.15.1ornewerforittobethatslow1loops,bestof3:445msperloop更新:大概是2014年8月左右在0.15.1中引入的alegitimatebuginpandas。解决方法:使用旧版本的pandas等待新版本发布；得到一个尖端的开发者。来自github的版本；在您发布的pandas中手动进行一行修改；暂时使用.ix而不是.loc。我有一个包含480万行的DataFrame，使用.

DataFrame loc code strong df python performance pandas

python - 在 python 中使用带宽方法进行投资组合再平衡

我们需要计算2只股票的持续再平衡投资组合。让我们称他们为A和B。他们在投资组合中的份额应该相等。因此，如果我的投资组合中有100美元，50美元投资于A，50美元投资于B。由于两只股票的表现非常不同，它们将不会保持相同的权重(3个月后A可能值(value)70美元，而B跌至45$).问题是他们必须将自己在投资组合中的份额保持在一定的容忍范围内。此带宽为5%。所以我需要一个函数:如果A>B*1.05或A*1.05这第一部分只是为了以最快的方式让一些数据有一个共同的讨论基础并使结果具有可比性，因此您只需复制并粘贴整个代码就可以了。importpandasaspdfromdatetimeimp

python 在 df 39 ford pandas

python - Pandas - 按行交错/压缩两个数据帧

假设我有两个数据框:>>df10120abc1def>>df20120ABC1DEF我怎样才能交错行？即得到这个:>>interleaved_df0120abc1ABC2def3DEF(请注意，我的真实DF具有相同的列，但行数不同)。我尝试过的灵感来自thisquestion(非常相似，但询问列):importpandasaspdfromitertoolsimportchain,zip_longestdf1=pd.DataFrame([['a','b','c'],['d','e','f']])df2=pd.DataFrame([['A','B','C'],['D','E','F']])

交错 python 39 index df pandas dataframe

python - Pandas:根据更复杂的标准选择和修改数据框

我在看this和this线程，虽然我的问题并没有太大不同，但它有一些不同之处。我有一个充满floats的数据框，我想用字符串替换它。说:ABCA01.513B0.5100.27.3C1.3340.01对于这张表，我想用几个条件替换，但只有第一个替换有效:df[df1)&(df10)&(df50]='H'#Doesn'twork如果我改为根据float选择第二行，仍然不起作用:((df.applymap(type)==float)&(df1))#Doesn'twork我想知道如何在此处或任何其他方式应用pd.DataFrame().mask。我该如何解决？或者，我知道我可以逐列阅读并在每

python Pandas code df section

python - pandas 中 df.reindex() 和 df.set_index() 方法的区别

我对此感到困惑，这很简单，但我没有立即在StackOverflow上找到答案:df.set_index('xcol')使列'xcol'成为索引(当它是df的列时)。但是，df.reindex(myList)从数据帧外部获取索引，例如，从我们在别处定义的名为myList的列表中获取索引。但是，df.reindex(myList)也会将值更改为NA。一个简单的替代方法是:df.index=myList我希望这篇文章能澄清它!也欢迎对这篇文章进行补充! 最佳答案您可以在一个简单的示例中看到差异。让我们考虑这个数据框:df=pd.Data

set_index reindex code section python python-3.x pandas indexing

python - 交互式条件直方图桶切片数据可视化

我有一个df看起来像:df.head()Out[1]:ABCcity0401273city1655610city2775871city3895349city4339890可以通过以下代码创建示例df:df=pd.DataFrame(np.random.randint(100,size=(1000000,3)),columns=list('ABC'))indx=['city'+str(x)forxinrange(0,1000000)]df.index=indx我想做的是:a)为A列确定适当的直方图桶长度，并将每个城市分配给A列的桶b)为B列确定适当的直方图桶长度，并将每个城市分配给B列的

python 交互式 code 39 df pandas data-visualization seaborn bokeh

python - 求和所有可能对的有效方法

我有一个如下所示的数据框:fromrandomimportrandintimportpandasaspddf=pd.DataFrame({"ID":["a","b","c","d","e","f","g"],"Size":[randint(0,9)foriinrange(0,7)]})dfIDSize0a41b32c03d24e95f56g3我想得到的是这个(也可以是矩阵):sums_dfabcdefga8.07.04.06.013.09.07.0b7.06.03.05.012.08.06.0c4.03.00.02.09.05.03.0d6.05.02.04.011.07.05.0e1

求和 python 39 code df pandas numpy

2 3 456 7 8