Search code examples

pandas pivot_table aggfunc/values parameters behaving oddly

I have this data set:


test = pd.DataFrame({
    'a' : np.random.randint(0, 10, size=(10,)),
    'b' : np.random.randint(0, 10, size=(10,)),
    'c' : np.random.randint(0, 10, size=(10,)),
    'd' : np.random.randint(0, 10, size=(10,)),


   a  b  c  d
0  5  7  5  2
1  0  6  9  3
2  3  8  8  8
3  3  8  9  1
4  7  1  4  3
5  9  6  3  3
6  3  7  0  3
7  5  7  3  7
8  2  8  5  0
9  4  1  0  1

When I run the following code I get far more columns than I thought I should.

tp = test.pivot_table(index=[
], columns=[
], values=[
], aggfunc=[


        a                   b                   c               
b       1    6    7    8    1    6    7    8    1    6    7    8
0     NaN  1.0  NaN  NaN  NaN  1.0  NaN  NaN  NaN  1.0  NaN  NaN
2     NaN  NaN  NaN  1.0  NaN  NaN  NaN  1.0  NaN  NaN  NaN  1.0
3     NaN  NaN  1.0  1.0  NaN  NaN  1.0  1.0  NaN  NaN  1.0  2.0
4     1.0  NaN  NaN  NaN  1.0  NaN  NaN  NaN  1.0  NaN  NaN  NaN
5     NaN  NaN  1.0  NaN  NaN  NaN  1.0  NaN  NaN  NaN  2.0  NaN
7     1.0  NaN  NaN  NaN  1.0  NaN  NaN  NaN  1.0  NaN  NaN  NaN
9     NaN  1.0  NaN  NaN  NaN  1.0  NaN  NaN  NaN  1.0  NaN  NaN

I would expect to only get the subset of c columns, not the a and b columns as well. If I run this next code:

tp1 = test.pivot_table(index=[
], columns=[
], values='c', aggfunc=[


b       1    6    7    8
0     NaN  1.0  NaN  NaN
2     NaN  NaN  NaN  1.0
3     NaN  NaN  1.0  2.0
4     1.0  NaN  NaN  NaN
5     NaN  NaN  2.0  NaN
7     1.0  NaN  NaN  NaN
9     NaN  1.0  NaN  NaN

I get what I would've expected with the previous code. I can also get the expected output if I modify 'nunique' to pd.Series.nunique:

tp2 = test.pivot_table(index=[
], columns=[
], values=[
], aggfunc=[


b       1    6    7    8
0     NaN  1.0  NaN  NaN
2     NaN  NaN  NaN  1.0
3     NaN  NaN  1.0  2.0
4     1.0  NaN  NaN  NaN
5     NaN  NaN  2.0  NaN
7     1.0  NaN  NaN  NaN
9     NaN  1.0  NaN  NaN


Is this a bug? Or is there some underlying code that causes this? Shouldn't all three versions of the code produce the same (aside from column levels) output?

Another example with different aggfunc

When I run similar code but use count instead of nunique I get the expected results every time:

cp = test.pivot_table(index=[
], columns=[
], values=[
], aggfunc=[

cp2 = test.pivot_table(index=[
], columns=[
], values=[
], aggfunc=[

# both return the same thing
b     1    6    7    8
0   NaN  1.0  NaN  NaN
2   NaN  NaN  NaN  1.0
3   NaN  NaN  1.0  2.0
4   1.0  NaN  NaN  NaN
5   NaN  NaN  2.0  NaN
7   1.0  NaN  NaN  NaN
9   NaN  1.0  NaN  NaN


  • This was in a fact a bug that was last present in pandas version 1.0.5 and was fixed in version 1.1.0.


    pip install -U pandas if pandas.__version__ <= "1.1.0"