Создайте матрицу ковариаций numpy из pandas DataFrame ковариаций

У меня есть следующий объект pandas.DataFrame, который обеспечивает ковариации между факторами:

import pandas as pd

df = pd.DataFrame({"factor1": ["A", "A", "A", "B", "B", "C"],
                   "factor2": ["A", "B", "C", "B", "C", "C"],
                   "covar": [-1.2, -1, 2, 3.4, -4, 6.2]})

Моя цель - переформатировать DataFrame в положительную полуопределенную ковариацию numpy.ndarray.

Я разработал рабочее решение, однако оно мучительно медленное:

unique_factors = df.factor1.unique()
F = pd.DataFrame(columns=unique_factors, index=unique_factors)
for index, row in df.iterrows():
    F.loc[row["factor1"], row["factor2"]] = row["covar"]**2
    F.loc[row["factor2"], row["factor1"]] = row["covar"]**2 #inefficient
F = F.to_numpy()

Результат которого:

[[1.44 1.0                4.0               ]
 [1.0  11.559999999999999 16.0              ]
 [4.0  16.0               38.440000000000005]]

Я надеюсь, что смогу воспользоваться собственными методами numpy для более эффективного достижения своей цели. По крайней мере, я хотел бы иметь возможность удалить строку с комментарием #inefficient и отразить верхнюю треугольную матрицу по диагонали. Любая помощь приветствуется.


person Clade    schedule 23.09.2019    source источник


Ответы (1)


В твоем случае

s=df.pivot(*df.columns)**2
s=s.fillna(s.T)

Out[230]: 
factor2     A      B      C
factor1                    
A        1.44   1.00   4.00
B        1.00  11.56  16.00
C        4.00  16.00  38.44
person BENY    schedule 23.09.2019
comment
Это значительно быстрее⁠ — спасибо! Могу я спросить, что означает звездочка перед df.columns? - person Clade; 23.09.2019
comment
@Clade, который получает имена столбцов для списка и передает эту информацию для поворота в качестве значений индексных столбцов. - person BENY; 23.09.2019