divergencia de KL, para comparar a distancia das PDF de citações por seção, com a PDF global de citação por cada autor, e partir dessa distância, inferir a natureza da citação.
Sugiro trocar o formato Jupyter Notebook para um script Python que é muito melhor para versionamento e diffs.
Além disso, tem uma função no SciPy que calcula a K-L Divergence (e deve ser melhor otimizada que algo definido pelo usuário em NumPy): scipy.special.kl_div.
PS: faça alguns benchmarks %timeit com a sua função do NumPy versus o scipy.special.kl_div