Code Monkey home page Code Monkey logo

sentimentdictionaries's Introduction

金融领域中文情绪词典

在大数据时代,越来越多的金融学术研究开始关注上市公司年报、新闻媒体报道和投资者社交媒体发帖等文本中所包含的语调与情绪。情绪词典是测度和构建语调和情绪指标的基础。现有研究使用的情绪词典普遍存在一些问题,例如:使用通用型语言词典而非专业的金融情绪词典,可能导致关键金融情绪词遗漏;使用人工判别方法构建基于小样本的金融情绪词典,可能导致情绪词的判断标准不统一和小样本偏差;直接使用翻译后的英文金融情绪词典,可能导致无法捕捉不同语言类对同一种情绪的不同表达习惯;使用单一类文本样本构造的词典,可能导致无法同时适应正式的金融文件(如新闻、公告、年报等)表达和非正式的网络(如股吧、论坛等)表达这两大类文本中的相同情绪;等等。

本项目通过文本分析和机器学习的方式构建了金融领域中文情绪词典。本词典构建方法具有尽可能避免人工判断、来源于大样本、适用于中文文本表达等优势(详情见下面的参考文献)。本词典针对正式金融文本和社交媒体金融文本的用词差异,分为正式用语情绪词典和非正式用语情绪词典。其中正式用语情绪词典适用于公司年报等正式文本的语调分析,而非正式用语情绪词典则适用于社交媒体等非正式文本的情绪分析。读者如需使用本项目词典,请引用如下参考文献:

姚加权,冯绪,王赞钧,纪荣嵘,张维. 语调、情绪及市场影响:基于金融情绪词典. 管理科学学报,2021. 24(5), 26-46.

词典构建方法

(1)正式用语情绪词典构建

利用词典重组方法,在现有广泛使用词典的基础上提炼和构建了适用于金融领域正式文本研究的情绪词典。利用2003-2015年间所有**上市公司年报文本(共计19970份),结合Engelberg et al.(2012)的语调判断方法区分单个年报的正负面情绪。对三份现有通用型中文情绪词典和Loughran & McDonald(2011)情绪词典的中文翻译版进行词语整合,并加入年报语料的分词结果去重得到初始词典,然后运用带惩罚机制词频法提取情绪词生成正式用语情绪词典。

(2)非正式用语情绪词典构建

利用2011-2016年间雪球论坛用户发帖以及2010-2017年间东方财富网股吧发帖(共计8130多万条发帖),以8789条带有情绪识别符号的股票论坛发帖为训练集,结合长短期记忆模型(Long Short-Term Memory, LSTM)的深度学习算法,并运用带惩罚机制词频法生成了非正式用语情绪词典。

更多词典构建细节请参考论文。

参考文献

[1] 姚加权,冯绪,王赞钧,纪荣嵘,张维. 语调、情绪及市场影响:基于金融情绪词典. 管理科学学报,2021. 24(5), 26-46.

[2] Engelberg, J. E., A. V. Reed, and M. C. Ringgenberg. How Are Shorts Informed? Short Sellers, News, and Information Processing [J]. Journal of Financial Economics. 2012. 105(2), 260-278.

[3] Loughran, T., and B. McDonald. When Is A Liability Not A Liability? Textual Analysis, Dictionaries, and 10‐Ks [J]. Journal of Finance. 2011. 66(1), 35-65.

附录

部分正式用语情绪词汇:
负面
风险 亏损 违反 损害 舞弊 严重 约束 手段 坏帐 负担
越权 不道德 毁损 异常 谴责 严峻 委靡 困顿 失利 守旧
不健全 仿造 倒闭 侮辱 压制 冒进 刁难 危害 压迫 低迷
正面
平稳 崛起 精神 和谐 突出 合格 力争 透明 成熟 迅速
倾心 保密 清晰 积极性 严正 丰硕 乐观 从优 信誉 充实
不屈 威信 完备 创新 勇气 飙升 富余 干劲 庆祝 强悍
部分非正式用语情绪词汇:
负面
垃圾 下跌 回调 割肉 套牢 风险 减持 抛售 可悲 低迷
向下 跌破 无耻 狗屎 利空 困顿 可笑 跳空 倒霉 赔钱
烂股 小人 绝望 卑鄙 压制 不值 草包 担心 丢脸 烦心
正面
涨停 崛起 胜利 献花 发财 暴涨 战斗机 稳赚 过瘾 幸运
黑马 赚翻天 爽歪歪 止跌 恭喜 开心 舒服 漂亮 牛股 完美
赚大 期待 好样 创新 勇气 神奇 明智 成功 飙升 支持

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.