Code Monkey home page Code Monkey logo

cail's People

Contributors

gzp9595 avatar hanxiao avatar haoxizhong avatar yuikns avatar zibuyu avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

cail's Issues

数据中存在的推理问题

您好,我在初步分析数据的过程中发现了以下问题:

  • 被害人高某乙受伤经医院抢救无效,于2014年4月9日17时许死亡。经鉴定,高某乙系创伤性、失血性休克死亡;王某甲所受之伤为轻伤一级;王某乙所受之伤为轻伤二级;李某所受之伤为轻微伤。公诉机关认为,被告人王某丁伙同王4某等人故意伤害他人身体,致一人死亡,二人受轻伤,一人受轻微伤,其行为触犯了《中华人民共和国刑法》××××,犯罪事实清楚,证据确实、充分,应当以××追究其刑事责任。王某丁在共同犯罪中其次起次要作用,是从犯,依法应当从轻、减轻或者免除处罚;其到案后如实公式供述自己的罪行,是坦白,依法可从轻处罚。根据《中华人民共和国刑事诉讼法》××的规定,特对被告人王某丁提起公诉。请依法判处。

  • 上海市公安局浦东分局出具的案发经过表格,证实被告某某的身份情况。"}××追究其刑事责任,系共同犯罪。被告人赵某犯罪时已满16周岁未满18周岁,根据《中华人民共和国刑法》××××的规定,属未成年人犯罪,应当从轻或者减轻处罚。

其中的从犯坦白,和未成年都会影响最后量刑的计算,在训练数据中这种重要的信息点会直接出现在文本中,那么请问在最终的测试数据中是否能保证这些点也是直接出现?还是在最终的测试数据中需要隐含推理出这些信息点呢?

这是一个很重要的问题,牵涉到方法需要设计的功能范围,请主办方尽快明确。

啥时候可以提交结果?

对于多个标签比如 ['[走私、贩卖、运输、制造]毒品'] 这种标签我们提交的时候需要变成这种格式吗?

对于涉及多同样法条无法训练的问题

在训练集中存在着多同样法条出现多次的问题,如:
"relevant_articles": [205, 205, 205]
"relevant_articles": [205, 205]

我理解是这个案例可能涉及205中多个子条目,但是所给数据没具体是指出是哪个子条目
导致就算205只有3个子条目,[205, 205]可能是3种不同的标签(即205A_205B 205B_205C 205A_205C)

此处是否会更新下数据?或者评测时全部只按一个205做评测?

label 问题

你还是没有理解我的意思:
accu 文件里面的label其中一个是这样的:组织、强迫、引诱、容留、介绍卖淫
而你们给我们的训练集的label是这样的:'[组织、强迫、引诱、容留、介绍]卖淫'
里面的两个"[]" 这东西 我们提交的时候是要呢 还是不要呢

上传大小限制可否加大

您好,既然要上传模型的话是否可以把限制设置得大一些? 深度模型保存下来200M肯定是不止的,而且不一定只有一个模型,可能是多模型。建议2GB以上。

添加依赖环境

您好,请添加依赖环境:
pytorch==0.4.0
pyltp==0.2.1
sklearn==0.19.1
allennlp==0.4.0

任务三的一个疑问? 请管理员解释一下

"term_of_imprisonment": {"death_penalty": true, "imprisonment": 12, "life_imprisonment": false}
"term_of_imprisonment": {"death_penalty": false, "imprisonment": 79, "life_imprisonment": true}

如上情况,我们是直接预测刑期呢,还是预测是否 死刑/无期?

其他环境需求

您好!
希望增加环境Keras,最好是最新版本,谢谢!

添加环境

您好:
能不能添加python-3.6.3,pytorch-0.3.0
谢谢

数据集

数据集可否提供meta文件夹?谢谢

关于比赛得分咨询

主办方你好,我是用户名为rjx的选手。我只做了罪名预测,通过训练train.json文件,去预测valid和test的准确率都在82%左右,上传显示预测准确率1.24,另外的法规是0.55,不知道是不是罪名序号文档不一致?
能否抽样100条评测数据,我想试一下准确率,谢谢!

是否会将三个任务评测部分的代码开源

其实主办方是否提供rnn/svm baseline倒不是很重要。反而,开源三个任务在evaluation时计算得分部分的代码很重要。虽然README.md中提供了计算公式,但不同人理解不同,有一份主办方写的evaluation还是比较保险一些。二是,如果evaluation代码中有什么不太合理的地方,开源后,大家也可以提交PR或讨论。

可能的数据泄露问题

你们使用的数据都是网上可以爬到的,如果有人拿爬到的全部数据训练模型,是否存在数据泄露的风险?因为最后第一第二总分可能只差一点点,那数据泄露导致的分数提高会不会在计算最终排名时起到决定性作用?建议计算最终得分不考虑初赛分数。

数据中存在错误罪名、法条的问题

您好,我在初步处理数据的过程中发现了如下问题:

  • 出现不应出现的罪名
    例如 data_train.json 中 38160 条
    {"fact": "济南市天桥区人民检察院指控:2014年12月30 日22时许,被告人左某某酒后驾驶小型轿车,由东向西行驶至济南市天桥区二环北路与济泺路交叉口处等信号灯时睡着,后被执勤民警查获。民警对被告人左某某进行酒精 呼气测试,含量为106mg/100ml。被告人左某某在抽取血样之前脱逃。本案刑事立案后,被告人左某某于2015年10 月12日接公安机关电话传唤到案。", "meta": {"relevan t_articles": [133], "accusation": ["危险驾驶", " 组织、强迫、引诱、容留、介绍]卖淫", "协助组织卖淫 " ], "punish_of_money": 0, "criminals": ["左某某"], "term_of_imprisonment": {"death_penalty": false, " imprisonment": 36, "life_imprisonment": false}}}
    这里只有酒驾,完全没有卖淫问题

  • 罪名数与法条数不符
    例如 data_train.json 36241行
    {"fact": "经审理查明,2015年10月23日17时许,被告人龚某饮酒后驾驶贵CFW908号二轮摩托车在仁怀市茅坝镇杨柳村青年塘组高干子(地名)路段与潘某驾驶的贵CGQ658 号二轮摩托车相接触后发生抓扯,公安民警对龚某进行呼出气体酒精含量检测,结果为190mg/100ml。经对龚某进行抽血检测,其血液中检出乙醇含量为142.67mg/100ml ,属于醉酒后驾驶机动车。另查明,被告人龚某曾因犯×× 罪和××罪于1997年4月29日被浙江省高级人民法院二审判处××,缓期二年执行,剥夺政治权利终身。经多次减刑后 ,浙江省杭州市中级人民法院于2012年4月6日以(2012)浙杭刑执字第3715号刑事裁定书裁定予以假释。假释考验 期:2012年4月16日至2015年12月24日。上述事实,有受案登记表、户籍证明、证人证言、检验报告、血样提取登记表、辨认笔录及照片、生效刑事判决书、刑事裁定书、假释证明书、查获经过、情况说明等证据证实,且被告人在开庭审理过程中亦无异议,足以认定。", "meta": {"relevant_articles": [133], "accusation": ["破坏电力设备", "危险驾驶", "盗窃"], "punish_of_money": 0, "criminals": ["龚某"], "term_of_imprisonment": {"d eath_penalty": false, "imprisonment": 44, "life_im prisonment": false}}}
    这里法条数目比罪名数目少,同时本法条完全不涉及盗窃和破坏电力设备的问题

  • 案件内容信息处理有问题
    例1: data_train.json 44208
    {"fact": "公诉机关指控,自2000年起,被告人张某某在珠海市斗门区井岸镇黄杨大道旁开始经营“养蜂场”,将生产的蜂蜜放在养蜂场门口进行散装销售。期间,张某某使用氯霉素、土霉素等喂养蜜蜂。2014年7月4日,珠海市工商行政管理局斗门分局和斗门区食品药品监督管理局联合对“养蜂场”进行检查,对张某某放在养蜂场门口销售的自产的6斤荔枝蜂蜜、12斤百花蜂蜜进行抽样检测。经珠海市出入境检验检疫技术中心检验,上述蜂蜜中含氯霉素, 不符合《中华人民共和国农业部公告第193号》的限量要求。2015年1月8日,被告人张某某被公安民警抓获归案。 针对以上指控的事实,公诉机关当庭宣读和出示了书证、 证人证言、被告人的供述与辩解、鉴定意见、扣押笔录等证据予以证实。公诉机关认为被告人张某某无视国法,违 反国家食品卫生管理规定,使用国家明令禁用的氯霉素饲养蜜蜂,致使其生产、销售的蜂蜜中含有氯霉素,其行为已经构成××罪,张某某在××考验期内犯新罪,依法应当撤销××,数罪并罚,提请本院依法判处。", "meta": {"relevant_articles": [144], "accusation": ["[生产、销售][有毒、有害]食品", "抢劫"], "punish_of_money": 7000, "criminals": ["张某某"], "term_of_imprisonment": {"death_penalty": false, "imprisonment": 30, "life_imprisonment": false}}}
    文本中对于 新罪 是什么完全没有提及,而在罪名预测中则出现了;同时法条中有没有出现
    例2 data_train.json 66021
    {"fact": "泸州市江1某区人民检察院指控:被告人杨某甲系泸州市凌峰通讯有限公司(以下简称凌峰公司)法定代表人。2006年,因凌峰公司与**联合通信有限公司泸州分公司(以下简称联通公司)发生合同纠纷,联通公司向泸州市江1某区人民法院(以下简称江1某法院)提起诉讼。2007年1月9日,根据联通公司的请求,江1某法院查封了凌峰公司 的1211台手机、冻结了凌峰公司的**建设银行泸州分行账户100万元。同月12日,因案外人提供房产担保,江1某法院查封了杨某甲、阮某某、徐某某、杨某乙、高某某等人的4套房产,同时解除了对凌峰公司的1211台手机的查封。之后 ,根据杨某甲的请求,江1某法院解除了对阮某某、徐某某、杨某乙、高某某等案外人所提供房产的查封,再次查封了 凌峰公司的1283台手机。其后,杨某甲继续销售上述已查封的手机,致使被查封的手机数量不断减少,货款未按要求提交法院。2008年5月,江1某法院作出(2007)江1某民初字第390号民事判决,判决凌峰公司支付联通公司707741.36元人民币。联通公司于该判决生效后向江1某法院申请强制执行,但被查封的1283台手机已全部灭失,该案至今无法执行。针对上述指控事实,公诉机关出示了书证,证人证言,被告人供述和辩解等证据,认为被告人杨某甲变卖已被司法机关查封的财产,情节严重,其行为已触犯《中华人民共和国刑法》××之规定,应当以非法处置查封、扣押、冻结的财产罪追究其刑事责任。诉请本院依法判处。", "meta": {"relevant_articles": [313], "accusation": ["拒不执行[判 决、裁定]"], "punish_of_money": 0, "criminals": ["杨某甲"], "term_of_imprisonment": {"death_penalty": fa lse, "imprisonment": 18, "life_imprisonment": false}}}
    文中出现的“应当以非法处置查封、扣押、冻结的财产罪”没做处理,也没在法条、罪名中出现

类似的问题还有很多,请主办方尽快清洗数据

添加第三方python包

您好,能否帮忙添加一下如下几个python包:
jieba 0.39 (中文分词)
pandas 0.22.0 (数据处理)
xgboost 0.71 (Gradient Boosting包)

label不一致问题

您好,那个任务一罪名预测是需要提交真实的罪名,而我发现训练集的label给的与你们给的罪名文件不太一样,
比如 accu文件中给定的是:组织、强迫、引诱、容留、介绍卖淫
而训练集的label给定的是:[组织、强迫、引诱、容留、介绍]卖淫
这样的话我们提交的结果该如何处理?

法条预测label重复出现的情况

如图

image

现有样本中存在同一法条重复存在的情况,比如 253这个法条在预测的label里出现了两次,实际预测的时候也要预测两次吗?我感觉是不是[253, 266]就足够了吧?

image

查看原始文书后,发现是由于原始文书涉及到了 253条不同款,出现了重复,所以标注数据中也出现了重复。

如何查看成绩

您好,请问已经提交的程序在哪里可以查看评分结果呢?

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.