Code Monkey home page Code Monkey logo

blog's People

Contributors

zengbin93 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar

blog's Issues

笔记 - 数据思维的养成

数据思维的本质是对数据足够敏感,能够及时捕捉到数据中潜在的信息。

数据思维和数据处理能力是并重的,仅仅依靠观察和思考,无法快速有效的发现价值信息;如果借助一些数据处理的手段,就能够提高数据分析效率,并快速验证自己的猜想。

数据思维的另一方面是发现数据和融合数据,寻找数据之间的联系。

微软郑宇:这个时代不缺数据,缺的是开放的思维

机器学习 - 聚类算法 - 学习笔记

聚类算法和分类算法的最主要区别是:聚类算法可以使用没有标签的数据;分类算法通常都需要数据带标签。

这里,主要介绍几类实践中常用的聚类算法及其使用方法。

几个基本概念

  • 聚类(clustering)试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇(cluster)。

  • 优质聚类结果的簇内相似度(intra-cluster similarity)高且簇间相似度(inter-cluster similarity)低。

  • 原型聚类(prototype-based clustering):假设聚类结构能够通过一组原型刻画,通常是先对原型进行初始化,然后对原型进行迭代更新求解。

  • 密度聚类(density-based clustering):假设类簇结构能够通过样本分布的紧密程度确定。 通常,密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展类簇以获得最终的聚类结果。

参考资料

实践 - Tornado框架

Tornado是python下的一个web框架和异步网络库,它使用非阻塞式的网络I/O,支持数万个连接,适用于long polling、WebSockets等需要保持用户长时间连接的场景

通常,Tornada的代码不是线程安全的。Tornado运行在linux系统上性能最好,windows和Mac OS上仅适合做开发。

参考资料

Mooc学习笔记 - 行为经济学 - 北京大学 - 孟娟娟

你有没有想要存钱却还是忍不住拼命剁手? 为什么你明知某个股票亏钱了且可能一直亏下去,就是无法割肉卖掉?行为经济学是一门把心理学X经济学跨界结合,研究人的心理因素如何影响经济行为的前沿学科。它能帮助你认识并改正自己存在的思维缺陷,在生活与工作中更好的进行决策。

读书摘记 - 《清醒思考的艺术》(Rolf Dobelli, PhD)

image

内容简介

本书的作者罗尔夫•多贝里讲到自己曾与一名美国友人分享发现——小概率事件往往具有颠覆全局的破坏力。这个美国人后来据此写了一本书成为大畅销书,此书就是《黑天鹅》,那个美国人叫纳西姆•塔勒布。于是,多贝里决定自己写一本书,这就是在德国率先超越《乔布斯传》登上畅销书排行榜榜首的本书。

人是生而自由的,却无往不在枷锁之中。用这句话来描述人类为思维错误所累的情形,也十分恰当精到。思维错误、认知陷阱就像是伴生于人类,细追究起来无处不在,不经意之时又无迹可寻。难道人们注定就要戴着无形的“有色眼镜”看世界吗?不,人们可以思考自己的思考,拒绝思考被污染。

作者博览群书,以显微镜般的观察发现人们常犯的思维错误,并一一列出。当明白了错误的思维是如何发生后,人们就有可能远离思维陷阱。如果说成功者与失败者之间的差距在于思维方式,那么,熟知了思考方式的隐形陷阱,人们就会犯错更少,从而离成功更近。

作者既有锐利的观察,又有出色的讲故事能力。他引用生活趣事、名人轶事、历史故事、爱情关系、人际关系、投资之道、心理实验等论述,生动形象而又具体雄辩地指出思维之错的错在哪里,并且还给出了纠正的办法。人性的弱点在《书》中完全呈现,是在自己的反思中进步,还是抓住别人的弱点进攻,全在于读者自己的理解和决定。

来自豆瓣: https://book.douban.com/subject/20492550/

目录

1 幸存偏误 为什么你该去逛逛墓地
2 游泳选手身材错觉 哈佛是好大学还是烂大学?我们不清楚
3 过度自信效应 你为什么会系统性地高估自己的学识和能力
4 从众心理 就算有数百万人声称某件蠢事是对的, 这件蠢事也不会因此成为聪明之举
5 纠缠于沉没成本 你为什么应该忽视过去
6 互惠偏误 你为什么不该让别人请你喝饮料
7 确认偏误之一 遇到“特殊情况”这个词,你要格外小心
8 确认偏误之二 干掉你的宠儿
9 权威偏误 你为什么该藐视权威
10 对比效应 你为什么最好别找模特儿等级的朋友一起出门
11 现成偏误 你为什么宁可用一张错误的地图,也不愿没有地图
12 “在好转之前会先恶化”的陷阱 如果有人建议你选择一条“先经历痛苦的 道路”,你应该敲响警钟
13 故事偏误 为什么就连真实的故事也是骗局
14 事后诸葛亮偏误 你为什么应该写日记
15 司机的知识 你为什么不可以把新闻播音员说的话当真
16 控制错觉 你实际控制的少于你以为的
17 激励过敏倾向 你为什么不该按实际开销付钱给你的律师
18 回归均值 医生、顾问、教练及心理治疗师的作用令人怀疑
19 公地悲剧 为什么理性的人不去诉诸理性
20 结果偏误 切勿以结果判断决定
21 选择的悖论 为什么更多反而是更少
22 讨喜偏误 你行为不理性,是因为你想讨别人喜欢
23 禀赋效应 请不要死抱着某种东西不放
24 奇迹 不可能事件的必然性
25 团体迷思 共识为什么有可能是危险的
26 忽视概率偏误 累计奖金为什么会越来越多
27 零风险偏误 你为什么会为零风险支付过多
28 稀少性谬误 为什么饼干越少越好吃
29 忽视基本概率 当你在怀俄明州听到马蹄声、见到黑白条纹时……
30 赌徒谬误 为什么没有一种平衡命运的力量
31 锚定效应 数字轮盘如何搞得我们晕头转向
32 归纳法 如何把别人的钱弄进自己的口袋
33 规避损失 为什么凶恶的面孔比友善的面孔更容易引起我们注意
34 社会性懈怠 团队为什么会使人懒惰
35 指数增长 一张对折的纸为什么会超出我们的想象
36 赢家的诅咒 你愿意为100欧元支付多少钱?
37 基本特征谬误 千万别问一位作家他的小说是不是自传
38 错误的因果关系 你为什么不该相信仙鹤送子
39 光环效应 长相好的人为什么容易事业有成
40 替代途径 恭喜你赢了俄罗斯轮盘赌
41 预测的错觉 水晶球如何歪曲了你的目光
42 关联谬误 有说服力的故事为什么会误导人
43 框架效应 言为心声
44 行动偏误 为什么不行动光等待是种痛苦
45 不作为偏误 为什么你不是答案就是问题
46 自利偏误 你为什么从不自责
47 享乐适应症 你为什么应该缩短上班路程
48 自我选择偏误 请不要惊讶有你存在
49 联想偏误 为什么经验有时让人变蠢
50 新手的运气 假如开始时一切顺利,请务必多加小心
51 认知失调 你如何撒点小谎,让自己感觉好一些
52 双曲贴现 及时行乐——但请只限于星期天

笔记 - 东邪西毒终极版

字幕摘记

中英字幕 - 东邪西毒终极版.Ashes.Of.Time.Redux.2008.txt

Ashes of time redux - 2008

  • 今年因为五黄临太岁周围都有旱灾;有旱灾的地方就有麻烦;有麻烦 我就有生意。

  • 人最大的烦恼就是记性太好。

  • 你这种年青人我见的多了,懂一点武功就以为可以横行天下,其实行走江湖是一件很痛苦的事,会武功 有很多事不能做。

  • 我不敢说我这位朋友武功比他们都好,我现在跟你们说的,是你们一家大小二十多条人命的安全,至少在这方面,你们该信一个穿鞋的人,是不是?

  • 通常拿了钱看也不看就收起来的人,他们的钱很快就会花光,但洪七他数得很仔细,这种人,我知道不会留在我身边太久。

  • 别以为要欺骗一个女人是很容易的事,越是单纯的女人就越直接。

  • 每个人都会为一些东西而坚持,其他人会觉得是浪费时间,但对这个人来讲却很重要。

  • 每个人都会经过这个阶段,见到一座山就想知道山后面是什么,我很想告诉他,可能翻过去你会发觉没什么特别,再翻过来,会觉得这边更好。但我知道他不会听。

  • 为什么要到失去的时候才去争取。

  • 以前我认为那句话很重要,因为我觉得有些话说出来 就是一生一世,但是现在想一想,其实说不说也没有什么分别。因为有些事会变的。

  • 可能因为是孤儿,我很小就懂得应该怎样去保护自己,我知道 如果你不想被人拒绝,最好的方法 就是先拒绝别人。

  • 你越想知道自己是不是忘记的时候,你反而记得更加清楚。我曾经听人说过,当你不能够再拥有的时候 你唯一可以做的,就是令自己不要忘记。

笔记 - Python - 源码阅读笔记

读源码是提升编码水平的捷径。 我很喜欢读一些优秀项目的源码,遇到的好的写法,在这里做个记录,备查。

笔记 - 关键词提取算法

关键词是指能反映文本主题或者主要内容的词语。关键词提取是NLP领域的一个重要的子任务。在信息检索中,准确的关键词提取可以大幅提升效率;在对话系统中,机器可以通过关键词来理解用户意图;在文本分类中,关键词的发现也非常有帮助。

关键词提取的方法主要有:TF-IDF、TextRank、Rake、Topic-Model等。

笔记 - 相似度计算

相似度计算方法汇总

常用的相似性计算方法有:1)欧式距离(Euclidean Distance); 2)曼哈顿距离(Manhattan Distance); 3)闵式距离(Minkowski Distance); 4)余弦距离; 5)动态时间规整(DTW);

import numpy as np

vector1 = [8.92, 8.71, 8.77, 8.75, 8.74, 8.71, 8.66, 8.71, 8.74, 8.8, 8.8, 
           8.79, 8.64, 8.56, 8.56, 8.43, 8.38, 8.42]
vector2 = [32.99, 32.27, 32.16, 31.93, 32.8, 33.16, 32.59, 32.61, 29.35, 
           28.41, 27.85, 28.62, 28.62, 29.35, 30.14, 29.34, 28.88, 29.05]

# vector1 = [1, 1, 1, 1]
# vector2 = [1, 1, 1, 1]
def euclidean_distant(vector1, vector2):
    """欧式距离"""
    vector1 = np.mat(vector1)
    vector2 = np.mat(vector2)
    return np.sqrt((vector1-vector2)*((vector1-vector2).T)).item()
 
print(euclidean_distant(vector1, vector2))
93.19353786609885
def manhattan_distant(vector1, vector2):
    """曼哈顿距离"""
    vector1 = np.mat(vector1)
    vector2 = np.mat(vector2)
    return np.sum(np.abs(vector1-vector2))

print(manhattan_distant(vector1, vector2))
394.03
def cosine_distant(vector1, vector2):
    """余弦距离"""
    vector1 = np.mat(vector1)
    vector2 = np.mat(vector2)
    vector1_norm = np.linalg.norm(vector1)
    vector2_norm = np.linalg.norm(vector2)
    dot_norm = vector1_norm * vector2_norm
    dot_vs = np.dot(vector1, vector2)
    return np.divide(dot_vs, dot_norm).item()

print(cosine_distant(vector1, vector2))    
0.9983665339530308

from sklearn.metrics.pairwise import cosine_similarity

读书摘记 - 《巴菲特之道》 (Robert G. Hagstrom) 杨天南译

豆瓣: https://book.douban.com/subject/26335181/

这本书中总结的四大类12条投资准则,系统勾勒出巴菲特投资方法的框架。

内容简介

在历经六十载栉风沐雨的航行中,沃伦·巴菲特在投资的海洋中遭遇过无数挑战,却依然继续演绎着他无与伦比的成功。他谦逊、正直、智慧的品质赢得了世界各地千万人的爱戴,并点燃了人们对于他如何投资成功的强烈好奇。这就是为什么罗伯特·哈格斯特朗相隔十年之后,再次完成《巴菲特之道》第3版的原因。

伴随着巴菲特的个人经历和职业历程,这本书还介绍了很多重要人物,从本杰明·格雷厄姆到菲利普·费雪,再到查理·芒格,他们影响了巴菲特的投资观。

哈格斯特朗将巴菲特的投资方法进行了分解,并演示了为何巴菲特的方法“并未超出任何人的能力范围”。通过本书,你将了解巴菲特如何挑选股票以及购买企业,这二者实际上都建立在同样的模式下,其中的行为秘籍被解码为十二个投资准则。

通过书中的第一手资料,你会了解伯克希尔-哈撒韦公司如何运用这些投资准则进行企业并购。在学习了如何进行理性决策之后,书中还展示了为什么巴菲特认为集中投资极大地简化了投资组合管理的任务。从中,你还能获知巴菲特如何处理投资管理中遇到的心理挑战,以及在长期投资中耐心所扮演的角色。

读者还可以从网站www.thewarrenbuffettway.com中获得相关知识,包括巴菲特分析股票时常用的估值工具。

沃伦·巴菲特管理投资的方法已经跨越了六十年,将他的投资准则融入你的思维和投资行动,这或许不能让你成为亿万富翁,但一定会改进并提高你的长期投资水平,你将成为更好的投资者。

实践 - 爬虫

对于搞数据的人来说,爬虫真的是基本功。Python非常适合用来写爬虫! 当然,其他的语言几乎都可以写爬虫。

笔记 - 自然语言处理 - 基础知识

自然语言处理(natural language processing,NLP)在很大程度上与计算语言学(computational linguistics,CL)重合。

NLP领域的主要研究内容有:

  • 分词

  • 词性标注

  • 语义分析 - Sentiment Analysis

  • 依存分析

  • 命名实体识别 - Named Entity Recognition

  • 文本分类

  • 文本意图分类/识别

  • 主题识别

  • 对话系统

  • 知识图谱

  • ...

  • NLP研究进展追踪:https://github.com/sebastianruder/NLP-progress

笔记 - 我的知识标签体系

知识标签体系能够很好的完成系统化的任务,这是我的一次尝试,希望能够理清自己的知识树,以便查缺补漏。

笔记 - 自然语言处理 - 文献摘记

自然语言处理(Natural Language Processing, NLP)非常有意思!互联网上最不缺乏的就是文本数据了,如何处理这些数据来获取有价值的信息,这是一个非常值得探索的领域。

在这个Issues下面,我主要记录一些阅读过还不错的文献,做点摘记。

笔记 - 研究生毕业课题 - 深度学习在化学中的应用

化学是一门古老的学科,深度神经网络则刚刚兴起,二者组合带来的改变会是什么?

国内外研究学者已经将神经网络应用在一些化学问题的处理中,如:化合物结构与性质的定量关系研究、有机反应产物预测、化合物属性预测等。

实践 - Python - 项目开发

以我一个新手的理解,python中一个项目开发涉及的内容主要有:1)项目结构搭建;2)自动化doc文档生成;3)命令行工具制作(视情况而定);4)打包发布,或直接部署。

笔记 - PyTorch学习

PyTorch is a deep learning framework for fast, flexible experimentation. Tensors and Dynamic neural networks in Python with strong GPU acceleration.

笔记 - Hadoop基础

Hadoop是一个用于存储和处理大型数据的分布式框架,主要包含两个模块:1)MapReduce,数据处理框架,能够在集群中使用;2)Hadoop Distributed File System(HDFS),分布式文件系统,容错性能强。

参考资料

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.