Code Monkey home page Code Monkey logo

chlyzzo.github.io's People

Watchers

 avatar  avatar

Forkers

dybgit

chlyzzo.github.io's Issues

Flink实践-实践过程问题集合 | 山上掏金

https://chloy.com/2017/06/09/Flink%E5%AE%9E%E8%B7%B5-%E5%AE%9E%E8%B7%B5%E8%BF%87%E7%A8%8B%E9%97%AE%E9%A2%98%E9%9B%86%E5%90%88/

1,dataset迪卡尔积计算,出现混乱, 首先,两个大的数据集不建议使用cross操作算子,不仅浪费资源,而且很满很慢. 然后,如果是从文件读取记录,一行一条记录,在broadcast下计算是正常的,flink的dataset是按照记录来计算的;然后,当这个dataset是从其他shuffle过程得到,比如join,造成混乱,再broadcast会造成数据紊乱,解决措施,设置并行度为1;

Flink学习 | 山上掏金

https://chloy.com/2017/05/19/flink%E5%AD%A6%E4%B9%A0/

讲述flink在实践中的一些经验,对入门级的有一定的认识;flink的窗口,提交运行的命令含义,参数传递,函数重新编写,向量计算,读取csv文件等;主要是一些实践的笔记,比较粗略,后续再考虑逐步细写下,分成更多的小点。 首先从统计单词出发,这个统计是实时接收socket的消息来统计的,需要一个窗口,这里设定为每隔5秒统计一次; 代码 12345678910111213141516171819202

spark-ml classify | 山上掏金

https://chloy.com/2017/10/26/spark-ml-classify/

spark-2.1版本后,提供了很多的机器学习模块,使得更方便去构建自己的模型。也新出了DataFrame数据存储结构—与结构化sql表的形式类似,让样本数据更容易操作,代码也更简洁。另外,不管是旧版本还是新版本,都提供了两种方式训练,pipeline类同于流方式训练,可以在离线和批处理时加快速度,但是存在应用时不好获取模型以及快速预测新样本不方便的缺陷,另一个方式是正常的读取样本进行训练,然后保

nlp--generate text document | 山上掏金

https://chloy.com/2018/01/12/nlp-generate-text-document/

分词隐马尔可夫,从字的状态中训练得到概率,可用于其他识别,如地名、人名等;条件随机场是搭配与提取用的有效方法;序列模型,RNN,LSTM是神经网络模型,从N-gram的不同序列中训练得到预测的概率,这里的预测可以是字、词、句子等;词性tags的分析,可引申出组块的抽取;句法和依存关系,类似于状态打标签,根据词的不同状态,得到依赖关系; 架构中除顶层红色外,都是已经上线在已有业务中的应用

通过python,java,spark,hive以post提交数据 | 山上掏金

https://chloy.com/2017/09/21/%E9%80%9A%E8%BF%87python%EF%BC%8Cjava%EF%BC%8Cspark%EF%BC%8Chive%E4%BB%A5post%E6%8F%90%E4%BA%A4%E6%95%B0%E6%8D%AE/

通过http形式提供服务,有两大类,一是get形式,请求服务;二是post形式,push消息得到服务,以下使用不同语言实现get和post数据形式,基础源自于java和python,scala则是通过调用java的方式实现,hive中也是,其中hive需要自定义udf。 get服务通过传入参数,发出请求,获取到数据, 1234567891011121314151617181920212223242

Flink在YARN上搭建 | 山上掏金

https://chloy.com/2017/06/02/flink%E5%9C%A8yarn%E4%B8%8A%E6%90%AD%E5%BB%BA/

翻译Flink官网文档,Flink在YARN集群提交job,调试,以及命令行提交格式。最后,是Flink与YARN的交互分析。文中会夹杂一些实践经验,读者可以参考或者进行实践,完善。 快速开始在YARN上启动一个长期的Flink集群启动一个拥有4个Task Manager的yarn会话,每个Task Manager有4gb的堆内存: 123456# 从flink下载页获取haddoop2包# ht

开始搭建-hexo-git-blog | 山上掏金

https://chloy.com/2017/05/01/hello-world/

从git起,使用hexo搭建自己的博客,git上传各种资料方便快捷,基于win7系统搭建。 安装软件1,安装git,确保在cmd下可以git –version出版本,关键配置好环境变量,这时git下会有三个终端,Git Bash,Git CMD,Git GUI,后续命令均在Git Bash下输入。 2,安装hexo,到官网下载自己合适的版本,安装方式根据官网例子。 配置1,在github上注册自己

Flink实践-第三方库hanlp | 山上掏金

https://chloy.com/2017/06/09/Flink%E5%AE%9E%E8%B7%B5-%E7%AC%AC%E4%B8%89%E6%96%B9%E5%BA%93hanlp/

本文讲述在Flink下使用hanlp包,一个文本分析开源工具,主要是分词,语法分词,依存分词,命名实体识别。本文将只讲分词的应用,其他应用可参考官网文档,自行实现。 Flink引入开源包Flink项目引入开源的方式,可以在本地项目中导入;或者在构建项目时把第三方包带上。这里以在sbt构建的项目中,引入第三方开源包hanlp为例,更多参考可见搭建项目。 12345678910111213141516

Flink实践-job打包 | 山上掏金

https://chloy.com/2017/06/09/Flink%E5%AE%9E%E8%B7%B5-job%E6%89%93%E5%8C%85/

讲述把一个Flink的job怎么打包提交到集群上运行,当然也可以在Eclipse本地运行。Flink本地运行不用像Spark那样需要设置本地为master,即setMaster(“local”),可以直接点击Run。 编辑一个简单的Flink程序当sbt eclipse运行成功后,用eclipse导入项目,在eclipse里看到生成的子项目。在这些字项目中我们可以随意添加程序,即想操作的job。

spark windows pragram | 山上掏金

https://chloy.com/2018/03/25/spark-windows-pragram/

开发一般在linux下开发方便些,然而在windows下有更多的工具可以使用,也更用户便捷性,因此,在windows下搭建配置开发环境很是必要,这里是工作中的一些经验总结,把环境配置在windows下,可以跑python、spark等程序。前后可能连接不顺畅,主要是想到哪里就记录下,另外也是一点一点积累。 安装git下载Git,在windows下生成自己的ssh_key,在目录下/c/Users/

ML-学习汇总笔记2 | 山上掏金

https://chloy.com/2015/02/20/ML-%E5%AD%A6%E4%B9%A0%E6%B1%87%E6%80%BB%E7%AC%94%E8%AE%B02/

感知器,一个线性的判别器,能够实现简单的逻辑运算,比如与非门等;更进一步,引入偏置bias,则在实践中体现便捷;当把感知器整合成神经元,进而通过链式的网络结构,把这些神经元连接,就得到了神经网络,然而神经网络并非如此简单,需要在每个神经元上加入激活函数,不加激活函数便成为完全的线性,与线性回归一致。 在激活函数的变换下,以及网络的结构,发展出很多不同类型的神经网络方法,解决各种不同领域的问题。 感

上海浦东新区公租房申请 | 山上掏金

https://chloy.com/2017/06/10/%E4%B8%8A%E6%B5%B7%E6%B5%A6%E4%B8%9C%E6%96%B0%E5%8C%BA%E5%85%AC%E7%A7%9F%E6%88%BF%E7%94%B3%E8%AF%B7/

在上海需要办理一些证的整理。 租房备案租房备案在办理落户和办理居住证需要,具体的办理流程如下:12345671,租房前与房东协商需要办理租房备案,需要房东的所出租房子的产权证、身份证,有些区需要房东本人和自己双方到场办理,有些区只需要房东方面的复印件即可,具体咨询所在区的事务中心;2,以上海市浦东新区潍坊新村事务中心(在潍坊路上)为例,可以房东不到场,但是,房东方面的资料:产权复印件、身份证复印件

nlp备份集合 | 山上掏金

https://chloy.com/2017/10/25/nlp%E5%A4%87%E4%BB%BD%E9%9B%86%E5%90%88/

自然语言处理(nlp)在内容中起着关键作用,以下是在学习和实践应用中涉及到的一些点,记录下方便查询和修缮,其中的缺陷或者不足欢迎邮件一起探讨研究,其中涉及的开源技术如需使用到,请遵照它们各自的开源技术协议。 nlp开端语言是文字的组织,从字、词、短语、句子、段落、摘要、篇章等粒度,组织后展现出来需要依照句法结构、依存关系等。 在中文语言处理中,不可或缺的是分词技术、抽取技术,其他的技术可以从此产生

nlp--generate text document | 山上掏金

https://chloy.com/2018/01/12/nlp-generate-text-document/

分词隐马尔可夫,从字的状态中训练得到概率,可用于其他识别,如地名、人名等;条件随机场是搭配与提取用的有效方法;序列模型,RNN,LSTM是神经网络模型,从N-gram的不同序列中训练得到预测的概率,这里的预测可以是字、词、句子等;词性tags的分析,可引申出组块的抽取;句法和依存关系,类似于状态打标签,根据词的不同状态,得到依赖关系; 架构中除顶层红色外,都是已经上线在已有业务中的应用

Flink实践-读取kafka | 山上掏金

https://chloy.com/2017/06/09/Flink%E5%AE%9E%E8%B7%B5-%E8%AF%BB%E5%8F%96kafka/

讲述Flink读取kafka下topic的消息,并进行处理。 kafka简介分布式消息系统Apache Kafka ,在实际生产中常作为消息传递的工具,其稳定,高并发,接受多个数据源,并可保存数据(自定义数据的周期),在消费端,可以做到相互独立,基于数据的处理工具,可保证数据的有序性。 kafka消费数据以组为单位,一个组里可有多个消费者或消费实例,共享groupId,组内所有消费者一起消费top

Flink实践-搭建Flink项目 | 山上掏金

https://chloy.com/2017/06/09/Flink%E5%AE%9E%E8%B7%B5-%E6%90%AD%E5%BB%BAFlink%E9%A1%B9%E7%9B%AE/

讲述怎么搭建一个Flink的项目,一开始怎么安装环境。开始Flink开发之旅。 准备需要下载的文件有sbt,Eclipse,以及插件的网址。 sbt设置sbt的作用与maven一样,这里不做讲述,可以从sbt官网获取更多信息。下面讲述怎么安装sbt,以及验证sbt安装成功与否。 首先,必须确保开发环境的版本一致,由于开发环境涉及其他开源框架,这里统一采用了sbt-0.13.6版本。下载sbt-la

tensorflow学习-word2vec | 山上掏金

https://chloy.com/2017/09/28/tensorflow%E5%AD%A6%E4%B9%A0-word2vec/

tensorflow学习笔记系列原始内容,可从CS 20SI: Tensorflow for Deep Learning Research。另还有几本关于tensorflow的书籍,比如tensorflow实战,tensorflow解析等。感谢把知识分享出来的各位大牛。 word2vec词转成向量的好处是可以把抽象的词数字化,从而在模型(数学公式)中可应用;word2vec是一种词嵌入编码,与之相

tensorflow-卷积 | 山上掏金

https://chloy.com/2017/10/10/tensorflow-%E5%8D%B7%E7%A7%AF/

卷积解决重要的事情是,可以自动组织高阶特征,而不用其他辅助工具来构造高阶或衍生特征。另外,卷积的另一个贡献是,能够大量减少参数,因为卷积核可以共享参数。 卷积与视觉神经元雷同,每个神经元只处理一小块视觉图像, 卷积的操作假设1000*1000的图片,则有100万个像素点,做全连接操作,123456789101112131,常规全连接 input

hive笛卡尔积优化 | 山上掏金

https://chloy.com/2017/05/18/hive%E7%AC%9B%E5%8D%A1%E5%B0%94%E7%A7%AF%E4%BC%98%E5%8C%96/

hive的笛卡尔积hive中默认不使用笛卡尔积,需要开启才能运行,hive不建议运行笛卡尔积,但是,在实践过程中,难免需要使用到,这时就得开启该功能;然后,hive中做笛卡尔积的结果就是最后的数据运算都集中在一个reduce上,亲测确实如此。那么,该怎么优化呢? 优化历程笛卡尔积计算需要把数据全部遍历一遍才行,使用笛卡尔积理论上数据需要保存进内存,如果有多个任务运行,那么就得把数据复制多份,然而实

慢慢长大 | 山上掏金

https://chloy.com/2017/12/24/%E6%85%A2%E6%85%A2%E9%95%BF%E5%A4%A7/

平躺着睡觉会出现身体想翻身或手或脚动一下,很清晰地知道脑子里发出了正确了指令,传到脚或手却突然失去动力,指令瞬间弥散,脑子里不断重复手动下,脚动下,然而却一点动静也没有。感觉脚和手被千斤压住。反复,反复,反复,终于动了下,才发现并没有被压住,脑子发出的指令也是正确的, 原来我是个正常人。 既然知道是正常的,一次指令不对,何不等会,等待时机,等待现象消散,再发出指令,免得陷入怀疑泥潭,当第一次不能手

NLP 18年规划 | 山上掏金

https://chloy.com/2018/02/27/NLP-18%E5%B9%B4%E8%A7%84%E5%88%92/

内容在17年经过头条的爆发后,内容在18年将是个风口;各大互联生态拉新用户的手段已经接近黔驴技穷了,在传统上无法指数增长用户,留下两条路径:一是收购其他平台,补充用户;而是做好已有的用户留存率。而内容平台就是其中之一。 各个公司在AI的应用都瞄准精简人力,客服、问答、审核等密集型业务;在推荐、连接等意图型业务中也在不断优化提升。 在过去的一年时光里,从推荐开始,慢慢接收文本类业务,单页的推荐资讯

NLP 18年规划 | 山上掏金

https://chloy.com/2018/02/27/NLP-18%E5%B9%B4%E8%A7%84%E5%88%92/

内容在17年经过头条的爆发后,内容在18年将是个风口;各大互联生态拉新用户的手段已经接近黔驴技穷了,在传统上无法指数增长用户,留下两条路径:一是收购其他平台,补充用户;而是做好已有的用户留存率。而内容平台就是其中之一。 各个公司在AI的应用都瞄准精简人力,客服、问答、审核等密集型业务;在推荐、连接等意图型业务中也在不断优化提升。 在过去的一年时光里,从推荐开始,慢慢接收文本类业务,单页的推荐资讯

Flink实践-读取HDFS | 山上掏金

https://chloy.com/2017/06/09/Flink%E5%AE%9E%E8%B7%B5-%E8%AF%BB%E5%8F%96HDFS/

讲述Flink读取、写入hdfs文件。 hdfs简介hdfs(Hadoop Distributed File System),Hadoop的分布式文件系统,由google开源实现的。存储文件大,容错性能高,是当前集群环境下文件存储的必备系统,许多计算框架都用此。具体可参考google的开源论文,详解其中架构。 Flink操作hdfsFlink是分布式计算框架,可以从hdfs操作文件。Flink对h

tensorflow学习-word2vec | 山上掏金

https://chloy.com/2017/09/28/tensorflow%E5%AD%A6%E4%B9%A0-word2vec/

tensorflow学习笔记系列原始内容,可从CS 20SI: Tensorflow for Deep Learning Research。另还有几本关于tensorflow的书籍,比如tensorflow实战,tensorflow解析等。感谢把知识分享出来的各位大牛。 word2vec词转成向量的好处是可以把抽象的词数字化,从而在模型(数学公式)中可应用;word2vec是一种词嵌入编码,与之相

从哪来 | 山上掏金

https://chloy.com/about/

是谁,who is?一个放浪形骸,一个码着代码哼着歌,一个火影、海贼、龙珠迷,看山看水看美景,。。。。。。。。。。。。。。。。 走过的足迹:2016-07,在校学生生涯告别,进入58房产事业群-高级数据挖掘工程师,负责业务: - 1,房源推荐,二手房和海外,协同过滤+相似计算+历史记录推测用户感兴趣房源 - 2,问答,问题和关键词推荐+排序+问题生成+相关性计算+预估用户买房阶段推相关百科 - 3

tensorflow学习笔记-基础 | 山上掏金

https://chloy.com/2017/09/17/tensorflow%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0-%E5%9F%BA%E7%A1%80/

tensorflow学习笔记系列原始内容,可从CS 20SI: Tensorflow for Deep Learning Research。另还有几本关于tensorflow的书籍,比如tensorflow实战,tensorflow解析等。感谢把知识分享出来的各位大牛。 最初的话tensorflow是一个深度学习开源库,大多学习深度学习,会建议从tensorflow的官方文档开始学习,当然可以看一

读大清相国见解 | 山上掏金

https://chloy.com/2018/05/25/%E8%AF%BB%E5%A4%A7%E6%B8%85%E7%9B%B8%E5%9B%BD%E8%A7%81%E8%A7%A3/

不读书不知见识低,闭门造车太孤陋寡闻,购买了好几本数最近抽时间看了些,都是在书上写了笔记,发现看到后头再回顾前面写的笔记缺回想不起来,因此,是该写详细点。 大清相国讲述了陈廷敬从科考到入朝为官的事迹,从一开始的乡试,因参与其他学子的游街示威被关牢房,最后因为卫大人在朝堂的代笔写悔书才释放,后来进京赶考,又听得一些丑闻,一是自己好友张妍买了作弊砚台,而是听得贿赂主考官的人员,当被察觉时躲进了李老先生

tensorflow学习-回归 | 山上掏金

https://chloy.com/2017/09/17/tensorflow%E5%AD%A6%E4%B9%A0-%E5%9B%9E%E5%BD%92/

tensorflow学习笔记系列原始内容,可从CS 20SI: Tensorflow for Deep Learning Research。另还有几本关于tensorflow的书籍,比如tensorflow实战,tensorflow解析等。感谢把知识分享出来的各位大牛。 回归在机器学习或者人工智能下,回归即是拟合(浅显的讲),最简单的例子是在二维空间里对散点进行直线(曲线)拟合。拓展开讲,回归解决

慢慢长大 | 山上掏金

https://chloy.com/2017/12/24/%E6%85%A2%E6%85%A2%E9%95%BF%E5%A4%A7/

平躺着睡觉会出现身体想翻身或手或脚动一下,很清晰地知道脑子里发出了正确了指令,传到脚或手却突然失去动力,指令瞬间弥散,脑子里不断重复手动下,脚动下,然而却一点动静也没有。感觉脚和手被千斤压住。反复,反复,反复,终于动了下,才发现并没有被压住,脑子发出的指令也是正确的, 原来我是个正常人。 既然知道是正常的,一次指令不对,何不等会,等待时机,等待现象消散,再发出指令,免得陷入怀疑泥潭,当第一次不能手

ML-学习汇总笔记 | 山上掏金

https://chloy.com/2014/12/30/ML-%E5%AD%A6%E4%B9%A0%E6%B1%87%E6%80%BB%E7%AC%94%E8%AE%B0/

机器学习是从大量样本中训练,依照评估指标,不断优化得到自动评判新数据的策略;如果有标签,可分为有监督学习,以及无监督学习;根据目标的离散与否,分为回归分析还是分类分析;依照模型的复杂度,可有集成学习、深度学习等。通过学习ML的方法,可以了解方法的原理、适用范围、以及实践经验等。以下是学习过程的一些记录,基础学习可参加对应的论文和书籍。 线性回归属于回归分析,预测连续性目标,梯度方向寻找最优参数;特

推荐的一些事 | 山上掏金

https://chloy.com/2018/03/03/%E6%8E%A8%E8%8D%90%E7%9A%84%E4%B8%80%E4%BA%9B%E4%BA%8B/

不经意间看到一个关于推荐的讨论视频,点进去看发现讲的还不错,对推荐的一些概念、实践经验、优化的前沿点谈了些,算是干货不错。以免忘掉,顺便记录下,也加一些自己的些许坑吧。 什么是推荐用户与商品之间的联系,分两个层面,对用户是找用户感兴趣的商品;对商品而言,是找相似的商品(在广告领域,还需找对商品感兴趣的人)。总之,是给用户和商品之间建立联系。 用户痛点现在报纸、新闻联播看的人少,手机上看推送的信息越

两年间一点事 | 山上掏金

https://chloy.com/2018/05/19/%E4%B8%A4%E5%B9%B4%E9%97%B4%E4%B8%80%E7%82%B9%E4%BA%8B/

一瞬间已过去两年,两年间历经许多事,不论是工作上,还是生活上,起起伏伏、恍恍惚惚,这就是人生:充满跌宕、充满挑战、充满未知,显得不平淡。趁下雨天,写点什么,一可以度过听雨时间,二是总该记录点什么,免得想找却不知在哪个文件夹。 两年间,从最初的简单资讯推荐开始,慢慢开始独立承担,安居头条、实勘、房源推荐、海外、集客家、问答、有料、举报和担保、虚假房源、房源聚合、生成文本、Flink研究、信息治理等,

Flink实践-新增job-批处理 | 山上掏金

https://chloy.com/2017/06/09/Flink%E5%AE%9E%E8%B7%B5-%E6%96%B0%E5%A2%9Ejob-%E6%89%B9%E5%A4%84%E7%90%86/

本文讲述在Flink下怎么实现批处理操作,以计算文档的TF-IDF向量为例子。 批处理Flink下批处理用的数据类型是DataSet,按照一条一条记录存储,可以在多个分区上。Flink操作算子分为不打乱数据的分区和打乱数据分区两种;像map,flatmap这样单条执行的不打乱原有数据分区;而像groupBy,join等,会出现数据的新分区。 Rich 函数Flink下可拓展的函数,并且可以与环境相

Flink实践-读取hbase | 山上掏金

https://chloy.com/2017/06/09/Flink%E5%AE%9E%E8%B7%B5-%E8%AF%BB%E5%8F%96hbase/

讲述Flink操作hbase,非结构化数据存储。 hbase简介Apache Hbase,大数据下不可不提的一个存储数据库,可能有些用redis,mongdb等,但是Hbase作为非结构化的数据库,可以存储多个版本数据,列族和列的设计,让大量数据的存储成为可能,非常适合存储大量数据,有些非结构化数据。并且在实践中,能够支撑起高吞吐量。 hbase的设计是可不删除数据数据的,更新数据也必须整条更新(

Flink实践-读取rabbitMQ | 山上掏金

https://chloy.com/2017/06/09/Flink%E5%AE%9E%E8%B7%B5-%E8%AF%BB%E5%8F%96rabbitMQ/

讲述Flink消费RabbitMQ消息,并进行处理。 RabbitMQRabbitMQ另一种消息发送系统,与kafka类似,但有差别。kafka的消息可以有保存期限,rabbitMQ的消息一般在消费后就焚毁。另外,rabbitMQ的消息有一个唯一id,而kafka则是靠offset来标记数据。 Flink消费rabbitMQ消息与读取kafka的topic相同,也需要配置一些数据,但是,更严,需要

tensorflow-卷积 | 山上掏金

https://chloy.com/2017/10/10/tensorflow-%E5%8D%B7%E7%A7%AF/

卷积解决重要的事情是,可以自动组织高阶特征,而不用其他辅助工具来构造高阶或衍生特征。另外,卷积的另一个贡献是,能够大量减少参数,因为卷积核可以共享参数。 卷积与视觉神经元雷同,每个神经元只处理一小块视觉图像, 卷积的操作假设1000*1000的图片,则有100万个像素点,做全连接操作,123456789101112131,常规全连接 input

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.