dluobo Goto Github PK
Type: User
Type: User
多种分词器的封装,重点修改了原IK分词器和mmseg4j分词器,并适用于Lucene4.8、Solr4.8版本
Easily upload files (FTP / Multipart / Binary) in the background with progress indication notification
solr的ansj分词器,支持4.3以上
ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典
Ansj的Solr插件,支持1.2版本以上的Ansj分词和4.3版本以上的Solr
A curated list of awesome Java frameworks, libraries and software. Inspired by awesome-python.
Babylon.js: a complete JavaScript framework for building 3D games with HTML 5 and WebGL
Clone of the Ingex CVS repository on SourceForge
哔哩哔哩!~ 仿Bilibili iOS客户端
高仿Bilibili客户端 - ( ゜- ゜)つロ 乾杯~
个人博客小程序
中文相关词典和语料库。
将阿里云OSS对象存储挂载为Linux本地目录的工具软件; 是目前为止阿里云OSS最稳定、最快速、功能最强大的挂载软件。官方地址见http://git.oschina.net/weiweibaba2007/cloudfs
clover 1、开发server和client端 定时向zk集群发送心跳数据包,利用Java自带的timer程序实现该功能 2、开发整天的monitor程序,用来定时向zk中获取server和client端的心跳数据信息,如果超过指定时间没有收到最新的数据包,那么任务server端或者client端死掉了,此时要删除该server或client端节点,发邮件通知相关人员,记录异常日志到系统日志文件和MongoDB中 3、client端接受创建job请求,将job信息创建到client服务端,并根据job时间规则运行,并将任务信息存储到MongoDB中 4、当client端job运行时候,封装执行任务信息,发送到指定客户端机器,更新client端job执行时间和状态,如不在需要继续运行,那删除job并从MongoDB中删除相关任务信息 5、client端接受删除job请求,client服务端,立即执行删除job并将任务信息从MongoDB中删除 6、client端接受更新job请求,client服务端,立即执行删除job并创建新job,并将任务信息从MongoDB中删除,然后再存储新job信息 7、第一版 使用Netty做消息通讯中间件,存储消息放入Redis中,服务器开启Http请求,客户端 通过 发送Http请求到服务器来处理请求,由于任务太多 redis处理能力不行,放弃该方案 第二版 使用Netty RPC框架,自己开发一个Server端和Client,各种启动指定端口,由于 必须要求Server端和Client必须启动才能进行消息发送,所以感觉非常不灵活,因为放弃该方案 第三版 使用架构组推荐的rocketmq,通过使用发现,很严重问题,消息会重复发送,经常会收到重复的消息,在测试的时候发现,经常发生消息异常和报错,跟架构组刘婷峰沟通说,可能是机器性能不行了,他也不知道具体原因,感觉非常不靠谱,果断放弃 第四版 使用 zeromq,通过在网上查资料,对比各种mq后,发现zeromq是最轻量级,出现消息是最快的,经过测试完全能满足业务,果断使用 8、由于项目中使用zk,自己开发zk使用工具类,定制server端增删改查zk消息以及定制client端增删改查zk消息,功能测试zk,目前打算增加zk watch功能 9、开发server和client端 定时向zk集群发送心跳数据包,利用Java自带的timer程序实现该功能 10、开发整天的monitor程序,用来定时向zk中获取server和client端的心跳数据信息,如果超过指定时间没有收到最新的数据包,那么任务server端或者client端死掉了,此时要删除该server或client端节点,发邮件通知相关人员,记录异常日志到系统日志文件和MongoDB中 11、开发console控制台管理,可以查看任务动态运行状态和次数信息 12、zk管理页面,查看server和client端节点信息,更新和删除节点信息 13、job管理页面,查看job详细信息 14、联系人管理页面,增删改查联系人信息 15、log日志管理页面,根据系统报错记录的日志信息,在页面中可以详细查看
A cordova plugin to edit videos.
Java开源项目cws_evaluation:中文分词器分词效果评估
自动构建中文词库:http://www.matrix67.com/blog/archives/5044
基于Map/Reduce爬虫,可抽取各大新闻网站的新闻正文并进行分类和聚类
1. 主要分为三个模块,一个爬虫抓取模块,一个是数据处理模块,一个是用户模块。 2. 爬虫抓取模块主要是从直播吧、新浪体育、网易体育上爬取有关足球的新闻和用户关于足球的评论,利用集群HADOOP抓取网页,分析得出URL集,提取特征URL 3. 网页linux脚本过滤得到原始网页,然后二次过滤得到文本,并使用分布式储存。 4. 处理模块主要是根据训练集规则一和规则二,得到分词器,然后对文本进行操作,得出训练结果。 5. 通过特征脚本得到训练结果的特征词分类,然后提取出球队模糊集和球星模糊集。 6. 过滤得到球队精确集和球星精确集,并存入MYSQL数据库。 7. 从数据库中提取球星和球队的信息进行图表分析,并动态显示WIKI信息,调入显示模块中和用户进行交换
华南理工大学高英实验室进行的分布式爬虫项目,除了实验室内部人员外,不得私自传播.
DistributeCrawler的Maven版
A planning, control, and analysis toolbox for nonlinear dynamical systems. More info at
Elastic-Job is a distributed scheduled job framework, based on Quartz and Zookeeper.
Open Source, Distributed, RESTful Search Engine
elasticsearch中文发行版,针对中文集成了相关插件,并带有Demo,方便新手学习,或者在生产环境中直接使用
Use SQL to query Elasticsearch
Jquery WEB流程设计器
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.