Code Monkey home page Code Monkey logo

html--'s Introduction

HTML提取

从银行征信html中提取有价值的信息(姓名、身份证号、电话和城市)

ToDoList

  • 自动生成xls表格文件(已完成,使用pyExcelerator模块)
  • 代码重构
  • 提取doc、pdf等多种格式文件中的信息
  • 自动锁单

ChangeLog

  • version5:

    • 自动生成xls表格文件
  • version1~version4:

    • 完成基本功能;
    • 增加将信息提取出文件的功能;
    • 增加提取目录里所有文件夹所有文件的功能;
    • 增加删除空白目录的功能;
    • 增加将所有文件放到一个文件夹的功能
    • 增加命令行模式

How to Use

  • 安装有Python
    • 将html.py文件复制到html文件的根目录里,运行即可
  • 编译成exe
    • 在当前目录,命令行运行 python setup.py py2exe。需要安装py2exe模块

##Result

运行结束后会产生一系列文件夹和文件,分别是:

  • 分类结果文件夹:里面包含分类成功后文件,默认按照地级市分离,如果有命令行指令则按照命令行指令分离
  • 未提取文件夹:包含所有不在分类结果里的文件
  • 集合文件夹:将所有文件夹里的html文件移动到一起
  • result.txt文件:以逗号分隔,可以当成.csv文件导入,也可以直接导入,选择分隔符为,并设置每一列都是文本即可
  • result.xls文件:使用pyExcelerator自动生成的电子表格。

Note

  • 软件将会忽视所有路径带有分类结果 未提取 集合 的文件。
  • 只应用于htmlhtm文件
  • 多次运行result.txtresult.xls是会被覆盖的,注意做好备份
  • 集合内的文件是移动过去的,其他文件夹里的文件是复制过去的。
  • html文件应该是名字[-*]18位身份证号.htm[l]这种格式的

Reference

html--'s People

Contributors

zyeoman avatar

Stargazers

 avatar

Watchers

 avatar  avatar  avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.