Code Monkey home page Code Monkey logo

gscan's Introduction

简介

使用Golang编写高性能网站爬虫、内容分析工具

本项目只是本人个人学习开发并维护,本人不保证任何可用性,也不对使用本软件造成的任何后果负责。

功能

  1. 扫描网站上的外链,及时发现废弃域名被抢注指向非法网站,避免因为黑链而被网安部门通报。
  2. 扫描网站的内容,及时发现敏感信息(如身份证),避免因为信息泄露而被网安部门通报。
  3. 扫描网站开放下载的文件连接,对内容进行排查及时发现敏感信息,避免因为信息泄露而被网安部门通报。

Email:[email protected]

因为本人水平有限,大家在使用过程中发现什么问题请和我联系,谢谢!

使用说明

配置文件说明:config.yml注释

使用方法:

  1. 编辑配置文件、调整whitelist.txt
  2. 将目标网站保存到url.txt
  3. 运行infoscan.exe (推荐在命令行中运行)
InfoScan

Usage:
   infoscan.exe
   infoscan.exe ls               #列出所有任务
   infoscan.exe export <JobID>   #导出任务结果

如有需要可自行编译Linux版本

文件说明

目标文件: 同级目录下的url.txt 每行一个,类似https://brey.cn

白名单:同级目录下的whitelist.txt 每行一个,扫描到的外链中如果包含白名单中所列内容,将不处理,可以过滤安全的外链,例如:edu.cn。根据自己学校的情况,合理的设备白名单,可以大大减少人工核查的工作量。

处理结果说明

data.db:SQLit数据库文件 处理结果为EXCEL文件,目前有外部链接页面敏感信息关键词检测可下载文件

对于外部链接的说明: 可以针对找到的外链进行验证,看能否正常打开(针对无法打开的外链需要重点关注),同时对可以正常打开的网站会提取标题,便于发现有问题的外链。 对于状态码200,标题为空的结果需要特别关注(手动访问)

对于页面敏感信息的说明: 目前只进行18位身份证的匹配,有一定误报率。

对于关键词检测的说明: 有一定误报率,需要特别关注匹配关键词数量多的结果。 欢迎贡献关键词。

对于可下载文件的说明: 使用downloader目录下的工具

用法:
downloader.exe url.txt

推荐使用迅雷等专业的下载工具批量下载,然后使用FileSearchy进行文件扫描。

Todo

  • 限速功能
  • 菜单功能
    • 后台运行
    • 实时设置Crawler
    • 查看任务列表
    • 导出历史数据
    • 保存任务进度
  • 完善内容分析模块
  • 添加调用Chrome内核的Spider

gscan's People

Contributors

grergo avatar ymjie avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.