The winbrowsercrawler from billionerd

==================================== English:

This is a web crawler and parser running on Windows. Its usage is very simple and intuitive. You don't need to have any knowledge of web crawling or development to use this software. Moreover, it provides an intuitive web parsing tool so that you can easily extract high-value content from web pages and analyze websites.

It can support crawling various scales of websites.
It provides many modes:
a. Default mode (single PC + file storage) can support 100 websites, with 100,000 pages per website.
b. Single-server mode (database + object storage) can support 10,000 websites, with 2 million pages per website.
c. Cluster mode (not yet provided), supporting crowdsourcing, can support an unlimited number of websites and pages.
It supports multi-language web page crawling and parsing.
It incorporates many professional strategies for web crawling.
a. It can prevent being blacklisted by target websites due to frequent crawling.
b. It allows setting regular refreshes for key web pages, enabling monitoring of news and shopping websites.
c. It provides "high-priority rules" to consistently focus on high-value web pages.
d. It offers "blacklist rules" to skip those pages deemed worthless.
e. It provides "anti-malicious code policies" to bypass website anti-fraud policies.
f. It offers anti-malicious refresh rules to minimize waste of your network and computational resources.
g. It includes content duplication detection to help save storage space wherever possible.
It offers customizable web parsing algorithms, and you can inherit and override these algorithms through code.

=======================================

** Deutsch: **

Dies ist ein Web-Crawler und Parser, der auf Windows läuft. Die Verwendung ist sehr einfach und intuitiv. Sie benötigen keine Kenntnisse über Web-Crawler oder Entwicklung, um diese Software zu nutzen. Außerdem bietet sie benutzerfreundliche Tools zum Analysieren von Webseiten, damit Sie problemlos hochwertige Inhalte extrahieren und Websites segmentieren können.

Es kann die Erfassung von Websites in verschiedenen Größenordnungen unterstützen.
a. Der Standardmodus (einzelner PC + Dateispeicher) kann 100 Websites mit jeweils 100.000 Seiten unterstützen.
b. Der Einzelservermodus (Datenbank + Objektspeicher) kann 10.000 Websites mit jeweils 2 Millionen Seiten unterstützen.
c. Ein Cluster-Modus (derzeit nicht verfügbar), der Crowdsourcing unterstützt, kann eine unbegrenzte Anzahl von Websites und Seiten unterstützen.
Es unterstützt das Erfassen und Analysieren von mehrsprachigen Webseiten.
Es enthält viele professionelle Strategien für Web-Crawler.
a. Es kann verhindern, dass die Zielwebsite aufgrund häufiger Abfragen in die Schwarze Liste aufgenommen wird.
b. Es ermöglicht das Festlegen regelmäßiger Aktualisierungen von Schlüsselseiten, sodass Sie Nachrichten- und E-Commerce-Websites überwachen können.
c. Es bietet "High-Priority-Regeln", um sich stets auf wertvolle Webseiten zu konzentrieren.
d. Es bietet "Blacklist-Regeln", um wertlose Webseiten zu überspringen.
e. Es bietet eine "Anti-Malware-Code-Strategie", damit Sie nicht durch betrügerische Richtlinien der Websites eingeschränkt werden.
f. Es bietet Regeln zur Vermeidung von bösartigen Aktualisierungen, um eine möglichst geringe Verschwendung Ihrer Netzwerk- und Rechenressourcen zu gewährleisten.
g. Es bietet eine Funktion zur Überprüfung von Inhaltsduplikaten, um Speicherplatz zu sparen.
Es bietet anpassbare Webseiten-Analysealgorithmen, die Sie durch Code-Erweiterung und Neuladen anpassen können.

=======================================

** 中文：**
这是一个运行在windows上的网页爬取器和解析器。它的使用非常简单直观。你不需要具有任何网页爬虫和开发知识就可以使用该软件。并且它还提供了直观的网页解析工具，以便你可以轻松地提取网页中的高价值内容，并对网站进行分。

它可以支持各种规模的网站抓取。
a. 默认模式（单台PC+文件存储）可以支持 100个网站，并且每个网站100k页。
b. 单服务器模式（数据库+对象存储）可以支持10k个网站，每个网站2百万页。
c. 集群模式（尚未提供），支持众包，可以支持无限网站，和无限网页。
它支持多语言网页抓取和解析。
它内置了很多专业的网页爬虫的策略。
a. 它可以防止由于频繁抓取而被目标网站加入黑名单。
b. 它可以设置定期刷新的重点网页，以便你可以监控新闻网站和购物网站。
c. 它提供了“高优先级规则”，以便始终聚焦在高价值网页。
d. 它提供了“黑名单规则”，以便跳过那些无价值的网页。
e. 它提供了“防恶意代码策略”，以便你可以不受网站的防欺诈政策限制。
f. 它提供了防恶意刷新规则，以便尽可能避免你的网络和计算资源被浪费。
g. 它提供了内容重复检测，以便帮你尽可能节省存储控件。
它提供了定制化的网页解析算法，并且你可以通过代码继承和重载这些算法。

billionerd / winbrowsercrawler Goto Github PK

winbrowsercrawler's Introduction

winbrowsercrawler's People

Contributors

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent