namsoocho / crawler_2 Goto Github PK

View Code? Open in Web Editor NEW

0.0 0.0 1.0 28.85 MB

연습 프로젝트 입니다.

License: MIT License

Rust 99.15% RenderScript 0.85%

crawler_2's People

Contributors

Watchers

Forkers

ywen407

crawler_2's Issues

현재 생각하고 있는 크롤러.

단순히 크롤러의 역할에서 보면, 초기 Seed URL과 하위 URL들 및 리소스들을 수집하는 역할을 하는 것입니다.
지금 현재 구현되고 있는 크롤러는 검색엔진 위한 크롤러로 카이스트에서 대용량 검색 엔진을 위한 병렬 웹크롤러 논문을 기반으로 디자인한것입니다.
그래서 Ranking에 대한 부분은 솔직히 검색엔진을 위한 기능같은데.. PageRank 알고리즘을 통해서 웹페이지 우선순위를 매기는 부분입니다.
단순히 크롤러만 생각한다면 랭킹부분이 좀 애매한 부분도 있는것 같습니다. (그렇다면 검색엔진도 필요한것같기도하고)
수집하는 것에서 그치는 것이 아니라 검색엔진을 위해서 웹사이트의 랭킹을 매기는 것까지 구현되어 있으며, 암시적으로 그 부분까지 일단 생각을 하고 있는데 어떻게 할지 고민은 하고 있습니다.

또한 앞으로 Crawler부분에서 구현해야 될것은 일단 Agent와 Frontier가 어떤 방식으로 통신할 것인지(일단 단순히 해당 object변수를 넘기는걸로 되어있음), agnet는 멀티 쓰레딩으로 할것인지 아니면 단일로 멀티 프로세싱으로 하게끔 할것인지. 비동기로 처리할것인지,
html parser를 구현해서 리소스와 URl을 추출해야 하며, 어떤것을 파싱하고, db에 넣을것인지.....

그 후는 검색엔진...?

일단 생각은 이렇습니다.

웹 크롤러 구조

Master(Frontier)

url 관리(방문할 url 관리, 다운로드 해야할 url 관리)
Agent로부터 온 url 필터링(방문해야할 url로)
필터링된 URL agnet로 전송(멀티스레드시 분배?)

Slave(Agent)

Web으로부터 url 수집 후 프론티어로 전송
프론티어로부터 필터링 된 URl 분석 처리
분석처리 URL link,Resource link 추출
추출된 URL 프론티어로 전송

Monitor

Frontier와 Agent동작상태 모니터링 ,제어

기본적인 웹 크롤러 구조의 기본 틀은 대략 이렇게 되는거 같습니다.
위의 기본적인 틀로 추가할부분은 간단한것부터 점진직으로 먼저 구현하고 하면 좋을것 같습니다.
아래 블로그에 대략적인 정리가 잘 되어 있는것 같습니다.
어떻게 진행해야할지 또는 위에 사항에서 의견있으시면 달아주세요.

참고블로그
https://lyb1495.tistory.com/104

impl html parser

크롤러가 url과 resource link들을 수집하고 탐색하고 인덱싱을 하기 위해 html를 파싱하는 htmlparser를 구현한다.

CR/LF에 대해서..

os 플랫폼마다 CR/LF가 개행문자 인식이 다른데..

Windows의경우 CR/LF
mac,linux의경우 LF

개행문자 인식이 달라서 pull request할때 보통 LF로 맞추는것 같더라구요.
어떻게 따로 설정을 해야되는건가요?
CR/LF를 추가하라고 하셔서 그냥 엔터 두번 딱딱 해놓긴 했는데..

대략적인 자료구조

enum Protocol {
HTTP,
HTTPS,
FTP,
}

struct UrlParser {
protocol: Protocol,
ip_addr_v4: String, // String으로 하는게 좋은건지....???
path: String,
port: u16
}

struct DnsCache {
history: HashMap<String, IpAddrV4> // string 으로된 주소를 IP 주소로 캐싱
}

struct LookUpLIst {
url_list: HashMap<String, bool> // url string 을 키로 하여 이미 읽은 주소인지 여부를 저장한다. 만약 이미 읽은 주소이면 skip하고 , 안 읽었으면 읽고 읽었다고 set한다.
}

impl replicate_url_checker

agent에서 수집한 데이터를 checksum 중복체크를 통해 파일을 중복 수집하지 않습니다.

namsoocho / crawler_2 Goto Github PK

crawler_2's People

Contributors

Watchers

Forkers

crawler_2's Issues

현재 생각하고 있는 크롤러.

웹 크롤러 구조

impl html parser

CR/LF에 대해서..

대략적인 자료구조

impl replicate_url_checker

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent