Code Monkey home page Code Monkey logo

crawler_2's People

Contributors

namsoocho avatar shhong7757 avatar ywen407 avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar

Forkers

ywen407

crawler_2's Issues

현재 생각하고 있는 크롤러.

단순히 크롤러의 역할에서 보면, 초기 Seed URL과 하위 URL들 및 리소스들을 수집하는 역할을 하는 것입니다.
지금 현재 구현되고 있는 크롤러는 검색엔진 위한 크롤러로 카이스트에서 대용량 검색 엔진을 위한 병렬 웹크롤러 논문을 기반으로 디자인한것입니다.
그래서 Ranking에 대한 부분은 솔직히 검색엔진을 위한 기능같은데.. PageRank 알고리즘을 통해서 웹페이지 우선순위를 매기는 부분입니다.
단순히 크롤러만 생각한다면 랭킹부분이 좀 애매한 부분도 있는것 같습니다. (그렇다면 검색엔진도 필요한것같기도하고)
수집하는 것에서 그치는 것이 아니라 검색엔진을 위해서 웹사이트의 랭킹을 매기는 것까지 구현되어 있으며, 암시적으로 그 부분까지 일단 생각을 하고 있는데 어떻게 할지 고민은 하고 있습니다.

또한 앞으로 Crawler부분에서 구현해야 될것은 일단 Agent와 Frontier가 어떤 방식으로 통신할 것인지(일단 단순히 해당 object변수를 넘기는걸로 되어있음), agnet는 멀티 쓰레딩으로 할것인지 아니면 단일로 멀티 프로세싱으로 하게끔 할것인지. 비동기로 처리할것인지,
html parser를 구현해서 리소스와 URl을 추출해야 하며, 어떤것을 파싱하고, db에 넣을것인지.....

그 후는 검색엔진...?

일단 생각은 이렇습니다.

웹 크롤러 구조

Master(Frontier)

  • url 관리(방문할 url 관리, 다운로드 해야할 url 관리)
  • Agent로부터 온 url 필터링(방문해야할 url로)
  • 필터링된 URL agnet로 전송(멀티스레드시 분배?)

Slave(Agent)

  • Web으로부터 url 수집 후 프론티어로 전송

  • 프론티어로부터 필터링 된 URl 분석 처리

  • 분석처리 URL link,Resource link 추출

  • 추출된 URL 프론티어로 전송

Monitor

  • Frontier와 Agent동작상태 모니터링 ,제어

기본적인 웹 크롤러 구조의 기본 틀은 대략 이렇게 되는거 같습니다.
위의 기본적인 틀로 추가할부분은 간단한것부터 점진직으로 먼저 구현하고 하면 좋을것 같습니다.
아래 블로그에 대략적인 정리가 잘 되어 있는것 같습니다.
어떻게 진행해야할지 또는 위에 사항에서 의견있으시면 달아주세요.

참고블로그
https://lyb1495.tistory.com/104

impl html parser

크롤러가 url과 resource link들을 수집하고 탐색하고 인덱싱을 하기 위해 html를 파싱하는 htmlparser를 구현한다.

CR/LF에 대해서..

os 플랫폼마다 CR/LF가 개행문자 인식이 다른데..

  • Windows의경우 CR/LF

  • mac,linux의경우 LF

개행문자 인식이 달라서 pull request할때 보통 LF로 맞추는것 같더라구요.
어떻게 따로 설정을 해야되는건가요?
CR/LF를 추가하라고 하셔서 그냥 엔터 두번 딱딱 해놓긴 했는데..

대략적인 자료구조

enum Protocol {
HTTP,
HTTPS,
FTP,
}

struct UrlParser {
protocol: Protocol,
ip_addr_v4: String, // String으로 하는게 좋은건지....???
path: String,
port: u16
}

struct DnsCache {
history: HashMap<String, IpAddrV4> // string 으로된 주소를 IP 주소로 캐싱
}

struct LookUpLIst {
url_list: HashMap<String, bool> // url string 을 키로 하여 이미 읽은 주소인지 여부를 저장한다. 만약 이미 읽은 주소이면 skip하고 , 안 읽었으면 읽고 읽었다고 set한다.
}

impl replicate_url_checker

agent에서 수집한 데이터를 checksum 중복체크를 통해 파일을 중복 수집하지 않습니다.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.