namsoocho / crawler_2 Goto Github PK
View Code? Open in Web Editor NEW연습 프로젝트 입니다.
License: MIT License
연습 프로젝트 입니다.
License: MIT License
단순히 크롤러의 역할에서 보면, 초기 Seed URL과 하위 URL들 및 리소스들을 수집하는 역할을 하는 것입니다.
지금 현재 구현되고 있는 크롤러는 검색엔진 위한 크롤러로 카이스트에서 대용량 검색 엔진을 위한 병렬 웹크롤러 논문을 기반으로 디자인한것입니다.
그래서 Ranking에 대한 부분은 솔직히 검색엔진을 위한 기능같은데.. PageRank 알고리즘을 통해서 웹페이지 우선순위를 매기는 부분입니다.
단순히 크롤러만 생각한다면 랭킹부분이 좀 애매한 부분도 있는것 같습니다. (그렇다면 검색엔진도 필요한것같기도하고)
수집하는 것에서 그치는 것이 아니라 검색엔진을 위해서 웹사이트의 랭킹을 매기는 것까지 구현되어 있으며, 암시적으로 그 부분까지 일단 생각을 하고 있는데 어떻게 할지 고민은 하고 있습니다.
또한 앞으로 Crawler부분에서 구현해야 될것은 일단 Agent와 Frontier가 어떤 방식으로 통신할 것인지(일단 단순히 해당 object변수를 넘기는걸로 되어있음), agnet는 멀티 쓰레딩으로 할것인지 아니면 단일로 멀티 프로세싱으로 하게끔 할것인지. 비동기로 처리할것인지,
html parser를 구현해서 리소스와 URl을 추출해야 하며, 어떤것을 파싱하고, db에 넣을것인지.....
그 후는 검색엔진...?
일단 생각은 이렇습니다.
Master(Frontier)
Slave(Agent)
Web으로부터 url 수집 후 프론티어로 전송
프론티어로부터 필터링 된 URl 분석 처리
분석처리 URL link,Resource link 추출
추출된 URL 프론티어로 전송
Monitor
기본적인 웹 크롤러 구조의 기본 틀은 대략 이렇게 되는거 같습니다.
위의 기본적인 틀로 추가할부분은 간단한것부터 점진직으로 먼저 구현하고 하면 좋을것 같습니다.
아래 블로그에 대략적인 정리가 잘 되어 있는것 같습니다.
어떻게 진행해야할지 또는 위에 사항에서 의견있으시면 달아주세요.
크롤러가 url과 resource link들을 수집하고 탐색하고 인덱싱을 하기 위해 html를 파싱하는 htmlparser를 구현한다.
os 플랫폼마다 CR/LF가 개행문자 인식이 다른데..
Windows의경우 CR/LF
mac,linux의경우 LF
개행문자 인식이 달라서 pull request할때 보통 LF로 맞추는것 같더라구요.
어떻게 따로 설정을 해야되는건가요?
CR/LF를 추가하라고 하셔서 그냥 엔터 두번 딱딱 해놓긴 했는데..
enum Protocol {
HTTP,
HTTPS,
FTP,
}
struct UrlParser {
protocol: Protocol,
ip_addr_v4: String, // String으로 하는게 좋은건지....???
path: String,
port: u16
}
struct DnsCache {
history: HashMap<String, IpAddrV4> // string 으로된 주소를 IP 주소로 캐싱
}
struct LookUpLIst {
url_list: HashMap<String, bool> // url string 을 키로 하여 이미 읽은 주소인지 여부를 저장한다. 만약 이미 읽은 주소이면 skip하고 , 안 읽었으면 읽고 읽었다고 set한다.
}
agent에서 수집한 데이터를 checksum 중복체크를 통해 파일을 중복 수집하지 않습니다.
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.