百思不得姐budejie.com的采集规则和数据库
之前对百思不得姐网站进行过一次采集,包括文字段子,图片、声音、视频入mysql数据库,总共约8000来条数据,因为百思不得姐的列表页面上只会放出前100页(好像是100,我也忘了),所以通过火车头采集的话只能采集到100页的数据,不过也不少了。抓取下来的图片+视频+声音文件大约8.5G。这些太大,没法放上来 这里是对百思不得姐采集得到的数据,已经入MYSQL,这是导出的sql文件。主要是con_duanzi.sql。另外还有百思不得姐的采集规则.lgrp格式。