<!--go-->
陆道升总算赶在出发去北京之前完成了对hao123爬虫系统的改造。在原有流程上做了一些优化,以及新增了一个在线的评审系统。
前世hao123创始人李兴平是通过个人的全身心投入来保持hao123的不断更新和迭代,每天要花十多小时在人力检查链接是否失效或者被移花接木的问题上。
失效的问题对陆道升来说很好解决,就是网站打不开了而已,可能是暂时的网络问题,也可能是确实网站停止服务了。
总之就是写程序通过网址来请求网站内容,分时段多试几次,如果都请求不成功,那就是失效了。
最多再加一个每个时间段内失效网址数量的监控,占比不超阈值,那么就确认这是失效网址,如果超过阈值,可能是网络问题造成网站集体访问失败,发送报警到陆道升邮箱但不做处理,等过段时间再次检测即可。
网址被移花接木就很麻烦了,想通过技术手段对比会很费事,投入产出严重不值得,大头还是靠人工。
有很多网站运营一段时间后难以为继,就会关张大吉,其拥有的网址往往会被其他人买走另作他用。
这个另做他用对陆道升来说就很头疼。
比如之前做游戏的网址被换成做娱乐,那就应该从游戏分栏里转移到娱乐分栏。更头疼的是还有的网址直接被买走搞成了涉黄网站,这就根本不能留了,得直接干掉。
而要做以上判断,就需要人工审阅。
为了减少审阅工作量,陆道升特意写过一个对比过滤的流程,即把网站上一次的文本内容缓存下来,下一次爬取时进行一个对比,如果网页结构和内容变化比例没超过阈值,则直接略过,认为可以保持原有判断,如果超过阈值,那就整理起来输出为列表,再由人工来一条条对比审核。
Loading...
未加载完,尝试【刷新】or【关闭小说模式】or【关闭广告屏蔽】。
尝试更换【Firefox浏览器】or【Chrome谷歌浏览器】打开多多收藏!
移动流量偶尔打不开,可以切换电信、联通、Wifi。
收藏网址:www.sisiread.com
(>人<;)