欢迎光临
我们一直在努力

网站日志分析少用光年

昨日有一小站在后台报了一堆404页面,非常头痛,打算今天分析一下。之前一直有使用过光年的日志分析,而且是国平老师的东西,所以一直还是挺放心,但是今天分析完后感觉还是少用光年,甚至不用为妙。

一开始看后台爆出404页面很多都是我根本不存在的路径,比如是 admin、static、themes、images等等一大堆。

第一感觉是空间莫非被黑了,上传了一堆垃圾,迅速的打开ftp 查看空间,排除了这一想法,目录没有多还是那么几个。

第二步打算用光年试试,从空间中下载网址日志后,直接用光年分析了最近4天的,查看目录抓取 发现BaiDu Spider 真的有抓上面的目录,而且最令人恐怖的是蜘蛛居然抓了我110个目录。这简直是不可能的事情,我自己网站一共连10个都不超过,你去哪抓这么多去呢?莫非是域名解析,直接pass了就算是泛解析了,那个日志也不应该出现在我这。

后来想到了个笨办法,把11号到14号的日志文件全部手动的查找admin这个目录,最后锁定在14号这一天的日志上出的问题。然后单独生成了一下14号的日志,仍然是那样,百度访问3次,停留将近3个小时 抓取 500多个文件,一阵瀑布汗…..我的网站有这么牛逼。看 目录抓取 百度仍然有110个目录,但是看下面谷歌的很正常。

下面 先上一段正确的日志 123.125.71.117 – – [10/Feb/2015:23:32:27 +0800] “GET /zhaopin/ HTTP/1.1” 500 3528 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” 123.125.71.117 text/html “/htdocs/index.php” 424544

123.125.71.117 就是百度蜘蛛的ip 怎么看蜘蛛是不是真的百度蜘蛛 运行 输入 cmd 打开命令窗口 输入 nslookup 123.125.71.117 回车 如果名称显示 为*.baidu.com 或者.jp的就是货真价实的百度蜘蛛。如果不是就是假蜘蛛。

下面上报404 的日志222.213.173.132 – -[13/Feb/2015:14:59:36 +0800] “GET /themes/admin/images/logo.png HTTP/1.1” 404 9625 “-” “User-Agent\tBaiduspider/2.0” 222.213.173.1 –  text/html “/htdocs/index.php” 436640

乍一看我是没看出错来,放一起才发现。实际上错就在 User-Agent\tBaiduspider 这个是黑客扫描你网站漏洞的蜘蛛,不是百度蜘蛛。但是光年直接把这一大堆扫漏洞的蜘蛛都算到了百度的头上。

最后用一字符串 将tBaiduspider替换,再分析一下 是停留0.2小时 抓60个文件,再看目录抓取就正常了,但是其他的数据就不一定准确了。

ps:日志分析还是挺重要的,回头给大家推荐一款好用的吧,可能是光年这个太长时间没有更新了额。不知道还会不会更新。

赞(0)
未经允许不得转载:衡水seo博客 » 网站日志分析少用光年
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

建站优化更专业 更敬业 更负责

建站报价联系我们