新闻

湖南seo网站日志文件字段的解析

时间:2016-03-12 11:13:12

日志分析是湖南SEO工作中比较重要的数据分析工作,湖南SEO人员都知道这一点。日志文件对网站的所有访问行为都有记录,日志文件中的数据比普通流量统计工具中的数据更加全面、精确。

网站日志文件中有很多字段,下面我们就以IIS W3C格式的日志来解析一下网站日志文件,以便我们更好的读懂日志的含义。

日志文件字段的解析
湖南seo 日志分析
date:发出请求时候的日期,也就是年月日。在日志分析中,一般会提取一天的日志进行分析,并且大部分网站都是按天生成日志的。所以日志分析中的这列数据基本都是相同的。
time:发出请求的时间,也就是时分秒。这个字段可以分析出搜索引擎对整站或指定内容的抓取频率。
cs-method:请求中使用的HTTP方法,值为GET或POST。GET是向服务器索取数据的一种请求,POST是向服务器提交数据的一种请求。搜索引擎对网站的访问一般不会自动提交数据,所以搜索引擎蜘蛛的抓取记录的状态基本上都是GET
cs-uri-stem:访问的URL,也是日志分析中的主体对象。
cs-username:用户名,访问服务器已经经过验证的用户名。搜索引擎蜘蛛的访问一般都是匿名的,匿名在日志中会以“-”表示。
c-ip:客户端IP地址,也就是访问者的IP.如果法相同一IP地址频繁的访问网站可能会是采集器,可以经过分析确定后加以封禁。
cs-version:客户端使用的协议版本,值为HTTP或FTP,搜索引擎蜘蛛为HTTP,不必在乎此字段。
cs(User-Agent):用户代理,客户端浏览器,操作系统等情况。搜索引擎蜘蛛也会在此字段表面身份,也会有一些假蜘蛛混迹其中,比如站长工具一般都有模拟搜索引擎蜘蛛抓取的功能,这种访问就会产生假的搜索引擎蜘蛛访问。现在拥有外链查询的站长工具,为了防止网站封禁IP,也会冒充成搜索引擎蜘蛛访问网站。湖南SEO人员可以统计各种搜索引擎对网站的抓取情况,屏蔽无流量的搜索引擎或工具的抓取,以减少网站的服务器和带宽压力。
cs(Referer):访问来源,即普通引荐流量中的引荐页面,如果没有来源,则会以“-”表示。搜索引擎蜘蛛对网站的访问都是直接访问,因此搜索引擎蜘蛛对网站的访问记录中该字段都是“-”。
sc-status:协议状态,记录HTTP状态码。200表示成功访问、404表示找不到网页、301表示永久重定向等,这个字段示需要湖南SEO人员尤为关注的字段。
sc-substatus:协议子状态,记录HTTP子状态码。一般网站都不用子状态,所以这个字段的值一般为0。
sc-bytes:服务器发送的字节数,可以理解为文件的大小。
以上为日志文件中常见的字段,还有一些字段如cs-bytes服务器接受的字节数,这些字段对湖南SEO来说几乎没有什么分析价值,所以不再介绍。需要了解的是,网站日志中的所有字段记录与否及字段的排序都是可以在服务器上配置的,所以并不是所有的服务器日志的字段都会按以上顺序排列。在以上介绍的字段中,协议状态码是湖南SEO比较关心的数据,根据需要,常见的状态码简单介绍如下:

200:表示访问成功,访问正常。
301:表示资源永久重定向,即向搜索引擎表示该网页已经完全转移到另一个网页,告诉搜索引擎该网页的相应权重需要叠加到另一网页上,并删除该网页的索引。虽然百度站长平台已经推出了网站改版工具,但是现在对301的支持还是比较缓慢。由于301有叠加权重的作用,所以有不少人利用大量子域名301到某一个固定网页以提升该网页的权重,简称“301作弊”。
302:表示资源暂时转移,如果网站改版,建议使用301而不是302,302作弊曾经流行过一段时间,已被搜索引擎打击,其实现在302作弊yiran 存在,正规网站不必过多关注此状态码。
304:网页无变化,如果搜素引擎蜘蛛返回304,可能会造成蜘蛛访问该页面的频率降低。
404:资源未找到或已删除,有的服务器在数据出现读取错误时,会默认返回404状态码,对湖南SEO非常不利,应该改为503。同时所有404状态的访问都应该引起站长和湖南SEO人员足够的重视。
503:服务器过载或暂停维修,建议网站出现突发事故时最好默认返回503,未建好的也最好返回503而不是404。
以上为日志分析中常见的状态码,在日志中还有很多其他状态码,湖南SEO人员最好都了解下,但是不熟知其他状态码表示的含义也没多大关系,按照开头数字对状态码的含义总计如下:

1**:表示请求已经收到,需要继续处理。
2**:表示请求已被服务器成功接收、分析。
3**:表示客户端需要进行进一步操作才能完成请求。
4**:表示请求包含语法错误或不能完成。
5**:表示服务器错误。
在日志分析中,4**和5**的状态码需要足够重视的。在实际工作中,经常会把404状态码的访问记录单独提取出来进行分析;会搜索日志中503之类的服务器错误,来查看指定时间段服务器是否出现宕机、带宽使用是否超过限制等。
loading

官方微博

电话:15173711352 18973773115(手机点击拨号)

Email: 297390139@qq.com

地址:长沙市高新区麓谷东方红路881号

在线客服
热线电话
联系我们

微信咨询