干货!详解页面标记收集和服务器日志收集的优劣

2021年05月28日 18:05 来源: 作者:fungawai

当前网站分析/统计工具中对访客行为的追踪,最常用的方式是Web服务器日志和JavaScript页面标记两种,现在主流的是采用页面标记技术,如51la、Google Analytics、Adobe Analytics等都是采用这一模式。

页面标记方式之所以被第三方网站统计分析工具广泛应用,主要原因是:在技术上,页面分析技术更容易实现;另一方面是,近几年的云计算大力发展,存储成本极大降低,计算能力提高,采集到的数据都是在第三方服务器存储和计算,因此,数据的维护成本也极大降低。

服务器日志技术和页面标签记技术这两种方法各有优缺点,在数据准确度上都不可能保证完全精确,幸好对于网站统计分析而言,并没有那么高的精度要求,我们只是需要准确的数据,然后查看趋势,通过数据趋势判断问题,定位原因就足够了。

页面标记技术基本原理:在访客请求的页面中,包含一段或几段用来记录客户端(浏览器)行为的JavaScript代码,在页面被载入时执行该JS代码或者在事件被触发时执行某JS代码,并将收集到的客户端行为数据发送给指定的服务器,可能是通过请求某资源的形式,也可能是直接写入数据库。JavaScript页面标记代码可由网站所有者自定义提供,也可使用第三方工具提供的代码。页面标记代码一般需要覆盖到所有用户能访问到的页面,通常可以通过将此代码包含在公共引用模块中。由第三方提供的代码,通常会将数据发送到第三方制定的地址,并由第三方工具提供日志分析和数据统计报表,如51la V6网站统计。原则上,JavaScript页面标记代码可以追踪到任何通过JS记录到的行为和触发的事件。

页面标记技术优点:

  • 不受代理和缓存服务器影响,提供更精准的会话跟踪
  • 可以记录客户端的所有JS能记录的行为,最基本的记录包括页面浏览、flash事件、Ajax交互、鼠标点击、滚动条滚动、表单填写等
  • 实时收集和处理客户端数据
  • 数据存放在云端,操作上,可以独立于IT团队,不用后台开发人员维护,甚至不用前端开发,可以交给第三方工具(首次代码铺设需由网站拥有者添加)维护和统计

页面标记技术劣势

  • 错误设置容易导致数据丢失,且不能重新处理数据
  • 会受防火墙阻隔
  • 如果浏览器不启用JavaScript,则页面标记无用,记录不到这些访客行为,大约少于2%;
  • 不能追踪带宽或下载完成,文件的下载状态无法直接记录
  • 搜索机器人不执行JS,故不能追踪记录搜索引擎机器人(爬虫)的行为

服务器日志技术基本原理:用户对网页的提出的一次请求,就称为一次命中。通过Web服务器日志软件,将请求信息记录在日志文件中,通过日志分析程序即可获得点击流(访问流)数据。根据这些请求信息,分析软件可以得到访客在什么时间请求了什么页面,是否出错,从什么地方来的,访客的客户端信息和地理位置,还可以通过设置的cookie获得访客的更多信息。通过临时cookie即session表示一次访问,通过永久cookie标识唯一访客,或者用IP、IP + User-Agent标识唯一访客。

服务器日志技术优点:

  • 只要服务器不出问题日志不会丢失,数据更安全可靠,并且可方便处理历史数据
  • 能够记录机器人/自动程序对网站的访问
  • 所有资源文件(HTML元素)的请求均可记录,包括追踪带宽或下载完成
  • 不会受防火墙阻隔
  • 不受访问终端设备影响,可以追踪移动用户

服务器日志技术劣势:

  • 不能追踪事件,只能记录客户端对Web服务器的请求日志,非向服务器的请求无法记录。访客在客户端的鼠标点击行为、对象交互事件,如Ajax交互行为、Flash事件、按键键入等,无法通过Web服务器日志获知
  • 受代理和缓存的影响,页面缓存不会发生服务器请求,也就不会被无服务器日志记录,而访客二次访问网站通常会有本地缓存,因此数据真实性会有偏差
  • 较弱的实时性,网站服务器日志是记录服务器运行的实时数据的,但是这些数据想要被取出分析,实时性就没有那么好了
  • 数据需本地存放,占据空间大、不够便捷

如果您对网页统计分析的重心在于网站真实访问者行为的追踪和分析上,那么,通过日志方法来实现相对而言难度相对比较大,操作也比较繁琐,这时候应该用页面标记法来实现对网站访问数据的收集。

点击立刻免费注册使用