网络营销外包价值 ● 感恩 ● 分享
企业推广要做好就找众行网络

众行网络
为您量身定做

企业花1个人的钱，做10个人的事
1天有曝光，3天有询盘

营销技巧

NEWS introduction

162019-12

梅州网络推广如何用Python脚本分析日志

　　如何用Python脚本分析日志？很简单，重点统计URL的抓取和流量数据，略细分。光年那宏观的数据觉得没多大用，就没往里加。因为是临时想到什么就往里加的什么，搞得很多变量自身都忘了是做什么的，所以整体看上去对照繁琐。效率通常，i3处理器1G多日志3、4分钟。

　　实行命令：python log_file seo_file

　　log_file：要输入日志的文件名，seo_file：随便起一个。。。

　　脚本输送的内容包括：

梅州网络推广如何用Python脚本分析日志

　　蜘蛛抓取量(总抓取量)

　　每类页面的抓取量(分差异蜘蛛的;包括仅有抓取量和总抓取量，对比看下反复抓取对不多。。。)

　　SEO流量(统计的搜寻引擎在‘seo_traffic_req’变量里，觉得不能够在自身加)

　　每类页面的SEO流量

　　每类页面的百度SEO流量和360 SEO流量

梅州网络推广如何用Python脚本分析日志

　　蜘蛛形态码汇总

　　百度出处重点词

　　#coding:utf-8

　　#weblog analytics

　　import re

　　import sys

　　import urllib

　　import os

　　input_file,seo_file = sys.argv[1:3] #要输入的日志文件名，和输送的seo流量文件名

　　seo_url = open(seo_file,'a')

　　#fenci = open(fenci_file,'a') ps：需求独自输送百度出处重点词文件，则撤销说明注解

　　baidu_seo = open('baiduseo.txt','a')

　　#要统计蜘蛛抓取及流量数据的页面url对应的正则，想统计1个就写1个，想统计100个就写100个，根据自身需求更换下~~

　　mulu_re = [

　　'/abc/[0-9]+.html',

　　'/abc/g[0-9]+/[a-z]+.html'

　　]

　　#要统计的蜘蛛，根据自身需求更换下

　　kz_spider = [

　　'Baiduspider.*search/spider.html' #因为只匹配‘Baiduspider’可能把假蜘蛛也算进入，所以这么写。。

梅州网络推广如何用Python脚本分析日志

　　#'360Spider'

　　#'Googlebot',

　　#'Sogou'

　　]

　　weblog = open(input_file).read()

　　word_re = re.compile('\.baidu\.com/.*?(?:wd|word)=(.*?)[&"]')

　　baidu_seo_re = re.compile(r'(baidu.com/.*wd=|baidu.com/.*word=)')

　　seo_traffic = 0

　　seo_baidu = 0

　　pagecode = {}

　　baidupagecode = {}

　　def spider_zq(spider):

　　req = re.compile(spider)

　　data = len(re.findall(req,weblog))

　　return data

　　def url_spider_zq(zz,spider):

　　url_re = zz + '.*' + spider

　　req = re.compile(url_re)

　　data_one = len(list(set(re.findall(req,weblog)))) #仅有抓取量

　　data_two = len(re.findall(req,weblog)) #总抓取量

　　#e = '%.2f%%'% (float('%.1f'%(data_two-data_one))/data_two)

　　return data_one,data_two

　　print "\n"

　　print "<-------------------------------每个蜘蛛的总抓取量---------------------------------->"

　　for spider in kz_spider:

　　print spider + "总抓取量:",spider_zq(spider)

　　print "\n"

　　print "<-------------------------------蜘蛛目次抓取量---------------------------------->"

　　for spider in kz_spider:

　　print spider+"目次抓取量:","\n"

　　for zz in mulu_re:

　　print zz,":",url_spider_zq(zz,spider)

　　print "\n"

　　print "<-------------------------------SEO总流量---------------------------------->"

　　for line in open(input_file):

　　data = re.search(seo_traffic_req,line)

　　baidu = re.search(baidu_seo_re,line)

　　if data:

　　seo_traffic += 1

　　seo_url.write(line+'\n')

　　else:

　　continue

　　if baidu:

　　seo_baidu += 1

　　baidu_seo.write(line+'\n')

　　else:

　　continue

　　code = line.split(' ')[9]

　　if code.isdigit():

　　if code in pagecode:

　　pagecode[code] += 1

　　else:

　　pagecode[code] = 1

　　print 'SEO流量:',seo_traffic,"\n"

　　baidu_seo.close()

　　seo_url.close()

　　seo_mulu = open(seo_file).read()

　　baiduseo = open('baiduseo.txt').read()

　　print "<-------------------------------SEO目次流量---------------------------------->"

　　print "网站目次SEO流量统计：","\n"

　　for line in mulu_re:

　　req = re.compile(line)

　　seo_data = len(re.findall(req,seo_mulu))

　　print line,seo_data

　　print "\n"

　　print "<-------------------------------百度 SEO目次流量---------------------------------->"

　　print "网站目次SEO流量统计：","\n"

　　for line in mulu_re:

　　req = re.compile(line)

　　seo_data = len(re.findall(req,baiduseo))

　　print line,seo_data

　　print "\n"

　　print "<-------------------------------360 SEO目次流量---------------------------------->"

　　print "360 SEO流量统计：","\n"

　　for line in mulu_re:

　　line_360 = line + ".*(so.com|360.cn)/.*?q="

　　req = re.compile(line_360)

　　seo_data_360 = len(re.findall(req,seo_mulu))

　　print line,seo_data_360

　　print "\n"

　　print "<-------------------------------蜘蛛形态码---------------------------------->"

　　pagecode_sort = sorted(pagecode.iteritems(), key=lambda d:d[1], reverse = True)

　　print pagecode_sort

　　print "\n"

　　os.remove('baiduseo.txt')

　　os.remove(seo_file) #假如需求日志中SEO流量的部分不妨删掉这行

　　#假如需求日志中的百度出处重点词不妨撤销说明注解

　　#for line in open(seo_file):

　　# word = re.search(word_re,line)

　　# if not word:

　　# continue

　　# kw = urllib.unquote_plus(word.group(1))

　　# if 'ie=utf-8' not in line:

　　# kw = kw.decode('gb2312','ignore').encode('utf-8')

　　# fenci.write(kw+"\n")

上一篇：汕头网络推广移动站点怎样做适配对百度SEO友好

下一篇：揭阳网络推广怎么升级HTTPS免费证书

最新资讯

电话：15811927359
售前咨询：15811927359
公司地址：惠州惠城麦科特大道58号风尚国际大厦8D

扫一扫关注众行网络

北京安庆蚌埠巢湖池州滁州阜阳淮北淮南黄山六安马鞍山宿州铜陵芜湖宣城亳州福州龙岩南平宁德莆田泉州三明厦门漳州兰州白银定西甘南嘉峪关金昌酒泉临夏陇南平凉庆阳天水武威张掖广州深圳潮州东莞佛山河源惠州江门揭阳茂名梅州清远汕头汕尾韶关阳江云浮湛江肇庆中山珠海南宁桂林百色北海崇左防城港贵港河池贺州来宾柳州钦州梧州玉林贵阳安顺毕节六盘水黔东南黔南黔西南铜仁遵义海口三亚白沙保亭昌江澄迈县定安县东方乐东临高县陵水琼海琼中屯昌县万宁文昌五指山儋州石家庄保定沧州承德邯郸衡水廊坊秦皇岛唐山邢台张家口郑州洛阳开封安阳鹤壁济源焦作南阳平顶山三门峡商丘新乡信阳许昌周口驻马店漯河濮阳哈尔滨大庆大兴安岭鹤岗黑河鸡西佳木斯牡丹江七台河齐齐哈尔双鸭山绥化伊春武汉仙桃鄂州黄冈黄石荆门荆州潜江神农架林区十堰随州天门咸宁襄樊孝感宜昌恩施长沙张家界常德郴州衡阳怀化娄底邵阳湘潭湘西益阳永州岳阳株洲长春吉林白城白山辽源四平松原通化延边南京苏州无锡常州淮安连云港南通宿迁泰州徐州盐城扬州镇江南昌抚州赣州吉安景德镇九江萍乡上饶新余宜春鹰潭沈阳大连鞍山本溪朝阳丹东抚顺阜新葫芦岛锦州辽阳盘锦铁岭营口呼和浩特阿拉善盟巴彦淖尔盟包头赤峰鄂尔多斯呼伦贝尔通辽乌海乌兰察布市锡林郭勒盟兴安盟银川固原石嘴山吴忠中卫西宁果洛海北海东海南海西黄南玉树济南青岛滨州德州东营菏泽济宁莱芜聊城临沂日照泰安威海潍坊烟台枣庄淄博太原长治大同晋城晋中临汾吕梁朔州忻州阳泉运城西安安康宝鸡汉中商洛铜川渭南咸阳延安榆林上海成都绵阳阿坝巴中达州德阳甘孜广安广元乐山凉山眉山南充内江攀枝花遂宁雅安宜宾资阳自贡泸州天津拉萨阿里昌都林芝那曲日喀则山南乌鲁木齐阿克苏阿拉尔巴音郭楞博尔塔拉昌吉哈密和田喀什克拉玛依克孜勒苏石河子图木舒克吐鲁番五家渠伊犁昆明怒江普洱丽江保山楚雄大理德宏迪庆红河临沧曲靖文山西双版纳玉溪昭通杭州湖州嘉兴金华丽水宁波绍兴台州温州舟山衢州重庆香港澳门台湾

微信咨询：

客户经理：

15811927359

电话咨询：

15811927359