文章詳情頁

python - 通過正則提取出來的ip，怎么命名

瀏覽：242日期：2022-07-02 11:07:53

問題描述

source_ip = line.split(’- -’)[0].strip() if re.match(’[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}’,source_ip):if source_ip_dict.get(source_ip,’-’)==’-’: source_ip_dict[source_ip]=1else: source_ip_dict[source_ip]=source_ip_dict[source_ip]+1

通過以上的代碼把apache的日志ip提取出來，并且進行統計去重了，提取的ip數據如下： python - 通過正則提取出來的ip，怎么命名

那么要怎么將這些ip地址進行命名分類，如202.108.11.103跟220.181.32.137為百度蜘蛛ip想要實現的效果如下這兩個ip命名為百度蜘蛛，然后把他們的統計數據相加即4336+3411百度蜘蛛 7747

這個要怎么操作

問題解答

回答1：

from itertools import groupbyNAME_IP_MAPPING = { ’202.108.11.103’:’百度蜘蛛’, ’220.181.32.137’: ’百度蜘蛛’,}spiders = [ {’ip’:’202.108.11.103’,’count’:123}, {’ip’:’220.181.32.137’,’count’:345}]# 先用ip通過映射得到名字，再根據名字將spiders里的item分組，之后各自求和存入新的dict中。{k: sum(s[’count’] for s in g) for k, g in groupby(spiders, lambda s:NAME_IP_MAPPING.get(s[’ip’]))}# output: {’百度蜘蛛’: 468}回答2：

可以嘗試構建一個大型的以字典為鍵, 爬蟲名字為值的字典;

ip_map = { ’202.108.11.103’: ’baidu-spider’, ’220’.181.32.137: ’baidu-spider’, ’192.168.1.1’: ’other’ ....}sum = {}for ip in source_ip: print ip sum[ip_mapping.get(ip, ’other’)] = sum.get(ip, 0) + source_ip[ip]print sum回答3：

使用pandas的數據透視表

python - 通過正則提取出來的ip，怎么命名

回答4：

這樣多累啊！為什么不給這個ip分組單獨建立一張表，名為IPGroup （id, ip, groupname)

idipgroupName1202.108.11.103百度蜘蛛2220.181.32.137百度蜘蛛

之后一個SQL就搞定了，多么輕松（設樓主用的表明為IPStastics）

SELECT b.groupName, SUM(a.count)FROM IPStastics a INNER JOIN IPGroup b ON a.ip = b.ipGROUP BY b.groupName

Python 編程

上一條：python 讀取csv文件可以讀取但內容錯誤，但單獨用excel打開正常，如何解決？下一條：兩個思路：python模擬登陸頁面和模擬操作windows程序窗口提交請求

相關文章：

1. html - css中怎么命名顏色比較好？

排行榜

					
					android - Genymotion 模擬器可以做屏幕適配檢測嗎？
前端 - 集思廣益，如何用CSS實現數字上面有一個點
我在導入模板資源時遇到無法顯示的問題，請老師解答下
css - 移動端 盒子內加overflow-y:scroll后 字體會變大
html5 - 前端面試碰到了一個緩存數據的問題，來論壇上請教一下
javascript - 打算寫一個c++的node圖像處理模塊,有沒有推薦的c++圖片處理庫？
macos - 無法source activate  python27
運行python程序時出現“應用程序發生異常”的內存錯誤？
java - butterknife怎么綁定多個view
css3 讓圖片變成灰色(filter)，但針對IE11瀏覽器無效
java - 同步/異步與阻塞/非阻塞之間的差異具體是什么？
				

熱門標簽

成人在线亚洲_国产日韩视频一区二区三区_久久久国产精品_99国内精品久久久久久久

python - 通過正則提取出來的ip，怎么命名

python - 通過正則提取出來的ip，怎么命名