From 4842a5305badd1376d913566f124313bcefa53a3 Mon Sep 17 00:00:00 2001
From: kba977 <kba977@gmail.com>
Date: Fri, 6 Jan 2017 22:18:57 +0800
Subject: [PATCH 1/2] Update weiboSpider.py
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

å¢žåŠ äº†å¯¹æ—¶é—´çš„é‡‡é›†
---
 weiboSpider.py | 118 ++++++++++++++++++++++++++-----------------------
 1 file changed, 63 insertions(+), 55 deletions(-)

diff --git a/weiboSpider.py b/weiboSpider.py
index af787c79..e2744732 100644
--- a/weiboSpider.py
+++ b/weiboSpider.py
@@ -10,22 +10,23 @@
 import traceback
 
 class weibo:
-	cookie = {"Cookie": "your cookie"} #½«your cookieÌæ»»³É×Ô¼ºµÄcookie
-	#weiboÀà³õÊ¼»¯
+	cookie = {"Cookie": "your cookie"} #å°†your cookieæ›¿æ¢æˆè‡ªå·±çš„cookie
+	#weiboç±»åˆå§‹åŒ–
 	def __init__(self,user_id,filter = 0):
-			self.user_id = user_id #ÓÃ»§id£¬¼´ÐèÒªÎÒÃÇÊäÈëµÄÊý×Ö£¬ÈçêÇ³ÆÎª¡°Dear-µÏÀöÈÈ°Í¡±µÄidÎª1669879400
-			self.filter = filter #È¡Öµ·¶Î§Îª0¡¢1£¬³ÌÐòÄ¬ÈÏÖµÎª0£¬´ú±íÒªÅÀÈ¡ÓÃ»§µÄÈ«²¿Î¢²©£¬1´ú±íÖ»ÅÀÈ¡ÓÃ»§µÄÔ­´´Î¢²©
-			self.userName = '' #ÓÃ»§Ãû£¬Èç¡°Dear-µÏÀöÈÈ°Í¡±
-			self.weiboNum = 0 #ÓÃ»§È«²¿Î¢²©Êý
-			self.weiboNum2 = 0 #ÅÀÈ¡µ½µÄÎ¢²©Êý
-			self.following = 0 #ÓÃ»§¹Ø×¢Êý
-			self.followers = 0 #ÓÃ»§·ÛË¿Êý
-			self.weibos = [] #Î¢²©ÄÚÈÝ
-			self.num_zan = [] #Î¢²©¶ÔÓ¦µÄµãÔÞÊý
-			self.num_forwarding = [] #Î¢²©¶ÔÓ¦µÄ×ª·¢Êý
-			self.num_comment = [] #Î¢²©¶ÔÓ¦µÄÆÀÂÛÊý
+			self.user_id = user_id #ç”¨æˆ·idï¼Œå³éœ€è¦æˆ‘ä»¬è¾“å…¥çš„æ•°å­—ï¼Œå¦‚æ˜µç§°ä¸ºâ€œDear-è¿ªä¸½çƒ­å·´â€çš„idä¸º1669879400
+			self.filter = filter #å–å€¼èŒƒå›´ä¸º0ã€1ï¼Œç¨‹åºé»˜è®¤å€¼ä¸º0ï¼Œä»£è¡¨è¦çˆ¬å–ç”¨æˆ·çš„å…¨éƒ¨å¾®åšï¼Œ1ä»£è¡¨åªçˆ¬å–ç”¨æˆ·çš„åŽŸåˆ›å¾®åš
+			self.userName = '' #ç”¨æˆ·åï¼Œå¦‚â€œDear-è¿ªä¸½çƒ­å·´â€
+			self.weiboNum = 0 #ç”¨æˆ·å…¨éƒ¨å¾®åšæ•°
+			self.weiboNum2 = 0 #çˆ¬å–åˆ°çš„å¾®åšæ•°
+			self.following = 0 #ç”¨æˆ·å…³æ³¨æ•°
+			self.followers = 0 #ç”¨æˆ·ç²‰ä¸æ•°
+			self.weibos = [] #å¾®åšå†…å®¹
+			self.num_zan = [] #å¾®åšå¯¹åº”çš„ç‚¹èµžæ•°
+			self.num_forwarding = [] #å¾®åšå¯¹åº”çš„è½¬å‘æ•°
+			self.num_comment = [] #å¾®åšå¯¹åº”çš„è¯„è®ºæ•°
+			self.date = [] # å¾®åšå¯¹åº”çš„æ—¶é—´
 			
-	#»ñÈ¡ÓÃ»§êÇ³Æ		
+	#èŽ·å–ç”¨æˆ·æ˜µç§°		
 	def getUserName(self):
 	  try:
 		url = 'http://weibo.cn/%d/info'%(self.user_id)
@@ -33,12 +34,12 @@ def getUserName(self):
 		selector = etree.HTML(html)
 		userName = selector.xpath("//title/text()")[0]
 		self.userName = userName[:-3].encode('gbk')
-		#print 'ÓÃ»§êÇ³Æ£º' + self.userName
+		#print 'ç”¨æˆ·æ˜µç§°ï¼š' + self.userName
 	  except Exception,e:		 
 		print "Error: ",e 
 		traceback.print_exc()
 		
-	#»ñÈ¡ÓÃ»§Î¢²©Êý¡¢¹Ø×¢Êý¡¢·ÛË¿Êý
+	#èŽ·å–ç”¨æˆ·å¾®åšæ•°ã€å…³æ³¨æ•°ã€ç²‰ä¸æ•°
 	def getUserInfo(self):
 	  try:
 		url = 'http://weibo.cn/u/%d?filter=%d&page=1'%(self.user_id,self.filter)
@@ -46,31 +47,31 @@ def getUserInfo(self):
 		selector = etree.HTML(html)	
 		pattern = r"\d+\.?\d*"
 
-		#Î¢²©Êý
+		#å¾®åšæ•°
 		str_wb = selector.xpath("//div[@class='tip2']/span[@class='tc']/text()")[0]
 		guid = re.findall(pattern, str_wb, re.S|re.M)	
 		for value in guid:	 
 			num_wb = int(value)	 
 			break
 		self.weiboNum = num_wb	
-		#print 'Î¢²©Êý: ' + str(self.weiboNum)	
+		#print 'å¾®åšæ•°: ' + str(self.weiboNum)	
   
-		#¹Ø×¢Êý
+		#å…³æ³¨æ•°
 		str_gz = selector.xpath("//div[@class='tip2']/a/text()")[0]
 		guid = re.findall(pattern, str_gz, re.M)  
 		self.following = int(guid[0])  
-		#print '¹Ø×¢Êý: ' + str(self.following)
+		#print 'å…³æ³¨æ•°: ' + str(self.following)
 
-		#·ÛË¿Êý
+		#ç²‰ä¸æ•°
 		str_fs = selector.xpath("//div[@class='tip2']/a/text()")[1]
 		guid = re.findall(pattern, str_fs, re.M)  
 		self.followers = int(guid[0]) 
-		#print '·ÛË¿Êý: ' + str(self.followers)
+		#print 'ç²‰ä¸æ•°: ' + str(self.followers)
 	  except Exception,e:		 
 		print "Error: ",e
 		traceback.print_exc()
 		
-	#»ñÈ¡ÓÃ»§Î¢²©ÄÚÈÝ¼°¶ÔÓ¦µÄµãÔÞÊý¡¢×ª·¢Êý¡¢ÆÀÂÛÊý	
+	#èŽ·å–ç”¨æˆ·å¾®åšå†…å®¹åŠå¯¹åº”çš„ç‚¹èµžæ•°ã€è½¬å‘æ•°ã€è¯„è®ºæ•°	
 	def getWeiboInfo(self):
 	  try:
 		url = 'http://weibo.cn/u/%d?filter=%d&page=1'%(self.user_id,self.filter)
@@ -81,6 +82,7 @@ def getWeiboInfo(self):
 		else:
 		   pageNum = (int)(selector.xpath('//input[@name="mp"]')[0].attrib['value'])
 		pattern = r"\d+\.?\d*"
+		date_pattern = r'\d+-\d+-\d+.*\d+:\d+:\d+'
 		for page in range(1,pageNum+1):
 		  url2 = 'http://weibo.cn/u/%d?filter=%d&page=%d'%(self.user_id,self.filter,page)
 		  html2 = requests.get(url2, cookies = weibo.cookie).content
@@ -90,58 +92,64 @@ def getWeiboInfo(self):
 		  if len(info) > 3:
 			for i in range(0,len(info)-2):
 			  self.weiboNum2 = self.weiboNum2 + 1
-			  #Î¢²©ÄÚÈÝ
+			  #å¾®åšå†…å®¹
 			  str_t = info[i].xpath("div/span[@class='ctt']")
 			  weibos = str_t[0].xpath('string(.)').encode('gbk','ignore')
 			  self.weibos.append(weibos)
-			  #print 'Î¢²©ÄÚÈÝ£º'+ weibos
-			  #µãÔÞÊý
+			  #print 'å¾®åšå†…å®¹ï¼š'+ weibos
+			  #ç‚¹èµžæ•°
 			  str_zan = info[i].xpath("div/a/text()")[-4]
 			  guid = re.findall(pattern, str_zan, re.M)	 
 			  num_zan = int(guid[0])
 			  self.num_zan.append(num_zan)
-			  #print 'µãÔÞÊý: ' + str(num_zan)
-			  #×ª·¢Êý
+			  #print 'ç‚¹èµžæ•°: ' + str(num_zan)
+			  #è½¬å‘æ•°
 			  forwarding = info[i].xpath("div/a/text()")[-3]
 			  guid = re.findall(pattern, forwarding, re.M)	
 			  num_forwarding = int(guid[0])
 			  self.num_forwarding.append(num_forwarding)			  
-			  #print '×ª·¢Êý: ' + str(num_forwarding)
-			  #ÆÀÂÛÊý
+			  #print 'è½¬å‘æ•°: ' + str(num_forwarding)
+			  #è¯„è®ºæ•°
 			  comment = info[i].xpath("div/a/text()")[-2]
 			  guid = re.findall(pattern, comment, re.M)	 
 			  num_comment = int(guid[0]) 
 			  self.num_comment.append(num_comment)
-			  #print 'ÆÀÂÛÊý: ' + str(num_comment)
+			  #print 'è¯„è®ºæ•°: ' + str(num_comment)
+			  #æ—¶é—´
+			  date = info[i].xpath("div[last()]/span[last()]/text()")[0]
+			  match = re.findall(date_pattern, date, re.M)
+			  date = str(match[0])
+			  self.date.append(date)
+			  # print 'æ—¶é—´: ' + date
 		if self.filter == 0:
-		  print '¹²'+str(self.weiboNum2)+'ÌõÎ¢²©'
+		  print 'å…±'+str(self.weiboNum2)+'æ¡å¾®åš'
 		else:
-		  print '¹²'+str(self.weiboNum)+'ÌõÎ¢²©£¬ÆäÖÐ'+str(self.weiboNum2)+'ÌõÎªÔ­´´Î¢²©'
+		  print 'å…±'+str(self.weiboNum)+'æ¡å¾®åšï¼Œå…¶ä¸­'+str(self.weiboNum2)+'æ¡ä¸ºåŽŸåˆ›å¾®åš'
 	  except Exception,e:		 
 		print "Error: ",e
 		traceback.print_exc()
 	
-	#Ö÷³ÌÐò
+	#ä¸»ç¨‹åº
 	def start(self):
 	  try:
 		weibo.getUserName(self)
 		weibo.getUserInfo(self)
 		weibo.getWeiboInfo(self)
-		print 'ÐÅÏ¢×¥È¡Íê±Ï'
+		print 'ä¿¡æ¯æŠ“å–å®Œæ¯•'
 		print '==========================================================================='
 	  except Exception,e:		 
 		print "Error: ",e
     
-    #½«ÅÀÈ¡µÄÐÅÏ¢Ð´ÈëÎÄ¼þ	
+    #å°†çˆ¬å–çš„ä¿¡æ¯å†™å…¥æ–‡ä»¶	
 	def writeTxt(self):
 	  try:
 		if self.filter == 1:
-		   resultHeader = '\n\nÔ­´´Î¢²©ÄÚÈÝ£º\n'
+		   resultHeader = '\n\nåŽŸåˆ›å¾®åšå†…å®¹ï¼š\n'
 		else:
-		   resultHeader = '\n\nÎ¢²©ÄÚÈÝ£º\n'
-		result = 'ÓÃ»§ÐÅÏ¢\nÓÃ»§êÇ³Æ£º' + self.userName + '\nÓÃ»§id£º' + str(self.user_id) + '\nÎ¢²©Êý£º' + str(self.weiboNum) + '\n¹Ø×¢Êý£º' + str(self.following) + '\n·ÛË¿Êý£º' + str(self.followers) + resultHeader
+		   resultHeader = '\n\nå¾®åšå†…å®¹ï¼š\n'
+		result = 'ç”¨æˆ·ä¿¡æ¯\nç”¨æˆ·æ˜µç§°ï¼š' + self.userName + '\nç”¨æˆ·idï¼š' + str(self.user_id) + '\nå¾®åšæ•°ï¼š' + str(self.weiboNum) + '\nå…³æ³¨æ•°ï¼š' + str(self.following) + '\nç²‰ä¸æ•°ï¼š' + str(self.followers) + resultHeader
 		for i in range(1,self.weiboNum2 + 1):
-		  text=str(i) + ':' + self.weibos[i-1] + '\n'+'µãÔÞÊý£º' + str(self.num_zan[i-1]) + '	 ×ª·¢Êý£º' + str(self.num_forwarding[i-1]) + '	 ÆÀÂÛÊý£º' + str(self.num_comment[i-1]) + '\n\n'
+		  text=str(i) + ':' + self.weibos[i-1] + '\n'+'ç‚¹èµžæ•°ï¼š' + str(self.num_zan[i-1]) + '	 è½¬å‘æ•°ï¼š' + str(self.num_forwarding[i-1]) + '	 è¯„è®ºæ•°ï¼š' + str(self.num_comment[i-1]) + '         æ—¶é—´ï¼š' + str(self.date[i-1])' + '\n\n'
 		  result = result + text
 		if os.path.isdir('weibo') == False:
 		   os.mkdir('weibo')
@@ -149,23 +157,23 @@ def writeTxt(self):
 		f.write(result)
 		f.close()
 		file_path=os.getcwd()+"\weibo"+"\%d"%self.user_id+".txt"
-		print 'Î¢²©Ð´ÈëÎÄ¼þÍê±Ï£¬±£´æÂ·¾¶%s'%(file_path)
+		print 'å¾®åšå†™å…¥æ–‡ä»¶å®Œæ¯•ï¼Œä¿å­˜è·¯å¾„%s'%(file_path)
 	  except Exception,e:		 
 		print "Error: ",e 
 		traceback.print_exc()		
 		
 		
-#Ê¹ÓÃÊµÀý,ÊäÈëÒ»¸öÓÃ»§id£¬ËùÓÐÐÅÏ¢¶¼»á´æ´¢ÔÚwbÊµÀýÖÐ		
-user_id = 1669879400 #¿ÉÒÔ¸Ä³ÉÈÎÒâºÏ·¨µÄÓÃ»§id£¨ÅÀ³æµÄÎ¢²©id³ýÍâ£©
-filter = 1 #ÖµÎª0±íÊ¾ÅÀÈ¡È«²¿µÄÎ¢²©ÐÅÏ¢£¨Ô­´´Î¢²©+×ª·¢Î¢²©£©£¬ÖµÎª1±íÊ¾Ö»ÅÀÈ¡Ô­´´Î¢²©
-wb = weibo(user_id,filter) #µ÷ÓÃweiboÀà£¬´´½¨Î¢²©ÊµÀýwb
-wb.start() #ÅÀÈ¡Î¢²©ÐÅÏ¢
-print 'ÓÃ»§Ãû£º' + wb.userName
-print 'È«²¿Î¢²©Êý£º' + str(wb.weiboNum)
-print '¹Ø×¢Êý£º' + str(wb.following)
-print '·ÛË¿Êý£º' + str(wb.followers)
-print '×îÐÂÒ»ÌõÎ¢²©Îª£º' + wb.weibos[0] #Èôfilter=1ÔòÎª×îÐÂµÄÔ­´´Î¢²©£¬Èç¹û¸ÃÓÃ»§Î¢²©ÊýÎª0£¬¼´len(wb.weibos)==0,´òÓ¡»á³ö´í£¬ÏÂÍ¬
-print '×îÐÂÒ»ÌõÎ¢²©»ñµÃµÄµãÔÞÊý£º' + str(wb.num_zan[0])
-print '×îÐÂÒ»ÌõÎ¢²©»ñµÃµÄ×ª·¢Êý£º' + str(wb.num_forwarding[0])
-print '×îÐÂÒ»ÌõÎ¢²©»ñµÃµÄÆÀÂÛÊý£º' + str(wb.num_comment[0])
-wb.writeTxt() #wb.writeTxt()Ö»ÊÇ°ÑÐÅÏ¢Ð´µ½ÎÄ¼þÀï£¬´ó¼Ò¿ÉÒÔ¸ù¾Ý×Ô¼ºµÄÐèÒªÖØÐÂ±àÐ´writeTxt()º¯Êý
\ No newline at end of file
+#ä½¿ç”¨å®žä¾‹,è¾“å…¥ä¸€ä¸ªç”¨æˆ·idï¼Œæ‰€æœ‰ä¿¡æ¯éƒ½ä¼šå­˜å‚¨åœ¨wbå®žä¾‹ä¸­		
+user_id = 1669879400 #å¯ä»¥æ”¹æˆä»»æ„åˆæ³•çš„ç”¨æˆ·idï¼ˆçˆ¬è™«çš„å¾®åšidé™¤å¤–ï¼‰
+filter = 1 #å€¼ä¸º0è¡¨ç¤ºçˆ¬å–å…¨éƒ¨çš„å¾®åšä¿¡æ¯ï¼ˆåŽŸåˆ›å¾®åš+è½¬å‘å¾®åšï¼‰ï¼Œå€¼ä¸º1è¡¨ç¤ºåªçˆ¬å–åŽŸåˆ›å¾®åš
+wb = weibo(user_id,filter) #è°ƒç”¨weiboç±»ï¼Œåˆ›å»ºå¾®åšå®žä¾‹wb
+wb.start() #çˆ¬å–å¾®åšä¿¡æ¯
+print 'ç”¨æˆ·åï¼š' + wb.userName
+print 'å…¨éƒ¨å¾®åšæ•°ï¼š' + str(wb.weiboNum)
+print 'å…³æ³¨æ•°ï¼š' + str(wb.following)
+print 'ç²‰ä¸æ•°ï¼š' + str(wb.followers)
+print 'æœ€æ–°ä¸€æ¡å¾®åšä¸ºï¼š' + wb.weibos[0] #è‹¥filter=1åˆ™ä¸ºæœ€æ–°çš„åŽŸåˆ›å¾®åšï¼Œå¦‚æžœè¯¥ç”¨æˆ·å¾®åšæ•°ä¸º0ï¼Œå³len(wb.weibos)==0,æ‰“å°ä¼šå‡ºé”™ï¼Œä¸‹åŒ
+print 'æœ€æ–°ä¸€æ¡å¾®åšèŽ·å¾—çš„ç‚¹èµžæ•°ï¼š' + str(wb.num_zan[0])
+print 'æœ€æ–°ä¸€æ¡å¾®åšèŽ·å¾—çš„è½¬å‘æ•°ï¼š' + str(wb.num_forwarding[0])
+print 'æœ€æ–°ä¸€æ¡å¾®åšèŽ·å¾—çš„è¯„è®ºæ•°ï¼š' + str(wb.num_comment[0])
+wb.writeTxt() #wb.writeTxt()åªæ˜¯æŠŠä¿¡æ¯å†™åˆ°æ–‡ä»¶é‡Œï¼Œå¤§å®¶å¯ä»¥æ ¹æ®è‡ªå·±çš„éœ€è¦é‡æ–°ç¼–å†™writeTxt()å‡½æ•°

From 20e0d579a60807a62d5e7763ce45a8d91375dad2 Mon Sep 17 00:00:00 2001
From: kba977 <kba977@gmail.com>
Date: Fri, 6 Jan 2017 22:23:57 +0800
Subject: [PATCH 2/2] Update weiboSpider.py

---
 weiboSpider.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/weiboSpider.py b/weiboSpider.py
index e2744732..e424e743 100644
--- a/weiboSpider.py
+++ b/weiboSpider.py
@@ -33,7 +33,7 @@ def getUserName(self):
 		html = requests.get(url, cookies = weibo.cookie).content
 		selector = etree.HTML(html)
 		userName = selector.xpath("//title/text()")[0]
-		self.userName = userName[:-3].encode('gbk')
+		self.userName = userName[:-3].encode(sys.stdout.encoding)
 		#print 'ç”¨æˆ·æ˜µç§°ï¼š' + self.userName
 	  except Exception,e:		 
 		print "Error: ",e 
@@ -94,7 +94,7 @@ def getWeiboInfo(self):
 			  self.weiboNum2 = self.weiboNum2 + 1
 			  #å¾®åšå†…å®¹
 			  str_t = info[i].xpath("div/span[@class='ctt']")
-			  weibos = str_t[0].xpath('string(.)').encode('gbk','ignore')
+			  weibos = str_t[0].xpath('string(.)').encode(sys.stdout.encoding,'ignore')
 			  self.weibos.append(weibos)
 			  #print 'å¾®åšå†…å®¹ï¼š'+ weibos
 			  #ç‚¹èµžæ•°