博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
天猫淘宝评论数据抓取
阅读量:7222 次
发布时间:2019-06-29

本文共 1474 字,大约阅读时间需要 4 分钟。

import requestsimport re,jsonimport pandasclass base():    def __init__(self,url):        self.url = url    def all_url(self):        return [self.url + "%s" % i for i in range(1,100)]    def loads_jsonp(self,_jsonp):        try:            return json.loads(re.match(".*?({.*}).*",_jsonp,re.S).group(1))        except:            raise ValueError('Invalid Input')    def url_req(self,url):        content = requests.get(url).text        aa = self.loads_jsonp(content)        return aa    def taobao_comment(self,data):        for i in data['comments']:            data = {}            data['昵称']=i['user']['nick']            data['评论']=i['content']            info_list.append(data)    def tianmao_comment(self,data):        for i in data['rateList']:            data = {}            data['昵称']=i['displayUserNick']            data['评论']=i['rateContent']            info_list.append(data)    def comment(self,url):        data = self.url_req(url)        self.tianmao_comment(data) if 'tmall' in url else self.taobao_comment(data)            def main(url):    data = base(url)    for i in data.all_url():        data.comment(i)        print(len(info_list))if __name__ == "__main__":    url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=39258348512&spuId=250685252&sellerId=2106913388&order=3&currentPage='    info_list = []    main(url)    df =pandas.DataFrame(info_list)    df.to_excel('comments.xlsx',index=False)

 

转载于:https://www.cnblogs.com/Erick-L/p/8000637.html

你可能感兴趣的文章
linux 命令大全
查看>>
CentOS 下的MySQL配置
查看>>
struts文件上传
查看>>
网站登录时记住密码
查看>>
越南菜在北京——西贡在巴黎的滋味
查看>>
表单发送文件及加自定义参数
查看>>
500TB——Facebook每天收集的数据量
查看>>
SQL Server数据库备份:通过Windows批处理命令执行
查看>>
HQL: Hibernate查询语言
查看>>
Python学习之(二) Python多线程学习
查看>>
链表的学习--创建、添加和删除元素
查看>>
20155222卢梓杰 实验三 免杀原理与实践
查看>>
xubuntu14.04截图,彻底到Linux一个半月后记
查看>>
VS2008(C#)子页嵌套母版页的控件访问方法(三)——嵌套三层母版页的子页
查看>>
python2读取EXCEL表格内的数据时碰到的问题
查看>>
FFmpeg-20160506-snapshot-bin
查看>>
《Ext JS 4.2 实战》可以买了
查看>>
【maven】 在 MyEcplise上使用maven搭建Web项目
查看>>
在html中显示Flash的代码
查看>>
C/C++STL常用容器用法总结
查看>>