抓取新冠肺炎数据 发表于 2020-01-18 | 分类于 Demo 爬虫Demo——抓取新冠肺炎数据简介 使用Python的requests模块请求数据 re正则匹配所需数据信息 pandas模块保存信息 json模块对数据解码 数据来源:丁香医生疫情实时动态 代码分析1234567891011121314151617181920212223242526272829import reimport requestsimport jsonimport pandas as pdfrom datetime import datetimedata_url = 'https://ncov.dxy.cn/ncovh5/view/pneumonia'page = requests.get(data_url).content.decode("utf-8") # 抓取页面数据并解码# print(page)# 观察数据,通过正则表达式匹配所需信息regex = '<script id="getListByCountryTypeService2">([^<]+)' # 匹配全球肺炎信息data = re.findall(regex, page)data = data[0][43:-11] # 截取json格式的数据 [{},{}],截取范围可以通过len()函数确定# print(data)data = json.loads(data) # 解析json页面,将json字符串转换为list与dict# print(data)# 转换时间戳for row in data: for k in row: if k in ['createTime','modifyTime']: row[k] = datetime.fromtimestamp(row[k]/1000).strftime("%Y-%m-%d")# 使用pandas模块保存数据# DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表data = pd.DataFrame(data) # 由于我们的数据是严格的字典列表形式,可以不设置行列索引,pandas会自动解析data.to_csv("新冠肺炎数据.csv",mode='a') # 追加存储 爬取结果 接下来我们可以通过python的数据分析模块进一步分析数据! ------ ���Ľ���------