本篇文章小编给大家分享一下Python使用BeautifulSoup4修改网页内容代码示例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看。
样例的HTML代码如下:
这里主要包括了标签,标签里面嵌入了标签,其中有的标识该标签实际是可以播放动画的。需要根据class="videoslide"来判断将整个标签换成播放器的
这里通过BeautifulSoup4 的select()方法找到标签,通过get()方法获取标签及标签属性值,通过replaceWith来替换标签,具体代码如下:
首先安装BeautifulSoup4的库,BeautifulSoup4库依赖于lxml库,所以也需要安装lxml库。
pip install bs4 pip install lxml
具体代码实现如下:
import os from bs4 import BeautifulSoup htmlstr='' '' '' '' '' '' '' '' '' '' def procHtml(htmlstr): soup = BeautifulSoup(htmlstr, 'lxml') a_tags=soup.select('a') for a_tag in a_tags: a_tag_src = a_tag.get('href') a_tag_filename = os.path.basename(a_tag_src) a_tag_path = os.path.join('src', a_tag_filename) a_tag['href']=a_tag_path next_tag=a_tag.next #判断是视频还是图片,如果a标签带了class="videoslide" 是视频否则是图片 if a_tag.get('class') and 'videoslide'==a_tag.get('class')[0]: # 处理视频文件 media_id = next_tag.get('data-zy-media-id') if media_id: media_url = 'http://www.test.com/travel/show_media/' + str(media_id)+'.mp4' media_filename = os.path.basename(media_url) media_path = os.path.join('src', media_filename) # 将div.video标签替换a标签 video_html = '' video_soup = BeautifulSoup(video_html, 'lxml') a_tag.replaceWith(video_soup.div) else: #获取图片信息 if 'img'==next_tag.name: img_src=next_tag.get('src') # 判断是否路径是否为本地资源 data:image和file: if img_src.find('data:image') == -1 and img_src.find('file:') == -1: img_filename = os.path.basename(img_src) img_path = os.path.join('src', img_filename) # 将
结果: