程序设计『Programing』

获取网页中所有的文字

2018年8月17日没有评论

# encoding=utf8

import sys

reload(sys)

sys.setdefaultencoding('utf8')

import re
import requests
from bs4 import BeautifulSoup


html = requests.get('https://mp.weixin.qq.com/s?src=11×tamp=1533887718&ver=1051&signature=Xszdx5nmmHyebcH0MXxyHi7-jDwGoNDUDXCHJzPVic68tXGRSTiM3CStUDfSR*aALaC3nK3Ez4e33uLR5ir1pLgy3vEvWXWOvVXgAbsXMn5fB-HWboOW26GH*KMRVhgX&new=1')
soup = BeautifulSoup(html.text, "html5lib")
data = soup.findAll(text=True)


def visible(element):
    if element.parent.name in ['style', 'script', '[document]', 'head', 'title']:
        return False
    elif re.match('', str(element.encode('utf-8'))):
        return False
    return True


result = filter(visible, data)

with open('res.txt', "w+") as p:
    for i in result:
        print(str(i))
        p.write(str(i))


print list(result)

闺蜜圈 APP

☆版权☆

* 网站名称：obaby@mars
* 网址：https://baby.lc/
* 个性：https://oba.by/
* 本文标题：《获取网页中所有的文字》
* 本文链接：https://baby.lc/2018/08/6238
* 短链接：https://oba.by/?p=6238
* 转载文章请标明文章来源，原文标题以及原文链接。请遵从《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。

Python

Previous Post Next Post

obaby

爱好广泛的火星小妖精，有问题欢迎留言交流啊~(✪ω✪) 爬虫类工具请先点击这个链接查看用法https://oba.by/?p=12240 闺蜜圈APP下载 https://guimiquan.cn

发表回复取消回复

本站所破解的程序仅限于分析研究使用，不可用于非法用途，如果喜欢该软件请购买正版。由于程序所造成的损失本人概不负责。(Findu App由于阿里旺信服务关闭，暂时停止推荐，如果想和我一块开发，请联系我~~)

QQ：382291381
QQ群：777692924

本站其他域名列表(301跳转本站)：

da.bi oba.by nai.dog lang.bi lang.ma h4ck.ws loli.gifts danteng.me zhongxiaojie.com zhongxiaojie.cn

皮皮社长 on 永夜: “我有个不太成熟的想法，请问小姐姐，“灵儿…” 12 月 28, 14:00
游钓四方 on ❤️闺蜜圈（大姨妈记录） APP/H5/小程序[置顶] — 5.0.21（更新时间：2025.12.15）: “好家伙，都是狼灭，明天我来试试” 12 月 28, 08:55
倦意 on 永夜: “不是姐你咋瘦了这么多呀？” 12 月 27, 16:06
全局变量 on 永夜: “穿上逛街滚动显示：广告招租。哈哈” 12 月 27, 11:56
蒙需 on 永夜: “即将来临的 2026 ，祝开发事业越来越…” 12 月 26, 14:25
奇末 on 永夜: “路过串个门，顺便看了套影集” 12 月 26, 14:19
芭芭雅嘎 on 永夜: “那是因为姐姐太过于年轻，才显得我网站比较…” 12 月 26, 03:48
SSShooter on 西西弗斯的巨石: “上架一个平台算起来要花多少钱多少时间呢？” 12 月 25, 21:44