总站首页 | 我要入驻 | 招生合作 | 您好,欢迎访问育优汇,希望本篇文章能够给您带来帮助!
育优汇网 > 动态汇总 > 火星时代IT培训> 长春python培训辅导班

长春python培训辅导班

机构:火星时代IT培训 时间:2021-02-24 16:35:37 点击:181

导语概要

只要你愿意,火星人绝对会倾囊传授知识,助你找到一份靠谱的工作和提升一个合适的状态!火星人用互联网的思维改变我们的学习。火星人提供新的知识,帮你应对变化的互联网世界!

  • 上海昂立日语培训

    火星人——高端IT人才培训

    平面设计、网页设计、室内外设计、影视后期包装、动画游戏等课程

    零基础培训|推荐就业|就业指导(1个月)

    快速咨询



高密度授课,多渠道辅导,标准化设计规范


  • 火星人IT培训

    免费试听


    报名学习之前,可提前与课程顾问老师预约免费试听,试听满意后再报名缴费进行学习

  • 火星人IT培训

    经验讲师教学


    讲师授课经验均十年以上,有实战项目经验,讲师面对面授课,边讲边练,多渠道辅导

  • 火星人IT培训

    网络课程辅导


    报名后免费赠送线上网络课程辅助学习,有助于学生提前预习和课后练习,线上线下同步学习

  • 火星人IT培训

    免费重学


    小班授课,案例教学,支持免费重学,一期没学会可申请免费重学,直到学会为止

  • 火星人IT培训

    可推荐就业


    报名时签订协议,得到在学习过程中应享的利益。完成毕业作品提交学校审核经过之后,可推荐就业

  • 火星人IT培训

    助学援助


    火星人支持分期付款,对条件受限学生提供学习机会,可先学习毕业后再付款,减少学习压力



Python爬虫:细说列表识别提取

排列规则的链接为可以列表块。

列表块范围在主视图区域内为目标列表。

先看下识别结果:


列表识别结果图

提取列表区域xpath宏观分成 三个大步骤

1.可疑列表区域提取

在进行可疑列表区域提取之前需要做一些预处理:因为selenium只能定位到页面上的可见元素,所以先用selenium的 find_elements_by_xpath("//a") 获取所有 可见的<a> ,并对定位到的元素 创建新属性canSee并赋值yeap : self.__web_driver.execute_script("arguments[0].setAttribute('can-see','yeap');", link) (其实你想属性叫什么就叫什么),然后就清洗完毕了。

接下来用lxml库的etree定位到dom树(这里将html直接说成dom树是为了后面提取最小父节点时候好理解)上 所有canSee属性是True的<a>标签节点 。将该节点假如列表A,以三个元素为单位扫描该列表,如下图。


可疑列表区域扫描过程示意图

Tips:

在整个dom树下, 同一子树同一层级的节点 才会提取最小父节点( 最小父节点:层级尽可能的小 )

重复父节点的xpath不要重复计入

有的<a>标签下取text会出现问题,最好 用xpath的string(.)方式

元素清洗时可以初步匹配明显反向特征,匹配成功直接退出

在三大步骤中, 只有这一步是在做加法,剩下的步骤基本是在过滤做减法了 ,所以尽可能的将可疑列表区域收入列表。

代码流程参考:


2.过滤不在主视图区域的可疑列表

2.1 校验x轴

在这该步骤中,校验可疑列表区域是否在主视图范围内。你需要 了解selenium的location方法,了解(x,y)坐标点在浏览器中的意义 ,在该算法中,使用 x轴中位线 作为判断依据。

现有列表区域A,其location为(x1,y1)。列表A中,有最大链接b,其size['width']为x2。若x1+x2 > x轴中位线,则列表A在主视图范围内。

看下图,不难理解:


红线为x轴中位线

代码流程参考:


2.2校验y轴

这一步需要放在 程序最后 ,规则也比较简单,最后校验列表的 location['y'] 是否在浏览器的当前页面中 ,我认为如果你打开网页,一下看不见列表,需要往下拖才有列表,就不是我们需要的主列表了,可能是混进来奇奇怪怪的东西,逻辑比较简单就不贴代码流程了。

3.可扩展规则簇

以上步骤基本可以保证你获得一个穿过了x中位线的列表区域,但极有可能混进去一些奇奇怪怪的东西,或者漏了一些重要的东西。这时候就需要你的这些规则了,比如:

多块列表跨x中位线

是否只是一整个列表的分块,如( http://www.chinasafety.gov.cn/newpage/aqbz/aqbz_gjbzgb.htm )

有或者真的是多个列表,需要过滤,如( http://www.cbrc.gov.cn/shanxi/pcjgMore/601108/left.html )

识别到导航栏或者识别到滚动栏中的新闻,不需要这种东西,需要过滤

过滤规则很简单, 校验xpath中<a>的y坐标,极大值与极小值需要超过一个阀值

*区域含有文本为更多的链接,我相信这种列表也不是我们需要的

还有后续其他的规则往上追加就好OvO

至此列表区域识别已经完成,输出值为列表区域的xpath。

本文内容转载自网络,来源/作者信息已在文章顶部表明,版权归原作者所有,如有侵权请联系我们进行删除!



火星人IT培训

北京三大IT培训机构推荐

  • 火星时代教育

    学校介绍:火星时代教育」-数字艺术教育高端品牌,国内值得信赖的教育机构,30大类线上线下课程(UI设计、影视后期、剪辑包装、室内设计、游戏原画、商业插画)等。全国各地拥有15家教学中心“一地就学,全国择业”入学签订就业保险,学习+就业一站式服务,助您就业无忧.
    学校优势:入学签订就业保险,学习+就业一站式服务!

    立即咨询
    火星人IT培训
  • 汇众教育

    学校介绍: 汇众教育( www.gamfe.com)成立于2004年8月,成立以来始终坚守数字娱乐职业教育主航道,下设游戏学院、动漫学院、数字影视学院、UED学院、VR/AR学院五大学院,目前已在北京、上海、广州、深圳、青岛、武汉、天津、杭州等全国主要城市和地区建设 40+直营校区,累计培养 100000余名专业人才,并输送至全国 50000余家企业,成为目前遍布全国的数字娱乐人才培养基地。
    学校优势: 在新兴朝阳产业人才紧缺,人才培养缺乏成功经验与模式的情况下,汇众教育集团依靠精准的市场定位、高质量的课程体系、严格规范的教学质量管理和完善的就业推荐服务,为中国数字娱乐职业教育行业提供了专业参考及标准,成为数字娱乐职业教育卓越品牌

    立即咨询
    火星人IT培训
  • 达内教育

    学校介绍:
    达内时代科技集团有限公司(简称达内教育),美股交易代码:TEDU,成立于2002年。达内致力于面向IT互联网行业,培养软件开发工程师、测试工程师、系统管理员、智能硬件工程师、UI设计师、网络营销工程师、会计等职场人才。2015年起,推出面向青少年的少儿编程、智能机器人编程、编程数学等K12课程。
    学校优势:达内时代科技集团成人类课程方向:Java企业级应用软件工程师、Java互联网架构软件工程师、Java大数据工程师等

    立即咨询
    火星人IT培训


高密度授课,多渠道辅导,标准化设计规范


  • 火星人IT培训

    免费试听


    报名学习之前,可提前与课程顾问老师预约免费试听,试听满意后再报名缴费进行学习

  • 火星人IT培训

    经验讲师教学


    讲师授课经验均十年以上,有实战项目经验,讲师面对面授课,边讲边练,多渠道辅导

  • 火星人IT培训

    网络课程辅导


    报名后免费赠送线上网络课程辅助学习,有助于学生提前预习和课后练习,线上线下同步学习

  • 火星人IT培训

    免费重学


    小班授课,案例教学,支持免费重学,一期没学会可申请免费重学,直到学会为止

  • 火星人IT培训

    可推荐就业


    报名时签订协议,得到在学习过程中应享的利益。完成毕业作品提交学校审核经过之后,可推荐就业

  • 火星人IT培训

    助学援助


    火星人支持分期付款,对条件受限学生提供学习机会,可先学习毕业后再付款,减少学习压力