当前位置: 首页 > news >正文

requests+re爬取猫眼电影排行

import requests
from requests.exceptions import RequestException
import re,json,timedef get_one_page(url):#获取网页信息try:headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'}response = requests.get(url,headers=headers)if response.status_code==200:print(response.text)return response.textelse:return Noneexcept RequestException:return Nonedef parse_one_page(html):#正则解析pattern = re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?title="(.*?)".*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>',re.S)#print(pattern)items = re.findall(pattern, html)for item in items:yield {  #yield 生成器'index': item[0],'image': item[1],'title': item[2],'actor': item[3].strip()[3:] if len(item[3]) > 3 else '',# strip()方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。注意:该方法只能删除开头或是结尾的字符,不能删除中间部分的字符。'time': item[4].strip()[5:] if len(item[4]) > 5 else '','score': item[5] + item[6]}def write_to_file(conent):#写入文件with open('result3.txt','a',encoding='utf-8') as f:#print(type(json.dump(conent)))f.write(json.dumps(conent,ensure_ascii=False)+'\n')def main(offset):#每一页都是有规律的变化,都是offset的值在改变url = 'https://maoyan.com/board/4?offset='+str(offset)html=get_one_page(url)#print(html)#print('------------------------------')items = parse_one_page(html)for item in items:print(item)print('------------')write_to_file(item)if __name__ == '__main__':for i in range(10):main(offset=i*10)time.sleep(1)

会遇到反爬:有可能只能爬前两页的内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.exyb.cn/news/show-2820.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

Twitter教程:如何下载Twitter数据副本?

Twitterrific Mac破解版是一款非常现代化优秀的桌面Twitter客户端,这款软件不仅看起来惊人,它的表现也是非常棒的,本文给大家的带来了如何下载Twitter数据副本的教程。 教程如下 在 iPhone 或 iPad 上打开“Twitter”。&#xff08;您也可以使用 Twitter.com 网站&#xff09…...

【内网学习笔记】8、powercat 的使用

1、下载安装 powercat powercat 可以视为 nc 的 powershell 版本&#xff0c;因此也可以和 nc 进行连接。 powercat 可在 github 进行下载&#xff0c;项目地址为&#xff1a;https://github.com/besimorhino/powercat 下载下来 powercat.ps1 文件后&#xff0c;直接导入即可…...

栈和队列(二) : 用栈实现队列

leetcode232.用栈实现队列 https://leetcode-cn.com/problems/implement-queue-using-stacks/ 使用栈实现队列的下列操作&#xff1a; push(x) – 将一个元素放入队列的尾部。 pop() – 从队列首部移除元素。 peek() – 返回队列首部的元素。 empty() – 返回队列是否为空。…...

测试技巧:弱网测试

弱网测试场景 当前APP网络环境比较复杂&#xff0c;网络制式有2G、3G、4G网络&#xff0c;还有越来越多的公共Wi-Fi。不同的网络环境和网络制式的差异&#xff0c;都会对用户使用app造成一定影响。另外&#xff0c;当前app使用场景多变&#xff0c;如进地铁、上公交、进电梯等…...

PMP哪里报名

首先了解下PMP考试时间&#xff0c;一年四次&#xff0c;正常情况是每年3、6、9、12月份考试&#xff1b; 其次了解PMP考试需要两次报名&#xff0c;分别是英文报名和中文报名&#xff1b;且两次报名通过后&#xff0c;才能正常考试。 下面分别介绍PMP英文报名和PMP考试中文报…...

PHP中使用ElasticSearch

PHP中使用ElasticSearch 使用cURL尝试ElasticSearch查看es基本信息列出所有的Index列举每个Index下的Type添加Index删除Index安装中文分词插件ik (安装完需要重启es)创建一个Index,并设置其结构和分词向Index增加记录POST方式(POST方式不需要传id,id随机生成)查看指定条目…...

Thread类的常用方法

Thread类的常用方法 void start(): 启动线程&#xff0c;并执行对象的run()方法run(): 线程在被调度时执行的操作static Thread currentThread()&#xff1a; 返回当前线程。在Thread子类中就 是this&#xff0c;通常用于主线程和Runnable实现类String getName(): 返回线程的名…...

浅谈设计模式(三)

前言 之前详细介绍了几种常用的设计模式&#xff0c;最后总结一下附上所有设计模式的类图以及六大设计原则 一、创建型 1.Factory Method&#xff08;工厂方法&#xff09; 定义&#xff1a;定义了一个创建对象的接口&#xff0c;但由子类决定要实例化的类是哪一个。工厂方法…...

AR增强现实让科技贴近生活

AR也叫增强现实&#xff0c;它是在1990年被正式提出的&#xff0c;在时间上要比VR虚拟现实技术晚一些&#xff0c;它的实现主要通过三维空间、场景交融、现实视频等技术相互作用、融合实现的。 AR增强现实技术在工业领域中&#xff0c;有着超强的适用性&#xff0c;假设某件工…...

c++程序设计中虚基类,多继承知识点

一.前言 如上 二.题目 分别声明Teacher(教师)类和Cadre(干部)类&#xff0c;采用多重继承方式由这两个类派 生出新类Teacher_Cadre(教师兼干部&#xff09;类。要求&#xff1a; &#xff08;1)在两个基类中都包含姓名、年龄、性别、地址、电话等数据成员。 &#xff08;2&a…...

FFmpeg:avcodec_encode_video()

本文简单分析FFmpeg的avcodec_encode_video2()函数。该函数用于编码一帧视频数据。avcodec_encode_video2()函数的声明位于libavcodec\avcodec.h&#xff0c;如下所示。 /*** Encode a frame of video.** Takes input raw video data from frame and writes the next output p…...

SpringBoot中必须掌握的45个注解

1.SpringBoot/spring SpringBootApplication: 包含Configuration、EnableAutoConfiguration、ComponentScan通常用在主类上&#xff1b; Repository: 用于标注数据访问组件&#xff0c;即DAO组件&#xff1b; Service: 用于标注业务层组件&#xff1b; RestController: …...

侯捷CPP---面向对象(上)

侯捷CPP---面向对象&#xff08;上&#xff09;前言头文件防卫式声明class 分类不带指针的class&#xff08;complex&#xff09;成员变量私有化inline function&#xff08;内联函数&#xff09;构造函数常量成员函数参数传递返回值传递友元函数操作符重载临时对象带指针的cla…...

使用注解开发

1&#xff1b; 2.mapper 2.测试...

苏宁易购启动六一宝宝节,首提“共情消费”

5月26日晚8点&#xff0c;苏宁易购六一宝宝节掰头大会在多个平台播出。六一宝宝节全面启动。 六一宝宝节定位于打破营销套路&#xff0c;打破传统电商促销节奏。它是大促&#xff0c;更是一场成年人释放压力、共情消费的盛典。 掰头大会灵魂辩题 开启宝宝节 六一宝宝节的启…...

设计一个windows应用程序,定义一个Student类,包含学号和姓名两个字段,并定义一个班级类ClassList

设计一个windows应用程序&#xff0c;定义一个Student类&#xff0c;包含学号和姓名两个字段&#xff0c;并定义一个班级类ClassList&#xff0c;该类包含一个Student集合&#xff0c;使用索引器访问该集合。 &#xff08;1&#xff09;创建一个Windows应用程序Myproject6_1。 …...

HTML表单标签,已拿offer附真题解析

前言 校招 -1 年 这个阶段还属于成长期&#xff0c;更需要看重的是你的基础和热情。对于 JS 基础&#xff0c;计算机基础&#xff0c;网络通信&#xff0c;算法等部分的要求会相对高一些。毕竟这个阶段比较难考察你的业务项目中的沉淀&#xff0c;所以只能从基础部分入手考察。…...

python笔记19年8月23日

-------------py打包exe教程------------ 准备好需要转换的py文件和一张用于做图标.ico的照片 将他们存放于同一个文件夹中,文件的路径全部为英文路径 1.利用cmd窗口安装pyinstaller插件 指令 :pip install pyinstaller 2.使用cd指令到py文件夹 3.执行命令 pyinstaller -F -i X…...

系统集成模拟3-55分

1、合同法律关系是指由合同法律法规调整的在民事流转过程中形成的&#xff08;权利义务关系&#xff09; 2、当已经采取了多种沟通方式还未能与用户达成一致时&#xff0c;应考虑沟通升级原则-双方高层沟通 3、数据域安全包括&#xff1a;行级数据域安全&#xff0c;数据域安全…...

Centos7 配置DHCP

实验内容及步骤 1、实验背景 某企业计划构建一台 DHCP服务器来解决IP地址动态分配的问题&#xff0c;要求能够分配 IP地址以及网关、DNS等其它网络属性信息。同时要求DHCP服务器为DNS、WEB、Samba服务器分配固定IP 地址。 2、网络拓扑 略. 3、实验环境 假设企业DHCP服务器…...

部署k8s

安装docker 参考菜鸟教程&#xff1a;Ubuntu Docker 安装 | 菜鸟教程 (runoob.com) docker配置 1、当前用户加入"docker"用户组 sudo usermod -aG docker $USER2、 配置 cgroup 驱动为 systemd sudo vim /etc/docker/daemon.json # 创建文件 /etc/docker/daemo…...

Android Studio 使用Token登录Git

获取Token地址&#xff1a;https://github.com/settings/tokens...

6 python数据分析基础——批量进行数据分析(二)

目录 七、使用相关系数判断数据的相关性 1、使用相关系数判断数据的相关性 2、求单个变量和其他变量间的相关性 八、使用方差分析对比数据的差异 1、使用方差分析对比数据的差异 2、绘制箱形图识别异常值 九、使用描述统计和直方图制定目标 1、使用描述统计和直方图制定…...

pytorch代码学习1

这篇文章所写的内容主要是基于Context-Aware_Crowd_Counting-pytorch 的代码写的 1.在深度学习领域&#xff0c;会训练出一个模型&#xff0c;在使用训练好的模型时&#xff0c;其中有一种保存的模型文件格式叫.npy 2.os.path.join()函数&#xff1a;连接两个或更多的路径名组…...

秃头少女日记之初识HTML

一、HTML的介绍 1、HTML的概述&#xff1a; HTML称为超文本标记语言&#xff0c;是一种标识性的语言。它包括一系列标签&#xff0e;通过这些标签可以将网络上的文档格式统一&#xff0c;使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本&…...

翻译文章 | Just gopher it!无回显SSRF升级为RCE

前言: 发现此漏洞的bug bounty团队不允许公开披露&#xff0c;因此我不会直接命名所涉及的程序。 我能说的是&#xff0c;这是在Hackerone运行时间最长、规模最大的bug赏金活动中发现的。多个Hackerone的现场黑客活动已经包括这个活动。 毋庸置疑&#xff0c;这是一家拥有世…...

跨域请求

/* * Description: 配置文件 */ module.exports { publicPath: "./", devServer: { open: true, proxy: "http://106.15.179.105/api" //跨域路径 }, }; // proxy是代理的意思 // 代理跨域就是在欺骗浏览器 让浏览器认为你访问的还是 同…...

音频播客个人主页HTML5模板

简介&#xff1a; 音频播客个人主页HTML5模板 网盘下载地址&#xff1a; http://kekewl.net/v9EzEhwAarU0 图片&#xff1a;...

使用 openssl 计算 base64(防止内存泄露)

#include "openssl/bio.h" #include "openssl/evp.h" #include "openssl/buffer.h"int base64(const unsigned char *src, int src_len, unsigned char *dst, int *dst_len) {BIO *bio_hnd_mem NULL;BIO *bio_hnd_meth NULL;BUF_MEM *buf_me...

如何抓取modem开机log

1. adb root 2. adb shell cat /sys/bus/msm_subsys/devices/subsys*/name 3. 根据2输出的结果从上往下数&#xff0c;从0开始数&#xff0c;数到modem是数字几&#xff0c;那么*号就用几来替代&#xff0c;比如数到moddem是3&#xff0c;那么modem对应的子系统就是subsys3 4…...

Qt中帧率 计算

QTimer *time new QTimer(this); connect(time,&QTimer::timeout,this,[](){static QTime time(QTime::currentTime());//double key time.elapsed()/1000.0;this->replot();static double lastFpsKey 0;static int frameCount;frameCount;if(key - lastFpsKey>...

上拉电阻和下拉电阻判断

判断上下拉电阻时&#xff0c;只需要看按键按下之前&#xff0c;两端是高电平还是低电平。例如&#xff1a; R1这个电阻&#xff0c;一端接VCC&#xff0c;在按键按下之前两端是高电平&#xff0c;所以它就是上拉电阻&#xff0c;是为了检测低电平输入。 R2这个电阻&#xf…...

JavaScript检查数组中是否有重复值

参考文章&#xff1a;https://www.jianshu.com/p/2cbe951b2997 function repeatnum(arr){if((new Set(arr)).size ! arr.length){console.log(repeat);} }var arr1 [1,2,3,4,5,2,3];repeatnum(arr1); repeat...

OpenCV实战——角度测量

角度测量 1. OpenCV鼠标操作基本知识 链接&#xff1a;鼠标操作 对于这个项目而言&#xff0c;知道这么多已经够用了。 2. 获取鼠标点击得到的点坐标 import cv2 import math# 读入带有角度的图片 path angle.png img cv2.imread(path) # 鼠标点击位置坐标列表 pointsLis…...

matlab中测交流电压,间接测量交流电压有效值的方法与应用

摘 要&#xff1a; 介绍了一种间接测量交流电压有效值的新方法。基于不同正弦电压与基准电压比较&#xff0c;会得到脉宽不同的矩形波这一基本物理现象&#xff0c;利用单片机测量矩形波正脉宽&#xff0c;通过测宽得到的计数值N间接反映正弦电压有效值。详细解释了测量原理&am…...

[渝粤教育] 西南科技大学 电子技术基础 在线考试复习资料

电子技术基础——在线考试复习资料 一、单选题 1.一个8选一的数据选择器,其地址输入(选择控制输入)端有( )个 A.1 B.2 C.3 D.4 2.8位移位寄存器,将并行数据经( )个脉冲后,能输出8位串行数据 A.1 B.7 C.4 D.8 3.逻辑函数FABBCCA,则( ) A. B. C. D. 4…...

SERS和微流控

2021.9.21 Review of microfluidic approaches for surface-enhanced Raman scattering 传统混合 一般的混合问题在于&#xff0c;制作的Ag难以保存 一 .Nanostructure colloids as SERS-sensitive elements 纳米结构胶体作为SERS敏感元件 Although noble metal nanostructu…...

SV实验3 子系统验证和测试点划分

文章目录Testbench结构划分测试功能点仿真命令之前学习的一些验证要素&#xff1a; 验证环境按隔离的概念&#xff0c;分为硬件DUT&#xff0c;软件testbench和接口interface&#xff1b; 验证阶段分为建立阶段(build),连接阶段(connect)&#xff0c;产生激励阶段(generator)和…...

C Primer Plus 第11章_字符串和字符串函数_代码和练习题

11.1 表示字符串和字符串I/O 字符串是以空字符&#xff08;\0&#xff09;结尾的char类型数据。 strings1.c 演示在程序中表示字符串的几种方式 #include <stdio.h> #define MSG "I am a symbolic string constant." #define MAXLENGTH 81int main(void) {ch…...

如何测试c语言程序运行时间

#include<stdio.h> #include<time.h> int main() {clock_t start, stop;void fun();start clock();fun();stop clock();double duration ((double)(start - stop)) / CLK_TCK;printf("%lf", duration);return 0; }...

测试人多少岁的软件,抖音你的三观多少岁免费测试app

抖音你的三观多少岁免费测试app是一款非常好玩的三观测试软件&#xff0c;所谓三观&#xff0c;指的是价值观、人生观和世界观。三观对一个人的生活起着决定作用,所以拥有一个正确的三观太重要了。你的三观你了解么&#xff1f;如果对自己的三观比较模糊的用户可以通过这款软件…...

手把手教你玩多数据源动态切换

为了提高应用的可靠性&#xff0c;多数据源现在也很常见&#xff0c;数据库可以搭建双 M 结构&#xff0c;这个松哥之前也发文和大家分享过如何搭建双 M 结构的主从备份&#xff1f;&#xff0c;那么 Java 代码里该如何操作多数据源呢&#xff1f; 我在 19 年的时候写过几篇文…...

2019.7学习总结-目标检测-Python+pytorch

目录 1、基础知识 1.1、dict的copy: 1.2、torch.cuda.synchronize() 1.3、在CenterNet里 1.4、torch.gather、topk用法&#xff1a; 1.5、torch常用的函数 1.6 torch.gather实现找3维度的Index 1.7、pytorch的modelz的parameter 2、kernel 2.1、核函数 2.2 不同的核…...

三磁环网络变压器圈比如何用LCR测量仪来检测?

网络变压器的工作原理&#xff1a;三磁环网络变压器圈比如何用LCR测量仪来检测&#xff1f; 盈盛电子导读&#xff1a;上节给大家分享了&#xff1a;如何用LCR测量仪检测双磁环网络变压器圈比&#xff0c;我们对用LCR测量仪检测双磁环网络变压器圈比已有一定的了解了&#xff0…...

大闸蟹的 O O 第三单元日子——中测与强测的惨烈修罗场

第三单元是大闸蟹体验及其差的一单元&#xff0c;鬼知道从一开始的自信慢慢到最后的自暴自弃我都经历了什么&#xff0c;我已经感觉到分数与gpa与头发都在渐渐和我说再见了 JML基础梳理及工具链 JML(Java Modeling Language)是用于对Java程序进行规格化设计的一种表示语言。其旨…...

代谢组学检测公司怎么挑选,需要考虑哪些方面?-百趣生物

代谢组学检测公司应该怎么选择&#xff1f;代谢组学检测服务除了要考虑样本的价格、检测周期还需要考虑哪方面呢&#xff1f;当然还要考虑数据~ 近期&#xff0c;BIOTREE推出了发现代谢组学-MIX版&#xff0c;实现了非靶标代谢组学物质鉴定数量的大幅度提升&#xff0c;物质定…...

【阿里巴巴百川掌中测 限量内测招募啦】来自阿里的移动开发测试洪荒之力

Q :可否解密一下掌中测是一款什么样的产品&#xff1f; A&#xff1a;我们自己在做开发的时候发现&#xff0c;传统移动端产品研发过程中&#xff0c;需要用到各种工具&#xff0c;这些工具的配置或者使用方法往往比较繁琐&#xff0c;比如说&#xff0c;需要连接电脑、需要设…...

java中测长度的方法,java获取文件大小的几种方法

目前java获取文件大小的方法有两种&#xff1a;1、通过file的length()方法获取&#xff1b;2、通过流式方法获取&#xff1b;通过流式方法又有两种&#xff0c;分别是旧的java.io.*中fileinputstream的available()方法和新的java..nio.*中的filechannel下面依次介绍这几种方法&…...

linux中测端口通讯nc,linux命令之 - nc 测试端口的连通

简介nc是netcat工具的命令&#xff0c;是一个很好用的网络工具。比如&#xff0c;可以用来端口扫描&#xff0c;文件传输等网络功能。命令帮助nc -hGNU netcat 0.7.1, a rewrite of the famous networking tool.Basic usages:connect to somewhere: nc [options] hostname port…...

C++中测数组的长度

C、C中没有提供 直接获取数组长度的函数&#xff0c;对于存放字符串的字符数组提供了一个strlen函数获取长度&#xff0c;那么对于其他类型的数组如何获取他们的长度呢&#xff1f;其中一种方法是使 用sizeof(array) / sizeof(array[0]), 在C语言中习惯上在 使用时都把它定义成…...