遇到过得反爬虫策略以及解决方法?
1.通过headers反爬虫 2.基于用户行为的发爬虫:(同一IP短时间内访问的频率) 3.动态网页反爬虫(通过ajax请求数据,或者通过JavaScript生成) 4.对部分数据进行加密处理的(数据是乱码)
解决方法:
对于基本网页的抓取可以自定义headers,添加headers的数据 使用多个代理ip进行抓取或者设置抓取的频率降低一些, 动态网页的可以使用selenium + phantomjs 进行抓取 对部分数据进行加密的,可以使用selenium进行截图,使用python自带的pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理。
1 urllib 和 urllib2 的区别?
2 列举网络爬虫所用到的网络数据包,解析包?
3 简述一下爬虫的步骤?
4 遇到反爬机制怎么处理?
5 常见的HTTP方法有哪些?
6 说一说redis-scrapy中redis的作用?
7 遇到的反爬虫策略以及解决方法?
8 如果让你来防范网站爬虫,你应该怎么来提高爬取的难度 ?
9 scrapy分为几个组成部分?分别有什么作用?
10 简述一下scrapy的基本流程?
11 python3.5语言中enumerate的意思是
12 你是否了解谷歌的无头浏览器?
13 scrapy和scrapy-redis的区别?
14 scrapy的优缺点?为什么要选择scrapy框架?
15 scrapy和requests的使用情况?
16 描述一下scrapy框架的运行机制?
17 写爬虫使用多进程好,还是用多线程好?
18 常见的反爬虫和应对方法?
19 分布式爬虫主要解决什么问题?
20 如何提高爬取效率?
21 说说什么是爬虫协议?
22 如果对方网站反爬取,封IP了怎么办?
23 有一个jsonline格式的文件file
24 补充缺失的代码
25 输入日期, 判断这一天是这一年的第几天?
26 打乱一个排好序的list对象alist?
27 现有字典 d= {‘a’:24,’g’:52,’i’:12,’k’:33}请按value值进行排序?
28 字典推导式
29 请反转字符串 “aStr”?
30 将字符串 “k:1 |k1:2|k2:3|k3:4″,处理成字典 {k:1,k1:2,
31 请按alist中元素的age由大到小排序
32 下面代码的输出结果将是什么?
33 写一个列表生成式,产生一个公差为11的等差数列
34 给定两个列表,怎么找出他们相同的元素和不同的元素?
35 请写出一段python代码实现删除list里面的重复元素?
36 给定两个list A,B ,请用找出A,B中相同与不同的元素
37 python新式类和经典类的区别?
38 python中内置的数据结构有几种?
39 python如何实现单例模式?请写出两种实现方式?
40 反转一个整数,例如-123 –> -321
41 设计实现遍历目录与子目录,抓取.pyc文件?
42 Python-遍历列表时删除元素的正确做法
43 字符串的操作题目
44 可变类型和不可变类型
45 is和==有什么区别?
46 求出列表所有奇数并构造新列表
47 用一行python代码写出1+2+3+10248
48 Python中变量的作用域?(变量查找顺序)
49 字符串"123"
转换成123
,不使用内置api,例如int()
50 Given an array of integers
51 python代码实现删除一个list里面的重复元素
52 统计一个文本中单词频次最高的10个单词?
53 请写出一个函数满足以下条件
54 使用单一的列表生成式来产生一个新的列表
55 用一行代码生成[1,4,9,16,25,36,49,64,81,100]
56 输入某年某月某日,判断这一天是这一年的第几天?
57 两个有序列表,l1,l2,对这两个列表进行合并不可使用extend
58 给定一个任意长度数组,实现一个函数
59 写一个函数找出一个整数数组中,第二大的数
60 阅读一下代码他们的输出结果是什么?
61 统计一段字符串中字符出现的次数
62 Python中类方法、类实例方法、静态方法有何区别?
63 遍历一个object的所有属性,并print每一个属性名?
64 写一个类,并让它尽可能多的支持操作符?
65 关于Python内存管理,下列说法错误的是 B
66 Python的内存管理机制及调优手段?
67 内存泄露是什么?如何避免?
68 python常见的列表推导式?
69 简述read、readline、readlines的区别?
70 什么是Hash(散列函数)?
71 python函数重载机制?
72 手写一个判断时间的装饰器
73 使用Python内置的filter()方法来过滤?
74 编写函数的4个原则
75 函数调用参数的传递方式是值传递还是引用传递?
76 如何在function里面设置一个全局变量
77 对缺省参数的理解 ?
78 带参数的装饰器?
79 为什么函数名字可以当做参数用?
80 Python中pass语句的作用是什么?
81 有这样一段代码,print c会输出什么,为什么?
82 交换两个变量的值?
83 map函数和reduce函数?
84 回调函数,如何通信的?
85 Python主要的内置数据类型都有哪些? print dir( ‘a ’) 的输出?
86 map(lambda x:xx,[y for y in range(3)])的输出?
87 hasattr() getattr() setattr() 函数使用详解?
88 一句话解决阶乘函数?
89 对设计模式的理解,简述你了解的设计模式?
90 请手写一个单例
91 单例模式的应用场景有那些?
92 用一行代码生成[1,4,9,16,25,36,49,64,81,100]
93 对装饰器的理解,并写出一个计时器记录方法执行性能的装饰器?
94 解释以下什么是闭包?
95 函数装饰器有什么作用?
96 生成器,迭代器的区别?
97 X是什么类型?
98 请用一行代码 实现将1-N 的整数列表以3为单位分组
99 Python中yield的用法?
小伙伴们想要以上答案的和更多相关学习资料请点赞收藏+评论转发+关注我之后私信我,注意回复【000】即可获取更多免费资料!