Quantcast
Channel: 《使用python抓取网页(以人人网新鲜事和团购网信息为例)》的评论
Browsing all 11 articles
Browse latest View live

作者:颖风

嗯,这只是个抓取的例子,实用起来当然网页越简单越好

View Article



作者:ayi

很好,楼主很强大

View Article

作者:Lucy

人人网现在加了验证码之后就不行了… LZ有什么新的solution么?

View Article

作者:马斯特

这个就复杂了,涉及验证码识别一类的了,有需求可以研究下人人网的API

View Article

作者:pan

你好!我试验你的人人网抓取新鲜事程序,运行时产生了如下的错误 Traceback (most recent call last): File “C:\Users\dell\Desktop\renrenlogin.py”, line 15, in article_list = parser.find(‘div’,'feed-list’).findAll(‘article’)...

View Article


作者:马斯特

现在人人登录的时候有验证码的吧,这个脚本好像不好使了……

View Article

作者:KerryWangxy

怎么都是崇拜的恢复啊,那么我来说说我的观点吧。 如果仅仅是上面的这种网页,那么恭喜,你做到了。可是我现在遇到的都是网页上的数据是用ASP.NET写的,或者需要运行一个Java脚本去向服务器取数据的,直接读出来的网页上面是没有数据的。 我试着用wx.lib.iewin.IEHtmlWindow的GetText方法来获得产生的源码,可是不知道为啥老是返回的NoneType,蛋都快碎了,谁来救救我啊~……

View Article

作者:Tristan

强大的文章,感谢楼主,之前评论错了,囧!

View Article


作者:Tristan

楼主我的POSTData是 FORMHASH 98f977465b1cf0b7 username password savelogin on 然后我提取的登录url:http://www.mve.cn/index.php?mod=login&code=dologin 登录之后的url:http://www.mve.cn/index.php?...

View Article


作者:sikisis

楼主这句话老是报错是怎么回事阿? html_src = openner.open(req).read() File “renren.py”, line 18, in html_src = openner.open(req).read() NameError: name ‘openner’ is not defined

View Article

作者:想找一个1000行左右的爬虫源码看一下(最多不超3000行),谁给推荐一个啊 - Python - 开发者第977720个问答

[...] 回复 搜索一下很多吧,这有个几百行的pyqt图形界面的: http://pinkyjie.com/2010/12/19/fetch-webpage-by-python/ [...]

View Article
Browsing all 11 articles
Browse latest View live




Latest Images