2007年4月9日 星期一

用 python 讀取網頁

用 python 的 urllib2 來讀取網頁!


如果只是想寫個簡單的機器人讀取 source,使用超簡單,只要

f = urllib2.urlopen(url);

即可,f 就是從這個 url 拿到的原始碼的 stream 了,看要是 f.read(); 或作其它事都可以。


至於要怎麼拿到如圖片的資料呢?這是範例。大致上看起來會像這樣

o = urllib2.build_opener();
f = o.open('http://url/pic');

f 就是這圖片內容的 stream(例如可以 write(f.read()); )不過我記得 http request 出去應該是所有連 html source 連其他資料一起送進來的。不知道有沒有一次這些東西全抓起來的作法...

沒有留言: