茫茫網海中的冷日 - 對這文章發表回應
茫茫網海中的冷日
         
茫茫網海中的冷日
發生過的事,不可能遺忘,只是想不起來而已!
 恭喜您是本站第 1672378 位訪客!  登入  | 註冊
主選單

Google 自訂搜尋

Goole 廣告

隨機相片
IMG_60D_00018.jpg

授權條款

使用者登入
使用者名稱:

密碼:


忘了密碼?

現在就註冊!

對這文章發表回應

發表限制: 非會員 可以發表

發表者: 冷日 發表時間: 2010/6/2 2:08:59

[c#]擷取網頁原始碼Version 1.1

Autor 白目研究生

記得之前有寫過了,還有印象乎??( 延伸閱讀)

不過貌似有編碼的問題

參考資料:  http://www.purecs.net/thread/topic493_1.aspx

找了第二個Solution

加了一些正規式語法過濾不必要的資料 or 只留需要的資料

HttpWebRequest request = (HttpWebRequest)WebRequest.Create(http://hostname/);
request.MaximumAutomaticRedirections = 4;
request.MaximumResponseHeadersLength = 4;
request.Credentials = CredentialCache.DefaultCredentials;
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
Stream receiveStream = response.GetResponseStream();
StreamReader readStream = new StreamReader(receiveStream, Encoding.UTF8);this.TextBox1.Text=readStream.ReadToEnd();
response.Close();
readStream.Close();

之後再加入Regex過濾資料

(?<=<a[\s\S]+?href=["'])http://[\s\S]+?(?=["'][\s\S]+?>) 

抓出來的結果會像這樣子

tssssssse.gif

嘖,結果還是沒有解決YAHOO大量存取的Error 999 的問題


MyBlog_笑著流淚II » Blog Archive » [c#]擷取網頁原始碼Version 1.1
內容圖示
url email imgsrc image code quote
樣本
bold italic underline linethrough   












 [詳情...]
validation picture

注意事項:
預覽不需輸入認證碼,僅真正發送文章時才會檢查驗證碼。
認證碼有效期10分鐘,若輸入資料超過10分鐘,請您備份內容後,重新整理本頁並貼回您的內容,再輸入驗證碼送出。

選項

Powered by XOOPS 2.0 © 2001-2008 The XOOPS Project|