對這文章發表回應

發表限制: 非會員 可以發表

[轉貼][c#]擷取網頁原始碼Version 1.1

發表者：冷日發表時間： 2010/6/2 2:08:59

[c#]擷取網頁原始碼Version 1.1

Autor 白目研究生

記得之前有寫過了，還有印象乎？？( 延伸閱讀)

不過貌似有編碼的問題

參考資料： http://www.purecs.net/thread/topic493_1.aspx

找了第二個Solution

加了一些正規式語法過濾不必要的資料 or 只留需要的資料

HttpWebRequest request = (HttpWebRequest)WebRequest.Create(http://hostname/);
request.MaximumAutomaticRedirections = 4;
request.MaximumResponseHeadersLength = 4;
request.Credentials = CredentialCache.DefaultCredentials;
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
Stream receiveStream = response.GetResponseStream();
StreamReader readStream = new StreamReader(receiveStream, Encoding.UTF8);this.TextBox1.Text=readStream.ReadToEnd();
response.Close();
readStream.Close();

之後再加入Regex過濾資料

(?<=<a[\s\S]+?href=["'])http://[\s\S]+?(?=["'][\s\S]+?>)

抓出來的結果會像這樣子

嘖，結果還是沒有解決YAHOO大量存取的Error 999 的問題

MyBlog_笑著流淚II » Blog Archive » [c#]擷取網頁原始碼Version 1.1

標題
發表者名
內容圖示
內容	樣本 [詳情...]
認證碼		注意事項：預覽不需輸入認證碼，僅真正發送文章時才會檢查驗證碼。認證碼有效期10分鐘，若輸入資料超過10分鐘，請您備份內容後，重新整理本頁並貼回您的內容，再輸入驗證碼送出。
選項	不使用表情圖示