今天我們要講解的是,如何使用C#+網頁XPath來抓取GoodInfo股票資訊
C#使用的套件為HtmlAgilityPack、與RegularExpressions
HtmlAgilityPack可以幫助我們取得網頁內容與提取資料
與RegularExpressions能夠快速取得或移除字串內容
今天要抓取的標的跟上支影片一樣是大立光,股票代號3008
首先抓取公司名稱與產業別
這邊設定UserAgent,模擬瀏覽器的行為並使用UTF-8編碼,接著使用HtmlWeb.Load取得了網頁內容,抓出公司名稱XPath節點與產業別XPath節點,最後將資料印出
XPath節點找法請參考 如何使用Firefox+Python+網頁XPath來抓取GoodInfo股票資訊
我們接著來抓取股利政策,一樣使用HtmlWeb.Load取得網頁內容
由於表格某些資料佔用不只一欄或一列,所以我們必須手動補齊,避免標頭有空白資料的狀況
再來設定要抓取的資料
最後取得表格的內容
這邊要注意的是,子節點的內容並不是連續的td
因此需要先做一次篩選的動作
最後透過抓取獲利指標來複習一下,第一步就是使用HtmlWeb.Load取得網頁內容
計算資料佔用的欄與列
補齊標頭資料
設定要抓取的資料
最後取得表格內容
一樣要注意,td節點內容才是我們想要的
教學與操作影片
2 意見:
Hi 我看了這個爬蟲沒辦法跑呢@@
測試了一下,應該是goodinfo有改變xpath配置,需要重新尋找規則
張貼留言