2021年3月7日 星期日

用C#爬出GoodInfo股票資訊

今天我們要講解的是,如何使用C#+網頁XPath來抓取GoodInfo股票資訊

C#使用的套件為HtmlAgilityPack、與RegularExpressions

HtmlAgilityPack可以幫助我們取得網頁內容與提取資料

與RegularExpressions能夠快速取得或移除字串內容

今天要抓取的標的跟上支影片一樣是大立光,股票代號3008

首先抓取公司名稱與產業別

這邊設定UserAgent,模擬瀏覽器的行為並使用UTF-8編碼,接著使用HtmlWeb.Load取得了網頁內容,抓出公司名稱XPath節點與產業別XPath節點,最後將資料印出



我們接著來抓取股利政策,一樣使用HtmlWeb.Load取得網頁內容


由於表格某些資料佔用不只一欄或一列,所以我們必須手動補齊,避免標頭有空白資料的狀況


再來設定要抓取的資料

最後取得表格的內容

這邊要注意的是,子節點的內容並不是連續的td

因此需要先做一次篩選的動作

最後透過抓取獲利指標來複習一下,第一步就是使用HtmlWeb.Load取得網頁內容

計算資料佔用的欄與列

補齊標頭資料

設定要抓取的資料

最後取得表格內容

一樣要注意,td節點內容才是我們想要的



教學與操作影片

2 意見:

☆Eddie Chen★ 提到...

Hi 我看了這個爬蟲沒辦法跑呢@@

維京碼農 提到...

測試了一下,應該是goodinfo有改變xpath配置,需要重新尋找規則

張貼留言

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Blogger Templates