2021年2月27日 星期六

Python+Firefox+網頁XPath取得GoodInfo股票資訊

 今天我們要講解的是,如何使用Firefox+Python+網頁XPath來抓取GoodInfo股票資訊Python使用的套件為requests、re與lxmlrequests可以幫助取得網頁內容re能夠快速取得或移除字串內容lxml則能夠從網頁中有效的提取資料今天要抓取的標的是大立光,股票代號3008 首先抓取公司名稱與產業別這邊使用requests.get取得了網頁內容 ,並填入標頭資料,模擬瀏覽器的行為headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'}UrlCompanyInfo = 'https://goodinfo.tw/StockInfo/StockDetail.asp?STOCK_ID='strID='3008'resInfo = requests.get(UrlCompanyInfo+strID, headers=headers)宣告其編碼為UTF-8resInfo.encoding='utf-8'並使用etree.HTML解析htmlInfo = etree.HTML(resInfo.text)接著使用xpath取出公司名稱與產業別節點內容,因為lxml不認得tbody,所以要使用re將tbody給取代成空白XpathCompanyName = '/html/body/table[2]/tbody/tr/td[3]/table/tbody/tr[2]/td[3]/table[2]/tbody/tr[1]/td[2]'CompanyName = htmlInfo.xpath(re.sub(r'/tbody([[]\\d[]])?',...

Page 1 of 41234Next

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Blogger Templates