爬取聯合報網站的範例程式碼,只使用 request。
Project_udn-crawler-2021
├── data
│ └── keywords.csv
├── output
│ └── ...
├── LICENSE
├── README.md
├── crawler.py
├── final_data.py
├── pipeline_test.py
└── requirements.txt
- 使用
keyword
搜尋 udn 網站 - 獲取搜尋結果網址列表
- 進入網址
- 判斷該網址導向的頁面類型
- 獲取 content 內容