【Go程序】爬虫获取豆瓣Top250

之前在网上下载了一个minigame的开源项目，就是电影日历。里面有一项使用了豆瓣的API，获取豆瓣的Top250的电影。但是由于豆瓣的OpenAPI改版了，又不好申请到OpenAPI的资格，想想也不是什么非法的事情，就稍微搞几部电影名字嘛。

一般来讲，我们经常用Python写爬虫来解析数据，主要是因为request库和beautifulsoup4库过于好用了点，每次都会忘记怎么用，每次看个例子又能用起来了。今天想想要不用Go来实现把，毕竟现在的程序用go写起来也很顺手了。

这里需要用到一个库，goquery，功能和bs4一样，用于解析获取到的xml，然后net/http方法用于替代python的request库。动手把。

package mainimport ("fmt""log""math/rand""net/http""time""github.com/PuerkitoBio/goquery"
)// randomUserAgent 返回一个随机的 User-Agent 字符串
func randomUserAgent() string {userAgents := []string{"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36","Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:89.0) Gecko/20100101 Firefox/89.0",}rand.Seed(time.Now().UnixNano())return userAgents[rand.Intn(len(userAgents))]
}func fetch(url string) (*goquery.Document, error) {req, err := http.NewRequest("GET", url, nil)if err != nil {return nil, err}userAgent := randomUserAgent()req.Header.Set("User-Agent", userAgent)client := &http.Client{}resp, err := client.Do(req)if err != nil {return nil, err}if resp.StatusCode != http.StatusOK {return nil, fmt.Errorf("request failed with status code: %d", resp.StatusCode)}defer resp.Body.Close()doc, err := goquery.NewDocumentFromReader(resp.Body)if err != nil {return nil, err}return doc, nil
}func main() {baseURL := "https://movie.douban.com/top250"for page := 1; page <= 10; page++ { // 假设每页25部电影，共10页url := fmt.Sprintf("%s?start=%d&filter=", baseURL, (page-1)*25)doc, err := fetch(url)if err != nil {log.Fatal(err)}doc.Find(".item").Each(func(i int, s *goquery.Selection) {title := s.Find(".title").First().Text()rating := s.Find(".rating_num").First().Text()votes := s.Find(".star .pl").First().Prev().Text()fmt.Printf("Movie %d: %s, Rating: %s, Votes: %s\n", i+(page-1)*25+1, title, rating, votes)})}
}

得到结果如下

Movie 1: 肖申克的救赎, Rating: 9.7, Votes: 
Movie 2: 霸王别姬, Rating: 9.6, Votes: 
Movie 3: 阿甘正传, Rating: 9.5, Votes: 
Movie 4: 泰坦尼克号, Rating: 9.5, Votes: 
Movie 5: 千与千寻, Rating: 9.4, Votes: 
Movie 6: 这个杀手不太冷, Rating: 9.4, Votes: 
Movie 7: 美丽人生, Rating: 9.5, Votes: 
…………

我们对代码解释一下：

这段 Go 代码是一个简单的网页爬虫，用于抓取豆瓣电影 Top 250 列表中的电影标题、评分和投票数。下面是代码的详细解释：
1. 导入包：
        main：主包。
        fmt, log, math/rand, net/http, time：标准库包，分别用于格式化输出、日志记录、生成随机数、处理 HTTP 请求和时间操作。
        "github.com/PuerkitoBio/goquery"：一个用于解析 HTML 文档的第三方库。
2. randomUserAgent 函数：
        定义了一个字符串切片 userAgents，其中包含了多个不同的 User-Agent 字符串。
        使用 rand.Seed(time.Now().UnixNano()) 初始化随机数生成器。
        函数返回 userAgents 切片中的一个随机元素作为 User-Agent。
3. fetch 函数：