Top HackerNews 使用的 3 种爬虫方法

方法一：HTTP GET

async function getHTML(url: string) {
  const res = await fetch(url);
  return await res.text();
}

优点：最简单

缺点：无法应对复杂反扒机制

代码如下：

async function getWebArchiveHTML(url: string) {
  const res = await fetch("https://web.archive.org/" + url);
  return await res.text();
}

优点：简单

缺点：可能没被收录，不是实时

推荐几个库：

优点：最有效，成功率最高

缺点：

联合使用三种方法，可以兼顾效率和成功率 🤪