如何抓取 GitHub:实用教程 2024

csdn推荐

GitHub 是互联网上最重要的技术知识来源之一,对于构建复杂应用程序的开发人员来说尤其如此。跟随本指南学习如何提取这些宝贵的数据,毫不费力地紧跟最新技术趋势。

了解 GitHub 数据

开源项目文化为开发人员提供了许多分享、贡献和合作的机会,这些项目塑造了技术的未来。GitHub 就是这样一个知识共享中心。

这个想法基于 Git 系统,它提供了一种简单的方法来维护和版本控制你的代码,并与其他开发人员在共享项目上进行协作。在更大的范围内,几乎任何人都可以为大型项目做出贡献、提出问题或重复使用代码作为自己想法的起点(也称为分叉)。

每个项目都位于其专用的资源库中。这是一个保存了项目所有信息的页面,包括项目描述、代码文件、版本、更新日志、许可证、贡献者、使用的编程语言等等。这些项目就是我们在 GitHub 上搜索信息时要找的内容。让我们来看看其中最有价值的几项:

总而言之,GitHub

提供了大量宝贵的技术数据。从大公司到个人项目,每个版本库中都有有用的信息。让我们来学习如何有效地收集和分析这些数据,以满足您的业务或个人需求。

选择正确的工具

有许多工具可用于 GitHub 搜索。你可以选择标准的 Requests + Beautiful Soup 组合,也可以选择 Scrapy 这样的一体化解决方案。还有一些开源项目(如 github3.py)提供了与 GitHub API 交互的增强方法。本指南将只详细介绍其中的几种方法,但请记住,你所选择的工具完全取决于你的个人选择、需求和可用功能。

首次自助交易请使用代码 “CSDN50”!https://bit.ly/4d5HeRK

请求提供美汤

如果你尝试过网络搜刮,那么 Requests 和 Beautiful Soup 这两个名字可能不会陌生。它们是目前最流行的 Python 库之一,提供简单的语法和强大的功能,可以向网站发出请求,并有效地从中抓取和解析信息。下面是一个代码示例,说明如何解析任意资源库的 HTML:

代码

脚本会将整个页面的 HTML 代码打印到控制台中。更准确地说,您可以利用 Beautiful Soup 的各种方法,如 find()。下面是一个仅提取 "关于 "部分的示例:

代码

这种方法可以顺利地从 GitHub 仓库中提取任何内容。不过,如果试图获取其中一条提交信息,就会遇到脚本返回 None 的问题。要找出原因,我们可以禁用 JavaScript 查看网站。看起来就是这样:

图像?

问题在于 GitHub 使用动态呈现内容,这意味着并非所有信息都会在首次请求网站后出现。在通常情况下,使用网页浏览器时,网站的基本内容会首先加载,然后在 JavaScript 的帮助下渲染其余信息。遗憾的是,我们没有办法告诉脚本只用 Requests 和 Beautiful Soup 来等待所有内容加载完毕。

这种方法最容易实现,可以完成大多数刮擦任务。不过,这种方法也有其局限性,可能不适合动态网络不断变化的环境。

Selenium

要抓取动态内容,您需要一个工具,在执行任何抓取任务前渲染整个页面。Selenium 是一款基于 Python 的自动化工具,通常用于网络浏览器测试,但也可用于动态网络内容的搜刮。它的用户友好界面使其易于使用和上手。

在下面的章节中,我们将探讨如何使用 Python 设置 Selenium,以便从 GitHub 存储库中抓取数据。如果你正在寻找基于 JavaScript 的解决方案,你可能还想看看 Puppeteer 或 Playwright 库,作为替代选择。

如何抓取 GitHub 仓库?

要抓取任何 GitHub 仓库,你必须掌握检查网页、查看 HTML 以及选择包含所需数据的元素的基本方法。然后,您需要设置并安装 Selenium 等工具,用它来编写脚本,加载网站,提取所需数据,并以易于阅读的方式存储。

听起来很难理解?不用担心,我们将逐步讲解每一个要点。在本指南结束时,你将能够编写和修改自己的 Selenium 脚本,以刮取任何你想要的 GitHub 数据。

设置环境

让我们从安装 Selenium 开始,将其用于我们的项目。确保电脑上已安装 Python 和 pip packet 管理器。然后,在终端工具中输入以下命令:

代码

第一条命令将下载并安装最新版本的 Selenium 及其依赖项。第二个命令将安装我们已经熟悉的 Beautiful Soup 库–它在刮擦网络时的价值不言而喻。Selenium 还需要一个 WebDriver 才能与网络浏览器交互。你需要为你要使用的浏览器下载相应的 WebDriver。Selenium 支持各种网络浏览器,如 Chrome、Firefox、Safari 等。你可以在以下链接中找到 WebDriver:

最后,让我们运行一个简单的脚本来检查 Selenium 和 WebDrivers 是否都已正确安装。新建一个包含以下代码的 Python example_file.py:

首次自助交易请使用代码 “CSDN50”!https://bit.ly/4d5HeRK

代码

要执行脚本,请打开终端工具,导航到文件所在的目录(使用 cd 命令),然后键入

代码

你会看到一个浏览器窗口出现并短暂加载页面。然后,浏览器会在终端窗口中打印网页标题。在本例中,你应该看到 Example Domain。你可以用不同的网页进行测试,看看它是否能正确返回标题。如果是,则说明 Selenium 设置正确!

如何构建 GitHub 搜索引擎?

让我们用 Requests 和 Beautiful Soup 重复前面的示例,并从 Smartdaili 的主资源库中抓取 "关于 "部分。您还需要导入一些 Webdriver 库和 Beautiful Soup。代码如下:

代码

脚本打开网页,获取 HTML 内容,对其进行解析,然后使用 Beautiful Soup 的 find() 方法提取符合所提供类的元素。你可以进一步修改代码,根据类、父元素或页面上的位置提取不同的元素。有了正确的提示,你几乎可以从 GitHub 仓库中提取任何数据!

您可能会问,这与通常的请求和美丽汤脚本有何不同。在某种程度上,它执行相同的过程,返回相同的结果。不过,Selenium 有一个我们尚未触及的优势–渲染动态内容的能力。由于 "关于 "部分不是动态加载的,因此使用这两种方法没有区别。渲染内容(如提交信息)需要 Selenium 的能力,即等到加载完成后才从页面获取内容。

首次自助交易请使用代码 “CSDN50”!https://bit.ly/4d5HeRK

高级技术

您需要在脚本中添加一个延迟来抓取动态内容。让我们尝试通过添加 implicitly_wait() 方法来抓取提交消息,该方法将等待 10 秒钟让 JavaScript 呈现。我们还使用了 selenium-wire 工具,它扩展了常规 Selenium WebDriver 的功能。然后,它会循环查看提交信息,并将它们全部打印在终端中:

代码

就像变魔术一样,Selenium 会加载网页,等待网页完全加载完毕,然后获取所需的信息。

还有一点要记住:来自同一 IP 地址的重复请求可能会被 GitHub 屏蔽或限制速率。这一点在同时抓取多个版本库时尤为重要。幸好,Smartdaili 提供的代理服务器可以帮您轻松解决这些问题。

代理是您与目标之间的中间人。它接收你的请求,将其重新路由到一个不同的 IP 地址,并代表你发出请求。这样,你的活动就完全匿名了,因为你的每一个请求都来自不同的 IP 地址。这样,您就可以尽可能多地发出请求,而不必担心受到限制!

要在脚本中加入 Smartdaili 代理,请从仪表板获取身份验证和端点信息。然后,像这样在脚本中输入认证和端点:端口信息:

代码

用你的凭据和信息替换用户、通行证、端点和端口。就这样,你通过代理服务器向 GitHub 仓库发出了请求。

最后的话

在本文中,你已经学会了如何构建自己的 GitHub 仓库刮刀。无论你是使用 Requests 和 Beautiful Soup,还是使用 Selenium 构建一个更复杂的工具,你都能通过使用示例代码并根据自己的需求进行修改,提取任何你想要的数据。由于 GitHub 是一个知识共享社区,我们非常鼓励你不仅从中收集数据,还为许多项目做出贡献。您甚至可以分享自己使用本指南创建的项目,帮助全世界的开发者。

如果你对编码不是很熟悉,正在寻找一种更直接的工具,不妨试试 Smartdaili Web Scraping API。它易于使用,设置只需几秒钟,可以向任何 GitHub 仓库或网站发出请求,并返回你想要的内容。

首次自助交易请使用代码 “CSDN50”!https://bit.ly/4d5HeRK

文章来源:https://blog.csdn.net/SmartGarret/article/details/139802462



微信扫描下方的二维码阅读本文

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容