利用Python爬虫建立自己的磁力搜索引擎

news/2024/11/26 9:44:06/

现在磁力站很多,但是搜出来的东西乱七八糟的,广告也多,我看多了觉得挺烦的,正好周末无聊,想着自己做一个,下面附上本次利用Python爬虫磁力站点的教程。

下面是我写爬虫时候主要引用的库

当然,抓取的关键词可以自己从代码里设置,比如title,文件大小之类的。

但我怎么知道爬出来的哪些数据是没有用的呢?自己手动一个一个试显然不靠谱。

其实我并不需要知道哪些数据是没有用的,我只需要确定哪些数据是有用的就可以!!!

我的做法是:尝试和traceker通信,通信成功的链接才会保留下来帮我导出到excel,通信失败的,就直接剔除。

对了,这里跟大家解释一下Tracker是什么?

tracker服务器是BT下载中必须的角色。一个BTclient在下载开始以及下载进行的过程中,要不停的与tracker服务器进行通信,以报告自己的信息,并获取其它下载client的信息。

客户端连上 tracker服务器,就会获得一个下载人员的名单,根据这个,BT会自动连上别人的机器进行下载。它是提供bt的服务器。把文件用bt发布出来的人需要知道该使用哪个服务器来为要发布的文件提供tracker。由于不指定服务器,BitTorrent采用BT文件来确定下载源。

那么好了,到了这一步,我只需要python帮我把爬出来的资源导出到excel即可。

导出excel需要用到的库

设置好excel需要保存的位置就好啦!


关于磁力链的原理:

磁力链接由一组参数组成,参数间的顺序没有讲究,其格式与在HTTP链接末尾的查询字符串相同。通常是一个特定文件的内容散列函数值形成的URN,例如:
  magnet:?xt=urn:btih:4D9FA761D69964B00DF0B3B0C9C1F968EA6C47D0&xt=urn:ed2k:7655dbacff9395e579c4c9cb49cbec0e&dn=bbb_sunflower_2160p_30fps_stereo_abl.mp4&tr=udp%3a%2f%2ftracker.openbittorrent.com%3a80%2fannounce&tr=udp%3a%2f%2ftracker.publicbt.com%3a80%2fannounce&ws=http%3a%2f%2fdistribution.bbb3d.renderfarming.net%2fvideo%2fmp4%2fbbb_sunflower_2160p_30fps_stereo_abl.mp4
  虽然这个链接指向一个特定文件,但是客户端应用程序仍然必须进行搜索来确定哪里。
  在标准的草稿中其他参数的定义如下:

magnet:协议名。

xt:exact topic的缩写,包含文件哈希值的统一资源名称。BTIH(BitTorrent Info Hash)表示哈希方法名,这里还可以使用ED2K,AICH,SHA1和MD5等。这个值是文件的标识符,是不可缺少的。

dn:display name的缩写,表示向用户显示的文件名。这一项是选填的。

tr:tracker的缩写,表示tracker服务器的地址。这一项也是选填的。

ws:webseed的缩写,表示网络种子。

urn:(Uniform Resource Name, URN 表示资源名

btih:BitTorrent info hash,种子散列函数

应用程序定义的实验参数,必须以"x."开头。 

标准还建议同类的多个参数可以在参数名称后面加上".1", ".2"等来使用,例如:
  magnet:?xt.1=urn:sha1:YNCKHTQCWBTRNJIV4WNAE52SJUQCZO5C&xt.2=urn:sha1:TXGCZQTH26NL6OUQAJJPFALHG2LTGBC7


http://www.ppmy.cn/news/434293.html

相关文章

自己做的在线云播安卓app 各种资源 磁力链播放

云盘现在地址 基于磁力链解析 在线云播做的app 可以体验下

磁力搜索

Torrent文件内的数据结构分为以下几部分: announce:Tracker的主服务器 announce-list:Tracker服务器列表 comment:种子文件的注释 comment.utf-8:种子文件注释的utf-8编码 creation date:种子文件建立的时间,是从1970年…

AntColony 磁力搜索BT引擎的核心

介绍 AntColony(Github)是findit磁力搜索引擎的核心。用来在DHT网络中,收集活跃资源的infohash,下载并解析资源的种子文件,存入数据库等。AntColony是若干功能的合集,也可以单独运行其中的部分功能&#x…

自己写了个磁力链搜索引擎

磁力链接,简称"磁力链",最常见的用途是基于文件内容的散列函数值来链接到特定文件,生成一个唯一的文识别符用于找到文件。磁力链接可被运行在几乎所有平台上的应用程序们使用以下载一个文件。因为磁力链接十分简洁且为纯文本格式&a…

还在忍受磁力搜索网站不忍直视的广告么?18年最新最好用的bt磁力搜索网站介绍

之前写过一篇推荐没有弹出广告并很少种子搜索网站的文章,结果过了一段时间发现我写文章的时候开了广告过滤器,难怪看不到广告,把一些有弹出广告的网站也推荐上去了,直接被打脸Σ(lliд゚ノ)ノ。所以我只好重新…

想做个磁力链搜索引擎 2

上一篇我们已经解析出种子的基本结构。下一个问题就是,如何通过种子文件所给的信息,获取文件的下载地址。 上一篇中我们解析种子发现有两个键比较特殊,分别时announce以及announce-list 这两个属性的值便是是tracker服务器的地址。&#xf…

win7台式计算机型号怎么查,win7系统电脑查看主板型号的四种方法

刚刚购买新的电脑安装win7旗舰版系统,新手对电脑信息肯定不太了解,如果知道主板型号就知道电脑的全部信息了,也有助于我们了解电脑的配置,方便以后使用。那么win7系统电脑如何查看主板型号,相信很多小伙伴都不知道如何…

cmd命令查询电脑序列号_如何查看台式电脑序列号

展开全部 方法一: (1)如果是win10系统,可以在键盘上同时按下winr键,打开命令提示符,并32313133353236313431303231363533e59b9ee7ad9431333431333935输入cmd,点击确定或回车 (2)在弹出的页面中输入“systeminfo”并按下…