Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

最近javbus的图片网址变了,导致图片都显示不出来 #95

Open
reichou1989 opened this issue Jun 1, 2021 · 37 comments
Open

Comments

@reichou1989
Copy link

如题,图片地址都变成自己的ip开头,应该是抓取错误,有大佬能更新一下吗

@aiastia
Copy link

aiastia commented Jun 2, 2021

+1

@huangqian8
Copy link

估计没什么希望了

@SUPERDBFMP
Copy link

+1 这情况好久了,大佬求修复

@huangqian8
Copy link

研究了一下代码,自己搞定了。作者应该是不更新了。

@hspmanbu
Copy link

研究了一下代码,自己搞定了。作者应该是不更新了。

兄弟在哪改的啊,瞅了半天还没找到。。。

@huangqian8
Copy link

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

@hspmanbu
Copy link

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

早知道用docker或者源码运行了,省事用的打包的win版parser.py改不了了

@huangqian8
Copy link

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />
我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

早知道用docker或者源码运行了,省事用的打包的win版parser.py改不了了

推荐用docker,我自己在群晖上运行的。数据库(bus.db)肯定要重新生成了,因为图片地址是存入数据库的。推倒重来无可避免。

@hspmanbu
Copy link

hspmanbu commented Jun 27, 2021

推荐用docker,我自己在群晖上运行的。数据库(bus.db)肯定要重新生成了,因为图片地址是存入数据库的。推倒重来无可避免。

我页面打标和没打标的只有2000多条,数据库里已经1W6了,这重来的量有点大 (⊙﹏⊙)

@huangqian8
Copy link

huangqian8 commented Jun 27, 2021

我页面打标和没打标的只有2000多条,数据库里已经1W6了,这重来的量有点大 (⊙﹏⊙)

找个数据库管理软件,批量处理一下吧。

@hspmanbu
Copy link

找个数据库管理软件,批量处理一下吧。

兄弟你知道网页显示的推荐和打标的内容数据存在哪了吗,感觉不在bus.db里面

@hspmanbu
Copy link

批量修改加删除referer之后win版也完美解决,哈,只是今后得批量手动修改cover_img_url了

@huangqian8
Copy link

兄弟你知道网页显示的推荐和打标的内容数据存在哪了吗,感觉不在bus.db里面

粗看了一下,bus.db存储了所有爬到的数据,这两个页面的数据都是根据模型算法从bus.db里读取的。
写个脚本定期更新一下cover_img_url即可。能自动化的绝不手动。

@hspmanbu
Copy link

粗看了一下,bus.db存储了所有爬到的数据,这两个页面的数据都是根据模型算法从bus.db里读取的。
写个脚本定期更新一下cover_img_url即可。能自动化的绝不手动。

推荐内容的rate_type是2,打标里的rate_type是1,推荐页标记正确或者错误之后rate_type就从2变到1了。上传数据库之后rate_type为1的内容是可以恢复的,关键是推荐里的内容恢复不了,但是数据库里有所有推荐内容数据,应该是有一个文件记录了推荐内容的番号,从数据库读取后在web页面显示,如果能找到这个文件,那就不用担心转移数据后推荐内容的丢失了

@aiastia
Copy link

aiastia commented Jun 28, 2021

我改好docker了,旧的数据库 好像不用改了图片出来了 aiastia/bustag

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

@aiastia
Copy link

aiastia commented Jun 30, 2021

cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']

这个感觉要写个判断,部分图片是有网址是 比如 https://pics.dmm.co.jp/digital/video/sqte00374/sqte00374pl.jpg

@skypjsfly
Copy link

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

请大佬详细描述一下怎么修改,我按照这个修改无效啊
Screenshot_20210630-231701_Via
麻烦指导一下哪里错了

@huangqian8
Copy link

麻烦指导一下哪里错了

网址最后的斜杠去掉。

@skypjsfly
Copy link

麻烦指导一下哪里错了

网址最后的斜杠去掉。

我今天看了下更新,图片还是本地ip的链接,就算是多了一个斜杠,也不应该还是本地ip吧

@skypjsfly
Copy link

麻烦指导一下哪里错了

网址最后的斜杠去掉。

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

@huangqian8
Copy link

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

@huangqian8
Copy link

这个感觉要写个判断,部分图片是有网址是 比如 https://pics.dmm.co.jp/digital/video/sqte00374/sqte00374pl.jpg

这个简单,加个图片地址判断,如果自带http那就使用爬取到的,如果没有http,那就补全网址。

if "http" in html.find(cover_img_css)[0].attrs['href']:
    cover_img_url = html.find(cover_img_css)[0].attrs['href']
else:
    cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']

@skypjsfly
Copy link

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

[不知道大佬是怎么映射的,我是整个文件夹全映射出来]
image

@huangqian8
Copy link

[不知道大佬是怎么映射的,我是整个文件夹全映射出来]
image

image
容器重启过吗?

@skypjsfly
Copy link

[不知道大佬是怎么映射的,我是整个文件夹全映射出来]
image

image
容器重启过吗?

肯定重启过了啊,但是大佬你这样只映射data文件夹,不是其他的文件都改不了吗,难道进docker里面改?

@huangqian8
Copy link

huangqian8 commented Jun 30, 2021

肯定重启过了啊,但是大佬你这样只映射data文件夹,不是其他的文件都改不了吗,难道进docker里面改?

的确是进容器内改的。
我不清楚改之前已经爬取到到的数据是否会正常显示,我自己是删掉bus.db重新开始的。
但有人提到不删掉bus.db,之前的也会正常显示,我没做过测试。

@skypjsfly
Copy link

肯定重启过了啊,但是大佬你这样只映射data文件夹,不是其他的文件都改不了吗,难道进docker里面改?

的确是进容器内改的。
我不清楚改之前已经爬取到到的数据是否会正常显示,我自己是删掉bus.db重新开始的。

我刚才也把数据库删了,确实可以了,感谢大佬

@huangqian8
Copy link

我刚才也把数据库删了,确实可以了,感谢大佬

那你看到的应该不是新爬取的,之前的只能修改数据库文件了。既然你都删了,那也无所谓了。

@skypjsfly
Copy link

我刚才也把数据库删了,确实可以了,感谢大佬

那你看到的应该不是新爬取的,之前的只能修改数据库文件了。既然你都删了,那也无所谓了。

好像可以把老数据库导入进去,图片就能看了

@aiastia
Copy link

aiastia commented Jul 1, 2021

这个感觉要写个判断,部分图片是有网址是 比如 https://pics.dmm.co.jp/digital/video/sqte00374/sqte00374pl.jpg

这个简单,加个图片地址判断,如果自带http那就使用爬取到的,如果没有http,那就补全网址。

if "http" in html.find(cover_img_css)[0].attrs['href']:
    cover_img_url = html.find(cover_img_css)[0].attrs['href']
else:
    cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
a = "http://www.javbus.com"
b = html.find(cover_img_css)[0].attrs['href']
if re.match(r'^https?:/{2}\w.+$', b):   
    cover_img_url = b		
else:
    cover_img_url = a + b

@aiastia
Copy link

aiastia commented Jul 1, 2021

肯定重启过了啊,但是大佬你这样只映射data文件夹,不是其他的文件都改不了吗,难道进docker里面改?

的确是进容器内改的。
我不清楚改之前已经爬取到到的数据是否会正常显示,我自己是删掉bus.db重新开始的。
但有人提到不删掉bus.db,之前的也会正常显示,我没做过测试。

之前也会有部分的不正常。 我是进数据库把地址改了部分不能显示的 就正常了

@aiastia
Copy link

aiastia commented Jul 1, 2021

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

[不知道大佬是怎么映射的,我是整个文件夹全映射出来]
image

可以和之前一样 image 用我的这个 aiastia/bustag:dev

@skypjsfly
Copy link

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

[不知道大佬是怎么映射的,我是整个文件夹全映射出来]
image

可以和之前一样 image 用我的这个 aiastia/bustag:dev

大佬是准备接手这个项目了吗?

@aiastia
Copy link

aiastia commented Jul 1, 2021

我去掉斜杠了,刚才又更新了两个资源,我看了下图片,还是本地ip的链接。。。图片不显示

docker版吗?不应该啊,上面有人已经成功了。

[不知道大佬是怎么映射的,我是整个文件夹全映射出来]
image

可以和之前一样 image 用我的这个 aiastia/bustag:dev

大佬是准备接手这个项目了吗?

#又不是不能用……

@mjuu-cl
Copy link

mjuu-cl commented Jul 16, 2021

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />
我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

请大佬详细描述一下怎么修改,我按照这个修改无效啊
Screenshot_20210630-231701_Via
麻烦指导一下哪里错了

大佬麻烦指点下,刚在群晖安装了bustag,不显示图片,请问这几个文件如何访问啊,文件位置我都找不到,访问不了,群晖的操作不是很懂。

@mjuu-cl
Copy link

mjuu-cl commented Jul 18, 2021

有几个文件需要修改
1、parser.py 这个是获取图片地址的,因为目前javbus的图片地址不带网址,所以需要自己补全。修改字段如下:
cover_img_url = "网址自己找" + html.find(cover_img_css)[0].attrs['href']
2、index.tpl 和 tagit.tpl 这两个分别是推荐和打标的页面显示,需要修改一项内容(javbus图片反盗链)。修改字段如下:
<img class="img-fluid img-thumbnail coverimg" src={{item.cover_img_url}} referrerPolicy="no-referrer" />

我是通过docker运行的,直接进入docker容器内修改。docker容器内的路径如下:
/app/src/bustag/bustag/spider/parser.py
/app/src/bustag/bustag/app/views/index.tpl
/app/src/bustag/bustag/app/views/tagit.tpl

大佬麻烦指点下,刚在群晖安装了bustag,不显示图片,请问这几个文件如何访问啊,文件位置我都找不到,访问不了,群晖的操作不是很懂。

@hspmanbu
Copy link

研究了一下代码,自己搞定了。作者应该是不更新了。

@huangqian8 大佬最近javbus加了登录验证,如果使用cookies登录的话应该在哪个文件修改呢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

7 participants