2.1 HTML
必要的准备工作
了解HTML/CSS基础:https://www.runoob.com/html/html-tutorial.html
了解Jsoup Selector用法:https://jsoup.org/apidocs/org/jsoup/select/Selector.html
了解Jsoup Selector测试:https://try.jsoup.org/
1. 选择源网站
教程以 纵横中文网 为例讲解。
2. 基础信息
根据源网站信息新建书源文件:www.zongheng.com.json
{
"name": "纵横中文网",
"url": "www.zongheng.com",
"version": 100
}属性
必填
含义
讲解
name
yes
名字
重要!源网站名字,必须标准,禁止使用前缀
url
yes
网址
重要!源网站链接
version
yes
版本
重要!默认100(1.0)当内容变化时递增,如101(1.1)
唯一标识:相同的url会被识别为同一个书源。
url中请勿填写http或https字样https://www.zongheng.com应写做www.zongheng.com
3. 搜索
根据源网站的搜索框源码的内容写出搜索URL。
属性
必填
含义
默认值
url
yes
地址
${key}代表搜索关键词,搜索时自动替换为用户输入的词
charset
yes
关键词编码
utf-8
POST搜索参见 3.1 POST
4. 搜索结果
搜索书名得出结果。
GET http://search.zongheng.com/s
Query Parameters
keyword
string
书名
html页面定位搜索结果是<div class="search-tab">下的子元素<div class="search-result-list clearfix">,根据jsoup的selector规则得出list字段值是:div.search-tab > div.search-result-list,其他字段信息如下:
属性
必填
含义
默认值
list
yes
列表
提取结果元素的相同特征
name
yes
书名
必填项
detail
yes
详情
自动补全URL
5. 图书详情
GET http://book.zongheng.com/book/189169.html
根据详情页图书信息填充如下:
属性
必填
含义
默认值
name
no
书名
搜索无此字段则必填,搜索有此字段选填
catalogUrl
no
目录地址
空(不填视为目录和详情相同地址)
6. 目录
GET http://book.zongheng.com/showchapter/189169.html
根据目录JSON填充如下:
属性
必填
含义
默认值
list
yes
目录
章节或分卷列表
orderBy
no
排序方式
0(分卷正序章节正序)1(分卷倒序章节倒序)2(分卷正序章节倒序)3(分卷倒序章节正序)
name
yes
章节标题
chapter
yes
章节
自动补全URL
booklet
no
分卷
存在分卷描述
page
no
分页
下一页链接元素
Booklet
属性
必填
含义
默认值
list
yes
章节列表
name
yes
分卷名
7. 正文
GET http://book.zongheng.com/chapter/189169/3431546.html
根据正文JSON填充如下:
属性
必填
含义
默认值
content
no
正文
当返回txt文本时不需填写该字段
filter
no
过滤标签
支持CSSQuery和 标签(例如:@div)
purify
no
屏蔽规则
正则表达式
page
no
分页
下一页链接元素
最后更新于