URL内容解析
如果用户发送的消息里面存在链接,我们希望能够解析出这个链接里的内容,例如网站的图片,标题等信息
URL解析问题
何时解析
- 发送消息的时候,入库之前,后端解析
- 消息发送到前端的时候 ,前端去做解析工作
显然选择第一个,因为就 一条消息,如果前端去做解析,相当于每个人都会去解析这个URL,那么如果群成员人数很大,就会对目标网站形成ddoc攻击,因此,在消息入库之前,我们后端主动做一次解析,这样的好处是 也不需要解析多次
如何取出URL
@Test
public void testUrl() {
String content = "这是一个很长的字符串再来 www.github.com,其中包含一个URL www.baidu.com,, 一个带有端口号的URL http://www.jd.com:80, 一个带有路径的URL http://mallchat.cn, 还有美团技术文章https://mp.weixin.qq.com/s/hwTf4bDck9_tlFpgVDeIKg";
Pattern pattern = Pattern.compile("((http|https)://)?(www.)?([\\w_-]+(?:(?:\\.[\\w_-]+)+))([\\w.,@?^=%&:/~+#-]*[\\w@?^=%&/~+#-])?");
List<String> matchList = ReUtil.findAll(pattern, content, 0);// hutool工具类
System.out.println(matchList);
}
运行结果:
解析URL
我们使用爬虫Jsoup工具类解析
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.15.3</version>
</dependency>
解析网站:
@Test
public void Jsoup() throws IOException {
String url = "http://www.baidu.com";
Connection connect = Jsoup.connect(url);
Document document = connect.get();
String title = document.title();
System.out.println("title = " + title);
}
运行结果:
网站的图标:
然而对于微信公众号等文章,它们的网站标题和图标又要换另外的方式获取
也就是说,我们的代码必须要适应 不同种类型的网站规则。
这就让我们很自然的相当了可以使用策略模式来消除ifelse等。
URL解析具体实现
整体的结构
定义URL解析接口UrlDiscover
public interface UrlDiscover {
@Nullable
Map<String, UrlInfo> getUrlContentMap(String content);
@Nullable
UrlInfo getContent(String url);
@Nullable
String getTitle(Document document);
@Nullable
String getDescription(Document document);
@Nullable
String getImage(String url, Document document);