自动生成文章摘要

14253 49 2017年5月21日

博客文章的模型有一个 excerpt 字段,这个字段用于存储文章的摘要。目前为止,还只能在 Django Admin 后台手动为文章输入摘要。每次手动输入摘要比较麻烦,对有些文章来说,只要摘取正文的前 N 个字符作为摘要,以便提供文章预览就可以了。因此我们来实现如果文章没有输入摘要,则自动摘取正文的前 N 个字符作为摘要,这有两种实现方法。

复写 save 方法

第一种方法是通过复写模型的 save 方法,从正文字段摘取前 N 个字符保存到摘要字段。回顾一下我们的博客文章模型代码:

blog/models.py

class Post(models.Model):
    # 其它字段...
    body = models.TextField()
    excerpt = models.CharField(max_length=200, blank=True)

其中 body 字段存储的是正文,excerpt 字段用于存储摘要。通过复写模型的 save 方法,在数据被保存到数据库前,先从 body 字段摘取 N 个字符保存到 excerpt 字段中,从而实现自动摘要的目的。具体代码如下:

blog/models.py

import markdown
from django.utils.html import strip_tags

class Post(models.Model):
    # 其它字段...
    body = models.TextField()
    excerpt = models.CharField(max_length=200, blank=True)

    # 其它方法...

    def save(self, *args, **kwargs):    
        # 如果没有填写摘要
        if not self.excerpt:
            # 首先实例化一个 Markdown 类,用于渲染 body 的文本
            md = markdown.Markdown(extensions=[
                'markdown.extensions.extra',
                'markdown.extensions.codehilite',
            ])
            # 先将 Markdown 文本渲染成 HTML 文本
            # strip_tags 去掉 HTML 文本的全部 HTML 标签
            # 从文本摘取前 54 个字符赋给 excerpt
            self.excerpt = strip_tags(md.convert(self.body))[:54]

        # 调用父类的 save 方法将数据保存到数据库中
        super(Post, self).save(*args, **kwargs)

这里生成摘要的方案是,先将 body 中的 Markdown 文本转为 HTML 文本,去掉 HTML 文本里的 HTML 标签,然后摘取文本的前 54 个字符作为摘要。去掉 HTML 标签的目的是防止前 54 个字符中存在块级 HTML 标签而使得摘要格式比较难看。可以看到很多网站都采用这样一种生成摘要的方式。

然后在模板中适当的地方使用模板标签引用 {{ post.excerpt }} 显示摘要的值即可:

templates/blog/index.html

<article class="post post-{{ post.pk }}">
  ...
  <div class="entry-content clearfix">
      <p>{{ post.excerpt }}...</p>
      <div class="read-more cl-effect-14">
          <a href="{{ post.get_absolute_url }}" class="more-link">继续阅读 <span class="meta-nav"></span></a>
      </div>
  </div>
</article>

使用 truncatechars 模板过滤器

第二种方法是使用 truncatechars 模板过滤器(Filter)。在 Django 的模板系统中,模板过滤器的使用语法为 {{ var | filter: arg }}。可以将模板过滤看做一个函数,它会作用于被它过滤的模板变量,从而改变模板变量的值。例如这里的 truncatechars 过滤器可以截取模板变量值的前 N 个字符显示。关于模板过滤器,我们之前使用过 safe 过滤器,可以参考 支持 Markdown 语法和代码高亮 这篇文章中对模板过滤器的说明。

例如摘要效果,需要显示 post.body 的前 54 的字符,那么可以在模板中使用 {{ post.body | truncatechars:54 }}。

templates/blog/index.html

<article class="post post-{{ post.pk }}">
  ...
  <div class="entry-content clearfix">
      <p>{{ post.body|truncatechars:54 }}</p>
      <div class="read-more cl-effect-14">
          <a href="{{ post.get_absolute_url }}" class="more-link">继续阅读 <span class="meta-nav"></span></a>
      </div>
  </div>
</article>

不过这种方法的一个缺点就是如果前 54 个字符含有块级 HTML 元素标签的话(比如一段代码块),会使摘要比较难看。所以推荐使用第一种方法。

总结

本章节的代码位于:Step17: generate excerpt automatically

如果遇到问题,请通过下面的方式寻求帮助。

  • 在下方评论区留言。
  • 将问题的详细描述通过邮件发送到 djangostudyteam@163.com,一般会在 24 小时内回复。
  • Pythonzhcn 社区的新手问答版块 发布帖子。

-- EOF --

最后更新:2018-11-11 12:21:12

49 条评论 / 33 人参与
DocterWhom

注意如果在之前部署到外网的环境中,你已经将settings.py文件中关闭了DEBUG,这时候打开Admin后台,后台是会丢失样式的,你需要重新设置为True,以便你能方便发布文章,测试功能


SamK6517433923

按照第一种方法的话,原来已经有的blog是不会重新产生摘要的,只能针对于新建的blog 。 请问有方法解决吗?


SamK6517433923 SamK6517433923

自己写了个py 遍历了一下数据库,将原来已经有的blog的excerpt字段进行填充,可以了


wozhendeshitangmingze SamK6517433923

能说说是怎么做的吗,我也碰到了这个问题


BlueMrD

问题:

我使用博主的第一种方法,取文章(我的文章文字数量超过十个)的前十个中文作为摘要,可是取出来的中文却只有七个。

改进:

我在博主的代码上进行了改进,

def save(self, *args, **kwargs):
if not self.excerpt:
md = markdown.markdown(self.body[:10], extensions=[
'markdown.extensions.extra',
            'markdown.extensions.codehilite',
            'markdown.extensions.toc',
                              ])
self.excerpt = strip_tags(md)
super(Post, self).save(*args, **kwargs)'

这样子就可以摘取十个中文了。


Chen xianmin

原来已经有的blog是不会重新产生摘要的,只能针对于新建的blog


HaplessMarm0t

5465


xqyxqy

博主有个文章摘要小问题(博主大牛,是想考我们这些菜鸟的吧?)。第一次可以获取,第二次就不能了,因为他根据是否为空去判断的,我自己加个elif解决了。
elif self.excerpt != strip_tags(md.convert(self.body))[:54]: 

    self.excerpt = strip_tags(md.convert(self.body))[:54]

判断这个的摘要是否跟要保存的文章前54字是否相等,不相等,更新。


xqyxqy xqyxqy

这样不行,会强制更新为文章默认的前50字,无法自定义摘要。还是按博主的方式吧。


Arrowarcher xqyxqy

你每次都保存save,都删掉之前的摘要,保存新的摘要不就行了,不要做那个if判断,然后加个删除摘要的语句


Arrowarcher Arrowarcher

哦哦,我弄错了,你也理解错了,博主那个是每次保存时,你在后台保存的时候没有填写摘要,那么就取前54,相当于每次保存都有更新,好像是这样


fshgrym

其实1.7以上可以直接truncatechars_html:54这样。亲测有效


fshgrym fshgrym

<p>{{ post.body|striptags|truncatewords_html:54 }}</p>这样写比较好看,亲测


Stallionshell fshgrym

如果这样做的话,在文章是md格式的时候,会把格式符号 如#之类的添加到摘要里边去。


point6013

楼主你好,我遇到了一个问题,假如我在新建的文章的内容全部改变了之后,那么按照第一种方法的话,文章的摘要是不会更新的。


孤云飘飘zhao point6013

在shell里取出所有的post,在save一下就好了,之前的都可以显示了


point6013 孤云飘飘zhao

谢啦


桉树先生

建议摘要获取不要以[:54],而以split('.')[0]来获取第一句完整的话语,来的更加有意义。


桉树先生 桉树先生

更新: 因为有的时候并不一定使用'.'或者句号,可直接使用split()[0],取第一句话

self.excerpt = strip_tags(md.convert(self.body)).split()[0] + '...'


桉树先生 桉树先生

shit, 这样只能取到1个单词, 还是按照楼主的来吧


Afetmin 桉树先生

笑成猪叫


吉超 Afetmin

^_^


fgd 桉树先生

哈哈


retli

不知道为什么,使用第一种方法,无法保存阅读量到数据库了


gruiyuan retli

是不是复写save方法时,把

‘super(Post, self).save(*args, **kwargs)‘

这一句写在if的内层了,导致摘要不为空时不会调用save方法