Skip to content

Latest commit

 

History

History
25 lines (21 loc) · 2.03 KB

Efficient-Character-level-Document-Classification-by-Combining-Convolution-and-Recurrent-Layers.md

File metadata and controls

25 lines (21 loc) · 2.03 KB

Efficient Character-level Document Classification by Combining Convolution and Recurrent Layers

Yijun Xiao, Kyunghyun Cho, arXiv, 2016

Summary

  • CNN as feature extractor
  • all CNN vs CNN+RNN
    • NIPS 2015 的論文 Character-level convolutional networks for text classification 使用全 convolution layer 來捕捉 char 資訊
    • 因為一篇文章的 character 的數量很多,必須疊非常多層 CNN,receptive field 才夠大,才能捕捉到 long-term 的訊息。
    • 所以本篇在疊了幾層 CNN 後,把得到的東西丟進 RNN,利用 RNN 能捕捉 long-term 資訊的特性來補足這點。不僅能節省參數以及層數,也能做較少次 pooling,減少訊息流失。
  • 實驗結果
    • 當 class 數目越多 (fine-grained),本篇效果比 fully CNN 那篇好越多
    • 在小 dataset 上贏,大 dataset 上輸 (可能參數比較少比較不會 overfitting?)
    • 增加 convolution layer 中 filter 數量帶來的好處極為有限

Strengths / Novelties

  • 先用幾層 CNN 抽取 local 資訊,再用 RNN 把整個序列的資訊統整。這套架構在很多地方都很好用

Weaknesses / Notes