DSpace
 

法政大学学術機関リポジトリ >
020 学位論文 >
022 修士論文 >

このアイテムの引用には次の識別子を使用してください: http://hdl.handle.net/10114/13660

タイトル: 視覚文字表現と深層学習による文書分類法
その他のタイトル: Document Classification with Image-based Character Embedding
著者: 島田, 大樹
SHIMADA, Daiki
キーワード: 自然言語処理
言語理解
ニューラルネットワーク
ディープラーニング
発行日: 2017-3-24
出版者: 法政大学大学院理工学研究科
抄録: 自然言語処理分野において,日本語の取り扱いは,単語境界が不明瞭であることや大量の文字種とその表意性の理解という点で,非常に難しいものとされてきた.特に,近年の webの普及に伴ってこれまでにない顔文字やギャル文字といった言語表現が生み出され,そういった表現を含む文書の処理は従来的な単語ベースのアプローチにとって困難なものである.そ こで,本研究では,先述した日本語自然言語処理の問題を解決するために,視覚的情報に基づく文字表現と文字単位の分類器から構成される文書分類手法を提案する.提案手法は,まずテキスト中の文字について視覚的性質をよく保存するような表現に変換し,文字レベルからボトムアップに分類結果を推定する分類器から文書のカテゴリを出力する. 本研究では,提案する文書分類手法を「自然言語処理で文字の視覚的性質を考慮する方法とその有効性」,「日本語テキストにおける文字単位の深層学習手法の有効性」.「提案手法の様々なデータスケールへの対応可能性」という側面から議論を展開する.評価実験では,「小説文・論説文の著者推定」,「記事の新聞社推定」,「短文 SNS 投稿のトピック推定」の複数の文書分類タスクで既存の手法との性能比較を行う.加えて,提案手法の各処理について解析を行い,どのような文字表現が獲得されるのか,どのような情報を基に分類を行っている のか,という考察を述べる.評価実験と提案手法の解析から,提案手法が文書分類で高い性能を達成することを示し,従来の日本語自然言語処理上の課題を克服しうることを明らかにする.
記述: 理工学研究科応用情報工学専攻修士課程; 指導教授:和田幸一
URI: http://hdl.handle.net/10114/13660
出現コレクション:022 修士論文

このアイテムのファイル:

ファイル 記述 サイズフォーマット
17_thesis_master15R4119.pdf3.51 MBAdobe PDF見る/開く

このリポジトリに保管されているアイテムはすべて著作権により保護されています。

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2010  Duraspace - ご意見をお寄せください