判読性の高い文章を表示するシステム
情報化社会の発展に伴い,デバイス上から知識や情報を得ることは,生活するうえでとても身近な行為となっている. デバイス上の文字を従来よりも読みやすく表示することで,読字中の時間帯効果の向上に寄与できると考えられる. 一般的な文章表示方法をベタ組み文章と呼ぶが,この表示方法は人間の理想的な読み速度を阻害していると考えられている. 人間は読字中に文章を,いくつかの要素に分割して認識している.その要素中に改行が発生すると,1つの要素が 2つの行に分断され,読み効率が低下する. 特に文節は,人間が文章を読む際の要素の基準として,最も強いものだと考えられているが, 各基準の強さの関係や,改行挿入に伴って発生する空白の多い行については,あまり検討されていない. そこで本研究では,日本語文章の改行挿入の基準となる情報を決定し,それぞれの基準の強さの比較やその評価方法についての考察を行い, これらの結果に基づいた文章表示システムを構築し,判読性の高い文章の表示を目指している.
日英機械翻訳での一般化による前処理
機械翻訳は,訓練データと実際に翻訳を行うデータの間にギャップがあると,翻訳精度に悪影響を及ぼすことが知られている. 例として,日本語テキストの多くは書き言葉であるため,機械翻訳の学習も必然的に書き言葉を用いて行われる. そのような機械翻訳で話し言葉を翻訳しようとすると,精度が低下してしまう. そこで本研究では,入力文を日英機械翻訳の訓練データ内で頻出する単語,文法などの表現に変換するという前処理を行う手法を提案する. これにより,機械翻訳の精度向上をはかる.
マルチタスク学習を用いたテキスト感情分析手法
近年,テキストから感情を機械的に識別する感情分析と呼ばれる技術の研究が盛んに行われているが, その中でも,特に,喜・怒・哀・楽といった多クラスの感情分析を高精度に行うのは困難である. その理由として,利用可能な既存のデータセットが非常に少ないことが挙げられる. これに対して,絵文字を用いることで上記の問題を緩和し,多クラスの感情分析を実現している手法が存在する. しかしながら,絵文字はあくまで疑似ラベルとして作用するためノイズが含まれてしまうといった問題点が存在する. そこで,この問題を解決するため,本研究では,絵文字を用いて自動生成したコーパスにマルチタスク学習を適用する. マルチタスク学習とは,関連する複数のタスクを共同で学習することで知識を共有し,特定,あるいは複数タスクの精度を向上させることを目的とした学習法である. このようにモデルに内在する重みの一部をタスク間で共有させることで,絵文字予測から得られる知識を伝達させ,主タスクである感情分析の精度を向上させることを目指している.