【ふぞろい制作ウラ話】コンピュータにおける言語処理について

同友館
doyukan_logo

みなさん、こんにちは。2年目生合格ナビゲーターの芹生です。

みなさんはディープラーニングという言葉を聞いたことがあるでしょうか?従来から音声認識は大量の音声を機械学習させて認識率を向上させてきました。しかしながら、近年、その認識率の向上は頭打ちとなっていました。そこに登場したのがディープラーニングで、その手法を使い音声認識の認識率を大幅に向上させました。ディープラーニングが従来の機械学習と違うのは人の脳に似せたニューラルネットワークのようなものを構築しながら自動で学習することだそうです。ディープラーニングは2012年にグーグルが猫の画像を認識させたことで脚光を浴びました.

ふぞろいの答案分析にはみなさんからいただいた再現答案の大量の文章を処理する必要があります。私たちは、ディープラーニングそのものを使った分析はしていませんが、その前段階として日本語における独特の言語処理のノウハウを活用しました。昨年、みなさんからいただいた再現答案は180枚以上あります。それらひとつひとつの文章を人間の力だけで分析するには限界があります。人は思い込みによって自分の都合のいいように解釈してしまいがちになります。自分で解釈したキーワードは目立って見えて正解だと思い込んで、他の有力なキーワードを排除してしまいます.そこで、コンピュータによる言語処理によって分析し、人間の思い込みをなくした正解キーワードを見つけます

まず、分析の前に日本語独特の文章を処理しないといけなません。例えば以下のような文章があると仮定します。

あらゆる現実を、すべて自分のほうへねじ曲げたのだ。

人間はこれを頭の中で意味を考えながら文節や単語に区切ることができます。しかし、コンピュータは日本語の場合、英語などの他の言語と違ってスペースによる区切りがないためこのままでは処理できません。そこでまず、コンピュータで言語処理を行う場合、前処理として文章を意味のある単語に区切る必要があります。この処理のことを形態素解析といいます。上記の文章を形態素解析で単語に区切ると以下のようになります。

あらゆる/現実/を、すべて/自分//ほうへ/ねじ/曲げ///だ。

集めた再現答案180枚すべてに対して、設問の解答ごとにこの形態素解析の処理を行います。このように意味のある単語ごとに区切れば、頻出のキーワードを抽出できます。形態素解析では単語の品詞もわかりますから、名詞を抽出することが可能になります。

それぞれの文章には合格、A,B,C,D評価の属性を付けてありますので、合格答案では実際にどのキーワードが頻出しているのか、AB答案ではどうなのか、わかるようになります。以上のようにして、コンピュータによる言語処理を行って合格答案に多いキーワードを抽出することができます。

その後は、キーワードがどのように使われているか、因果関係が正しいかどうかを見るためには、やはり人力で、ひとつひとつ見ていく必要があります。ふぞろいな合格答案プロジェクトでは、みなさんから頂いた再現答案ひとつひとつを無駄にせず丁寧に分析しています。

近い将来、過去問と再現答案や模範解答をすべてディープラーニングを使って機械学習をすれば、新しい事例の設問と与件文を与えるだけで正しい解答が得られるようになるかもしれません。しかしながらコンピュータが中小企業診断士となれるかといえば、それは別の次元です。

ふぞろいな合格答案プロジェクトでは来年の受験生のために、よりよい受験対策本となるように、みなさんからの再現答案を募集しています。まだ、再現答案を出してないという方は、右上にある「再現答案 大募集」からどうぞ。

明日はみんなの見方「ガネパンマン」の登場です。どんな四コマ漫画がとびだすのでしょうか。ご期待ください。

ポチっと応援クリック(マークをクリック)をお願いします。
合格ナビゲーターの更新の励みになっています(^^)/       

「この記事が参考になった」と思った方はクリックをお願いします!
SNSでフォローする