私たちの方法論

KotobaPeekで目にする数値や定義がどこから来ているのか、知る権利があなたにはあります。このページでは、明快な日本語で、私たちのソース、処理方法、データの限界を公開しています。「独自データ」という言葉の裏に何も隠していません。

主要な頻度ソース

KotobaPeekの日本語語彙データベースは、公開されている日本語コーパスと確立された辞書学的参照から派生した頻度リストの上に構築されています。各単語について、見出し語、品詞（名詞、動詞、形容詞、副詞など）、読み方（ふりがな・ローマ字）、参照コーパスでの使用頻度を抽出しています。

定義、語源、例文については、日本語の主要な辞書参照に依存しています。これらは、各エントリの検証のためにあなたに参照することをお勧めするソースでもあります：

ウィクショナリー日本語版 (Wiktionary JA) — CC BY-SAライセンスで運営されている多言語の協力型辞書。詳細な語源情報と方言の注釈があります。
JMdict / EDICT (Jim Breen, Monash University) — ジム・ブリーン教授によって維持されている日英電子辞書プロジェクト。Creative Commons BY-SAで公開されており、Jisho.org をはじめ多くの日本語学習ツールの基盤となっています。
コトバンク（朝日新聞社・VOYAGE GROUP） — 大辞泉、日本国語大辞典、デジタル大辞泉などの権威ある日本語辞書を統合した辞書プラットフォーム。
Weblio 国語辞典 — 三省堂大辞林をはじめとする辞書の検索プラットフォーム。現代用法の確認に便利です。
現代日本語書き言葉均衡コーパス (BCCWJ, 国立国語研究所) — 国立国語研究所(NINJAL)が公開している日本語の代表的な均衡コーパス。約1億語規模で、現代日本語の頻度研究の標準とされています。

各単語は、コーパス頻度と広く使われている語彙リスト、特に日本語能力試験(JLPT)の公式・非公式語彙リストに基づいて学習レベルを割り当てられています：

日本語学習者向けの語彙としては、JLPTレベルが業界標準の指標とされています。日本国際教育支援協会(JEES)と国際交流基金が共催するこの試験は、世界80カ国以上で実施されており、日本の大学入学、就職活動、在留資格申請などで広く受け入れられています。

日本語の単語は、漢字、ひらがな、カタカナの3つの文字体系を組み合わせて表記されます。私たちのデータベースでは：

取り込み— 元となる頻度リストをローカルの SQLiteデータベースにインポートします。
クリーニング— 日本語以外のコンテンツ、エンコーディングの不整合、空のフィールドを除去します。
導出— レベル、頻度パーセンタイル、類義語/対義語の関係、文字数別と五十音順のインデックスを、クリーンなレコードから決定論的に計算します。
翻訳のクロスリンク— 一部の単語の翻訳を姉妹辞書（VocabWize 英語、VocabLibre フランス語、 DicionarioWize ポルトガル語、WortWize ドイツ語、 KalimaWize アラビア語）と結合し、言語間の直接リンクを構築します。
公開— データベースはビルド時にサイトにパッケージ化され、各ページは検証済みの同じスナップショットから生成されます。

日本語の辞書データは比較的ゆっくりと変化します — 語彙は時間単位で変わるものではありません。私たちはデータセットを月次の頻度で更新し、ソースが重要な訂正を公開した場合は即座に更新します。各単語ページには、人間が読める「最終更新」タグを付けており、常にデータの出所を確認できます。

私たちの言葉を盲目的に信じる必要はありません。疑問があるエントリについては、これらの権威ある公開リファレンスとの比較をお勧めします：

方言の扱い。 私たちの定義は標準語（共通語）に重点を置いており、関西弁、東北弁、九州弁などの地方方言のニュアンスを必ずしも区別していません。方言固有の用法については専門の参考資料を参照してください。
新語・流行語。 直近12ヶ月以内に作られた新語は含まれていない、またはデータが限定的な場合があります。これらは次回の更新サイクルで最も更新される可能性が高いエントリです。
固有名詞と専門用語。 専門的な技術、医学、法律用語は含まれていますが、私たちの主要な焦点ではありません。専門分野の作業には、その分野の参考資料を使用してください。
頻度は全体的な指標です。 ある単語は特定のレジスター（例：法律日本語）では稀でも、別のレジスター（例：日常会話）では一般的である場合があります。私たちのパーセンタイルは全体的な使用を表しています。
敬語の文脈。 日本語には複雑な敬語システム（尊敬語・謙譲語・丁寧語）があります。私たちのデータでは基本的な品詞を示しますが、敬語の使い分けは別の参考資料で学ぶ必要があります。

誤った定義、不足している意味、またはあなたの経験と一致しないレベル分類を見つけた場合、私たちに知らせてください。お問い合わせページから、単語と変更したい点をお送りください。すべての修正リクエストを追跡しています。

この方法論ページは、2026年3月に最後にレビューされました。データセットの構築方法に対する実質的な変更は、本番ページに反映される前にここに反映されます。