Skip to content
KotobaPeek

私たちの方法論

KotobaPeekで目にする数値や定義がどこから来ているのか、知る権利が あなたにはあります。このページでは、明快な日本語で、私たちの ソース、処理方法、データの限界を公開しています。「独自データ」 という言葉の裏に何も隠していません。

主要な頻度ソース

KotobaPeekの日本語語彙データベースは、公開されている日本語コーパス と確立された辞書学的参照から派生した頻度リストの上に構築されて います。各単語について、見出し語、品詞(名詞、動詞、形容詞、副詞 など)、読み方(ふりがな・ローマ字)、参照コーパスでの使用頻度を 抽出しています。

使用している辞書参照

定義、語源、例文については、日本語の主要な辞書参照に依存しています。 これらは、各エントリの検証のためにあなたに参照することをお勧めする ソースでもあります:

JLPTレベル分類 (N5〜N1)

各単語は、コーパス頻度と広く使われている語彙リスト、特に 日本語能力試験(JLPT)の公式・非公式語彙リストに基づいて学習レベル を割り当てられています:

日本語学習者向けの語彙としては、JLPTレベルが業界標準の指標と されています。日本国際教育支援協会(JEES)と国際交流基金が共催する この試験は、世界80カ国以上で実施されており、日本の大学入学、 就職活動、在留資格申請などで広く受け入れられています。

漢字・ひらがな・カタカナの取り扱い

日本語の単語は、漢字、ひらがな、カタカナの3つの文字体系を組み合わ せて表記されます。私たちのデータベースでは:

構築・更新プロセス

  1. 取り込み— 元となる頻度リストをローカルの SQLiteデータベースにインポートします。
  2. クリーニング— 日本語以外のコンテンツ、 エンコーディングの不整合、空のフィールドを除去します。
  3. 導出— レベル、頻度パーセンタイル、 類義語/対義語の関係、文字数別と五十音順のインデックスを、 クリーンなレコードから決定論的に計算します。
  4. 翻訳のクロスリンク— 一部の単語の翻訳を 姉妹辞書(VocabWize 英語、VocabLibre フランス語、 DicionarioWize ポルトガル語、WortWize ドイツ語、 KalimaWize アラビア語)と結合し、言語間の直接リンクを構築します。
  5. 公開— データベースはビルド時にサイトに パッケージ化され、各ページは検証済みの同じスナップショットから 生成されます。

更新頻度

日本語の辞書データは比較的ゆっくりと変化します — 語彙は時間単位で 変わるものではありません。私たちはデータセットを月次の頻度で 更新し、ソースが重要な訂正を公開した場合は即座に更新します。 各単語ページには、人間が読める「最終更新」タグを付けており、 常にデータの出所を確認できます。

クロスリファレンス

私たちの言葉を盲目的に信じる必要はありません。疑問があるエントリ については、これらの権威ある公開リファレンスとの比較をお勧めします:

知っておくべき限界

修正とフィードバック

誤った定義、不足している意味、またはあなたの経験と一致しない レベル分類を見つけた場合、私たちに知らせてください。お問い合わせページから、単語と変更したい点を お送りください。すべての修正リクエストを追跡しています。

この方法論ページは、2026年3月に最後にレビューされました。 データセットの構築方法に対する実質的な変更は、本番ページに 反映される前にここに反映されます。