Skip to content

Latest commit

 

History

History
32 lines (26 loc) · 2.11 KB

README.md

File metadata and controls

32 lines (26 loc) · 2.11 KB

Indexing and Querying using BM25 and Dirichlet LM

This repository contains my work for the Advanced Information Retrieval Course at the University of Indonesia

Requirements

  • Python 3.7 or above
  • Library:
    • Pyterrier
    • pandas

Definition

  • BM25 is ranking function which calculates score to represent a document's relevance with respect to query.
  • Dirichlet Language Model (DLM) is retrieval model yields longer sentences than using BM25.

Task

  • Melakukan querying menggunakan scoring function BM25 dengan hanya mengambil top 10 documents untuk setiap query
  • Melakukan evaluasi hasil retrieval BM25 seluruh query dengan metric evaluasi precision@10, recall@10, dan MRR
  • Melakukan evaluasi hasil retrieval BM25 per query dengan metric evaluasi precision@10, recall@10, dan MRR
  • Melakukan querying menggunakan scoring function Dirichlet Language Model (DLM) dengan hanya mengambil top 10 documents untuk setiap query
  • Melakukan evaluasi hasil retrieval DLM seluruh query dengan metric evaluasi precision@10, recall@10, dan MRR
  • Melakukan evaluasi hasil retrieval DLM per query dengan metric evaluasi precision@10, recall@10, dan MRR

Task Analisis Hasil

  1. Manakah metode yang memiliki efektivitas lebih baik antara BM25 dan LM? Apakah perbedaan skor yang diperoleh sinifikan secara statistik?
  2. Pada query mana saja BM25 lebih unggul, dan pada query mana saja LM lebih unggul? Berikan analisis Anda mengapa hal ini bisa terjadi
  3. Query ID berapa yang memiliki nilai evaluasi terbaik dengan metode BM25? Query ID berapa yang memiliki nilai evaluasi terbaik dengan metode LM? Berikan analisis Anda mengapa hal ini bisa terjadi.
  4. Query ID berapa yang memiliki nilai evaluasi terburuk dengan metode BM25? Query ID berapa yang memiliki nilai evaluasi terburuk dengan metode LM? Berikan analisis Anda mengapa hal ini bisa terjadi.

References