The goal of this project is to find the most repeated words in each different language. In this, I don't want to focus only on official texts, so unofficial and conversational texts are important too. Now I began with finding the most repeated words in Farsi (my native language that also called Persian). for collecting the words I used the RSS feed of 171 blogs. The result of reading the feed was 743646 words and 55442 unique words. I stored all words and unique words in two SQL tables that you can access theme in the Farsi folder, also for ease I stored the top 100 and top 500 most repeated Farsi words in two files. You can see the source of farsi texts on topblogsrss.txt
هدف از این پروژه یافتن کلمات پرتکرار در زبانهای مختلف است. در این پروژه ما نه فقط به متون رسمی بلکه به متون غیر رسمی و محاورهای هم توجه میکنیم.
من این کار را با زبان فارسی شروع کردم، و برای این هدف به سراغ فید آراساس ۱۷۱ وبلاگ رفتم. دلیل این کار وجود متنهای رسمی و محاورهای در وبلاگها بود.
و نتیجهی خواندن این فیدها ۷۴۳۶۴۶ کلمه و ۵۵۴۴۲ کلمهی منحصر به فرد بود.
من همهی این کلمات و همچنین کلمات منحصر به فرد را به صورت دو فایل SQL در پوشهی فارسی ذخیره کردم. همچنین برای راحتی کار به صورت جداگانه ۱۰۰ کلمه و ۵۰۰ کلمهی پرتکرار را هم در دو فایل مجزا ذخیره کردم.
همچنین آدرس فیدهای آراساسی که کلمات فارسی را از آنها استخراج کردم را هم در فایل topblogsrss.txt منتشر کردم