Jump to content
Thailand Forum
Grover

List Of 3000 Most Common Thai Words

Recommended Posts

Grover    4

In english they have a list like this - like the one for the Oxford Advanced learners dictionary, which has a careful selection of common use words. I've been searching for a list like this in Thai for years but never found one. Any pointers would be appreciated.

  • Like 1

Share this post


Link to post
Share on other sites
Grover    4

Rikker, that is awesome. I've been looking for something exactly like this for years. Cheers :o Where did you get it from BTW ?

  • Like 1

Share this post


Link to post
Share on other sites
Rikker    20
Rikker, that is awesome. I've been looking for something exactly like this for years. Cheers :o Where did you get it from BTW ?

You're very welcome. But I forgot to answer your question. The data comes courtesy of Doug Cooper at CRCL.

Share this post


Link to post
Share on other sites
wasabi    3

How should I be reading this list? What do the column headers Haas, Links, Orchid and Tax represent?

What do the numbers mean and why does each list have different numbers?

For example the first row, why do three lists have การ but one has เป็น?

Haas Links Orchid Tax

366 เป็น 15978 การ 11888 การ 9861 การ

I've put it in a slightly cleaner Excel Format attached here.

frequency.xls

Edited by wasabi

Share this post


Link to post
Share on other sites
mike_l    1
Grover, the best I can do is I have a list of the 1000 most common words according to four sources of language corpora. I've attached a spreadsheet that I converted to HTML.

The best one is the Mary Haas list. Not sure about Haas, but the other three I know are all computed automatically, so the digits 0 to 9, among other things, count as "words" in their list, as well as some other things that aren't common Thai at all, but appear frequently in their corpora because of a large number of technical texts.

Hope this is helpful.

This is interesting, thanks Rikker. I did a similar thing a while back using all the text that people paste into thai2english.com, and for comparison the top 100 results in order were :

ที่ , และ , จะ , การ , มี , ใน , ได้ , ของ , เป็น , ให้ , ไป , ก็ , ไม่ , ว่า , แล้ว , มา , กับ , คุณ , ใจ , คน , เรา , ฉัน , แต่ , นะ , นี้ , ครับ , อยู่ , เธอ , กัน , ผม , โดย , มัน , จาก , ต้อง , ด้วย , เลย , ยัง , หรือ , ทำ , ใช้ , คือ , เขา , มาก , ผู้ , บอก , พี่ , ดู , เมื่อ , วัน , อะไร , เรื่อง , ถ้า , ดี , เพราะ , อยาก , ค่ะ , ไม่ได้ , ปี , อีก , เพื่อ , พระ , รัก , นั้น , ตัว , ถึง , งาน , สามารถ , หน้า , เวลา , ใคร , ไทย , เพลง , แบบ , ซึ่ง , ไว้ , ขอ , ส่ง , ต่อ , ความ , ท่าน , อย่าง , ใหม่ , เล่น , ก่อน , หา , บ้าน , ตาม , ทาง , สำหรับ , หนึ่ง , เอา , เค้า , คะ , ทำให้ , ขึ้น , ไม่มี , อ่าน , บาท , ราย , ชื่อ

ที่ was the most common by miles (about twice the count of และ), whereas all the others were relatively close. :o

  • Like 1

Share this post


Link to post
Share on other sites
In the Rai!    2
Grover, the best I can do is I have a list of the 1000 most common words according to four sources of language corpora. I've attached a spreadsheet that I converted to HTML.

The best one is the Mary Haas list. Not sure about Haas, but the other three I know are all computed automatically, so the digits 0 to 9, among other things, count as "words" in their list, as well as some other things that aren't common Thai at all, but appear frequently in their corpora because of a large number of technical texts.

Hope this is helpful.

This is interesting, thanks Rikker. I did a similar thing a while back using all the text that people paste into thai2english.com, and for comparison the top 100 results in order were :

ที่ , และ , จะ , การ , มี , ใน , ได้ , ของ , เป็น , ให้ , ไป , ก็ , ไม่ , ว่า , แล้ว , มา , กับ , คุณ , ใจ , คน , เรา , ฉัน , แต่ , นะ , นี้ , ครับ , อยู่ , เธอ , กัน , ผม , โดย , มัน , จาก , ต้อง , ด้วย , เลย , ยัง , หรือ , ทำ , ใช้ , คือ , เขา , มาก , ผู้ , บอก , พี่ , ดู , เมื่อ , วัน , อะไร , เรื่อง , ถ้า , ดี , เพราะ , อยาก , ค่ะ , ไม่ได้ , ปี , อีก , เพื่อ , พระ , รัก , นั้น , ตัว , ถึง , งาน , สามารถ , หน้า , เวลา , ใคร , ไทย , เพลง , แบบ , ซึ่ง , ไว้ , ขอ , ส่ง , ต่อ , ความ , ท่าน , อย่าง , ใหม่ , เล่น , ก่อน , หา , บ้าน , ตาม , ทาง , สำหรับ , หนึ่ง , เอา , เค้า , คะ , ทำให้ , ขึ้น , ไม่มี , อ่าน , บาท , ราย , ชื่อ

ที่ was the most common by miles (about twice the count of และ), whereas all the others were relatively close. :D

Mike thats interisting to se how commomly used..

cheers :o

Share this post


Link to post
Share on other sites
Rikker    20
How should I be reading this list? What do the column headers Haas, Links, Orchid and Tax represent?

What do the numbers mean and why does each list have different numbers?

For example the first row, why do three lists have การ but one has เป็น?

Haas Links Orchid Tax

366 เป็น 15978 การ 11888 การ 9861 การ

I've put it in a slightly cleaner Excel Format attached here.

Thanks for doing that. My original is in Excel, I just wanted to make sure everyone could access it.

The four columns are four different text collections/corpora. One from Mary Haas, another from NECTEC's Linguistics and Knowledge Science Laboratory (LINKS), Chula University's Orchid Corpus (appears to be offline right now), and the one labeled Tax I'm not clear on the exact source, but I think it might be the Thai tax code or a corpus of legal documents of some kind, given the high frequency of tax-related terms in their top 1000 words.

The number next to each word is the number of times that word appears in the corpus. The number at the top of each column is just a sum of the total number of occurrences of top 1000 words.

As for why the lists have different words in the top spots, well, that has to do with at least three things: [a] the size of the corpus, the variety (or lack of it) of the subject matter collected in the corpus, [c] the method used to count occurrences.

The line you've quoted is the top word in each of the four corpora. You can see the Haas corpus is a much smaller corpus, with its top word only occurring 366 times. The other three, all much larger, agree that การ is more common. Orchid is largest at 416,000, but I don't know what constitutes a "word" for the purposes of counting in the Orchid corpus. While English "words" don't correspond to the collections of letters between spaces as much as we tend to think they do, it makes it easy for establishing a clear meaning of "word" for the purpose of gathering corpora (and that is easily countable via automatic means). Thai... a bit trickier. I know the corpora on thai.sealang.net are all counted via number of characters, not words.

Also, one telltale sign that Tax is a very narrow corpus subject-matter-wise is the fact that while it is 269,000 words large, it only has 2100 distinct words in it, while even in Haas there are 4000 distinct words out of 27000 total words.

Edited by Rikker
  • Like 1

Share this post


Link to post
Share on other sites
wasabi    3

Thanks for the detailed reply Rikker,

Where are you coming up with Tax having 2100 and Haas having 4000. I see each list having 1000 words? And can you further define what you mean by corpus. Is this some underlying body of work the statistics are based on? What is this body of work for each.

Share this post


Link to post
Share on other sites
WilliamCave    279

Thanks for the list looks very good but were do I get the translation for the words.

You rule Rikker. Fantastic resource! :o

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now


  • Recently Browsing   0 members

    No registered users viewing this page.

BANGKOK 24 September 2017 12:05
Sponsors
×