การสร้างแบบจำลองหัวข้อ (Topic Modelling) เพื่อการวิเคราะห์ข้อความภาษาไทยจากสื่อสังคมออนไลน์ ร่วมกับบริษัท ฟีดแบค 180 จำกัด
by รัชฎา คงคะจันทร์
การสร้างแบบจำลองหัวข้อ (Topic Modelling) เพื่อการวิเคราะห์ข้อความภาษาไทยจากสื่อสังคมออนไลน์ ร่วมกับบริษัท ฟีดแบค 180 จำกัด | |
Topic modelling in Thai language from social media messages in corporation with Feedback 180 Co. Ltd., | |
รัชฎา คงคะจันทร์ | |
2563-10-09 | |
สำนักงานศูนย์วิจัยและให้คำปรึกษาแห่งมหาวิทยาลัยธรรมศาสตร์ | |
จากการที่ปัจจุบันข้อมูลข่าวสารในสื่อสังคมออนไลน์ที่มีลักษณะเป็นเอกสารข้อความภาษาไทย (Text) มีปริมาณเพิ่มมากขึ้นอย่างรวดเร็ว ทั้งจำนวนเอกสารและความหลากหลายของเนื้อหาในเอกสาร หากสามารถนำข้อมูลและสารสนเทศที่อยู่ในเอกสารข้อความภาษาไทยเหล่านั้นมาวิเคราะห์ เพื่อสกัดข้อมูลที่สำคัญและเป็นประโยชน์ออกมาได้ ก็จะสามารถนำไปช่วยในการตัดสินใจทางธุรกิจและพัฒนาศักยภาพขององค์กรธุรกิจและหน่วยงานภาครัฐภายในประเทศได้ ปัญหาที่สำคัญอย่างหนึ่งของการสกัดสารสนเทศออกจากเอกสารข้อความภาษาไทย คือ ความสามารถในการระบุหัวข้อ (Topic) ของเอกสารจากเนื้อหาข้อความภายในเอกสาร โดยการพิจารณาจากความสัมพันธ์ระหว่างค่าหรือกลุ่มคำที่อยู่ในหัวข้อเดียวกัน ด้วยเหตุนี้ โครงการวิจัยนี้จึงมีจุดประสงค์เพื่อค้นหาวิธีการในการสร้างแบบจำลองหัวข้อ (Topic Modeling) จากกลุ่มเอกสารข้อความภาษาไทยในสื่อสังคมออนไลน์ โดยมีความสามารถที่จะระบุหัวข้อของชุดเอกสาร ซึ่งในแต่ละเอกสารสามารถประกอบด้วยจำนวนหัวข้อที่มากกว่าหนึ่งหัวข้อได้ พร้อมทั้งระบุความเกี่ยวข้องระหว่างแต่ละหัวข้อกับเนื้อหาในแต่ละเอกสาร เพื่อวิเคราะห์หาคะแนนความเกี่ยวพันของแต่ละหัวข้อในเอกสารดังกล่าวได้ The social media online has popular on the internet. The data comes from the social media online is increasing in every second. Most of the available data is text which is in unstructured format. To analyze these data, we need to automated extract the desired information for fueling the organization’s business decisions to improve their products or services to serve customer needs. The important process for information extraction is to identify topics from text documents. Topic Modelling (TM) refers to automate the extraction of topic from unstructured sources. Keyword extraction is a part of TM to discover implicit and potentially important keywords in underlying unstructured natural-language texts. Due to the inherent characteristic of Thai written language which does not explicitly use any word delimiting characters, identifying individual words. In this project, an alternative method for word-formation for noun phrase recognition is proposed. The word-formation is improving keyword extraction using the compound noun pattern. We use the word-formation to applying the TextRank algorithm to group the noun phrase, there are selected as candidates to calculate in the algorithm. The dataset for experiments are 2,727 documents in the banking domain from social online such as Facebook, Twitter, and online news. The experimental results yield 47.10% of accuracy with significant improvement by word-formation. According, the keyword have effective for TM. |
|
สร้างแบบจำลองหัวข้อ
วิเคราะห์ข้อความภาษาไทย สื่อสังคมออนไลน์ บริษัท ฟีดแบค 180 จำกัด |
|
รายงานวิจัย | |
Text | |
application/pdf | |
tha | |
เอกสารฉบับนี้สงวนสิทธิ์โดยผู้ให้ทุน ห้ามทำซ้ำ คัดลอก หรือนำไปเผยแพร่ตัดต่อโดยมิได้รับอนุญาตเป็นลายลักษณ์อักษร | |
บุคคลทั่วไปสามารถเข้าถึงเอกสารนี้ได้ | |
บริษัท ฟีดแบค 180 จำกัด | |
https://repository.turac.tu.ac.th/handle/6626133120/909 |
Files in this item (CONTENT) |
|
View no fulltext.doc ( 21.50 KB ) |
This item appears in the following Collection(s) |
|
Collections
|