Abstract:
تولید زبان طبیعی از پردازش زبان طبیعی حاصل میشود. زبان طبیعی از یک سیستم ارائه ماشینی مانند پایگاه دانش تولید میشود. سیستمهای NLG از مدتها پیش وجود داشته اما فنّاوری آن به صورت ابزار تجاری اخیراً بهصورت گسترده به وجود آمده است. در NLG، سیستم نیاز به تصمیمگیری در مورد چگونگی قرار دادن یک مفهوم در کلمات دارد. توانایی ایجاد متن معنیدار نقش کلیدی در بسیاری از کاربردهای پردازش زبان طبیعی مانند ترجمه ماشین، گفتار و تبدیل عکس به متن دارد. هدف این پروژه ارائه روشی برای تولید متن با استفاده از روشهای هوش مصنوعی و با ساختار درست و آغازی برای تولید متن فارسی است. به عبارت دیگر در این مقاله روشی ارائه شده که قادر به تولید متن طولانی متنوع علاوه بر حفظ معنا و ساختار در زبان فارسی میباشد. جهت پیشبرد تولید متن سعی شده از ترکیب روشهای یادگیری ماشین با مدلهای احتمالاتی، استفاده شود. در مدل پیشنهادی از مدلهای احتمالاتی برای استخراج قوانین و از Word2vec برای برداریسازی متن استفاده شده و سپس در فاز تولید از ترکیب این دو و فاصله کسینوسی استفاده میشود. نتایج نشاندهنده ارائه مدلی بوده که متن تولیدی آن دارای ساختار، مفهوم و تنوع مناسب میباشد. همچنین این مدل از نظر انسانی و پیچیدگی نیز بهینه میباشد.
Natural language generation systems are the subset of natural language processing, have been around for a long time, but their technology as a commercial tool has recently become widespread. In natural language generation, the system needs to decide about how to put a concept among words. The ability for generating a meaningful text plays a key role in many natural language processing applications. The aim of this paper is to propose a method for generating text using artificial intelligence methods with the correct structure, a starting point for generating Persian(Farsi) texts. In order to promote the text generation, it has been attempted to use the combination of machine learning methods and probabilistic models. In the proposed model, the probabilistic models and Word2vec, as a word embedding method, are used to extract the rules and to vectorize the text, respectively. Then, combinating these and the cosine distance are used in the generation phase. The results indicate the performance of proposed model and the generated text has the appropriate structure, concept and variety. Also, the model is optimal in terms of humanity and complexity rather than other methods.