چکیده:
گراف دانش بهعنوان یکی از بسترهای مهم جهت ورود به عرصه وب معنایی و توسعه ابزارهای پردازش زبان طبیعی شناخته میشود. تاکنون پایگاههای دانش مختلفی در زبانهای گوناگون ایجاد شده است، اما فقدان چنین پایگاهی در کاربردهای پژوهشی و صنعتی که به زبان فارسی اختصاص داشته باشد، کاملا مشهود است. در این مقاله جامعترین پایگاه دانش زبان فارسی بهصورت عمومی و چنددامنهای مشتمل بر 500 هزار موجودیت و 7 میلیون رابطه میان آنها با عنوان «فارسبیس» ارائه میگردد که بهصورت متن باز در دسترس است. منابع اطلاعاتی «فارسبیس» عبارتاند از: اطلاعات ساختیافته «ویکیپدیا» مانند جعبههای اطلاعاتی، جداول وب و همچنین اطلاعاتی که توسط ماژول استخراجگر رابطه از متن خام استخراج شدهاند. موجودیتهای گراف دانش در یک هستانشناسی برگرفته از «دیبیپدیا» و سفارشیشده برای «فارسبیس»، سازماندهی شده است. بهمنظور پیوند جعبههای اطلاعاتی «ویکیپدیا» به هستانشناسی بیش از 7000 نگاشت میان الگوها و خصیصههای «ویکیپدیا» با هستانشناسی برقرار شده است. همچنین، با روشهای یادگیری ماشین و با نظارت خبرگان، قسمتی از هستانشناسی و تعدادی از موجودیتها به «فارسنت» متصل شدهاند. مدل دادهای گراف دانش فارسی بر اساس استاندارد وب معنایی و بهصورت RDF پیادهسازی شده است. بنابراین، دادهها بهصورت سهتایی در پایگاه دانش ذخیره شده و میتوان از طریق زبان SPARQL پرسوجوهای معنایی را بیان نمود. در حال حاضر، اطلاعات متنوعی بهصورت ساختیافته راجع به اشخاص مشهور، مکانهای مهم، سازمانها و شرکتها، آثار ادبی و هنری، گونههای زیستی شامل گیاهان و حیوانات، رویدادها، زیستشناسی و اخترشناسی در این گراف قابل دسترسی است. بهمنظور خدمترسانی به موتورهای جستوجو یک سامانه جستوجو روی موجودیتها و گزارههای آن پیادهسازی شده است. «فارسبیس» از چهار جنبه صحت، فراخوانی، پوشش، و تازگی اطلاعات مورد ارزیابی قرار گرفته که نتایج بهدست آمده حکایت از غنی بودن آن دارد. بستر گراف دانش میتواند در کاربردهای بسیاری نظیر موتورهای جستوجو، سامانه پرسش و پاسخ، بازیابی اطلاعات، پردازش زبان طبیعی، تشخیص موجودیت، مشابهتیابی متن و هر کاربردی که نیازمند موجودیتهای فارسی و ارتباط میان آنهاست، مورد استفاده قرار گیرد.
The knowledge graph plays an important role in the Semantic Web and Natural Language Processing (NLP) tools. There are many knowledge bases in different languages, however lack of Farsi-specific knowledge base appears some defects in research and industrial applications. In this study, the most comprehensive knowledge base in Farsi language is presented, which consists of more than 500K of entities and 7 million relations, which is accessible in an open source repository. Data is supplied from four sources: Farsi Wikipedia and its structured data such as infoboxes, web tables, Wiki tables, and a relation extraction module. A variety of challenges of triple extraction from web tables, especially wiki tables, is addressed and some solutions to tackle these challenges are offered. According to the semantic web, RDF data model and OWL2 ontology employed to implement the Farsi Knowledge Graph (FKG). Resources and their relations are stored in triple format, therefor access to the knowledge graph is provided by a SPARQL endpoint. The FKG consists of several main parts including triple extraction from raw text, triple extraction from structured data, knowledge base creation, a search system on the knowledge base, and an entity linking module. In this paper, overall architecture of these parts is discussed in detail. One of the major contribution of this work is mapping of the ontology to the FarsNet, the Persian WordNet, for research purposes. In this graph, there are a large amount of information on a variety of topics including famous people, important places, organizations and companies, literary and art works, physiology, biology, events, species, astronomy, etc. For evaluation purposes, a small part of triples were randomly collected to build a test dataset for manually inspection. Experimental results demonstrate that more than 94% of triples were obtained correctly through the process of extraction, conversion, mapping, transformation and store. Future of internet according to the semantic web will be a complex and huge global knowledge base, therefor the FKG can play a significant role in developingthis emerging technology.