سامانه پیکره‌های هوش مصنوعی توسعه پرسش و پاسخ و محاوره فارسی «دادگان» به همت فناوران ایرانی با هدف استخراج، دسته‌بندی و استفاده از داده‌ها برای کسب‌وکارها و نهادهای مختلف راه اندازی شد. «دادگان» با کمک هوش مصنوعی و ابزارهای مرتبط به این فناوری جدید و به روز، اقدام به جمع‌آوری داده‌ها و کلان داده‌ها کرده و در نهایت به ارتقاء سطح کمی و کیفی کسب و کارها کمک شایانی می‌کند.

به گزارش گویای صنعت به نقل از ایرنا،براساس اعلام روز یکشنبه معاونت علمی، فناوری و اقتصاد دانش بنیان ریاست جمهوری، ستاد اقتصاد دانش‌بنیان دیجیتال، برنامه ویژه‌ای را در جهت استخراج، دسته‌بندی و استفاده از این داده‌ها برای کسب‌وکارها و نهادهای مختلف در دستور کار خود قرار داده که نتیجه این تلاش‌ها به طراحی و بهره‌برداری از سامانه ای به نام «دادگان» انجامیده است. در دنیای دیجیتالی اهمیت داده‌ها و اطلاعات بسیار بیش از گذشته برای کسب‌وکارها مشخص و نمایان شده، به طوری که بسیاری از کارشناسان و فعالان حوزه کلان داده‌ها و داده‌ها از آنها به عنوان یک منبع درآمدزایی بزرگ در سطح منابع انرژی یاد می‌کنند. در جهان کسب‌وکار امروز، این، داده‌ها هستند که کسب‌وکارها را جهت‌دهی می‌کنند و به عنوان نقشه راهی برای آینده آنها عمل می‌کنند.

دادگان شامل:

۱-پیکواد یک مجموعه داده برای درک مطلب ماشینی به زبان فارسی است. این مجموعه شامل ۸۰ هزار سوال به همراه پاسخ آن‌ها است. سوالات پیکواد از مقالات ویکی‌پدیای فارسی استخراج شده‌اند. جمع کل پاراگراف‌ها ۱۱هزارتا است که به هزار و ۱۲۵ مقاله تعلق دارد و طیف وسیعی از موضوع‌ها را پوشش می‌دهند.۲- پیکره و ماژول مشابهت‌یابی معنای جملات، که هدف این پروژه ایجاد یک پیکره شباهت معنایی برای زبان فارسی است. در اینجا، منظور از شباهت معنایی فاصله معنایی بین دو جمله است، یعنی این که دو جمله از نظر محتوای واژگانی و موضوع کلی تا چه اندازه به هم شبیه یا از هم متفاوت هستند.

۳- پیکره و فناوری گفت و گوی روزمره زبان فارسی که این پیکره، اولین پیکره زبان فارسی دیالوگ های فیلم و سریال های ایرانی به زبان فارسی و مناسب برای فناوری گفتگوی روزمره فارسی است که در ربات‌های مجازی هوشمند ایرانی مورد استفاده قرار می گیرد
به گفته مسئولین این سامانه، پیکره فیلم وسریال دارای ۱۰۰ هزار و ۳۴ گفته است که به این عدد باید تعداد یک میلیون و ۲۸۹ هزار و ۲۸۳ گفته پیکره شبکه های مجازی را نیز اضافه کرد که در میان سرویس‌های فارسی آمار خوبی محسوب می‌شود.

۴- پیکره محاوره به رسمی که کاربردهای بسیار زیادی خواهد داشت. در این پروژه حدود ۵۰ هزار جمله محاوره به معادل رسمی آنها تبدیل شده اند. پیکره حاصله شامل ۵۰ هزار زوج جمله محاوره ای- رسمی و همترازی کلمات آنهاست. به عبارت دیگر علاوه بر زوج جملات معادل، برای هر جمله محاوره ای مشخص شده کدام کلمه یا عبارت آن، معادل با کدام کلمه یا عبارت در جمله رسمی است.