به گزارش گویای صنعت به نقل از ایرنا،براساس اعلام روز یکشنبه معاونت علمی، فناوری و اقتصاد دانش بنیان ریاست جمهوری، ستاد اقتصاد دانشبنیان دیجیتال، برنامه ویژهای را در جهت استخراج، دستهبندی و استفاده از این دادهها برای کسبوکارها و نهادهای مختلف در دستور کار خود قرار داده که نتیجه این تلاشها به طراحی و بهرهبرداری از سامانه ای به نام «دادگان» انجامیده است. در دنیای دیجیتالی اهمیت دادهها و اطلاعات بسیار بیش از گذشته برای کسبوکارها مشخص و نمایان شده، به طوری که بسیاری از کارشناسان و فعالان حوزه کلان دادهها و دادهها از آنها به عنوان یک منبع درآمدزایی بزرگ در سطح منابع انرژی یاد میکنند. در جهان کسبوکار امروز، این، دادهها هستند که کسبوکارها را جهتدهی میکنند و به عنوان نقشه راهی برای آینده آنها عمل میکنند.
دادگان شامل:
۱-پیکواد یک مجموعه داده برای درک مطلب ماشینی به زبان فارسی است. این مجموعه شامل ۸۰ هزار سوال به همراه پاسخ آنها است. سوالات پیکواد از مقالات ویکیپدیای فارسی استخراج شدهاند. جمع کل پاراگرافها ۱۱هزارتا است که به هزار و ۱۲۵ مقاله تعلق دارد و طیف وسیعی از موضوعها را پوشش میدهند.۲- پیکره و ماژول مشابهتیابی معنای جملات، که هدف این پروژه ایجاد یک پیکره شباهت معنایی برای زبان فارسی است. در اینجا، منظور از شباهت معنایی فاصله معنایی بین دو جمله است، یعنی این که دو جمله از نظر محتوای واژگانی و موضوع کلی تا چه اندازه به هم شبیه یا از هم متفاوت هستند.
۳- پیکره و فناوری گفت و گوی روزمره زبان فارسی که این پیکره، اولین پیکره زبان فارسی دیالوگ های فیلم و سریال های ایرانی به زبان فارسی و مناسب برای فناوری گفتگوی روزمره فارسی است که در رباتهای مجازی هوشمند ایرانی مورد استفاده قرار می گیرد
به گفته مسئولین این سامانه، پیکره فیلم وسریال دارای ۱۰۰ هزار و ۳۴ گفته است که به این عدد باید تعداد یک میلیون و ۲۸۹ هزار و ۲۸۳ گفته پیکره شبکه های مجازی را نیز اضافه کرد که در میان سرویسهای فارسی آمار خوبی محسوب میشود.
۴- پیکره محاوره به رسمی که کاربردهای بسیار زیادی خواهد داشت. در این پروژه حدود ۵۰ هزار جمله محاوره به معادل رسمی آنها تبدیل شده اند. پیکره حاصله شامل ۵۰ هزار زوج جمله محاوره ای- رسمی و همترازی کلمات آنهاست. به عبارت دیگر علاوه بر زوج جملات معادل، برای هر جمله محاوره ای مشخص شده کدام کلمه یا عبارت آن، معادل با کدام کلمه یا عبارت در جمله رسمی است.
Tuesday, 24 December , 2024