آغاز بهکار سامانه پیکرههای «ایرانداک»
بسیاری از پژوهشهای زبانشناسی و تصمیمگیریها در برنامهریزی زبانی، تنها با کاربرد یک پیکره زبانی شدنی هستند. پیکره مجموعهای نظاممند، رایانهای و درست از زبان است که برای بررسیهای زبانشناختی بهکار میرود.
پیکرهها کاربردهای بسیاری را در پردازش زبان طبیعی و درک و بازشناسی گفتار، تبدیل متن به گفتار و گفتار به متن، نگارش فرهنگها، آموزش و پژوهش، ساخت پایگاههای داده زبانی، بررسی واژههای همآیند در زبانهای گوناگون، پایشگری زبان برای پیگیری و ردگیری دگرگونیهای زبانی، ترجمه ماشینی، توسعه مفاهیم و منابع در پیوند با واژگان، نگارش و گسترش مهارتهای نوشتاری، آموزش و یادگیری زبان با شناخت گویشها و گوناگونی زبانها، معناشناسی، تحلیل کلام، زبانشناسی اجتماعی، زبانشناسی حقوقی، واکاوی ژانرهای ادبی و پژوهشهای دستور زبان دارند.
بنا بر اعلام، سامانه پیکرههای ایرانداک (ساپا) که میتواند از چندین پیکره پشتیبانی کند، اکنون دارای یک پیکره با نام «پیکره پژوهشنامه» با نزدیک به چهار میلیون و ۷۸۰ هزار واژه تخصصی و میانرشته در زمینههایی مانند علم اطلاعات و دانششناسی، فناوری اطلاعات، مدیریت دانش، زبانشناسی رایانشی، اصطلاحشناسی و مانند آنهاست.
این پیکره از مقالههای «پژوهشنامه پردازش و مدیریت اطلاعات» ساخته شده است و برای پژوهشهایی که نیازمند بهرهگیری از پیکرههای تخصصی هستند، ارزش و کاربرد بسیاری دارد. هنگام بازیابی اطلاعات در پیکره پژوهشنامه، افزون بر نمایش واژه یا عبارت جستوجو در بافت زبان، نام مقالهای که آن واژه یا عبارت در آن بهکار رفته است، موضوع مقاله، پدیدآور(آن) مقاله و فراوانی واژه یا عبارت جستوجو نیز نمایش داده میشوند.
دادههای این پیکره دارای برچسب اجزای واژگانی کلام (POS tag) نیز هستند که در بسیاری از پردازشهای زبان بهکار میروند و مقوله واژهها (مانند اسم، صفت، قید، و...) را پیدا میکنند.