ایجاد هوشمندترین موتور جستوجوی مستندات فارسی
خبرگزاری مهر: نبیک، موتور جستوجوی مستندات فارسی است که هوشمندترین موتور استخراج متون فارسی به شمار میرود. این موتور جستوجو به تازگی توسط محققان دانشگاه صنعتی امیرکبیر ایجاد شده است. مهدی شجری، عضو هیات علمی دانشگاه امیرکبیر و بنیانگذار «نبیک» با بیان اینکه مشکلات پردازش مستندات فارسی که از فونتها و صفحهآراییهایی متنوعی استفاده میکنند به حدی است که حتی گوگل به دلیل عدم سرمایهگذاری کافی در حوزه مستندات فارسی قادر به استخراج محتوای متنی و جستوجوپذیر کردن بسیاری از مستندات فارسی موجود در اینترنت نیست، افزود: از سوی دیگر محققان و پژوهشگران و حتی کاربران عادی برای یافتن اطلاعات و تحقیق روی موضوعات مختلف وب را جستوجو میکنند، در حالی که تا کنون هیچ ابزار موثری برای جستوجوی مستندات فارسی که گنجینهای ارزشمند محسوب میشود وجود نداشته است.
خبرگزاری مهر: نبیک، موتور جستوجوی مستندات فارسی است که هوشمندترین موتور استخراج متون فارسی به شمار میرود. این موتور جستوجو به تازگی توسط محققان دانشگاه صنعتی امیرکبیر ایجاد شده است. مهدی شجری، عضو هیات علمی دانشگاه امیرکبیر و بنیانگذار «نبیک» با بیان اینکه مشکلات پردازش مستندات فارسی که از فونتها و صفحهآراییهایی متنوعی استفاده میکنند به حدی است که حتی گوگل به دلیل عدم سرمایهگذاری کافی در حوزه مستندات فارسی قادر به استخراج محتوای متنی و جستوجوپذیر کردن بسیاری از مستندات فارسی موجود در اینترنت نیست، افزود: از سوی دیگر محققان و پژوهشگران و حتی کاربران عادی برای یافتن اطلاعات و تحقیق روی موضوعات مختلف وب را جستوجو میکنند، در حالی که تا کنون هیچ ابزار موثری برای جستوجوی مستندات فارسی که گنجینهای ارزشمند محسوب میشود وجود نداشته است.
شجری عنوان کرد: از این رو به دلیل مشکلات فراوانی که در زمینه جستوجوی متون فارسی وجود داشت، به فکر ایجاد موتور جستوجوی ایرانی افتادیم که این موتور جستوجوی ایرانی کاملترین موتور پردازش و جستوجوی مستندات فارسی با نام نبیک (nebeek.com) است. عضو هیات علمی دانشگاه امیر کبیر افزود: برای راهاندازی سایت نبیک یک موتور قوی استخراج متن از فایلهای pdf توسعه داده شده است که با توجه به چالشهای فنی پردازش فایلهای مستندات فارسی و بهخصوص فایلهای pdf فارسی قطعا هوشمندترین موتور استخراج متون فارسی از این فایلها است که
تا کنون ارائه شده است. وی با اشاره به اینکه در نبیک متون فارسی با دقت بالا به صورت خام استخراج میشوند، خاطر نشان کرد: پس از استخراج متن فارسی، بر روی آن پسپردازشهایی انجام میگیرد از جمله استخراج کلمات و عبارات محوری در متن، استخراج خودکار فهرست مطالب و استخراج اطلاعات نحوه شماره گذاری صفحات مستند. علاوه بر آن اطلاعاتی در مورد عناوین اصلی و فرعی و شروع و پایان هر پاراگراف و هر بخش و زیربخش مستند نیز استخراج میشوند. به گفته وی درحال حاضر صدها فونت فارسی در نبیک حمایت میشود.
ارسال نظر