New user registration is currently disabled due to spam abuse / Регистрация новых пользователей в настоящее время приостановлена из-за злоупотреблений спаммерами

Размер индексного файла

Обо всём по программе

Размер индексного файла

Postby ramix » Sat Nov 16, 2013 11:35 am

Интересно было бы узнать, что хранит в себе индексный файл Goldendict для DSL-словаря? Только заголовки и адреса или еще что-то?

Я вот взял DSL-словарь размером 7,4 МБ и сжал его в ZIP, получился файл размером 1,5 МБ. А размер индексного файла (насколько я понимаю, он тоже сжатый?), соответствующего этому словарю, составляет 1,4 МБ - почти столько же. Что-то многовато, если там одни лишь заголовки и адреса.
ramix
 
Posts: 27
Joined: Fri Mar 09, 2012 12:16 pm

Re: Размер индексного файла

Postby Abs62 » Sat Nov 16, 2013 12:57 pm

Заголовки, адреса, размеры статей. На каждый индексный вход - заголовок в UTF-8 плюс ещё 12 байт. Если заголовок состоит из нескольких слов, формируется несколько индексных входов по числу слов в заголовке. И из всего этого создаётся сортированное двоичное дерево.
Abs62
 
Posts: 631
Joined: Mon Jun 14, 2010 11:51 am


Return to Общий

Who is online

Users browsing this forum: No registered users and 19 guests