Page 1 of 1

Размер индексного файла

PostPosted: Sat Nov 16, 2013 11:35 am
by ramix
Интересно было бы узнать, что хранит в себе индексный файл Goldendict для DSL-словаря? Только заголовки и адреса или еще что-то?

Я вот взял DSL-словарь размером 7,4 МБ и сжал его в ZIP, получился файл размером 1,5 МБ. А размер индексного файла (насколько я понимаю, он тоже сжатый?), соответствующего этому словарю, составляет 1,4 МБ - почти столько же. Что-то многовато, если там одни лишь заголовки и адреса.

Re: Размер индексного файла

PostPosted: Sat Nov 16, 2013 12:57 pm
by Abs62
Заголовки, адреса, размеры статей. На каждый индексный вход - заголовок в UTF-8 плюс ещё 12 байт. Если заголовок состоит из нескольких слов, формируется несколько индексных входов по числу слов в заголовке. И из всего этого создаётся сортированное двоичное дерево.