วิธีที่มีประสิทธิภาพในการคำนวณการรวมความยาวเฉพาะของข้อมูลที่อยู่ติดกัน?

ฉันมีรายการองค์ประกอบ ซึ่งฉันต้องการกำหนดชุดค่าผสมที่เป็นไปได้ทั้งหมดที่สามารถจัดเรียงได้ - รักษาลำดับ - เพื่อไปถึงกลุ่ม 'n'

ตัวอย่างเช่น หากฉันมีรายการเรียงลำดับของ A, B, C, D, E และต้องการเพียง 2 กลุ่ม วิธีแก้ปัญหาทั้งสี่จะเป็นดังนี้

ABCD, E
ABC, DE
AB, CDE
A, BCDE

ตอนนี้ ด้วยความช่วยเหลือจาก โพสต์ StackOverflow อื่น ฉันจึงได้โซลูชันแบบ brute-force ที่ใช้งานได้ ซึ่งจะคำนวณชุดค่าผสมที่เป็นไปได้ทั้งหมด ของการจัดกลุ่มที่เป็นไปได้ทั้งหมด ซึ่งฉันเพียงแยกกรณีที่ตรงกับจำนวนการจัดกลุ่มเป้าหมายของฉัน

สำหรับองค์ประกอบในจำนวนที่สมเหตุสมผล นี่เป็นเรื่องปกติ แต่เมื่อฉันขยายจำนวนองค์ประกอบ จำนวนชุดค่าผสมจะเพิ่มขึ้นอย่างรวดเร็วมาก และฉันสงสัยว่าอาจมีวิธีที่ชาญฉลาดในการจำกัดโซลูชันที่คำนวณไว้เฉพาะที่ตรงตามเงื่อนไขหรือไม่ หมายเลขกลุ่มเป้าหมายของฉัน?

รหัสจนถึงตอนนี้มีดังนี้;

import itertools
import string
import collections

def generate_combination(source, comb):
    res = []
    for x, action in zip(source,comb + (0,)):
        res.append(x)
        if action == 0:
            yield "".join(res)
            res = []
            
#Create a list of first 20 letters of the alphabet
seq = list(string.ascii_uppercase[0:20])
seq

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T']

#Generate all possible combinations
combinations = [list(generate_combination(seq,c)) for c in itertools.product((0,1), repeat=len(seq)-1)]
len(combinations)

524288

#Create a list that counts the number of groups in each solution, 
#and counter to allow easy query
group_counts = [len(i) for i in combinations]
count_dic = collections.Counter(group_counts)
count_dic[1], count_dic[2], count_dic[3], count_dic[4], count_dic[5], count_dic[6]

(1, 19, 171, 969, 3876, 11628)

อย่างที่คุณเห็น ในขณะที่คำนวณชุดค่าผสมมากกว่าครึ่งล้านชุด หากฉันต้องการเพียงชุดค่าผสมที่มีความยาว = 5 ก็คำนวณได้เพียง 3,876 ชุดเท่านั้น

มีข้อเสนอแนะอะไรบ้าง?


person vinomarky    schedule 06.07.2019    source แหล่งที่มา


คำตอบ (1)


พาร์ติชัน seq ออกเป็น 5 ส่วนเทียบเท่ากับตัวเลือก 4 ตำแหน่งใน range(1, len(seq)) ที่จะตัด seq ดังนั้นคุณสามารถใช้ itertools.combinations(range(1, len(seq)), 4) เพื่อสร้างพาร์ติชันทั้งหมดของ seq ออกเป็น 5 ส่วน:

import itertools as IT
import string

def partition_into_n(iterable, n, chain=IT.chain, map=map):
    """
    Return a generator of all partitions of iterable into n parts.
    Based on http://code.activestate.com/recipes/576795/ (Raymond Hettinger)
    which generates all partitions.
    """
    s = iterable if hasattr(iterable, '__getitem__') else tuple(iterable)
    size = len(s)
    first, middle, last = [0], range(1, size), [size]
    getitem = s.__getitem__
    return (map(getitem, map(slice, chain(first, div), chain(div, last)))
            for div in IT.combinations(middle, n-1))

seq = list(string.ascii_uppercase[0:20])
ngroups = 5
for partition in partition_into_n(seq, ngroups):
    print(' '.join([''.join(grp) for grp in partition]))

print(len(list(partition_into_n(seq, ngroups))))

อัตราผลตอบแทน

A B C D EFGHIJKLMNOPQRST
A B C DE FGHIJKLMNOPQRST
A B C DEF GHIJKLMNOPQRST
A B C DEFG HIJKLMNOPQRST
...
ABCDEFGHIJKLMNO P Q RS T
ABCDEFGHIJKLMNO P QR S T
ABCDEFGHIJKLMNO PQ R S T
ABCDEFGHIJKLMNOP Q R S T
3876
person unutbu    schedule 07.07.2019